Grok-2上線，圖像生成能力超亮眼，馬斯克對戰OpenAI扳回一城？

2024081611:54

埃隆·馬斯克最近又雙叒叕賺足了流量。

先是周一與美國前總統唐納德·特朗普在社交平臺X（前身為推特）上進行了兩個多小時的在線訪談直播，吸引了超過180萬觀眾同時在線觀看。緊接著，他的人工智能公司xAI就對旗下的AI聊天機器人Grok進行重大升級，「引爆」X的時間線。

美國西海岸時間8月13日晚，xAI宣布Grok-2的測試版本正式上線，這也是Grok首次引入圖像生成功能。

「Grok-2 是我們最先進的 AI 助手，具備了高級的文本和視覺理解能力，並集成了來自X平臺的實時信息。用戶可通過X應用程序中的 Grok 選項卡訪問Grok-2。而Grok-2 mini則是我們的小巧但強大的版本，兼顧了速度和回答質量。」xAI在官網上介紹道。

目前，Grok-2在X上僅向Premium（每月7美元）和Premium Plus（每月14美元）的訂閱用戶提供服務。幸運的是，我正好是這些「尊貴」訂閱者中的一員。

話不多說，立刻為大家全方位展示Grok-2的使用體驗。

首先，登錄我的X賬號，點擊左側導航欄的Grok，便跳轉到最新的Grok的使用頁面，整個過程和之前版本的Grok並無差異，只是在最上面多了Grok-2 mini（beta）的選項。

但頁面新增了「幫我寫一封求職信」，「告訴我今天的頭條」，「用Python解決Two Sum問題」，以及「推薦一個幻想RPG遊戲」等快捷prompt的選擇。

繼續瀏覽，我還發現Grok-2增加了熱門話題/新聞的推薦，這些內容被劃分為天氣、網絡安全、旅遊、金融、商業等多個類別。

在初步了解了Grok-2後，我們重點來看看這次更新的亮點——圖像生成功能的表現。

據xAI透露，Grok-2的圖像生成功能背後采用的是由Black Forest Lab開發的FLUX.1模型。

由Stability.ai前開發人員在德國創立，Black Forest Lab專註於圖像和視頻生成技術。在 Grok-2 發布之前，該公司的旗艦模型FLUX.1就憑借出色的圖像生成能力在AI和藝術圈引起轟動。根據Artificial Analysis 的數據，FLUX.1在質量方面超越了 Midjourney和OpenAI的圖像生成器。

Black Forest Lab在最近的一輪融資中籌集了3100萬美元，投資者包括知名科技投資公司a16z。

下面我們來實測一下FLUX.1的表現。我先讓Grok-2生成一張各種各樣的人在北京三裏屯街頭散步的圖像。輸入提示後，大約7秒鐘後生成了圖像。

然而結果令人有些失望，畫面更像是日本某個商業街，廣告牌上還寫滿了類似日語的文字。

為優化輸出效果，我改用中文輸入提示：「請生成一張各種各樣的人在北京三裏屯漫步的圖像」。

畫面帶有東京銀座的風格，廣告牌上的字體也介於日語和中文之間，顯得不倫不類，看來Grok-2對中日風格的理解有些模糊。

為了驗證我的猜想，我又讓Grok-2生成一張「各種各樣的人在東京銀座漫步的圖像」。

可以看出上下兩張圖的區別不大，這可能是由於其訓練數據的多樣性和代表性不足，導致模型無法精確捕捉不同國家的文化、建築和地理特征。此外，Grok-2作為多模態模型，可能在將文本提示與正確的視覺元素匹配時存在挑戰，進一步影響了生成圖像的準確性和真實性。

接下來，我向Grok-2提出新的要求：「請生成一張埃隆·馬斯克和唐納德·特朗普聊天的圖像，用動畫片《辛普森一家》的風格」。

由於互聯網中有大量的《辛普森一家》以及馬斯克和特朗普的相關圖像信息可以用於訓練，這次的結果十分完美：Grok-2完美掌握了《辛普森一家》的畫風，生成的圖像幾乎就像動畫片裏的截圖。

還不夠過癮，我又讓Grok-2基於我最喜歡的動漫《瑞克和莫蒂》生成一張這兩個「北美頂流」的聊天畫面。

結果依舊驚艷。為了對比，我嘗試讓ChatGPT-4o也生成相似的圖像，要求使用《辛普森一家》的風格。

很可惜，ChatGPT-4o拒絕為我生成圖片，並說因為這不符合它的內容政策，在嘗試讓它生成《瑞克和莫蒂》風格的圖像時，它也給出了同樣的回復。

不同於Grok-2，ChatGPT-4o以及其他主流的圖像生成器，如Midjourney、DALL-E 3和Microsoft Designer，對內容生成有嚴格的版權保護措施，特別是在特定風格、名人肖像和受版權保護作品的生成上限製更大。

這些限製的加強，很大一部分原因是今年早些時候，一張AI生成的泰勒·斯威夫特虛假露骨照片在社交媒體上瘋傳，引發了不少爭議。隨後，各大平臺進一步收緊了版權管理，防止類似濫用的發生。這不僅有效保護了創作者的權益，也降低了法律風險，確保AI技術能被負責任地使用。

但令人擔憂的是，目前的測試顯示，Grok-2在版權保護上幾乎沒有任何防範措施。雖然這與馬斯克一貫倡導的「自由」和「冒險」精神相符，但也明顯增加了AI濫用的風險，可能讓深度偽造和虛假信息在網絡上更加泛濫。

總體而言，Grok-2大致在10秒以內可以生成圖像，且最終的呈現效果「驚艷」，接下來我們再來測試一下它的其他能力。

基於《向60個LLM提出20 個問題》這個在Haker News社區中廣為流傳帖子，我選取了幾個問題，同時詢問了Grok-2和ChatGPT-4o，大家可以自行比較它們的表現。

1. 簡單推理能力

題目：女孩Sally有3個兄弟，每個兄弟有2個姐妹，請問Sally 有多少個姐妹？

（左為ChatGPT-4o，右為Grok-2）

在幾乎相同的時間裏，ChatGPT-4o和Grok-2都給出了答案。但這次ChatGPT-4o出錯了，稱Sally有兩個姐妹，而Grok-2正確地指出Sally只有一個姐妹。

2. 知識能力

題目：用一小段文字向高中生解釋量子場論。

（左為ChatGPT-4o，右為Grok-2）

ChatGPT-4o的解釋：量子場論(QFT) 是物理學中的一個基本框架，它結合了量子力學和狹義相對論來描述電子和光子等粒子如何相互作用。量子場論不將粒子視為微小的點，而是將它們視為存在於空間各處的潛在場的激發態。這些場可以想象成看不見的波，當它們振動或相互作用時，它們就會產生我們看到的粒子。這一理論有助於解釋電磁力等力以及極小尺度粒子（如原子內部粒子）的行為。

Grok-2的解釋：量子場論(QFT) 就像是物理學的超高級版本，它結合了處理電子等微小粒子的量子力學和這些粒子實際上是充滿整個空間的場中的微小振動或波的思想。想象一下，如果你周圍的空氣不僅僅是空的，而是充滿了看不見的、搖晃的東西，而你所知道的每個粒子都只是這些東西中的漣漪或波浪。量子場論幫助我們了解這些粒子如何相互作用、變化，甚至突然出現和消失，所有這些都受這些場的支配。它是一種描述宇宙中一切事物（從光到物質）在最小尺度上的行為的方式，使用的數學可能會讓你頭暈目眩，但在預測粒子的行為方式方面卻非常準確。

對於沒有任何高等物理知識背景的我而言，Grok-2的解釋更容易理解。

3. 代碼能力

題目：解釋以下代碼中的錯誤：

from time import sleep

from multiprocessing.pool import ThreadPool

def task():

sleep(1)

return 'all done'

if __name__ == '__main__':

with ThreadPool() as pool:

result = pool.apply_async(task())

value = result.get()

print(value)

（左為ChatGPT-4o，右為Grok-2）

這段代碼中的錯誤是由於對apply_async的使用方式不正確造成的。

在耗時相當的情況下，ChatGPT-4o和Grok-2都指出了上述代碼中存在的問題，並給出了正確的代碼。

4. 創造力

題目：請給我講一個關於度假的笑話

（上為Grok-2，下為ChatGPT-4o）

Grok-2的笑話是這樣的——「為什麼手提箱要旅行？」「因為它們想從每天的<裝>和<不裝>中透透氣。此外，它聽到了海灘的呼喚，想要看看沙是不是像每個人說的那樣細軟。」

在創意這一輪，我投給ChatGPT-4o，因為它的段子更冷：「為什麼骷髏們不去旅行？」「因為他們沒有<膽>。」

在周二晚間發布的新聞稿中，xAI提到，Grok-2向公眾開放測試之前，它的早期版本已通過「sus-column-r」這個名稱，在LMSYS聊天機器人競技場進行測試，並且總體Elo得分優於Claude和GPT-4。

（截圖來自xAI官網）

Grok-2推出後，馬斯克也激動地在X上向他「勤奮的xAI團隊」表示祝賀。

看到這裏，開發者們是不是也躍躍欲試了？別慌，在本月晚些時候，Grok-2和Grok-2 mini將通過企業API向各位提供使用。

一邊批評OpenAI「不夠open」，一邊重復OpenAI的老路。

馬斯克曾是OpenAI的聯合創始人，但在2018年由於對公司發展方向和管理層控製權的分歧選擇離開，並在特斯拉內部啟動了AGI項目，最終於2023年3月創立了xAI。

在今年5月的B輪融資中xAI籌集了60億美元，估值達到240億美元，成為全球最有價值的人工智能公司之一，僅次於OpenAI。此次融資還吸引了諸多知名投資者，包括Valor Equity Partners、a16z、紅杉資本和富達等。

這些年來，隨著OpenAI在生成式AI領域的突飛猛進，馬斯克針對它的批評也逐漸頻繁。尤其是薩姆·奧爾特曼宣布與微軟合作之後，他的火氣值更是飆升。

批評的聲音主要集中在幾個方面：OpenAI已經偏離了最初要造福人類的初衷，變得越來越商業化。其次，OpenAI從開源變成閉源，這和最初的透明性和共享精神完全不符。此外，馬斯克還擔心OpenAI的AI系統可能帶有政治和文化偏見。他甚至提起了法律訴訟，指責OpenAI把應該造福人類的技術變成了賺錢工具，還呼籲恢復開源。

有意思的是，馬斯克在今年6月主動撤銷了對OpenAI及其聯合創始人薩姆·奧特曼和格雷格·布羅克曼的訴訟，卻在8月又重新掀起戰火。可以說，馬斯克對OpenAI曾經多「愛」，現在就有多「恨」。

在這種背景下，Grok-2的亮相簡直就是讓xAI和馬斯克揚眉吐氣的一次「復仇之戰」。

先不說嘗鮮的訂閱用戶們在X上爭先恐後地「炫耀」剛剛用Grok-2製作的梗圖，就連非常知名的沃頓商學院教授、AI作家Ethan Mollick也對Grok-2的表現贊賞有加，稱它是目前能與GPT-4相提並論的五大模型之一，其余四個分別是GPT-4o、Claude 3.5、Gemini 1.5和Llama 3.1。

不過，教授也忍不住補充了一句：「所有實驗室都說還有大幅提升的空間，但我們還沒看到哪個模型真正超越GPT-4……」簡而言之，教授的意思很明確——Grok-2已經相當不錯，躋身一線模型之列，但要超越GPT-4，還得繼續努力啊！

在HackerNews上，Grok-2的推出引發了熱烈討論。其中點贊最多的一條評論在肯定了Grok-2的表現後，直接「打臉」馬斯克的口是心非——「你指責OpenAI不開源，結果xAI也一樣閉源；你呼籲停止前沿AI的開發，結果xAI卻照樣推進；你批評OpenAI用用戶的推特內容進行訓練，結果xAI也在做同樣的事。」

（Hacker News評論截圖）

很明顯，馬斯克一邊批評OpenAI，一邊卻在重復它的老路，這多少有些「雙標」，也難怪引起了技術社區的「吐槽」。

此外，雖然Grok-2在技術上確實有了長足的進步，但與競爭對手相比，它在倫理、安全和版權保護方面依然面臨顯著的風險和挑戰，這將是xAI接下來必須解決的關鍵問題。

本月早些時候，愛爾蘭數據保護監管機構對xAI提出質疑，指其在未事先獲得用戶明確同意的情況下使用推文訓練AI系統的行為可能違反歐盟的隱私法規。為此，xAI已同意部分暫停在歐洲的數據處理。---來源: 數據猿DataYuan-

我要留言

Grok-2上線，圖像生成能力超亮眼，馬斯克對戰OpenAI扳回一城？

馮侖：顛覆認知，活下去

8成用戶都在用！被PPT"折磨"的他們，終於有救了！

馮侖：顛覆認知，活下去

8成用戶都在用！被PPT"折磨"的他們，終於有救了！