馬斯克燒幾十億美元造最大超算中心，10萬塊H100訓練Grok追趕GPT-4o

2024052717:19

【新智元導讀】最近，許久沒有新動向的馬斯克放出了大消息——他旗下的人工智能初創公司xAI將投入巨資建造一個超算中心，以保證Grok 2及之後版本的訓練。這個「超級計算工廠」預計於2025年秋季建成，規模將達到目前最大GPU集群的四倍。

前段時間，OpenAI、谷歌、微軟相繼開大會，AI圈子的競爭如火如荼。

這麽熱鬧的時候，怎麽能少得了馬斯克。

前段時間忙著特斯拉和星鏈的他，最近好像開始騰出手，而且不鳴則已、一鳴驚人，直接放出一個大消息——自己要造世界上最大的超算中心。

今年3月，他旗下的xAI發布了最新版的Grok 1.5，此後一直有關於Grok 2即將面世的傳說，但卻遲遲沒有官方消息。

難道是因為算力不夠？

沒錯，億萬富翁可能也買不到足夠的芯片。今年四月他曾親自下場表示，沒有足夠多的先進芯片，推遲了Grok 2模型的訓練和發布。

他表示，訓練Grok 2需要大約2萬個基於Hopper架構的英偉達H100 GPU，並補充說Grok 3模型及更高版本將需要10萬個H100 芯片。

特斯拉第一季度的財報也顯示，公司此前一直受到算力的限製，當時馬斯克的計劃還是年底前部署8.5萬個H100 GPU，將xAI從紅杉資本和其他投資者那裏籌集的60億美元中的大部分都花在芯片上。

目前每臺H100的售價約為3萬美元，不算建造費用和其他服務器設備，僅僅是芯片就需要花掉28億美元。

根據馬斯克的估算，這個芯片儲量訓練Grok 2綽綽有余。

但可能老馬思考了一個月之後，覺得這一步邁得還不夠大，不夠有突破性。畢竟xAI的定位是要和OpenAI、谷歌這種強勁對手正面掰頭的，以後想訓練模型可不能再因為算力掉鏈子。

於是，他最近公開表示，xAI需要部署10萬個H100來訓練和運行Grok的下一個版本。

而且，xAI還計劃將所有芯片串聯成一個巨大的計算機——馬斯克稱之為「超級計算工廠」（Gigafactory of Compute）。

老馬這個月已經向投資者表示，他希望在2025年秋季之前讓這臺超級計算機運行起來，而且他將「個人負責按時交付超級計算機」，因為這對於開發LLM至關重要。

這臺超算可能由xAI與Oracle合作共建。這幾年來，xAI已經從Oracle租用了帶有約1.6萬個H100芯片的服務器，是這些芯片最大的訂單來源。

如果不發展自己的算力，未來幾年xAI在雲服務器上很可能就要花費100億美元，算下來居然還是「超級計算工廠」比較省錢。

目前最大GPU集群

這個「超級計算工廠」一旦完工，規模將至少是當前最大GPU集群的4倍。

比如Meta官網在3月發布的數據顯示，他們當時推出了2個包含2.4萬個H100 GPU的集群用於Llama 3的訓練。

雖然英偉達已經宣布今年下半年開始生產並交付全新架構Blackwell的B100 GPU，但馬斯克目前的計劃還是采購H100。

為什麽不用最新型號的芯片，反而要大批量購入快要淘汰的型號？這其中的原因，老黃本人向我們解釋過——「在今天的AI競爭裏，時間很重要」。

英偉達會每一年更新一代產品，而如果你想等我的下一個產品，那麽你就丟失了訓練的時間和先發優勢。下一個達到裏程碑的公司會宣布一個突破性的AI，而接下來的第二名只在它上面提升0.3%。你要選擇做哪一種？這就是為什麽一直做技術領先的公司很重要，你的客戶會在你上面建設並且相信你會一直領先。這裏面時間很重要。這就是為什麽我的客戶現在依然瘋狂的在建設Hopper系統。時間就是一切。下一個裏程碑馬上就來。

然而，即使一切順利，「超級計算工廠」在馬斯克的「個人負責」下按時交付，這個集群到了明年秋天是否仍然有規模優勢，也是一個未知數。

紮克伯格今年1月曾經在Instagram上發帖，稱Meta到今年底將再部署35萬個H100，加上之前的算力總共相當於60萬個H100，但他並未提及單個集群的芯片數量。

但這個數字沒過半年就幾乎翻了一番，5月初Llama 3發布前，有消息稱Meta已從英偉達額外購買了50萬塊GPU，總數達到 100 萬塊，零售價值達300億美元。

同時，微軟的目標是到年底擁有180萬個 GPU，OpenAI甚至更加激進，希望為最新的AI模型使用1000萬個GPU。這兩家公司也在討論開發一個價值1000億美元的超級計算機，包含數百萬個英偉達GPU。

這場算力之戰，最後誰會勝出呢？

應該是英偉達吧。

而且不僅僅是H100，英偉達CFO Colette Kress曾經提到過一份Blackwell旗艦芯片的優先客戶名單，包括OpenAI、亞馬遜、谷歌、xAI等等。

即將投產的B100，以及英偉達之後將要一年一更的芯片，將會源源不斷地進入科技巨頭們的超算中心，幫助他們完成算力的升級叠代。

芯片短缺，電也不夠

馬斯克在談到特斯拉的算力問題時也補充說，雖然迄今為止芯片短缺是AI發展的一大製約因素，但電力供應在未來一兩年將至關重要，甚至會取代芯片成為最大的限製因素。

包括新建的這家「超級計算工廠」的選址，最需要考慮的因素也是電力供應。一個擁有10萬GPU的數據中心可能需要100兆瓦的專用電力。

要提供這種量級的電力，xAI總部辦公室所在的舊金山灣區顯然不是理想的選擇。為了降低成本，數據中心往往建在電力更便宜且供應更充足的偏遠地區。

例如，微軟和OpenAI除了計劃那個耗資千億美元的超算，也正在威斯康星州建造大型數據中心，建設成本約為100億美元；亞馬遜雲服務的數據中心則選址在亞利桑那州。

「超級計算工廠」一個非常可能的選址，是特斯拉總部，德克薩斯州奧斯汀市。

去年特斯拉宣布建造的Dojo就部署在了這裏。這臺超算基於定製芯片，幫助訓練AI自動駕駛軟件，也可以用於向外界提供雲服務。

第一臺Dojo運行在1萬個GPU上，建造成本約為3億美元。馬斯克4月表示，特斯拉目前共有3.5萬個GPU用於訓練自動駕駛系統。

在數據中心進行模型訓練是一個極其耗電的過程。據估計，訓練GPT-3的耗電量為1287兆瓦時，大約相當於130個美國家庭每年消耗的電量。

註意到AI電力問題的CEO不止馬斯克一人，Sam Altman本人曾向初創公司Helion Energy投資3.75 億美元，這家公司旨在利用核聚變提供一種更環保、更低成本的 AI 數據中心運行方式。

馬斯克則沒有押註在核聚變技術上，他認為，AI公司很快將開始爭奪降壓變壓器（step down transformer），可以將高壓電流轉換為電網可用的電力，「從公用電網獲得的電力（例如 300 千伏）降至 1 伏以下是一個巨大的下降」。

芯片之後，AI行業需要「transformers for Transformers」。---[新智元報導*編輯：喬楊好困/來源: 新智元]

參考資料：
https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute?rc=epv9gi

https://www.inc.com/ben-sherry/elon-musk-touts-nvidia-dominance-predicts-a-giant-leap-in-ai-power.html

https://finance.yahoo.com/news/jensen-huang-elon-musk-openai-182851783.html?guccounter=1

我要留言

馬斯克燒幾十億美元造最大超算中心，10萬塊H100訓練Grok追趕GPT-4o

美國AI禁令再升級：在美從事AI職業中國人或需要特殊許可

《探南極》系列訪談第四期丨鉆穿南極冰蓋「觸摸」冰下基巖有多難？

美國AI禁令再升級：在美從事AI職業中國人或需要特殊許可

《探南極》系列訪談第四期丨鉆穿南極冰蓋「觸摸」冰下基巖有多難？