AI爭霸戰開啟！OpenAI急建10萬塊GB200超算，馬斯克10萬塊H100月末開訓

2024071618:06

【新智元導讀】馬斯克官宣xAI建造的世界最大超算集群，由10萬塊H100搭建，預計本月末開始投入訓練。另一邊，OpenAI再次加碼，將打造由10萬塊GB200組成的超算，完全碾壓xAI。

為了抵達AGI，全世界的公司們準備要燒掉所有的GPU！

Information獨家報道稱，OpenAI的下一個超算集群，將由10萬塊GB200組成。

這可用上了英偉達迄今為止最強的AI芯片。

另一邊，xAI也在打造號稱「世界上最大超算集群」，由100k H100組成，並將在本月末投入訓練。

在馬斯克最新帖子中，針對報道——xAI與甲骨文終止服務器交易談判，立即做出了回應。

他表示，xAI已經向甲骨文購買了24000塊H100，並在這些芯片上訓練的Grok 2。

Grok 2目前正在進行微調、錯誤修復，預計下個月準備就緒發布。與此同時，xAI也在自行建設10萬塊H100搭建的集群，目標是實現最快的訓練完成時間，計劃本月晚些時候開始訓模型。這將成為世界上最強的訓練集群，優勢不言而喻。我們決定自行建設10萬塊H100芯片系統，以及下一代主要系統的原因是，我們的核心競爭力取決於能否比其他AI公司更快。這是趕上競爭對手的唯一途徑。甲骨文是一家優秀的公司，還有另一家公司（暗指微軟）在參與OpenAI的GB200集群項目中也表現出很大潛力。但是，當我們的命運取決於成為速度最快的公司時，我們必須親自掌控，而不能只做一個旁觀者。

簡言之，在這個日新月異的時代下，想要超越競爭對手，必須確保有絕對的速度優勢。

xAI甲骨文談崩，百億美元打水漂

今年5月，Information曾報道，xAI一直在討論一項多年協議，即從甲骨文租用英偉達AI芯片。

這筆交易預計高達100億美元，卻因一些問題陷入僵局。

其中就包括，馬斯克要求超算建造的速度，完全超越了甲骨文勺想象。還有甲骨文勺擔心xAI首選地點沒有足夠的電力供應。

為了改變這一現狀，只能依靠自力更生了。

現在，xAI在田納西州孟菲斯市，正建起自己的AI數據中心，其中用到了Dell和Supermicro出貨的英偉達芯片。

根據參與談判的人士透露，甲骨文並沒有參與這個項目。

其實，在此之前，xAI已經從甲骨文租用了許多英偉達芯片，成為這家雲計算GPU供應商最大的客戶之一。

盡管更廣泛的談判失敗，但這項協議目前仍將繼續。

從馬斯克最新回應中，可以看出，甲骨文芯片數量已經從5月份的16000塊增長到了24000塊。

10萬塊H100串聯

不過，馬斯克依舊希望建造一臺配備10萬塊英偉達GPU的超級計算機，將其稱為「Gigafactory of Compute」。

他表示，xAI需要更多的芯片，來訓練下一代AI模型——Grok 3.0。

老馬在5月曾向投資者表示，希望在2025年秋季之前讓這臺超級計算機運行起來，而且他將個人負責按時交付超級計算機，因為這對於開發LLM至關重要。

他多次公開稱，10萬個H100組成的液冷訓練集群，將在幾個月後上線。

之所以Grok模型叠代至關重要，因其為X社交應用訂閱套餐的一部分，起價為每月8美元，包含了各種功能。

就在上周，xAI還發布了馬斯克和其他員工，在數據中心合照。照片後背景中，擺滿了服務器。

雖然帖子中，並沒有指明位置。但在6月的時候，Greater Memphis Chamber的主席表示，xAI正在孟菲斯的伊萊克斯工廠建造一臺超算。

位於田納西州孟菲斯的新xAI工廠的公用設施布局

戴爾公司CEO Micael Dell表示，戴爾正幫助xAI建立一個數據中心。

另外，Supermicro的CEO Charles Liang還曾發布了一張自己與馬斯克在數據中心的合影，也證實這家公司和xAI的合作關系。

值得一提的是，上個月馬斯克宣布xAI已經完成，驚人的60億美元B輪融資，公司估值達到240億美元。

B輪融資的投資者包括Andreessen Horowitz、紅杉資本、Valor Equity Partners、Vy Capital和Fidelity Management&Research等8位投資者。

他個人表示，最新一輪融資中，大部分資金將投入到算力建設之中。

顯然，xAI建設的超算項目，是其追趕OpenAI努力的一部分。

10萬塊GB200超算，兩年租用50億美金

其實，另一邊，OpenAI也在馬不停蹄地加速研發速度，不敢有一絲懈怠。

兩位知情人士透露，甲骨文與微軟的交易，涉及一個由10萬塊英偉達即將推出的GB200芯片組成的集群。

等這一超算建成之時，馬斯克10萬塊H100也就不算什麽了。

有網友對此驚嘆道，集群中英偉達GB200芯片數量，大致相當於英特爾80286處理器中的晶體管數量我很驚訝在我的有生之年能看到這一幕。

還有人對此分析道，「GB200的訓練性能將是H100的4倍」。

GPT-4是在90天內用25,000個A100（H100的前代產品）訓練出來的。所以理論上你可以用100,000個GB200在不到2天內訓練出GPT-4，盡管這是在理想條件下，可能並不完全現實。但這確實讓人不禁想象，他們用這個超級計算機集群在90天內能訓練出什麽樣的AI模型，而這個集群預計將在2025年第二季度投入運行。

在GTC 2024大會上，老黃曾介紹道，H100比A100要快4倍，B200比H100快3倍。

據熟悉GPU雲定價的人士稱，假設兩家公司簽署了一份多年期協議，那麽租用這樣一個集群的成本可能會在兩年內達到50億美元左右。

這一集群，預計在2025年第二季度準備就緒。

甲骨文將從英偉達購買芯片，然後租給微軟，微軟再把芯片提供給OpenAI。畢竟，這已經成為微軟和OpenAI互利互惠一貫的做法了。

微軟向OpenAI投錢，作為回報，獲得OpenAI新模型的訪問權。

根據參與規劃的人士稱，甲骨文計劃將這些芯片放在德克薩斯州阿比林的一個數據中心。

這筆交易同時表明，微軟自己還無法獲得足夠的英偉達芯片。

而且，雲計算供應商之間相互租用服務器的情況，其實並不常見，但對英偉達芯片的強烈需求，才導致了這場不尋常的交易。

去年，微軟曾與CoreWeave達成了類似的租用服務器協議，以增加英偉達服務器的容量。---[新智元報導*編輯：桃子/來源: 新智元]

參考資料：https://x.com/elonmusk/status/181072739463195075
https://x.com/amir/status/1810722841106821623

我要留言

AI爭霸戰開啟！OpenAI急建10萬塊GB200超算，馬斯克10萬塊H100月末開訓

7月16日外媒科學網站摘要：研究人員發現產生創造力的腦細胞網絡

社交平臺時代美國首個總統級暗殺事件背後：X的"馬斯克化"與生成式AI爆發

7月16日外媒科學網站摘要：研究人員發現產生創造力的腦細胞網絡

社交平臺時代美國首個總統級暗殺事件背後：X的"馬斯克化"與生成式AI爆發