AI爭霸戰開啟!OpenAI急建10萬塊GB200超算,馬斯克10萬塊H100月末開訓
【新智元導讀】馬斯克官宣xAI建造的世界最大超算集群,由10萬塊H100搭建,預計本月末開始投入訓練。另一邊,OpenAI再次加碼,將打造由10萬塊GB200組成的超算,完全碾壓xAI。
為了抵達AGI,全世界的公司們準備要燒掉所有的GPU!
Information獨家報道稱,OpenAI的下一個超算集群,將由10萬塊GB200組成。
這可用上了英偉達迄今為止最強的AI芯片。
另一邊,xAI也在打造號稱「世界上最大超算集群」,由100k H100組成,並將在本月末投入訓練。
在馬斯克最新帖子中,針對報道——xAI與甲骨文終止服務器交易談判,立即做出了回應。
他表示,xAI已經向甲骨文購買了24000塊H100,並在這些芯片上訓練的Grok 2。
Grok 2目前正在進行微調、錯誤修復,預計下個月準備就緒發布。 與此同時,xAI也在自行建設10萬塊H100搭建的集群,目標是實現最快的訓練完成時間,計劃本月晚些時候開始訓模型。 這將成為世界上最強的訓練集群,優勢不言而喻。 我們決定自行建設10萬塊H100芯片系統,以及下一代主要系統的原因是,我們的核心競爭力取決於能否比其他AI公司更快。這是趕上競爭對手的唯一途徑。 甲骨文是一家優秀的公司,還有另一家公司(暗指微軟)在參與OpenAI的GB200集群項目中也表現出很大潛力。但是,當我們的命運取決於成為速度最快的公司時,我們必須親自掌控,而不能只做一個旁觀者。
簡言之,在這個日新月異的時代下,想要超越競爭對手,必須確保有絕對的速度優勢。
xAI甲骨文談崩,百億美元打水漂
今年5月,Information曾報道,xAI一直在討論一項多年協議,即從甲骨文租用英偉達AI芯片。
這筆交易預計高達100億美元,卻因一些問題陷入僵局。
其中就包括,馬斯克要求超算建造的速度,完全超越了甲骨文勺想象。還有甲骨文勺擔心xAI首選地點沒有足夠的電力供應。
為了改變這一現狀,只能依靠自力更生了。
現在,xAI在田納西州孟菲斯市,正建起自己的AI數據中心,其中用到了Dell和Supermicro出貨的英偉達芯片。
根據參與談判的人士透露,甲骨文並沒有參與這個項目。
其實,在此之前,xAI已經從甲骨文租用了許多英偉達芯片,成為這家雲計算GPU供應商最大的客戶之一。
盡管更廣泛的談判失敗,但這項協議目前仍將繼續。
從馬斯克最新回應中,可以看出,甲骨文芯片數量已經從5月份的16000塊增長到了24000塊。
10萬塊H100串聯
不過,馬斯克依舊希望建造一臺配備10萬塊英偉達GPU的超級計算機,將其稱為「Gigafactory of Compute」。
他表示,xAI需要更多的芯片,來訓練下一代AI模型——Grok 3.0。
老馬在5月曾向投資者表示,希望在2025年秋季之前讓這臺超級計算機運行起來,而且他將個人負責按時交付超級計算機,因為這對於開發LLM至關重要。
他多次公開稱,10萬個H100組成的液冷訓練集群,將在幾個月後上線。
之所以Grok模型叠代至關重要,因其為X社交應用訂閱套餐的一部分,起價為每月8美元,包含了各種功能。
就在上周,xAI還發布了馬斯克和其他員工,在數據中心合照。照片後背景中,擺滿了服務器。
雖然帖子中,並沒有指明位置。但在6月的時候,Greater Memphis Chamber的主席表示,xAI正在孟菲斯的伊萊克斯工廠建造一臺超算。
位於田納西州孟菲斯的新xAI工廠的公用設施布局
戴爾公司CEO Micael Dell表示,戴爾正幫助xAI建立一個數據中心。
另外,Supermicro的CEO Charles Liang還曾發布了一張自己與馬斯克在數據中心的合影,也證實這家公司和xAI的合作關系。
值得一提的是,上個月馬斯克宣布xAI已經完成,驚人的60億美元B輪融資,公司估值達到240億美元。
B輪融資的投資者包括Andreessen Horowitz、紅杉資本、Valor Equity Partners、Vy Capital和Fidelity Management&Research等8位投資者。
他個人表示,最新一輪融資中,大部分資金將投入到算力建設之中。
顯然,xAI建設的超算項目,是其追趕OpenAI努力的一部分。
10萬塊GB200超算,兩年租用50億美金
其實,另一邊,OpenAI也在馬不停蹄地加速研發速度,不敢有一絲懈怠。
兩位知情人士透露,甲骨文與微軟的交易,涉及一個由10萬塊英偉達即將推出的GB200芯片組成的集群。
等這一超算建成之時,馬斯克10萬塊H100也就不算什麽了。
有網友對此驚嘆道,集群中英偉達GB200芯片數量,大致相當於英特爾80286處理器中的晶體管數量 我很驚訝在我的有生之年能看到這一幕。
還有人對此分析道,「GB200的訓練性能將是H100的4倍」。
GPT-4是在90天內用25,000個A100(H100的前代產品)訓練出來的。 所以理論上你可以用100,000個GB200在不到2天內訓練出GPT-4,盡管這是在理想條件下,可能並不完全現實。 但這確實讓人不禁想象,他們用這個超級計算機集群在90天內能訓練出什麽樣的AI模型,而這個集群預計將在2025年第二季度投入運行。
在GTC 2024大會上,老黃曾介紹道,H100比A100要快4倍,B200比H100快3倍。
據熟悉GPU雲定價的人士稱,假設兩家公司簽署了一份多年期協議,那麽租用這樣一個集群的成本可能會在兩年內達到50億美元左右。
這一集群,預計在2025年第二季度準備就緒。
甲骨文將從英偉達購買芯片,然後租給微軟,微軟再把芯片提供給OpenAI。畢竟,這已經成為微軟和OpenAI互利互惠一貫的做法了。
微軟向OpenAI投錢,作為回報,獲得OpenAI新模型的訪問權。
根據參與規劃的人士稱,甲骨文計劃將這些芯片放在德克薩斯州阿比林的一個數據中心。
這筆交易同時表明,微軟自己還無法獲得足夠的英偉達芯片。
而且,雲計算供應商之間相互租用服務器的情況,其實並不常見,但對英偉達芯片的強烈需求,才導致了這場不尋常的交易。
去年,微軟曾與CoreWeave達成了類似的租用服務器協議,以增加英偉達服務器的容量。---[新智元報導*編輯:桃子/來源: 新智元]
參考資料:https://x.com/elonmusk/status/181072739463195075
https://x.com/amir/status/1810722841106821623