Meta、OpenAI爲何紮堆AI芯片？揭秘大模型背後的算力戰爭

2024012518:50

上周，AI行業發生了兩件大事。

1月19日，Meta首席執行官紮克伯格宣布，Meta內部正在訓練下一代模型Llama 3。截至今年年底，Meta將會有近35萬塊H100搭建的基礎設施。1月21日，有媒體爆出消息，OpenAI CEO奧特曼正在籌集數十億美元，建立一個全球性的AI芯片工廠網絡。

這兩件事其實都和一個東西有關——算力。

在生成式 AI 快速爆發的時代，算力短缺是運行 AI 模型面臨的主要困難，GPT-4、Gemini、Llama 2 和其他模型嚴重依賴 H100 GPU，但H100産能卻嚴重受限。即使像微軟、Meta 這樣大型科技公司，也需要提前數年預定産能，才能獲得足夠的新型芯片，更不用說OpenAI了。

AI産業算力短缺的根源在于，在摩爾定律主導下，性能每18-24個月翻一番的芯片，難以滿足大模型參數規模的指數級增長。用OpenAI的話說，每年訓練AI模型所需算力增長幅度高達10倍。這是瓶頸，也是機會。在新興技術的故事裏，成本才是影響大模型落地。

換言之，這場以大模型爲名的千億美金級豪賭實驗，最終能否將世界帶到新的摩爾時代，並不僅僅是看智能水平能提升到什麽程度，更取決于模型發展會不會出現類似于摩爾定律的規律。

AI芯片，算力計算的“高地”

上周，Meta首席執行官紮克伯格宣布，到2024年底Meta將擁有35萬塊H100，擁有近60萬個GPU等效算力。

35萬塊H100，是個什麽概念呢？衆所周知，訓練大模型往往是最花費算力的階段。OpenAI訓練GPT-4，用了大約25000塊A100 GPU。作爲A100的升級版，據 Lambda 測算， H100 的訓練吞吐量爲A100的160%。也就是說，屆時Meta擁有的算力是訓練GPT-4所用算力的20倍以上。

買這麽多算力，紮克伯格自然也花了大價錢。目前，一塊英偉達H100售價爲2.5萬至3萬美元，按3萬美元計算，意味著小紮的公司僅購買算力就需要支付約105億美元，更不用說電費了。

而這些算力很大部分將用于訓練“Llama 3”大模型。紮克伯格表示，Meta將負責任地、安全地訓練未來模型的路線圖。

在打算力主意的不止是小紮，還有OpenAI的奧特曼。同樣是上周爆出的消息，OpenAI CEO奧特曼正在籌集數十億美元，建立一個全球性的AI芯片工廠網絡。

目前，他正在和多家潛在的大型投資者進行談判，包括總部設在阿布紮比的G42和軟銀集團。根據彭博社的報道，僅在OpenAI與G42的談判中，涉及金額就接近80億到100億美元。

不過與小紮准備打富裕仗不同，奧特曼親自下場制造AI芯片，更多是一種無奈。據外媒報道，這一事件背後的原因很可能就是，OpenAI已經無「芯」訓練「GPT-5」了。

此前，奧特曼表示，OpenAI已經嚴重受到GPU限制，不得不推遲了衆多短期計劃（微調、專用容量、32k上下文窗口、多模態），甚至還一度影響到了API的可靠性和速度。

除了自己造芯外，OpenAI也在嘗試通過其他方式來獲得更低成本的算力。去年，就有媒體爆出，OpenAI從一家名爲 Rain AI 的初創公司提前訂購價值 5100 萬美元的“神經形態”類腦人工智能芯片，于2024年10月開始供貨。

當然，有自己下場造芯的可不止OpenAI一家，甚至進度快的微軟、谷歌已經將自研芯片用到大模型上了。

比如，Microsoft Azure Maia 是一款AI加速器芯片，可發揮類似英偉達GPU的功能，用于OpenAI模型等AI工作負載運行雲端訓練和推理。而谷歌最新的AI 芯片TPUv5e在訓練、推理參數少于2000億的大模型時，成本也低于英偉達的A100或H100。

爲什麽所有大家都在絞盡腦汁搞算力，現在算力又發展到了什麽程度呢？

英偉達，AI芯片的“王”

按照算力基礎設施構成來看，包括 AI 芯片及服務器、交換機及光模塊、IDC 機房及上遊産業鏈等。其中，AI芯片是其中的“大頭”，能夠占到服務器成本的55-75%。

從定義上說，能運行 AI 算法的芯片都叫 AI 芯片。按技術架構，可分爲CPU、GPU、FPGA、ASIC及類腦芯片。雖然都叫AI芯片，但在擅長事情和應用場景上有很大的差異。

就拿我們最熟悉的CPU和GPU來說，GPU更像是一大群工廠流水線上的工人，適合做大量的簡單運算，很複雜的搞不了，但是簡單的事情做得非常快，比CPU要快得多。而CPU更像是技術專家，可以做複雜的運算，比如邏輯運算、響應用戶請求、網絡通信等。

看上去好像CPU比GPU更牛逼，但你不妨換個角度想，即使教授再神通廣大，也不能一秒鍾內計算出 500 次加減法，因此對簡單重複的計算來說，單單一個教授敵不過數量衆多的小學生。這就是爲什麽GPU被大量用戶AI大模型訓練的原因。

在一個大模型構建和叠代過程中，需要經過大量的訓練計算工作。通常來說，訓練一次是幾乎不可能訓練成功的，存在著大量的失敗和反複，此外爲保證模型叠代的更快，也需要進行大量的並行訓練。即便打造出第一版大模型，後續模型的持續叠代的成本無法避免。

根據此前披露的消息，GPT-4的FLOPS約爲2.15e25，並利用約25000個A100 GPU進行了90到100天的訓練，如果OpenAI的雲計算成本按每A100小時約1美元計算，那麽在這樣的條件下，訓練一次GPT-4的成本約爲6300萬美元。

但就是這樣一個支撐AI發展最重要的硬件領域，卻被一家公司牢牢掌握著話語權，那就是英偉達。

用兩組數據可以側面證明英偉達在GPU領域的統治力：根據 Liftr Insights 數據，2022 年數據中心 AI 加速市場中，英偉達份額達 82%。根據不久前的數據，2023年人工智能研究論文中使用的英偉達芯片比所有替代芯片的總和多19倍。

毫無疑問，英偉達是去年以來AI浪潮的最大贏家。2022年10月到現在，英偉達的股價從110美元左右上漲到近600美元，漲了500%。FactSet數據顯示，此前20個季度，英偉達有19個季度的業績都優于市場預期。

2022年底，英偉達發布了最新的GPU産品——H100。相比A100，它的效率高達3倍，但成本只有（1.5-2倍）。更重要的問題是，受限于産能緊張，H100仍然供不應求。根據外媒報道，英偉達將在2024年，把H100的産量從去年的50萬張左右直接提高到150-200萬張。

英偉達的成功也說明了一件事情：在大模型軍備競賽裏，最後挖礦的誰能贏不知道，但買鏟子的一定賺錢，且短期內有高議價權。

摩爾定律，跟不上大模型進化速度

既然AI芯片這麽重要，那爲什麽還會如此短缺？歸根到底，AI芯片的性能提升仍然受限于摩爾定律，遠遠趕不上大模型參數的規模增長。

一些重點研究實驗室報告稱，公衆對大語言模型的使用率達到了驚人高度。2021年3月，OpenAI宣布其GPT-3語言模型被“超過300個應用程序使用，平均每天能夠生成45億個詞”，也就是說僅單個模型每分鍾就能生成310萬詞的新內容。

在這種情況下，AI模型對算力需求的增長是驚人的。據OpenAI測算，自2012年以來，人工智能模型訓練算力需求每3~4個月就翻一番，每年訓練AI模型所需算力增長幅度高達10倍。

相比之下，GPU更叠效率仍然延續著摩爾定律。根據摩爾定律，芯片計算性能大約每18-24個月翻一番。從目前看，盡管H100相比A100性能有明顯提升，但並沒有像模型訓練算力需求那樣有明顯數量級的增長。

在這種情況下，想要追求算力的增長，只能做更大規模的分布式訓練。簡單來說，就是用更多數量的機器，來滿足訓練所需的算力。這個方法的瓶頸在于，受網絡傳輸的限制。目前，網絡傳輸最大是800G，這意味著分布式訓練的規模也不會無限制增長。

從種種迹象來看，巨型模型時代正在接近尾聲。抛開缺少更多高質量訓練數據的原因，算力硬件叠代速度和日益高漲的訓練成本也是一個重要原因。根據拾象CEO李廣密判斷，未來幾年OpenAI僅訓練模型⾄少還得200-300億美元，Google200-300億美元，Anthropic100-200億美元，算下來未來幾年至少投入1000億美元純粹用到訓練⼤模型。

在硬件提升有限的情況下，提高效率將成爲很多大模型企業的選擇。據谷歌 PaLM 的論文，在訓練階段，缺乏優化經驗或堆疊過多芯片，效率可能低至 20%，目前谷歌與 OpenAI 都能達到 50% 左右。前述機構推測目前推理階段的效率只有25%左右，提升空間巨大。

在很多人看來，大模型更像一場千億美金級豪賭實驗，有機會將人類帶入新的摩爾時代。在這個過程中，除了智能水平的提升，大模型訓練、推理的成本下降會不會出現類似于摩爾定律的趨勢，也是一個重要的觀察維度。

從過去看，一個新技術能不能真正走向大規模落地，往往不取決于技術有多強，而是成本有多低。參考移動互聯網應用大規模爆發，起于從3G到4G的所帶來的流量成本大幅下降。從目前看，這樣的故事大概率也將在人工智能領域發生。---來源: 钛媒體-

我要留言

Meta、OpenAI爲何紮堆AI芯片？揭秘大模型背後的算力戰爭

數據中心“去空調化”正變流行 | ToB産業觀察

米萊狂刪百餘條改革條款

數據中心“去空調化”正變流行 | ToB産業觀察

米萊狂刪百餘條改革條款