Meta、OpenAI爲何紮堆AI芯片?揭秘大模型背後的算力戰爭
上周,AI行業發生了兩件大事。
1月19日,Meta首席執行官紮克伯格宣布,Meta內部正在訓練下一代模型Llama 3。截至今年年底,Meta將會有近35萬塊H100搭建的基礎設施。1月21日,有媒體爆出消息,OpenAI CEO奧特曼正在籌集數十億美元,建立一個全球性的AI芯片工廠網絡。
這兩件事其實都和一個東西有關——算力。
在生成式 AI 快速爆發的時代,算力短缺是運行 AI 模型面臨的主要困難,GPT-4、Gemini、Llama 2 和其他模型嚴重依賴 H100 GPU,但H100産能卻嚴重受限。即使像微軟、Meta 這樣大型科技公司,也需要提前數年預定産能,才能獲得足夠的新型芯片,更不用說OpenAI了。
AI産業算力短缺的根源在于,在摩爾定律主導下,性能每18-24個月翻一番的芯片,難以滿足大模型參數規模的指數級增長。用OpenAI的話說,每年訓練AI模型所需算力增長幅度高達10倍。這是瓶頸,也是機會。在新興技術的故事裏,成本才是影響大模型落地。
換言之,這場以大模型爲名的千億美金級豪賭實驗,最終能否將世界帶到新的摩爾時代,並不僅僅是看智能水平能提升到什麽程度,更取決于模型發展會不會出現類似于摩爾定律的規律。
AI芯片,算力計算的“高地”
上周,Meta首席執行官紮克伯格宣布,到2024年底Meta將擁有35萬塊H100,擁有近60萬個GPU等效算力。
35萬塊H100,是個什麽概念呢?衆所周知,訓練大模型往往是最花費算力的階段。OpenAI訓練GPT-4,用了大約25000塊A100 GPU。作爲A100的升級版,據 Lambda 測算, H100 的訓練吞吐量爲A100的160%。也就是說,屆時Meta擁有的算力是訓練GPT-4所用算力的20倍以上。
買這麽多算力,紮克伯格自然也花了大價錢。目前,一塊英偉達H100售價爲2.5萬至3萬美元,按3萬美元計算,意味著小紮的公司僅購買算力就需要支付約105億美元,更不用說電費了。
而這些算力很大部分將用于訓練“Llama 3”大模型。紮克伯格表示,Meta將負責任地、安全地訓練未來模型的路線圖。
在打算力主意的不止是小紮,還有OpenAI的奧特曼。同樣是上周爆出的消息,OpenAI CEO奧特曼正在籌集數十億美元,建立一個全球性的AI芯片工廠網絡。
目前,他正在和多家潛在的大型投資者進行談判,包括總部設在阿布紮比的G42和軟銀集團。根據彭博社的報道,僅在OpenAI與G42的談判中,涉及金額就接近80億到100億美元。
不過與小紮准備打富裕仗不同,奧特曼親自下場制造AI芯片,更多是一種無奈。據外媒報道,這一事件背後的原因很可能就是,OpenAI已經無「芯」訓練「GPT-5」了。
此前,奧特曼表示,OpenAI已經嚴重受到GPU限制,不得不推遲了衆多短期計劃(微調、專用容量、32k上下文窗口、多模態),甚至還一度影響到了API的可靠性和速度。
除了自己造芯外,OpenAI也在嘗試通過其他方式來獲得更低成本的算力。去年,就有媒體爆出,OpenAI從一家名爲 Rain AI 的初創公司提前訂購價值 5100 萬美元的“神經形態”類腦人工智能芯片,于2024年10月開始供貨。
當然,有自己下場造芯的可不止OpenAI一家,甚至進度快的微軟、谷歌已經將自研芯片用到大模型上了。
比如,Microsoft Azure Maia 是一款AI加速器芯片,可發揮類似英偉達GPU的功能,用于OpenAI模型等AI工作負載運行雲端訓練和推理。而谷歌最新的AI 芯片TPUv5e在訓練、推理參數少于2000億的大模型時,成本也低于英偉達的A100或H100。
爲什麽所有大家都在絞盡腦汁搞算力,現在算力又發展到了什麽程度呢?
英偉達,AI芯片的“王”
按照算力基礎設施構成來看,包括 AI 芯片及服務器、交換機及光模塊、IDC 機房及上遊産業鏈等。其中,AI芯片是其中的“大頭”,能夠占到服務器成本的55-75%。
從定義上說,能運行 AI 算法的芯片都叫 AI 芯片。按技術架構,可分爲CPU、GPU、FPGA、ASIC及類腦芯片。雖然都叫AI芯片,但在擅長事情和應用場景上有很大的差異。
就拿我們最熟悉的CPU和GPU來說,GPU更像是一大群工廠流水線上的工人,適合做大量的簡單運算,很複雜的搞不了,但是簡單的事情做得非常快,比CPU要快得多。而CPU更像是技術專家,可以做複雜的運算,比如邏輯運算、響應用戶請求、網絡通信等。
看上去好像CPU比GPU更牛逼,但你不妨換個角度想,即使教授再神通廣大,也不能一秒鍾內計算出 500 次加減法,因此對簡單重複的計算來說,單單一個教授敵不過數量衆多的小學生。這就是爲什麽GPU被大量用戶AI大模型訓練的原因。
在一個大模型構建和叠代過程中,需要經過大量的訓練計算工作。通常來說,訓練一次是幾乎不可能訓練成功的,存在著大量的失敗和反複,此外爲保證模型叠代的更快,也需要進行大量的並行訓練。即便打造出第一版大模型,後續模型的持續叠代的成本無法避免。
根據此前披露的消息,GPT-4的FLOPS約爲2.15e25,並利用約25000個A100 GPU進行了90到100天的訓練,如果OpenAI的雲計算成本按每A100小時約1美元計算,那麽在這樣的條件下,訓練一次GPT-4的成本約爲6300萬美元。
但就是這樣一個支撐AI發展最重要的硬件領域,卻被一家公司牢牢掌握著話語權,那就是英偉達。
用兩組數據可以側面證明英偉達在GPU領域的統治力:根據 Liftr Insights 數據,2022 年數據中心 AI 加速市場中,英偉達份額達 82%。根據不久前的數據,2023年人工智能研究論文中使用的英偉達芯片比所有替代芯片的總和多19倍。
毫無疑問,英偉達是去年以來AI浪潮的最大贏家。2022年10月到現在,英偉達的股價從110美元左右上漲到近600美元,漲了500%。FactSet數據顯示,此前20個季度,英偉達有19個季度的業績都優于市場預期。
2022年底,英偉達發布了最新的GPU産品——H100。相比A100,它的效率高達3倍,但成本只有(1.5-2倍)。更重要的問題是,受限于産能緊張,H100仍然供不應求。根據外媒報道,英偉達將在2024年,把H100的産量從去年的50萬張左右直接提高到150-200萬張。
英偉達的成功也說明了一件事情:在大模型軍備競賽裏,最後挖礦的誰能贏不知道,但買鏟子的一定賺錢,且短期內有高議價權。
摩爾定律,跟不上大模型進化速度
既然AI芯片這麽重要,那爲什麽還會如此短缺?歸根到底,AI芯片的性能提升仍然受限于摩爾定律,遠遠趕不上大模型參數的規模增長。
一些重點研究實驗室報告稱,公衆對大語言模型的使用率達到了驚人高度。2021年3月,OpenAI宣布其GPT-3語言模型被“超過300個應用程序使用,平均每天能夠生成45億個詞”,也就是說僅單個模型每分鍾就能生成310萬詞的新內容。
在這種情況下,AI模型對算力需求的增長是驚人的。據OpenAI測算,自2012年以來,人工智能模型訓練算力需求每3~4個月就翻一番,每年訓練AI模型所需算力增長幅度高達10倍。
相比之下,GPU更叠效率仍然延續著摩爾定律。根據摩爾定律,芯片計算性能大約每18-24個月翻一番。從目前看,盡管H100相比A100性能有明顯提升,但並沒有像模型訓練算力需求那樣有明顯數量級的增長。
在這種情況下,想要追求算力的增長,只能做更大規模的分布式訓練。簡單來說,就是用更多數量的機器,來滿足訓練所需的算力。這個方法的瓶頸在于,受網絡傳輸的限制。目前,網絡傳輸最大是800G,這意味著分布式訓練的規模也不會無限制增長。
從種種迹象來看,巨型模型時代正在接近尾聲。抛開缺少更多高質量訓練數據的原因,算力硬件叠代速度和日益高漲的訓練成本也是一個重要原因。根據拾象CEO李廣密判斷,未來幾年OpenAI僅訓練模型⾄少還得200-300億美元,Google200-300億美元,Anthropic100-200億美元,算下來未來幾年至少投入1000億美元純粹用到訓練⼤模型。
在硬件提升有限的情況下,提高效率將成爲很多大模型企業的選擇。據谷歌 PaLM 的 論文,在訓練階段,缺乏優化經驗或堆疊過多芯片,效率可能低至 20%,目前谷歌與 OpenAI 都能達到 50% 左右。前述機構推測目前推理階段的效率只有25%左右,提升空間巨大。
在很多人看來,大模型更像一場千億美金級豪賭實驗,有機會將人類帶入新的摩爾時代。在這個過程中,除了智能水平的提升,大模型訓練、推理的成本下降會不會出現類似于摩爾定律的趨勢,也是一個重要的觀察維度。
從過去看,一個新技術能不能真正走向大規模落地,往往不取決于技術有多強,而是成本有多低。參考移動互聯網應用大規模爆發,起于從3G到4G的所帶來的流量成本大幅下降。從目前看,這樣的故事大概率也將在人工智能領域發生。---來源: 钛媒體-