競爭對手環伺,誰在搶英偉達的GPU生意?
英偉達市值在高位起伏時,業界越來越多關註到GPU(圖形處理器)之外的AI芯片。
近期AI芯片兩個備受矚目的融資消息均與ASIC芯片(專用集成電路)有關。有消息稱,AI芯片初創公司Groq在新一輪融資中估值將達25億美元,另一家初創公司Etched則完成1.2億美元融資,兩家做的都是ASIC。GPU巨頭英偉達似乎也在考慮市場競爭影響,今年年初,英偉達傳出考慮布局ASIC的消息。
相對而言,GPU更加通用且軟件生態更完善,可以運行各種算法,ASIC通用性較弱但硬件性能可能更強,可能只能運行一部分算法。除了AI初創公司和雲廠商避開英偉達鋒芒發力ASIC,記者還了解到,算力廠商也在考慮使用適用於邊緣計算的FPGA(現場可編程門陣列)芯片。算力需求方正在尋找更多樣的AI芯片方案。
外界將這些AI芯片企業視為英偉達的競爭對手,那麽,這些AI芯片能多大程度擠占英偉達的GPU市場?
* 臺面上下的ASIC生意
備受矚目的ASIC初創企業融資以及低調的雲巨頭布局,臺面上下,ASIC都在向GPU發起攻勢。
近日傳出融資消息的兩家初創公司中,由谷歌TPU(張量處理單元)發明者之一Jonathan Ross創立的Groq,於今年2月推出ASIC芯片LPU(語言處理器),宣稱該LPU推理性能是英偉達GPU的10倍,成本僅為其十分之一。Etched則於6月推出Sohu芯片,將Transformer(主流大語言模型基於的架構)優化固定在芯片上,聲稱一臺集成8塊Sohu的服務器性能匹敵160個H100 GPU。
不少雲巨頭自研的也是ASIC芯片,包括谷歌、微軟、Meta等,其中谷歌自用的ASIC出貨量已不少。據市場研究機構TechInsights最新數據,2023年數據中心加速器廠商中,谷歌TPU出貨量達200萬臺,英偉達為380萬臺,其他芯片為50萬臺。2023年,谷歌已是第三大數據中心處理器設計商,2023年第四季度,英偉達在數據中心處理器市場的份額超50%,谷歌市占率排第三,市占率已接近第二名的英特爾。
一些AI定製芯片廠商因此成為隱形贏家。谷歌與博通合作開發TPU。2024財年第一季度,博通收入119.61億美元,同比增長34%。博通CEO Hock Tan稱,第二季度,博通來自AI產品的收入達創紀錄的31億美元,人工智能需求是提振業績的一大因素。
今年年初至當地時間7月8日,博通市值上漲了超2000億美元。另一家主要AI定製芯片廠商Marvell在截至5月4日的2025財年第一財季中,AI定製芯片業務顯著增長,推動其數據中心業務收入增長87%。
「GPU本質是一種大規模並行處理器,可同時執行多任務,ASIC則是為高效執行特定小範圍功能而設計。如果有一個在特定範圍內執行的任務能通過ASIC實現,這種方式可能更高效且更便宜。如果應用程序需要執行多任務且這些任務會改變範圍,GPU可能是更好的選擇。」 就GPU和ASIC適用場景的區別,TechInsights數據中心和雲頻道研究總監Dr Owen Rogers告訴第一財經記者。
從原理上講,Etched此前曾表示,CPU和GPU作為通用芯片需適配不同AI架構,因此大部分計算能力不用於AI相關計算,估計H100僅3.3%的晶體管用於矩陣乘法,非通用芯片少了相關顧慮,Sohu還通過減少存儲器空間等方式將更多空間用於計算。Groq也專門設計用於處理大語言模型任務,並結合近存計算技術提升算力表現,在14nm的製程下,Groq大模型生成速度達到近500token/秒,超過GPU驅動的GPT-3.5的40token/秒。
如果能在AI場景使用性能更好的硬件,意味著完成同樣計算所需能耗可以更低。此外,英偉達在截至4月28日的2025財年第一財季錄得高達78.4%的毛利率,對定價權的掌握不言而喻,算力需求方若能自研或外購ASIC芯片,或能把AI芯片硬件價格也打下來。
雖然大模型要從成熟的GPU生態遷移到ASIC生態需要成本,且後者軟件生態沒有GPU成熟,但業界已在考慮用ASIC替代一部分GPU算力。除了谷歌等雲廠商也將ASIC芯片用於大模型訓練,市場分析主要認為ASIC可在模型推理場景替代GPU。
「企業需要證明支出與回報的合理性,企業將無法『奢侈』地使用昂貴的GPU來滿足所有AI需求。企業仍會用GPU,因為GPU仍需要用在大量並行化的通用用例中,但對於其他需求,在合適環境下運行的ASIC將會是更好的選擇,因為ASIC購買成本更低,將會有更多ASIC設計來滿足特定的需求。」Owen Rogers判斷,模型訓練仍將在GPU上進行,因為GPU對不同模型更加靈活,推理則可能越來越多使用低功耗的ASIC。
麥肯錫3月發布的報告也表示,目前主流高性能新一代AI服務器采用2個CPU和8個GPU的組合,推理工作負載運行在與訓練相似的基礎設施上。而隨著未來AI工作量主要轉向推理,工作負載將主要由專用硬件承擔。到2030年,配備ASIC芯片的AI加速器將處理大多數AI工作負載,因為ASIC在特定AI任務中表現更佳。
* GPU潛在對手還有誰
ASIC之外,其他芯片架構也試圖進場。FPGA此前便因較好的硬件靈活性和時延表現、較低功耗,被認為適合邊緣端計算,主要的兩家FPGA公司是AMD持股的賽靈思和英特爾旗下的Altera,目前FPGA已呈現出向大模型領域滲透之勢。國內,無問芯穹、清華大學和上海交通大學1月聯合提出一種面向FPGA的大模型輕量化部署流程FlightLLM,首次在單塊賽靈思U280 FPGA上實現LLaMA2-7B 高效推理。
「不跑大模型的時候,GPU和FPGA的使用成本差距還沒有太大,跑大模型後差距越來越大了,因為模型參數量更大,所需芯片卡數指數式增加。「一名算力芯片技術人員告訴記者,一張FPGA使用時功耗大約幾十瓦,而GPU待機功耗便達幾十瓦、推理時功耗可達300多瓦,這意味著FPGA一體機相比GPU使用成本更低。
該技術人員表示,相比GPU可用於訓練和推理,FPGA相對更適用於大模型邊緣端推理,預計未來在推理場景對GPU形成一定替代。其所在的算力平臺公司已在適配FPGA,但還未正式推出商用產品。不過,該技術人員表示,使用FPGA也有弊端,該芯片定製化,開發難度高,需要重新編程,前期需要跑通一些大模型後才會逐步縮短叠代周期。現在很多行業客戶對非GPU的算力方案感興趣,前來咨詢的很多,但真正能用起來的還不算多。
另一些創新形態的芯片也對大模型市場虎視眈眈。今年6月,有消息稱AI芯片公司Cerebras已向證券監管機構秘密提交IPO文件。與一些普通的高製程芯片越做越小相反,Celebras的思路是在采用高製程的同時將芯片做大。Cerebras2019年曾推出由一整片晶圓製成的「世界最大芯片」晶圓級芯片WSE,46225mm²面積上集成40萬個AI核心和1.2萬億顆晶體管,今年3月推出的第三代晶圓級芯片WSE-3內核數量則為英偉達H100的52倍。
Owen Rogers告訴記者,Cerebras所有組件都在單個晶圓上,可以最大限度減少多核和內存間的距離,減少延遲並增加帶寬,對於需大量並行運算和大內存的AI工作負載而言,能顯著提升性能並降低功耗。Cerebras的關鍵特點來自芯片設計方法,但除了設計、運輸和銷售硬件,Cerebras還需調整現有開源框架適應其系統,減少新客戶移植現有模型時的困難。
從共性看,不論是Cerebras、Etched還是一些FPGA芯片,芯片走向更專用化或定製化都有利於大模型在芯片上更高效運行,但由此也面臨一些開發或適配上的挑戰。什麽樣的新芯片可以闖出一條新的生路,結局尚未可知。做Transformer芯片的Etched聯合創始人兼CEO Gavin Uberti便曾表示,公司在下賭註,如果Tansformer不再被采用,公司就會失敗,如果Transformer繼續被采用,公司可能會成為有史以來最大的公司。
面對更專用的芯片的挑戰,GPU也並非一成不變,記者了解到,顛覆自身通用性、走向專用化也是一條可能的道路。一些新技術也有望用於克服GPU的局限,應對來自其他芯片的挑戰。
一名資深芯片業內人士告訴記者,英偉達此前已在推動芯片走向專用化,以提升性能和功耗表現,現在用於AI運算的GPU加入了Tensor Core(張量處理單元)這樣的結構,或許未來這種結構會更多。千芯科技董事長陳巍向記者表示,猜測未來可能會出現針對大模型應用的專用GPU,犧牲一部分原來對顯示的支持能力,從而支持更大矩陣計算。此外,GPU也在采用各種技術改良自身,如采用更先進的封裝和集成技術來減少互聯功耗損失、采用存算一體技術以提升能效比等。
至於業界未來會走向更適合大模型的其他AI芯片,還是仍會在GPU的基礎上改良,陳巍告訴記者,目前兩方力量在博弈,一方面,大家對新結構和更強大的算力有需求,另一方面,英偉達已有完善的CUDA生態,新舊力量正在此消彼長。
Owen Rogers告訴記者,除了ASIC和GPU,未來還可能出現新的SoC(系統級芯片)設計,聚合不同類型的處理器、內存和互聯技術,以滿足不同場景對不同芯片的需求,企業將根據自身需求選擇最合適的AI芯片。---來源: 第一財經資訊-