競爭對手環伺，誰在搶英偉達的GPU生意？

2024071015:52

英偉達市值在高位起伏時，業界越來越多關註到GPU（圖形處理器）之外的AI芯片。

近期AI芯片兩個備受矚目的融資消息均與ASIC芯片（專用集成電路）有關。有消息稱，AI芯片初創公司Groq在新一輪融資中估值將達25億美元，另一家初創公司Etched則完成1.2億美元融資，兩家做的都是ASIC。GPU巨頭英偉達似乎也在考慮市場競爭影響，今年年初，英偉達傳出考慮布局ASIC的消息。

相對而言，GPU更加通用且軟件生態更完善，可以運行各種算法，ASIC通用性較弱但硬件性能可能更強，可能只能運行一部分算法。除了AI初創公司和雲廠商避開英偉達鋒芒發力ASIC，記者還了解到，算力廠商也在考慮使用適用於邊緣計算的FPGA（現場可編程門陣列）芯片。算力需求方正在尋找更多樣的AI芯片方案。

外界將這些AI芯片企業視為英偉達的競爭對手，那麽，這些AI芯片能多大程度擠占英偉達的GPU市場？

* 臺面上下的ASIC生意

備受矚目的ASIC初創企業融資以及低調的雲巨頭布局，臺面上下，ASIC都在向GPU發起攻勢。

近日傳出融資消息的兩家初創公司中，由谷歌TPU（張量處理單元）發明者之一Jonathan Ross創立的Groq，於今年2月推出ASIC芯片LPU（語言處理器），宣稱該LPU推理性能是英偉達GPU的10倍，成本僅為其十分之一。Etched則於6月推出Sohu芯片，將Transformer（主流大語言模型基於的架構）優化固定在芯片上，聲稱一臺集成8塊Sohu的服務器性能匹敵160個H100 GPU。

不少雲巨頭自研的也是ASIC芯片，包括谷歌、微軟、Meta等，其中谷歌自用的ASIC出貨量已不少。據市場研究機構TechInsights最新數據，2023年數據中心加速器廠商中，谷歌TPU出貨量達200萬臺，英偉達為380萬臺，其他芯片為50萬臺。2023年，谷歌已是第三大數據中心處理器設計商，2023年第四季度，英偉達在數據中心處理器市場的份額超50%，谷歌市占率排第三，市占率已接近第二名的英特爾。

一些AI定製芯片廠商因此成為隱形贏家。谷歌與博通合作開發TPU。2024財年第一季度，博通收入119.61億美元，同比增長34%。博通CEO Hock Tan稱，第二季度，博通來自AI產品的收入達創紀錄的31億美元，人工智能需求是提振業績的一大因素。

今年年初至當地時間7月8日，博通市值上漲了超2000億美元。另一家主要AI定製芯片廠商Marvell在截至5月4日的2025財年第一財季中，AI定製芯片業務顯著增長，推動其數據中心業務收入增長87%。

「GPU本質是一種大規模並行處理器，可同時執行多任務，ASIC則是為高效執行特定小範圍功能而設計。如果有一個在特定範圍內執行的任務能通過ASIC實現，這種方式可能更高效且更便宜。如果應用程序需要執行多任務且這些任務會改變範圍，GPU可能是更好的選擇。」就GPU和ASIC適用場景的區別，TechInsights數據中心和雲頻道研究總監Dr Owen Rogers告訴第一財經記者。

從原理上講，Etched此前曾表示，CPU和GPU作為通用芯片需適配不同AI架構，因此大部分計算能力不用於AI相關計算，估計H100僅3.3%的晶體管用於矩陣乘法，非通用芯片少了相關顧慮，Sohu還通過減少存儲器空間等方式將更多空間用於計算。Groq也專門設計用於處理大語言模型任務，並結合近存計算技術提升算力表現，在14nm的製程下，Groq大模型生成速度達到近500token/秒，超過GPU驅動的GPT-3.5的40token/秒。

如果能在AI場景使用性能更好的硬件，意味著完成同樣計算所需能耗可以更低。此外，英偉達在截至4月28日的2025財年第一財季錄得高達78.4%的毛利率，對定價權的掌握不言而喻，算力需求方若能自研或外購ASIC芯片，或能把AI芯片硬件價格也打下來。

雖然大模型要從成熟的GPU生態遷移到ASIC生態需要成本，且後者軟件生態沒有GPU成熟，但業界已在考慮用ASIC替代一部分GPU算力。除了谷歌等雲廠商也將ASIC芯片用於大模型訓練，市場分析主要認為ASIC可在模型推理場景替代GPU。

「企業需要證明支出與回報的合理性，企業將無法『奢侈』地使用昂貴的GPU來滿足所有AI需求。企業仍會用GPU，因為GPU仍需要用在大量並行化的通用用例中，但對於其他需求，在合適環境下運行的ASIC將會是更好的選擇，因為ASIC購買成本更低，將會有更多ASIC設計來滿足特定的需求。」Owen Rogers判斷，模型訓練仍將在GPU上進行，因為GPU對不同模型更加靈活，推理則可能越來越多使用低功耗的ASIC。

麥肯錫3月發布的報告也表示，目前主流高性能新一代AI服務器采用2個CPU和8個GPU的組合，推理工作負載運行在與訓練相似的基礎設施上。而隨著未來AI工作量主要轉向推理，工作負載將主要由專用硬件承擔。到2030年，配備ASIC芯片的AI加速器將處理大多數AI工作負載，因為ASIC在特定AI任務中表現更佳。

* GPU潛在對手還有誰

ASIC之外，其他芯片架構也試圖進場。FPGA此前便因較好的硬件靈活性和時延表現、較低功耗，被認為適合邊緣端計算，主要的兩家FPGA公司是AMD持股的賽靈思和英特爾旗下的Altera，目前FPGA已呈現出向大模型領域滲透之勢。國內，無問芯穹、清華大學和上海交通大學1月聯合提出一種面向FPGA的大模型輕量化部署流程FlightLLM，首次在單塊賽靈思U280 FPGA上實現LLaMA2-7B 高效推理。

「不跑大模型的時候，GPU和FPGA的使用成本差距還沒有太大，跑大模型後差距越來越大了，因為模型參數量更大，所需芯片卡數指數式增加。「一名算力芯片技術人員告訴記者，一張FPGA使用時功耗大約幾十瓦，而GPU待機功耗便達幾十瓦、推理時功耗可達300多瓦，這意味著FPGA一體機相比GPU使用成本更低。

該技術人員表示，相比GPU可用於訓練和推理，FPGA相對更適用於大模型邊緣端推理，預計未來在推理場景對GPU形成一定替代。其所在的算力平臺公司已在適配FPGA，但還未正式推出商用產品。不過，該技術人員表示，使用FPGA也有弊端，該芯片定製化，開發難度高，需要重新編程，前期需要跑通一些大模型後才會逐步縮短叠代周期。現在很多行業客戶對非GPU的算力方案感興趣，前來咨詢的很多，但真正能用起來的還不算多。

另一些創新形態的芯片也對大模型市場虎視眈眈。今年6月，有消息稱AI芯片公司Cerebras已向證券監管機構秘密提交IPO文件。與一些普通的高製程芯片越做越小相反，Celebras的思路是在采用高製程的同時將芯片做大。Cerebras2019年曾推出由一整片晶圓製成的「世界最大芯片」晶圓級芯片WSE，46225mm²面積上集成40萬個AI核心和1.2萬億顆晶體管，今年3月推出的第三代晶圓級芯片WSE-3內核數量則為英偉達H100的52倍。

Owen Rogers告訴記者，Cerebras所有組件都在單個晶圓上，可以最大限度減少多核和內存間的距離，減少延遲並增加帶寬，對於需大量並行運算和大內存的AI工作負載而言，能顯著提升性能並降低功耗。Cerebras的關鍵特點來自芯片設計方法，但除了設計、運輸和銷售硬件，Cerebras還需調整現有開源框架適應其系統，減少新客戶移植現有模型時的困難。

從共性看，不論是Cerebras、Etched還是一些FPGA芯片，芯片走向更專用化或定製化都有利於大模型在芯片上更高效運行，但由此也面臨一些開發或適配上的挑戰。什麽樣的新芯片可以闖出一條新的生路，結局尚未可知。做Transformer芯片的Etched聯合創始人兼CEO Gavin Uberti便曾表示，公司在下賭註，如果Tansformer不再被采用，公司就會失敗，如果Transformer繼續被采用，公司可能會成為有史以來最大的公司。

面對更專用的芯片的挑戰，GPU也並非一成不變，記者了解到，顛覆自身通用性、走向專用化也是一條可能的道路。一些新技術也有望用於克服GPU的局限，應對來自其他芯片的挑戰。

一名資深芯片業內人士告訴記者，英偉達此前已在推動芯片走向專用化，以提升性能和功耗表現，現在用於AI運算的GPU加入了Tensor Core（張量處理單元）這樣的結構，或許未來這種結構會更多。千芯科技董事長陳巍向記者表示，猜測未來可能會出現針對大模型應用的專用GPU，犧牲一部分原來對顯示的支持能力，從而支持更大矩陣計算。此外，GPU也在采用各種技術改良自身，如采用更先進的封裝和集成技術來減少互聯功耗損失、采用存算一體技術以提升能效比等。

至於業界未來會走向更適合大模型的其他AI芯片，還是仍會在GPU的基礎上改良，陳巍告訴記者，目前兩方力量在博弈，一方面，大家對新結構和更強大的算力有需求，另一方面，英偉達已有完善的CUDA生態，新舊力量正在此消彼長。

Owen Rogers告訴記者，除了ASIC和GPU，未來還可能出現新的SoC（系統級芯片）設計，聚合不同類型的處理器、內存和互聯技術，以滿足不同場景對不同芯片的需求，企業將根據自身需求選擇最合適的AI芯片。---來源: 第一財經資訊-

我要留言

競爭對手環伺，誰在搶英偉達的GPU生意？

AI情報局/AI文檔搜索公司完成融資*大模型最強架構TTT問世.....

深度解析RAG大模型知識衝突，清華西湖大學港中文聯合發布

AI情報局/AI文檔搜索公司完成融資*大模型最強架構TTT問世.....

深度解析RAG大模型知識衝突，清華西湖大學港中文聯合發布