英偉達的「鐮刀」，不是AI芯片

2023101316:59

又一次被推上了風口浪尖，這次不是因為它扶搖直上的業績，而是過去將它捧在手心的、OpenAI、谷歌等人工智能排頭兵起了「異心」。

據The Information報道，計劃在下個月的年度開發者大會上推出首款為人工智能設計的芯片。這款芯片是為訓練和運行大型語言模型（LLM）的數據中心服務器設計的。OpenAI也在探索製造自己的人工智能芯片。公開信息顯示，OpenAI至少投資了3家芯片公司。

谷歌的自研芯片TPU更是迭代到了v5世代。此前有分析師爆料谷歌的算力資源比OpenAI、Meta、、和CoreWeave加起來還要多，它的優勢正是來源於擁有龐大數量的TPU。

這些企業為什麼要下場造芯，市場上已經有了許多分析，原因主要集中在的GPU價格過高、產能不足。通過自研芯片，有望削弱在人工智能芯片領域的定價權，同時比沒有自研芯片的企業更具戰略自主。

但是，自研芯片真的能迫使放緩手中的鐮刀嗎？

一個事實是，市面上H100 GPU已漲到了原價的兩倍，依舊供不應求。即便是自研芯片已經「上線」的谷歌，仍在大量採購的芯片。

為什麼？

由於的GPU銷量過於亮眼，以至於常常被簡單定義成一家硬件公司。但很多人不知道的是，的軟件工程師數量比硬件工程師還要多。

這句話背後的意思是，英偉達真正的護城河從不來自於層出不窮的新芯片（當然這也很了不起），而來源於軟硬件生態。

而CUDA，正是這條護城河的第一道河堤。

01 英偉達真正的王牌——CUDA

2019年，CEO黃仁勛在密爾沃基工學院介紹企業發展史時，說了這樣一段話。

「一項接着一項的應用，一個接着一個的科學領域，從分子動力學、計算物理學，到天體物理學、粒子物理學、高能物理學，這些不同的科學領域開始採用我們的科技，因為這是向前發展的最佳解法。而我們深深地以這項貢獻為榮。」

這項英偉達深以為榮的技術，正是CUDA。

CUDA是一種推出的並行計算架構，正是在它的加持下，GPU才得以打敗CPU，成為今天運行大數據計算的基礎。運行相同任務的情況下，支持CUDA系統的GPU比CPU的速度要快10到100倍。

為什麼CUDA有這種魔力？

CPU和GPU都是計算機處理器，都能執行計算任務，其不同點在於，CPU更擅長線性計算，而GPU更擅長並行計算。業內常用的一個類比是，CPU就像一位大學教授，能獨立解決各種複雜問題，但要按部就班進行，GPU像一群小學生，單核運算能力不如CPU，但勝在核的數量龐大，能同時計算。

而CUDA，則是調動這群小學生的指揮棒。在CUDA的中介下，研究員、編程人員得以實現通過編程語言與硬件設施對話，從而將複雜的數學問題轉化為多個簡單的小問題，分發給GPU的多個計算核。

如黃仁勛所說，CUDA問世後成為了「科學向前發展的最佳解法」，龐大的運算能力成為了搭建超級計算機的首選。

10月11日，部下屬橡樹嶺國家實驗室宣布，他們研發出的超級計算機「頂點」（Summit），浮點運算速度峰值可達每秒20億億次，接近「神威·太湖之光」超級計算機的兩倍。

這台算力巨獸身上搭載了近28000塊GPU。而橡樹嶺國家實驗室，正是第一家大量採用「CUDA+GPU」套餐的研究所。

事實上，從2006年推出CUDA至今，涉及計算機計算的各個領域，幾乎已經被塑造成了的形狀。航空航天、生物科學研究、機械和流體模擬及能源探索等領域的研究，80%在CUDA的基礎上進行。

並且，在大模型熱的帶動下，CUDA生態合作者規模仍在翻倍增長。

根據2023財年年報，目前有400萬名開發者正在與CUDA合作。通過12年的時間達到200萬名開發者，在過去的兩年半里該數字翻了一番，目前CUDA的下載量已經超過了4000萬次。

與此同時，仍在不斷擴大CUDA生態，推出了軟件加速庫的集合CUDA-X AI。這些庫建立在 CUDA之上，提供對於深度學習、機器學習和高性能計算必不可少的優化功能，是針對數據科學加速的端到端平台。

CUDA生態如日中天，與之相輔相成的GPU成為消費者的首選，因此賺得盆滿缽滿。不過，面對這麼大一塊蛋糕，競爭對手自然不可能隻眼錚錚地看着。

比如，AMD推出了生態平台ROCm，同樣兼容不少計算框架；OpenAI的Triton被認為是CUDA的最有力挑戰者；由設計，後交由Khronos Group維護的開源構架OpenCL，借鑑了CUDA的成功經驗，並儘可能的支持多核CPU、GPU或其他加速器；谷歌用「TPU+TensorFlow+雲」的模式吸引開發者和拓展客戶。

但這些「理論上」的競爭者，在實際工作中，卻暴露出了各種各樣的問題。

今年2月，半導體研究和諮詢公司Semi Analysis首席分析師Dylan Patel曾寫了一篇名為《Nvidia 在機器學習領域的 CUDA 壟斷如何被打破（How Nvidia’s CUDA Monopoly In Machine Learning Is Breaking - OpenAI Triton And PyTorch 2.0）》的文章。

文章的留言中，一位程序員表示：

「我希望如此，但我非常非常懷疑。我使用的所有東西都是基於CUDA構建的。實際上，在非NVidia硬件上沒有任何功能。『實際上有效』與『理論上有效』不同。我使用的很多東西理論上都支持 ROCm，但在實踐中，當你嘗試使用它時，你會遇到大大小小的錯誤，並且會崩潰或無法正常工作。」

一線研究人員的言論證明了，在軟硬件均坐穩頭把交椅，並且培育了市場近20年的英偉達面前，至少眼下這個階段，沒有企業能和它正面競爭。

02 英偉達帝國，誕生於「再造世界」

為什麼恰好是捏住了CUDA這張王牌？從2006年CUDA面世起算，已經過去了接近18年時間，為什麼在如此漫長的時間裡，的護城河不但沒有被攻破，反而越來越寬闊？

這些問題背後都有一個默認的前提——CUDA是那個「正確」的方向。而在英偉達孤注一擲的21世紀初，這句話黃仁勛對股東和市場重複了千百遍。

如果我們想要一個美好的世界，要做的第一件事，就是模擬它。某種程度上，這個想法就是GPU時代的原點，將那些複雜的物理定律模擬出來，並以畫面的形式呈現。然而，那些模擬物理定律的應用不會從天上掉下來，它需要有人一個一個地去開發。

因此，即便GPU的運算能力已經被證明未來有可能超過CPU，應用程序匱乏，編程過程太過繁瑣，缺少底層語言代表的現狀，仍讓程序員們對其敬而遠之。

2003年，推出了4核CPU，為了與之競爭，開始着手發展統一計算設備架構技術，也就是CUDA。

這個想法由首席科學家大衛·柯克博士提出，後來也是他說服黃仁勛，讓英偉達未來所有的GPU都必須支持CUDA。因為柯克在計算機高性能計算領域所發揮的重要作用，他後來被譽為「CUDA之父」，還當選為美國國家工程院院士。

這些榮譽都是後話，當時黃仁勛需要解決的問題是，如何讓股東接受產品成本需要上升一倍，去搏一個回報周期可能在10年以上的未來。

事實上，圍繞着CUDA的質疑一直持續到了AI時代的前夜，的市值常年徘徊在10億美元的水平，股價甚至一度因為CUDA附加成本對業績的拖累跌至1.5美元。股東多次提出希望他們專注於提高盈利能力。

2010年，當時的CPU王者曾傳出計劃收購。《芯片戰爭》中描述到，「對來說，（收購）價格不是問題，問題是該給黃仁勛一個什麼職位。然而雙方一直沒有達成一致意見，最後不了了之。」

在市場看空英偉達的這些年裡，黃仁勛從未質疑過CUDA的價值。

為了吸引開發人員編寫應用程序並展示GPU的優勢，黃仁勛先是使用了當時已經擁有龐大遊戲玩家市場的 GeForce GPU來作為安裝CUDA的基礎。然後又創建了一個名為GTC的會議，在全球範圍內孜孜不倦地推廣CUDA。

近年來最為市場稱道的一個案例是，2016年，黃仁勛親自去彼時剛成立的OpenAI交流，並贈送了一台搭載有8顆P100芯片的DGX-1，那是英偉達當時最強力的浮點運算GPU。

這件事往往被解讀為黃仁勛的眼光老辣，但對他本人來說，這無非是確保CUDA成為前沿科學研究者最習慣的框架的又一次嘗試而已。

與的篤定恰好能形成對比的，是。

作為CPU時代的王者，本該成為最具競爭力的對手。

然而，在2010年取消了CPU和GPU融合的獨立顯卡計劃後，英特爾就失去了和英偉達硬碰硬的興趣（當然也可以說是因為納米製程陷入停滯而失去底氣）。先是試圖收購，然後又轉身去和在移動基帶市場上較勁，2015年第一波人工智能熱潮席捲而來時，大夢初醒的一手收購人工智能方向的芯片公司，一手將AMD的芯片納入到自己的系統芯片當中。

可惜的是，彼時的市場份額超過了60%，CUDA壟斷已然初具雛形，在GPU領域，已經沒有資格和坐在同一張牌桌上了。

03 DPU和DOCA，英偉達的新戰場

2020年，創投圈曾流行過一個笑話。

「DPU是什麼？」

「支付寶到賬，一億元。」

只要觸發了DPU這個關鍵詞，錢就會滾滾而來。

這輪DPU熱，正是掀起的。

2020年上半年，以69億美元對價收購以色列網絡芯片公司Mellanox Technologies，並於同年推出BlueField-2 DPU，將其定義為繼CPU、GPU之後的「第三顆主力芯片」。

那麼到底什麼是DPU？

DPU最核心的功能，是取代CPU，建立以數據為中心的計算架構。

眾所周知，CPU的全稱是中央處理器，它除了承擔運行應用程序、執行計算的任務外，還扮演着數據流量控制器的角色，在GPU、存儲、FPGA和其他設備之間移動數據。

你可以簡單理解成，校長拋出一道難題後，老師（CPU）對其進行拆分，其中較為複雜的部分由自己解決，容易但繁瑣的分發給學生（GPU）來做。過去題的數量比較少，老師還可以分得過來。但隨着題目的數量增加，拆分、分發題目的時間反倒占用了老師的大量時間。

此時，再聘請一個專門拆分、分發題目的人，就成為了提升系統整體運算效率的關鍵。而DPU就是那個人。

近年來，隨着數據中心建設、網絡帶寬和數據量急劇增長，同時CPU性能增長速度放緩，越來越難以適應未來計算芯片的需求，DPU應運而生。英偉達官網是這樣定義它的——DPU是一個用於數據中心基礎設施的先進計算平台。

就像GPU背後有CUDA生態作支撐一樣，黃仁勛同樣為DPU量身定做了一套軟件生態，同步推出了DOCA。

藉助DOCA，開發者可以通過創建軟件定義、雲原生、DPU 加速的服務來對未來的數據中心基礎設施進行編程，並支持零信任保護，以滿足現代數據中心日益增長的性能和安全需求。

與CUDA不同的是，已經功成名就的英偉達不再需要苦口婆心地向市場證明自己眼光的獨到之處，創投圈的DPU熱就足以說明這一點。

不過伴隨而來的，DPU市場的競爭也遠比當年GPU要來得激烈。

國外廠商中，Marvell、、AMD均研發了DPU或DPU的對位產品。國內亦湧現出一批DPU初創企業，如雲豹智能、中科馭數、芯啟源、雲脈芯聯、星雲智聯、大禹智芯。

雲廠商方面，的AWS和阿里雲已經實現大規模商用DPU構架，騰訊和字節跳動則加入了DPU研發大軍，其中騰訊推出了水杉和銀杉兩代DPU。

這一次還能靠DPU+DOCA的軟硬件生態復現GPU+CUDA的奇蹟嗎？

各國、各企業之間的算力競賽愈演愈烈，在產能受限並且DOCA生態尚未形成的情況下，對手們並非毫無機會。-[文:硅基研究室*作者:白嘉嘉/鈦媒體]

我要留言

英偉達的「鐮刀」，不是AI芯片

美債，終於賣不動了！

無解之謎！科技為何束手無策面對病毒？

美債，終於賣不動了！

無解之謎！科技為何束手無策面對病毒？