把客戶逼成敵人,英偉達走向兩萬億的方法
黃仁勳:“我們不需要假裝公司一直處于危險之中。我們一直處于危險之中。”
8 月下旬,英偉達召開例行全員會。當時英偉達股價隨著銷量大漲,市值穩定地回到萬億美元以上,員工手中股票的價值已經是年初的三倍多。英偉達 CEO 黃仁勳提醒他們,不要太早激動,公司的市值會到 2 萬億美元。
全球只有蘋果、微軟、Google 的市值到過 2 萬億美元,各自牢牢抓住十多億用戶。它們也全部都是英偉達成爲萬億公司的原因。ChatGPT 火爆後,它們向英偉達下了總額數十億美元的大訂單。
本周,英偉達發布了新款 GPU H200,與上一代最大的差別是用了新款內存芯片,連計算能力都沒明確公布,其市值就應聲漲了 700 多億美元。英偉達稱已經給 H200 找到了買主——明年它會密集出現在亞馬遜、Google、微軟等公司的數據中心中。
在英偉達沖向 2 萬億美元的道路上,這些客戶還會繼續下大訂單,但也會和它直接競爭。今天微軟的 Ignite 大會是這種關系的直接體現,微軟一邊發布自研的 AI 芯片 Maia 100,一邊邀請黃仁勳到場宣布新的合作。
微軟之外,Meta、Google、亞馬遜、特斯拉等英偉達的大客戶,今年都投入更多資源研發 AI 芯片,甚至 OpenAI 都開始籌備芯片項目。
兩倍于 LVMH 的利潤率,大客戶們自研芯片的動力
英偉達成立至今 30 年,前 20 多年專精于遊戲顯卡這一個小衆市場。加密貨幣帶來的巨大挖礦需求讓英偉達激活了顯卡銷量,英偉達的業績和市值因此躍升,不僅收入在 2018 年沖破百億美元、利潤率沖上 30%,股價也在 2016 年到 2018 年 10 月間大漲 800%。隨著比特幣在新冠疫情肆虐之際沖上 6.8 萬美元,英偉達的市值也逼近萬億美元,成爲最值錢的芯片公司。
2023 年 3 月發布的 GPT-4 點燃了整個人工智能行業。根據芯片研究機構 SemiAnalysis 獲取的信息,OpenAI 用 2.5 萬張英偉達 A100 GPU 訓練了三個多月,才做出 GPT-4 大模型。
A100 是英偉達 2020 年發布的 GPU。在 GPT-4 發布前幾個月,英偉達推出了 H100 GPU,把計算能力提升到 A100 的 3 倍,專門爲 Transformer 架構(大模型的底層)做了優化——當時 ChatGPT 還沒有面世。
對于想要研發更強大模型的 OpenAI 和追趕 OpenAI 的公司,H100 都是需要大量囤積的戰略資源,它立即變得供不應求。OpenAI 發布 GPT-4 後,兩度因爲 GPU 短缺停止付費用戶注冊。
埃隆·馬斯克(Elon Musk)說 H100 “比毒品都難買”。迫切需要算力的公司們,轉而訂購 A100。受美國政府貿易限制,中國公司只能購買降低性能的 A800 和 H800。這些 GPU 的産能也遠遠跟不上需求。
紅杉資本在今年 9 月稱,許多公司的增長瓶頸不是客戶需求,而是英偉達最新 GPU 的産能。
英偉達是設計公司,並不直接生産芯片,它需要請台積電生産芯片,從其他公司采購高性能內存,再交給供應商組裝成一張卡。一顆 H100 的成本約 3000 美元,而英偉達賣 30000 多美元,翻十倍:
- 英偉達向台積電下訂單,用 4 納米的芯片産線制造 GPU 芯片,平均每顆成本 155 美元。
- 英偉達從 SK 海力士(未來可能有三星、美光)采購六顆 HBM3(High Bandwidth Memory,高帶寬內存)芯片,成本大概 2000 美元。這是因爲 GPU 處理大模型任務,還需要搭載比手機、電腦更大、數據傳輸速度更快的內存,才能保證效率。
- 台積電芯片産線生産出來的 GPU 和英偉達采購的 HBM3 芯片,一起送到台積電 CoWoS 封裝産線,以性能折損最小的方式加工成 H100,成本大約 723 美元。
- H100 被送到其他英偉達的供應商處,4 顆或 8 顆組裝在一起,加上數據傳輸單元,做成服務器。
利潤豐厚的 H100 推動英偉達利潤率攀升到 40%,超過了所有芯片同行,達到全球最大奢飾品集團 LVMH 的近兩倍。
英偉達高昂的利潤,就是它客戶的成本。爲了借著大模型浪潮抓住用戶、激活業務,許多大公司采購 GPU 後,不惜賠錢對外提供服務。GPT-4 發布後,微軟將其用于必應搜索,讓用戶免費使用。
黃仁勳常說的 “買得 GPU 越多,省的越多” 成爲過去式。大公司買得越多,英偉達賺的越多,它們虧損越多。一個顯而易見的選擇出現了:自研一款芯片,可能省的更多。
過去十多年,研發一款芯片的難度持續下降:台積電、三星等代工廠存在,讓它們不用擔心芯片代工問題;芯片人才充分流動,降低了設計芯片的難度。
芯片研究機構 SemiAnalysis 的首席分析師迪倫·帕特爾(Dylan Patel)說,自研一款類似微軟 Maia 100 的 AI 芯片,每年的成本大概 1 億美元——對于研發費用每年上百億美元的大互聯網公司來說,並不算什麽。
ChatGPT 帶動了大模型熱潮,大公司不用擔心使用場景問題。咨詢機構 Gartner 今年 8 月預測,全球 AI 芯片市場規模隨著 ChatGPT 火熱快速增長,到 2027 年就會達到近 1200 億美元,是去年的 2.7 倍。
大公司們想在 AI 芯片研發能力上追上英偉達,投入 5 至 10 年也不一定能實現。不過它們只需要花英偉達同樣的成本,做出十分之一的效果,就已經有利可圖了。
訓練更強的大模型,需要很多 GPU。“訓練一個對標 GPT-3.5 的大模型,用 2000 至 3000 張 A100 GPU 就可以。但想要訓練對標 GPT-4 的大模型,上萬張 GPU 只是一個入場券。” 一家中國科技公司的大模型負責人說。
訓練完成還不是結束。當用戶使用大模型的時候,這些企業得靠 GPU 調動大模型 —— 即大模型推理。大模型要處理用戶輸入的問題,基本上每個字都要單獨跑一遍大模型。給出回複時,類似的情況還要再來一遍。參數上千億的大模型,每次跑一遍都要調用多張 GPU。
多位大模型從業者估算,如果千億參數或更大的人工智能模型被廣泛使用,大模型的訓練成本和推理成本會達到 2:8,甚至 1:9。推理 GPT-4 或更強的大模型,基本上離不開英偉達高性能的 GPU。
《晚點 LatePost》了解到,參數更大的大模型推理會産生巨大算力需求,而且不可能在本地設備上實現(70 億參數的大模型就需要 14G 內存,超出了所有手機的硬件配置和絕大多數電腦配置),不少英偉達員工因此相信公司市值會繼續上升。
科技公司自研 AI 芯片,出發點都是推理參數較小的模型,然後再進一步擴展。阿裏巴巴的含光 800、百度的昆侖芯片都是推理芯片,Google、亞馬遜、特斯拉做 AI 芯片,也是從推理入手,然後再做訓練芯片。
自研芯片不用向英偉達交稅,性能低一些也能節省成本。根據迪倫·帕特爾等人的測算,按照 Google 的報價,使用其最新的 AI 芯片 TPUv5e 在訓練、推理參數少于 2000 億的大模型時,成本低于用 A100 或 H100。
大公司通常先在自己的業務中使用自研 AI 芯片,比如 Google 的 TPU 最先支持的是 Google 翻譯,最新的 TPUv5e 首先用在了 Google Brad 和一系列用大模型改造的業務中(比如 Gmail)。微軟 Azure 芯片部門副總裁拉尼·博卡爾(Rani Borkar)今天在發布會上說,微軟正在必應、Office 等業務中測試自研的 AI 芯片 Maia 100,預計明年初投入使用。
芯片經過內部測試後,大公司會通過雲計算平台對外提供服務,與英偉達爭搶客戶。11 月 8 日,Google 投資的 Anthropic 宣布大規模部署 TPUv5e,處理其大模型 Claude 的推理工作,這些任務原本屬于英偉達的 GPU。
英偉達 2 萬億美元攻防戰
“我們不需要假裝公司一直處于危險之中。事實上,我們一直處于危險之中,而且我們深有體會。”11 月 9 日,黃仁勳在一場活動中說。
芯片行業先驅、英特爾聯合創始人安迪·格魯夫(Andy Grove)曾說 “成功滋生自滿,自滿導致失敗,只有偏執狂才能生存”。英偉達也是矽谷最偏執的公司之一,從管理風格到戰略藍圖都是。
大約十年前,黃仁勳在俄勒岡州立大學向台下的畢業生傳輸經驗:“當有人全力以赴時,他們就能做你做不到的事情。全力以赴,不留後手。” 他從不對沖風險,也不會多重押注,只在自己覺得對的路線上全力押注。
從 2006 年開始,爲了讓 GPU 在遊戲、電影之外也有用武之地,英偉達將大筆資金投入到 CUDA 研發中,投資人和華爾街的分析師們不理解,爲什麽要給遊戲顯卡不斷增加計算性能、讓它們越來越貴和難賣?
直到大約十年後,人工智能和深度學習展現了商業價值,英偉達早期投資得到認可,CUDA 成了英偉達隱形的護城河。
爲了顧及手機、筆記本電腦的功耗,蘋果、英特爾等競爭對手的芯片常常一年只能提升不到 20%。而英偉達的 AI 芯片只考慮性能這一個目標。
黃仁勳不滿足 “摩爾定律” 每 18 個月性能翻一番,他提出了更快的 “黃氏定律”,並要求團隊以此爲目標,兩年發布一款新品,保持計算性能的絕對優勢。明年 3 月,英偉達將發布下一代産品 GPU B100,預計性能會大幅度超過 H100 和加速追趕的所有競爭對手。
雖然從 P100、V100 到 A100,功耗都在 250W 到 400W 之間,而 H100 的功耗直接來到了 700 W,是 FPGA 或 ASIC 路線下 AI 芯片功耗的數十倍。但更強的計算性能,讓英偉達的 GPU 擁有著不可替代的地位。
面對更激烈的市場競爭,英偉達加快了新品推出速度。11 月 13 日剛發布的 H200,是英偉達第一次在兩代旗艦産品中插入一個 “過渡款”。據 SemiAnalysis 的信息,英偉達將在 2025 年發布 B100 的下一代産品,發布周期從之前的兩年一更,加速到了一年一更,還會延續下去。
芯片市場需求和産能經常錯置,但黃仁勳從不在意周期。一旦有重要且搶手的零部件,他就會下單鎖定産能,哪怕冒著用不完的風險,也要確保自身供應,擠壓競爭對手。
目前 AI 芯片供應瓶頸主要是 CoWoS 先進封裝和 HBM3,英偉達包下了台積電約六成 CoWoS 産能,向 HBM 的三家供應商 SK 海力士、三星和美光下了巨額訂單。
根據英偉達財報,截至今年 7 月底,英偉達賬上還有價值 111.5 億美元的訂單、庫存和産能采購承諾,另外還有 38.1 億美元的供應合約預付款 —— 同行裏沒有第二家公司有這麽多的庫存和預付款。
英偉達的大手筆采購,讓供應商都感到擔心。台積電董事長劉德音在今年二季度業績會上說,看不清楚 AI 的火熱需求是不是短期泡沫。但英偉達的訂單就在那裏,台積電只能選擇大幅擴産跟上。
在英偉達的一再追單下,台積電已經計劃將明年的 CoWoS 産能提高到 3.5 萬片 / 月、同比增長 120%。
這樣極致的供應鏈掌控策略刻在英偉達的基因裏。1997 年,黃仁勳向台積電下了 1.27 億美元的代工訂單。台積電創始人張忠謀每隔一段時間就要回訪,重聽一遍黃仁勳的業務講解、確保他真的需要這麽多晶圓——那年英偉達的全年營收只有 2700 萬美元。
英偉達還拿出了奢侈品行業慣用的 “配貨” 策略。渠道商和客戶們想要 H100、A100 這樣的旗艦芯片,就得先買夠一定量的 L40S 等適合更小模型的推理芯片,無形當中將競爭對手從夠得到的市場趕走。
地緣政治是英偉達面前最大的阻礙。上一財年,中國市場爲英偉達貢獻了 47% 的收入。美國政府在去年和今年 10 月兩度收緊高性能芯片出口,英偉達是最主要的限制對象。
英偉達的反擊就是貼著紅線出新品。第一輪管制後不久,英偉達就將 A100 的帶寬縮水,交出既符合規定,同時不影響算力的中國特供版芯片 A800,接著在半年內繼續交出旗艦芯片 H100 的替代版本 H800。
今年 11 月初,美國更新芯片禁令不到一個月,英偉達又拿出了符合新要求的 H20 GPU。雖然 H20 單卡算力只有 296 TFLPOS,是中國公司頂級 AI 芯片的 57%,但更高的內存、帶寬都保證了它可以串聯起來使用,買得夠多就依然有很強的競爭力。英偉達股價跟著上漲近 10%。
*把客戶的客戶變成自己的客戶
全球的萬億美元公司,除去沙特阿美,都是黏住幾億甚至幾十億消費者的科技公司。
英偉達是當中異類。它的品牌長期只覆蓋少數 PC 遊戲用戶,現在 50% 收入來自寥寥數個大型雲計算公司和互聯網巨頭:亞馬遜、微軟、Google、Meta、字節跳動、阿裏巴巴等。
大公司購買英偉達的處理器有一部分是自用,但更多是將其通過雲計算平台租給其他客戶。客戶關系最終還是留在這些雲計算平台公司手上。如果有一天,它們有了性能足夠強的産品,隨時可以換掉英偉達。
英偉達靠著 CUDA 綁定了數百萬 AI 開發者,吸引著大型雲計算公司采購它的 GPU。如知名分析師本·湯普森(Ben Thompson)所說:“英偉達既不是一家硬件公司,也不是一家軟件公司:它是一家將兩者融爲一體的公司。”
現在這套邏輯依然成立,在人工智能前沿探索中,CUDA 仍然讓英偉達的 GPU 具備優勢。但現在黃仁勳還要再進一步,直接把雲計算平台的客戶變成自己的。
今年 3 月,GPU 最稀缺的時候,英偉達推出雲計算服務 DXG Cloud:英偉達把賣給雲計算公司的 GPU 租回來,由英偉達員工進一步優化,再出租給需要 GPU 算力的客戶。
一來一回,雲計算平台承擔了數據中心的建設成本,客戶卻去了英偉達。但微軟、Google、甲骨文依然加入了英偉達的計劃。作爲回報,它們很快就有了最稀缺的 H100。全球最大的雲計算供應商 AWS 拒絕合作,直到今年 7 月才上線了 H100 算力出租服務。
“這是我們有史以來最大、最重要的業務模式擴展。” 黃仁勳說,“英偉達不僅爲雲計算公司提供 GPU,還把自己推向市場。”
OpenAI CEO 山姆·阿爾特曼(Sam Altman)近期接受采訪說,雖然今年 GPU 緊缺,但明年情況會更好。因爲 Google、 微軟等公司自研的新款 AI 芯片將會投入市場。OpenAI 已經開始測試微軟發布的 AI 芯片。
“這就是資本主義的魔力,現在很多公司都想成爲英偉達。” 阿爾特曼說。而英偉達的步步緊逼,也沒有給他們其他選擇。
[題圖來源:視覺中國*文 : 賀乾明 邱豪 *編輯 : 黃俊傑 龔方毅/來源: 晚點LatePost ]