英偉達新核彈，站在蘋果的肩膀上

2024032814:20

2024GTC大會上，黃仁勳右手B200，左手H100，理所當然地有了新人忘舊人： “我們需要更大的GPU，如果不能更大，就把更多GPU組合在一起，變成更大的虛擬GPU。”

英偉達公布的Blackwell架構的B200 GPU，親手把網紅顯卡H100拍在了沙灘上。

按照黃仁勳的介紹，B200理論上的AI性能可達20PFLOPS，是H100的五倍。相比H100的800億晶體管規模，B200的晶體管規模高達2080億。

一般來說，芯片算力提升的最常用方法是采用先進制程，用更高的密度在芯片裏塞進更多晶體管。如摩爾定律所說：

集成電路上可以容納的晶體管數目，大約每經過18個月到24個月便會增加一倍。

比如采用7nm工藝的A100 GPU，芯片（Die）面積爲826mm²，內有542億晶體管；采用5nm（台積電N4）工藝的H100，芯片面積縮小爲814mm²，晶體管數量反而暴漲至800億。

然而，B200在晶體管數量提高近三倍的同時，並沒有用更先進的3nm工藝，而是采用了和H100一樣的5nm工藝。黃仁勳所說的“大”和“組合”，是字面意義上的：

從技術原理看，B200其實是把兩塊芯片“拼”成了一個大芯片。

在英偉達的PPT演示裏，兩顆GPU從邊緣“無縫粘合”在一起，面積X2的同時，算力翻倍。

1+1=2的方法看似簡單粗暴，背後卻是一場在物理學邊緣的沖鋒與冒險。

1+1有時候不等于2

工廠提高生産力有兩種辦法：一是擴建廠房，裝進更多的生産線；二是升級生産線，在廠房面積不變的情況下，增加生産線數量。

芯片公司一直以來都在采用第二種方法：通過生産線創新（工藝制程），在有限的芯片面積裏塞進更多晶體管，避免擴建廠房帶來的房租成本上漲。

但這種方式的局限性在于，生産線創新（工藝制程）對應的研發成本越來越高，甚至有高過房租的趨勢。H100采用的5nm工藝，很可能就是GPU量産的極限制程，繼續下探到3nm，很可能成本上吃虧。

擴建廠房的確是一個辦法，但放在芯片生産上，會遇到一個中國人很熟悉的問題：土地供應有限。

每一顆芯片都是從12寸的矽晶圓（土地）上“切”下來的，那麽芯片（廠房）面積越大，每塊晶圓能“切”出來的芯片就越少。

再考慮到良率和大面積芯片的散熱問題（施工事故），單個芯片成本會成倍提高。

由此衍生出了第三種思路：建一個一模一樣的廠房，讓兩個廠房同時生産，既避開了成本問題，又提高了生産效率。

這種方法聽上去簡單，但實踐起來難于登天。

芯片在執行計算任務時需要經曆兩個階段：數據傳輸和計算，數據傳輸花費時間過多，計算“空載”，就會造成算力的浪費。就像兩間廠房需要一個工頭傳達指示，工頭在A廠房發表講話時，B廠房的工人都在摸魚。

這就導致在一塊主板上封裝10顆芯片，性能非但不會提高10倍，反而很可能連兩倍都不到。

2011年，英偉達發布了GTX590顯卡，最大特點是在一個PCB板上裝了兩顆GPU芯片。

但在具體的遊戲中，想同時調用兩顆GPU的算力，不僅需要專門的軟件支持，性能也只有單顆芯片的130%左右。

原因就在于，大量的算力被低效的數據傳輸浪費了。

GTX590顯卡裏有兩顆GPU芯片

爲了解決産線工人趁著工頭不在消極怠工的問題，英偉達團隊在2017年發表論文，提出了名爲“可組合封裝GPU”的架構，核心在于將多顆GPU集成在同一個芯片封裝內。

傳統的芯片封裝是“先封再拼”，即兩顆芯片封裝完畢，再用導線連接。英偉達的方案是“先拼再封”，先把兩顆芯片拼成一個大芯片，再封裝到一起。

把芯片（廠房）之間的物理距離縮減到0，工頭傳遞指示，兩邊的工人同時學習貫徹，降低數據傳輸時間，實現1+1=2。

幾個月後，老對手AMD表示論文誰不會寫，刊發論文展示了4顆GPU集成在同一封裝內的設計，宣稱其性能比當時的最強GPU還要高45.5%，並且coming soon。

但無論是英偉達還是AMD，都沒能把這個方案真正“soon”出來。

第一個讓1+1=2的，是蘋果。

蘋果的超能力就是有錢

2022年，蘋果發布了M1 Ultra芯片，其最大特點是直接將兩顆M1 Max芯片“粘合”在一起，變成一張大芯片，業內戲稱“膠水大法”。

1+1=2的意義正如蘋果在新聞稿中所說：M1 Ultra 在工作時依然表現出一枚芯片的整體性，也會被所有軟件識別爲一枚完整芯片，開發者無需重寫代碼就能直接運用它的強大性能。這在史上從無先例。

M1 Ultra由兩顆一模一樣的M1 Max芯片拼接而成

蘋果之前，幾乎所有的“縫合”方案，都無法解決芯片在連接過程中産生的損耗，使得性能往往“1+1<2”。M1 Ultra的背後，是一個名爲UltraFusion的“縫合技術”。

按照蘋果官方的說法，Ultra Fusion由蘋果與台積電共同研發。但從經驗看，蘋果發揮的最大作用，是以“技術冠名費”的方式，報銷了台積電的研發開支。

兩顆芯片的縫合，核心是要解決芯片間的數據傳輸問題。

爲了實現“無縫粘合”，蘋果用上了台積電最昂貴、最先進的封裝技術——第五代CoWoS-S。[2]

傳統的傳輸方式是將兩顆芯片封裝在一塊基板上，芯片之間的傳輸由引線解決。CoWoS方案在基板和芯片之間加了一層矽中介層，通過在矽中介層裏布線，間接將兩顆小芯片連接起來，連接密度是現有技術的兩倍。

這個技術的關鍵就在于矽中介層，也是燒錢的根源。

矽中階層本質上是一片矽晶圓，也就是“切”芯片的原材料。僅僅爲了做連接，就要另加一層矽晶圓的費用，這手筆恐怕只有蘋果做得出來。

後來，英偉達在H100上采用了更成熟的CoWoS，成本仍超過4000美元。蘋果作爲最初的試錯者，成本只會更高。

除了CoWoS，蘋果的錢還燒在了“縫合”技術上[2]。

芯片制造的本質，是在矽晶圓上刻畫複雜電路。但在實際制造過程中，電路不是直接刻在矽晶圓上的，而是先刻在一個掩膜版上，再通過光刻和刻蝕把電路“轉移”到矽晶圓上。

英偉達當年遇到的問題是，GPU芯片本身面積就大，一旦兩顆GPU拼接，就會超過正常掩膜版的大小（H100的面積已經接近台積電5nm掩模版的極限），電路就無法被完整地刻畫。

蘋果提出的解決方案是，1個掩膜版不夠，咱直接上四個吧。

通過四個掩膜版“縫合”，將電路刻畫的面積增加到2500mm²，是英偉達同期GPU的3倍多（815mm²）。

在芯片制造中，很大一部分成本就來自掩膜版制作。

掩膜版生産需要Mask Writer(掩膜版寫入機)，精密程度堪比光刻機。而且Mask Writer只在掩膜版制作時使用，每種芯片只做一次，難以攤薄成本。

除此之外，由于Ultra Fusion用到了大量新技術，比如連接芯片的高縱橫比矽通孔（TSV）技術，用于散熱的新型非凝膠型熱界面材料（TIM）等[2]，台積電都是拿著發票找蘋果報銷的。

M1 Ultra發布時，業界都沒有准確的成本推算。不是研究員水平不到位，實在是技術過于先進，算不出來。

高科技産業最關鍵的問題不是技術如何實現，而是誰來掏錢把論文和實驗室裏的數據變成可以量産的産品。不知道看著M1 Ultra的拼接示意圖，會不會有久遠的記憶攻擊黃仁勳。

技術狂人的商業冒險

最早試圖解決的1+1<2問題的，既不是英偉達也不是蘋果，而是台積電元老蔣尚義。

2009年，回歸台積電的張忠謀請回已經退休的蔣尚義。在後者帶領下，台積電以“後閘級”技術路線成功超越三星率先量産28nm工藝。但在研發過程中，蔣尚義發現晶體管單位制造成本不降反升，制程升級提升性能的性價比開始降低。

拿著張忠謀批的1億美元預算和400多人的工程師團隊，蔣尚義帶隊開始了“超越摩爾計劃”。

傳統互聯技術下，傳輸速率已經觸及天花板。蔣尚義開始嘗試一種新思路：

把兩顆芯片放到一起封裝，物理距離縮短了，傳輸速度自然提高。爲了區別于傳統封裝，蔣尚義將其命名爲“先進封裝”。

2011年，台積電得到FPGA大廠賽靈思訂單，憑借CoWoS以及共同開發的矽通孔（TSV）等技術，成功將4個28nm FPGA芯片拼接在一起，推出了史上最大的FPGA芯片。

然而，大部分客戶對CoWoS興致寥寥，賽靈思的訂單杯水車薪。

不是台積電技術不夠好，實在是先進封裝太貴了。

老客戶高通的高管在與蔣尚義共進午餐時直白表示，CoWoS技術很好，但“我只願意爲它花費1美分/平方毫米”，而台積電當時的售價是7美分/平方毫米[3]。

據說英偉達也是台積電CoWoS的第一批目標客戶之一，因爲數據傳輸的瓶頸一直是困擾GPU計算的核心問題。但聽到台積電的報價後，英偉達當場表示，老技術還能再湊合幾年[3]。

另一方面，先進制程還在穩步推進，先進封裝的理念顯得過于超前，畢竟領導還在開卡羅拉，你就別急著換寶馬了。

因此，先進封裝團隊在台積電內部的一度邊緣化，甚至被當做老幹部療養院。後來跳槽三星的梁孟松，就認爲自己被調往先進封裝業務屬于“下放”。

隨後，台積電開始給CoWoS做減法，掏出了替代方案“InFO”，將昂貴的矽中介層換成其他材料，犧牲了連接密度，但成本大幅下降。

緊接著，台積電遇到了可以靠一己之力改變供應商命運的超級甲方：蘋果。

2013年前後，由于與三星在手機市場的競爭，蘋果開始將芯片代工交由台積電。

憑借InFO方案，台積電在16nm工藝的基礎上，制造出了比三星14nm性能更強的A10處理器，貢獻了曆代iPhone中第二輕薄的iPhone 7[5]。

有了蘋果的大單的，台積電的先進封裝業務迅速盤活，並在2022年拿出了震驚業界的M1 Ultra芯片。2024年開年，這個攻堅十多年的“膠水大法”，又被用在了英偉達的新核彈B200上。英偉達順勢拿下冠名權，將這項技術命名爲“NV-HBI”。

先進封裝方案依然昂貴，但對今天的英偉達來說，成本兩個字怎麽寫，他們可能已經忘了。

尾聲 : 除了CoWoS，另一個被生成式AI帶火的技術HBM，其探索同樣可以追溯到十年前。

CoWoS拿到賽靈思的第一筆訂單時，蔣尚義大喜過望，但賽靈思的動機卻讓他有些哭笑不得：把四個老芯片拼在一起，直接當成新産品加價賣，就不用自己開發新産品了[3]。

在美國計算機曆史博物館的采訪中，蔣尚義回憶道[3]： “我開發技術的初衷是解決性能瓶頸問題，在我看來，我的創新並沒有被用在好的地方”。

科技革命很難推動技術創新，反而是技術創新讓科技革命成爲可能。創造曆史的人，永遠無法預見自己在曆史進程中的坐標。

在我們不曾踏足的物理學的邊境，還有無數偉大的創新尚在不爲人知的角落。

參考文章：
[1] NVIDIA Blackwell Architecture and B200/B100 Accelerators Announced: Going Bigger With Smaller Data，Anandtech

[2] 蘋果UltraFusion技術，廈門雲天半導體

[3] 蔣尚義萬字自述，披露台積電的登頂之路，新芽

[4] 台積電的先進封裝是這樣煉成的，天下雜志

[5] 蘋果iPhone 7 A10處理器的新封裝在技術和商業上都産生了巨大的影響，Yole Development

[6] 蘋果M1 Ultra解密：業內首個GPU裸片集成，如何實現，集微網

[7] Apple Will Help TSMC to Be in the Leading Position in the Next Era，utmel

---[編輯：李墨天*視覺設計：疏睿*責任編輯：李墨天*封面圖片來自ShotDeck/來源: 遠川科技評論 ]

*胡潤研究院全球富豪榜：孟買超越北京成亞洲億萬富豪最多城市*

胡潤研究院發布的2024年全球富豪榜顯示，印度第一大城市孟買首次超越中國首都北京，成爲擁有億萬富翁最多的亞洲城市。

孟買超越北京成亞洲億萬富豪最多城市，圖爲孟買夜景

據美國消費者新聞與商業頻道（CNBC）27日報道，在最新榜單中，紐約以擁有119名億萬富翁排名世界第一，倫敦以擁有97名億萬富豪位居世界第二，而孟買則憑借擁有92位億萬富翁排名世界第三，它也成爲亞洲擁有億萬富翁人數最多的城市。

中國北京、上海、深圳和香港分列第四到七名，俄羅斯莫斯科位居第八，印度首都新德裏排名第九，這也是新德裏首次進入榜單前十。印度信實工業董事長安巴尼仍然是亞洲最富有的人，在世界富豪榜上排名第11，他的淨資産爲1100億美元。

據報導，報告顯示，目前全球有3279名億萬富翁，人數相比2023年增加了5%。---（陳葭*責任編輯 : 戴麗麗/來源: 環球網資訊）

我要留言

英偉達新核彈，站在蘋果的肩膀上

免费AI“神器”系列第十弹：“音乐版ChatGPT”Suno爆红；双足机器人百米赛跑不到25秒

連麥矽谷丨Fusion Fund創始合夥人張璐：一切才剛剛開始，這些AI細分賽道有潛力

免费AI“神器”系列第十弹：“音乐版ChatGPT”Suno爆红；双足机器人百米赛跑不到25秒

連麥矽谷丨Fusion Fund創始合夥人張璐：一切才剛剛開始，這些AI細分賽道有潛力