全球AI算力短缺,算力大廠一舉破局!一機多芯,引領計算新紀元
【新智元導讀】AI操控計算機,正掀起一場悄無聲息人機交互變革。科技巨頭們紛紛發力新賽道,一個關鍵問題也浮出水面:我們的算力儲備,足夠支撐這場革命嗎?高功耗低算效、多元算力生態等挑戰不斷,AI算力困局,該如何解?
最近,AI圈的風向變了。從前都在卷大模型的各家,忽然開始提速上了新的賽道。
Anthropic的Claude 3.5 Sonnet,已經學會像人一樣操作電腦。
被逼急的OpenAI,也不再卯著勁構建o1,而是組建多智能體團隊,還被外媒曝出正在開發新品,自動化複雜的軟件編程任務。
微軟一口氣連發10個智能體;Meta也通過智能體,把大模型引入各個應用和設備。
未來一切計算皆AI,所有計算設備都要具備AI的能力。
不過,面對「電腦升級爲AI PC,手機升級爲AI手機」的巨大需求,我們的算力真的夠嗎?
不僅如此,當前AI算力發展還面臨著高功耗、低算效,計算架構多樣生態割裂等挑戰,我們又該如何解決這些問題?
算力,全面智能增強
就在10月24日,浪潮信息正式發布的元腦®服務器第八代新品,便實現了算力的全方位「智能增強」。
單點並不能實現技術突破,只有以系統性方法才能推動智算平台的創新。
這一次,浪潮信息分別在算效、多元算力、能效三大層面上,取得了最亮眼的成績。
在通用算力領域,浪潮信息率先達成了「一機多芯」——同一架構能同時支持英特爾、AMD等多款CPU處理器。
而作爲當今業界的SOTA産品,元腦®服務器第八代算力平台已榮登SPEC CPU和SPEC Power雙榜榜首。
在SPEC CPU基准測試中,人工智能計算性能提升70%,整數數組計算性能飙升102%,視頻壓縮能力提升38%,腳本程序設計語言性能提升26%,數據壓縮性能提升7%,每瓦性能提升20%。
實測數據表明,在Llama 2大模型推理場景中,整機性能較上代可提升3倍之多!
元腦®服務器新品同時刷新SPEC CPU和 SPEC Power最佳紀錄
對比上一代平台性能紀錄提升24%,能效紀錄提升20%
在智能預警方面,全新升級的內存故障智能預警修複技術MUPR基于大量建模分析和算法訓練,能提前預警、實時隔離、智能修複內存故障,使內存宕機故障率降低80%,還能提前7天預警硬盤故障。
在智能散熱方面,開創性地采用單個風扇單獨調控轉速策略,依據後窗負載和部件情況設定多種溫度阈值,更精准調控風扇,可降低13%的系統功耗。
在智能管理方面,通過RTOS實時操作系統,實現開機3秒內智能管理調控風扇轉速,降低30%的噪音。與此同時,IRUT固件智能無感升級技術,不僅可以輕松實現無需人工幹預的固件在線升級,而且還能保障升級後系統的性能和可靠性。
針對大模型部署難題,自研的服務器操作系統KOS AI定制版僅需簡單2步就能完成訓練環境搭建,對于200節點訓練集群開發環境,20分鍾即可完成部署上線並可用,極大地提高了大模型開發部署效率。
一機多芯,更加開放
如今,生成式AI在企業側、行業側的落地在提速。
然而正如上文所言,日趨豐富的AI應用場景,也衍生出全新的多元算力挑戰。
基于OCM架構的CPU
一方面,如今不同AI應用表現出了不同的典型特征和系統需求,顯然需要更多元的算力生態。
在不同的業務場景,對算力要求都會有所差異,因此就需要選擇不同的芯片。
隨著各方對客戶需求的捕捉,以及技術的升級叠代,這種CPU的分化,如今已成爲必然。
另一方面,更強大的AI也需要同樣更爲強大的通用算力來支持。
適配各種加速卡的處理器節點面臨算力、內存容量、內存帶寬、IO擴展等多方面的挑戰。
這需要強大的CPU系統生態來實現系統資源的最佳利用。
然而,x86、ARM、RISC-V等不同架構的CPU處理器種類多樣,僅在中國就有10多種,不同CPU的協議標准還不統一。
就算能爲每一種CPU芯片單獨設計一個模組,或一套系統,但怎樣才能通過大量測試和驗證,讓它的穩定性和安全性到達形成一個産品的層級?這一點是很難的。
此外,AI推理的特點是高並行,因此CPU總線互聯帶寬、內存帶寬及容量也需要特別優化……硬件開發、固件適配等時間激增,讓算力系統的設計難度極大。
多元CPU的生態挑戰,該如何解決?
有沒有可能通過一個解耦架構,把整個CPU當成一個部件呢?如果有一個通用的CPU算力底座,就能解決CPU的計算效率問題。
幸運的是,在第八代算力平台中,浪潮信息真正把這個構想變成了現實。
浪潮信息研發團隊和上下遊夥伴做出了基于OCM單路、雙路的機器,它的計算、存儲、管理、供電完全解耦,硬盤、PCIe的擴展都是統一的。
只要換掉CPU和內存構成的最小計算模組,就可以支持英特爾和AMD等CPU,去做相應的互換和支持。
這就是業界目前在推的開放計算模組規範(OCM),基于處理器的標准化算力模組單元,構建CPU的統一算力底座。
所謂OCM,也即Open Compute Model。
大會上,浪潮信息發布了首款基于服務器計算模組設計規範OCM的NF3290G8,整機全面解耦,以CPU、內存爲核心構建最小算力單元,高速/低速互聯接口全面標准化。
它能夠實現處理器算力模組部件化,靈活支持多類型CPU,讓不同算力共享統一平台,降低算力産業創新試錯成本和推廣適配成本,也讓多元化的應用場景快速找到貼合方案。
值得一提的是,OCM首批成員,集結了國內外頂尖機構和企業,中國電子標准院、百度、小紅書、浪潮信息、聯想、英特爾、AMD等都在內。
2024年中國開放計算峰會,開放算力模組規範正式啓動
基于OAM架構的GPU
當今大模型的Scaling Law,對算力擴展提出了巨大需求。
大模型的高效訓練,通常需要千卡以上高算力AI芯片構成的服務器系統。千卡互聯的前提,就是解決單個服務器內部芯片的高速直聯。
但長期以來,單個服務器內多元AI加速卡形態和接口不統一,高速互連效率低,研發周期長,這些難題大大阻礙了AI算力的生態。
爲此,全球基礎硬件技術領域覆蓋面最廣、最有影響力的開源組織OCP,組織定義了更適合超大規模深度學習訓練的AI加速卡形態——開放加速規範(Open Accelerator Model,OAM)。
如今,OAM早已成爲全球高端加速芯片采用的統一標准,90%的高端加速卡都是基于OAM規範設計的。
而浪潮信息,便是最早一批加入OAM生態的核心貢獻者之一。
當時國內大概有20余款AI芯片,之所以生産後能快速上市,就是得益于OAM規範的模組化設計,讓企業在設計芯片時,能夠按照模組接口、硬件和軟件的要求直接做生産。
而在這次大會上,浪潮信息這次也發布了基于UBB2.0規範開發的元腦®服務器NF5898G8,可以兼容符合OCP開放加速規範的多款OAM 2.0模組。
這種全模塊化的設計,極致的系統能效,能夠大幅縮減國內外加速芯片和服務器的適配周期,加速了先進算力的上線部署,從而支撐大模型和AI應用的叠代成熟。
現在,OAM已經爲全球20多家AI芯片企業節省研發時間6個月以上,爲産業研發投入節省數十億元。突破大模型Scale up的互聯瓶頸,可能也不會遠了。
元腦®服務器實現一機多芯,全面解耦
爲何要選擇開放?
看到這裏你一定發現了,浪潮信息一直秉承的,就是開放的生態。
在這個領域,浪潮信息已經深耕了幾十年,極大促進了産業生態的良性發展。
而隨著技術的不斷演進,浪潮信息也成爲了國內當之無愧的服務器龍頭企業,因此就更需要更開放的生態,從而拉動整個服務器産業鏈的協作。
在浪潮信息提出的標准下,所有廠商、供應商、客戶都可以靈活選擇。客戶的需求越來越大,供應商也會不斷投入,至此,行業內就形成了正向循環。
當更多新的部件能快速做産業化,就提升了行業整體的競爭力,讓所有人受益。
現在市場上,很多整機櫃都是緊耦合系統,這其中就存在著隱患。因爲封閉系統只有幾個供應商,如果上下遊廠商的生産或質量有問題,就可能延緩上市周期。
而浪潮信息認爲,創新技術要在産品上快速應用,開放一定是最好的方式。只有開放,才能讓創新技術的産業化速度更快。
創新液冷,解決耗電難題
在人工智能飚速發展的當下,算力能源消耗也成爲不容忽視的關鍵難題。
LLM耗電驚人,計算效率和能耗如何平衡?
紐約客曾爆料稱,爲了回答約2億個請求,ChatGPT日耗電達到驚人的50萬度,是美國普通家庭用電量1.7萬倍!
而且,這一耗電量據稱比傳統的谷歌搜索,多出近10倍。
另有BestBrokers最新數據佐證,ChatGPT每年平均耗電高達4.536億度電,支出約5940萬美元(0.131美元/kWh)。
更具象化地說,這相當于能爲全美EV電動車充2次電;可滿足美國43204個家庭供電;能爲9570萬部iPhone充滿一整年的電。
然而,ChatGPT並非個例。這一觸目驚心的數據,讓我們不得不重新審視AI發展過程中的能源問題。
不可否認的是,大模型Scaling Law依舊是大勢所趨。這意味著,參數遞增的同時,LLM對算力的需求還會繼續攀升。
爲了滿足下一個Grok模型訓練,馬斯克xAI團隊在19天之內,搭建出世界最大的超算集群Colossus,由10萬塊H100組成。
殊不知,這還只是第一期工程。
馬斯克自曝,很快就要建成20萬塊由H100/H200組成的訓練集群。兩種Hopper GPU配比分別5萬塊。
爲了推進Llama 4訓練,小紮稱預計需要用掉比Llama 3多十倍的算力,並且正在做約10萬塊H100超算的收尾工作。
OpenAI這邊,微軟提供算力早已不夠用,並轉向甲骨文談合作。預計下一代模型(可能GPT-5)的計算量將飙升到GPT-4的10-20倍,相應耗電量和碳排放也會極具飙升。
而且,隨著AI算力的快速拉升,集群功耗猛增,到2024年單機櫃的功耗已經超過100千瓦。
AI+液冷,大勢所趨
這些種種迹象表明,隨著LLM規模擴大,如何平衡計算性能和能源效率之間的矛盾,是行業面臨的主要挑戰。
值得慶幸的是,業界也已經開始探索一些積極的解決方案。
全球TOP 500超算第一的Frontier選擇在克林奇河(Clinch River)附近建設,充分利用了自然水源提供冷卻能力。
在地理選址上,美國橡樹嶺國家實驗室很好地平衡了高性能計算和散熱需求。
再來看xAI的「大腦」Colossus,同樣采用了先進的液冷系統設計。
全部機房搭建在架高的地板上面,下面一層鋪設了所有液冷系統的管路,用來與大樓冷卻設備進熱交互。
每個機房大約有25000塊GPU,而每個機櫃包含了8個Supermicro的液冷機架。
液冷設計不僅能有效管理溫度,還大幅降低了機房的噪音水准。機櫃背後的熱交換器,更確保了整個系統在最佳溫度下運作。
另外,即將出貨的英偉達Blackwell芯片,雖有液冷MGX和風冷DGX兩款服務器,但若想發揮出GPU極致性能,液冷幾乎是必選。
IDC上半年發布的報告中指出,中國液冷服務器市場2024上半年出貨量同比增長81.8%,預計到2028年將達到接近百萬台。
2023-2028年,中國液冷服務器年複合增長率將達47.6%,增速是風冷服務器的5倍以上。
與此同時,我們也看到隨著PUE要求的越來越低,單機櫃功耗要求越來越高,這時候必然要采用液冷技術來達成目標。
由此可見,從技術路徑來看,AI服務器走向液冷也成爲了業界共識。
AI+液冷的組合,已是大勢所趨。
All in液冷,開創全生命周期綠色化
在此,浪潮信息也推出了「All in液冷」解決方案,采用了領先的原生液冷技術,讓系統更節能、更綠色。
具體來說,全線元腦腦®服務器産品支持「冷板式液冷」,從核心部件到整體方案的全方位覆蓋,包括芯片、內存、NVMe硬盤、OCP網卡、電源、PCIe轉接卡和光模塊等服務器主要發熱部件。
其實,去年推出的第七代服務器,是全球首個支持冷板式液冷的系統。
到了第八代,除了單機「All in液冷」之外,還做到了高功率的整機櫃液冷。
元腦®服務器液冷整機櫃內部節點
這一次,浪潮信息最新發布了兩相液冷130kW液冷整機櫃,在技術創新上有以下亮點:
基于兩相冷板和負壓液冷的創新,實現液冷整機櫃安全、解耦、高密和標准化。
解熱能力高達每平方厘米200W以上
提供更靈活的節點支持
具備更安全的漏液防護系統,以及標准化的液冷部件
單個整機櫃最高可以支持130千瓦的整體的供電和解熱,可以說是在最大程度上將液冷與高密相結合,充分發揮了液冷在數據中心領域的優勢和價值,又充分保證了使用的安全可靠。
除此之外,第八代産品還有更多功能,實現了綠色節能。
在部件綠色化方面,全面支持钛金電源,電源轉換效率達98%以上。
還有全局部件溫度監控,包括網卡、NVMe、M.2等全部的部件都可以進行精准的溫度識別。而且,還可以通過單風扇實現精細化調控。
每個服務器內部不同的PCIe接口位置安裝了不同的IO設備。當服務器配置萬兆網卡和百G網卡時,它們的光模塊對溫度的敏感度不同,系統會分別制定不同的散熱策略。
單風扇調控的最大優勢在于,讓風扇和IO設備建立一對一關系,根據後端負載不同,獨立靈活去調控風扇轉速。
另外,針對關鍵核心部件、高功耗零件設計獨立風道配合單風扇的散熱調控。
同時,針對風扇研發高效能風扇,改良風扇充磁方式、改進扇葉曲面設計,提升風扇散熱效率20%;另外還可以根據CPU負載瞬時調整CPU頻率,節省CPU的能耗。
不僅如此,浪潮信息還提供液冷數據中心全生命周期的解決方案。
它具有從室外一次側冷源到室內二次側CDU、液冷連接系統、液冷服務器等全線布局,爲用戶全方位打造綠色節能數據中心交鑰匙工程。
還有你想不到的是,整機櫃一體交付也是節能綠色的另一種解決方案。
英偉達GB200整機櫃推出,在業界具有風向標意義,也就意味著數據中心部署模式正在發生一個重要的轉變。
傳統的數據中心建設,往往是先建機櫃,然後再安裝服務器。
而在整機櫃交付模式下,數據中心只需做好電力、網絡等基礎配置後,就可以直接接收預裝好服務器的完整機櫃。
浪潮信息同樣采取了「整機交付」的革新方案,不僅能夠提升部署效率,還爲更高功耗服務器的規模化部署提供了更好的支持。
在綠色智算中心建設中,浪潮信息開創性地實現了「全生命周期」綠色化。
不論是物流運輸環節包裝,還是産品設計的技術突破,再到數據中心的PUE優化,形成了一個完整的綠色發展生態鏈。
特別是,在第八代産品中,將綠色節能理念從單個産品延伸到整個數據中心層面,實現了從點到面的系統性突破。
在人工智能時代浪潮中,我們正站在一個關鍵轉折點:
AI計算不再是錦上添花,而是未來計算必備底座。也就是說,未來一切計算皆AI。
浪潮信息推出的元腦®服務器第八代,以「一機多芯」創新架構,展現了對這一趨勢的深刻洞察。
在這場AI變革中,強大而靈活算力支撐,正如智能時代「方向盤」,正重塑每個行業的未來圖景。
這不僅是技術的進步,更是企業占據AI發展優勢的制勝點。---[新智元報導*編輯 :編輯部 HYZ/來源 : 新智元]
參考資料:
https://mp.weixin.qq.com/s/FyFJbaBZPcXcMcHyaK7M4w
https://mp.weixin.qq.com/s/rC3bbMhHVVxT-5q44XqU2w