01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

全球AI算力短缺,算力大廠一舉破局!一機多芯,引領計算新紀元

2024103015:11



【新智元導讀】AI操控計算機,正掀起一場悄無聲息人機交互變革。科技巨頭們紛紛發力新賽道,一個關鍵問題也浮出水面:我們的算力儲備,足夠支撐這場革命嗎?高功耗低算效、多元算力生態等挑戰不斷,AI算力困局,該如何解?

最近,AI圈的風向變了。從前都在卷大模型的各家,忽然開始提速上了新的賽道。

Anthropic的Claude 3.5 Sonnet,已經學會像人一樣操作電腦。



被逼急的OpenAI,也不再卯著勁構建o1,而是組建多智能體團隊,還被外媒曝出正在開發新品,自動化複雜的軟件編程任務。

微軟一口氣連發10個智能體;Meta也通過智能體,把大模型引入各個應用和設備。

未來一切計算皆AI,所有計算設備都要具備AI的能力。

不過,面對「電腦升級爲AI PC,手機升級爲AI手機」的巨大需求,我們的算力真的夠嗎?

不僅如此,當前AI算力發展還面臨著高功耗、低算效,計算架構多樣生態割裂等挑戰,我們又該如何解決這些問題?

算力,全面智能增強

就在10月24日,浪潮信息正式發布的元腦®服務器第八代新品,便實現了算力的全方位「智能增強」。

單點並不能實現技術突破,只有以系統性方法才能推動智算平台的創新。

這一次,浪潮信息分別在算效、多元算力、能效三大層面上,取得了最亮眼的成績。



在通用算力領域,浪潮信息率先達成了「一機多芯」——同一架構能同時支持英特爾、AMD等多款CPU處理器。

而作爲當今業界的SOTA産品,元腦®服務器第八代算力平台已榮登SPEC CPU和SPEC Power雙榜榜首。

在SPEC CPU基准測試中,人工智能計算性能提升70%,整數數組計算性能飙升102%,視頻壓縮能力提升38%,腳本程序設計語言性能提升26%,數據壓縮性能提升7%,每瓦性能提升20%。

實測數據表明,在Llama 2大模型推理場景中,整機性能較上代可提升3倍之多!



元腦®服務器新品同時刷新SPEC CPU和 SPEC Power最佳紀錄

對比上一代平台性能紀錄提升24%,能效紀錄提升20%

在智能預警方面,全新升級的內存故障智能預警修複技術MUPR基于大量建模分析和算法訓練,能提前預警、實時隔離、智能修複內存故障,使內存宕機故障率降低80%,還能提前7天預警硬盤故障。

在智能散熱方面,開創性地采用單個風扇單獨調控轉速策略,依據後窗負載和部件情況設定多種溫度阈值,更精准調控風扇,可降低13%的系統功耗。

在智能管理方面,通過RTOS實時操作系統,實現開機3秒內智能管理調控風扇轉速,降低30%的噪音。與此同時,IRUT固件智能無感升級技術,不僅可以輕松實現無需人工幹預的固件在線升級,而且還能保障升級後系統的性能和可靠性。



針對大模型部署難題,自研的服務器操作系統KOS AI定制版僅需簡單2步就能完成訓練環境搭建,對于200節點訓練集群開發環境,20分鍾即可完成部署上線並可用,極大地提高了大模型開發部署效率。

一機多芯,更加開放

如今,生成式AI在企業側、行業側的落地在提速。

然而正如上文所言,日趨豐富的AI應用場景,也衍生出全新的多元算力挑戰。

基于OCM架構的CPU

一方面,如今不同AI應用表現出了不同的典型特征和系統需求,顯然需要更多元的算力生態。

在不同的業務場景,對算力要求都會有所差異,因此就需要選擇不同的芯片。

隨著各方對客戶需求的捕捉,以及技術的升級叠代,這種CPU的分化,如今已成爲必然。

另一方面,更強大的AI也需要同樣更爲強大的通用算力來支持。

適配各種加速卡的處理器節點面臨算力、內存容量、內存帶寬、IO擴展等多方面的挑戰。

這需要強大的CPU系統生態來實現系統資源的最佳利用。

然而,x86、ARM、RISC-V等不同架構的CPU處理器種類多樣,僅在中國就有10多種,不同CPU的協議標准還不統一。



就算能爲每一種CPU芯片單獨設計一個模組,或一套系統,但怎樣才能通過大量測試和驗證,讓它的穩定性和安全性到達形成一個産品的層級?這一點是很難的。

此外,AI推理的特點是高並行,因此CPU總線互聯帶寬、內存帶寬及容量也需要特別優化……硬件開發、固件適配等時間激增,讓算力系統的設計難度極大。

多元CPU的生態挑戰,該如何解決?

有沒有可能通過一個解耦架構,把整個CPU當成一個部件呢?如果有一個通用的CPU算力底座,就能解決CPU的計算效率問題。

幸運的是,在第八代算力平台中,浪潮信息真正把這個構想變成了現實。

浪潮信息研發團隊和上下遊夥伴做出了基于OCM單路、雙路的機器,它的計算、存儲、管理、供電完全解耦,硬盤、PCIe的擴展都是統一的。

只要換掉CPU和內存構成的最小計算模組,就可以支持英特爾和AMD等CPU,去做相應的互換和支持。

這就是業界目前在推的開放計算模組規範(OCM),基于處理器的標准化算力模組單元,構建CPU的統一算力底座。

所謂OCM,也即Open Compute Model。



大會上,浪潮信息發布了首款基于服務器計算模組設計規範OCM的NF3290G8,整機全面解耦,以CPU、內存爲核心構建最小算力單元,高速/低速互聯接口全面標准化。

它能夠實現處理器算力模組部件化,靈活支持多類型CPU,讓不同算力共享統一平台,降低算力産業創新試錯成本和推廣適配成本,也讓多元化的應用場景快速找到貼合方案。

值得一提的是,OCM首批成員,集結了國內外頂尖機構和企業,中國電子標准院、百度、小紅書、浪潮信息、聯想、英特爾、AMD等都在內。



2024年中國開放計算峰會,開放算力模組規範正式啓動

基于OAM架構的GPU

當今大模型的Scaling Law,對算力擴展提出了巨大需求。

大模型的高效訓練,通常需要千卡以上高算力AI芯片構成的服務器系統。千卡互聯的前提,就是解決單個服務器內部芯片的高速直聯。

但長期以來,單個服務器內多元AI加速卡形態和接口不統一,高速互連效率低,研發周期長,這些難題大大阻礙了AI算力的生態。

爲此,全球基礎硬件技術領域覆蓋面最廣、最有影響力的開源組織OCP,組織定義了更適合超大規模深度學習訓練的AI加速卡形態——開放加速規範(Open Accelerator Model,OAM)。



如今,OAM早已成爲全球高端加速芯片采用的統一標准,90%的高端加速卡都是基于OAM規範設計的。

而浪潮信息,便是最早一批加入OAM生態的核心貢獻者之一。

當時國內大概有20余款AI芯片,之所以生産後能快速上市,就是得益于OAM規範的模組化設計,讓企業在設計芯片時,能夠按照模組接口、硬件和軟件的要求直接做生産。

而在這次大會上,浪潮信息這次也發布了基于UBB2.0規範開發的元腦®服務器NF5898G8,可以兼容符合OCP開放加速規範的多款OAM 2.0模組。

這種全模塊化的設計,極致的系統能效,能夠大幅縮減國內外加速芯片和服務器的適配周期,加速了先進算力的上線部署,從而支撐大模型和AI應用的叠代成熟。

現在,OAM已經爲全球20多家AI芯片企業節省研發時間6個月以上,爲産業研發投入節省數十億元。突破大模型Scale up的互聯瓶頸,可能也不會遠了。



元腦®服務器實現一機多芯,全面解耦

爲何要選擇開放?

看到這裏你一定發現了,浪潮信息一直秉承的,就是開放的生態。

在這個領域,浪潮信息已經深耕了幾十年,極大促進了産業生態的良性發展。

而隨著技術的不斷演進,浪潮信息也成爲了國內當之無愧的服務器龍頭企業,因此就更需要更開放的生態,從而拉動整個服務器産業鏈的協作。

在浪潮信息提出的標准下,所有廠商、供應商、客戶都可以靈活選擇。客戶的需求越來越大,供應商也會不斷投入,至此,行業內就形成了正向循環。

當更多新的部件能快速做産業化,就提升了行業整體的競爭力,讓所有人受益。

現在市場上,很多整機櫃都是緊耦合系統,這其中就存在著隱患。因爲封閉系統只有幾個供應商,如果上下遊廠商的生産或質量有問題,就可能延緩上市周期。

而浪潮信息認爲,創新技術要在産品上快速應用,開放一定是最好的方式。只有開放,才能讓創新技術的産業化速度更快。

創新液冷,解決耗電難題

在人工智能飚速發展的當下,算力能源消耗也成爲不容忽視的關鍵難題。

LLM耗電驚人,計算效率和能耗如何平衡?

紐約客曾爆料稱,爲了回答約2億個請求,ChatGPT日耗電達到驚人的50萬度,是美國普通家庭用電量1.7萬倍!

而且,這一耗電量據稱比傳統的谷歌搜索,多出近10倍。



另有BestBrokers最新數據佐證,ChatGPT每年平均耗電高達4.536億度電,支出約5940萬美元(0.131美元/kWh)。

更具象化地說,這相當于能爲全美EV電動車充2次電;可滿足美國43204個家庭供電;能爲9570萬部iPhone充滿一整年的電。



然而,ChatGPT並非個例。這一觸目驚心的數據,讓我們不得不重新審視AI發展過程中的能源問題。

不可否認的是,大模型Scaling Law依舊是大勢所趨。這意味著,參數遞增的同時,LLM對算力的需求還會繼續攀升。



爲了滿足下一個Grok模型訓練,馬斯克xAI團隊在19天之內,搭建出世界最大的超算集群Colossus,由10萬塊H100組成。

殊不知,這還只是第一期工程。

馬斯克自曝,很快就要建成20萬塊由H100/H200組成的訓練集群。兩種Hopper GPU配比分別5萬塊。



爲了推進Llama 4訓練,小紮稱預計需要用掉比Llama 3多十倍的算力,並且正在做約10萬塊H100超算的收尾工作。

OpenAI這邊,微軟提供算力早已不夠用,並轉向甲骨文談合作。預計下一代模型(可能GPT-5)的計算量將飙升到GPT-4的10-20倍,相應耗電量和碳排放也會極具飙升。

而且,隨著AI算力的快速拉升,集群功耗猛增,到2024年單機櫃的功耗已經超過100千瓦。

AI+液冷,大勢所趨

這些種種迹象表明,隨著LLM規模擴大,如何平衡計算性能和能源效率之間的矛盾,是行業面臨的主要挑戰。

值得慶幸的是,業界也已經開始探索一些積極的解決方案。

全球TOP 500超算第一的Frontier選擇在克林奇河(Clinch River)附近建設,充分利用了自然水源提供冷卻能力。

在地理選址上,美國橡樹嶺國家實驗室很好地平衡了高性能計算和散熱需求。



再來看xAI的「大腦」Colossus,同樣采用了先進的液冷系統設計。

全部機房搭建在架高的地板上面,下面一層鋪設了所有液冷系統的管路,用來與大樓冷卻設備進熱交互。



每個機房大約有25000塊GPU,而每個機櫃包含了8個Supermicro的液冷機架。

液冷設計不僅能有效管理溫度,還大幅降低了機房的噪音水准。機櫃背後的熱交換器,更確保了整個系統在最佳溫度下運作。



另外,即將出貨的英偉達Blackwell芯片,雖有液冷MGX和風冷DGX兩款服務器,但若想發揮出GPU極致性能,液冷幾乎是必選。

IDC上半年發布的報告中指出,中國液冷服務器市場2024上半年出貨量同比增長81.8%,預計到2028年將達到接近百萬台。

2023-2028年,中國液冷服務器年複合增長率將達47.6%,增速是風冷服務器的5倍以上。

與此同時,我們也看到隨著PUE要求的越來越低,單機櫃功耗要求越來越高,這時候必然要采用液冷技術來達成目標。



由此可見,從技術路徑來看,AI服務器走向液冷也成爲了業界共識。

AI+液冷的組合,已是大勢所趨。

All in液冷,開創全生命周期綠色化

在此,浪潮信息也推出了「All in液冷」解決方案,采用了領先的原生液冷技術,讓系統更節能、更綠色。

具體來說,全線元腦腦®服務器産品支持「冷板式液冷」,從核心部件到整體方案的全方位覆蓋,包括芯片、內存、NVMe硬盤、OCP網卡、電源、PCIe轉接卡和光模塊等服務器主要發熱部件。

其實,去年推出的第七代服務器,是全球首個支持冷板式液冷的系統。

到了第八代,除了單機「All in液冷」之外,還做到了高功率的整機櫃液冷。



元腦®服務器液冷整機櫃內部節點

這一次,浪潮信息最新發布了兩相液冷130kW液冷整機櫃,在技術創新上有以下亮點:

    基于兩相冷板和負壓液冷的創新,實現液冷整機櫃安全、解耦、高密和標准化。

    解熱能力高達每平方厘米200W以上

    提供更靈活的節點支持

    具備更安全的漏液防護系統,以及標准化的液冷部件

單個整機櫃最高可以支持130千瓦的整體的供電和解熱,可以說是在最大程度上將液冷與高密相結合,充分發揮了液冷在數據中心領域的優勢和價值,又充分保證了使用的安全可靠。

除此之外,第八代産品還有更多功能,實現了綠色節能。

在部件綠色化方面,全面支持钛金電源,電源轉換效率達98%以上。

還有全局部件溫度監控,包括網卡、NVMe、M.2等全部的部件都可以進行精准的溫度識別。而且,還可以通過單風扇實現精細化調控。

每個服務器內部不同的PCIe接口位置安裝了不同的IO設備。當服務器配置萬兆網卡和百G網卡時,它們的光模塊對溫度的敏感度不同,系統會分別制定不同的散熱策略。

單風扇調控的最大優勢在于,讓風扇和IO設備建立一對一關系,根據後端負載不同,獨立靈活去調控風扇轉速。

另外,針對關鍵核心部件、高功耗零件設計獨立風道配合單風扇的散熱調控。

同時,針對風扇研發高效能風扇,改良風扇充磁方式、改進扇葉曲面設計,提升風扇散熱效率20%;另外還可以根據CPU負載瞬時調整CPU頻率,節省CPU的能耗。



不僅如此,浪潮信息還提供液冷數據中心全生命周期的解決方案。

它具有從室外一次側冷源到室內二次側CDU、液冷連接系統、液冷服務器等全線布局,爲用戶全方位打造綠色節能數據中心交鑰匙工程。

還有你想不到的是,整機櫃一體交付也是節能綠色的另一種解決方案。

英偉達GB200整機櫃推出,在業界具有風向標意義,也就意味著數據中心部署模式正在發生一個重要的轉變。



傳統的數據中心建設,往往是先建機櫃,然後再安裝服務器。

而在整機櫃交付模式下,數據中心只需做好電力、網絡等基礎配置後,就可以直接接收預裝好服務器的完整機櫃。

浪潮信息同樣采取了「整機交付」的革新方案,不僅能夠提升部署效率,還爲更高功耗服務器的規模化部署提供了更好的支持。



在綠色智算中心建設中,浪潮信息開創性地實現了「全生命周期」綠色化。

不論是物流運輸環節包裝,還是産品設計的技術突破,再到數據中心的PUE優化,形成了一個完整的綠色發展生態鏈。

特別是,在第八代産品中,將綠色節能理念從單個産品延伸到整個數據中心層面,實現了從點到面的系統性突破。

在人工智能時代浪潮中,我們正站在一個關鍵轉折點:

    AI計算不再是錦上添花,而是未來計算必備底座。也就是說,未來一切計算皆AI。

浪潮信息推出的元腦®服務器第八代,以「一機多芯」創新架構,展現了對這一趨勢的深刻洞察。

在這場AI變革中,強大而靈活算力支撐,正如智能時代「方向盤」,正重塑每個行業的未來圖景。

這不僅是技術的進步,更是企業占據AI發展優勢的制勝點。---[新智元報導*編輯 :編輯部 HYZ/來源 :  新智元]

參考資料:
https://mp.weixin.qq.com/s/FyFJbaBZPcXcMcHyaK7M4w

https://mp.weixin.qq.com/s/rC3bbMhHVVxT-5q44XqU2w