拆解"算力偏科"難題，智算中心下一步向何處去？

2023011720:09

十年前，英國《經濟學人》曾用工業用電量為主的指標來評估中國GDP，而現在算力已經成為新的指標。似乎每個企業、每個城市都在努力增加算力。

一位讀者不無困惑地留言，大家都說自己算力有多少FLOPS，能支撐這個大模型、那個大數據，是不是數字越大就算力越強呢？

還真不是。

衡量算力水平，除了運算次數，還要看算力精度，也就是能夠支持的數據精度和運算複雜度有多高。

如果說運算次數（FLPOS）代表的是內力值，那麼算力精度就像是「身法」，決定了能否用對內力、用好內力。武林對決，有人拿屠龍刀一通亂砍，令狐沖靠獨孤九劍劍法一擊必中，你覺得誰水平高？

不同計算任務，對算力需求不盡相同，需要恰當的「身法」，來發揮算力的價值。

具體來說，根據數據類型的不同，適配的算力精度也有所區別：

比如科學計算，天氣預報、運算化學、分子模型、天體物理模擬等，數據精度要求高，需要雙精度算力（64位，FP64），是由超級計算機提供的一種通用算力。

AI模型訓練，自動駕駛、智慧城市、AIGC等業務，需要學習大量數據，訓練出一個複雜的深度學習模型，而處理大規模浮點型數據，更適合用單精度算力（32位，FP32）、半精度算力（16位，FP16）。近年來，預訓練大模型爆發，湧現出了DALLE、ChatGPT、紫東太初等一波波大模型，參數動輒達到千億萬億，大模型的高效訓練需要用到大量的單精度算力。

訓練好並部署的模型，實際應用時只需要根據輸入的數據，推理出各種結論，比如人臉識別、車牌識別、語音識別等，這個AI推理的過程，處理的是整數型數據，更適用於整型算力（INT8）。

那麼問題來了，一般來說，某一個區域內，既有高精尖科研、智慧城市、自動駕駛這類高性能計算，帶來了通用算力的需求；又要有AI模型訓練、AI應用推理等來支撐產業數轉智改，對專用算力的需求也很高。

如果區域內算力配置不夠多樣化，少了某一種算力，相當於等用戶上了戰場對敵時，才發現無招可用或事倍功半，必然會限制當地數字化的發展。

因此，各地在進行智算中心建設時，從長遠來看，就必須考慮算力的多樣化、普適性。

但現實情況是，很多地方的智算中心，處於「先批快建」、各自為戰的階段，由於AI產業/科學計算/產業數字化等迅猛發展，迫切需要補足某種專用算力，應對算力焦渴，缺乏通用算力的統籌規劃。

隨着東數西算工程、數字中國等一系列措施的推進，進入「十四五」發展新時期，專用算力的通用化難題，就成為掣肘地方數字經濟發展的當務之急。

前不久發布的《智能計算中心2.0時代展望報告》中也強調，當前個別地區選擇的算力配置出現一定「偏科」現象，只能滿足一部分細分場景的需求，不能兼顧多產業、多領域對融合算力的需求。需要推動通用算力、專用算力融合，驅動應用走向縱深。

對於高校、科研機構、企業、政府等各類算力用戶來說，算力融合究竟能帶來哪些利好？

破解「算力偏科」，算力融合價值幾何？

一言以蔽之，算力融合，意味着用戶可以對不同算力資源隨取隨用，無論是辦公數字化需要的通用算力，還是AI應用需要的專用算力，抑或是氣象預報、生物預測等需要的高性能算力，都可以融會貫通、博採眾長，支撐自身業務的發展，成為一個算力「通才」。

從這個角度看，通用算力、專用算力的融合，會帶來三重明顯的價值：

一是數字經濟的可持續。數字經濟已經成為各個區域發展的主調，其中包含的算力應用場景是非常廣泛的，根據應用場景來進行算力部署，更快地建立優勢。比如某省會城市希望打造人工智能高地，同時高校牽頭建立遙感產業集群，專用算力、通用算力相融合，能支撐更加豐富的應用場景，為當地數字經濟的長期可持續發展提供算力保障。

二是綜合成本的下降。算力基礎設施的建設成本極高，在前期規劃時做好多種算力的配置，能使基礎設施的利用率提升，既保證算力充足，同時精益地滿足各類任務所需，從而提高算力的綜合效益，降低算力的使用成本，讓區域內的算力更加普惠、更多用戶受益。

三是多元供應的可靠性。算力融合意味着需要不同計算單元、多種架構並存、多種軟硬件兼容，新型算力基礎設施走向開放、多元、兼容，相當於「不把雞蛋放在一個籃子裡「，能夠降低供應鏈的不確定風險，長期來看能夠讓算力更加安全可靠。

算力融合，相當於一個武林高手，無論華山劍法、少林功夫、武當太極，各種」身法「都能信手拈來，那麼面對任一種計算任務的挑戰，自然可以遊刃有餘。

縱橫2.0階段：數字江湖兒女需要怎樣的算力底座

即將到來的數字經濟浪潮中，每個人都要化身江湖兒女、弄潮時代，這時候，一個通用性的算力底座，就如同通曉全門派武功身法的「神助攻」，可以提供全精度多元算力，讓用戶更從容地應對業務變化和挑戰。

國家工業信息安全發展研究中心在《報告》中提出，智算中心在2017-2021年高速擴張的1.0階段，主要提供的是專用性的算力。從2022年開始進入2.0階段，需要利用CPU與GPU等加速芯片的異構重合，來實現高精度通用算力和低精度專用算力的融合供應。

由此可見，智算中心的下一步重點，就是向通用算力底座發展。而建設這樣一個通用算力底座，有「一橫一縱「兩個基本要求：

一橫：多元算力需要多元架構，智算中心必須「橫向」兼容。

智算中心1.0階段，採用的是垂直一體的煙囪式的方案，針對性地滿足高性能計算、人工智能、大數據計算等不同的應用負載，通用性和兼容性比較低。多樣化的通用算力底座，要實現不同架構的芯片平台、不同場上的算法模型以及數據集的橫向兼容，讓用戶可以根據業務場景和計算任務選擇最適合的算力方案。

一縱：通用算力需要軟硬協同，智算中心必須「縱向」耦合。

不同技術路線的芯片、算法、模型、應用等要素，需要產業鏈上下游的打通，解決軟硬件兼容性的問題，芯片製造廠、中端廠商和軟件開發商，通過軟件優化、架構整合和軟硬件協同，來提升計算的整體性能。

打破垂直一體模式，走向「橫向」兼容「縱向」耦合，成為智算中心2.0時代的關鍵，從而支撐千行百業在數字時代縱橫馳騁。

見招拆招：智算中心的未來挑戰

智算中心1.0階段快速擴張，統計數據顯示，目前中國已經有超過30個城市在建設或提出建設智算中心。未來數字經濟中80%的場景和算力資源要由智算中心進行承載。這是一個巨大的機遇，但機會越大，所應該承擔的責任也就越大。

如前所說，智算中心在2.0階段必須走向「橫向」兼容「縱向」耦合的目標，飯要一口口吃，算力融合也要一步步走，把每一個環節做好，見招拆招。

具體來說，智算中心的算力融合，要從四個核心環節來做功，分別是：算力生產、算力聚合、算力調度、算力釋放。

算力生產方面，要具備多樣化算力的供給能力。為了實現不同架構芯片的多元化融合，智算中心的體系結構，已經從同構計算走向異構計算，國內外的科技企業如谷歌、英特爾、阿里、百度，都在進行異構計算的研發。《智能計算中心2.0時代展望報告》中，曙光5A級智算中心也憑藉全算力精度覆蓋、多樣化算力供應，成為產業內示範樣例

算力聚合方面，要推動通用算力和專用算力的融合。目前來看，業界各個廠家的智算中心建設理念是比較類似，都在強調融合發展。

算力調度方面，融合的算力如何靈活、精益地為各行各業所取用呢？這就需要對多樣算力進行統一的調度和運營。宏觀來看，在東數西算工程的推動下，全國算力一體化網絡體系已經初步形成，為智算中心的算力調度建立了基礎。微觀來看，智算中心的建設者/參與者也開始建設算力運營平台，用精細化、智能化的手段來提高算力運營調度水平，比如曙光智算運營的全國一體化算力服務平台等。

算力釋放方面，算力融合的本質目的是讓千行百業用好算力、用對算力，所以多樣化算力如何更靈活的釋放到數字產業當中去，提供算力服務的應用，是智算中心在2.0階段的重中之重。

從產到用、見招拆招，智算中心2.0將是真正意義上的公共算力基礎設施，把澎湃的內力與適配的身法，交給千行百業。

一個全新的數字視界，已經向各行各業的俠士們廣發英雄帖。廣闊的產業機會，等待着大家去爭取，去贏得自己在這個時代的勳章。

化多元化算力為己用，打開多元化的未來，智算中心2.0階段，一定會有更多傳奇的人和事。-腦極體-

我要留言

拆解"算力偏科"難題，智算中心下一步向何處去？

2023企業如何做好ESG？這有五大關注點

云上的米開朗基羅：在不確定時代，尋找建築般的確定性

2023企業如何做好ESG？這有五大關注點

云上的米開朗基羅：在不確定時代，尋找建築般的確定性