拆解"算力偏科"難題,智算中心下一步向何處去?
十年前,英國《經濟學人》曾用工業用電量為主的指標來評估中國GDP,而現在算力已經成為新的指標。似乎每個企業、每個城市都在努力增加算力。
一位讀者不無困惑地留言,大家都說自己算力有多少FLOPS,能支撐這個大模型、那個大數據,是不是數字越大就算力越強呢?
還真不是。
衡量算力水平,除了運算次數,還要看算力精度,也就是能夠支持的數據精度和運算複雜度有多高。
如果說運算次數(FLPOS)代表的是內力值,那麼算力精度就像是「身法」,決定了能否用對內力、用好內力。武林對決,有人拿屠龍刀一通亂砍,令狐沖靠獨孤九劍劍法一擊必中,你覺得誰水平高?
不同計算任務,對算力需求不盡相同,需要恰當的「身法」,來發揮算力的價值。
具體來說,根據數據類型的不同,適配的算力精度也有所區別:
比如科學計算,天氣預報、運算化學、分子模型、天體物理模擬等,數據精度要求高,需要雙精度算力(64位,FP64),是由超級計算機提供的一種通用算力。
AI模型訓練,自動駕駛、智慧城市、AIGC等業務,需要學習大量數據,訓練出一個複雜的深度學習模型,而處理大規模浮點型數據,更適合用單精度算力(32位,FP32)、半精度算力(16位,FP16)。 近年來,預訓練大模型爆發,湧現出了DALLE、ChatGPT、紫東太初等一波波大模型,參數動輒達到千億萬億,大模型的高效訓練需要用到大量的單精度算力。
訓練好並部署的模型,實際應用時只需要根據輸入的數據,推理出各種結論,比如人臉識別、車牌識別、語音識別等,這個AI推理的過程,處理的是整數型數據,更適用於整型算力(INT8)。
那麼問題來了,一般來說,某一個區域內,既有高精尖科研、智慧城市、自動駕駛這類高性能計算,帶來了通用算力的需求;又要有AI模型訓練、AI應用推理等來支撐產業數轉智改,對專用算力的需求也很高。
如果區域內算力配置不夠多樣化,少了某一種算力,相當於等用戶上了戰場對敵時,才發現無招可用或事倍功半,必然會限制當地數字化的發展。
因此,各地在進行智算中心建設時,從長遠來看,就必須考慮算力的多樣化、普適性。
但現實情況是,很多地方的智算中心,處於「先批快建」、各自為戰的階段,由於AI產業/科學計算/產業數字化等迅猛發展,迫切需要補足某種專用算力,應對算力焦渴,缺乏通用算力的統籌規劃。
隨着東數西算工程、數字中國等一系列措施的推進,進入「十四五」發展新時期,專用算力的通用化難題,就成為掣肘地方數字經濟發展的當務之急。
前不久發布的《智能計算中心2.0時代展望報告》中也強調,當前個別地區選擇的算力配置出現一定「偏科」現象,只能滿足一部分細分場景的需求,不能兼顧多產業、多領域對融合算力的需求。需要推動通用算力、專用算力融合,驅動應用走向縱深。
對於高校、科研機構、企業、政府等各類算力用戶來說,算力融合究竟能帶來哪些利好?
破解「算力偏科」,算力融合價值幾何?
一言以蔽之,算力融合,意味着用戶可以對不同算力資源隨取隨用,無論是辦公數字化需要的通用算力,還是AI應用需要的專用算力,抑或是氣象預報、生物預測等需要的高性能算力,都可以融會貫通、博採眾長,支撐自身業務的發展,成為一個算力「通才」。
從這個角度看,通用算力、專用算力的融合,會帶來三重明顯的價值:
一是數字經濟的可持續。數字經濟已經成為各個區域發展的主調,其中包含的算力應用場景是非常廣泛的,根據應用場景來進行算力部署,更快地建立優勢。比如某省會城市希望打造人工智能高地,同時高校牽頭建立遙感產業集群,專用算力、通用算力相融合,能支撐更加豐富的應用場景,為當地數字經濟的長期可持續發展提供算力保障。
二是綜合成本的下降。算力基礎設施的建設成本極高,在前期規劃時做好多種算力的配置,能使基礎設施的利用率提升,既保證算力充足,同時精益地滿足各類任務所需,從而提高算力的綜合效益,降低算力的使用成本,讓區域內的算力更加普惠、更多用戶受益。
三是多元供應的可靠性。算力融合意味着需要不同計算單元、多種架構並存、多種軟硬件兼容,新型算力基礎設施走向開放、多元、兼容,相當於「不把雞蛋放在一個籃子裡「,能夠降低供應鏈的不確定風險,長期來看能夠讓算力更加安全可靠。
算力融合,相當於一個武林高手,無論華山劍法、少林功夫、武當太極,各種」身法「都能信手拈來,那麼面對任一種計算任務的挑戰,自然可以遊刃有餘。
縱橫2.0階段:數字江湖兒女需要怎樣的算力底座
即將到來的數字經濟浪潮中,每個人都要化身江湖兒女、弄潮時代,這時候,一個通用性的算力底座,就如同通曉全門派武功身法的「神助攻」,可以提供全精度多元算力,讓用戶更從容地應對業務變化和挑戰。
國家工業信息安全發展研究中心在《報告》中提出,智算中心在2017-2021年高速擴張的1.0階段,主要提供的是專用性的算力。從2022年開始進入2.0階段,需要利用CPU與GPU等加速芯片的異構重合,來實現高精度通用算力和低精度專用算力的融合供應。
由此可見,智算中心的下一步重點,就是向通用算力底座發展。而建設這樣一個通用算力底座,有「一橫一縱「兩個基本要求:
一橫:多元算力需要多元架構,智算中心必須「橫向」兼容。
智算中心1.0階段,採用的是垂直一體的煙囪式的方案,針對性地滿足高性能計算、人工智能、大數據計算等不同的應用負載,通用性和兼容性比較低。多樣化的通用算力底座,要實現不同架構的芯片平台、不同場上的算法模型以及數據集的橫向兼容,讓用戶可以根據業務場景和計算任務選擇最適合的算力方案。
一縱:通用算力需要軟硬協同,智算中心必須「縱向」耦合。
不同技術路線的芯片、算法、模型、應用等要素,需要產業鏈上下游的打通,解決軟硬件兼容性的問題,芯片製造廠、中端廠商和軟件開發商,通過軟件優化、架構整合和軟硬件協同,來提升計算的整體性能。
打破垂直一體模式,走向「橫向」兼容「縱向」耦合,成為智算中心2.0時代的關鍵,從而支撐千行百業在數字時代縱橫馳騁。
見招拆招:智算中心的未來挑戰
智算中心1.0階段快速擴張,統計數據顯示,目前中國已經有超過30個城市在建設或提出建設智算中心。未來數字經濟中80%的場景和算力資源要由智算中心進行承載。這是一個巨大的機遇,但機會越大,所應該承擔的責任也就越大。
如前所說,智算中心在2.0階段必須走向「橫向」兼容「縱向」耦合的目標,飯要一口口吃,算力融合也要一步步走,把每一個環節做好,見招拆招。
具體來說,智算中心的算力融合,要從四個核心環節來做功,分別是:算力生產、算力聚合、算力調度、算力釋放。
算力生產方面,要具備多樣化算力的供給能力。為了實現不同架構芯片的多元化融合,智算中心的體系結構,已經從同構計算走向異構計算,國內外的科技企業如谷歌、英特爾、阿里、百度,都在進行異構計算的研發。《智能計算中心2.0時代展望報告》中,曙光5A級智算中心也憑藉全算力精度覆蓋、多樣化算力供應,成為產業內示範樣例
算力聚合方面,要推動通用算力和專用算力的融合。目前來看,業界各個廠家的智算中心建設理念是比較類似,都在強調融合發展。
算力調度方面,融合的算力如何靈活、精益地為各行各業所取用呢?這就需要對多樣算力進行統一的調度和運營。宏觀來看,在東數西算工程的推動下,全國算力一體化網絡體系已經初步形成,為智算中心的算力調度建立了基礎。微觀來看,智算中心的建設者/參與者也開始建設算力運營平台,用精細化、智能化的手段來提高算力運營調度水平,比如曙光智算運營的全國一體化算力服務平台等。
算力釋放方面,算力融合的本質目的是讓千行百業用好算力、用對算力,所以多樣化算力如何更靈活的釋放到數字產業當中去,提供算力服務的應用,是智算中心在2.0階段的重中之重。
從產到用、見招拆招,智算中心2.0將是真正意義上的公共算力基礎設施,把澎湃的內力與適配的身法,交給千行百業。
一個全新的數字視界,已經向各行各業的俠士們廣發英雄帖。廣闊的產業機會,等待着大家去爭取,去贏得自己在這個時代的勳章。
化多元化算力為己用,打開多元化的未來,智算中心2.0階段,一定會有更多傳奇的人和事。-腦極體-