打造高性能算力網絡方案,基流科技助力中國AGI基礎設施建設
光合作用是所有生命的能量來源,生態系統中碳循環的重要機制。作爲“一支有溫度的基金”,光速光合也正在與創業者,與這個社會産生“光合作用”,聯結創新的同時,推動著社會的可持續發展。
創業邦將陸續刊載光速光合的投資專欄「光合說」,本篇爲專欄的第六期,分享光速光合投資背後的故事。
故事的起因可能是一通陌生的電話,一次登門拜訪,或是對一篇學術論文的關注……光速光合與創業者的交集就此展開。沒有酒桌上的觥籌交錯,也沒有天花亂墜的承諾,只有長時間的相伴,分擔痛苦、分享成功,實踐長期主義的價值。
“思考、專注、探索、創新”,這是光速光合的投資信仰。憑借著對行業的極致追求,心懷時代賦予的責任,積極尋找下一個可能的機會。期待“中國創新的全球合夥人”能攜手更多行業創新的探路者們一路向光,合力而爲。
“非常榮幸,在基流創業的成長路上有衆多良師益友的鼎力相助,使基流有機會參與建設超級系統,有機會見證中國通用人工智能落地。團隊的拼搏使我倍感自豪,在人工智能飛速發展的浪潮中,我們留下了自己的足迹。”基流科技CEO胡效赫感慨地說。
在清華一路從本科、博士到博後,胡效赫師從李軍研究員,于網絡安全實驗室進行了十年高性能網絡系統研究。他在加州大學伯克利分校作爲訪問學者期間曾師從于Scott Shenker院士,後者是SDN網絡的提出者。他非常精通于分布式計算及高性能網絡,在創業前就已經落地了全國首個運營商級Tbps可編程網絡産品,並在超算環境跑通國産千卡大模型。
專注大規模計算機系統的建設,是胡效赫創業之初就定下的目標。今天基流科技正在開發的,正是針對人工智能設計的分布式GPU系統,也被稱爲算力集群。
“創業一年半以來,基流科技建設了國內最大的私有化單體算力集群。”胡效赫說,“我們打破了行業裏很多既定的共識,比如證明AI訓練並非時延敏感型,而是帶寬敏感型;我們跨30公裏實現了廣域網的大模型訓練而沒有帶來算力損失,在跨50公裏時能保持98%-99%的算力。”這在世界範圍內都是開創性的。
光速光合在今年年初完成了對基流科技的Pre-A輪領投。
光速光合合夥人朱嘉表示,AI大模型的快速發展,對高性能算力的訴求日益增加,但大規模集群算力搭建壁壘高,國內目前有千卡以上大規模集群搭建技術能力的團隊很少,基流科技目前是中大型算力集群的解決方案提供商,累計建設和調優十余個集群,擁有萬卡集群落地經驗,這在國內非常稀缺。
* 打造高算力超級系統
1967年,IBM公司計算機架構師吉恩·阿姆達爾提出了一個經驗公式,表明系統性能提升的潛力受到系統中可並行化部分的限制,即使並行處理器的數量無限增加,整體性能提升的上限也受到很大程度的制約。
簡單來說,算力集群的計算速度並不能隨著GPU數量的增長而無限疊加,就像1個人10天可以蓋一棟房子,10個人只需要1天,但100個人仍然需要1天的時間——其他90個人可能因爲擠不進工地只能閑著。
訓練大模型也是這樣。據Gartner的一份報告稱, GPT-3.5的訓練過程中,使用了由一萬個英偉達A100 GPU組成的高性能算力集群,在GPT-4上則提高到了約25000個A100 GPU,但其算力利用率僅爲32%至36%,算力浪費嚴重。
基流科技的工作就是設計出一套系統,能夠組織幾千人,甚至上萬人盡可能快地蓋好更多房子。
胡效赫表示,基流科技的産品主要面向三個維度,包括算力管控調度平台、算力調優運維平台和高速互聯硬件。目前,公司除了整套算力集群建設解決方案外,在集群管理、計算引擎和高速網絡三個層次上都進行了産品化並有逐步落地,幫助AI企業將GPU合理的組織起來,並盡可能地提高交付效率和 GPU利用率。
目前,基流科技的算力集群方案可以爲GPU集群提升超20%的性能,幫助客戶在千卡環境中節省成本上千萬元,在萬卡環境中節省數億元。
* 超前布局千億市場
根據IDC的統計,2022年全球計算設備算力總規模達到906EFlops,增速達到47%。算力産業蓬勃發展,預計未來五年全球算力規模將以超過50%的速度增長,到2025年,全球計算設備算力總規模將超過3ZFlops(注:1 ZFlops=10E9 TFlops)。
在人工智能爆發的時代,算力的重要性不亞于工業時代的煤炭和石油。在數字化時代,在互聯網上傳輸的是信息流,是算力對數據進行粗加工後的結構化抽象;在智能時代,在互聯網上傳輸的是智能流,是算力對數據進行深度加工與精煉後的模型化抽象。可以說,近幾年人工智能的集中爆發,離不開算力和數據不斷堆疊而産生的“智能湧現”。
但算力和算力之間也是有區別的。胡效赫提到,基于傳統互聯網服務對算力的需求,和人工智能對算力的需求之間有很大的差別,因此需要重新設計網絡架構,相關技術還處于初級階段,在分布式計算、可擴展性甚至硬件方面還有很大的想象空間。
他表示,在AI計算中,尤其在大模型預訓練過程中,一個任務要在多台機器的多個節點同時運行,這個任務不可被切分,因此需要優化並行策略、計算通信效能,以提高GPU利用率。這個過程對可擴展性要求非常高。
另一方面,部分AI計算的規模非常龐大,可能涉及數萬個連接點。當計算任務在多個節點、多台機器、跨越多跳互聯時,一個硬件連接點壞掉後,整個任務會直接挂掉,這需要設計一套新的分布式計算引擎,以滿足容錯、監控和故障解決的需求。
“這種技術範式的變化實際上是脫胎于分布式計算,在市場端很多廠商對技術的變化認知不夠明確,産業鏈上不同角色之間也缺乏共識。” 胡效赫認爲,“人工智能在我們看來是一個十年、二十年的發展機遇,算力基礎設施和模型的發展都才剛剛開始,市場認知會在一段時間後慢慢收斂、統一。”
根據信通院測算的結果,2022年我國計算設備算力總規模達到302 EFlops,全球占比約爲33%,連續兩年增速超過50%,高于全球增速。智能算力需求呈現爆發式增長態勢,在算力規模中的比重將越來越高,未來五年複合增長率達52.3%。
對算力的巨大需求造就了急速膨脹的市場規模。IDC數據顯示,2022年中國數據中心服務市場規模達1293.5億元人民幣,預計2027年市場規模將突破3000億元,其中用于推理的服務器的市場份額將達到62.2%,市場規模預計突破1800億元。
* 突破技術難關,建立核心優勢
隨著算力市場的爆發式增長,基流科技將發展的重點放在了項目的具體落地上,積極參與中大型計算集群的建設和運維,嘗試將前期積累的工具變成更標准化的産品,同時探索國産化硬件適配和出海。
朱嘉看到,基流科技主打的基于開放生態的高性能算力網絡系統已具備高性能和低綜合成本的優勢。公司成立僅一年多,産品就獲得多家落地客戶的驗證,發展速度很快。
“AI算力比拼的不光是單卡、單GPU芯片的能力,AI算力的核心背後體現的是由GPU形成的網絡集群能力。基流科技的産品可以使一個大規模的計算集群能高效地運營,解決GPU算力上的瓶頸問題。”朱嘉表示,“我們期待公司能不斷叠代成長,成爲全球AI最重要的基礎設施提供商。”
在基流科技成立的一年半的時間裏,項目已落地一線廠商生産環境,爲多個數據中心進行算力集群的設計、建設、調優和運維,服務包括智譜AI、商湯科技、銀盾雲、世紀互聯等廠商累計多個千卡到萬卡的算力集群,同時也推出了十萬卡的解決方案。
“我們希望通過建設這樣的超級系統,形成高性能算力網絡,最終支撐人工智能模型的應用落地和企業的IT叠代。”
“高性能算力基礎設施是大勢所趨,在未來的競爭當中,技術就是我們的核心競爭力。”在胡效赫看來,創業與科研是有相似之處的:“做科研需要我們沿著一個大方向,在關鍵點上進行突破,方可獲得評審專家的認可;創業也要尋找一個大方向,在領域內建立自己的優勢,拿出企業需要的解決方案和産品,最終才能得到客戶和投資人的認可。”
胡效赫總結:“從這個角度來看,無論是科研還是創業,Talk is cheap,Show me the code才是最重要的。
這個行業剛剛開始發展,我們的産品、技術在國內公開市場處于先發位置,但未來有諸多挑戰需要解決,擴展優化已建算力集群,做到‘後向兼容’,提升算力調度、運維、故障定位的自動化能力,支持長距離分布式算力集群落地。
沿著高性能算力網絡方向砥砺前行,爲國産算力添磚加瓦,支持國産大模型落地,我們相信在未來的十萬卡、百萬卡集群中一定會有基流的身影,相信基流能與國內頭部大模型廠商一起走入通用人工智能時代。”---來源: 創業邦-