01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

中國大模型要用Infra “降本增效”

2024111414:14



(圖片來源:钛媒體編輯拍攝)

今年7月世界人工智能大會(WAIC)召開前一天,上海浦東的一家酒店裏一場關于AI算力芯片的企業會議上,有兩家同樣做AI Infra技術的公司高管亮相,引發關注。

盡管他們彼此是競爭對手,但此次共同目標,是爭奪這家 AI 芯片企業的合作訂單。據钛媒體App了解到,其中一家AI Infra公司的CEO在得知對手將出席此次會議後,立即與主辦方溝通,希望增加一個演講名額,並特意從北京海澱飛赴上海,在數百位媒體和合作夥伴面前進行該公司成立半年多來的首次公開演講。

最終,這位CEO的努力得到了回報,他不僅成功贏得與該客戶的合作,還在短短三天後WAIC一場AI算力發布會上,順利拿下了與另一家AI算力企業的合作許可,成果豐碩。

這是國內AI Infra行業激烈競爭的一個縮影。

所謂AI Infra,定位于算力與應用之間的“橋梁”角色的基礎軟件設施層,主要利用AI/GPU芯片的算力中心和算力雲等的推理、訓練形式,爲AI大模型應用提供軟件系統、數據存儲和處理、網絡設施等技術,解決美國對華高端 AI 算力限制下模型斷訓、英偉達與國産算力之間解耦等計算、存儲和通訊網絡難題。

當前AI算力緊缺、美國英偉達GPU對華限制、模型成本“降本增效”等因素下,興起不足一年的AI Infra行業已經成爲中國 AI 大模型産業不可缺少的關鍵一環,也是與美國 AI 市場之間“別樹一幟”的特色,因爲矽谷很少有超百億估值規模的純AI Infra公司。

中金公司指出,目前AI Infra産業處于高速增長的發展早期,未來3-5年內各細分賽道有望保持超過30%的高速增長。而基金管理機構KKR&Co.數據顯示,隨著AI算力需求增長,全球數據中心投資有望達到每年2500億美元(約合人民幣1.9萬億元)。

另據紅杉資本、貝恩等機構統計,預計到2027年,全球AI市場規模將飙升至近1萬億美元,AI硬件和服務市場年增長率達40%-55%。

在這其中,全球會有超過4萬億元人民幣(6000億美金)投資到 AI 基礎設施層,生成式 AI 計算規模增長至109.9億美元,模型訓練成本每年增長240%(2.4倍)以上。

過去12個月內,AI Infra已成爲熱門賽道。阿裏、百度百舸、字節火山引擎等公司都在發力AI Infra技術産品;7月,AI Infra公司矽基流動(SiliconFlow)完成總金額近億元人民幣的天使+輪融資,智譜AI、360、水木清華校友基金、耀途資本等機構參與;9月,無問芯穹完成近5億元A輪融資,成立16個月內累計已完成近10億元融資,投資方名單相當豪華——社保基金中關村自主創新專項基金、啓明創投、聯想創投等超過46家機構和實體。

無問芯穹聯合創始人、CEO夏立雪此前對钛媒體App表示,在一個互聯網客戶大模型推理的業務場景中,無問芯穹將整體算力使用效率提升了90%,有效地解決了客戶大模型業務中算力成本的問題,幫助業務夥伴實現算力成本的大幅下降。他指出,“我們認爲(公司未來)3-5年內肯定能夠規模化地實現利潤”。



超40億美金算力做ChatGPT,算力爭奪戰一觸即發

經過60多年的發展,AI 技術改變了設計、教學、駕駛、醫療,甚至是GPU顯卡的價格。

隨著新一輪 AI 熱潮下,作爲AI三要素之一,算力已經成爲國家間競爭力,具有重大戰略性意義。

而算力需要與芯片、基礎設施、數據三大要素緊密結合 :芯片是算力的決定性因素,中央處理器(CPU)、圖形處理器(GPU)、存儲半導體等芯片尤爲重要,決定了計算能力的強弱;5G網絡、數據中心、雲計算集群、超級計算機等基礎設施是推動算力發展因素;數據價值則是算力存在與發展的終極意義。

在Scaling Laws(縮放定律)指引下,投入模型的計算資源和數據量越大,模型的能力就越強。過去十多年中,計算資源和數據的規模呈現出指數級增長,這也是AI重新進入公衆視野的原因。

下面列出的幾組數據,很明顯說明 AI 大模型規模與算力基礎設施成本之間的鴻溝 :

    1、美國OpenAI公司開發的GPT 1.0版本參數量1.7億,而GPT-4版參數量可能已經超過1萬億,增長速度驚人;

    2、而GPT-3.5在微軟雲Azure AI超算基礎設施上進行訓練,總算力消耗約3640PFlops-days(即按每秒一千萬億次計算,需運行3640天);

    3、算力成本當中,一顆台積電量産的3nm芯片成本超過2萬美金;

    4、一個8卡的英偉達A100價格已超過25億美金;

    5、2023年1月,ChatGPT使用近3萬顆英偉達高端GPU來處理數億個日常用戶請求,此類GPU的單個售價就已高達數萬美元,微軟旗下由GPT模型支持的新Bing AI聊天機器人,僅在算力基礎設施搭建環節就花費至少40億美元,這一數額甚至超過了南蘇丹一國的GDP(國內生産總值)。

如今GPT-5預計要用超過10萬卡集群設施。

由此可見,隨著AI大模型數據量規模增加,算力需求日益旺盛,但 AI 芯片成本高居不下。4萬億美金AI算力規模投入的背後,算力發展分化與鴻溝問題不斷顯現。

據字節跳動公開的萬卡集群大模型訓練架構MegaScale的數據,訓練擁有1750億參數的大模型需要在千卡集群上訓練接近20天或者萬卡集群上訓練近2天,按照GPU使用機時計算,單次訓練費用超過200萬元,其算力利用率僅約爲50%-60%。

模型大、算力利用率低、投入成本卻高達百萬至千萬元以上,這成爲當下 AI 算力現狀。

正如百度集團執行副總裁、百度智能雲事業群總裁沈抖所說,隨著 AI 應用爆發式的增長,模型訓練和推理的需求也在大幅提升,算力成本和使用效率這兩個指標就變得至關重要,直接影響模型能力升級和 AI 應用大規模落地的速度。

中國的 AI 算力不僅獲取成本高昂,而且“東數西算”導致算力訓練慢、且部分GPU芯片長期處于限制狀態,因此,提升算力利用率成爲了有效提升大模型性能和降低成本的關鍵,這也是AI Infra存在的根本意義——面向上下遊,AI infra把各類模型同各種芯片解耦適配,一方面減少算力資源閑置現象,另一方面則實現模型發展的“提速降本”。

“對于AI Infra,作用就是解決其應用開發的上手門檻,以及大規模部署時的使用成本。特別是我們知道有一個階段是算力緊缺,算力資源相對緊缺且昂貴,有的應用開發者即便對推廣産品很有興趣,也會因爲成本過高而卻步。

我們正是解決了這些問題,幫助用戶在使用Token時不再爲價格擔憂,實現更快、更低成本的操作,這就是AI Infra帶來的價值所在。”矽基流動創始人、CEO袁進輝最近在一場論壇上這樣說AI Infra作用。

從産品層面,多名阿裏雲技術人員在演講中提到,數據牆、內存牆、Scaling集群擴展、光互連等問題,都是需要AI Infra解決的。用更加易懂的語言說,AI Infra就是對標英偉達CUDA + NVIDIA DGX SuperCloud的一種綜合性服務。



中金公司在研報中指出,AI Infra是AI産業必不可少的基礎軟件堆棧,“掘金賣鏟”邏輯強、商業潛質高。其中,AI Infra基礎軟件工具有較高的商業化潛力。

大體來說,AI 算力包括訓練、推理兩個環節。目前各家提供的AI Infra方案各不相同,如阿里、百度、字節自身都擁有多種算力和服務器産品,所以其AI Infra技術更多是內部使用;而無問芯穹、矽基流動、清程極智這類初創公司更多是服務于芯片和算力中心方,以及模型應用層,提供系統和算力結構性服務。

以阿里云爲例。

阿里雲的服務器擁有英偉達、AMD、英特爾、倚天等多種芯片算力,因此,阿里雲也構建了Al Infra,名爲磐久Al Infra 2.0服務器,且內置ALS(ALink System)。

阿里雲CTO周靖人曾透露,其磐久AI服務器提供AI算法預測GPU故障,准確率達92%,並且穩定連接超過10萬個GPU,模型端到端訓練性能提升10%以上,其人工智能平台PAI,已實現萬卡級別的訓練推理一體化彈性調度,AI算力有效利用率超90%,從而促使基礎大模型降價,讓更多人使用通義模型技術和阿里雲計算服務,通義千問三款主力模型最高降幅85%。

除了阿里雲,百度智能雲則提供百舸AI異構計算平台,即基于AI Infra技術的雲計算平台,其將支持多芯混訓、多芯適配,在萬卡集群上實現了超過99.5%的有效訓練時長,而萬卡集群運行准備時間也從數周縮減至1小時;字節的火山引擎則擁有AI 全棧雲,支持多芯、多雲架構,支持萬卡集群組網、萬億參數MoE大模型,時延優化最高達75%,文件存儲vePFS支持2TB/s吞吐並行存儲、自研 mGPU 容器共享方案,GPU 利用率提升100%以上。

另外,相對于阿里、字節這些互聯網大廠,AI Infra初創公司領域則更細分,經钛媒體統計,這些AI Infra公司主要提供三類方案 :

一是通過類似MaaS(模型即服務)軟件解決方案提供給模型方,或與算力集群一同提供項目制合作後分成,後者回款更慢;(這寫的偏簡略易懂,實際要更爲複雜)

二是提供租用算力雲和模型API平台,利用多元異構算力提供一個平台的個性算力和模型服務,能夠解決部分中小開發者成本低、算力性能要求高、但場景單一這類需求,無問芯穹、矽基流動、清程極智都已提供相關平台服務;

三是提供芯片+軟件的端到端方案;比如,無問芯穹正量産無穹LPU專用算力,主要解決端側模型推理,那麽未來,AI Infra公司利用芯片硬件+自身軟件平台,可以提供智能硬件、自動駕駛、手機和PC等端側場景的算力模型服務。

如無問芯穹,其主要提供基于多元芯片算力底座打造出Infini-AI異構雲平台,包含一站式AI平台(AIStudio)和大模型服務平台;矽基流動則提供高性價比的GenAI雲服務SiliconCloud、高性能大模型推理引擎SiliconLLM、OneDiff高性能圖像生成引擎。

然而目前,全球能夠完整提供 AI 算力服務、且做到最好的公司,只有全球科技巨頭英偉達(NVIDIA),主要因爲A100、H100是全功能GPU處理器,且能利用CUDA軟件同時提供AI大模型算力推理、訓練服務。因此,國內 AI Infra技術和商業化規模遠低于英偉達。

“作爲一家創業公司,技術只是産品中的一個要素,我現在理解的是一切都要服務于商業化。”袁進輝這句話點明了 AI Infra的實質,這個行業需有市場需求、有技術壁壘、有行業盈利方案。

袁進輝表示,從軟件産品來看,以前有數據庫、操作系統、大數據系統,到今天出現了AI Cloud,“這是我在這方面的理解,工程細節繁多和工程量大不是劣勢,反而可能成爲標准化産品的壁壘。”

而美國擁有together.ai, fireworks.ai 等AI Infra公司,主要服務微軟、亞馬遜、戴爾等大互聯網廠商。

無問芯穹是國內少數選擇異構混訓這條路徑的創企,主要通過異構多種GPU卡來同時混訓一個大模型,地方政府、大模型廠商和偏研究型的單位都有這方面需求。

目前無問芯穹擁有英偉達、AMD加上國産卡共六種芯片,任意兩種都能組合訓練,在百卡和千卡這個級別都已經完成混訓,整體效率高達97.6%。

今年9月,夏立雪對钛媒體App表示,異構混訓的難點主要在于,不同的芯片之間有不同的算子庫, GPU 性能如何預測,任務怎樣拆分讓不同硬件各司其職,同時,怎樣在通信上實現較好地協調以及打通通信庫等多種問題。

而無問芯穹的初心是解決國內算力不足的問題,把不同的模型在各類硬件上都能夠快速完成高效部署,去讓算法和算力之間形成最佳的軟硬件聯合的優化、軟硬協同,讓各種各樣的算力都能夠把自身的價值發揮到最大。

“我們在整個産業中屬于連接模型和硬件,去讓大家能夠把算力更好地用起來的基礎設施的工作。所以我們確實在成立一開始就和很多重要的合作夥伴已經做了很密切、深入的合作和一些戰略協同。”

夏立雪表示,在一個互聯網客戶中,無問芯穹利用軟硬協同的核心技術優化客戶大模型推理的業務場景,將算力使用成本降低了90%,實現算力資源大幅節省和提效作用。

中國AI算力受限下,大模型的未來需要體系結構的變革

“人工智能技術潛力爲重振美國夢,和重塑美國工業化提供了不可錯過的機會”。OpenAI于11月13日公布一份全新由該公司領導的“美國AI基礎設施(Infra)藍圖”。

OpenAI認爲,美國需要定制一項國家戰略,確保美國在未來 AI 領域處于領導地位。

OpenAI公司全球事務副總裁克裏斯·勒哈恩(Chris Lehane)表示,其已經花費“很多時間”與拜登政府和特朗普團隊討論AI基礎設施需求,這將是美國未來關注的重要領域之一。

事實上,隨著算力經濟成爲全球戰略競爭新焦點,AI 算力也成爲美國對華打壓限制的關鍵賽道。

據報導,美國商務部要求台積電自11月11日起,停止將經常用于人工智能(AI)應用的先進芯片供貨給中國大陸客戶。

美國商務部致函台積電,對出口到中國大陸的某些7nm或更先進設計的精密芯片實施出口限制,這些芯片用于驅動AI加速器和圖形處理器(GPU)。

不止是台積電。三星同樣受到美國禁令限制,目前已向中國大陸客戶發布相關通知,無法爲提供AI芯片類晶圓代工服務。更早之前,英偉達、AMD等多款先進AI芯片對華限售。

目前台積電方面並未直接予以否認。11月8日下午,台積電回應钛媒體App表示 :“對于傳言, 台積公司不予置評。台積公司遵紀守法,嚴格遵守所有可使用的法律和法規,包括可適用的出口管制法規。”

11月13日,國務院台辦發言人朱鳳蓮表示,推進兩岸産業合作有利于兩岸企業發展,增進兩岸同胞民生福祉。有關報導再次證明,美國打“台灣牌”,升高台海緊張局勢,目的是“以台遏華”。

而民進黨當局妄圖“倚外謀獨”,一味隨美起舞搞“脫鈎斷鏈”,給兩岸有關産業合作設置越來越多的人爲障礙,最終損害的是島內企業的利益,削弱的是台灣相關産業的優勢,讓台灣進一步錯失産業發展的機遇。

然而,無論消息真假與否,長期來看,美國一定會對華AI算力進行限制。所以如何在Scaling Law放緩、數據規模到達天花板、算力需求不斷增加等因素下,通過 AI 系統化、計算體系結構化解決當前問題,是中國 AI 發展的關鍵要素。

“Meta、OpenAI都朝著10萬卡規模往上走,所以數據中心層面一定會朝更大規模增長發展,也許未來的算力增長定律,已經不再局限在單顆芯片的層面,而是整個體系算力層面。

跨數據算力體系會支撐未來基礎設施的訓練,擴張整個算力供給、提高並行計算創新能力,這是未來算力發展的重中之重。”在閉門圓桌中,一位半導體行業人士對钛媒體App表示,如果未來中國缺乏算力,各種行業各個領域一定會受到嚴重影響。

周靖人早前在一場群訪中強調,模型更新離不開基礎設施,AI 是一個系統化的技術變革,如果沒有底層的相關能力的支持,今天模型的研發、叠代就沒有承載的地方,這是一個相輔相成、承上啓下的關系。

事實上,本文寫的很粗略,AI Infra基礎設施層其實非常龐大,擁有很多很複雜的技術細節,包括AI系統、AI算力框架、編譯和計算結構、算子和開發體系等多個專業技術,僅多卡混訓、解決並行計算問題,AI Infra行業經曆了多年的反複技術積累。

一位AI算力公司技術人員告訴钛媒體,我們這個行業一直都在不斷踩坑和反複配合當中,AI Infra行業沒有一個先行例子可以複制。



英偉達CEO黃仁勳近期坦言,通用計算誕生60年以來,開始出現向加速計算的轉換,通過並行計算,令GPU時代的算力較CPU時期大幅提升。

而神經網絡和深度學習的發展,亦讓電腦獲取知識更加快,帶來電腦的智能化飛躍。

他認爲,傳統計算方式依賴預設的演算法模型,缺乏學習和理解能力。而結合深度學習,系統可以對資料進行調整最佳化提升算力的使用率。

黃仁勳強調,計算技術每十年將進步一百萬倍,只需2年,英偉達甚至整個行業都將發生天翻地覆變化,更以“難以置信”形容AI的未來,認爲AI 縮小了人類間的技術差距,未來10年算力將再提高100萬倍。

“我越來越堅定,如果中國想做自己的生態,想做自己的AI,必須全産業鏈自主可控。

我自己在 AI 軟硬件優化的基礎上積累完,然後我們在AI大模型時代中推動中國把所有算力真的都用起來,然後去跟美國做競爭,這是我自己內心深處特別想幹的事情,這是我們做這家企業(無問芯穹)的初心。”無問芯穹發起人、清華大學電子工程系教授、系主任汪玉教授曾表示,算力需要發揮更大作用,從而能推動中國AI發展。---(钛媒體/作者 :  林志佳,編輯 :  胡潤峰|钛媒體AGI)