盤點2023,大模型産業狂奔的365天
4萬億攝氏度(345MeV),是美國紐約布魯克黑文國家實驗室在2010年利用相對論性重離子對撞機進行金離子對撞實驗時創造的,人類迄今爲止所能制造的最高溫度,是太陽核心溫度的26萬倍。
如果說2023年有一項技術能夠達到如此空前的“熱度”,毫無疑問,那就是生成式大語言模型。
但是不同于那不足十億分之一秒的、轉瞬即逝的4萬億度高溫,大模型對各行各業的深遠影響,在2023年既如“春雷萬鈞”,又似“潤物無聲”。所以,如果要用兩個關鍵詞形容2023年的大模型産業,除了“熱”,還有“卷”。
2022年11月,ChatGPT橫空出世,在僅僅兩個月過後,ChatGPT月活躍用戶就成功破億,並成爲史上月活用戶最快破億的消費級應用。初出茅廬的ChatGPT像個全能戰士,能聊天、會寫代碼、寫論文…。在人們感慨這款對話應用功能強大的同時,其背後的大模型——GPT,第一次真正意義上被推進了所有公衆的視野。
現代AI技術主要是通過構建深度神經網絡來模擬人腦的學習過程,通過學習大量數據“沈澱”出AI模型,用來完成諸如圖像分類、目標檢測、機器翻譯、語言理解等特定任務。但這一次的大模型不一樣了,超大規模的數據量、算力和神經網絡規模使得模型産生了“智能湧現”。
目前,“智能湧現”最通俗的解釋,可能來自于百度創始人李彥宏,他認爲,過去的人工智能是,想讓機器學會什麽技能,就教它什麽技能。教過的,有可能會;沒教過的,就不會。大模型出現“智能湧現”之後,以前沒教過的技能,它也有可能會了。
2023年,大模型領域的研究與創新在國內外“兩翼齊飛”。全球科技大廠與衆多創業公司、學術機構紛紛投身這場技術浪潮。粗略統計,目前全球已經發布了數百個大模型,可謂是在一年時間裏,把一項通用技術“卷”上了天。
但是要在千行百業裏種下大模型的“花”,除了模型本身,還需要針對大模型升級雲計算基礎設施、配套相應的平台與工程化能力、配套面向上層應用的全新範式開發工具。
*卷模型:全球已發布幾百個基礎大模型,2024進入大規模淘汰賽
作爲大模型技術研究的全球領導者,OpenAI背靠微軟這位“金主爸爸”,在2023年3月、9月和11月,相繼推出GPT-4、GPT-4V、GPT-4 Turbo,在基礎大模型表現方面被公認爲遙遙領先,被全球同行玩家視作追趕對象和比較基准。
但是在11月,OpenAI上演了一出聯合創始人、CEO——Sam Altman,被董事會閃電解雇,到加入微軟、最終回歸的“宮鬥”鬧劇後,不少人也對OpenAI未來前景産生了一定擔憂。
作爲OpenAI最強有力的競爭對手,Anthropic由前OpenAI高管創立。
23年3月和7月,Anthropic陸續發布了旗下大模型産品Claude和Claude 2,並且推出了直接與ChatGPT競爭的對話機器人應用,強調打造“安全且負責任的AI”。值得一提的是,Claude 2剛推出時支持100k上下文窗口,11月升級2.1版本,支持200k“超大杯”上下文窗口,分別對GPT-4和GPT-4 Turbo實現了碾壓。Anthropic優異的表現也在23年下半年吸引了來自亞馬遜的40億美元、谷歌的20億美元新投資。
如果說OpenAI賦予了GPT靈魂,那麽這具“軀殼”在早年間可以說是Google給的。
作爲Transformer架構的始作俑者,Google在2023年也不甘落後,推出了PaLM 2 、Gemini等現象級大模型;在大模型領域沈寂許久的雲計算巨頭AWS,在4月發布Titian大模型後,直至年底才被爆料正在訓練一個新的、內部代號爲「Olympus」的大模型,參數將高達2萬億;此外,阿聯酋的技術創新研究所(TII)與Meta則發力開源,TII最新發布的Falcon 180B對Meta的Llama 2實現了超越,成爲迄今爲止最強的開源大模型。
回到國內市場,最先發力大模型的企業是百度。
2023年3月,百度率先推出生成式大語言模型——文心一言,填補了國內這一領域空白,並在發布後四個月內,高速叠代至3.5版本,相比3.0版本,訓練速度提高了2倍,推理速度提高了30倍,模型效果累計提升超過50%。在首個真正意義上的權威機構評測(IDC《AI大模型技術能力評估報告,2023》)中,文心大模型超越GPT-3.5,並摘得國內大模型表現第一名的桂冠。10月,李彥宏宣布文心大模型4.0正式發布,並發表了“文心大模型4.0綜合能力與GPT-4相比毫不遜色”的豪言壯語。
此外,阿里巴巴與騰訊則分別在上、下半年發布了自家的大模型:通義千問和混元。隨著百川智能、智譜AI、零一萬物等一衆初創公司加入基礎大模型混戰,國內大模型市場徹底進入“戰國”時代。
*卷算力:大模型率先重構雲計算,2024智能計算開始拼「性價比」
大模型需要巨量的算力資源來支撐龐大的系統和訓練、推理任務。
從全球主流大模型玩家的成分中我們不難看出,如AWS、微軟、Google、百度、阿裏等,本身都是雲計算廠商,有著充足的算力儲備。而OpenAI、Anthropic、智譜AI、百川智能等創業公司雖然自身不具備雲服務能力,但也需要依附雲計算廠商才能實現模型的叠代升級。
收入創下 181.2 億美元的紀錄,環比增長 34%,同比增長 206%;數據中心收入創下 145.1 億美元的紀錄,環比增長 41%,同比增長 279%,這是英偉達交出的第三季度財報數據。創始人兼首席執行官黃仁勳表示:“從公司強勁的增長中可知,各行各業都在經曆從通用計算到加速計算和生成式 AI 的平台轉型。”
雲計算廠商在大模型發展浪潮中有著創業公司無法比擬的巨大優勢。近期,Omdia Research發布的英偉達GPU出貨量測算圖在網絡上走紅,則在一定程度上反映了雲計算大廠對AI算力的焦慮。但是大模型的算力僅靠買買買就夠了嗎?
事實上,云計算廠商普遍選擇多條腿走路的方式,除了囤積GPU以外,基于自身對大模型技術的理解,打造面向大模型訓練、推理場景的專屬的DSA(Domain Specific Architecture)架構芯片,規模化使用後不但可以攤薄成本,還可以避免未來被單一GPU供應商所綁定。比如AWS打造的Trainium和Inferentia系列芯片、微軟的Maia、華爲的昇騰、百度昆侖芯等。
隨著摩爾定律放緩甚至失效,大模型對智算集群有效算力、穩定性提出極高要求,異構算力和智算集群的系統級優化至關重要,比如微軟除了大宗采購英偉達GPU之外,還將大力引入AMD Instinct MI300X等異構算力,並大力優化基于自研芯片Maia的智算集群。
國內,以百度爲首的雲計算廠商也在智算領域投入了大量精力。比如百度在年底發布了基于自研昆侖芯和華爲昇騰打造的兩款AI計算實例,升級AI異構計算平台百舸3.0,萬卡集群有效訓練時間占比達到98%,同時兼容一衆國內外主流AI芯片等舉措,可謂是珠玉在前,國內市場無人出其右。
*卷工具:大模型從“毛坯房”到“精裝修”,2024繼續卷“平台配套”
大模型技術的突破,除了大數據、大算力這些“硬疙瘩”,背後常常被忽視的還有平台、工程化等方面的積累,這些也是客戶用好大模型的關鍵要素。
創業公司普遍聚焦開發大模型本身,並且有不少選擇了開源路線。雖然開源擁有更好的靈活性,但是大模型時代,除了昂貴的算力成本,缺少配套工具還會産生極高的隱形成本,並對客戶AI技術儲備和二次開發能力提出了極高要求。對于用戶來說,大模型不應該是“毛坯房”,也不能沒有“物業”。
有別于傳統深度學習時代小模型的開發範式,大模型需首先要全新的、完整的工具鏈來支撐從數據管理、到模型的重訓、精調、評估等開發的全流程。而在全球範圍內,首先推出此類平台的既不是OpenAI、也不是微軟、AWS、Google這些海外巨頭,而是百度。
大模型本身和配套工具必須得齊步走,不然光說大模型落地千行百業,模型廠商能挨家挨戶做定制化嗎?這一點上,百度想的很清楚。
2023年3月,百度推出文心一言大模型時,李彥宏講到文心一言更大的故事是在雲計算。短短10天之後,百度智能雲就揭曉了答案,推出全球首個企業級一站式大模型平台千帆,宣告百度不但能做出國內最好的大模型,還要幫其他人做好大模型。而在5月的一場活動中,百度工程師還在國內首次演示了如何基于一站式平台微調行業專屬大模型的全過程。
隨後,阿里云CTO周靖人在10月底的雲棲大會發布了阿里云百煉大模型服務平台;微軟則是在11月中旬發布了自家大模型服務平台Azure AI Studio;AWS則是在11月底才更新了Amazon Bedrock服務功能,新增包括模型微調、基于Amazon Titan大模型的預訓練等功能。
*卷應用:應用開發範式被全面顛覆,2024 AI原生應用將湧現
在模型之上,如何幫助用戶開發大模型應用,也是必須解決的問題。說到底,大模型是一項新技術,本身並不帶來價值,真正創造巨大價值的是模型上層的應用。對此,各大廠商的思路則有所不同。
OpenAI、微軟選擇了相對封閉的,強化自身應用生態的策略。比如OpenAI在23年11月召開的首屆開發者大會上,連續放出GPTs和AssistantAPI兩大GPT原生應用開發殺手锏,也給一直趨附自己的AI Agent創業公司和大模型中間件廠商敲響了警鍾;微軟則推出Copilot Studio,幫助用戶構建基于Microsoft 365全家桶的智能助理。
其他廠商選擇了更開發的方式,但在幫助用戶開發大模型應用這件事兒上,除百度以外則鮮有發力。百度在2023下半年針對大模型應用開發,發布了AI原生應用開發工作台AppBuilder,將開發大模型應用常用的原子化組件、RAG(檢索生成增強)、Agent等框架進行了封裝和模板呈現,開放低代碼和代碼態兩種産品形態去適配不同開發者的需要。值得一提的是,百度沒有將應用開發與自家文心大模型做緊耦合,而是在文心大模型之外預置了經過增強處理的幾十個主流開源大模型,給開發者更多選擇。
不同于HuggingFace、魔搭等模型社區,更多面向開發者的定位,百度更注重應用與産業生態的建設,從大模型平台調好的模型直接通往應用工作台,從應用工作台開發好的應用則可以上架AI原生應用市場,形成技術到市場,再到商業的鏈路閉環。
而在大模型落地行業方面,前有華爲喊出盤古大模型“不作詩、只做事”,後有百度智能云基于大模型重構政務、金融、工業、交通四大行業解決方案,爲行業ISV提供全鏈路支持體系。我們有理由期待,在大模型技術落地行業方面,中國速度將再次震驚世界。
回望2023,大模型這個科技界的“天選之子”破圈突圍,成爲全社會熱點,但它畢竟還是個“孩子”,在熱切的期待下也難免會使人感受到落差。對于普通民衆和來說,大模型引領的“智能曙光”正在照進現實;但對于投身大模型浪潮的科技公司來說,還有很多亟待完成的工作。
Sam Altman在聖誕節前夕寫下了OpenAI 的2024發展清單。下一個,又會是誰?---[無尤 發自 2023*量子位 : 公衆號 QbitAI/來源: 量子位]