8個月238個大模型,中國AI 奔向何處?
2022年11月30日,是ChatGPT面世的第一天。至今整整一年的時間,“人類與AI的未來”撕開科幻的外衣,正式踏入現實。
在商業世界,新技術一路狂奔,引發百模大戰,一批創業公司如雨後春筍,退入幕後的大佬們紛紛下場,激烈的競爭中興奮、迷茫、挫敗相互交織;
而在普通人的生活中,既有AI模特、AI畫師等“新職業”引發下崗潮的恐慌,也有靠AI知識培訓月入一套房的弄潮兒,就連蕭山丈母娘,也知道該瞄准大模型工程師。
然而,伴隨著OpenAI的宮鬥鬧劇,擺在所有人面前的是當AI作爲新物種出現,生而爲人數千年,巨變之下,何爲我們?
美國物理學家費曼曾說,“我們每個人都有一把開啓通往天堂的鑰匙,很不幸,這把鑰匙同時能夠開啓地獄之門。”
害怕AI不夠強大,又害怕AI太過強大,是人類心中一道永遠在搖擺的天平。
在《流浪地球》的電影中,在極度不穩定的現實中,人們依賴于從MOSS身上得到確定性,而後又因恐懼MOSS失控,啓動“隔離計劃”,將其封存在北極與空間站。
人工智能究竟如何改變了人類社會?有哪些具體而又深刻的影響?是否將重塑我們的世界?巨變之中有哪些機遇與風險?在全球的科技競賽中,中國的位置在哪?優勢又在哪?一個個看似遙遠而又宏大的問題,突然迫在眉睫。
炒作與機遇齊飛,理智與理想並存,關于大模型的答案之書,需要每個人的回答。
*2023年,大模型完成三級跳
八個月內就誕生了238個大模型,每隔一天中國就會官宣一個新的大模型,這是2023年的中國速度。
回顧這一年,ChatGPT火爆後不到一個月的時間,阿裏、華爲、騰訊、京東、字節、360、商湯、科大訊飛等一衆大廠紛紛下場,或官宣入場或亮相大模型。
百模大戰一觸即發,數據顯示,戰事最膠著之際,國內一個月就能冒出30多個大模型。截至2023年10月,我國擁有10億參數規模以上大模型的廠商及高校院所達到了254家,從“一百模”升級至了“二百模”。
但混戰只是短暫性的階段,僅三個月後,大模型行業就迎來了過濾分層,泥沙俱下過後,行業格局也逐漸變得明朗起來。
“高校和研究者關注基礎研究,培養人才;大廠提供算力支撐、基礎設施建設和MaaS服務;創業公司做大模型應用開發”,複旦大學計算機學院教授、Moss系統負責人邱錫鵬在2023騰訊ConTech大會上總結道。
底層是高校,中間層是大廠,最上面一層是大模型創業公司,分工清晰,各司其職,構成了當下的中國大模型版圖。
IDEA研究院、智源研究院、中科院自動化研究所、上海人工智能實驗室、複旦大學、清華大學等高校和研究所,最早在技術路徑發展上關注、跟隨OpenAI的步伐。基于先一步市場的洞察,這些研究院所發布的論文、開源大模型、數據集和工具,都爲中國大模型的誕生、叠代打下了基礎。
此外,這些高校也在源源不斷地向市場上輸送人才。清華系創業團隊撐起了國內大模型創業的“半壁江山”,王慧文、王小川等互聯網大佬高調入局,智譜AI、面壁智能、月之暗面等公司創始人師出同門。據不完全統計,近期活躍的AI大模型創企中,擁有清華背景的創始人至少有17位,涉及11家企業。
中間層的大廠,進一步劃分有兩類。一類是騰訊、百度、阿裏、華爲、字節等互聯網大廠,憑借著在雲計算和技術方面的積累,一方面可以自研通用大模和行業大模型,把現有的産品全部重做一遍,結合已經打透的行業,落地大模型解決方案;另一方面也可以給企業客戶和創業公司提供模型訓練的算力支撐,以MaaS的形式提供一站式的大模型服務。
第二類是AI1.0時代的科技公司,如商湯、雲知聲、科大訊飛等。結合在語音、CV方面的優勢,在此基礎之上研發大模型,商湯繼承在CV方面的優勢,發布了“日日新”大模型;雲知聲延續其在語言方面的優勢,發布了山海大模型,展現在醫療問診方面的能力。
隨著大模型地基的進一步穩固,基礎能力走向成熟,今年下半年,創業從想法落實到了行動,開始湧現出一批“黑馬”創業公司。
名校、技術、行業經驗三重背景拉滿,一出道就奔馳在了大模型的快車道上。
百川智能以平均28天的速度叠代大模型,探索醫療問診,預計明年推出第一款AI應用,劍指超級App;智譜AI今年累計獲得融資25億元人民幣,一舉成爲國內公開融資最高的大模型創業企業之一;MiniMax海外推出的AI角色扮演類應用Talkie,增速一度跑贏國外同期明星産品Character AI;月之暗面從長文本技術切入,未來瞄准C端應用,正在探索AI角色扮演、對話等場景。
各類黑客馬拉松和路演現場,座無虛席、人聲鼎沸,創業者、投資人、觀衆擠破頭只爲拿到一張入場券。創業者們激情澎湃,“超越字節”,“打造下一個抖音”,“我就是下一個張一鳴”,一番豪言壯志響徹路演大廳。
最小00後,普遍95、90後,幾個搞技術、産品的人想法一碰,臨時組個小團隊就開始了創業之路。大模型俨然成爲了香饽饽,奇績創壇剛結束的路演數據顯示,在AI方向,就有51家大模型公司,更有超過一半集中在應用層面。
至此,中國大模型已經完成了從基礎能力到應用層的三連跳,在近一年的摸索中,大模型創業者們逐漸意識到了一個事實:中國大模型“先天體弱”,中國創業機會不在基礎能力層,而在應用層。
*中國大模型核心競爭力在哪兒?
中國大模型的“體弱”之症,還要追溯到“根”上,構成大模型有四要素,分別爲數據、模型、算力和場景,根基打得不牢,大模型自然也就走得慢。
目前,大模型訓練數據主要來自于公開的文檔、資料和數據。從數據總量來看,公開的粗加工數據仍以英文居多,占主導優勢,中文數據開放得還遠遠不夠;從數據質量來看,由于國內在數據産業的投入和精細化程度不足,導致了中文語料不僅少且能用得也不多的現狀。數據質量直接與模型訓練效果挂鈎,比如ChatGPT雖然只有1.5%的中文語料,也能達到比較好的效果,但國內卻恰恰相反。
在模型層面的積累,短時間內,中國有著無法跨越的鴻溝。OpenAI自2015年成立,在大模型領域的技術積累和投入,已長達七年之久,而國內才僅僅一年的時間。而在中國馬不停蹄追趕過程中,OpenAI還在加速度,百億美金、頂尖人才、超級計算都在源源不斷地輸送進名爲“GPT”的大模型引擎中。
在算力層面也不容樂觀,一面要面臨著算力資源短缺的共同問題,一面還要活在美國的層層封鎖之下。
在2023騰訊ConTech大會上,百川智能創始人、CEO王小川在矽谷調研中了解到,OpenAI正在嘗試把1000萬塊GPU連在一起訓練一個大規模的模型。
王小川對此感到十分震驚,“英偉達一年大概生産100萬塊GPU,訓練GPT-4要2.5萬塊,國內對標GPT-3.5訓練需要4000塊。要中國拿出1000萬塊GPU去訓練大模型,目前從資源層面還遠遠達不到”。
據邱錫鵬判斷:“我們離OpenAI算力的差距太大,能保持緊密跟隨已是不易,但要談到趕超,還是得結合當前我國具體的實際情況。”
有經驗、有方向,更要正視差距和不足,正如王小川所言,當下大模型公司需要思考的問題是,如何用一個稍弱的大模型做出一個好的AI原生應用。
“國外會做大模型,但並不代表著會做應用”,不少創業者向光錐智能反饋道,在應用方向,國內與國外目前處于同一起跑線上。
國外AI應用起步雖早,但發展仍處于早期,類型主要集中在效率對話助手、情感類對話助手、繪畫、照片、遊戲幾個領域。
以美區蘋果商店爲例,大熱的效率工具中,OpenAI的ChatGPT有47萬個評分;微軟的Bing Chat有18萬個評分;大火的C端應用代表,Character AI有14萬個評價,Pi有1336個評價;風靡一時的AI生成相機Lensa AI有39萬個評價。作爲參考,TikTok在美區蘋果商店有1634萬個評分;YouTube有3370萬個評分;Snapchat有196萬個評分。
(圖源:美區蘋果商店截圖)
大模型的技術能力再強,也要落在産品中被實際應用起來,而這恰恰是中國最核心的優勢。
“理想上慢一步,落地上快三步。”
這是王小川對當前中國大模型機會的诠釋,“理想”對應著大模型基礎技術能力,“落地”則對應著場景應用,“我們中國大模型的機會,不在技術科研,應用才是我們跑得更快的地方”。
回顧互聯網時代,中國曾經誕生了淘寶、微信、抖音等超級App,在産品體驗、市場運營、用戶需求洞察等方面都積累了大量的經驗,與此同時,繁榮的互聯網産品生態還培養起了一批産品經理。如今,上個時代的積累將沈澱爲大模型應用誕生的肥料。
王小川認爲這裏面有兩個核心的難點需要去解決,如果能解決好兩個問題,中國的應用或許就能走在美國的前面。
首先是要有大模型,模型效果差一點也沒關系,可以通過開源技術、端到端的模式、人的聰明才智,與做應用公司共同研發等途徑來彌補大模型本身的缺陷。
重要的是要把大模型用起來,有大模型應用創業者告訴光錐智能:“實際做AI應用,對大模型能力的要求遠沒有想象中那麽高,GPT-3.5基本就能達到一個還可以的效果。”
其次是,傳統意義上的産品經理需要轉型和提升。王小川指出,大模型創業跟互聯網創業最大的區別在于,大模型是科技創業,以技術爲主要驅動,故而進入壁壘極高;而互聯網是創意創業,幾乎不存在卡技術的環節,換而言之,只要有好的想法就能實現。
”大模型創業的特性,就要求産品經理,需要懂得什麽樣的AI産品需要匹配什麽樣的技術,甚至更進一步還能以産品需求爲導向引領技術的發展。這裏面可能涉及一些具體的問題,比如産品經理對技術的評測標准是什麽,怎麽去評價技術的好壞,怎麽才能讓算法工程師跟上産品叠代的步伐等等”,總而言之,王小川認爲産品經理要對自己的技術有判斷和評價。
漫長的技術發展經驗告訴我們,這已經不是中國第一天面對基礎科技能力不如國外的棘手問題。暫時的技術領先也並不代表什麽,中國之所以能做大模型,一是因爲本身市場就足夠大和複雜,若大模型企業能占據一席之地,或許就已經擁有了十分可觀的增長空間。
OpenAI的先進放在中國的環境中也會出現“水土不服”,一如多年前數據庫行業,Oracle雖然先進,但數字化程度滯後的國內根本用不上,全靠中國數據庫企業攬下髒活和累活,從搬運賬本切入數據庫賽道。
大模型亦是如此,國內企業生怕掉隊,迫切想趕緊用上大模型,但遠水解不了近渴,私有化部署、安全、價值觀對齊、場景落地等諸多現實問題更適合中國大模型企業發揮。
*人與AI的未來,在變革中共生
過去不可被改變,但是未來可以被創造。
每當新技術出現,都會有一部分人積極占據先機,獲得技術紅利。任何技術革命帶來的技術變革都是由此開始的。
如今,在百模大戰的比賽場上,所有人都試圖尋找最終的天選之子,究竟是存量的競爭還是增量出奇迹,大廠和創業公司們,都不肯放過任何一個機會。
“從信息時代走向智能時代,一個大的時代,就像之前工業時代一樣,會有新的公司起來。”正如王小川所說,盡管,大廠們有在互聯網時代積累了數十年的資本,但普遍觀點認爲,小創新靠大廠,大創新仍然要靠小廠。
而在激烈的競爭之下,新公司又是否會像互聯網時代的巨頭們一樣,創造一個新的時代,甚至取代目前的科技巨頭,引領新的商業生態呢?
技術的變革總是周期性的,我們或許可以從曆史的長河中尋找答案。
正如互聯網時代,催生出了線上零售模式,成長出了阿裏巴巴、京東等一批巨頭企業,産業鏈上也有無數網店、工廠抓住機會,踩上了暴富的快車道。在這個過程中,沒有誰取代誰,只有電商形態顛覆、重構了線下零售,同時也形成了線下、線上一體化的供應鏈、數字化雲倉、新零售等物種。
相比新舊之間的取代關系,更多的是業態模式的創新、重構。
不過,新的AI業態究竟如何展開,仍在朦胧之中。正如曾經字節跳動給BAT的震動,在快手、抖音、秒拍、美拍、微視等一片短視頻App之中,沒有人知道,誰是最大的那匹黑馬。因此無論大廠還是小廠,都在積極探索AI與業務的結合,等待爆發的奇點、爲明天押注。
與此同時,不同于以往高新技術突破的漂浮感,AI的變革已經滲透進了社會中每一個人的生活之中。
“用孫正義的話講,會用AI和不會用AI的人就是像人和猴子區別一樣。”王小川說道,“我把ChatGPT放在我手機頁面的底部,每天都會使用。在未來兩三年內,我們工作方式、生活方式會有天翻地覆的變化,智能體到來之後,跟你工作的可能不只是人,也有機器。”
“雖然大模型成長速度快于年輕人,但年輕人是快于非年輕人的。在時代變革的時候,年輕人更有機會。”他補充道。
機會固然存在,但難題也隨之而來——在暢想AI帶來社會進步之時,我們又該如何規避AI帶來的風險?
事實上,在幾百年的文學創作中,人類就不斷探討著人與非人物種之間的關系,AI作爲人造智能,更是遊離在倫理的邊緣。
要讓AI與人和平相處,基于一個先決條件,價值觀的對齊。正如《流量地球》裏,MOSS被要求“保衛人類文明”,卻認爲“保衛人類文明的唯一辦法,是毀滅人類”一樣,AI強大的計算、判斷能力與非人的認知,是恐懼的源頭之一。
也正是如此,在今年大模型狂奔以來,安全性始終都是根本宗旨,正如OpenAI早在年初,就曾發布過《我們保障AI安全的方法》,回應外界對其AI模型安全性的質疑。
想要實現AI與人類價值觀的對齊,一方面,依賴于技術,但更重要的是,人類自己先要形成一套一致的價值觀體系。
然而問題是,自人類社會誕生之時,偏見就根植于思想、行爲,如今自然也藏匿在AI訓練的數據之中。換言之,當我們在探討AI倫理之時,我們也在審視著自己。
AI的發展推著人類文明的車輪滾滾向前,當我們站在一個新周期的門外,門縫已經打開。
2024,或將是一個嶄新的世界。---[文 : 光錐智能*作者 : 郝鑫、黃小藝*編輯 : 劉雨琦/钛媒體]