追求TC-PMF,零一萬物會成為AI First嗎?
立志比肩GPT-5的零一萬物,自Yi開源版本之後,又發布了閉源大模型Yi-Large。
據悉,Yi-Large閉源模型,在中外權威指令遵循評測集中,Yi-Large的表現均優於國際前五大模型。
事實上在去年5月,零一萬物成立6個月後就發布了旗下首款中英雙語大模型Yi系列。並且從一開始,李開復就定下了一個宏偉且艱難的目標:「成為World's No.1」。
打一出生就是「當紅辣子雞」的零一萬物也依靠大廠背景團隊、優異模型表現,達到了10億美元的估值。
在YI-Large的發布會上,李開復還宣布,零一萬物已啟動下一代Yi-XLarge MoE模型訓練,將沖擊GPT-5 的性能與創新性。
但作為AGI信徒的零一萬物,更多需要思考在追趕GPT-5的同時,不影響自身AGI的發展道路?
一、激烈的市場,零一萬物距離AGI有多遠?
在接受APPSO采訪時,李開復說:我們是務實的AGI信仰者,我們一定要用最少的芯片,最低的成本訓練出我們能訓練最好的模型。同時我們會不斷的去摸索,找TC-PMF。
據悉,目前零一萬物海外生產力應用總用戶接近千萬,今年ToC單一產品預計收入達1億元人民幣。
但這1億人民幣的單一產品營收,只能夠代表TC-PMF,而不能夠代表零一萬物已經在AGI層面上實現TC-PMF。
要知道,與NLP、VC等弱模型不一樣的是,具象化之後的AGI,就是一個無所不能的、集各領域行業專家知識於一身的智能體,是一個能夠實現幫助需求方完成一整套需求落地,並且在過程中具有適應性和主動性的通用人工智能。
AGI的實現背後一定程度上需要高昂的成本,這其中的費用或許並不是百億、千億美金就能達到的。
但李開復也曾表示,零一萬物不會用純大力出奇跡的唯一思維,追求能不能用一百億美金,一千億美金實現大模型在場景中落地。
相對於行業內不理性的ofo式流血燒錢打法,零一萬物更偏向於讓大模型能夠用健康良性的ROI蓄能長跑。
但零一萬物需要思考的是,即便通過找到TC-PMF來發展,就一定能夠做到距離AGI越來越近嗎?
在AGI的發展中,認知人工智能是通往AGI最清晰、最明確和最直接的途徑。
雖然有多個認知架構項目已經持續活躍了幾十年,但迄今為止,沒有一個顯示出足夠的商業前景,被廣泛采用或受到特別充分的資助。
原因是多方面且復雜的,但一個共同的特點是:它們正在以模塊化和低效的方式運行,並且缺乏深入的學習反饋和認知理論。
回過頭來看這幾年AI硬件的發展就會發現,實際上AGI在硬件方面的進程一直都在不斷突破當中,所以真正影響AGI的實現,並不是軟硬件出現的阻礙,最大的阻礙其實是足夠準確的發展項目,以及大量的資金支持。
「準確的發展項目」對於目前在弱模型發展上的零一萬物來說,或許也很難。而通過現有的開閉源大模型和一站式AI平臺萬知,來達到AGI並且實現TC-PMF其實更難。
因為就目前來看,可以做會議紀要、周報、寫作助手、速讀文檔、做PPT的一站式AI工作臺萬知,雖然定位於2C生產力工具,但在應用的過程中也更多是文本生成類大模型。
這與能夠實現幫助需求方完成一整套需求落地的智能體,還很遠。
無論是零一萬物亦或是其他的大模型玩家,似乎更多是致力於某一個狹義的人工智能中,以求能夠快速落地具體場景的大模型。
比方說零一萬物的Yi系列大模型,涉及AI寫作、AI 編程、醫療、消費3C、生化環材等多個領域。
但發展AGI的一個客觀標準是,在實現AGI的過程中,所做的AI工作,是否有明確定義的步驟或整體詳細計劃,很少有AI工作符合這一標準,包括零一萬物。
對於零一萬物,目前能看到的實際上零一萬物做大模型的核心方法論,比如在於模基一體——模型與AI Infra並行開發;模應一體——模型與應用並行開發。
二、AGI信徒,如何警惕「狹義AI陷阱」?
然而在基模一體化當中,零一萬物不僅自研AI Infra,還將AI Infra設立為重要方向,並且將模型團隊和AI Infra團隊高度共建,人數比為1比1。
當然,在對自身具有ROI要求的零一萬物來說,務實的戰術發展往往更穩妥。同時註重人才的加入,或許有助於零一萬物更好的往AGI發展。
為了接近真正意義上的AGI,市場需要從第二波AI浪潮轉向第三波AI浪潮,從統計生成式AI轉向認知AI。
也就是從以統計學和強化學習為特征的大模型,轉變為以自主、實時學習、適應、高級推理為核心的大模型。
但急於通過萬知來驗證TC-PMF的零一萬物,又怎麼能夠確定走應用層的路,更利於AGI的實現?
要知道,AI浪潮轉變的過程既簡單又復雜,簡單是整個轉變認知上的簡單,而復雜不僅僅是「調頭重來」從大模型發展基準上改變,還需要警惕「狹義AI陷阱」的出現。
「狹義AI陷阱」通俗來說就是,即使一切都順利朝著AGI預定義的目標發展——擁有良好的理論基礎和發展計劃,出色的開發團隊和雄厚資金,以及正確的目標基準、開發標準,但仍然存在著「狹義AI陷阱」的隱患。
因為整個市場對實現AGI迫切的想法,某種程度上也會導致大部分企業最終利用外部人類智慧來實現特定結果,或在給定基準上取得進展,而不是以一種將智慧(適應性、自治的問題解決能力)融入系統的方式來實現。
說白了,偏向於特定任務的大模型升級,與AGI所追求的適應型和主動性實際上是相違背的。
如果持續性通過特定任務強化學習,那麼最終導致的結果大概率就是:只有名義上是AGI的狹義人工智能工作。何況,目前零一萬物能夠實現特定場景應用,解決特定問題的大模型,都統稱為狹義人工智能。
不過,零一萬物在多模態大模型上的成績是明顯的。
多模態大模型作為發展AGI的必經之路,零一萬物多模態大模型Yi-VL-34B版本在MMMU測試集上,以41.6%的準確率超越了一系列多模態大模型,僅次於GPT-4V(55.7%)。
如果拋開與GPT的比較,41.6%的準確率對於多模態大模型來說,並不算突出。
要知道,信息的完整性、環境的適應性、交互的自然性、普遍性的應用都是多模態發展最為重要的四大方面。
其中信息的完整性,需要大模型系統考慮到更多的信息維度,來決定最終決策的質量以及準確性。那麼反過來也可以說,41.6%的準確率倒推是多模態大模型數據類型的有限性,導致系統在決策時,沒有考慮到更多的信息維度。
另外,零一萬物多模態團隊正在探索從頭開始進行多模態預訓練,以更快接近、超過 GPT-4V,達到世界第一梯隊水平。
GPT不僅僅是零一萬物最想要追趕的競爭對手,同樣也是上百家大模型企業想要超越的對手,但在AGI尚未初現雛形之時,零一萬物的目標視野應該是更廣闊的。
圖片來源:AI前線
畢竟,在過去七八十年人工智能發展的歷程中,可以看到每一次人工智能新浪潮的產生,都是以模型參數量、訓練樣本量和算力躍升帶來的人工智能重大發展。
而海外更擅長通過不斷投入Scaling Law來提升模型參數量,國內更多只能是一步一個腳印。
比如開發更具性價比的AI芯片、更節能的智能計算中心、AI模型加速技術,加快多模態模型架構創新和數據合成、多媒體數據標註技術創新。
三、第三波AI浪潮的重點,或許是變現?
近兩年來,市場對模型性能提升的討論,無一不是集中在多模態大模型的訓練和算法改進上。對於初步的場景化落地,也無一不是免費。
或許,在融資有限的市場裏,當下大模型公司的重點,除了尋找商業化落地之外,更註重大模型參數的增長,以期通過擴大想象空間來獲得更多融資的可能。
畢竟在國內資本市場中,資金的走向往往更偏向於確定性的方向,而不是賭一個不確定性。
於是同樣的,在2023年往後難以獲取融資的時期裏,大模型更傾向於走向2B2C撈錢存活。C端如OpenAI、Midjourney,Perplexity向個人用戶提供生產力解放工具,並以月費訂閱模式變現。
B端如微軟、Salesforce,將AI技術集成到傳統產品中並提供垂直定製服務,以月費訂閱或者用量模式變現。
而國內尚未獲得變現的企業,則是在不斷的處於尋找商業化變現的過程中。
如百度在C端推出文心一言訂閱模式,B端提供底層架構、解決方案;360在C端發力AI辦公,B端聚焦AI安全和知識管理等場景;訊飛則試圖將大模型與自身硬件產品進行結合。
目前萬知AI助手雖然對用戶完全免費開放,但據悉,後續萬知會結合產品發展和用戶反饋推出收費模式。
他認為大模型C端產品的發展可分為六個階段:最初階段是將其作為生產力工具,隨後逐步拓展至娛樂、音樂和遊戲領域。
接著進入搜索領域,然後是電商市場;之後進一步延伸至社交和短視頻領域;最終發展到O2O產品階段。
圖片來源:葉賽文
然而在國內市場,C端用戶似乎並不缺生產力工具,也不缺娛樂社交類工具。開啟收費後的萬知,真的能夠像在海外一樣順利嗎?
目前,根據頭部大模型左手C端右手B端,兩手抓的形式來看,大模型主要向B端收費,對C端收費的較少,且用戶付費意願較低。
這也註定了在眾多定位生產力的大模型中,大部分C端用戶會更偏向於低價者。
更何況,從Similar的數據看,5月份web端國內訪問量最大的前三名AI產品,分別是Kimi、文心一言、通義千問,訪問量分別是2250萬、1780萬和800萬,而萬知則排名第十,訪問量僅32萬。
面向海外,零一萬物的成績或許很亮眼,但在國內,不一定。---來源: 互聯網那些事-
參考:
智聯萬物:AI獨角獸「01萬物」加速布局出海矩陣,「只做To C」的李開復正逐步邁進AI 2.0時代
APPSO:零一萬物發布千億參數模型 Yi-Large,李開復:中國大模型趕上美國,立誌比肩 GPT-5
Z Finance:深度丨有頭有臉的AI獨角獸都在加緊出海,零一萬物Yi-Large登陸全球頭部模型托管平臺 Fireworks.ai
Z Finance:深度 | 超百億估值「新AI四小龍」誕生,零一萬物掉隊,光年之外出局!
AI前線:零一萬物發布Yi-VL多模態語言模型並開源,測評僅次於GPT-4V