01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

華映資本邱諄 :大模型行業泡沫正在顯現

2024101222:23



大模型行業泡沫正在顯現。

2022年誕生的ChatGPT,已經在相當程度上實現了大模型的Scaling law(尺度定律)和通用能力湧現。ChatGPT自身作爲一個終端産品的商業化也持續有不錯進展。據2024年7月的非公開數據,OpenAI的ARR(年經常性收入)已經達到了相當可觀的41億美元。

但這些收入都是在極度高昂的算力、研發和運營成本基礎上實現的,而且細看最近OpenAI的發展,也很難稱得上“順利”。今年以來,包括聯創約翰·舒爾曼和伊利亞·蘇茨克沃在內的多位核心高管已離開,9月下旬更是接連發生了首席技術官(CTO)米拉·穆拉蒂離職與蘋果退出參與其最新一輪融資談判的兩大事件。

在華映資本看來,只有當GPT真正賦能所有上層垂直行業應用場景,即實現所謂大規模落地實踐,以平台形式實現商業化,OpenAI開創的LLM浪潮才算徹底到來。但當前,無論是在to C還是to B側,GPT都更像是一個超級APP,而非一個類似IOS的底層平台。GPT插件和GPTs已經證明了底座LLM不能簡單複制IOS的App Store。

雖然OpenAI剛發布的o1模型用self-play RL的方法將scaling law推到了一個新的層次,實現了更強的推理邏輯能力,但上述“平台化瓶頸”並未得到根本改變。各垂直場景目前都尚未看到真正全面爆發的趨勢。無論是在創業還是投資層面,大模型行業泡沫都已顯現。這背後,限制GPT進行平台型商業化的根源究竟是什麽?

在今年上半年推出的《再訪矽谷:生成式AI隨處可見,VC開始關注國家安全類項目丨華映資本全球化觀察》中,我們介紹了在生成式AI的浪潮之中,矽谷在Agent、具身、算力、無人駕駛等領域的發展情況,也提到華映關注“有底座大模型算法能力的垂直整合應用層公司”,當時華映資本已預見了“應用方數據難整合”將是“GPT平台型商業化”的底層制約。

以下我們將結合近期在矽谷深入走訪當地多位大模型從業者後總結的大量心得,繼續對大模型創業、投資的困局以及潛在破局方案進行更詳細拆解。

文章篇幅較長,請參考以下目錄:

    一、AI投資邏輯困局 應用場景派 底層技術派 二、技術和商業化路線困局 人工智能産業化的本質 數據困局 算力困局 三、潛在破局方案 借鑒互聯網時代的思考 短期投資策略 長期可能演變 四、總結

*筆者爲華映資本海外合夥人、北大計算機學士及美國南加大多智能體(Agent)方向博士,Robocup冠軍隊成員、騰訊雲計算早期T4專家級架構師。

本文既非學術論文、也非商業行研報告,而是以一個AI學界出身、親歷矽谷多周期的投資人視角分析現況和預測趨勢。觀點可能存在很多反共識之處,未必正確,但希望這些視角能對您有所啓發。同時,矽星人駐矽谷資深記者Jessica對本文內容亦有貢獻。

一、AI投資邏輯困局

目前AI領域投資人以及創業者 (尤其在國內)主要分成下面兩個"流派":

應用場景派

持這個觀點的投資人,其投資標的是依靠對底座模型的調用實現垂直行業大模型商業化的公司,創始人通常是場景側或産品背景,對于底座模型的深入理解並非必要。在做該種投資選擇時,需要應對以下問題的挑戰:

1. 預測LLM能推動應用場景爆發的底層driver究竟是什麽;

2. 這個driver是否能持續、未來發展走向是什麽;

3. 應用的全面爆發需要經曆哪些milestones。

如果投資人對以上問題沒有完全自洽的解答,盲目樂觀押注應用場景的爆發,將催生投資和創業的泡沫。

底層技術派

持這個觀點的VC或創業者更聚焦底座大模型,即底層平台,認爲未來一切都由AI平台驅動,所以不太糾結上層應用。這些大模型平台公司目前普遍遇到下面幾個瓶頸:

1. 上層殺手級應用遲遲未出現,很多時候需要底座公司親自下場去場景側做定制化交付和實施;應用少也造成數據閉環無法形成;

2. 上層應用門檻薄,上下兩層之間的邊界不清晰,底座的版本更新會“不小心”碾壓上層應用,如GPT-3.5更新至GPT-4後對Jasper的碾壓;

3. 訓練數據開始"枯竭", Scaling law面臨停滯;

4. 大模型平台公司對算力越來越依賴,成爲"金錢的遊戲"。

前兩條其實也恰是應用場景派遇到的根本問題,當下在上層應用遲未爆發、甚至業界無法預測爆發時間點及爆發所需經曆milestones的背景下,上述兩類投資方法論暫時未能奏效。

事實上這兩種"流派"的區分,恰恰是受互聯網時代的公司可以清晰切分爲"互聯網應用"和"互聯網平台"上下兩層的思維慣性所影響,但大模型在當前並沒有到達互聯網時代這個"分層解耦"的階段,所以這兩個流派的劃分本身就值得商榷。

二、技術和商業化路線困局 人工智能産業化的本質

要破解上文提到的諸多疑問,我們必須先從理解大模型乃至整個人工智能浪潮的本質開始。廣義的人工智能在1956年的達特茅斯會議即宣告誕生,但AI真正的産業化直到2012年左右AlexNet的出現才實現。AI産業化主要經曆了下面兩個階段:

1. AI 1.0 深度學習 (2012年AlexNet引發):深度學習算法將海量數據進行訓練後輸出模型,來替代計算機科學幾十年來積累的算法和規則,從而第一次實現産業化。深度學習的大規模應用是“産業化AI”的本質,也是“數據定義生産力”的開始。

2. AI 2.0 大語言模型 (2022年GPT3.5引發):深度學習網絡結合多頭自注意力(Transformer),並運用decoder only和自回歸機制,更大數據集帶來更大參數量模型的通用能力湧現,實現了Scaling Law。

這兩個AI産業化階段的最根本點是:第一次制造了對于數據和算力的充分應用和依賴。針對這一點,我們快速對比一下互聯網和AI這兩次大的浪潮 :



以上這些是LLM之所以能推動應用場景爆發的底層driver,但同時也制造了極大的門檻和困局。

數據困局

我們先聚焦在數據這個維度,一個可以達成的共識是:自稱“AI驅動”的企業都必須擁有足夠的私有數據,才有足夠的護城河。只依靠調用底座模型而不掌握也不積累私有數據的“AI公司”,即便直接調用API的短期效果很好,也並不具備長期價值。GPTs和類Jasper公司的快速衰敗已證實了這點。

那些聲稱擁有數據的AI公司,也經常被數據的雙刃劍困擾,即數據作爲優勢的同時也會制造瓶頸。針對這些公司我們須先問下面的問題:

1. 當前掌握的私有數據從何而來,數據量多大,是否有足夠的“私有門檻”;

2. 私有數據清洗、抽取的成本是多大;

3. 清洗後的數據如何訓練進入到垂直模型,從而推動底座模型在垂直領域進一步提高能力,推進Scaling law。

不能完整回答以上問題的“AI公司”,都面臨長期價值主張是否成立的風險。但即便能滿足這些條件的垂直領域公司,又會面對以下挑戰:

1. 用戶的私有數據和底座模型的預訓練數據在最終效果呈現的歸因上無法輕易解耦,應用層和平台層雙方核心價值的邊界不清晰。這個“緊耦合”同時也體現到了出現差錯之後責任的切分上;

2. 用戶的私有數據在推動底座模型在垂直領域繼續出現能力湧現的持續成本過于高昂。最直接的成本來自于數據清洗成本和算力搭建、運營成本。

大模型的應用場景客戶類型

我們先來看LLM的四類典型應用場景的用戶,以及他們如何利用私有數據:

1. C端終端用戶:直接和GPT聊天,或者運用簡單提示詞工程,這裏可以看作也在通過提示詞使用自身一些簡單的用戶私有數據。

2. B端終端客戶:直接調用LLM的API接口來運用提示詞工程;或將私有數據向量化後存入向量DB,再做RAG;或通過微調生成一些特定下遊任務模型。 很多這類客戶反饋有不錯的效果。

3. B端服務實施公司:幫助上述B端客戶當中不具備這些能力的公司來交付和部署這些流程,尤其是RAG和微調。

4. 純商業化産品公司:利用自身前期積累的垂直領域私有數據、在底座模型上生成垂直模型後,以標准化産品的形式服務自己的C端或者B端客戶,獲得商業化回報。

前面三類LLM的應用場景事實上都實現了不錯的效果和商業化,也是OpenAI及類似底座模型企業商業化的主體。但這些並不能支撐LLM需要完成的平台性的商業化生態。

只有當第4類公司大規模出現之後,LLM的平台性質的商業化才能真正爆發。嚴格來說,第4類公司裏面有一部分是現有的成熟階段公司, 如Adobe、Salesforce、Netflix等,他們借助LLM的能力提升了原來的産品,從而更好的服務了自己的客戶。

對比互聯網時代,它們更類似之前的線下零售公司如蘇甯、借助互聯網建立了蘇甯網購。但我們更傾向把他們歸到第2類公司。

我們真正期待的是 :與當年互聯網時代的Amazon和淘寶這類新型純互聯網零售企業對應的AI時代的“原生應用”企業開始湧現。這樣才能推動AI應用的大潮。

可惜的是,目前從這類AI原生應用公司的終端客戶的使用度上判斷,並沒有看到規模化的迹象,因而業界不斷有“大模型是否到了瓶頸或者泡沫化”的討論。

垂直行業企業私有數據暫未被充分利用

聚焦上面列舉的所有B端公司,尤其是衆多垂直行業的企業,如金融、醫療、法律、教育、媒體、旅遊,制造業等。無疑這些垂直領域的衆多企業已經擁有大量曆史積累的私有數據,即企業自有數據或專業的行業數據。而這些私有數據是否有效獲得充分利用,將極爲關鍵。

鑒于上文闡述的AI産業化的實質,數據運用已經成爲大模型時代scaling law延續的基石,這點與AI之前的時代形成了鮮明分界。因此我們對于私有數據是否得到充分利用的定義是數據能否幫助推動scaling law,即能否持續促進最終大模型的能力湧現。這裏依次探討一下當前幾種私有數據主流運用方法的實質和現況:

    提示詞工程、上下文學習

這些數據運用方法在C端以及小B應用裏面占很大比例,實質上都可以歸結爲簡單或高級的API調用。推動底座參數能力scaling law的力度有限。

    RAG (檢索增強生成)

是目前利用大部分企業私有數據事實上的最普遍實踐。其實質是檢索加上極其複雜的上下文學習。有時會結合Langchain等編排以及Agent智能體的方法,如微軟的GraphRAG等。

RAG要真正運用好的技術門檻其實比大部分純應用公司能承受的水平要高,很多會涉及底座模型的細節,所以現在經常依靠第三方服務公司去完成。

同時業界關于RAG是否能最終推動scaling law也有很多爭論,筆者傾向于借用很多之前文獻裏關于“學生參加開卷考試”的比喻 :一位本科學生參加法學考試, 但他從未學習過法學院的課本,考試時在他面前放了一堆可隨時查閱的法律書籍,同時教會他一套極其複雜的查閱(檢索)的方法,學生不需要都記住這些書裏信息,只需遇到法律問題時隨時查閱就能給出不錯的答案。但這整個過程是否真正讓他擁有了法學院學生的能力並持續提升、即推進了scaling law,值得探討。

    微調

企業客戶基于底座模型做微調的效果在業界並沒有共識,很多從業者反饋效果不錯,也有不少反饋風險大且效果未必好,目前觀察到的事實是微調在企業場景應用實踐少于RAG,並且技術門檻相比RAG更高,尤其在RM (獎勵模型) 和 PPO (近端策略優化) 方面,甚至幾乎需要有很強底座模型經驗的團隊參與。

回顧歷史, Google早期的BERT架構就定義了“通用任務預訓練+下遊任務微調”的流程,效果很好;進入GPT時代後,該架構得到延續,但因底座模型加大,微調成本升高,破壞底座能力(遺忘)的風險增加,所以OpenAI主要用它結合垂直領域的人類監督數據來做對齊微調:SFT, RLHF (包括RM、PPO)等,來消除有害、誤導或偏見性表述,對齊本領域的價值觀和偏好。

延用上文關于學生的比喻,這類對齊式的微調有點類似于想讓本科畢業生盡快進入律所工作,但並非用法學院深造來增加他們的法律專業知識,而只是通過密集的上崗培訓來讓他們具備法務的話術和基本素質。

至于其他更多各類的微調方法,實際運用案例似乎並不多,技術實現也常陷入矛盾:一方面想改動一些底座的網絡參數,一方面又不敢動太多參數而損失底座的通用能力,這個尺度如果不是底座模型團隊自己,其他人可能都很難掌握。

全量參數“微調”已經接近下文提及的重新訓練,風險和成本都增加;而無論是凍結還是低秩適應(LoRA)的方法,目前也都無法完全避免風險。事實上即便只做對齊微調,能做到最安全且最優效果的可能也還是對底座模型實現非常熟悉的團隊。

    Agent

大範疇上可歸類于後訓練的高級手段,其中包含Langchain等編排同時結合反思、規劃、記憶、工具使用、協同等産生LLM多次調用的方法,以及包括進階RAG裏面運用的諸多手段。

Agent無疑是未來趨勢,但運用尚在早期,有待進一步深化探索。目前無論理論還是實踐上,都還暫難證明是否分解多步驟後對LLM的系統性反複調用 (multi shot) 就能讓底座LLM延續scaling law,尤其是如何讓私有數據更好地貢獻于這個延續,尚不清晰。

    重新預訓練、繼續訓練

企業直接用自己的私有數據結合底座模型來重新訓練自己的垂直模型,這在目前看顯然最不實際,因此在普通企業用戶裏面運用的案例無疑最少,除了算力和成本因素外,還有以下原因:

重新訓練的私有數據和通用數據集的量與質量的配比很難掌握,這是底座大模型廠商的最核心秘密和護城河。配比不正確,訓練後模型的通用能力會大幅下降 (災難性遺忘)。

對于繼續訓練,也需要去猜測底座模型用的通用數據集以及他們預訓練到達的checkpoint等。Bloomberg運用自身大規模私有金融數據重新預訓練出來了垂直金融大模型Bloomberg GPT,但效果不佳,使用度很低,大概率是這個原因;

沒有企業客戶願意直接把自己的私有數據直接拱手獻給底座大模型公司去合作預訓練。甚至很多本身擁有底座模型的巨頭的內部應用産品部門也不願意內部貢獻這些數據。

盡管業界有觀點認爲企業用私有數據重新訓練相對RAG和微調優勢並不大,但應該無人完全否定這個優勢。尤其當企業和底座模型側能充分合作、即數據、訓練算法乃至團隊充分互通的時候,優勢還是具備的。然而如何能規模性地達成這種理想化合作而消除上述的割裂,正是GPT類底座公司真正商業化的難題:

垂直行業企業:擁有大量垂類數據,但對底座模型的訓練算法、數據集乃至預訓練到達的checkpoint都不了解;底座模型公司:難以觸達和獲取所有企業客戶的垂類數據。

因此擁有數據的場景方和擁有訓練算法的底座方在實踐中産生了割裂,大模型技術棧的上下兩層不僅沒有相互促進而産生飛輪效應,反而互爲制約。

企業私有數據無法完全參與底座大模型的繼續訓練,是造成“數據不足”困境的重要原因。一方面抱怨預訓練數據“枯竭”,一方面又不能充分利用垂直行業的私有數據,是當下類GPT架構的一大遺憾。

盡管業界也有大量對合成數據或仿真數據的探索,但其成本控制和輸出質量都仍處于早期。過度注重成本高且質量參差的合成數據而放棄已有的大規模垂直行業數據的做法也值得深思。

綜上所述,GPT定義的主流“底座預訓練 + 私有數據RAG或微調”的架構暫時無法推動更大湧現。垂直應用場景企業的私有數據尚未能充分貢獻于scaling law進程,這是大模型目前未觸發大規模落地應用的核心根源之一。

算力困局

爲打破英偉達顯卡帶來的高額算力成本投入的僵局,很多下遊行業玩家推出“垂直行業小模型”或者“端側小模型”,但可惜在技術路線上很難真正有捷徑可走。

這些小模型,除了通過RAG或者微調生成的模型、也包括大模型蒸餾後的小模型,即用大模型生産數據去訓練出的模型, 以及對大模型裁剪、壓縮、剪枝後的模型。他們都有一個共同點:起點和核心價值仍在大模型上。

除了上述這些之外,産業實踐中也還存在以下類型的小模型:

基于非GPT、或非Transformer架構的模型網絡,如BERT、CNN、RNN、Diffusion以及RL等;

其他更傳統的非深度學習、甚至基于規則的“模型”。

這些小模型可看作是針對大量細節長尾下遊場景的特殊處理,更多仍需要對位于中心的大模型去輔助展開,超額價值目前有限,其真正價值仍聚集于大模型。這裏借用張宏江博士在騰訊深網的訪談裏對于“小模型”的論述:

應該先“把大模型的性能做好,才能真正出現湧現”,再“通過蒸餾的方法和持續學習的方法把它做小,而不是一開始就做個小模型”。

三、潛在破局方案 借鑒互聯網時代的思考

爲進一步思考上文提及的技術棧無法解耦和分工的根本現象,我們再回顧一下互聯網的歷史。我們比較習慣提的互聯網,事實上是從1994年浏覽器的出現開始的“Web互聯網”,而廣義的互聯網早在1970到80年代就已經出現,最早的形態是FTP、Rlogin、Telnet以及Email電郵等“垂直整合應用”的産品形態。

直到Web和浏覽器作爲平台 (下圖中的綠色框) 出現之後,大量類似Yahoo等基于網頁形式的純應用才真正與底層解耦,從而相繼在各個垂直行業爆發,如零售行業的Amazon、旅遊行業的Expedia、媒體行業的Netflix等等。



到了大模型時代,我們最先看到的也是ChatGPT、Claude、Character。AI、Sora等“垂直整合應用”的産品形態,但由于前文提到的私有數據運用的困局,底層平台和上層應用充分解耦的階段其實尚未降臨。LLM大模型時代的平台(下圖中的淺綠色框)尚未出現。



我們這裏所說的平台更准確地應稱爲“操作系統(OS)”。OS的核心功能就是隔離上層應用和下層技術細節,讓應用公司可以聚焦産品和運營、從而規模化實現落地和商業化。

OS的具體例子就是互聯網時代的浏覽器、PC時代的Windows、以及移動時代的IOS和安卓。

OS與思科這樣的基礎設施(Infra)的核心區別是:Infra的實質是工具,它無法將應用層與底層有效切分出來;Infra的調用者往往還是需要對下層技術有深刻的理解,才能將工具運用的好;所以Infra自身無法催生大規模應用生態。

OpenAI與它的同行們誤認爲自己創造了類似蘋果這樣的的平台即OS,但事實上只是創造了類似思科的Infra。相比互聯網和移動互聯網的進程,可以說大模型還處在“前浏覽器或前IOS時代”。

我們認爲大模型時代和互聯網時代類似,也會經曆以下三個發展階段(盡管每個階段的曆時可能與互聯網不盡相同) :

階段一:B/C端用戶直接使用大模型;

階段二:出現各種垂直整合的大模型商業化應用;

階段三:上層商業化應用和底層平台充分解耦,落地應用爆發,底座模型規模性變現。

當前我們處在的是“階段一”已經完成、“階段二”剛剛開始的過渡時期。

短期投資策略 “垂直整合應用派”

綜合以上結論:大模型當下的技術生態架構尚未到達互聯網成熟時期的清晰分層階段,互聯網當年的“應用場景驅動”的投資邏輯暫時難以套用。在此背景下,我們將建議“第三種流派”的投資邏輯,即聚焦既非純應用場景、也非純底座模型的公司,而是“垂直整合應用”公司。這類第三種公司的完整定義是:

具備底座大模型算法能力、但放棄做通用底層平台的端到端的垂直整合應用。

所有這三種類型的公司有可能會分別出現如下的發展:

    應用場景公司

這類應用公司在大模型時代的創業壁壘會遠高于互聯網時代,可能很難保持在純應用的形態:

1. 須將擁有私有數據作爲先決條件,並有能力後期持續積累數據。互聯網時代應用公司強調的“飛輪”效應,在大模型時代必須包含私有數據的參與,這成爲飛輪形成前“冷啓動”的最大門檻;

2. 須技術棧下沈,不斷拓展底座模型算法能力,持續將私有數據訓練進應用側模型,在垂直領域推動scaling law。

正因爲此,對于“應用場景驅動”的投資機構而言,判斷應用公司投資價值的門檻也大大提高,即不僅要判斷創始人的垂直領域經驗和産品能力,還要深入考察他們獲取、清洗數據的能力,以及將這些數據訓練到垂直行業模型的底座技術的水平。

    底座模型公司

對于類OpenAI的底座模型公司、包括開源和閉源的公司,如Anthropic、Llama、Mistral、智譜、Kimi等,我們預測它們還會繼續叠代模型從而延續scallinglaw,比如OpenAI最新的o1模型等。但這些叠代仍只會延續超級App的産品形態而無法短期成爲底層平台。

對于這類公司,盡管短期探索平台型商業化面臨難度,但若放棄作爲通用平台的訴求,鎖定一個垂直領域專心搜集垂類數據、從而訓練出真正的垂直整合大模型的空間會更大。

這對于OpenAI也許無法支撐目前估值,但對于其他估值略低的底座大模型玩家應該是可行出路。我們看到已經有不少這類公司在做類似的聚焦轉型,但如果不能真正放棄想成爲底層平台去賦能應用的述求,仍將陷入上述的數據困局。

    垂直整合應用公司

這個第三種路徑對于完全初創的企業顯然是非常高成本高風險的,很難一蹴而就,因而可以考慮采用下面的三個循序漸進的步驟:

步驟一:利用私有數據基于底座模型API加RAG搭建初始原型(同時全力融資和囤GPU);

步驟二:基于底座模型結合微調和Agent等方法提高模型能力(同時全力融資和囤GPU);

步驟三:利用更多私有數據開始做繼續訓練或者重新預訓練(繼續全力融資和囤GPU)。

在矽谷,“垂直整合應用”公司占到了VC投資的很大比例,如Cohere(企業大模型)、Harvey(AI法律大模型)、Perplexity(AI搜索)、EurekaLabs(AI教育)、Augment(AI編程)、HolisticAI(AI企業管治SaaS),等都近期獲得不錯融資。

這些公司的創始人都是來自如Transformer作者、OpenAI、Deepmind、Meta等頭部底座模型背景、並深耕各自不同垂直場景。

紅杉在2023年9月題爲“Generative AI's Act Two”的博客裏面也提到“Vertical separation hasn't happened yet”的說法,時間過去一年,我們認爲這個“separation”依然沒有發生,並因爲上面提到的數據強耦合等原因,紅杉博客原文說的“vertically integrated”還會是個常態。

在中國國內,這個類型的公司還比較少,核心原因在于具備底層模型能力的團隊極其稀缺,但具備這些能力的團隊又都執著于做底層平台的述求。

隨著幾家頭部模型公司(包括互聯網大廠的底座模型團隊)相繼遇到上述瓶頸,它們中的一些核心技術人員會開始獨立創辦“垂直整合應用”公司;同時有幾家頭部底座模型公司自己也在轉型到垂直整合場景,比如百川的醫療大模型、及零一的BeaGo等。

總結上文提到的大模型商業化的三個時期及當前可能的三個發展步驟如下圖,上述所有這些中美的“垂直整合應用”公司也都各自處于三個步驟的不同時間點。



多模態和具身智能

在投資上述“垂直整合應用”之外,多模態和具身智能(多模態的一種形式)也是值得關注的投資方向。

盡管它們更多是感知而非基礎能力的提升,自身要超越純語言大模型(LLM)而更快實現scaling law可能較難,但在純語言大模型的生態建立遇到瓶頸之時,或許可以探索平行于語言模型的算法架構及數據棧型式來搭建第三方生態。篇幅關系,這裏不做展開。

完整技術棧、Infra、芯片

今天的深度學習和LLM的高速演進,仍然只是整個計算機科學技術棧的一個板塊,而完整技術棧的所有模塊都在被LLM牽動著産生顛覆式的叠代。所以大量的機會將來自看似不是AI自身的技術棧的其他角落,包括:

· Infra:包括底座模型自身,以及其他各層的Ops、各類toolchain,等等。華映資本兩家被投公司星塵和天雲數據,就是Data Infra的典型代表,目前與矽谷很多DataOps公司一樣也都在積極做更適合AI 2.0的新興數據棧的前沿探索。

· 芯片:是解決算力困局的終極手段。當前主流GPT架構之下日益攀高的算力成本壓力和單一供應商依賴造成的焦慮,將幫助新型GPU公司突破英偉達的CUDA設定的禁區,從而在某些領域顛覆英偉達的壟斷。

但上述兩種機會都伴隨一個巨大的前提:不論是Infra還是AI芯片創業的創業者,都需要對底座大語言模型自身有相當深入的理解和經驗。這點與之前對于應用層創業的要求事實上是一致的。

長期可能演變

OpenAI要突破當前的“泡沫”焦慮,需要重點攻關的不僅是如何不斷提高自己底座語言模型的能力,更是如何通過改進後的技術架構和商業生態,讓其他擁有數據的第三方應用場景方盡可能參與到scaling law的進程中來。

大模型技術棧發展依舊在一日千裏,上文提及的很多擔憂和“泡沫”有可能因爲某些突破而得到一定化解。以下簡單列出筆者有限思考後的可能性以及各自的挑戰 :

新的後訓練(Post-training)方法出現與持續優化

RL(強化學習):OpenAI剛發布不久的o1的Self-Play RL在繼續推進scalinglaw,但它自己也提到了關于RL作爲推理階段的scaling law和與預訓練階段的scaling law具有不同特性,甚至是否能將之稱爲RL的scaling law也有爭議。

但總之OpenAI的o1單方面推動底座推理能力的嘗試只是剛起步,暫時無法讓擁有大量私有數據的場景端客戶參與進來、並長期受益。後訓練潛在是可以offload給下遊客戶結合自己的私有數據來進行的,但目前o1也還未能讓第三方複現。

但即便能以某種形式開放出來、交給下遊客戶去持續進行RL算法更新,這樣做之後,只會讓客戶參與門檻相比之前用RAG和微調等主流的後訓練方法還要更高。

RAG:如端到端的RAG、基于RAG的預訓練模型等都是非常有益的嘗試。但這類方法論也更驗證了筆者前文闡述的“即便做RAG也要從理解底座預訓練模型開始”的觀點。

Agent:如上文所述,智能體的探索具備巨大空間和機會,但如何最大化融入用戶側的私有數據仍然是課題之一。

預訓練及推理成本和門檻大大降低

一方面算力層面即GPU芯片的突破,一方面是訓練和推理的優化加速及工程化的進步。除此之外還有第三種可能,盡管前文重點提及的都是“AI三要素”當中的數據和算力的困局,但其實訓練算法的突破和優化仍可能是最終降低成本的最大推力,包括對自回歸機制甚至Transformer即注意力機制本身的優化甚至重寫等等。

徹底改變預訓練+後訓練的模式

前兩種方法都在試圖拓展OpenAI既定路線的上升空間,但想徹底改變這個路線的難度顯然要大很多。但當初投OpenAI的VC也未必料想到GPT路線可以從彼時占主流統治地位的BERT路線分叉出來、而用decoder only等機制打開了scaling law的全新空間。

在未來幾年之內,某個從GPT路線的再次根本性架構分叉,將會重複當年OpenAI的成功,但這次顛覆對象是OpenAI自己,由此帶來的將是scaling law的又一次無比巨大的邁進。

四、總結 :  本文內容較多,我們最後歸納爲以下核心兩點:

1. 目前大模型的應用層和底座層尚未解耦,所以投資策略不建議只看純應用或者純底座模型,而可以暫時圍繞上下層垂直整合的應用展開,同時需密切觀察、等待真正的平台/操作系統的出現;

2. 應用和底座模型層未解耦的根本原因之一是在于數據在技術棧內的強耦合,包括預訓練與後訓練數據集、即底座模型數據與下遊垂直數據的耦合,這個現況也是由人工智能即深度學習算法對數據依賴的本質所派生的。這些強耦合目前制約了scaling law的發展和大模型的規模化商業落地。---[文 :  華映資本合夥人 邱諄/來源 :  钛媒體]