大模型應用之困與異軍突起的 “埃森哲們”
上周Anthropic發布了Claude 3.5 Sonnet的升級,讓AI助手能夠通過 "電腦使用" 功能直接與計算機交互。
這意味著Claude可以實現自動搜索文件、截取屏幕畫面、在應用程序間切換並執行基本任務。
這些看上去很基礎的操作也許代表著生成式AI的重要轉折 :從單純的對話助手,向真正的"自主代理"邁進——這正是包括OpenAI、谷歌在內的各大公司都在努力的方向。
Claude.ai 圖源:官網
就在AI能力不斷突破的同時,真實的商業世界卻呈現出一個有趣的反差:在這輪生成式AI浪潮中最賺錢的公司,竟然是以埃森哲爲代表的傳統咨詢公司。
據埃森哲2024財年財報顯示,其生成式AI相關業務的新增訂單已達30億美元。在國內市場,字節、阿里和智譜等基座大模型供應商也在扮演著類似的角色。
在這期《矽谷101》中,我們邀請到了大模型領域的投資人和創業者 :華映資本海外合夥人邱諄(Jonathan Qiu)和AgentQL聯合創始人翟琦(Keith Zhai),請他們從投資人和創業者的雙重視角,探討大模型應用落地的挑戰,以及嘗試從“人工智能”的定義出發,聊聊投資人眼裏應用類公司的核心競爭力。
在本期對話中,兩位嘉賓深入剖析了當前AI應用遭遇的困境:當前的AI應用正處于"兩個月大的嬰兒"階段,整個生態系統尚未成型。
最關鍵的是,與互聯網時代相比,AI時代缺少了類似浏覽器這樣的操作系統層,導致應用與底座模型之間的邊界模糊。這直接影響了純應用公司的生存空間——它們既要考慮産品體驗,又要思考如何獲取和利用數據來構建自己的護城河。
在這種情況下,兩位嘉賓認爲機會可能存在于三個方向:首先是多模態,因爲這些領域需要自主研發底座模型,更容易形成技術壁壘;其次是在特定垂直領域深耕,用專業領域數據打造差異化優勢;最後則是基礎設施層面,幫助企業落地AI應用——這也解釋了爲什麽咨詢公司能在這波浪潮中占得先機。
* 以下是部分訪談精選
01, "相當于兩個月的嬰兒":AI創業還處于不確定的風口
《矽谷101》:我們播客從2022年就在報道生成式AI,那時還是擴散模型的文生圖時代,ChatGPT還沒發布。請問大家在投資創業過程中,跟隨這波AI浪潮的心態變化?
Keith:我們從去年下半年開始。這個行業太早期了,大多數公司是在ChatGPT3.0前後才開始關注。現在大家認爲上一代AI和現在的AI是完全不同的兩種東西。
它就像一個兩個月大的小娃娃,每天都在成長。比如剛開始時,大家談論的agent其實完全不同。你說的可能是聊天機器人,我說的可能是動作模型,或者是工作流程自動化。這就像村上春樹說的"當我在跑步的時候你在想什麽,沒人知道你在說什麽"。
《矽谷101》:Keith,聽衆可能記得你之前華爾街日報記者時講東南亞詐騙的那期節目。現在你是以AI創業者身份參與,想知道你選擇AI創業時怎麽想的?當時市場是什麽樣?對比今天,在心態、融資、行業認知上最大的變化是什麽?
Keith:我之前做了20年記者。選擇轉行有很多原因,其中一個是我問了一個朋友,他是國內某大型上市公司的創始人。
在酒吧裏他告訴我:“這是範式革命(paradigm shift),像電器一樣不是某個行業的改變,是整個社會的改變。當你認爲這是範式革命時,不需要想做什麽,需要的是進去開始做。”我用過很多上一代AI語言模型産品,它們都遠不如人類寫作。但第一次用GPT-3時,我內心非常震撼。
《矽谷101》:現在感受如何?
Keith:就像一直在水裏撲騰。我們去年到今年上半年一直在stealth隱身模式。剛完成A輪,但從沒感覺上過岸。這個行業變化太快了,跟過去不是一個量級,它對效率是根本性調整。過去做完A輪可能覺得要上岸了,但現在融資上幾個億的公司最後也都不行。所以上岸很難用融資階段來界定。
《矽谷101》:作爲一位投資人和AI領域的專家,Jonathan你覺得從ChatGPT出現到現在,生成式AI的投資浪潮有什麽重大變化?
Jonathan:從核心上看並沒有根本轉變,因爲投資的目的始終是商業化。不過我現在在思考一個問題,純應用可能存在風險,需要一定的技術整合能力。以ChatGPT爲例,它是一個垂直整合的應用,既有應用層也有很強的底層能力。
說到agent,我之前在南加大讀博士時就研究agent,當時叫"多智能體協作"。那時人工智能有多個分支:機器學習、神經網絡、agent、自然語言處理和計算機視覺。
我沒有選擇機器學習和神經網絡,但後來這兩個方向結合形成了深度學習,成爲了整個領域的驅動力。現在的agent與當年最大的區別在于,現在都是圍繞深度學習展開的。
多智能體協作示意圖--- 圖源:吳恩達
從第一波機器視覺,包括無人駕駛、人臉識別,到今天的大模型,都是圍繞深度學習展開。在深度學習的範疇內,我們對應用的要求比以前要高。以前分爲看應用和看模型兩派,但實際上這兩派是一致的,我們都會關注這兩個方面。
目前我們發現應用沒有大爆發,這導致底座模型也面臨挑戰。作爲平台,它必須讓上層生態在各個垂直場景大規模落地才能體現價值。但現在GPT最常用的反而是它自己的應用。
02, 創業公司商業化掣肘 :有沒有私有化的數據?
《矽谷101》:你提到應用還沒有大爆發。比如我自己用ChatGPT寫采訪提綱和節目筆記時,它的表現還不夠理想。這是AI能力的問題嗎?
Jonathan:是的,這直接關系到AI的底層能力。我認爲有以下幾點:
首先是底層能力,就像互聯網時代的思科提供網絡連接能力一樣。現在的大語言模型雖然已經很不錯了,但基礎設施還不夠完善。
其次是操作系統(OS)。互聯網時代有浏覽器作爲OS,正是Netscape浏覽器的出現,才讓思科的基礎設施價值充分體現,各種網頁應用才開始爆發。移動互聯網則有iOS和Android。
但AI時代的OS是什麽?OpenAI嘗試用GPTs做OS,問題是應用層和底層模型的界限並不清晰。拿Jasper這樣的應用來說,很多功能GPT本身就能實現。而且應用層的數據和底座模型的數據往往非常相似。
這種界限不清晰還體現在:當用戶問了一個問題得到答案時,很難判斷這個答案是由底座提供的還是由應用提供的。這和互聯網應用不同,比如Uber上哪些功能是iOS提供的,哪些是Uber自己提供的是很清晰的。
《矽谷101》:關于界限不清晰這點,我有不同看法。以Google的Notebook LM爲例,表面上它看起來像GPT,但實際上它的功能很獨特。它能處理長文本並生成精確的總結,甚至能把播客內容轉換成研究報告。它抓取關鍵點和細節的能力非常強,比很多記者的水平都高。這可能是基于Gemini的底層模型能力,特別是在長文本處理方面。
Jonathan:這正是我想說的特點,你很難區分一個功能到底是應用層的貢獻還是底層模型的能力。
AI應用與互聯網應用不同,它需要兩條線 :一是産品設計,二是數據能力。産品設計讓用戶體驗流暢,這是互聯網産品經理的強項;數據能力則通過微調和RAG來增強底層模型。
以Notebook LM爲例,雖然它現在表現出色,但如果是第三方公司用Gemini開發類似應用,核心競爭力就不會那麽強,因爲長期來看還是要看底層模型的能力。這就是AI原生時代與互聯網時代的本質區別,數據的重要性變得前所未有的高。
NotebookLM, 圖源:谷歌
單純應用積累數據後,要考慮怎麽跟底座結合,是用微調還是RAG,甚至需要預訓練。要跟底座深度整合,或者自研一些底座支撐。像Perplexity這樣的公司就是開始比較輕的。
《矽谷101》:你說所有的應用公司最終都要發展底層模型,這是必然趨勢嗎?
Jonathan:在當前技術架構下,創業公司似乎別無選擇。因爲你需要不斷積累數據來維護護城河,而數據越來越多後,你要考慮如何跟底座模型結合,是繼續用微調,還是用RAG,還是有些數據更適合預訓練。
不管是微調還是RAG,都需要底座模型的支持,尤其是當你想做得更好時。如果你想走得長遠,建立高門檻的護城河,就必須與底座模型做更深度的結合,或者開始自研訓練。
Keith:我非常同意數據這一點。數據質量非常重要,結構化數據和非結構化數據會帶來不同的産品效果。
《矽谷101》:Jonathan你對人工智能有自己的定義,能和大家分享一下嗎?特別是爲什麽數據如此重要?
Jonathan:人工智能的歷史從1950年代達特茅斯會議就開始了,包括agent(智能體)、自然語言處理、機器學習、神經網絡等多個分支。但我定義的産業化人工智能是從2012年開始的,核心就是深度學習。
2012年之前,所有計算機科學包括傳統人工智能都依賴人寫算法,有句話叫“人工智能有多智能主要看有多少人”。就像我從小開始就寫代碼,所有事情都要靠程序員一行行敲代碼。
但2012年AlexNet出現後,把機器學習和神經網絡結合成了深度學習,不再依賴手寫代碼,而是通過大量數據訓練。
這形成了"AI三要素" :算法(AlexNet)、數據(李飛飛的ImageNet)和算力(吳恩達和GPU)。這三個要素結合産生了革命性突破,出現了一個“黑盒”模型,效果反而比人工編寫的“白盒”模型更好,只是可解釋性差一些。
到了2020年GPT-3出現後,第一次把人類積累的電子書、維基百科、Reddit、知乎等所有內容作爲訓練數據,效果超越了傳統自然語言處理的所有成果。
現在語言模型完全是數據定義的,這就是爲什麽在AI時代,你創業第一天就必須考慮數據。
但關鍵是,“有用的數據”這個定義是動態的。比如Transformer出現前,很多數據都用不上,但現在它能處理這些語言數據,産生出超越傳統自然語言處理的模型。
《矽谷101》:Keith你覺得什麽樣的數據是有用的?
Keith:要從人工智能的本質來看,它是要模擬人類行爲。人在網上做的就是讀和寫兩件事 :讀是獲取信息,比如聽我們的播客,看視頻;寫是基于信息采取行動,比如交易股票或者點擊按鈕。
但對機器來說,獲取數據很困難,因爲互聯網本來是爲人設計的。每個網站都有自己的護城河,需要API或者寫爬蟲腳本才能獲取數據,這是最髒最累的活,沒人願意幹,而且永遠做不完。這導致很多做垂直領域的應用公司,它們的數據都差不多,沒有特別之處。
《矽谷101》:但這些創業公司怎麽能跟OpenAI這樣動辄獲得百億美元融資的公司競爭呢?
Jonathan:可以采取漸進式的方法,像爬樓梯一樣一步步來。因爲按照Scaling Law(規模法則),數據越多,模型能力理論上就應該越強。雖然這需要越來越多的算力,但可以分步實現。
更重要的是差異化定位。OpenAI這樣的公司有平台訴求,要服務所有場景,教育、制造業、醫療都要覆蓋。但如果你放棄通用平台的訴求,專注于比如AI搜索這樣的垂直領域,把一件事做到極致,門檻反而成了護城河。
《矽谷101》:Perplexity它的底層是自己的模型還是建立在其他模型上?
Jonathan:剛開始並不是。我的總體定義是說要有底座潛力和底座能力的應用公司。因爲它有DeepMind的背景,所以他們有這個思維。它可以有幾個step,剛開始可能就是套個殼,像GPTs那樣直接用API,做些RAG,然後開始做微調。但我想它到了一定層面一定會自己做,因爲它要不斷積累自己的私有數據。它可以用這些數據再去做微調,同時也應該把這些數據去生成自己的底座。
《矽谷101》:如果Google或Microsoft也來做同樣的事情,那該怎麽比?
Jonathan:回到剛才那兩條線。作爲一個AI原生的應用公司有兩個角色:第一是做好互聯網産品,這方面很多創業公司可能比模型公司或大廠做得更好,因爲視角不同。很多確實從産品切入,開始可能就套個殼,但易用性和交互流暢性非常好,所以用戶一下就來了。
但這不代表你就成功了。就像最早的Jasper,它當時比GPT用得好是因爲産品設計確實更優。但現在你要思考你的護城河在哪裏。
《矽谷101》:GPTs上有比較成功的公司嗎?
Jonathan:應該是沒有。在年初GPTs最火的時候。我直接問過一些開發者問這個問題:你有沒有私有數據?他們愣了很久,然後說“我爲什麽需要私有數據呢?我們沒有數據。”
我又問“那你會不會擔憂你的護城河(defensibility)?”他們說護城河就是産品設計。這在互聯網年代是很通用的思維。爲什麽互聯網應用公司能比大廠厲害,很多時候是在産品層面。他在産品設計上面,尤其是垂直領域,肯定比做底座或者大廠的人更有優勢。但是現在你要詳細考慮護城河的問題了。
《矽谷101》:Perplexity呢?
Jonathan:我覺得它一定會往底座去做。但這個可以有多種方法,你可以用開源底座去做一些繼續訓練。
你要從成本上考慮,一上來就全都重新訓練,成本太高了。但你可以做繼續訓練,這個難度也不低,可能比微調要更難一些。但即便是微調,微調跟繼續訓練有時候界限也開始模糊了。而且還有風險,做不好效果可能並不好。這些成本都要計算進去,但大方向一定是往這走。這就是你的護城河。
你要麽就不要有數據,就像GPTs那些。但很快GPTs也都沒有了。所以看商業化有時候也會有誤區,有些産品可能一段時間用戶看起來不錯,甚至有些收入。但只要沒有護城河,要麽就是被底座覆蓋掉了,要麽就是自己不能持續叠代下去了。
03, 純應用不足以構築護城河,多模態更有機會
《矽谷101》:我在想這種創業公司的應用類的模型叠代,怎麽能卷得過像OpenAI這種動辄百億美元融資的公司。因爲做底層模型需要自己買卡訓練,如果一個模型訓練得越來越大,智能真的湧現了,這些創業公司再去訓練底層模型的意義何在呢?
Jonathan:所以有幾種方法。一種就是我剛才說的一步一步來,有點像baby step。你的卡會越來越多,加上數據越來越多,理論上最後輸出的模型能力應該是越來越高的。
第二個就是聚焦。你可以做到跟OpenAI和國內六小龍的不同,因爲所有做底座模型的人都有做平台的訴求,要賦能所有的上層應用,這樣就把它給攤平了。
現在來了教育的、製造業的、醫療等垂直行業的都得服務。這是它跟你的最大區別,你可以放棄作爲通用平台的訴求,就聚焦在比如AI搜索這樣一個垂直應用。我把這一件事情做好,整個底座模型都是爲了這個,不是爲了去做下一個iOS。這樣你會簡單很多。
《矽谷101》:還是回到了數據,護城河還是你垂直領域的數據的優秀程度、專業程度和精專程度。
Keith:有點像大語言模型是個推土機,我其實就想鑿個釘子。難道要拿推土機去鑿嗎?也可以也能弄進去,但何必呢?其實拿個小錘子嘣一下就進去了,那我就用小錘子不就得了。
《矽谷101》:Keith你有覺得比較好的商業化案例可以分享嗎?
Keith:美國本土還蠻多的。比如現在做coding的幾個很火,當然這也涉及到它會有多大的護城河這個問題,比如說GitHub要去做會怎樣。還有一個特別火的coding應用Devin,大模型時代“見光死”:demo做得好看,但正式發布後發現完全用不了,這樣的産品太多了。
Devin發布會, 圖源:官網
Jonathan:Coding應用這個分界不是那麽清晰,因爲也可以用GPT,現在很多碼農就直接用GPT幫他編程了。所以問題是你怎麽去創造一個分界。産品肯定要做得很好,但你要實現scaling law,要用私有數據去訓練,怎麽去跟底座的這些人競爭,做長期的競爭。
如果他們要問我建議,就是你得擁有自己的底座。如果一直用第三方的底座,你的風險永遠是大的,因爲他們一定也在不斷訓練。
Keith:其實現在做得好的很多可能都是商業化做得比較好,就是在某一個點抓得准。像Harvey這樣做法律方向的大模型應用,也不知道多好用,但能講好故事。從真正大規模應用角度來說,還是很遙遠的。我覺得整個問題的核心還是太早。這是一個新的生産效率工具,但很多人把生産工具當成了生産力,這是一個誤區。
《矽谷101》:作爲音頻工作者,我覺得Google的Notebook LM用來做長文本分析還是蠻好用的。另外有一家創業公司Elevenlabs我很喜歡,它可以把文字轉成很好的配音,或者用AI補錄音頻,效果比真人補錄還要自然。不過它在中文方面表現還不夠好。Elevenlabs在融資市場表現也很優秀,快到獨角獸級別了。還有像Suno這樣做文字生成音樂的,也融了很多錢。
Jonathan:這兩家都屬于跨模態、多模態的産品。我預測它們一定要往底座去延展。
《矽谷101》:它們其實是有底座的。
Jonathan:它們不僅有底座,在聲音處理上還有自己的獨特優勢,有一些paper。所以這些公司要有訓練數據,用自己的或半自研的底座去實現最終的模型功能。從這個角度講,多模態更符合我說的,因爲沒有現成的第三方底座可用,你反而更需要自己去做很多事情。
《矽谷101》:所以現在整個市場上多模態的表現會不會更好一點?
Jonathan:對,這是我的預估。當然這是把雙刃劍,對你的要求更高。很多人會往這條路走,這樣從第一天開始就有護城河。不像純語言模型,你可以一開始沒有護城河,直接調用GPT就能出産品。但在多模態領域你要先做出些東西,所以它是把雙刃劍。
我個人也比較看好多模態,包括跨到硬件模態。如果能夠把硬件數據跟Robotic Transformer(RT)打通,把語言和硬件的傳感器數據、機械執行數據從訓練層就打通,我覺得這是多模態的一種體現,還是有蠻大空間的。
04, 埃森哲生意越興隆,生態越沒有成立
Keith:本質上還是數據的獨特性、准確性和優勢。我問過美國幾家大的VC美國大企業對AI的接受程度如何,其中有一位負責人說吆喝聲很多,大家都想學想知道在討論,但真正能落地的還是很少。
現在大家做的都是AI咨詢,特別是RAG這塊是過去兩個季度最火的。因爲作爲公司的IT負責人,肯定要考慮公司接下來在AI方面要做什麽,要花錢,但可能還不知道該做什麽。最起碼可以先把架子搭起來,做AI方面的咨詢討論。
在美國,像埃森哲這樣最大的科技咨詢公司,光咨詢就賺得最多。第二季度生成式AI帶來了6億美元新增營收,第三季度漲到9億美元(編者注:此處“新增營收”特指“由生成式AI帶來的新增訂單金額”,詳情請參考埃森哲財報)。另一家VC跟我聊天時說,就是耍耍嘴皮子做兩個RAG,就拿到9億美金,就是這樣的現狀。
《矽谷101》:你有用過埃森哲的服務嗎?
Keith:我們用不起,太貴了。
Jonathan:咨詢公司在今天的地位其實符合我之前的理論。回看互聯網時代,很多公司說要做數字化、做網站,也會找外包和咨詢公司。比如我自己作爲客戶,現在要做一個內部的投資GPT能回答投資問題,但因爲有很多私有數據,不知道怎麽搭建,就需要找咨詢公司。事實上我們現在就在做,很多投資公司也在做這個事。
在互聯網時代,咨詢公司收入只占很小部分。即使把埃森哲、麥肯錫這些外包公司加在一起也是。因爲中間有OS,門檻降低了,大部分公司能自己做。以前做個簡單APP可能30萬人民幣左右。但在AI時代,咨詢成本很高,而且很多人都會用。因爲中間有很高門檻,這件事不容易做。
而且形成一個矛盾,就是數據越多反而越頭疼。數據多本來是好事,但數據越多,首先成本抽取就很貴,可能需要用到AgentQL這樣的工具。然後還要訓練、要放到數據庫做RAG,所以幹脆找咨詢公司。
* 埃森哲生意越興隆,反而說明這個生態越沒有成立。都要靠第三方交付公司,這是我們觀察到的現狀。但這本身是個阻礙,必須得邁過去。
《矽谷101》:所以我理解在互聯網時代,用埃森哲這類公司幫做APP的比例小,是因爲基礎設施比較完善,大多數公司可以自己做。
Jonathan:對,完善,然後OS也比較具備。
《矽谷101》:但在AI時代因爲基礎設施不太完善,每個公司要根據自己的數據去定制模型,門檻還比較高。
Jonathan:對,要經過很多步驟,從數據到RAG。RAG看上去簡單但很多公司都做不好,需要對底座模型有理解。
Keith:可以理解爲它解決了三個問題:第一是全新事物出現要做什麽,第二是怎麽做,第三是用什麽工具做。這就像假如全球突然變冷了,我們東北人都可以成爲埃森哲,因爲可以告訴大家冬天要做什麽,准備什麽樣的秋衣秋褲,要准備暖氣片,要冬儲大白菜等等。
《矽谷101》:那從投資角度看,是不是這個階段所有做中間服務、建設基礎設施的ToB公司,做服務的公司,做基礎架構的公司更有價值?
Jonathan:是很有機會的。比如Fireworks、Lepton這樣的公司,做GPU的Lambda,還有做數據的,包括Keith這樣的公司。從投資人角度,我們把這些都放在基礎設施裏面。技術設施很複雜,簡化下就是各種工具。
但他們不改變生態,不會大大降低應用層的門檻。最好是底座大模型把這些事情都做了。這就是所謂交鑰匙工程,OpenAI就是往這個方向走的。他們也都在做Framework、算力優化等。
在今天生態沒完全打開的情況下,這些點狀工具都很有價值,但風險也比較大。因爲整個技術棧都不清晰,大家都在互相重疊競爭。現在還是很早期,就像Keith說的是兩個月的baby。
《矽谷101》:在判斷這些中間層的ToB公司時,你覺得最核心的幾點能力是什麽?
Keith:我感覺剛才Jonathan已經把整個鏈條講得很清楚了。做基建從工程角度是最難的。但解決了最難的問題之後,在語言模型時代往上走一層反而容易。
* 難的是選擇一個底層模型很難走進去的賽道,在這個賽道上把它做到最好。對我們來說語言模型不是目標,但是它是很重要的工具。我們做的事我們認爲是語言模型永遠都解決不了的。
《矽谷101》:這還是需要對垂直行業的深度理解,和基于紮實的工作建立起來的基本功。
Keith:需要對工程的理解要遠遠勝過對語言模型的理解。
Jonathan:對。而且基礎設施的一個很強的可能性是找到一個可以交鑰匙的點,在某個垂直場景裏面成爲一個操作系統。雖然不能一下變成浏覽器或iOS,但可能在某個垂類裏面成爲一個iOS。
但想做一個非常泛的操作系統是有難度的。不過可以探索這條路,這樣跟底座的關系也比較容易切分。因爲底座模型都想成爲通用平台,不會在特別垂直的領域深耕,他們想做AI+所有東西。所以這塊是有機會的。--- (文 : 矽谷101/來源 : 钛媒體)