大模型應用之困與異軍突起的 “埃森哲們”

2024110100:31

上周Anthropic發布了Claude 3.5 Sonnet的升級，讓AI助手能夠通過 "電腦使用" 功能直接與計算機交互。

這意味著Claude可以實現自動搜索文件、截取屏幕畫面、在應用程序間切換並執行基本任務。

這些看上去很基礎的操作也許代表著生成式AI的重要轉折：從單純的對話助手，向真正的"自主代理"邁進——這正是包括OpenAI、谷歌在內的各大公司都在努力的方向。

Claude.ai 圖源：官網

就在AI能力不斷突破的同時，真實的商業世界卻呈現出一個有趣的反差：在這輪生成式AI浪潮中最賺錢的公司，竟然是以埃森哲爲代表的傳統咨詢公司。

據埃森哲2024財年財報顯示，其生成式AI相關業務的新增訂單已達30億美元。在國內市場，字節、阿里和智譜等基座大模型供應商也在扮演著類似的角色。

在這期《矽谷101》中，我們邀請到了大模型領域的投資人和創業者：華映資本海外合夥人邱諄（Jonathan Qiu）和AgentQL聯合創始人翟琦（Keith Zhai），請他們從投資人和創業者的雙重視角，探討大模型應用落地的挑戰，以及嘗試從“人工智能”的定義出發，聊聊投資人眼裏應用類公司的核心競爭力。

在本期對話中，兩位嘉賓深入剖析了當前AI應用遭遇的困境：當前的AI應用正處于"兩個月大的嬰兒"階段，整個生態系統尚未成型。

最關鍵的是，與互聯網時代相比，AI時代缺少了類似浏覽器這樣的操作系統層，導致應用與底座模型之間的邊界模糊。這直接影響了純應用公司的生存空間——它們既要考慮産品體驗，又要思考如何獲取和利用數據來構建自己的護城河。

在這種情況下，兩位嘉賓認爲機會可能存在于三個方向：首先是多模態，因爲這些領域需要自主研發底座模型，更容易形成技術壁壘；其次是在特定垂直領域深耕，用專業領域數據打造差異化優勢；最後則是基礎設施層面，幫助企業落地AI應用——這也解釋了爲什麽咨詢公司能在這波浪潮中占得先機。

* 以下是部分訪談精選

01, "相當于兩個月的嬰兒"：AI創業還處于不確定的風口

《矽谷101》：我們播客從2022年就在報道生成式AI，那時還是擴散模型的文生圖時代，ChatGPT還沒發布。請問大家在投資創業過程中，跟隨這波AI浪潮的心態變化？

Keith：我們從去年下半年開始。這個行業太早期了，大多數公司是在ChatGPT3.0前後才開始關注。現在大家認爲上一代AI和現在的AI是完全不同的兩種東西。

它就像一個兩個月大的小娃娃，每天都在成長。比如剛開始時，大家談論的agent其實完全不同。你說的可能是聊天機器人，我說的可能是動作模型，或者是工作流程自動化。這就像村上春樹說的"當我在跑步的時候你在想什麽，沒人知道你在說什麽"。

《矽谷101》：Keith，聽衆可能記得你之前華爾街日報記者時講東南亞詐騙的那期節目。現在你是以AI創業者身份參與，想知道你選擇AI創業時怎麽想的？當時市場是什麽樣？對比今天，在心態、融資、行業認知上最大的變化是什麽？

Keith：我之前做了20年記者。選擇轉行有很多原因，其中一個是我問了一個朋友，他是國內某大型上市公司的創始人。

在酒吧裏他告訴我：“這是範式革命（paradigm shift），像電器一樣不是某個行業的改變，是整個社會的改變。當你認爲這是範式革命時，不需要想做什麽，需要的是進去開始做。”我用過很多上一代AI語言模型産品，它們都遠不如人類寫作。但第一次用GPT-3時，我內心非常震撼。

《矽谷101》：現在感受如何？

Keith：就像一直在水裏撲騰。我們去年到今年上半年一直在stealth隱身模式。剛完成A輪，但從沒感覺上過岸。這個行業變化太快了，跟過去不是一個量級，它對效率是根本性調整。過去做完A輪可能覺得要上岸了，但現在融資上幾個億的公司最後也都不行。所以上岸很難用融資階段來界定。

《矽谷101》：作爲一位投資人和AI領域的專家，Jonathan你覺得從ChatGPT出現到現在，生成式AI的投資浪潮有什麽重大變化？

Jonathan：從核心上看並沒有根本轉變，因爲投資的目的始終是商業化。不過我現在在思考一個問題，純應用可能存在風險，需要一定的技術整合能力。以ChatGPT爲例，它是一個垂直整合的應用，既有應用層也有很強的底層能力。

說到agent，我之前在南加大讀博士時就研究agent，當時叫"多智能體協作"。那時人工智能有多個分支：機器學習、神經網絡、agent、自然語言處理和計算機視覺。

我沒有選擇機器學習和神經網絡，但後來這兩個方向結合形成了深度學習，成爲了整個領域的驅動力。現在的agent與當年最大的區別在于，現在都是圍繞深度學習展開的。

多智能體協作示意圖--- 圖源：吳恩達

從第一波機器視覺，包括無人駕駛、人臉識別，到今天的大模型，都是圍繞深度學習展開。在深度學習的範疇內，我們對應用的要求比以前要高。以前分爲看應用和看模型兩派，但實際上這兩派是一致的，我們都會關注這兩個方面。

目前我們發現應用沒有大爆發，這導致底座模型也面臨挑戰。作爲平台，它必須讓上層生態在各個垂直場景大規模落地才能體現價值。但現在GPT最常用的反而是它自己的應用。

02, 創業公司商業化掣肘：有沒有私有化的數據？

《矽谷101》：你提到應用還沒有大爆發。比如我自己用ChatGPT寫采訪提綱和節目筆記時，它的表現還不夠理想。這是AI能力的問題嗎？

Jonathan：是的，這直接關系到AI的底層能力。我認爲有以下幾點：

首先是底層能力，就像互聯網時代的思科提供網絡連接能力一樣。現在的大語言模型雖然已經很不錯了，但基礎設施還不夠完善。

其次是操作系統(OS)。互聯網時代有浏覽器作爲OS，正是Netscape浏覽器的出現，才讓思科的基礎設施價值充分體現，各種網頁應用才開始爆發。移動互聯網則有iOS和Android。

但AI時代的OS是什麽？OpenAI嘗試用GPTs做OS，問題是應用層和底層模型的界限並不清晰。拿Jasper這樣的應用來說，很多功能GPT本身就能實現。而且應用層的數據和底座模型的數據往往非常相似。

這種界限不清晰還體現在：當用戶問了一個問題得到答案時，很難判斷這個答案是由底座提供的還是由應用提供的。這和互聯網應用不同，比如Uber上哪些功能是iOS提供的，哪些是Uber自己提供的是很清晰的。

《矽谷101》：關于界限不清晰這點，我有不同看法。以Google的Notebook LM爲例，表面上它看起來像GPT，但實際上它的功能很獨特。它能處理長文本並生成精確的總結，甚至能把播客內容轉換成研究報告。它抓取關鍵點和細節的能力非常強，比很多記者的水平都高。這可能是基于Gemini的底層模型能力，特別是在長文本處理方面。

Jonathan：這正是我想說的特點，你很難區分一個功能到底是應用層的貢獻還是底層模型的能力。

AI應用與互聯網應用不同，它需要兩條線：一是産品設計，二是數據能力。産品設計讓用戶體驗流暢，這是互聯網産品經理的強項；數據能力則通過微調和RAG來增強底層模型。

以Notebook LM爲例，雖然它現在表現出色，但如果是第三方公司用Gemini開發類似應用，核心競爭力就不會那麽強，因爲長期來看還是要看底層模型的能力。這就是AI原生時代與互聯網時代的本質區別，數據的重要性變得前所未有的高。

NotebookLM，圖源：谷歌

單純應用積累數據後，要考慮怎麽跟底座結合，是用微調還是RAG，甚至需要預訓練。要跟底座深度整合，或者自研一些底座支撐。像Perplexity這樣的公司就是開始比較輕的。

《矽谷101》：你說所有的應用公司最終都要發展底層模型，這是必然趨勢嗎？

Jonathan：在當前技術架構下，創業公司似乎別無選擇。因爲你需要不斷積累數據來維護護城河，而數據越來越多後，你要考慮如何跟底座模型結合，是繼續用微調，還是用RAG，還是有些數據更適合預訓練。

不管是微調還是RAG，都需要底座模型的支持，尤其是當你想做得更好時。如果你想走得長遠，建立高門檻的護城河，就必須與底座模型做更深度的結合，或者開始自研訓練。

Keith：我非常同意數據這一點。數據質量非常重要，結構化數據和非結構化數據會帶來不同的産品效果。

《矽谷101》：Jonathan你對人工智能有自己的定義，能和大家分享一下嗎？特別是爲什麽數據如此重要？

Jonathan：人工智能的歷史從1950年代達特茅斯會議就開始了，包括agent（智能體）、自然語言處理、機器學習、神經網絡等多個分支。但我定義的産業化人工智能是從2012年開始的，核心就是深度學習。

2012年之前，所有計算機科學包括傳統人工智能都依賴人寫算法，有句話叫“人工智能有多智能主要看有多少人”。就像我從小開始就寫代碼，所有事情都要靠程序員一行行敲代碼。

但2012年AlexNet出現後，把機器學習和神經網絡結合成了深度學習，不再依賴手寫代碼，而是通過大量數據訓練。

這形成了"AI三要素" ：算法（AlexNet）、數據（李飛飛的ImageNet）和算力（吳恩達和GPU）。這三個要素結合産生了革命性突破，出現了一個“黑盒”模型，效果反而比人工編寫的“白盒”模型更好，只是可解釋性差一些。

到了2020年GPT-3出現後，第一次把人類積累的電子書、維基百科、Reddit、知乎等所有內容作爲訓練數據，效果超越了傳統自然語言處理的所有成果。

現在語言模型完全是數據定義的，這就是爲什麽在AI時代，你創業第一天就必須考慮數據。

但關鍵是，“有用的數據”這個定義是動態的。比如Transformer出現前，很多數據都用不上，但現在它能處理這些語言數據，産生出超越傳統自然語言處理的模型。

《矽谷101》：Keith你覺得什麽樣的數據是有用的？

Keith：要從人工智能的本質來看，它是要模擬人類行爲。人在網上做的就是讀和寫兩件事：讀是獲取信息，比如聽我們的播客，看視頻；寫是基于信息采取行動，比如交易股票或者點擊按鈕。

但對機器來說，獲取數據很困難，因爲互聯網本來是爲人設計的。每個網站都有自己的護城河，需要API或者寫爬蟲腳本才能獲取數據，這是最髒最累的活，沒人願意幹，而且永遠做不完。這導致很多做垂直領域的應用公司，它們的數據都差不多，沒有特別之處。

《矽谷101》：但這些創業公司怎麽能跟OpenAI這樣動辄獲得百億美元融資的公司競爭呢？

Jonathan：可以采取漸進式的方法，像爬樓梯一樣一步步來。因爲按照Scaling Law（規模法則），數據越多，模型能力理論上就應該越強。雖然這需要越來越多的算力，但可以分步實現。

更重要的是差異化定位。OpenAI這樣的公司有平台訴求，要服務所有場景，教育、制造業、醫療都要覆蓋。但如果你放棄通用平台的訴求，專注于比如AI搜索這樣的垂直領域，把一件事做到極致，門檻反而成了護城河。

《矽谷101》：Perplexity它的底層是自己的模型還是建立在其他模型上？

Jonathan：剛開始並不是。我的總體定義是說要有底座潛力和底座能力的應用公司。因爲它有DeepMind的背景，所以他們有這個思維。它可以有幾個step，剛開始可能就是套個殼，像GPTs那樣直接用API，做些RAG，然後開始做微調。但我想它到了一定層面一定會自己做，因爲它要不斷積累自己的私有數據。它可以用這些數據再去做微調，同時也應該把這些數據去生成自己的底座。

《矽谷101》：如果Google或Microsoft也來做同樣的事情，那該怎麽比？

Jonathan：回到剛才那兩條線。作爲一個AI原生的應用公司有兩個角色：第一是做好互聯網産品，這方面很多創業公司可能比模型公司或大廠做得更好，因爲視角不同。很多確實從産品切入，開始可能就套個殼，但易用性和交互流暢性非常好，所以用戶一下就來了。

但這不代表你就成功了。就像最早的Jasper，它當時比GPT用得好是因爲産品設計確實更優。但現在你要思考你的護城河在哪裏。

《矽谷101》：GPTs上有比較成功的公司嗎？

Jonathan：應該是沒有。在年初GPTs最火的時候。我直接問過一些開發者問這個問題：你有沒有私有數據？他們愣了很久，然後說“我爲什麽需要私有數據呢？我們沒有數據。”

我又問“那你會不會擔憂你的護城河(defensibility)？”他們說護城河就是産品設計。這在互聯網年代是很通用的思維。爲什麽互聯網應用公司能比大廠厲害，很多時候是在産品層面。他在産品設計上面，尤其是垂直領域，肯定比做底座或者大廠的人更有優勢。但是現在你要詳細考慮護城河的問題了。

《矽谷101》：Perplexity呢？

Jonathan：我覺得它一定會往底座去做。但這個可以有多種方法，你可以用開源底座去做一些繼續訓練。

你要從成本上考慮，一上來就全都重新訓練，成本太高了。但你可以做繼續訓練，這個難度也不低，可能比微調要更難一些。但即便是微調，微調跟繼續訓練有時候界限也開始模糊了。而且還有風險，做不好效果可能並不好。這些成本都要計算進去，但大方向一定是往這走。這就是你的護城河。

你要麽就不要有數據，就像GPTs那些。但很快GPTs也都沒有了。所以看商業化有時候也會有誤區，有些産品可能一段時間用戶看起來不錯，甚至有些收入。但只要沒有護城河，要麽就是被底座覆蓋掉了，要麽就是自己不能持續叠代下去了。

03, 純應用不足以構築護城河，多模態更有機會

《矽谷101》：我在想這種創業公司的應用類的模型叠代，怎麽能卷得過像OpenAI這種動辄百億美元融資的公司。因爲做底層模型需要自己買卡訓練，如果一個模型訓練得越來越大，智能真的湧現了，這些創業公司再去訓練底層模型的意義何在呢？

Jonathan：所以有幾種方法。一種就是我剛才說的一步一步來，有點像baby step。你的卡會越來越多，加上數據越來越多，理論上最後輸出的模型能力應該是越來越高的。

第二個就是聚焦。你可以做到跟OpenAI和國內六小龍的不同，因爲所有做底座模型的人都有做平台的訴求，要賦能所有的上層應用，這樣就把它給攤平了。

現在來了教育的、製造業的、醫療等垂直行業的都得服務。這是它跟你的最大區別，你可以放棄作爲通用平台的訴求，就聚焦在比如AI搜索這樣一個垂直應用。我把這一件事情做好，整個底座模型都是爲了這個，不是爲了去做下一個iOS。這樣你會簡單很多。

《矽谷101》：還是回到了數據，護城河還是你垂直領域的數據的優秀程度、專業程度和精專程度。

Keith：有點像大語言模型是個推土機，我其實就想鑿個釘子。難道要拿推土機去鑿嗎？也可以也能弄進去，但何必呢？其實拿個小錘子嘣一下就進去了，那我就用小錘子不就得了。

《矽谷101》：Keith你有覺得比較好的商業化案例可以分享嗎？

Keith：美國本土還蠻多的。比如現在做coding的幾個很火，當然這也涉及到它會有多大的護城河這個問題，比如說GitHub要去做會怎樣。還有一個特別火的coding應用Devin，大模型時代“見光死”：demo做得好看，但正式發布後發現完全用不了，這樣的産品太多了。

Devin發布會，圖源：官網

Jonathan：Coding應用這個分界不是那麽清晰，因爲也可以用GPT，現在很多碼農就直接用GPT幫他編程了。所以問題是你怎麽去創造一個分界。産品肯定要做得很好，但你要實現scaling law，要用私有數據去訓練，怎麽去跟底座的這些人競爭，做長期的競爭。

如果他們要問我建議，就是你得擁有自己的底座。如果一直用第三方的底座，你的風險永遠是大的，因爲他們一定也在不斷訓練。

Keith：其實現在做得好的很多可能都是商業化做得比較好，就是在某一個點抓得准。像Harvey這樣做法律方向的大模型應用，也不知道多好用，但能講好故事。從真正大規模應用角度來說，還是很遙遠的。我覺得整個問題的核心還是太早。這是一個新的生産效率工具，但很多人把生産工具當成了生産力，這是一個誤區。

《矽谷101》：作爲音頻工作者，我覺得Google的Notebook LM用來做長文本分析還是蠻好用的。另外有一家創業公司Elevenlabs我很喜歡，它可以把文字轉成很好的配音，或者用AI補錄音頻，效果比真人補錄還要自然。不過它在中文方面表現還不夠好。Elevenlabs在融資市場表現也很優秀，快到獨角獸級別了。還有像Suno這樣做文字生成音樂的，也融了很多錢。

Jonathan：這兩家都屬于跨模態、多模態的産品。我預測它們一定要往底座去延展。

《矽谷101》：它們其實是有底座的。

Jonathan：它們不僅有底座，在聲音處理上還有自己的獨特優勢，有一些paper。所以這些公司要有訓練數據，用自己的或半自研的底座去實現最終的模型功能。從這個角度講，多模態更符合我說的，因爲沒有現成的第三方底座可用，你反而更需要自己去做很多事情。

《矽谷101》：所以現在整個市場上多模態的表現會不會更好一點？

Jonathan：對，這是我的預估。當然這是把雙刃劍，對你的要求更高。很多人會往這條路走，這樣從第一天開始就有護城河。不像純語言模型，你可以一開始沒有護城河，直接調用GPT就能出産品。但在多模態領域你要先做出些東西，所以它是把雙刃劍。

我個人也比較看好多模態，包括跨到硬件模態。如果能夠把硬件數據跟Robotic Transformer(RT)打通，把語言和硬件的傳感器數據、機械執行數據從訓練層就打通，我覺得這是多模態的一種體現，還是有蠻大空間的。

04, 埃森哲生意越興隆，生態越沒有成立

Keith：本質上還是數據的獨特性、准確性和優勢。我問過美國幾家大的VC美國大企業對AI的接受程度如何，其中有一位負責人說吆喝聲很多，大家都想學想知道在討論，但真正能落地的還是很少。

現在大家做的都是AI咨詢，特別是RAG這塊是過去兩個季度最火的。因爲作爲公司的IT負責人，肯定要考慮公司接下來在AI方面要做什麽，要花錢，但可能還不知道該做什麽。最起碼可以先把架子搭起來，做AI方面的咨詢討論。

在美國，像埃森哲這樣最大的科技咨詢公司，光咨詢就賺得最多。第二季度生成式AI帶來了6億美元新增營收，第三季度漲到9億美元（編者注：此處“新增營收”特指“由生成式AI帶來的新增訂單金額”，詳情請參考埃森哲財報）。另一家VC跟我聊天時說，就是耍耍嘴皮子做兩個RAG，就拿到9億美金，就是這樣的現狀。

《矽谷101》：你有用過埃森哲的服務嗎？

Keith：我們用不起，太貴了。

Jonathan：咨詢公司在今天的地位其實符合我之前的理論。回看互聯網時代，很多公司說要做數字化、做網站，也會找外包和咨詢公司。比如我自己作爲客戶，現在要做一個內部的投資GPT能回答投資問題，但因爲有很多私有數據，不知道怎麽搭建，就需要找咨詢公司。事實上我們現在就在做，很多投資公司也在做這個事。

在互聯網時代，咨詢公司收入只占很小部分。即使把埃森哲、麥肯錫這些外包公司加在一起也是。因爲中間有OS，門檻降低了，大部分公司能自己做。以前做個簡單APP可能30萬人民幣左右。但在AI時代，咨詢成本很高，而且很多人都會用。因爲中間有很高門檻，這件事不容易做。

而且形成一個矛盾，就是數據越多反而越頭疼。數據多本來是好事，但數據越多，首先成本抽取就很貴，可能需要用到AgentQL這樣的工具。然後還要訓練、要放到數據庫做RAG，所以幹脆找咨詢公司。

* 埃森哲生意越興隆，反而說明這個生態越沒有成立。都要靠第三方交付公司，這是我們觀察到的現狀。但這本身是個阻礙，必須得邁過去。

《矽谷101》：所以我理解在互聯網時代，用埃森哲這類公司幫做APP的比例小，是因爲基礎設施比較完善，大多數公司可以自己做。

Jonathan：對，完善，然後OS也比較具備。

《矽谷101》：但在AI時代因爲基礎設施不太完善，每個公司要根據自己的數據去定制模型，門檻還比較高。

Jonathan：對，要經過很多步驟，從數據到RAG。RAG看上去簡單但很多公司都做不好，需要對底座模型有理解。

Keith：可以理解爲它解決了三個問題：第一是全新事物出現要做什麽，第二是怎麽做，第三是用什麽工具做。這就像假如全球突然變冷了，我們東北人都可以成爲埃森哲，因爲可以告訴大家冬天要做什麽，准備什麽樣的秋衣秋褲，要准備暖氣片，要冬儲大白菜等等。

《矽谷101》：那從投資角度看，是不是這個階段所有做中間服務、建設基礎設施的ToB公司，做服務的公司，做基礎架構的公司更有價值？

Jonathan：是很有機會的。比如Fireworks、Lepton這樣的公司，做GPU的Lambda，還有做數據的，包括Keith這樣的公司。從投資人角度，我們把這些都放在基礎設施裏面。技術設施很複雜，簡化下就是各種工具。

但他們不改變生態，不會大大降低應用層的門檻。最好是底座大模型把這些事情都做了。這就是所謂交鑰匙工程，OpenAI就是往這個方向走的。他們也都在做Framework、算力優化等。

在今天生態沒完全打開的情況下，這些點狀工具都很有價值，但風險也比較大。因爲整個技術棧都不清晰，大家都在互相重疊競爭。現在還是很早期，就像Keith說的是兩個月的baby。

《矽谷101》：在判斷這些中間層的ToB公司時，你覺得最核心的幾點能力是什麽？

Keith：我感覺剛才Jonathan已經把整個鏈條講得很清楚了。做基建從工程角度是最難的。但解決了最難的問題之後，在語言模型時代往上走一層反而容易。

* 難的是選擇一個底層模型很難走進去的賽道，在這個賽道上把它做到最好。對我們來說語言模型不是目標，但是它是很重要的工具。我們做的事我們認爲是語言模型永遠都解決不了的。

《矽谷101》：這還是需要對垂直行業的深度理解，和基于紮實的工作建立起來的基本功。

Keith：需要對工程的理解要遠遠勝過對語言模型的理解。

Jonathan：對。而且基礎設施的一個很強的可能性是找到一個可以交鑰匙的點，在某個垂直場景裏面成爲一個操作系統。雖然不能一下變成浏覽器或iOS，但可能在某個垂類裏面成爲一個iOS。

但想做一個非常泛的操作系統是有難度的。不過可以探索這條路，這樣跟底座的關系也比較容易切分。因爲底座模型都想成爲通用平台，不會在特別垂直的領域深耕，他們想做AI+所有東西。所以這塊是有機會的。--- (文 : 矽谷101/來源 : 钛媒體)

我要留言

大模型應用之困與異軍突起的 “埃森哲們”

美國大選投票日臨近，三種視角看影響波動

美國大選投票日臨近，三種視角看影響波動