李開復:我堅決做to C,堅決不做賠錢的to B;張亞勤:大模型效率較低
6月14日上午,零一萬物CEO李開復和清華大學智能產業研究院院長、智源學術顧問委員張亞勤在2024年智源大會上就「通用人工智能的關鍵問題」展開討論,分享了各自對於大模型在產業中的應用場景及AGI未來的看法,由智源研究院理事長 黃鐵軍進行主持。
李開復表示,短期來看,to B方向原本是具備巨大商業價值,但可惜的是,由於大公司和傳統公司接納度低、大模型降本會搶奪公司員工「飯碗」,以及很多公司為軟件付費意願低等因素,B端市場面臨的挑戰很大。相較而言,在中國市場走to C模式更有機會。
「理論上,to B是可以馬上落地,但實際情況沒那麽快。」李開復解釋說,許多大公司、傳統公司看不懂大模型技術,不願擁抱顛覆式的事物。
李開復還表示,在中國,很多企業沒有認識到軟件的價值,不願為軟件付費。加之許多大模型公司參與競標,價格越競越低,極大地壓縮了利潤,做一單賠一單。「我們在AI1.0看到這個現象,很不幸又在AI2.0重現了。」
基於B端市場的殘酷現狀,李開復稱,零一萬物會更精挑細選那些上下級員工都接受大模型技術的公司。「零一萬物要堅決地做to C,堅決不做賠錢的to B。」
張亞勤則認為,當前,AI 大模型技術仍面臨三大問題:效率較低,特別是大模型的計算效率低下問題,與人類大腦的高效性形成了鮮明的對比;大模型目前還未能真正理解物理世界,相關的推理能力、透明性以及開復剛才提到的幻覺等問題都還在深入研究中;以及邊界問題,現在大模型無法知道「我不知道什麽」,這是目前要解決的問題,是它的邊界效應。
同時,兩位專家對AGI的實現整體持樂觀態度,他們認為,AGI的定義因人而異,但關鍵在於AI的能力要超越人類,並具有自我學習和進化的能力。同時隨著AI能力的提升,失控的風險也在增加,需要現在就開始考慮如何管理這些風險。
而對於如何走C端市場,李開復有一套自己的路線圖。沿著從生產力工具到社交產品的方向,他將大模型C端產品劃分為六個發展階段:第一階段是作為生產力工具,第二階段是娛樂、音樂、遊戲,第三階段是搜索,第四階段是電商,第五階段為社交、短視頻,第六階段是O2O產品。
「從PC到移動互聯網時代,再到AI時代,這是不變的定律。」李開復說,因為起步階段產品要能夠賺錢,所以適合作為生產力工具來解決問題,但越往後難度越高,需要的用戶量也越來越多,「難度高,機會更大,回報也高。」但AI大模型時代與移動互聯網時代不同之處在於,C端應用不再單純由產品經理一個角色做主,還離不開大模型專家和推理引擎專家等一起打磨。
以下是李開復和張亞勤對話全文實錄,鈦媒體 AGI 在不改變原意下進行了刪減整理:
黃鐵軍:我先提問,近期關於大模型的討論特別熱門,從剛才的報告大家也感受到了大模型的能量以及其在各領域的應用潛力,可以說大模型是至今為止人工智能發展最成功的一個技術方向。想請問兩位,是什麽原因使得大模型如此成功?還有哪些欠缺的地方需要進一步發展?開復老師先。
李開復:AI 2.0是有史以來最偉大的科技革命和平臺革命,大模型Scaling Law 的重要性在這個時代得以凸顯——人類能夠用更多計算和數據不斷增加大模型的智慧,這條被多方驗證的路徑還在推進中,還遠沒有觸達天花板,這點也讓大家非常振奮。
第二,大模型的智慧來自於接近無損的壓縮,這點也非常重要。上世代的人工智能從業者很難想到今天會把壓縮和智能連接在一起。因為Scaling Law過程中不能盲目堆更多的GPU,所以需要有一個方法評估我們有沒有越做越好或者哪個方法做得更好。零一萬物內部有嚴謹的方法論,用壓縮的理念去評估,讓以往漫無目的「煉丹」訓模過程變得更系統也更有科學和數學根據。
大模型正面臨著一些挑戰。比方說,如果「僅僅用更多算力就能把它往前推動」是主要方向的話,就會導致只有那些GPU資源豐富的公司和國家能夠在這方面勝出。但話說回來,我們已經驗證了,很多國內大模型在部分案例裏接近或者打平、或者偶爾超過美國的大模型。所以我認為需要專註的是算法和工程創新一體化的推進,以及怎麽以這種能力避免進入「盲目堆算力推動模型性能提升」的狀態。
當然,目前大模型還直面許多挑戰。就像每個技術剛誕生都會有問題,起初大模型也不知道最近一年發生了什麽。還有記憶的問題、窗口構成的問題、幻覺問題等等,但我們可以看到的是,當全球如此多聰明的大腦湧入這個領域後,大部分問題不能說被完美地解決,但是都在逐步被攻克的過程中,所以我對大模型的未來相當樂觀。
張亞勤:我講「三個做對了」的和「三個需要改進」的 。
一、三個做對了
首先,規模定律Scaling Law。規模定律的實現,主要得益於對海量數據的利用以及算力的顯著提升。再加上現在的Diffusion和Transformer架構能夠高效地利用算力和數據,使得「飛輪效應」得以正循環。盡管有人質疑Scaling Law在2到3年後是否仍然有效,但我個人認為至少在未來5年裏,它仍將是產業發展的主要方向。
其次是「Token-Based」統一表述方式。在大模型中,「Token」是一個基本元素。無論是文本、語音、圖像、視頻,還是自動駕駛中的激光雷達信號,甚至是生物領域的蛋白質和細胞,最終都可以抽象為一個Token。Token之間的訓練、學習和生成是核心環節,這與我們大腦中的神經元工作原理相似,無論執行何種任務,其基礎機製都是相同的。
最後是通用性。這與Token緊密相關。現在的通用性不僅體現在文本處理上,還擴展到了多模態領域,甚至可以生成如蛋白質等復雜結構。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有著廣泛的應用前景。
以上這三個是大模型做對的。
二、現階段主要問題
第一個,效率較低。特別是大模型的計算效率低下問題,與人類大腦的高效性形成了鮮明的對比。人類大腦擁有860億個神經元,每個神經元又有數千個突觸連接,卻只需要20瓦的能量,重量還不到三斤;而GPT4這個萬億參數模型則需要巨大的算力和能源,與人腦相比相差1,000倍之多。此外,人腦能夠根據不同的情境靈活調用不同區域的神經元,而大模型卻每次輸入一個問題都要調用和激活幾乎大量參數。因此,如何借鑒人類大腦的計算方法,在降低計算耗能、提高效率方面進行探索和創新,是一個值得關註的方向。
第二個,大模型目前還未能真正理解物理世界,相關的推理能力、透明性以及開復剛才提到的幻覺等問題都還在深入研究中。有一個重要的問題是,即使我們的大模型做得再好,它在生成式表述與對真實世界的描繪之間仍存在矛盾。
因此,我們需要探索如何將生成式的概率大模型與現有的「第一性原理」或真實模型、知識圖譜相結合。目前,雖然已經有了一些嘗試,如采用RAG技術或進行微調,並取得了一定的進展,但我認為這些方法並非根本解決方案。我預測,在未來五年內,將會有一個全新的架構出現,這個架構有望取代目前的Transformer和Diffusion模型。
第三個欠缺的地方是邊界問題。現在大模型無法知道「我不知道什麽」,這是目前要解決的問題,是它的邊界效應。
黃鐵軍:謝謝亞勤的「三個做對了」和「三個不足」。剛才開復老師沒講,我想再追加問一下,有些人認為大模型是一個實踐、是一個工程,是經驗主義做的東西,沒有理論基礎,說得不好聽叫「不靠譜」,不知道你怎麽看這個問題?
李開復:我覺得科學和工程缺一不可。如果只做工程,不了解「第一性原理」,沒有數學的根據、沒有辦法評估不同方法的效果,考慮到高昂的算力成本,這樣的摸索肯定是做不出一個好模型的。但是如果只是在實驗室裏雕花,然後寫一些不錯的論文,期待有工程人才把論文做成產品,這肯定也是不行的。
零一萬物的經驗是,每個做AI、做模型的Researcher要懂Infrastructure、都要懂推理、都要知道成本的問題,所以當你需要面對科研問題時,就知道在產品裏需要的反應速度有多快,要怎麽實現,做完實驗就可以確保模型可以得到令人滿意的工程結果。訓練模型的過程中絕對不只是寫Paper,還要同時考慮怎樣系統化、工程化地做數據工程,因為數據的訓練、數據的篩選是非常重要的。還有底層的AI Infrastructure,GPU這麽昂貴,如果把一張當成兩張、三張使用,任何公司都會得到好處,所以科技和工程這兩方面缺一不可。
黃鐵軍:謝謝。大家關心AI2.0,大模型產業化最大的場景在哪裏?移動互聯網這麽多年,To B、To C ,這兩個大賽道哪個更有機會?為什麽?
李開復:簡單來說,在中國To C 短期更有機會,國外兩者都有機會。To C方面,就像移動互聯網、PC時代裏,一個新技術、新平臺帶來新應用,大模型同樣如此,這是巨大的機會,但是這些應用的出現一定是按部就班的。
我認為AI 2.0 時代會和PC、移動互聯網時代一樣,第一個階段應該是生產力工具,包括信息獲取;第二個階段可能會是娛樂、音樂、遊戲,第三個階段可能會是搜索;再下一個階段可能會是電商;然後可能會有社交、短視頻、O2O的應用出現。
一個理由就是剛開始應用要能夠賺錢、能夠解決問題,所以第一波潮流會是生產力工具,但越往後,難度越高——高用戶量的應用商業模式往往是先堆積用戶再找變現模式,所以應用成本一定要很低,試錯難度很大、所需要的投資也更多。
我認為遞進的模式不會有特別大的改變,To C應用會從生產力工具一步步走向短視頻類應用。To C確實會產生大量的用戶,但這不是說不能用大模型來做產品,只是在普及順序上會按照這六個階段進行。
當然,這個過程中也有挑戰,在大模型領域做應用跟PC、互聯網時代不一樣,因為推理成本還太貴。最近零一萬物提出了TC-PMF概念(技術成本️產品市場契合度),這個概念是指,當你考慮PMF時,還要把技術的需求、實現難度和成本考慮進去。
做應用一定要考慮到剛才這六個階段誰先誰後、什麽時候做、提早做。第二,做應用的時候還要綜合考慮到當時的技術夠不夠好,成本是否足夠低,所以大模型To C應用不像過去移動互聯網時代,產品經理一個人就可以做主,它需要做Infrastructure、做推理引擎的人、一起打磨TC-PMF。這件事難度高,但是回報也高,機會也更大。
最後我想講,在To C方面,我不相信技術可以永久領先,事實上技術帶來的領先窗口非常短暫,一旦巨頭看到你驗證了PMF,他們會有很多方法超越你。一旦你驗證了TC-PMF,要把握時間窗口把品牌打出來,最終勝出的To C應用不只是需要有技術優勢,還需要在時間窗口內打造持續優勢,比如品牌優勢,比如社交鏈,比如用戶數據,讓用戶不能離開你這個平臺。在微信強大的時代裏抖音能被做出來,就是因為它抓住了這個時間窗口。
再講一下To B的應用。大模型有可能在To B方向上帶來更大價值,而且能夠比To C更快實現,但是To B這個領域有幾個挑戰。
第一個挑戰是大公司、傳統公司不是很敢采取顛覆式技術,大公司會習慣每年增長5%預算,做和去年一樣的事情。
第二個挑戰在中國比較嚴重,許多大公司沒有認識到軟件的價值,為軟件付費意的意識有待進一步提高。現在有許多大模型公司在競標時越競越低,做到最後做一單賠一單,都沒有利潤。我們在AI 1.0時代曾見過這個現象,現在它在AI 2.0時代又重現了。這種心態導致部分大公司只願支付很低的價格,大模型公司也只能給出折中的方案,達到驚艷效果的寥寥無幾。
零一萬物堅決做To C,不做賠錢的To B,而是做能賺錢的To B。所以零一萬物在To B方面精挑細選,找那種公司上下都願意擁抱新概念的公司,也為它們設計了 RAG 知識檢索、專有雲、微調等方案,在國內國外都有嘗試。
無論To C還是To B,API都很重要,最近國內很多模型降價了,零一萬物也推出了接入國際SOTA成績Yi-Large大模型的API,也希望有機會可以跟各位合作。這個API背後的模型能力接近GPT-4o,但是價格是GPT-4的四分之一,我相信這可以幫助更多公司或者創業者達到所謂的TC-PMF。
黃鐵軍:謝謝開復老師對To B、To C的分析,很透徹。亞勤,剛才關於To B的觀點,大家還有一個非常關心的問題,大模型產業的最大場景會在哪裏?To B、To C在什麽地方能夠落地發揮作用?
張亞勤:在應用和服務層面,先面向消費者(To C)再面向企業(To B)。To B的周期相對較長,而To C的應用產品則可以迅速推出,這與過去的PC互聯網和移動互聯網的發展路徑基本一致。在基礎設施層,目前真正盈利的主要集中在To B領域,特別是在芯片、硬件、服務器等。像英偉達、AMD等芯片製造商,以及服務器、HBM存儲、InfiniBand和NVLink等相關技術的提供商,他們目前是盈利最多的。
關於AI路徑,我在過去十年中一直強調三個關鍵領域:首先是信息智能,其次是物理智能(現在流行的術語是具身智能),最後是生物智能。在具身智能階段,To B的應用可能會比To C更快落地。然而,在生物智能階段,情況可能相反,To C的應用可能會先於To B出現。盡管每個領域的具體情況可能有所不同,但總體來看,無論是To C還是To B,都將存在開源模型、商業閉源模型、基礎大模型,以及針對垂直行業模型和邊緣模型。
黃鐵軍:具身智能今年特別熱,關註度特別高。講到具身,通常像機器人,人形機器人、輪式機器人是一大類,第二大類是車,也是一個駕駛場景上的具身智能。還有無人機,在空中飛將來也是一種形態。甚至於大家可以想象出更多的身體形態,更多的具身智能可能性。我想請問,你們認為,具身智能這麽多可能性裏面,到底是熱門的人形機器人會先有機會,還是已經有相當多積累的自動駕駛會有機會?
張亞勤:從百度Apollo開始有七年、八年時間我一直在從事無人駕駛研究,無人駕駛L4+是具身智能第一個、最大的應用,也會是第一次實現新圖靈測試的應用。無人駕駛它本身就是一個開車的特殊機器人。無人駕駛最近有很多好消息,它的安全性已經比人類駕駛要高至少10倍,不管是Waymo在舊金山的結果,還是百度阿波羅在武漢大範圍的商業運營。最早在Apollo開始的時候我就要求,自動駕駛安全性一定要比人類駕駛高出10倍。
盡管安全性很好,當前無人駕駛仍存在一些挑戰,就是它雖然開得安全但不夠老練,不夠老司機,駕駛太守規矩了,不會超速或壓線。無人駕駛要變成主流,要通過新圖靈測試的話,需要是好司機,也需要是老司機。我認為無人駕駛在明年會成為第一個真正實現具身智能或者物理智能的AGI。
另外再講一點,大模型的推出,幫助無人駕駛解決了很多原來的問題。比如長尾問題、數據生成問題,百度已經積累了1億公裏的駕駛數據,1億公裏雖然已經很多但數據仍然不夠,生成式人工智能可以生成很多數據。大模型的應用使得無人駕駛系統能夠實現端到端的智能化,同時也意味著無人駕駛會有更高的智能性,還將加速其在實際場景中的落地應用。
李開復:我同意亞勤的分析。在創新工場,我們也投了大概6家左右的無人駕駛公司,發展都不錯。現在無人駕駛面臨的一個巨大機會,就是終於可以落地了。在L2、L3階段,包含城市自動小巴等等場景,無人駕駛都可以真正創造價值,這是很讓人欣慰的。
到L4、L5階段,要無限制地開到開放場景,全球都面臨著挑戰。我在美國的時候看到了Waymo進展是不錯的,依然在往前推進。特斯拉推出的FSD,雖然不是完全的大模型,但是是用了類似end to end(端到端)的概念。至於不用FSD方案能產生多少產業價值,我希望我們投的5、6家公司和亞勤的前公司都能夠證明,中國能做得很好,也許這就是很大的市場。
過去這一年我專註於零一萬物,我沒有做自動駕駛的研究,但是我確定FSD會帶來新的機會。把大模型的概念放到無人駕駛裏面,這是我非常期待能夠在下一階段看到的事。但是這需要巨大的投資,不見得適合初創公司來做。
講到具身智能,它跟亞勤說的一樣,是物理世界跟AI的結合,這是很重要的。但是我也必須說,大模型是非常適合虛擬世界的,在金融公司的後臺、客服等等場景,大模型很快就可以落地產生價值。如果你的需求是軟件,直接對接大模型就好了。一旦大模型接入物理世界,就需要面臨各種問題,有安全問題、機器問題、機械問題、故障問題等等,難度會大很多倍。
從創業者的角度來說,雖然現在具身智能一時比較熱,有一些創業者湧入了,但是對於大部分創業者來說,如果希望短期落地產生價值、能賺錢,肯定還是做虛擬世界要遠遠容易很多。具身智能是重要的,它可以很好地結合大模型多模態能力,而且一旦具身後就可以產生數據,形成數據飛輪閉環,有很大的想象空間。但是短期要做好,難度很大。
具身智能肯定要走很漫長的道路,而且對於人形機器人我有一些特別的看法。絕大多數應用場景並不需要人形機器人,炒菜機器人應該長得像鍋,吸塵器也長得並不像人,沒有必要。像是波士頓動力那種很酷的、跳來跳去的機器人,真的會有很多應用場景嗎?絕大多數場景幾個輪子不是更容易移動嗎?很多科學家和創業者都是從小熱愛科技,希望能復製一個人,這無可厚非。但是如果你很簡單地問VC,VC給出的恐怕是更務實更理性的判斷。
黃鐵軍:最近經常有人問我通用人工智能,到底什麽時候可以實現?我比較樂觀,我講一下大致時間點,跟開復講的很一致。信息智能、物理智能和生物智能。在信息智能方面,我認為5年左右就可以實現,現在在文本基本已經可以實現了,圖靈測試已經通過了。
在視頻方面,可能還需要幾年。所以,5年之內有可能達到在虛擬世界或者是信息世界。到具身智能或者物理的話,可能需要10年。在生物智能,可能還需要15-20年,比較長一些。要是三年前問我這個問題,我可能會放50年乘2,現在是除2。
李開復:每個領域都還有低垂的果實。再補充一點,如果問我們投了幾家機器人,我們投了七八家,但不是具身智能,是能夠確實解決一個場景裏的應用,而且能夠帶來價值的機器人。所以,我是相信機器人的,只是具身智能,我同意亞勤的,我們做投資的肯定現在不能去投資10年以後才能夠發生的事情。
張亞勤:5-10年。
李開復:我們一旦看到接近5就開始投資。
張亞勤:我補充一點,最近經常有人問我,通用人工智能到底什麽時候可以實現?我比較樂觀,我認為15-20年內可以實現,並通過新圖靈測試。
0至5年內,在信息智能領域,對語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測試。
0至10年內,在物理智能領域,實現大模型在物理環境中的理解與操作能力,通過新圖靈測試。
0至20年內,在生物智能領域,聚焦人體、腦機接口、生物體、製藥和生命科學,實現大模型與生物體連結的生物智能,通過圖靈測試。
要是三年前問我這個問題,我可能會說50年實現AGI,這幾年隨著大模型的發展,我認為除以2,20年能實現。
黃鐵軍:這個通用人工智能,包括今天的大模型或者未來幾年能實現的,在信息空間裏大模型的認知能力通常的評測水平,比如說到了大學、到了博士、到了專家、到了學者,甚至於科學家,這是一個通用性,不管什麽學科都可以做,這是一種理解。
但是剛才亞勤講到,有了身體進入物理世界,甚至進入物理世界的具身智能,跟我們今天講的通用人工智能又有所不同。也就是大家講的AGI。
GAI、具有通用性的人工智能和AI領域說了這麽多年的AGI是不一樣的。AGI是要超越人類的,AGI是有自我意識的,AGI不僅僅是智能水平超過了人類,而且有自我意識,要有自己的目標、做出自己的判斷。你們剛才談到的是指這樣的AGI嗎,還是只是說前面一種?
李開復:AGI的定義是因人而異的。如果把AGI定義為能做人所能做的一切事情,那麽我今天沒有辦法定義,因為它還有太多未知的東西還沒有被解。
但是這種定義只把人當作金標準,似乎就是問車什麽時候能跟人跑的一樣快,但是車在很多場景已經比人跑得快很多了,只是有些場景沒法勝任。我個人會說:只要Scaling Law繼續,只要AI一年比一年更聰明,它會多做比如5倍的事情,IQ會提升20個點。
但是,它聰明的方向,能做的事情也許是人從來都不能做的,不見要能做人做的每件事。因為我是做投資和創業的,我想看到的是巨大的商業價值。從這個角度來說,我們不會太糾結是不是能夠百分之一百做到人類能做的事。如果世界上有一萬件事情,AI在9000件上做得比人好,有1000件人做得比較好,這樣也挺好的,要給人留一點空間嘛。
談到虛擬跟物理世界,我還想再補充一點。在虛擬世界裏,Agent還是非常重要的,因為人的Intelligence不只是回答問題,是要知道「怎麽把事情做出來」。而且如果是談創造商業價值,Agent幫你把東西買了,幫你把事情解決了,這個是有很大的商業價值,也是貼近AGI的重要一步。
張亞勤:我剛才講的20年實現AGI,不包括擁有意識或情感。我對AGI的定義有三點,
第一是要有巨大的能力,要能在大部分的任務要比人類強,而不是所有任務均超越人類。
第二,它是必須要是通用的,過去每個任務都要用不同的模型,但是AGI是要有一個通用的大底座,當然可以有小的垂直模型,但它本身具有通用性。
第三是不斷升級、學習、進化,就像人類一樣。我不認為現在的Scaling Law,或者我們現在做的研究會讓AI產生意識,並且我也不認為我們應該從事這方面的研究。我們還是要解決真正的問題,把人工智能作為我們的工具、我們的延伸、我們的Agent,而不是另外一種物種。
黃鐵軍:從工程、從應用、從商業、從所有的角度,可能沒人想去做一個超越人類的、有自我意識的AGI。但是最近OpenAI發生的事情,從去年底開始,IIya和Altman的爭論觀點就是兩點:你不想做但是它們可能就要出來了,出來之後我們就面臨著失控的巨大風險。你們認為這種風險存在還是不存在?
李開復:我覺得存在的,但概率不會很高。如果我們越來越依賴Reward model完全讓AI自己找路徑的話,發生的概率或許會增高。當然,當前大模型的訓練方法還不至於讓大家擔憂過度。
不管在哪個時代,我認為技術是中性的,每個科技時代有技術帶來的「電車難題」,最後人類都用了有效的方法解決了。所以,我對此是持謹慎樂觀的態度,短期最擔憂是壞人用它去做壞事。中長期看,我仍然建議嘗試用「以子之矛攻子之盾」——用更好的技術解決技術帶來的挑戰,讓「AI for Good」,真正造福全人類。
張亞勤:隨著AI的能力不斷擴大,風險也在不斷擴大,所以現在考慮到未來的風險是很重要的。我不擔心所謂的AGI會出現意識,會掌控人類。我擔心的是如果現在不重視AI的治理,當AGI達到一定的能力並被大規模部署,那麽可能會有失控風險。
目前AI仍存在可解釋性問題,未來機器人數量可能會比人要多,那麽當大模型被用到基礎物理設施、金融系統,包括國家安全,軍事系統等方面,就可能會有失控的風險。
因此我主張一定要現在開始把AI治理重視起來。對於技術發展我永遠持樂觀態度,我認為我們人類有兩種智慧,一種是發明技術的智慧,一種是引導技術走向的智慧。我認為我們會達到平衡,但前提是現在要采取行動。
黃鐵軍:謝謝兩位的高屋建瓴的真知灼見。謝謝!---[鈦媒體/作者:林誌佳*編輯:胡潤峰|鈦媒體AGI]