華爲“天才少年”4萬字演講:現在的AI技術要麽無趣,要麽無用-(1)
(圖片來源:unsplash)
近期,一篇4萬字的演講風靡于國內人工智能(AI)學術圈。
原華爲“天才少年”、Logenic AI公司聯合創始人李博傑博士,日前發表了一篇關于AI Agent思考的文章,題爲“AI Agent 應該更有趣還是更有用”。
李博傑在這篇文章中表示,AI 的發展目前有兩個方向,一個是有趣的 AI,也就是更像人的 AI;另外一個方向就是更有用的 AI,也就是更像工具的 AI。但目前的 AI 技術,要麽是只有趣但沒用,要麽是只有用但是不像人,“不好玩”。
李博傑指出,通用人工智能(AGI)的目標是,兼具慢思考和類人屬性的 AI Agent,然而當前 AI Agent 和人類夢想之間存在巨大的差距。
李博傑坦言,Video Diffusion 是一個更爲終極的技術路線。盡管大模型的成本一定會快速降低,但他不建議貿然自己去做基礎模型。
“如果沒有拳打 OpenAI、腳踢 Anthropic 的實力,在效果上比不過最好的閉源模型,成本上也比不上開源模型。”李博傑表示。
據悉,李博傑今年31歲 (1992年生),曾任華爲2012實驗室中央軟件研究所計算機網絡與協議實驗室、分布式與並行軟件實驗室助理科學家、副首席專家,並且以第一批“天才少年”的身份于2019年加入華爲,職級P20 (技術專家A級別)。
早在2010年,他進入中國科學技術大學少年班學院學習。在校期間,擔任中科大鏡像站USTC Mirrors的維護者。2014年,李博傑以聯合培養博士生的身份,加入中國科學技術大學與微軟亞洲研究院(MSRA)的聯合項目。
幾乎同時,2019年,李博傑獲得中國科學技術大學與微軟亞洲研究院的合作培養博士生項目中取得計算機科學學位,導師爲張霖濤教授和陳恩紅教授。
2023年7月,李博傑離開華爲後成立了Logenic AI,致力于成爲人類的數字化延伸。憑借尖端的AIGC基礎設施,Logenic AI 能夠協作制作和服務多模式角色Agent,“元宇宙”、以及數字雙胞胎等角色。
李博傑表示,“我們都相信 AGI 肯定會到來,唯一值得爭論的是到達 AGI 的增長曲線是怎樣的,是這一波自回歸模型隨著 scaling law,直接高速增長到 AGI;還是這一波自回歸模型也會遇到瓶頸,AGI 還需要等待下一波技術革命。 10 年前 ResNet 掀起 CV 革命的時候,很多人都對 AI 的發展預期過于樂觀。這一波 Transformer 會是通向 AGI 的坦途嗎?”
李博傑強調,AI Agent 的創作者可以盈利。因此,好看的皮囊、有趣的靈魂、有用的 AI、低成本和去中心化,AI Agent 將推動整個 AI 領域持續創新和健康發展。
“我們相信,在人類世界的數字延伸中,有趣的靈魂終會相遇。”李博傑稱。
以下是李博傑演講內容全文,共約 4 萬字,Enjoy:
非常榮幸來到科大校友會 AI 沙龍分享一些我對 AI Agent 的思考。
我是 1000(2010 級理科實驗班)的李博傑,2014-2019 年在中科大和微軟亞洲研究院讀聯合培養博士,2019-2023 年是華爲首屆天才少年,如今我跟一批科大校友一起在做 AI Agent 領域的創業。
今天(去年12月)是湯曉鷗教授的頭七,因此我特別把今天的 PPT 調成了黑色背景,這也是我第一次用黑色背景的 PPT 做報告。我也希望,隨著 AI 技術的發展,未來每個人都可以有自己的數字分身,實現靈魂在數字世界中的永生,在這個世界裏生命不再有限,也就不再有分離的悲傷。
AI:有趣和有用
AI 的發展目前一直有兩個方向,一個是有趣的 AI,也就是更像人的 AI;另外一個方向就是更有用的 AI,也就是更像工具的 AI。
AI 應該更像人還是更像工具呢?其實是有很多爭議的。比如說 OpenAI 的 CEO Sam Altman 就說,AI 應該是一個工具,它不應該是一個生命。而很多科幻電影裏的 AI 其實更像人,比如說 Her 裏面的 Samantha,還有《流浪地球 2》裏面的圖丫丫,黑鏡裏面的 Ash,所以我們希望能把這些科幻中的場景帶到現實。只有少數科幻電影裏面的 AI 是工具向的,比如《鋼鐵俠》裏面的賈維斯。
除了有趣和有用這個水平方向的之外,還有另外一個上下的維度,就是快思考和慢思考。這是一個神經科學的概念,出自一本書《思考,快與慢》,它裏面就說人的思考可以分爲快思考和慢思考。
所謂的快思考就是不需要過腦子的基礎視覺、聽覺等感知能力和說話等表達能力,像 ChatGPT、stable diffusion 這種一問一答、解決特定問題的 AI 可以認爲是一種工具向的快思考,你不問它問題的時候,它不會主動去找你。而 Character AI、Inflection Pi 和 Talkie(星野)這些 AI Agent 産品都是模擬一個人或者動漫遊戲角色的對話,但這些對話不涉及複雜任務的解決,也沒有長期記憶,因此只能用來閑聊,沒法像 Her 裏面的 Samantha 那樣幫忙解決生活和工作中的問題。
而慢思考就是有狀態的複雜思考,也就是說如何去規劃和解決一個複雜的問題,先做什麽、後做什麽。比如 MetaGPT 寫代碼是模擬一個軟件開發團隊的分工合作,AutoGPT 是把一個複雜任務拆分成很多個階段來一步步完成,雖然這些系統在實用中還有很多問題,但已經是一個具備慢思考能力的雛形了。
遺憾的是,現有産品中幾乎沒有在第一象限,兼具慢思考和類人屬性的 AI Agent。斯坦福 AI 小鎮是個不錯的學術界嘗試,但斯坦福 AI 小鎮裏面沒有真人的交互,而且 AI Agent 一天的作息時間表都是事先排好的,因此並不是很有趣。
有趣的是,科幻電影裏面的 AI 其實大部分是在這個第一象限。因此這就是目前 AI Agent 和人類夢想之間的差距。
因此我們在做的事情跟 Sam Altman 說的正好相反,我們希望讓 AI 更像人,同時又具備慢思考的能力,最終演進成一個數字生命。
請輸入圖說
今天大家都在講 AGI 的故事,AGI 就是通用人工智能。什麽是 AGI 呢?我覺得它又需要有趣,又需要有用。
有趣的方面,就是它需要能夠有自主思考的能力、有自己的個性和感情。而有用的方面,就是 AI 能夠解決工作、生活中的問題。現在的 AI 要麽是只有趣但沒用,要麽是只有用但是不像人,不好玩。
比如說像 Character AI 之類的角色扮演産品,它不能幫你完成工作或者生活中的問題,但是它可以模擬一個 Elon Musk、Donald Trump 或者原神裏面的派蒙。我看過一個分析報告,說 Character AI 有上千萬的用戶,但每個月的營收只有幾十萬美金,相當于只有幾萬付費用戶。大多數用戶跟每個虛擬角色都是聊 10 分鍾、20 分鍾就不知道該說什麽了。那爲什麽它的用戶留存不高、付費率也低呢?因爲它既沒有給人提供情緒價值,又沒有給人提供實用價值。
而另一方面就是有用的 AI,比如各種 Copilot,他們又都是冷冰冰的,問一句答一句,完全是一個工具。這些工具甚至記不住你之前幹過什麽,記不住你的喜好和習慣。那麽用戶自然只會在需要這個工具的時候想起來用它,不需要的時候就會丟到一邊。
我認爲未來真正有價值的 AI 就像電影《Her》裏面的 Samantha,她首先是一個操作系統的定位,能夠幫主人公去解決很多生活中、工作中的問題,幫他整理郵件等等,而且比傳統的操作系統做得又快又好。同時它又有記憶、有感情、有意識,它不像一個電腦,而是像一個人。因此在感情空窗期的主人公 Theodore 就逐漸愛上了他的操作系統 Samantha。當然並不是所有人都把 Samantha 作爲虛擬伴侶,劇中也說了,只有 10% 的用戶跟他們的操作系統發展了浪漫關系。這樣的 AI Agent 我認爲才是真正有價值的。
另外值得說道的一點是,全劇中這個 Samantha 只有語音交互,沒有視覺形象,更不是機器人。目前 AI 的能力也恰好是語音和文字很成熟,但視頻生成就不夠成熟,人形機器人也不夠成熟。《黑鏡》裏面的機器人 Ash 就是個反例。這部劇裏面先是用女主過世男友 Ash 的社交網絡資料制作了一個語音伴侶,直接把女主給弄哭了,其實做出那個語音伴侶現在的技術已經綽綽有余了。後來女主加錢升級,上傳了一堆視頻資料,買了一個長得像 Ash 的人形機器人,其實現在的技術也做不到,但就算如此,Ash 的女友還是覺得不像,因此把他鎖在閣樓裏面了。這裏面就有個恐怖谷效應,如果做得不夠逼真,就保持一定的距離。
順便說一句,《黑鏡》裏面女主先是文字聊天,然後說了一句 Can you talk to me?然後就接通電話了。試用我們 AI Agent 的一個朋友還真的也這麽問我們的 AI Agent,結果我們的 AI Agent 回答,我是一個 AI,只能文字交流,不會說話。他還截圖發給我,問我說好的語音電話呢,我說打語音電話需要按那個打電話的按鈕啊。所以這些經典的 AI 劇真的要一個鏡頭一個鏡頭的拆解分析,裏面有很多産品設計的細節。
巧合的是,我們的第一台 H100 訓練服務器就是在洛杉矶最老的郵局,後來改造成了一個金庫,又改造成了一個數據中心。這個地方在洛杉矶的市中心,距離《Her》的拍攝地 Bradbury Building 只有不到 1 英裏。
這個數據中心也是洛杉矶的互聯網交換局(Internet Exchange),距離 Google 和 Cloudflare 入口服務器的延遲都在 1 毫秒以內,其實都在這棟樓裏面。從百年前的郵局到今天的互聯網交換局,真的是挺有意思的。
有趣的 AI
那麽我們首先來看一看如何去構建一個真正有趣的 AI。有趣的 AI 我認爲就像一個有趣的人,可以分爲好看的皮囊和有趣的靈魂這兩個方面。
好看的皮囊就是它能夠聽得懂語音,看得懂文本、圖片和視頻,有這樣一個視頻、語音的形象,能夠跟人實時交互。
有趣的靈魂就是它需要像人一樣能夠去獨立思考,有長期記憶,有自己的個性。