華爲“天才少年”、Logenic AI聯合創始人李博傑:AI Agent的下一站,是有趣又有用
以下內容來自知乎AI先行者沙龍實錄
演講人:Logenic AI聯合創始人、華爲“天才少年”李博傑
非常榮幸能夠認識大家,也非常榮幸能夠來知乎AI的先行者沙龍來做分享,我是李博傑,Logenic AI聯合創始人。目前AI Agent非常火,比如說參加路演70多個項目,一半多都是跟AI Agents相關的項目,AI Agents的未來會是什麽樣子呢?它未來應該是更有趣還是更有用呢?
我們知道AI的發展目前一直有兩個方向,一個是有趣的AI,也就是更像人的AI,另外一個方向就是更有用的AI。AI應該更像人還是更像工具呢?其實是有很多爭議的。
OpenAI的CEO Sam Altman,他就說AI應該是一個工具,它不應該是一個生命,但是我們現在所做的事正好相反,我們現在其實是讓AI更像人。很多科幻電影裏的AI就更像人,比如說《Her》裏面的 Samanthsa,還有《流浪地球2》裏面的圖丫丫,《黑金》裏面有Ash,所以我們希望能把這些科幻中的場景帶到現實。
除了這個有趣和有用兩個方向之外,還有一個上下的維度,就是快思考和慢思考。有一本書叫《思考快與慢》,它裏面就說人的思考可以分爲快思考和慢思考,快思考就是人下意識地想,不需要過腦子的,像ChatGPT這種一問一答就可以認爲是一種快思考,因爲你不問它問題的時候,它不會主動去找你。而慢思考呢?就是有狀態的這種複雜的思考,也就是說如何去規劃和解決一個複雜的問題,做什麽,後做什麽。
比如說很多人都在講AGI的故事,AGI就是通用人工智能,什麽是AGI呢?我覺得它又需要有用、又需要有趣。有趣的方面呢,就是它需要能夠有自主思考的能力,有自己的個性和感情,而有用的方面呢,就是AI能夠解決工作的問題、生活中的問題。現在的AI大部分是只有趣沒有用,要麽是只有用但是沒有太多意識。
比如說像 Character AI 之類的,它不能幫你完成工作或者生活中的問題,但是它可以模擬一個Elon Musk 或者 Donald Trump。所以說這個平台好多人就擔心用戶留存不高,付費率也低,這個問題最關鍵是它沒有給用戶帶來實際的幫助。
另一方面就是有用的 AI,但他們又都是冷冰冰的,問一句答一句,很像一個工具。我認爲未來真正有價值的AI就像電影《Her》裏面的 Samantha,她首先是一個操作系統的定位,能夠幫主人公去解決很多生活、工作中的問題,幫他整理郵件等等。同時它又有記憶、有感情、有意識,它不像一個電腦,而是像一個人,這樣的Agent我認爲才是真正有價值的。
我們來看一看如何去構建一個真正有趣的 AI。有趣的AI就像一個有趣的人,可以分爲好看的皮囊和有趣的靈魂這兩個方面。好看的皮囊就是說它能夠聽得懂語音,看得懂文本、圖片和視頻,有這樣一個視頻的形象。有趣的靈魂方面就是它需要像人一樣能夠去獨立思考。
我們剛才提到這個好看的皮囊很多人就認爲只要有一個3D的形象能夠在這兒搖頭晃腦地展示就行了,但是我認爲更關鍵的一部分是AI能夠去看到,並且理解周圍的視覺。它的視覺理解能力是很關鍵的,不管是機器人還是可穿戴設備,或者是攝像頭。我覺得 Google 的 Gemini 演示視頻就做得不錯,雖然它做過剪輯,但如果真正能做到它這麽高的效果,那它對于用戶是非常有效的。那這個效果是不是很難做出來呢?其實我們現在用開源的方案就可以做出來。
比如說現在很有前景的一個方向,就是用多模態的數據去端到端地訓練一個模型。還有一種工程化的方案呢,是我用膠水去粘這些已經訓練好的模型,或者直接用文本去粘,用這種方法就可以做出來它演示視頻中那樣的實時性和效果。比如說我先做一個關鍵祯的提取,把圖片輸入到一個多模態模型裏邊,因爲它的文本識別能力比較低,所以說我還要用OCR,還有一些傳統的物體識別的方法進行一些輔助,我再去做這個生成,最後再去做語音、視頻和圖片的生成,其實它就已經能夠做得非常好了。我們知道圖片生成現在已經比較成熟,而視頻生成我覺得在2024年會是一個非常重要的方向,現在商用大部分都是like To D或者3D模型的技術,未來真正Transformer的方式會是一個很重要的方向。
剛才講到了好看的皮囊的這一塊,其實我覺得有趣的靈魂是市面上的AI公司差距更大的一個地方。目前我們市面上的 AI agents 大部分都是GPT,或者說一個開源模型套個殼。所謂套殼就是我寫一下人物的設定,還有樣標對話,然後讓大模型去生成一些內容。
但是我想這個prompt它一共就幾千字的內容,它怎麽能夠去把一個人物完整的曆史,它的個性、它的記憶、它的性格完全地規劃出來?它是非常難的,因此就是我就結合幾個例子來看一下目前我們的AI Agents距離有趣的靈魂還有哪些差距?比如說我去跟Character AI上面的馬斯克去聊天,同一個問題問5遍的話,他永遠都不會抓狂,對吧?每次都回複同樣的內容。
另外,你問他你第一次見面是什麽時候,他會隨便瞎編一個,這個不僅僅是大模型幻覺的問題,同時也反映了大模型缺少長期記憶的問題。
另外你問它馬斯克是誰,有的時候他說他是GPT,有的時候他說它是特朗普,它自己不知道它自己到底是誰。
實際上Google的Gemini也會有類似的問題,他甚至都把OpenAI和GPT這些關鍵詞都給屏蔽掉了,如果用中文問就變成文心一言或者小愛同學之類的問題,這、其實就是反映了它實際上沒有做好更多的身份問題的微調。
另外還有很多的深層的問題,比如說對AI人說:“我明天要去醫院看病”。那麽明天他會不會主動關心你看病結果怎麽樣?還有如果多個人在一起能不能正常聊天而不會互相搶麥?大家都說個沒完沒了,或者一句話敲到一半的時候,他會等你說完,還是說再問你其他的等等,還有很多類似的這樣的問題。
要解決這些問題需要一個系統的解決方案,我們認爲關鍵就是慢思考。其中的第一個問題就是長期記憶。長期記憶我認爲它關鍵是個信息壓縮的問題,我們認爲記憶不能等同于聊天記錄,我們知道大家和正常人聊天的時候不會不停地在那兒翻聊天記錄,但是現在ChatGPT的方式就是不停地翻聊天記錄,一個人真正的記憶應該是他對周圍的一個感知,而聊天記錄裏面的信息是零散的,不包含人對當前信息的一個感知、理解。
記憶裏邊也分爲很多種,比如實時性的記憶,比如說程序性的記憶,還有它的個性以及他的說話風格。在實時性記憶方面也有很多種方案,比如說我做文本總結的時候,我可以直接做一個聊天記錄的文本總結,也可以用一個指令的方式去訪問Map GPT之類的外部存儲,或者說在模型上面用embedding去做。
另外一方面像RAG,就是Retrieval Augmented Generation,它背後一定是一個信息檢索系統。好多人說我只要有一個向量數據庫就行了,但是我認爲這個RAG肯定不等同于向量數據庫,因爲大規模語料庫僅僅使用向量數據庫的匹配准確率是非常低的。比如說 Google的Bard比微軟的New Bing 效果好一些,這是因爲背後的搜索引擎的能力是不一樣的。
我覺得這三種技術也不是互斥的,它們也是互相補充的。比如說我的總結可能不是說一段總結而是針對每一個段聊天的內容都會去分別做一個總結,或者分門別類地針對每一個話題都去做一個總結,然後我再去用RAG的方法把它提取出來。
下一個問題就是AI agent會不會主動關心一個人。如果要讓AI agent學會主動關心人的話,它必須有一個內部的狀態,比如說每小時自動喚醒一次。每次用戶說了一個什麽事之後,它就會把對應的輸出更新一下。這個時候它自己的輸出就會變化,那它第二天的時候它就會去主動去關心用戶,或者說現在的內部狀態變成了用戶還沒回複,它不會反複不斷地去騷擾這個用戶?
還有一個更根本的問題,就是幾個Agent它能不能用語音來吵架,能不能像正常的人一樣一群人去交流?其實也有很多工程的方法可以做,但是我們有一種更根本的一個方法,就是我們能不能讓語言模型的輸入輸出都變成一個持續的token流,而不是像現在OpenAI的API這樣每次都是一個完整的context的一個方式。說大模型它本身就是個auto regressive的bottle,它源源不斷地在接收外部的token,它也可以接收自己前面內部思考的token,它也可以輸出到外部,這種方式有可能會實現更多的獨立的思考。
前面我們還提到了基于Prompt方式的一個缺點,就是缺少個性。之前幾位老師也提到了SFT和RLHF的重要性,像左邊這張圖就是Character AI做的,說話風格其實不太像川普。但是右邊這張圖就是我們基于微調的方法做的,他說話就可以看到內容非常的川普風。我們覺得微調是非常關鍵的,而微調的背後更關鍵的還是數據。我知道知乎有一個很有名的slogan,叫做“有問題才會有答案”。
但現在這個AI Agents基本上要人工去制作很多的問題和答案,爲什麽呢?比如說我如果去爬一個VT批量,然後VT批量裏面的VT長篇文章其實沒辦法直接用來做微調。必須把它組成從多個角度去提問,然後把它組織成問題和答案對稱的這樣一種方式才能去做微調。因此它需要大量的人工,一個Agent可能需要上千美金的成本才能訓練出來,但是如果我們把這個流程自動化,一個Agent可能只要幾十美金的成本就能夠做出來,其中就包含自動采集、清洗大量的數據等等。
我覺得咱們在場很多做大模型的同事都應該感謝知乎,爲什麽呢?因爲知乎給我們中文大模型提供了很重要的預訓練和微調的語料。在微調的過程中,我們也把它可以劃分成對話型和事實型的語料。對話型的話,它可能就是微調它的個性和說話的風格,而事實可能就是給它增加一些事實的記憶,所以我說覺得語料和數據真的是非常非常關鍵的一件事情。
剛才講到,除了有趣的AI,其實在有趣之外還有一些有用的AI,有用的AI這一塊其實更多的是一個大模型的基礎能力的問題,我們並不能通過一個外部的性能簡單去解決,比如說像複雜任務的規劃和分解、遵循複雜指令、自如使用工具以及減少幻覺等等。其實有一篇很重要的文章叫做The Bitter Lesson,也就是說凡是能夠用算力增長解決的問題,最後發現充分利用更長的算力可能就是一個終極的解決方案。
在當前的技術條件下我們能做一個什麽樣AI呢?我們更多的可能是做的是輔助人的,而不是代替人的。這裏邊有兩個原因,第一個是准確的問題,如果說我們之前在ERP系統裏面做一個項目,回答這個部門過去十個月平均工資是多少?讓它生成一個SQL語句去執行,但是它總有一個概率會回答錯,所以很難商用。
另外一個方面,大模型的商用能力目前只是達到一個入門級的水平,是一個普通人的水平,達不到專家級,所以我們有一個很有意思的說法,如果你是領域專家你會覺得大模型很笨,但是如果說你是領域的小白你就會發現大模型非常聰明,讓它做一些輔助性的工作會更加合適一些。
那麽有用的AI呢,實際上還有一個很根本的需求,就是支持慢思考、解決一些比較複雜的問題。比如說這裏邊一道比較複雜的數學問題,一個人一秒鍾他也回答不出來,大模型也一樣,大模型需要時間去思考,token就是大模型的時間,因此思維鏈是一種非常自然的一種慢思考的模式。
第二個例子就是用多步的網絡搜索去回答一些難題,比如說一個搜得不到答案,他要翻譯成多個子階段分別去解決。
還有一個例子是AI需要能夠自動調用工具。自動調用三個工具可能比較簡單,比如說ChatGPT他把說明書全部攤開,把數據全部寫進去就行了。但如果有一萬個工具我需要能夠全自動地使用,我不能把一萬個說明書都攤開在桌面上,我一定需要有大模型有一個自動的能力,或者是預訓練的時候就把這個工具使用的方式學進去。
剛才我們提到了有趣的AI和有用的AI兩個方面,這兩個AI哪個價值更高呢?我認爲有用的價值更高,因爲比如說有語音閑聊,一塊錢一個小時已經很不容易了,Character AI可能有上千萬的用戶,但是它每個月實際收入只有上千萬美金,大多數是不付費的。如果一些在線教育,甚至是更專業領域的比如心理咨詢、法律咨詢等等它可能收入更高,但是這裏邊更關鍵的問題是需要質量和品牌才能産生一個更高的附加價值。
我們也相信大模型的成本一定會快速降低,這也是剛才汪玉老師和各位老師都在講的問題,一方面是摩爾定律,另一方面大模型的進步,比如說現在Mistral AI 的 8 X 7B 的 MoE 模型可能相比LLaMA 70B成本降低30倍。用最早的推理框架去比較,我們就想未來會不會有一天能夠出現一個模型一秒鍾能輸出上萬個token、上億個token,這樣的計算能有什麽用呢?其實它不一定跟人交流特別快,但是它自己可以想得很快,可以跟其他Agent交流得特別快,比如說他需要多步網絡搜索去解決這個問題,人可能需要搜一個小時,未來的AI有沒有可能一秒鍾就解決了?這是有可能的。馬斯克不是有個說法,人類是AI的引導程序是吧,這個可能有點極端,但是未來的AI可能會遠遠超過人類的水平。
最後,是一個有點哲學的問題,我們距離數字生命到底還有多遠?知乎上有一句名言,先問是不是,再問爲什麽。先問我們要不要做數字生命?Sam Altman也說,AI不是一個生命,而是一個工具。我認爲,數字生命的價值在于讓每個人的時間變成無限的。最簡單的名人他沒有時間跟每個粉絲一對一交流,但是名人的數字分身是可以的。人類社會的很多稀缺性本質也是來自時間的稀缺性,如果時間變成了無限的,那麽這個世界就可能變得很不一樣。
比如說就像《流浪地球2》裏邊的圖丫丫就有了一個無限的時間,本質上肯定也是需要工作記憶和長期記憶爲基礎,接受多模態的輸入和輸出,核心的可能是一個Encoder、Decoder,再加上實現多模態輸入,它可能需要能夠去使用工具,能夠與其他 Agent社交。目前的 Agent 跟每個人的記憶都是互相隔離的,一個數字生命如果從小明這裏得到一個知識,他應該跟小紅聊天的時候也知道,但是如果說它在從小明這裏得到了一個秘密,跟小紅聊天的時候他可能就不能說,這也是一個很有意思的方向。
我們相信數字生命一定是能夠成爲現實的,而且它距離我們不是很遠,而且我們也一起在努力把它變成現實。非常感謝大家。---來源: 矽星人-