華爲“天才少年”4萬字演講:現在的AI技術要麽無趣,要麽無用-(6)
我們的後端同事總是把語音識別叫做 “翻譯”,我一開始不理解,後來發現確實很像是國際談判會議中的翻譯。一方說一句話,翻譯員翻譯一句,這時候對面才能聽懂。對面回答一句話,翻譯員翻譯,然後才能聽懂。這種國際會議的溝通效率都不是很高。傳統語音方案中,大模型聽不懂聲音,所以需要先把聲音按照句子停頓分隔開,使用語音識別翻譯成文本,送給大模型,大模型把輸出的內容拆成一句一句的,使用語音合成翻譯成語音,因此整個流程的延遲很長。我們人類是聽一個字想一個字,絕不會聽完一整句話之後才開始想第一個字。
要想做到極致的延遲,就需要端到端的語音大模型。也就是把語音經過合適的編碼後,直接變成 token 流輸入到大模型。大模型輸出的 token 流經過解碼,直接生成語音。這種端到端模型可以實現 0.5 秒以內的語音響應時延。Google Gemini 的演示視頻就是 0.5 秒的語音響應時延,我認爲端到端語音大模型是做到這麽低時延最可行的方案。
除了降低時延,端到端語音大模型還有另外兩個重要優勢。
第一,它可以識別和合成任何聲音,除了說話,還包括唱歌、音樂、機械聲、噪聲等。因此我們可以把它叫做一個端到端聲音大模型,而不僅僅是語音大模型。
第二,端到端模型可以減少語音/文字轉換導致的信息丟失。例如在現在的語音識別中,識別出的文字會丟失說話人的情感和語氣信息,而且由于缺少上下文,專有名詞經常識別錯誤。在現在的語音合成中,爲了讓合成的語音帶有情感和語氣,一般需要在大模型的輸出文本中進行適當的標注,再訓練語音模型來根據標注生成不同的情感和語氣。使用端到端聲音大模型後,識別和合成就會天然帶有情感和語氣信息,並且可以根據上下文更好地理解專有名詞,語音理解的准確率和語音合成的效果都能顯著提升。
有趣的靈魂:性格匹配
在結束有趣的 AI 部分之前,我們來思考最後一個問題:如果我們的 AI Agent 是一張白紙,比如我們做一個智能語音助手,或者我們有好幾個 AI 形象需要匹配最合適的,那麽他/她的性格是跟用戶越相似越好嗎?
市面上測試伴侶匹配度的問卷一般都是一些主觀問題,比如 “你們在一起是否經常吵架”,這對設定 AI Agent 的人設來說完全沒用,因爲用戶跟 AI 還不認識呢。因此我剛開始做 AI Agent 的時候,就想搞一種完全客觀的方法,根據社交網絡上的公開信息來推測用戶的性格和興趣愛好,然後匹配 AI Agent 的人設。
我把自己比較熟悉的一些女生的社交網絡公開 profile 交給大模型,結果發現匹配度最高的竟然是我的前女友。用大模型的話來說,我們在很多方面就像做過 alignment 一樣。但我們最終也沒能走到一起。那個這個匹配度測試出了什麽問題呢?
首先,社交網絡上的公開信息一般包含的都是每個人性格中正面的一面,但不包含其中負面的一面。就像《黑鏡》裏面女主並不喜歡根據男主社交網絡信息做出來的機器人 Ash,因爲她發現機器人 Ash 在一些負面情緒上跟真實的 Ash 完全不一樣。我算是比較喜歡分享生活的人,但我的 blog 裏面負面情緒也比較少。如果 AI Agent 和用戶負面情緒的點正好撞在一起,那就很容易炸。
其次,性格和興趣各個維度的重要性並不是等價的,有的方面一個不匹配就可能抵消了很多其他方面的匹配。這張圖就是 Myers Briggs 的 MBTI 性格匹配圖,其中藍色的格子是最匹配的,但是它們都不在對角線上,也就是性格非常相似的都是比較匹配,但不是最匹配。最匹配的是什麽呢?S/N(感覺/直覺)和 T/F(思考/情感)這兩個維度最好是相同的,而另外兩個維度,內外向(E/I)和 J/P(判斷/感知)最好是互補的。
MBTI 裏面最重要的一個維度是 S/N(感覺/直覺),簡單來說,S(感覺)型的人更關注當下,而 N(直覺)型的人更關注未來。比如一個 S 型的人喜歡享受當下的生活,而像我這樣的 N 型人天天思考人類的未來。這張性格匹配圖裏面最不匹配的基本上都是 S/N 相反的。
因此,一個 AI Agent 如果要塑造成完美伴侶的形象,不是跟用戶的性格和興趣愛好越相似越好,而是需要在合適的地方形成互補。還要隨著交流的深入不斷調整 AI 的人設,尤其是在負面情緒方面需要跟用戶互補。
我當時還做了一個實驗,把一些我熟悉的情侶的社交網絡公開 profile 交給大模型,結果發現平均匹配度並沒有想象的那麽高。那麽爲什麽每個人沒有跟匹配度高的在一起呢?
第一,前面說過了,這個匹配度測試機制有 bug,匹配度高的並不一定就適合在一起。第二,每個人的社交圈子其實都很小,一般也沒有這麽多時間一個一個嘗試去匹配篩選。大模型可以幾秒鍾讀完 10 萬字的資料,比量子波動速讀還快,人可沒這個本事,只能憑直覺大概匹配一下,再在相處中慢慢了解和適應。其實匹配度不高也並不一定不幸福。
大模型爲我們提供了新的可能,用真人的社交網絡 profile 測匹配度,可以幫我們從茫茫人海中篩選潛在伴侶。比如告訴你學校裏的學生哪些是最匹配的,這樣遇到合適妹子的概率就大大增加了。匹配度源自性格、興趣、三觀、經曆的相似度,不是單個人的絕對評分而是一個兩兩關系,並不會出現大家都喜歡少數幾個人這種情況。
AI 甚至還可能爲我們創造實際中很難遇到的完美伴侶形象。但是沈迷于這樣的虛擬伴侶是不是一件好事,不同的人大概有不同的看法。更進一步,如果 AI 完美伴侶有了自己的意識和思考,還能主動跟世界交互,有了自己的生活,那可能用戶的沈浸感就會更強,但那是不是就成了數字生命?數字生命又是一個極具爭議性的話題。
人的社交圈子很小,人類在宇宙中也很孤獨。費米悖論有一個可能的解釋,宇宙中很可能存在大量智能文明,但是每個文明都有一定的社交圈子,就像我們人類至今都沒有走出太陽系。在浩瀚的宇宙中,智能文明之間的相遇就像合適的伴侶相遇一樣可遇不可求。
大模型怎麽促成文明之間的相遇呢?因爲信息可能比物質更容易傳播到宇宙深處。我在 5 年前就想過,AI 模型可能成爲人類文明的數字化身,跨越人類肉體的時空限制,把人類真正帶到太陽系甚至銀河系之外,成爲星際文明。
有用的 AI
前面講了這麽多有趣的 AI,下面我們來聊聊有用的 AI。
有用的 AI 其實更多是一個大模型基礎能力的問題,比如複雜任務的規劃和分解、遵循複雜指令、自主使用工具以及減少幻覺等等,並不能通過一個外部的系統簡單解決。比如 GPT-4 的幻覺就比 GPT-3.5 少很多。區分哪些問題是模型基礎能力問題,哪些問題是可以通過一套外部系統來解決的,也是很需要智慧的。
其實有一篇很著名的文章叫做 The Bitter Lesson,它講的是凡是能夠用算力的增長解決的問題,最後發現充分利用更大的算力可能就是一個終極的解決方案。
Scaling law 是 OpenAI 最重要的發現,但是很多人對 Scaling law 還是缺少足夠的信仰和敬畏之心。
AI 是幹活快但不太靠譜的初級員工
在當前的技術條件下我們能做一個什麽樣的 AI 呢?
要搞清楚大模型適合做什麽,我們需要先想清楚一點:有用 AI 的競爭對手不是機器,而是人。工業革命裏面的機器是取代人的體力勞動,計算機是取代人的簡單重複腦力勞動,而大模型則是用來取代人更複雜一些的腦力勞動。所有大模型能做的事情,人理論上都能做,只是效率和成本的問題。
因此,要讓 AI 有用,就要搞清楚大模型到底哪裏比人強,揚長避短,拓展人類能力的邊界。
比如,大模型閱讀理解長文本的能力是遠遠比人強的。給它一本幾十萬字的小說或者文檔,它幾十秒就能讀完,而且能回答出 90% 以上的細節問題。這個大海撈針的能力就比人強很多。那麽讓大模型做資料總結、調研分析之類的任務,那就是在拓展人類能力的邊界。Google 是最強的上一代互聯網公司,它也是利用了計算機信息檢索的能力遠比人強這個能力。
再如,大模型的知識面是遠比人廣闊的。現在不可能有任何人的知識面比 GPT-4 還廣,因此 ChatGPT 已經證明,通用的 chatbot 是大模型一個很好的應用。生活中的常見問題和各個領域的簡單問題,問大模型比問人更靠譜,這也是在拓展人類能力的邊界。很多創意性工作需要多個領域的知識交叉碰撞,這也是大模型適合做的事情,真人因爲知識面的局限,很難碰撞出這麽多火花來。但有些人非要把大模型局限在一個狹窄的專業領域裏,說大模型的能力不如領域專家,因此認爲大模型不實用,那就是沒有用好大模型。
在嚴肅的商業場景下,我們更多希望用大模型輔助人,而不是代替人。也就是說人是最終的守門員。比如說大模型閱讀理解長文本的能力比人強,但我們也不應該把它做的總結直接拿去作爲商業決策,而要讓人 review 一下,由人做最終的決定。
這裏邊有兩個原因,第一個是准確性問題,如果說我們之前在 ERP 系統裏面做一個項目,回答這個部門過去十個月平均工資是多少?讓它生成一個 SQL 語句去執行,但是它總有 5% 以上的概率會生成錯,通過多次重複也仍然有一定的錯誤率,用戶不懂 SQL,在大模型把 SQL 寫錯的時候也沒法發現,因此用戶沒辦法判斷生成的查詢結果對不對。哪怕有 1% 的錯誤率,這個錯誤率還是不能忍受的,這就很難商用。
另外一個方面,大模型的能力目前只是達到一個入門級的水平,達不到專家級。華爲的一個高管給我們開會的時候就有一個很有意思的說法:如果你是領域專家,你會覺得大模型很笨;但是如果你是領域的小白,你就會發現大模型非常聰明。我們相信基礎大模型一定會進步到專家級,但是現在我們不能坐等基礎大模型的進步。
我們可以把大模型當成一個幹活非常快但不太靠譜的初級員工。我們可以讓大模型做一些初級的工作,比如寫一些基礎的 CRUD 代碼,比人寫得還快。但是你讓他去設計系統架構,去做研究解決技術前沿問題,那是不靠譜的。我們在公司裏也不會讓初級員工去做這些事情。有了大模型之後,相當于有了大量又便宜幹活又快的初級員工。怎麽把這些初級員工用好,是一個管理問題。
我的導師在我剛開始讀博的第一次會議上,就讓我們學一些管理。當時我還不太理解爲啥做研究還要學管理,現在我覺得導師講得太好了。現在重要的研究項目基本上都是團隊作戰,就必須要管理了。有了大模型之後,我們的團隊中又增加了一些 AI 員工,這些 AI 員工還不太靠譜,管理就更重要了。
AutoGPT 就是按照德魯克的管理學方法,把這些 AI 員工組織成一個項目,分工合作完成目標。但 AutoGPT 的流程還是相對僵化的,因此經常在一個地方原地轉圈圈,或者走進死胡同裏。如果把企業中管理初級員工的一套機制、項目從立項到交付的一套流程引入 AutoGPT,可以讓 AI 員工幹得更好,甚至有可能做成像 Sam Altman 說的那樣,只有一個人的公司。
當前有用的 AI Agent 大致可以分成兩類:個人助理和商業智能。
個人助理類的 AI Agent,其實已經存在很多年了,比如手機上的 Siri、小度智能音箱。最近一些智能音箱産品也接入了大模型,但是由于成本問題還不夠聰明,語音響應延遲還比較高,而且也沒有辦法做 RPA 跟手機 App 或者智能家居設備互動。但這些技術問題最終都是能解決的。
很多創業公司都想做通用的語音助手或者智能音箱,但我覺得這些大廠還是有入口優勢。大廠不做是因爲成本、隱私等多方面的考慮,一旦大廠哪一天下場了,創業公司有什麽競爭優勢?反倒是結合一些品牌 IP 做智能互動手辦,或者 Rewind、AI Pin 這些有設計感的智能硬件,可能有一些空間。
商業智能類的 AI Agent,數據和行業 know-how 是護城河。數據是大模型的關鍵,特別是行業知識,公開語料中可能根本沒有。OpenAI 不僅強在算法上,更是強在數據上。
在産品方面,我認爲基礎模型公司應該學習 OpenAI 的 1P-3P 産品法則。什麽意思呢?只要一兩個人(1P)開發的産品就自己(first Party)做,需要三個人(3P)以上開發的産品就讓第三方(third Party)做。
比如 OpenAI API、ChatGPT、GPTs Store 這些産品,都不是特別複雜,一個人做個 demo 足夠了。就算是比較成熟的産品,也不需要一個很大的團隊。這種就是 1P 産品。
而比較複雜的行業模型、特定場景下複雜任務的規劃求解、複雜的記憶系統,就不是一兩個人能夠搞定的。這種 3P 産品就適合讓第三方去做。
基礎模型公司應該專注于基礎模型能力和 infra,相信 scaling law,而不是不斷打補丁。基礎模型公司最忌諱的就是投入大量高級工程師和科學家去做雕花的事情,搞了一堆 3P 産品,最後又沒有相關的客戶關系,賣不出去。3P 産品最重要的可能是數據、行業 know-how 和客戶資源,不一定是技術。
這就是爲什麽上一波 AI 創業公司很難賺錢,因爲上一波 AI 不夠通用,最後都是一些需要大量定制的 3P 産品,坐擁大量高薪科學家的明星創業公司反倒不一定打得過雇了一堆大專程序員的接地氣公司,後者雖然估值上不去,甚至都入不了投資人的法眼,但現金流每年都是正的。
下面幾個 “有用 AI” 的例子都是一兩個人可以開發的 1P 産品,其實也很有用了。
有用 AI 的 1P 産品例子
第一個有用 AI 的例子是導遊,這也是我開始創業之後嘗試做的第一個 AI Agent。
當時我一個人來美國出差,同住的幾個朋友要麽工作很忙要麽比較宅,而我很喜歡出去玩。我在 LA 的朋友也不多,所以我就想做一個 AI Agent 陪我一起出去玩。
我發現 GPT-4 真的知道很多著名景點,甚至還能幫你做行程規劃。比如說我要去約書亞樹國家公園玩一天,就可以規劃出早上去哪、中午去哪、下午去哪,每個地方的停留時間還都比較合理。當然要用英文問,用中文的效果就會差一些。可以說網上有旅遊攻略已經包含了這些信息,但用搜索引擎把合適的攻略找出來並不容易。之前我每次出去玩都要提前一天做攻略,現在路上跟 AI Agent 聊幾句就都搞定了。
我去 USC 玩的時候,剛進校園就遇到了一波遊客,他們想找個學生帶他們逛校園。我就說我也是第一次來 USC,但是我是做 AI Agent 的,可以讓 AI Agent 帶我們轉一轉。老外遊客們很 nice 的就跟我一起走了。AI Agent 給我們推薦了 USC 校園最著名的幾個建築。每到一個景點,我會讓 AI Agent 語音講講這裏的曆史,大家覺得就像請了個導遊一樣靠譜,說 ChatGPT 也應該增加這個功能。第二天的 OpenAI dev day 上展示的應用場景果然就有旅行助理。
朋友帶我去約書亞樹國家公園玩的時候,門口有一個 “禁止露營” 的標志,我們不知道是啥意思,就分別用 GPT-4V 和我們公司的 AI Agent 去做圖片識別,結果 GPT-4V 答錯了,我們的 AI Agent 反而答對了。當然這不是說我們的 AI Agent 比 GPT-4V 還厲害,對錯都是有概率的。一些知名的地標 AI Agent 也是可以識別出來的,比如斯坦福校園的紀念教堂。
不要小看大模型知道很多著名景點這個能力。論知識面,沒有人能夠比得過大模型。比如 2022 年,有個朋友跟我說住在爾灣,我那時候甚至沒有聽說過爾灣。我問爾灣在哪,朋友說爾灣在橙縣,橙縣在加州,我查了半天地圖和 Wiki 才搞清楚爾灣、橙縣到底是個什麽關系,爲啥不直接說是在洛杉矶。我老婆前段時間也分不清爾灣和灣區。我們也不算信息特別閉塞的人,但每個地方的生活常識並不是看起來那麽顯然。
去過這些地方的人會覺得這些常識很容易記住,那是因爲人輸入的是多模態數據。現在的大模型可沒有地圖和圖片可看,僅靠文本訓練語料就能夠上知天文,下知地理,已經很不容易了。
第二個有用 AI 的例子,也是我在華爲探索過的項目,是企業 ERP 助手。
用過 ERP 系統的都知道,從複雜的圖形界面裏找到一個功能非常困難,而且有些需求很難點點圖形界面就能完成,因此要麽把數據導出到 Excel 表裏面處理,甚至還得用 Pandas 這類專門的數據處理工具。
我們知道大多數人都能把需求用自然語言描述清楚。大模型就提供了一種全新的自然語言用戶界面(LUI),用戶描述自己的意圖,AI Agent 就可以把活幹完。GUI 是所見即所得,LUI 是所想即所得。
大模型並不擅長處理大量數據,因此 ERP 助手並不是讓大模型處理原始數據,而是用大模型將用戶的自然語言需求自動轉換成 SQL 語句,然後再去執行 SQL 語句。這個代碼生成的路線在很多場景下都是比較靠譜的,這裏的代碼不一定是 SQL、C、Python 這樣的通用編程語言,也包括 IDL(接口描述語言),也就是特定的數據格式。比如大模型要調用 API,輸出的文本格式奇奇怪怪,讓大模型輸出特定格式的 JSON 就老實了。
我最早在華爲探索企業 ERP 助手的時候,大模型的基礎能力還比較差,因此生成的 SQL 語句錯誤率比較高,而且也不夠穩定。但用 GPT-4 生成 SQL 語句的准確率還是挺高的。
利用 GPT-4,我跟國科大合作的一個 AI Agent 實踐課題,沒有很多 AI 基礎的本科和研究生同學也能從頭獨立實現企業 ERP 助手,不僅能支持這一頁 PPT 上左邊顯示的這 10 個只讀查詢,同學們還自己實現了增加、刪除、修改數據的支持,右邊這 7 個修改查詢也都支持了。
大家可以看到,這裏面的很多需求都是挺複雜的,如果要程序員在 GUI 上開發這些需求,一個人估計至少得搞一周。而且 ERP 的開發是一個從需求到設計、實現、測試、發布的流程,整個流程走下來,不知道多久過去了,而且中間産品經理的信息傳遞可能還存在誤差。
因此傳統 ERP 行業的本質挑戰就是各行各業無窮無盡的定制化需求和有限的開發人力之間的矛盾,開發 ERP 的産品經理和程序員不懂行業 know-how,這些寶貴的行業 know-how 就很難通過流程的方式沈澱下來。大模型有望通過 “意圖驅動” 也就是 “所想即所得” 的方式徹底改變 ERP 的産品邏輯。
未來每個程序員都有大模型輔助之後,需求描述能力、架構設計能力和技術表達能力一定是最重要的。因爲每個程序員可能都相當于一個架構師 + 産品經理 + committer,指揮著一堆 AI Agent 作爲 “基層 AI 程序員”,給這些 AI Agent 布置需求、設計架構、驗收代碼,還需要跟真人同事和上級溝通和彙報工作。
我發現很多基層程序員恰恰是在需求描述、架構設計、技術表達這幾方面存在欠缺,只會悶頭寫代碼。特別是技術表達能力,每次任職資格答辯都不能用 What-Why-How 的方式有條理的講清楚自己做的東西。私下裏還覺得萬般皆下品,唯有代碼高,把技術表達能力強的同事稱爲 “PPT 專家”。那未來真的是有被淘汰的風險。
第三個有用 AI 的例子是大模型采集數據。
收集數據是一件非常麻煩的事情。比如,如果要收集一個實驗室裏每個教授和學生的信息,例如需要包括如下信息:
姓名
照片(如果有,就下載下來,注意網頁上的圖片不一定是人的照片)
職稱(例如:教授)
研究方向(例如:數據中心網絡)
簡介
專業的數據采集公司是用正則表達式或者 HTML 元素路徑匹配頁面中固定位置的內容,每個版式不同的頁面都需要 1 小時左右的開發時間來定制爬蟲,開發成本很高。對于每個院系、實驗室、老師主頁格式都不相同的情況,開發這種匹配頁面中固定位置的爬蟲,有時還不如手工一個一個頁面訪問,複制粘貼快。
而且還有一些網頁上有反爬機制,例如把郵箱寫成 bojieli AT gmail.com 這種格式,雖然通過正則表達式也能匹配出其中一些情況,但總是無法窮盡所有情況。
大模型采集數據其實就是讓大模型模擬人去點擊網頁,讀網頁中的內容,提取網頁中的內容,網頁中的每個字都經過大模型的 “大腦” 讀了一遍。因此,大模型采集數據本質上就是利用了大模型閱讀速度比人快這個特點。
具體來說,就是自動找到網頁中的所有鏈接,訪問鏈接,將網頁內容轉換成文本,調用 GPT-4 判斷是否是教師或學生主頁,如果是的話,就用 JSON 格式輸出姓名、E-mail 等信息。然後解析 JSON,存入數據庫。對于老師照片,可以使用 GPT-4V 對網頁中的圖片進行分析,判斷是否是單人照片,如果是單人照片就保存下來。
大模型提取網頁中的內容有什麽缺點呢?如果用 GPT-4,缺點就是成本高,讀一個網頁的成本大約需要 0.01~0.1 美金。而傳統爬蟲的數據采集方法,一旦寫好爬蟲腳本,爬一個網頁的 CPU 和帶寬成本只有萬分之一美金,幾乎可以忽略不計。
好在這種姓名、郵箱等基本信息提取並不需要 GPT-4 這麽強的模型,GPT-3.5 級別的模型就足夠了。識別圖片是否包含單張人臉,也有傳統 CV 的人臉檢測算法。要獲取其他照片並做標注的話,MiniGPT-4/v2 這樣的開源多模態模型也足夠了。這樣讀一個網頁的成本就是 0.001~0.01 美金。
如果我們覺得 GPT-3.5 Turbo 讀一個長網頁的 0.01 美金還是太高了,可以先截取網頁中開頭的部分,如果識別出確實是教師主頁,但內容中缺失具體信息,再去讀後續的網頁內容。這就像人肉數據...---[來源: 钛媒體/钛媒體AGI]