吳恩達：現在做GPT-4智能體，或將提前達到GPT-5效果

2024033114:23

Andrej還鼓勵創業者，認爲CEO首先專注于構建性能最佳的模型，然後再考慮降低成本；其次，積極分享經驗和知識，促進生態系統的健康發展；最後，創業者需要關注，如何幫助初創公司在與大科技公司的競爭中取得成功。

“通向AGI 的道路更像是一段旅程，而不是一個目的地，但我認爲這種智能體工作流可能幫助我們在這個非常長的旅程上邁出一小步。”吳恩達在演講結尾表示。

以下是吳恩達的演講全文，由@baoyu.io進行翻譯整理，钛媒體App編輯進行部分人工修正：

我期待與大家分享我在 AI 智能體方面的發現，我認爲這是一個令人興奮的趨勢，所有涉及 AI 開發的人都應該關注。同時，我也對所有即將介紹的"未來趨勢"充滿期待。

所以，讓我們來談談 AI 智能體。

現在，我們大多數人使用大語言模型的方式就像這樣，通過一個無智能體的工作流程，我們輸入一段提示詞，然後生成一段答案。這有點像你讓一個人編寫一篇關于某個主題的文章，我說你只需要坐在鍵盤前，一氣呵成地把文章打出來，就像不允許使用退格鍵一樣。盡管這項任務非常困難，但大語言模型的優秀表現卻令人驚訝。

與此相對，一個有 AI 智能體的工作流可能是這樣的。讓 AI 或者大語言模型寫一篇文章的提綱。需要在網上查找一些東西嗎？如果需要，那就去查。然後寫出初稿，並閱讀你自己寫的初稿，思考哪些部分需要修改。然後修改你的初稿，然後繼續前進。所以這個工作流是叠代的，你可能會讓大語言模型進行一些思考，然後修改文章，再進行一些思考，如此反複。很少有人意識到，這種方式的結果更好。這些 AI 智能體的工作流程的效果讓我自己都感到驚訝。

我要做一個案例研究。我的團隊分析了一些數據，用的是一個名爲"人類評估基准"的編程基准，這是 OpenAI 幾年前發布的。這個基准包含一些編程問題，比如給出一個非空的整數列表，求出所有奇數元素或者奇數位置上的元素之和。答案可能是這樣一段代碼片段。現在，我們很多人會使用零樣本提示，意思是我們告訴 AI 寫代碼，然後讓它一次就運行。誰會這樣編程？沒有人會這樣。我們只是寫下代碼然後運行它。也許你會這樣做。我做不到。

所以事實上，如果你使用 GPT 3.5 進行零樣本提示，它的正確率是 48%。GPT-4 的表現要好得多，正確率是 67%。但是，如果你在 GPT 3.5 的基礎上建立一個 AI 智能體的工作流，它甚至能比 GPT-4 做得更好。如果你將這種工作流應用于 GPT-4，效果也非常好。你會注意到，帶有 AI 智能體工作流的 GPT 3.5 實際上優于 GPT-4。這意味著這將對我們構建應用程序的方式産生重大影響。

AI 智能體這個術語被廣泛討論，有很多咨詢報告討論關于 AI 智能體，AI 的未來等等。我想更實質性地與你分享我在 AI 智能體中看到的一些常見設計模式。這是一個複雜混亂的領域，有大量的研究，大量的開源項目。有很多東西正在進行。但我試圖更貼切地概述 AI 智能體的現狀。

反思是我認爲我們大多數人應該使用的一個工具。它確實很有效。我認爲它應該得到更廣泛的應用。這確實是一種非常穩健的技術。當我使用它們時，我總能讓它們正常工作。至于規劃和多智能體協作，我認爲它是一個新興的領域。當我使用它們時，有時我會對它們的效果感到驚訝。但至少在此刻，我不能確定我總是能讓它們穩定運行。所以讓我在接下來的幾頁幻燈片中詳細介紹這四種設計模式。如果你們中有人回去並親自嘗試，或者讓你們的工程師使用這些模式，我認爲你會很快看到生産力的提升。

所以，關于反思，這是一個例子。比如說，我要求一個系統爲我編寫一項任務的代碼。然後我們有一個編程智能體，只需給它一個編碼任務的提示，比如說，定義一個執行任務的函數，編寫一個這樣的函數。一個自我反思的例子就是，你可以這樣對大語言模型進行提示。這是一段爲某個任務編寫的代碼。

然後把它剛生成的完全一樣的代碼再呈現給它。然後讓它仔細檢查這段代碼是否正確、高效且結構良好，像這樣提出問題。結果顯示，你之前提示編寫代碼的同一大語言模型可能能夠發現像第五行的 bug 這樣的問題，並修複它。等等。如果你現在把它自己的反饋再次呈現給它，它可能會創作出版本二的代碼，這個版本可能比第一個版本表現得更好。

雖然不能保證，但是在大多數情況下，這種方法在許多應用中值得嘗試。提前透露一下，如果你讓它運行單元測試，如果它沒有通過單元測試，那麽你可以詢問它爲什麽沒有通過單元測試？進行這樣的對話，也許我們可以找出原因，沒能通過單元測試，所以你應該嘗試改變一些東西，然後生成 V3 版本的代碼。順便說一句，對于那些想要了解更多關于這些技術的人，我對這些技術感到非常興奮。對于講解的每個部分，我都在底部附有一些推薦閱讀的資料，希望能提供更多的參考。

再次預告一下多智能體系統，我描述的是一個編程智能體，你可以提示它和自己進行這樣的對話。這個想法的一個自然演變就是，不只有一個編程智能體，你可以設定兩個智能體，一個是編程智能體，另一個是評審智能體。這些都可能基于同一款大語言模型，只是我們提供的提示方式不同。

我們對一方說，你是編程專家，請寫代碼。對另一方我們會說，你是代碼審查專家，請審查這段代碼。實際上，這樣的工作流程非常便于實施。我認爲這是一種非常通用的技術，能夠適應各種工作流程。這將顯著提升大語言模型的性能。

第二種設計模式是使用工具。你們中的許多人可能已經看到過基于大語言模型的系統如何使用工具。左邊是來自副駕駛的截圖，右邊是我從 GPT-4 中提取的部分內容。然而，如果你讓今天的大語言模型去回答網頁搜索中哪款複印機最好這樣的問題，它會生成並運行代碼。實際上，有很多不同的工具，被許多人用來進行分析，收集信息，采取行動，提高個人效率。

早期在工具使用方面的研究，大部分來自計算機視覺社區。因爲在大語言模型出現之前，它們無法處理圖像。所以，唯一的選擇就是讓大語言模型生成一個可以操作圖像的函數，比如生成圖像或者進行物體檢測等。因此，如果你仔細研究相關文獻，你會發現很多工具使用的研究看似起源于視覺領域，因爲在 GPT-4 和 LLaVA 等出現之前，大語言模型對圖像一無所知。這就是工具的使用，它擴大了大語言模型的應用範圍。

接下來是規劃。對于那些還未深入研究規劃算法的人，我覺得很多人都會談到 ChatGPT 的震撼時刻，那種前所未有的感覺。我覺得你們可能還沒有使用過規劃算法。有很多人會感歎，哇，我沒想到 AI 智能體能做得這麽好。我曾經進行過現場演示，當某件事情失敗了，AI 智能體會重新規劃路徑來規避失敗。事實上，已經有好幾次我被自己的 AI 系統的自主能力所震驚了。

我曾經從一篇關于 GPT 模型的論文中改編過一個例子，你可以讓它生成一張女孩正在讀書的圖片，與圖片中的男孩姿勢一致，例如，example.jpeg，然後它會描述新圖片中的男孩。利用現有的 AI 智能體，你可以決定首先確定男孩的姿勢，然後找到合適的模型，可能在 HuggingFace 這個平台上，來提取姿勢。接下來，你需要找到一個後處理圖像的模型，合成一張根據指令的女孩的圖片，然後使用圖片轉化爲文本，最後使用文本轉化爲語音的技術。

目前，我們有一些 AI 智能體，雖然它們並不總是可靠，有時候會有些繁瑣，不一定能成功，但是一旦它們成功了，效果是相當驚人的。有了這種智能體循環的設計，有時候我們甚至可以從之前的失敗中恢複過來。

我發現我已經開始在一些工作中使用這樣的研究型智能體，我需要一些研究，但是我並不想自己去搜索，花費大量的時間。我會將任務交給研究型智能體，過一會兒再回來看它找到了什麽。有時候它能找到有效的結果，有時候則不行。但無論如何，這已經成爲我個人工作流程的一部分了。

最後一個設計模式是多智能體協作。這個模式可能看起來有些奇怪，但實際效果比你想象的要好得多。左邊是一篇名爲"Chat Dev"的論文的截圖，這個項目是完全開放的，實際上已經開源了。許多人可能見過那些炫耀的社交媒體發布的"Devin"的演示，在我的筆記本電腦上也可以運行"Chat Dev"。

"Chat Dev"是一個多智能體系統的例子，你可以設置一個大語言模型（LLM）去扮演軟件工程公司的 CEO、設計師、産品經理，或者測試員等角色。你只需要告訴 LLM，你現在是 CEO，你現在是軟件工程師，然後它們就會開始協作，進行深入的對話。

如果你告訴它們去開發一個遊戲，比如 GoMoki 遊戲，它們會花幾分鍾來編寫代碼，測試，叠代，然後生成出驚人的複雜程序。雖然並不總是成功，我也遇到過失敗的情況，但有時它的表現讓人驚歎，而且這個技術正在不斷進步。

另外，另一種設計模式是讓不同的智能體辯論，你可以有多個不同的智能體，比如 ChatGPT 和 Gemini 進行辯論，也是一種有效提升性能的模式。所以，讓多個模擬的 AI 智能體協同工作，已經被證明是一個非常強大的設計模式。

總的來說，這些就是我觀察到的設計模式，我認爲如果我們能在工作中應用這些模式，我們可以更快地提升 AI 效果。我相信智能體推理設計模式將會是一個重要的發展方向。

這是我的最後一張幻燈片。我預計，人工智能能做的任務將在今年大幅度擴展，這是由于智能體工作流的影響。有一點人們可能難以接受的是，當我們向 LLM 發送提示詞時，我們希望馬上得到回應。實際上，十年前我在谷歌進行的一項名爲"大盒子搜索"的討論中，我們輸入很長的提示詞。

我當時未能成功推動這一點，因爲當你進行網絡搜索時，你希望在半秒鍾內得到回應，這是人性。我們喜歡即時的反饋。但是對于很多智能體工作流程，我認爲我們需要學會將任務委派給 AI 智能體，並且耐心等待幾分鍾，甚至可能需要等待幾個小時來獲取回應。

就像我看到的許多新手經理，他們將任務委派給別人，然後五分鍾後就去查看情況，這並不高效，我們也需要對一些 AI 智能體這樣做，盡管這非常困難。我以爲我聽到了一些笑聲。

另外，快速生成 token 是一個重要的趨勢，因爲我們在不斷叠代這些智能體工作流程。LLM 爲自己閱讀生成 token，能夠比任何人都快速生成 token 更棒。我認爲，甚至來自稍微質量低點的 LLM，也能快速生成更多的 token，可能會得到好的結果，相比之下，從質量更好的 LLM 中慢速生成 token，也許會不盡如人意。這個觀點可能會引起一些爭議，因爲它可能讓你在這個過程中多轉幾圈，就像我在第一張幻燈片上展示的 GPT-3 和智能體架構的結果一樣。

坦率地說，我非常期待 Claude 4，GPT-5，Gemini 2.0, 以及正在建設中的所有其他精彩模型。在我看來，如果你期待在 GPT-5 零樣本學習上運行你的項目，你可能會發現，通過在早期模型上使用智能體和推理，你可能比預期更早地接近 GPT-5 性能水平。我認爲這是一個重要的趨勢。

誠實地說，通向通用人工智能的道路更像是一段旅程，而不是一個目的地，但我認爲這種智能體工作流可能幫助我們在這個非常長的旅程上邁出一小步。謝謝。---（钛媒體/作者 : 林志佳｜钛媒體AGI）

我要留言

吳恩達：現在做GPT-4智能體，或將提前達到GPT-5效果

是人類未來還是“終極挑戰”，博鳌熱議 AI 機遇與風險

在全面“本地化”前，所有AI PC都是“僞AI PC”？

是人類未來還是“終極挑戰”，博鳌熱議 AI 機遇與風險

在全面“本地化”前，所有AI PC都是“僞AI PC”？