AI大軍接管六大科技巨頭，老板打工人皆是AI！效仿微軟組織結構，工作效率驚人

2024081217:12

【新智元導讀】你有沒有想過，或許未來某天，AI大軍完全能夠承擔公司重任，人類是否會淪為配角？

小扎堅信，「未來世界上AI智能體，將比人類還要多」。

那麽，如果這些AI也有企業文化，會怎樣？

它們是否也像人類一樣，既有手握決策大權的AI，也有苦哈哈幹活的AI。

幾個月前，OpenAI曾被曝出，內部定義了五級AGI路線，L5——組織者：可以完成組織工作的AI。

這所說的，或許就是未來公司的組織架構圖。

因為多個智能體的合作，正在崛起。

此前，一項研究表明，擁有30+AI智能體系統，在幾乎任何任務中，都優於簡單的LLM調用，同時還減少了幻覺，提高了準確性。

論文地址：https://arxiv.org/pdf/2402.05120

但是，多個智能體之間，應該如何進行實際協作呢？

在探索改善AI在軟件工程任務中的表現的方法時，Alex Sima突然有了靈感：

如果將AI智能體之間互動機構化，讓其類似於科技巨頭的「組織架構圖」，會怎樣？

接下來，Alex讓AI接管了6大科技巨頭——亞馬遜、谷歌、微軟、蘋果、Meta、Oracle，看看它們如何協作。

先來一張圖，感受下。

關鍵要點

以下是，Alex將AI智能體，組織成類似蘋果、微軟、谷歌等公司結構後，得到的一些關鍵要點：

- 有多個「競爭」團隊（即競爭生產最佳最終產品）的公司，如微軟、蘋果，表現優於集中化的層級結構。

- 具有單點故障（比如一個領導者做出重要決策）的系統，如谷歌、亞馬遜和Oracle，表現不佳。

- 大型科技公司的組織結構，對問題解決能力有適度但明顯的影響。

AI智能體與科技巨頭組織

之前通過簡單增加AI智能體數量，來提升性能的方法，比如SWE-bench，並未取得顯著的成效。

這表明，僅僅依賴數量的增加，並不能解決問題。

那麽，有什麽其他的方法可以讓AI智能體在軟件工程方面變得更好？

三周前，Alex偶然看到了James Huckle關於「康威定律」的一篇文章——軟件和產品架構註定會反映創造它的組織結構。

James展示了一幅插圖，揭示了亞馬遜、谷歌、Facebook、微軟、蘋果和Oracle的戲劇化組織結構，並提出了一個想法：

就像大型科技公司中的人類一樣，多智能體通信結構可能會塑造問題解決方法。

Alex受到啟發，決定在SWE-bench實例上測試James的假設。

實驗設置

作者將AI智能體組織成不同的公司結構，在SWE-bench-lite的13個實例「mini」子集上，評估了六種不同的組織結構。

在構建這六種組織時，他基於一些核心觀察設計了多智能體組織結構：

亞馬遜

頂層有一個「管理者」的二叉樹。

為了復製這一結構，Alex使用了大量執行代碼庫搜索的智能體，和一個最終執行代碼庫更新的單一智能體。

谷歌

類似亞馬遜的樹狀結構，但中間層之間有更多連接。

Alex通過在單一層內聚合復製所有智能體結果，並將其傳遞給下一層的智能體。

Meta（Facebook）

缺乏層級結構，但仍是一個智能體之間有許多連接的網狀組織。

Alex通過增加不同智能體之間的轉換可能性，來修改原始的智能體設計。

微軟

強調競爭團隊，每個團隊有自己的層級。

本質上，Alex重新調整了亞馬遜的結構（減少智能體數量），並使用向量相似性投票方法，從三次單獨運行中選擇「最佳」解決方案（每次運行對層級結構略有調整）。

蘋果

許多小型競爭團隊，每個團隊都有自己的最小結構。

Alex使用了與微軟相同的「最佳解決方案」方法，但進行了更多沒有智能體層級的運行（每次運行有不同的轉換）。

Oracle

有兩個不同的團隊，一個較大的「法律」二叉樹和一個較小的工程樹。

Alex將法律團隊解釋為，搜索代碼庫和檢索關鍵上下文的智能體，而工程團隊由實際編寫代碼的智能體組成。

兩個團隊的結構類似於亞馬遜，頂層有一個單一智能體協調「法律」和「工程」之間的信息傳遞。

評估結果

為了評估SWE-bench上的每組patch，作者使用了SWE-bench evaluation。

結果如下：

組織結構圖績效分析

以下是作者對不同公司結構，如何影響性能的一些觀察：

- 有競爭力的團隊增加成功機會。

表現最佳的兩個（微軟和蘋果）都有多個團隊在競爭解決問題，而其他公司似乎只有一個巨大的團隊生成單一patch。

多個團隊允許增加問題解決方法的多樣性，提高解決問題的概率。

- 有單點故障的結構表現不佳。

提到單點故障，是指是那些有高層管理者/智能體可以完全改變運行結果的公司（如谷歌、亞馬遜和甲骨文）。

在協調多個智能體之間的互動時，一個常見問題是某個智能體失敗——導致可能出現一個智能體改變團隊問題解決策略方向的情況。

具有單點故障的公司容易受到這些問題的影響。

另外，表現最好的兩家公司，微軟和蘋果，恰好是世界上市值最大的兩家科技公司。

事實證明，在現實世界中似乎最有效的組織結構對AI智能體也同樣有效。

截圖來自CompaniesMarketCap，2024年07月25日

對SWE-bench進展的思考

看著不同公司結構的結果，在這個Mini基準上是可以預料到的。

總的來說，似乎在一個像軟件工程這樣復雜的任務中，增加更多的智能體，或改變這些智能體的組織方式，只會帶來邊際性能的提高。

雖然論文More Agents Is All You Need 發現，準確率有相當大的提高（約20%），但在GSM8K（小學數學）測試中，30個智能體後性能明顯趨於平緩。

研究還發現，過於復雜的任務（如SWE-bench中的任務）可能超出模型的推理能力，導致性能增益遞減。

坐著在SIMA中同樣驗證了這一發現，最多只比基礎架構提高了2-3%（使用40多個智能體）。

他預計，這種小幅提升在其他非多智能體架構中也會一致。

作者認為，若想在基準測試上取得更大進步，需要改變智能體的實際邏輯推理能力，或者它們可以采用（或被給予）的解決軟件問題的策略和方法。

這可以通過更強大的基礎模型（GPT-5）或給予智能體更廣泛的工具來實現。

這與公司運作是一樣的。

歸根結底，如果你不雇用更聰明的員工，或給他們更好的資源，無論你如何組織他們或有多少人，他們的產出都不會提高。

不得不承認，13個實例的性能可能與完整基準測試的實際性能相差甚遠。

僅在這個mini子集中的差異就足夠顯著，值得關註（從谷歌到蘋果提高了約50%）。

基礎模型/工具可能是智能體軟件工程的限製因素，但隨著基礎模型的改進，探索智能體通信結構（無論是否在公司組織中）絕對應該被測試。

正如James Huckle所說，這個概念可能成為AI智能體設計中的「關鍵超參數」，不同的組織結構可能更適合不同的任務。---[新智元報導*編輯：桃子/來源: 新智元]

參考資料：https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures

我要留言

AI大軍接管六大科技巨頭，老板打工人皆是AI！效仿微軟組織結構，工作效率驚人

175億的獨角獸，創始人把自己賣了

情侶合照逼真到恐怖，竟被代碼識出破綻？沃頓教授預言AI 18個月封神！

175億的獨角獸，創始人把自己賣了

情侶合照逼真到恐怖，竟被代碼識出破綻？沃頓教授預言AI 18個月封神！