數字員工、超級個體、具身智能，AI Agent未來發展十大研究方向

2024020219:04

最近發布的幾個關于2024趨勢的重磅報告，無一例外都提到了AI Agent。

埃森哲在《技術展望2024》報告中指出，96%的企業高管認爲AI Agent生態系統應用將在未來3年內爲他們的組織帶來重大機遇。

報告認爲，隨著人工智能向智能體演進，自動化系統將能夠自主決策和行動。智能體不僅會爲人類提供建議，還將代表人類采取行動。人工智能將繼續生成文本、圖像和洞察，而AI Agent將自行決定如何處理這些信息。

當智能體升級成人類的同事後，就需要人類與智能體一起重新構建技術和人才的未來。

IDC《AIGC應用層十大趨勢》報告中調研表明，所有企業都認爲AI Agent是AIGC發展的確定性方向，50%的企業已經在某項工作中進行了AI Agent的試點，另有34%的企業正在制定AI Agent的應用計劃。

這個報告，也對AI Agent發展趨勢做了兩點預測：

* AI Agent讓“人機協同”成爲新常態，個人與企業步入AI 助理時代。AI Agent能夠幫助未來企業構建以“人機協同”爲核心的智能化運營新常態。

* AI Agent變革未來生産力的組織形式，對抗組織熵增。未來企業工作任務將在AIGC的助推作用下變得日益原子化和碎片化，複雜的流程將被無限拆解，再進行靈活的編排和組合，每個環節的效能和潛力都將被AI持續挖掘。從供給端看，“人+AI數字員工”的高效協同模式將爲大型企業對抗組織熵增提供理想的解法。

而在騰訊發布的《2024數字科技前沿應用趨勢》中，“多模態智能體加速AGI進程”被列爲第二大趨勢。

該報告認爲，通用人工智能漸行漸近，大模型走向多模態，AI智能體（Agent）有望成爲下一代平台；端側大模型加速部署，或將成爲未來交互新入口。AI在數學推理、新藥研發、材料發現、蛋白質合成等領域大顯身手， "AI科學家"有望加速問世。

這三個報告，一方面預測了AI Agent的未來發展趨勢，另一方面也同時提及了多模態大模型、數字員工、具身智能等一系列概念。

其中IDC給出的新型數字員工概念，與AI Agent有了非常強的關聯。此外該報告中所提到的“一個人加上足夠的AI工具，就可以成爲一家專業化公司”的Agent應用，也指向了當前正在熱議的超級個體。

事實上，AI Agent不只關聯了兩個概念，還催生了更多的研究方向。那麽，數字員工和超級個體與AI Agent有什麽關聯？具身智能與AI Agent有什麽關系？AI Agent都有哪些研究方向？

本文，王吉偉頻道就與大家聊聊這些。

研究方向一：基于大型語言模型的AI Agent

大語言模型（Large Language Models，LLM）是一種使用人工神經網絡構建的基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯等。

2023年，大語言模型及其在人工智能領域的應用已成爲全球科技研究的熱點，其在規模上的增長尤爲引人注目，參數量已從最初的十幾億躍升到如今的一萬億。

參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處，更加深入地理解人類語言的複雜性。

在過去的一年裏，大語言模型在吸納新知識、分解複雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟，它將不斷拓展其應用範圍，爲人類提供更加智能化和個性化的服務，進一步改善人們的生活和生産方式。

大語言模型的浪潮推動了AI Agent 相關研究快速發展，AI Agent是當前通往 AGI 的主要探索路線。

大模型龐大的訓練數據集中包含了大量人類行爲數據，爲模擬類人的交互打下了堅實基礎；另一方面，隨著模型規模不斷增大，大模型湧現出了上下文學習能力、推理能力、思維鏈等類似人類思考方式的多種能力。

LLM提供了AI Agent的新基座，自動化和擬人化是兩大方向。大語言模型龐大的訓練數據集中包含了大量人類行爲數據，爲模擬類人的交互打下了堅實基礎；另一方面，隨著模型規模不斷增大，大模型湧現出了上下文學習能力、推理能力、思維鏈等類似人類思考方式的多種能力。

將大模型作爲 AI Agent 的核心大腦，就可以實現以往難以實現的將複雜問題拆解成可實現的子任務、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺、上下文容量限制等，通過讓大模型借助一個或多個Agent的能力，構建成爲具備自主思考決策和執行能力的智能體，成爲了當前通往AGI的主要研究方向。

在AGI時代到來之前，AI Agent的能力的極限將主要受其大腦也就是LLM的影響，可以說LLM決定了Agent在未來的普及與應用。

因此，基于LLM的AI Agent，將是人們長期研究的方向。

研究方向二：AI Agent構建、應用與評估

這是AI Agent研究的主要方向。

構建AI Agent需要深入理解其核心技術，包括LLM、記憶、規劃技能和工具使用能力。AI Agent的應用領域非常廣泛，包括遊戲、個人助理、情感陪伴等。

評估AI Agent的性能是研究的重要部分，需要考慮如何在零樣本條件下評估其通用語言理解和推理能力。

AI Agent的構建、應用和評估，都是人工智能研究的重要部分。

AI Agent構建

AI Agent的構建主要包括四個部分：大模型、規劃、記憶和工具使用。

大模型：大模型（如GPT-4及文心一言、通義千問等）作爲AI Agent的“大腦”，提供推理、規劃等能力。

規劃：代理能夠將大型任務分解爲更小的、可管理的子目標，從而更好地處理複雜任務。

記憶：AI代理具備長時間保留和回憶信息的能力，通常通過利用外部向量存儲和快速檢索實現。

工具使用：代理學習調用外部 API 以獲取模型權重中缺失的額外信息，包括當前信息、代碼執行能力、對專有信息源的訪問等。

這四個模塊與AI Agent能力的提升息息相關，接下來會有很多組織投入大量且持續的研究工作，以提升AI Agent能力的應用與普及速率。

AI Agent應用

AI Agent在多個領域都有應用，包括但不限于教育、遊戲、網絡購物和網頁浏覽等。比如在教育領域，AI代理提供個性化、智能化和高效化的服務，優化學習體驗。

關于AI Agent在各領域的的應用，本書將在第二部分展開探討。

AI Agent評估

評估AI Agent是一項很大的挑戰，需要量化和客觀地衡量其智能水平。圖靈測試是一種常見的評估方法，用于評估人工智能系統是否表現出類似人類的智能。

此外，還有專門的基准測試，如AgentBench，用于評估LLMs作爲智能體在各種真實世界挑戰和不同環境中的表現。接下來將會有更多的基准測試面向Agent的各個環節，以促進Agent生態的良性發展與生態完善。

研究方向三：多智能體系統

多智能體系統（Multi-Agent Systems, MAS）是由多個互相協作或競爭的自治智能體組成的系統，旨在通過集體行爲解決複雜問題。在MAS中，每個智能體都具有一定程度的自主性，並能夠感知環境、作出決策，並與其他智能體交互。

智能體可以執行多種任務，其具體性質取決于系統的目標和應用領域。智能體的主要任務通常包括感知環境、處理信息、作出決策，並與其他智能體交互以實現共同的目標。

多智能體系統是人工智能的一個重要分支，它研究如何設計和實現多個智能體之間的協作和競爭的機制和方法。它具有以下特點：

1、由多個自治的、互動的、異構的智能體組成，每個智能體都有自己的目標、行爲、信念和偏好，同時也受到環境的影響和約束。

2、目標是實現智能體之間的協作和競爭的平衡，使得每個智能體都能達到自己的目標，同時也能促進整個系統的性能和效益。

3、難點是如何處理智能體之間的複雜的交互和協調，如何解決智能體之間的沖突和矛盾，如何評估智能體的表現和進步，如何接受人類的反饋和指導，如何遵守人類的倫理和法律等。

多智能體協作系統（Multi-Agent Collaboration Systems，MACS）是一種特殊的多智能體系統，其目標是使多個智能體能夠有效地協作，以實現一些超出單個智能體能力範圍的任務。

Agent可以以協作或競爭的方式相互交互。這使他們能夠通過團隊合作或對抗性互動來實現進步。在這些系統中，Agent可以共同完成複雜的任務或相互競爭以提高其性能。

比如用于模擬和優化交通、能源、物流等領域的複雜系統，也可以用于設計和實現智能家居、智能城市、智能工廠等應用場景。

多智能體協作系統的核心挑戰是如何實現智能體之間的協作和競爭的平衡，以及如何使智能體能夠根據不同的任務和角色進行自適應和學習。

近年來，隨著深度學習、強化學習、自然語言處理等技術的發展，多智能體協作系統的研究也取得了一些重要的進展和突破。

例如，CAMEL是一個首個大模型多智能體框架，它可以讓多個智能體在一個共享的環境中進行協作和競爭的學習，同時也可以讓智能體之間進行自然語言的交流和協商。CAMEL已經在NeurIPS 2023上斬獲了3.6k星，展示了多智能體協作系統的巨大潛力和前景。

另外，還有一些具有代表性的多智能體協作系統，如OpenAI Five、AlphaStar、DeepMind Quake III Arena Capture the Flag等，它們分別在DOTA 2、星際爭霸II、雷神之錘III等遊戲中，展示了超越人類水平的協作和競爭的能力。

多智能體系統是人工智能的一個前沿和熱點的研究領域，涉及到多個學科和領域，如計算機科學、數學、經濟學、心理學、社會學、生物學等。

其研究和應用對于理解人類智能的本質和機制，提高人工智能的水平和能力，解決人類社會的各種問題，都具有重要的意義和價值。

研究方向四：自主智能體

在人工智能領域，自主智能體（Autonomous Agent）是指能夠在環境中感知、學習和執行動作的智能實體。這種實體具有自主性，即它能夠獨立地做出決策和行動，而無需人爲幹預。

自主智能體具備自主決策和行動能力，能夠在給定的環境中自主地感知、學習和做出決策，以實現特定的目標。自主智能體能夠根據環境的變化和反饋信息，不斷地適應和改進自己的行爲，從而實現更好的性能和效果。

它通常被設計成具備對環境的感知能力，能夠根據感知到的信息做出理性的決策，並執行相應的動作以達到特定的目標。在實現自主性的過程中，機器學習和深度學習等技術發揮了關鍵作用。

自主智能體的設計和實現涉及多個方面，包括但不限于機器學習、自然語言處理、計算機視覺等AI技術的綜合運用。

它們被設計用于執行各種不同的任務，如管理社交媒體賬戶、投資市場、制作兒童讀物等，甚至在一些情況下，它們可以幫助人們釋放時間去做更有創造性的事情。

其研究價值主要體現在強化學習和機器人學中，例如deepmind的Alphago和Openai的 OpenaiFive（一個會打團戰的Dota2遊戲AI）都是比較典型的基于強化學習智能體運用。

LLM爆發以後，近一年來關于Agent的研究和話題開始呈現井噴之勢，例如AutoGPT、 BabyAGI、 Generative Agents、MetaGPT等項目在Github上已狂攬上萬star，成爲炙手可熱的明星項目。

使用自主智能體，一般涉及以下步驟：

確定問題和目標：首先，需要明確問題和目標，即定義智能體需要解決的任務和期望的結果。

構建環境模型：了解和建模智能體與環境之間的交互方式，包括狀態空間、行動空間、獎勵函數等。

選擇合適的算法：根據問題的性質和特點，選擇適合的強化學習算法或其他相關算法來訓練自治代理。

訓練和優化：使用選擇的算法和環境模型，通過與環境的交互和反饋，訓練自治代理以學習適當的決策策略，以最大化累積獎勵或實現特定目標。

調優和評估：根據訓練過程中的表現和性能，對自治代理進行調優和評估，以提高其決策能力和效果。

相比于之前的基于強化學習的Agent研究，現在的Agent主要是指以大模型技術 (LLM) 作爲主體或者大腦，能進行自動規劃，擁有自主決策能力，以解決複雜問題的智能體。

近年來，有關自主智能體的研究有了許多突破性進展，以往困擾AI Agent研究者的社會交互性和智能性問題都隨著大語言模型（LLM）的發展有了新的解決方向。

例如，已經有一些研究工作在探索如何通過引導大模型進行任務分解的大模型提示方法，如Chain-of-Thought，以及如何使用工具學習（Tool Learning）的概念，強調了運用大模型來進行工具的創造和使用，並提供了BMTools工具包。

此外，還有一些研究工作在探索如何通過記憶模塊提升精准記憶和複雜推理能力。總的來說，自主智能體的研究進展迅速，展現出巨大的潛力和前景。

研究方向五：生成式智能體

生成式智能體（Generative Agents）可以定義爲一種計算軟件智能體，能夠模擬可信的人類行爲。它們能夠存儲智能體的完整經驗記錄，將這些記憶隨時間整合爲更高級別的反思，並動態地檢索這些記憶以規劃行爲。

生成式智能體能夠對自己、其他智能體和環境進行廣泛的推理。面對新任務時，它們可以利用已獲得的一般知識和策略迅速調整學習方法，減少對大量樣本的依賴。這種技術可廣泛應用于交互式應用，如沈浸式環境、人際溝通的排練空間和原型設計工具等。

生成式智能體的概念，最早由斯坦福大學和谷歌的研究人員于2023年在論文《Generative Agents: Interactive Simulacra of Human Behavior》中提出。

爲了創建生成式智能體，研究者構建了一個系統架構，此架構擴展了大型語言模型的功能，使其能夠存儲智能體使用自然語言的經驗記錄。隨著時間的推移，這些記憶會被整合爲更高級別的思考，並被動態檢索以規劃智能體的行爲。

研究者將生成式智能體實際應用到一個互動沙盒環境中，這個環境受到了《模擬人生》的啓發。在這個環境中，終端用戶可以使用自然語言與一個由25個智能體組成的小鎮進行互動。

這些智能體的行爲表現得就像人類一樣：他們早晨醒來，爲自己做早餐，然後去工作；藝術家智能體會創作畫作，而作家智能體會撰寫文章；他們可以形成自己的觀點，關注其他智能體，並展開對話；在規劃第二天的工作時，他們會回憶並思考過去的日子。

此外，這些智能體還能使用自然語言來存儲與智能體相關的完整記錄，隨著時間的推移將這些記憶整合爲更高級別的思考，並動態地檢索這些記憶以指導其行爲。

評估結果顯示，這些生成式智能體展現了可信的個體和社會行爲。例如，從一個用戶指定的概念開始，即一個智能體想舉辦一個情人節派對，這些智能體在接下來的兩天裏自主地傳播派對的邀請，結識新朋友，互相約定參加派對，並協調在正確的時間一起出現在派對上。

研究結果表明，智能體架構的組成部分即觀察、計劃和反思等能力，都對智能體行爲的可信度起到了關鍵性作用。

這項研究將大型語言模型與計算、交互式智能體相結合，爲實現對人類行爲的可信模擬奠定了基礎。

此外，這項研究還證明了可信的人類行爲智能體能夠增強交互式應用程序的功能，從沈浸式環境到人際交流的排練空間，再到原型設計工具等。

研究方向六：人機協同

未來生成式AI帶來的人機協同，將會呈現三種模式：嵌入（embedding）模式、副駕駛（Copilot）模式及智能體（Agent）模式。

Embedding模式：用戶通過與AI進行語言交流，使用提示詞來設定目標，AI協助用戶完成這些目標。

Copilot模式：在這種模式下，人類和AI各自發揮作用。AI介入到工作流程中，從提供建議到協助完成流程的各個階段。

Agent模式：由人類設定目標並提供資源，這些資源通常是計算能力，然後監督結果。在這種情況下，Agent承擔了大部分工作。

Agent模式，會成爲未來人機交互的主要模式。

Agent時代的人機協作（Human-Agent Collaboration，簡稱 HAC）是指人類與智能體（如機器人、虛擬助手等）之間的合作與協同，共同完成特定任務或解決問題。

Agent可以與人互動，爲人提供幫助並更高效、安全地執行任務。他們可以理解人類的意圖並調整他們的行爲以提供更好的服務。人類反饋還可以幫助Agent提高性能。

在Agent模式下，人類設定目標和提供必要的資源（例如計算能力），AI獨立地承擔大部分工作，最後人類監督進程以及評估最終結果。這種合作模式結合了人類的創造力和判斷力與智能代理的數據處理和實時響應能力，旨在實現更高效、更智能的工作方式。

這種模式下，AI充分體現了智能體的互動性、自主性和適應性特征，接近于獨立的行動者，而人類則更多地扮演監督者和評估者的角色。智能體模式相較于嵌入模式、副駕駛模式無疑更爲高效，或將成爲未來人機協同的主要模式。

AI Agent的出現，使得大模型從“超級大腦”進化爲人類的“全能助手”。AI Agent不僅需要具備處理任務和問題的智能能力，還需要擁有與人類進行自然交互的社交智能。

這種社交智能包括理解和生成自然語言、識別情感和情緒等能力。社交智能的發展將使得AI Agent能夠更好地與人類進行合作和交流，拓展其應用場景。

基于大模型的Agent不僅可以讓每個人都有增強能力的專屬智能助理，還將改變人機協同的模式，必會帶來更爲廣泛的人機融合。

研究方向七：超級個體

基于Agent的人機協同模式，每個普通個體都有可能成爲超級個體。

超級個體是一個由許多有機體組成的有機體系，通常是一個真社會性動物的社會單位，其中社會分工被高度專業化，且個體無法獨自長時間地生存。

在現代社會中，超級個體也可以指精通一項或多項專業技能，並完成商業變現，最終對傳統雇傭關系實現脫離依附的複合型人才。

AI Agent可以賦予超級個體更多的機遇，使個人能夠在更廣闊的領域展示才華，通過AI賦能進行創造性工作，足以打造一個人的團隊與公司。

超級個體是擁有自己的AI團隊與自動化任務工作流，基于Agent與其他超級個體建立更爲智能化與自動化的協作關系。現在業內不乏一人公司、超級個體的積極探索。

Github平台上，已經出現一些基于Agents的自動化團隊項目。

GPTeam利用大模型創建多個被賦予角色和功能的智能體，多智能體協作以實現預定目標。

Dev-GPT是一個自動化開發和運維的多智能體協作團隊，包含了産品經理Agent、開發人員Agent和運維人員Agent等角色分工。這個多智能體團隊可以滿足和支撐一個初創營銷公司的正常運營，這便是一人公司。

還有號稱是世界上第一個AI自由職業者平台的NexusGPT，該平台整合了開源數據庫中的各種AI原生數據，並擁有800多個具有特定技能的AI智能體。

在這個平台上，你可以找到不同領域的專家，例如設計師、咨詢顧問、銷售代表等。雇主可以隨時在這個平台上選擇一個AI智能體幫助他們完成各種任務。

現在很多人在使用AI工具來增強勞動力或生産技能，將個人生産流程自動化，一個人可以取代一家公司的工作，這可以看作是超級個體的初級形態。

在王吉偉頻道看來，以後每個人都可以選擇多樣化的合作方式，通過與不同的個人助手或者智能體相互協同，成爲超級個體。

未來的公司的核心運營都將是自動化的，任務可以被分解成模塊化的流程，自動化執行。這就意味著一個人可以經營多家不同的公司，只需設置好業務系統即可。

與之而來的，公司的運營也將會更加依賴超級個體、專業模型和AI團隊的構建。

研究方向八：數字員工

數字員工通常指的是結合了人工智能和機器人流程自動化（RPA）技術的自動化工具和應用，從人力資源角度來看它是一種高度擬人化的新型數字化工作人員。

它們能夠在不需要人工直接參與的情況下，自動執行大量的重複性和規則明確的任務，從而提高工作效率和質量。

數字員工利用現代技術和數據分析能力，融合AI、RPA、大數據分析、數字人及機器人等多重技術，通過自動化和智能化手段，爲企業提供了一種新的勞動力和工作效率提升的工具。

數字員工可以代替我們執行很多重複性的工作，當然並不是“取代”人類，而是幫我們更高效地完成工作。

數字員工的概念包括了以下幾個特點：

軟件而非實體機器人：數字員工是通過軟件實現的，而不是物理存在的機器人。

適用于特定場景：數字員工特別適用于那些規則清晰、重複性強的工作環境。

廣泛應用：數字員工已經被廣泛應用于金融、制造業、零售業等多個行業和領域。

數字員工正在被視爲一種創新的勞動力形式，它們能夠幫助企業在降低成本、提高效率的同時，減少對人力的依賴。目前很多行業正在逐步引入這項技術，其中在金融、政企、通信、能源等領域已經能夠有很高的應用滲透率。

數字員工離不開AI技術的支撐，比如其基礎技術RPA正是基于AI構建的産品，其他如對話機器人、數字人等都是AI的應用。

現在大語言模型的爆發與應用也爲數字員工帶來了巨大的技術變革，尤其是其與AI Agent的融合正在催生一種RPA Agent的數字員工形態。

RPA Agent一般是由RPA\超自動化廠商推出的基于RPA構建的AI Agent，或者在Agent構建中將RPA作爲UI自動化的工具的AI Agent。它同時結合了API和用戶界面(UI)自動化，極大提升了AI Agent的執行能力。

王吉偉頻道認爲，基于LLM的RPA Agent兼顧API與UI自動化，能夠深入企業管理系統的複雜流程自動化構建中的數據庫讀取、API管理及UI自動化連接等操作，解決了僅是基于API接口讀取數據及調用工具插件類Agent執行能力不足的問題。

將數字員工中的RPA技術升級爲RPA Agnet，或者在以RPA爲工具的AI Agent基礎上構建數字員工，將會使數字員工的能力大大飛躍。

通過大語言模型及AI Agent加持的Agent數字員工，具備更高的智能化與自主能力，可以在單位時間內規劃任務並調用各種工具完成大量工作，並能夠使用自然語言與人類進行溝通交流和協調。

目前，除了RPA\超自動化廠商在進行這一項研究並推出相關産品之外，大模型廠商以及一些科研機構也正在做這方面的研究。

比如清華自然語言處理實驗室等機構共同發布了新一代流程自動化範式 Agentic Process Automation（APA，相關項目爲ProAgent），該範式實現了工作流構建的自動化，以及工作流執行時動態決策的自動化，並通過實驗揭示了大模型智能體在自動化中的可行性與潛力。

研究方向九：具身智能

具身智能（Embodied Intelligence）指的是機器人或智能體通過感知、理解和交互來適應環境，並執行任務的能力。與傳統的基于規則或符號的人工智能不同，具身智能強調將感知和行動相結合，使智能體能夠更好地理解其周圍的環境和與環境的互動。

AI系統具備感知和行動能力，能夠通過與環境的交互來獲取知識和經驗。AI Agent是具身智能系統的一種特殊形式，它可以理解和響應用戶的需求，提供個性化的服務和建議。

AI Agent和具身智能的結合，可以有效推動AI大模型的應用落地，主要包括以下幾點：

1. 提升綜合能力。AI大模型本身並不具備感知環境和執行動作的能力，而具身智能可以爲AI大模型提供這些能力，使其能夠更好地理解環境、做出決策並執行動作。

2. 實現實時決策和執行。AI大模型的訓練和推理通常需要較長的時間和大量的計算資源。將計算任務分配給雲端的AI Agent，而將感知和執行任務交給具身智能，可以實現實時決策和執行。

3. 提供個性化和適應性服務。AI大模型可以通過學習大量用戶數據和行爲模式，提供個性化服務。結合具身智能，AI Agent可以根據用戶需求，將個性化服務擴展到物理世界中。

4. 保護用戶安全和隱私。AI大模型通常需要大量訓練數據，但這可能涉及用戶隱私。結合具身智能，可以在本地保留用戶敏感數據，僅將必要信息傳輸給雲端的AI Agent進行處理，從而提供更高的安全性和隱私保護。

具身智能的作用不僅僅局限于機器人領域，還涉及到其他領域。

在機器人技術方面，具身智能使機器人能夠更好地感知周圍環境、做出智能決策，並執行相應的動作，以實現各種任務和目標。

在自動駕駛汽車領域，具身智能可以使汽車能夠更好地感知道路、判斷交通情況，並做出安全的駕駛決策。

在無人機領域，具身智能可以使無人機能夠更好地感知空中環境、規避障礙物，並執行精確的飛行任務。

很多公司已經在探索具身智能，比如OpenAI不僅在其首屆開發者大會上強調了AI Agent的重要性，還投資了挪威的人形機器人公司1X Technologies，推動大模型與具身智能的融合。

具身智能被認爲是通往通用人工智能的重要途徑，目前有關它的研究也已經有了很多突破性進展，比如AI科學家李飛飛團隊的VoxPoser系統。

北京航空航天大學智能無人機團隊，也提出了一種基于多模態大模型的具身智能體架構。“Agent as Cerebrum，Controller as Cerebellum”（智能體即大腦，控制器即小腦）的控制架構。

該架構將智能體作爲大腦這一決策生成器，專注于生成高層級的行爲；控制器作爲小腦這一運動控制器，專注于將高層級的行爲（如期望目標點）轉換成低層級的系統命令（如旋翼轉速）。

未來，AI Agent和具身智能的結合，將AI大模型的強大能力與具體場景的感知和執行能力相結合，推動了AI大模型在實際應用中的落地和應用場景的豐富多樣化。

研究方向十：智能體社會

智能體社會（Agent Society）是2018年公布的計算機科學技術名詞，指的是一種基于角色和角色關系，以及義務、承諾、道義等社會學概念定義的多智能體系統。

在大語言模型的應用的前提下，該概念則爲使用LLM創建的人工智能智能體在模擬環境中相互交互，這些智能體可以像人類一樣行動、做出決策並參與社交活動。

智能體社會是人工智能代理的最高形態和目標，它是由多個人工智能體組成的一個複雜的、動態的、自組織的、自適應的、協作的、競爭的、進化的系統，它可以根據自身的目標和環境的變化，進行一些複雜和靈活的動作和任務，同時與人類和其他代理進行一些高層次和高維度的交互和協作。

它能夠幫助我們了解人工智能體如何在類似社會的環境中協同工作和行爲。這種模擬可以提供對協作、政策制定和道德考慮的見解。總體而言，智能體社會幫助我們探索人工智能智能體的社交方面及其在現實和受控環境中的交互。

在這個社會系統中，智能體能夠根據目標和環境變化執行複雜靈活的任務，並與人類及其他智能體進行高級別、多維度的互動和協作。智能體社會不僅有助于人類探索和拓展物理及虛擬世界，還能增強和擴展人類的能力與體驗。

智能體社會是人類探索和拓展物理世界和虛擬世界、增強和擴展人類能力和體驗、創造和享受新奇和有趣的事物的重要途徑，它可以幫助人類實現自身或他人的價值和幸福。

智能體社會的典型應用是人工智能實體（AI Entity）、虛擬社區（Virtual Community）、分布式系統（Distributed System）等，它們可以根據自身的目標和環境的變化，進行一些複雜和靈活的動作和任務，同時與人類和其他代理進行一些高層次和高維度的交互和協作。

長期以來，社會學家經常進行社會實驗，在受控環境中觀察特定的社會現象。著名的例子包括霍桑實驗和斯坦福監獄實驗。

隨後，研究人員開始在社會模擬中使用動物，老鼠烏托邦實驗就是一個例子。這些實驗無一例外地使用活體作爲參與者，難以進行各種幹預，缺乏靈活性，時間效率低下。

研究人員和實踐者一直在設想一個交互式人工社會，在這個社會中，人類的行爲可以通過可信的Agent來實現。

從《模擬人生》等沙盒遊戲到Metaverse概念，我們可以看到“模擬社會”在人們心目中的定義：環境和在其中互動的個體。每個個體的背後可以是一個程序、一個真實的人類，也可以是一個基于LLM的Agent。

個體之間的互動，也是社會性産生的原因之一。多智能體協同可以組成智能體社會這一最高形態的技術社會系統，智能體社會具有複雜、動態、自組織和自適應的特性，能夠協作、競爭、不斷進化。

突破多智能體的發展困境，是未來智能體社會建立的重要前提。---來源: 钛媒體-

我要留言

數字員工、超級個體、具身智能，AI Agent未來發展十大研究方向

2024「人形機器人元年」：是噱頭，還是機會？

人類是智慧文明物種，但在這三個謎團面前顯得如此渺小

2024「人形機器人元年」：是噱頭，還是機會？

人類是智慧文明物種，但在這三個謎團面前顯得如此渺小