終於，AI大模型長出了自己的手腳

2024060715:36

大模型技術，由於其在自然語言處理和復雜數據分析上的出色表現而備受矚目。然而，盡管技術上取得了突破，大模型在企業應用市場的實際落地卻面臨不少挑戰，尤其是如何深入整合進企業的核心業務流程中。企業核心業務高度依賴於具體、實時且連續的操作流程，而大模型在此方面的應用往往只停留在表面，難以觸及業務流程的深層次需求。

除了開源大模型本身在理解真實業務流程上的不足，另一個主要障礙是許多企業用戶缺乏足夠的數據沈澱，甚至連基本的知識庫都沒有。這使得即便大模型具備強大的對話能力，也無法調用企業內部的知識庫信息，進一步限製了其在實際業務中的應用。

在這樣的背景下，各類技術廠商開始從不同角度，探索將大模型落地到企業應用場景的方法。數據猿觀察到，實在智能近期推出的自主智能體——實在Agent，為我們帶來了一些新的思路。這類智能體通過結合RPA、數字員工技術，致力於實現大模型技術與企業的日常運營和決策流程無縫對接。

自主智能體，讓大模型真正融入企業的業務流程

大模型技術，盡管在人機交互領域表現出色，卻在深入企業核心業務流程中遭遇難題。這主要體現在兩個方面：其在人機對話中的局限性，以及缺乏有效嵌入業務流程的能力。

當前的大模型，不管是國外的ChatGPT、Gemini、Claude、LLaMA，還是國內的文心一言、通義千問、訊飛星火、豆包、智譜清言、Kimi等，核心功能是生成自然且流暢的對話文本，這使它們在客戶服務、FAQ自動化回答、營銷文案創作等簡單任務中表現良好。然而，當面對需要復雜決策和多步驟操作的企業業務流程時，這類模型往往顯得力不從心。其核心原因在於，這些模型雖能理解和生成語言，但缺乏對實際業務邏輯和流程的深入理解和執行能力。因而，在企業應用中，大模型很少能直接影響核心業務流程的設計和執行。

業務流程通常包含一系列復雜且高度專業化的決策步驟，需要不僅僅是語言理解，更要有能力對業務數據進行分析和邏輯操作。目前的大模型無法直接與企業的IT系統、數據庫等後端服務深度集成，導致其在自動化高價值業務操作時效果有限。而且，企業環境中的業務流程可能會因市場、法規或企業戰略的變化而需要快速適應和調整。大模型通常在訓練後的適應性有限，對於快速變化的企業環境缺乏足夠的靈活性。

要解決這些問題，讓大模型的應用走向「深水區」，智能體是一個很有潛力的方向。

何為智能體？OpenAI應用研究主管Lilian Weng提出了：「Agent=LLM+Plan+Memory+Tool Using」的框架，被廣泛接受。

根據這個定義，智能體的高級功能不僅限於大模型的語言理解能力，還包括更為復雜的規劃、記憶、工具使用和行動執行等能力，這些能力的整合極大地拓展了智能體在企業中的應用範圍和效能。

例如，智能體的規劃能力指的是能夠根據當前情境和預定目標，製定有效的行動策略。這不僅需要理解復雜的任務要求，還需要能夠預測可能的結果和製定備選方案；記憶能力使得智能體能夠存儲和回憶過去的經驗，這對於學習新任務和優化現有流程至關重要；智能體的工具使用能力涉及到對各種軟件工具和系統的操作，這包括數據分析工具、ERP系統等。這使得智能體能在不同的技術環境中有效工作，自動化復雜的業務流程；智能體的行動執行能力是其將規劃轉化為實際操作的能力。這不僅僅是簡單的任務自動化，更是涉及到根據動態環境調整行動策略和處理突發事件。

整合這些能力的自主智能體，可以在復雜的企業環境中發揮更大的作用，不僅能理解和生成語言，更能主動參與到業務決策和執行中，成為企業運營的核心支持系統，這種智能體的發展標誌著人工智能從輔助工具向真正的業務合作夥伴的轉變。

為了實現這個目標，智能體也在持續演進當中。

根據其功能和集成深度的不同，智能體的發展可以概括為幾個階段：

1. 初級階段：單一對話服務。如ChatGPTs，主要提供基礎的對話式服務，處理簡單的問答和任務，主要依賴直接調用大模型的能力。

2. 中級階段：工作流編排。如Flow，擴展到一些基礎的業務流程自動化，如簡單的工作流編排，使用預置的API組件。

3. 高級階段：自主智能體。如實在智能的TARS Agent，這類智能體結合了自研垂直域大模型和RPA組件，支持復雜的業務流程自動化，能進行高級規劃和執行，同時具備操作的可視化和人機協同糾正的功能。

4. 最高級階段：多智能體協同。這一階段的智能體能在多模態輸入下進行群體協作和復雜指令的執行，具備更高級的數據處理和決策能力。

這些階段體現了智能體從簡單的文本交互，到能夠完全自主執行復雜業務流程的演進，顯示了技術的成熟和應用領域的拓展。

目前，我們主要處在第三階段——自主智能的攻堅期，將大模型與RPA、數字員工技術結合，是實現自主智能體深入企業業務流程的有效途徑。RPA技術能夠自動執行業務流程中的重復任務，如數據輸入、文件處理等。通過將大模型的決策支持能力與RPA的執行能力結合，可以極大提升業務流程的自動化水平和效率。

結合RPA、數字員工後，大模型不再僅僅是一個語言處理工具，而是變成了一個全面的業務流程解決方案。這種自主智能體可以根據實時數據和環境變化做出快速決策，並直接操作企業的業務系統執行任務，從而真正實現AI的業務價值最大化。

構建自主智能體，需要哪些核心能力？

上面談到，自主智能體，是將大模型技術在企業應用落地的一個理想方式。那麽，該怎麽來構建自主智能體呢，有哪些關鍵的環節？

構建自主智能體的核心挑戰，在於將高度通用的大模型轉化為能深入企業特定業務流程的高效工具。這一轉變不僅要求模型能夠理解和生成語言，更要求其具備深入解析復雜業務邏輯的能力。

具體來看，要構建出上面說得自主智能體，引領數字員工發展，需要具備三方面的核心能力：

1、在通用大模型基礎上，微調出業務流程垂直大模型。

在構建針對特定業務流程的垂直大模型時，首先要建立一個包含高質量業務流程數據的領域知識庫。這一知識庫的目的是為大模型提供必要的行業特定數據，支撐模型更深入地理解業務流程的細節和變量。

接下來，通過在這些專業數據集基礎上進行訓練微調，將通用大模型定製化，以適應具體業務領域的需求。

需要指出的是，傳統的大模型（LLM）主要側重於對話能力和語義理解，而對於執行具體任務的能力卻有所不足。為此，自主智能體的底座應該是Large Action Model（LAM），即大任務或動作模型。LAM經過微調和優化，不僅能理解復雜的業務流程，還能實際操作和完成這些流程，是企業實現自主智能體的關鍵技術。

例如，實在智能近期推出的實在Agent，其底座模型就是采用了LAM，這賦予了它在執行任務方面的獨特優勢。通過高質量的業務流程數據集和領域知識庫，實在Agent能夠深入理解和執行特定領域的業務任務。

2、構建智能屏幕語義理解技術支持下的流程拆解能力。

在構建自主智能體過程中，屏幕語義理解技術和流程拆解是實現業務流程自動化的核心要素。智能體通過自然語言處理技術精確理解用戶的意圖和需求，這不僅需要捕捉指令的字面意義，還要深入其背後的業務語境。接著，任務分解算法將這些復雜需求細化為具體的操作步驟。這涉及高度復雜的算法，需要確保每個步驟都是邏輯正確且可執行的。智能體需要具備強大的邏輯推理能力以及對業務流程的深刻理解，才能有效完成這項任務。

另一方面，自主智能體通過屏幕語義理解技術，識別並理解桌面應用中的各種界面元素和控件，如按鈕、輸入框、菜單等。這種識別不僅需要高精度，還要適應界面的動態變化。將屏幕語義理解與任務拆解結合起來，智能體才能確保生成的流程步驟準確映射到相應的功能組件上。這不僅要求智能體理解業務邏輯並將其拆解成對應的操作流程，還需要清楚每一個流程步驟需要操作屏幕上哪一個元素。

3、優化自主智能體對桌面和手機端一切應用的調用與交互能力，完成流程的順暢執行。

在理解屏幕元素並將流程拆解好之後，接下來最關鍵的就是將這些流程一步步的執行完。這一過程中，最核心的是自主智能體對桌面和手機端一切應用、工具的調用，並模擬用戶操作，與這些應用進行一系列交互，來完成整個流程的執行。

這一過程的核心挑戰，在於自主智能體的跨平臺調用能力的普適性和適應性，無論是開放API接口的應用，還是沒有API接口的傳統桌面應用，智能體都能有效調用和操作。智能體必須不斷優化其屏幕語義理解技術，以適應不同應用程序版本和用戶設置的變化。此外，交互算法的優化也至關重要，以確保智能體能夠在各種操作系統和軟件環境中穩定運行。

通過這種對應用調用與交互的高度適應性和靈活性，智能體不僅能在不同的業務場景中高效工作，還能幫助企業實現更高水平的自動化和智能化運營。這種能力使智能體成為企業數字化轉型中的關鍵工具，能夠顯著提升業務流程的效率和準確性。

實在Agent，交出了第一份答卷

上面分析了構建自主智能體所需要具備的一些核心能力，可以看到，這些能力的構建並不容易。那麽，現在有企業做出了這樣的自主智能體麽？實在智能近期推出的實在Agent給了我們一個有益的啟示。

具體來看，實在Agent在以下六個方面做了特色：

1. 自然語言理解與對話

實在Agent通過自然語言處理技術，實現了與用戶的自然對話式交互，準確捕捉用戶的意圖，並將其轉化為具體的自動化任務。

2. 自動化任務生成與執行

用戶只需通過自然語言描述業務流程，實在Agent便能夠利用其內置的大模型，精準識別並拆解任務，生成相應的RPA組件。這一過程完全革新了傳統RPA流程的設計和編排工作，使得非技術用戶也能夠輕松地創建自動化任務。

3. 智能屏幕語義理解

智能屏幕語義理解技術是實在Agent的另一大亮點，這項技術賦予了實在Agent強大的屏幕元素識別能力，使其能夠在復雜的用戶界面中，準確識別出操作元素，如輸入框、按鈕等。這一功能對於提高自動化任務的準確性至關重要，尤其是在面對動態變化的網頁內容或客戶端軟件時。通過智能屏幕語義理解，實在Agent能夠實現更加智能、精準的自動化操作，減少因元素識別錯誤導致的執行失敗，從而提高自動化任務的穩定性和可靠性。

4. 用戶界面與交互設計

實在Agent的用戶界面與交互設計同樣值得稱道，它提供了簡約直觀的用戶界面，支持快捷操作，如通過快捷鍵顯示或隱藏常駐窗口，以及通過菜單快速訪問各項功能。這種設計不僅提升了用戶體驗，也使得實在Agent更加易於上手。

5. 異常處理與手動干預

在自動化執行過程中，實在Agent它能夠智能識別異常並暫停，允許用戶手動介入處理，確保任務正確執行。這種異常處理與手動干預的能力，使得實在Agent在面對復雜多變的業務環境時，依然能夠保持高效率和高準確性。

6.越用越好的智能體

隨著用戶的持續使用，實在Agent不斷積累用戶數據，更深入地了解用戶習慣，從而提供更加個性化、精準的服務。這種自我學習和優化的能力，使得實在Agent不僅僅是一個工具，更是一個能夠不斷進化和成長的智能夥伴。

這六大功能使得實在Agent成為一個高效、易用且強大的自動化助手，適用於各種業務流程自動化場景。實在Agent的應用場景廣泛，無論是財務、客服、電商還是其他業務領域，它都能提供高效的自動化解決方案。例如，在財務領域，實在Agent能夠自動完成發票開具、報表導出等工作；在客服領域，它能夠識別客戶業務訴求，自動錄入業務系統，提供7×24小時的服務，這些應用案例充分展示了實在Agent在實際業務中的強大能力。

以招商銀行客戶的一個應用場景為例，通過與實在Agent對話，即可完成「招商客戶端下載交易數據」這個業務流程。用戶只需要說出需求，實在Agent即可將這個需求分解為一系列業務流程，並生成對應的流程組件。接下來，實在Agent會一步步的執行相應的流程，並逐步反饋運行狀態。最終，完成所有流程組件的運行，得到用戶最開始給出的「招商客戶端下載交易數據」這個指令的結果。

自主智能體的長征，才剛剛開啟

需要指出的是，在大模型與業務流程深度融合的過程中，實在Agent這類自主智能體已經展現出巨大的應用潛力。但是，自主智能體的變革才剛剛開始，接下來將進入快速發展期。其中，以下幾個方面的發展態勢尤其值得關註。

多模態能力的發展與集成

未來的自主智能體將不僅限於文本和語音的處理，它們還將整合視覺、語音等多模態輸入，以提升環境感知和交互能力。通過整合這些多模態數據，智能體能夠更全面地理解用戶需求和操作環境。例如，在一個綜合辦公環境中，智能體不僅可以通過語音指令接收任務，還能通過攝像頭和傳感器獲取環境信息，進行更加精準和智能的操作。

這種多模態能力的融合，不僅提升了智能體的交互自然性，還增加了其在復雜環境中的適應性。例如，在智能製造中，智能體可以通過視覺識別和分析生產線上的每個細節，結合語音指令進行操作，從而實現更加精確和高效的生產流程。

自主智能體向多智能體協同的演進，形成人類統一指揮下數字員工集群的人機協同體系。

在上文提到的智能體四個演進階段中，在自主智能之後，將會逐步衍生出多智能體的協同。隨著技術的進步，單一智能體的功能雖強大，但在處理更復雜的系統級任務時，單體智能顯然是不夠的。

因而，自主智能體需要向多智能體協同演進，形成在人類統一指揮下的人機協同體系。在這個體系中，每一個自主智能體就相當於一個數字員工，而多智能體就相當於數字員工集群。通過人機協同，這個數字員工集群在人類的指揮下分工合作，這將顯著提升業務流程的復雜處理能力和效率。

例如，在供應鏈管理中，一個智能體負責庫存監控，另一個智能體負責訂單處理，第三個智能體則負責物流調度。通過協同工作，這些智能體能夠快速響應市場變化，優化資源配置，提高整體運營效率。隨著技術的不斷進步，多智能體協同將在更多行業和場景中得到廣泛應用，推動企業向智能化、自動化和高效運營的方向不斷邁進。

自主智能體與各個業務系統無縫集成，提升其對企業核心業務的滲透能力。

自主智能體的另一個關鍵發展方向，是與企業現有的IT系統（如ERP、CRM等）的無縫集成。這種集成將形成一個統一的智能化平臺，使得智能體能夠在一個綜合系統中工作，完成更復雜的任務分工合作和高效執行。

當然，實現這一點需要克服許多技術和管理挑戰。例如，數據的統一和共享問題，不同系統之間的數據格式和接口不同，需要進行標準化處理；系統間的通信和協調，需要確保數據在不同系統間的實時同步和一致性；安全性和隱私保護，在進行數據整合時，需要確保數據的安全和用戶隱私的保護。

構建開放平臺，繁榮自主智能體生態

為了推動自主智能體技術的進一步發展，構建一個開放的平臺生態系統是至關重要的。像實在智能這樣的超自動化廠商，提供豐富的API和SDK，方便開發者集成和擴展智能體功能，構建一個繁榮的智能體生態系統。

這種開放平臺的構建，不僅可以加速技術創新，還可以促進技術的普及和應用。開發者可以在這個平臺上自由開發和部署各種智能體應用，滿足不同用戶和行業的需求。例如，開發者可以基於開放平臺開發出適用於醫療領域的智能體，為醫生提供輔助診斷和治療建議，提高醫療服務的質量和效率。

隨著自主智能體的發展，其業務價值將逐步得到釋放。例如，它大幅度降低了數字員工的使用門檻，擴大了數字員工的適用範圍，進而擴大了數字員工和RPA市場。

而且，自主智能體可以自動化處理繁瑣的業務流程，解放了人力資源，使得員工能夠專註於更具創造性的工作，推動業務創新。例如，在財務管理中，智能體可以自動處理各種票據和報表生成任務，財務人員可以將更多時間用於財務分析和戰略決策。

總的來說，自主智能體的發展不僅推動了企業的數字化轉型，也提升了企業的運營效率和創新能力。隨著技術的不斷進步和應用的深入，自主智能體將在更多領域和場景中發揮重要作用，推動社會的智能化進程。---來源: 數據猿DataYuan-

我要留言

終於，AI大模型長出了自己的手腳

一條馬面裙，和一個人口大省的產業躍遷

百望云CEO楊正道：解鎖企業交易全流程數字化下的價值躍升密碼

一條馬面裙，和一個人口大省的產業躍遷

百望云CEO楊正道：解鎖企業交易全流程數字化下的價值躍升密碼