超級智能體生命力覺醒！可自我更新的AI來了，數據瓶頸難題有救了

2024042915:57

哭死啊，全球狂煉大模型，一互聯網的數據不夠用，根本不夠用。

訓練模型搞得跟《饑餓遊戲》似的，全球AI研究者，都在苦惱怎麽才能餵飽這群數據大胃王。

尤其在多模態任務中，這一問題尤為突出。

一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國內把「模型生成數據自己餵自己」變成了現實。

而且還是理解側和生成側雙管齊下，兩側都能生成高質量、多模態的新數據，對模型本身進行數據反哺。

模型是啥？

中關村論壇上剛剛露面的多模態大模型Awaker 1.0。

團隊是誰？

智子引擎。由人大高瓴人工智能學院博士生高一釗創立，高瓴人工智能學院盧誌武教授擔任顧問。公司成立時還是2021年，就早早打入多模態這條「無人區」賽道。

* MOE架構，解決多模態多任務訓練沖突問題

這不是智子引擎第一次發布模型。

去年3月8日，潛心研發兩年的團隊對外發布了自研的第一個多模態模型，百億級別參數的ChatImg序列模型，並基於此推出世界首個公開評測多模態對話應用ChatImg（元乘象）。

後來，ChatImg不斷叠代，新模型Awaker的研發也在並行推進。後者還繼承了前代模型的基礎能力。

相較於前代的ChatImg序列模型，Awaker 1.0采用了MoE模型架構。

要說原因嘛，是想要解決解決多模態多任務訓練存在嚴重沖突的問題。

采用MoE模型架構，可以更好地學習多模態通用能力以及各個任務所需的獨特能力，從而讓整個Awaker 1.0的能力在多個任務上有進一步提升。

數據勝千言：

鑒於主流多模態評測榜單存在評測數據泄露問題，智子團隊從嚴構建了自有評測集，大部分測試圖片來自個人手機相冊。

表格顯示，團隊讓Awaker 1.0和國內外最先進的3個多模態大模型進行了評測。

多提一嘴，由於GPT-4V和Intern-VL並不直接支持檢測任務，它們的檢測結果是通過要求模型使用語言描述物體方位得到的。

可以看到，在視覺問答和業務應用任務上，Awaker 1.0的基座模型超過了GPT-4V、Qwen-VL-Max和Intern-VL。

在描述、推理和檢測任務上，Awaker 1.0的基座模型達到了次好效果。

最後來看平均分，Awaker 1.0處於幾者中的最高值。

因此，上述結果也印證了多任務多模態模型采用MoE架構的有效性。

數據集評測結果有了，真實效果還需進一步上手體驗。

這裏主要問了它和對比大模型一些關於中文OCR（圖片文字識別）和計數問題、詳細描述任務等問題。

這個主要考計數：

Awaker 1.0能正確地給出答案，而其它三個模型均回答錯誤。

這個主要考中文OCR：正確回答的選手是Qwen-VL-Max和Awaker 1.0。

最後這題考圖片內容理解。

GPT-4V和Awaker 1.0不但能夠詳細地描述圖片的內容，而且能夠準確地識別出圖片中的細節，如圖中展示的可口可樂。

不得不提一嘴的是，Awaker 1.0繼承了一些智子團隊此前廣為關註的研究成果。

說的就是你——Awaker 1.0的生成側。

Awaker 1.0的生成側，是智子引擎自主研發的類Sora視頻生成底座VDT（Video Diffusion Transformer）。

VDT的學術論文早於OpenAI Sora的發布（去年5月），並已被頂會ICLR 2024接收。

VDT與眾不同的創新之處，主要有兩點。

一是在技術架構上采用Diffusion Transformer，在OpenAI之前就展現了Transformer在視頻生成領域的巨大潛力。

它的優勢在於其出色的時間依賴性捕獲能力，能夠生成時間上連貫的視頻幀，包括模擬三維對象隨時間的物理動態。

二是提出統一的時空掩碼建模機製，使VDT能夠處理多種視頻生成任務。

VDT靈活的條件信息處理方式，如簡單的token空間拼接，有效地統一了不同長度和模態的信息。

同時，通過與該工作提出的時空掩碼建模機製結合，VDT成為了一個通用的視頻擴散工具，在不修改模型結構的情況下可以應用於無條件生成、視頻後續幀預測、插幀、圖生視頻、視頻畫面補全等多種視頻生成任務。

據了解，智子引擎團隊不僅探索了VDT對簡單物理規律的模擬，發現它能模擬物理過程：

還在超寫實人像視頻生成任務上進行了深度探索。

因為肉眼對人臉及人的動態變化非常敏感，所以這個任務對視頻生成質量的要求非常高。不過，智子引擎已經突破超寫實人像視頻生成的大部分關鍵技術，比起Sora也沒在怕的。

口說無憑。

這是智子引擎結合VDT和可控生成，對人像視頻生成質量提升後的效果：

【此處無法插入視頻，遺憾……可到量子位公眾號觀看】

據悉，智子引擎還將繼續優化人物可控的生成算法，並積極進行商業化探索。

* 生成源源不斷的新交互數據

更值得關註的是，智子引擎團隊強調：

Awaker 1.0是世界上首個能自主更新的多模態大模型。

換句話說，Awaker 1.0是「活」的，它的參數可以實時持續地更新——這就導致Awaker 1.0區別於所有其它多模態大模型，

Awaker 1.0的自主更新機製，包含三大關鍵技術，分別是：

    數據主動生成
    模型反思評估
    模型連續更新

這三項技術，讓Awaker 1.0具備自主學習、自動反思和自主更新的能力，可以在這個世界自由探索，甚至與人類互動。

基於此，Awaker 1.0在理解側和生成側都能生成源源不斷的新交互數據。

怎麽做到的？

在理解側，Awaker 1.0與數字世界和現實世界進行交互。

在執行任務的過程中，Awaker 1.0將場景行為數據反哺給模型，以實現持續更新與訓練。

在生成側，Awaker 1.0可以進行高質量的多模態內容生成，為理解側模型提供更多的訓練數據。

在理解側和生成側的兩個循環中，Awaker 1.0實際實現了將視覺理解與視覺生成進行融合。

要知道，Sora問世後，越來越多聲音表示，要通往AGI，必須達成「理解和生成的大一統」。

以新知識注入為例，下面來看個具體跑通的例子。

Awaker 1.0能夠不斷在互聯網上學習實時新聞信息，同時，它結合新學習到的新聞信息來回答各種復雜問題。

這和目前兩種主流，即RAG和傳統長上下文方式還不太一樣，Awaker 1.0是真的把新知識「記憶」在自個兒模型的參數上。

可以看到，連續3天的自我更新過程中，Awaker 1.0每天都能學習當天的新聞信息，並在描述中準確地說出對應信息。

而且雖然一直在學，Awaker 1.0倒沒有顧此失彼，它並不會很快地遺忘學過的知識。

譬如，4月16日學進去的智界S7相關知識，在2天後仍然被Awaker 1.0記住或理解。

So，在這個數據如金的時代，別再哀嘆「數據不夠用」了。

面對數據瓶頸的團隊們，一種可行、可用的新選擇，不就被Awaker 1.0送來了？

具身智能「活」的大腦

話說回來，正是由於實現了視覺理解與視覺生成的融合，當遇到「多模態大模型適配具身智能」的問題，Awaker 1.0的驕傲已經顯露無疑。

事情是這樣的：Awaker 1.0這類多模態大模型，其具有的視覺理解能力可以天然與具身智能的「眼睛」相結合。

而且主流聲音也認為，「多模態大模型+具身智能」有可能大幅地提升具身智能的適應性和創造性，甚至是實現AGI的可行路徑。

理由不外乎兩點。

第一，人們期望具身智能擁有適應性，即智能體能夠通過持續學習來適應不斷變化的應用環境。

這樣一來，具身智能既能在已知多模態任務上越做越好，也能快速適應未知的多模態任務。

第二，人們還期望具身智能具有真正的創造性，希望它通過對環境的自主探索，能夠發現新的策略和解決方案，並探索AI的能力邊界。

但是二者的適配，並不是簡簡單單把多模態大模型鏈接個身體，或直接給具身智能裝個腦子那麽簡單。

就拿多模態大模型來說，至少有兩個明顯的問題擺在面前。

一是模型的叠代更新周期長，需要大量的人力投入；

二是模型的訓練數據都源自已有的數據，模型不能持續獲得大量的新知識。雖然通過RAG和擴長上下文窗口也可以註入持續出現的新知識，模型記不住，補救方式還會帶來額外的問題。

總之，目前的多模態大模型在實際應用場景中不具備很強的適應性，更不具備創造性，導致在行業落地時總是出現各種各樣的困難。

妙啊——還記得我們前面提到，Awaker 1.0不僅可以學新知識，還能記住新知識，並且這種學習是每天的、持續的、及時的。

從這張框架圖可以看出，Awaker 1.0能夠與各種智能設備結合，通過智能設備觀察世界，產生動作意圖，並自動構建指令控製智能設備完成各種動作。

在完成各種動作後，智能設備會自動產生各種反饋，Awaker 1.0能夠從這些動作和反饋中獲取有效的訓練數據進行持續的自我更新，不斷強化模型的各種能力。

這就相當於具身智能擁有一個活的大腦了。

誰看了不說一句how pay（狗頭）～

尤其重要的是，因為具備自主更新能力，Awaker 1.0不單單是可以和具身智能適配，它還適用於更廣泛的行業場景，能夠解決更復雜的實際任務。

例如，Awaker 1.0與各種智能設備結合，從而實現雲邊協同。

這時候，Awaker 1.0就是部署在雲端的「大腦」，觀察、指揮，控製各種邊端智能設備執行各項任務。

而邊端智能設備執行各項任務時獲得的反饋，又會源源不斷地傳回給Awaker 1.0，讓它持續地獲得訓練數據，不斷進行自我更新。

這可不是紙上談兵，Awaker 1.0與智能設備的雲邊協同的技術路線，已經應用在電網智能巡檢、智慧城市等應用場景中，並取得了遠好於傳統小模型的識別效果。

多模態大模型能聽、能看、能說，在語音識別、圖像處理、自然語言理解等多個領域展現出了巨大的潛力和應用價值，幾乎無所不能。

但它的煩惱很明顯，如何不斷吸收新知識、適應新變化？

可以說，修煉內功、提升武藝成為了多模態大模型面臨的一個重要課題。

智子引擎Awaker 1.0的問世，為多模態大模型的自我超越提供了一把鑰匙。

它好像會了那個吸星大法，通過自主更新機製，打破了數據短缺的瓶頸，為多模態大模型的持續學習和自我進化提供了可能；再就是利用雲邊協同技術，勇闖在具身智能等智能體設備的具體應用場景。

這或許是邁向AGI的一小步，但同時也是多模態大模型自我超越之旅的一個開始。

漫長而艱難的旅程，需要智子引擎這樣的團隊，向技術的高峰不斷攀登。---[衡宇發自: 凹非寺*量子位: 公眾號 QbitAI/來源: 量子位]

我要留言

超級智能體生命力覺醒！可自我更新的AI來了，數據瓶頸難題有救了

人工幾十萬，AI幾十塊！國產玩家證明了AIGC視頻商業化威力

企業不論大小都要有全球化思維和視野

人工幾十萬，AI幾十塊！國產玩家證明了AIGC視頻商業化威力

企業不論大小都要有全球化思維和視野