01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

“世界模型”大爭議:楊立昆狠批Sora不是世界模型,生成式路線注定失敗

2024022313:24

過去一周,Sora 的光芒有多耀眼,谷歌與 Meta 就有多落寞。

就在 Sora 發布的同一天,另有兩款重磅産品推出:一是谷歌發布支持 100 萬 tokens 上下文的大模型 Gemini 1.5 Pro;二是 Meta 發布“能夠以人類的理解方式看世界”的視頻聯合嵌入預測架構 V-JEPA(Video Joint Embedding Predictive Architecture)。

只是由于發布日期與 Sora “撞車”,與它們有關的消息基本都被埋在了鋪天蓋地的 Sora 新聞流裏。可以說在話題熱度這塊兒,Gemini 1.5 Pro 和 V-JEPA 被 Sora 殺得片甲不留。

如果說作爲語言模型的 Gemini 1.5 Pro 與 Sora 還不在同維度競爭的話,與 Sora 同屬視頻生成模型的 V-JEPA 便是“實慘”了,發布的前兩天基本無人問津,甚至連業內都很少關注到。

Sora 之所以引發了全世界的關注,不僅僅在于它是一個高質量的視頻生成模型,更在于 OpenAI 把它定義爲一個“世界模擬器”(world simulators)。

OpenAI 表示:“ Sora 是能夠理解和模擬現實世界模型的基礎,我們相信這種能力將成爲實現 AGI 的重要裏程碑。”

英偉達高級研究科學家 Jim Fan 更是直接斷言,“Sora 是一個數據驅動的物理引擎,是一個可學習的模擬器,或世界模型”。

Sora 是世界模型?這讓圖靈獎獲得者、Meta 首席科學家 Yann LeCun(楊立昆)坐不住了,LeCun 多次在社交平台 X 上“狠批” Sora,表示 Sora 的生成式技術路線注定失敗。

LeCun 顯然出離地憤怒:“我從未預料到,看到那麽多從未對人工智能或機器學習做出任何貢獻的人,其中一些人在達克效應(Dunning-Kruger effect)上已經走得很遠,卻告訴我我在人工智能和機器學習方面是錯誤、愚蠢、盲目、無知、誤導、嫉妒、偏見、脫節的......”


Yann LeCun的X截圖

這場關于世界模型的巨大爭議,到底是如何發生的?

01 OpenAI的生成式路線,大佬們怎麽看?

目前,幾乎所有的深度學習模型都是建立在 Transformer 架構上。但是在追求通用人工智能(AGI)的道路上,存在不同的流派。

OpenAI 是自回歸生成式路線(Auto-regressive models),遵循“大數據、大模型、大算力”的暴力美學路線。從 ChatGPT 到 Sora,都是這一思路的代表性産物。

簡而言之,Sora 通過分析視頻來捕捉現實世界的動態變化,並利用計算機視覺技術重現這些變化,創造新的視覺內容。它的學習不限于視頻的畫面和像素,還包括視頻中展示的物理規律。

Sora 采用了以 Transformer 爲骨架的 Diffusion Model(擴散模型),其拔群的效果也驗證了擴展法則(scaling law)與智能湧現(Emergent)依舊成立。

值得一提的是,OpenAI 把 Scale 作爲核心價值觀之一:我們相信規模——在我們的模型、系統、自身、過程以及抱負中——具有魔力。當有疑問時,就擴大規模。



但是,LeCun 卻認爲“自回歸生成模型弱爆了(Auto-Regressive Generative Models suck)”!

他認爲,自回歸路徑是無法通往 AGI 的。LeCun 本人不止一次公開表達了對自回歸生成模型熱潮的批評:“從現在起 5 年內,沒有哪個頭腦正常的人會使用自回歸模型。”

2 月 13 日,在 2024 年世界政府峰會(World Government Summit)上,LeCun 就談到“他並不看好生成式技術”。他認爲“文本處理的方法無法直接應用于視頻”,並順水推舟地宣傳一下自家研究,“目前爲止,唯一看起來可能適用于視頻的技術,是我們研發的 JEPA 架構”。

幾天後,他再次“狠批” Sora,僅根據文字提示生成逼真的視頻,並不代表模型理解了物理世界。LeCun 表示:“生成視頻的過程與基于世界模型的因果預測完全不同”;2 月 19 日,他又一次發文駁斥道:通過生成像素來對世界進行建模是一種浪費,就像那些被廣泛抛棄的“通過合成來分析”的想法一樣,注定會失敗。

LeCun 認爲文本生成之所以可行,是因爲文本本身是離散的,有著有限數量的符號。在這種情況下,處理預測中的不確定性相對容易。在高維連續的感覺輸入中處理預測不確定性基本上是不可能的。“這就是爲什麽針對感輸入的生成模型注定會失敗的原因”。

在不看好 Sora 技術路徑的質疑聲中,不只有 LeCun。

Keras 之父 François Chollet 也持有相似觀點。他認爲僅僅通過讓 AI 觀看視頻是無法完全學習到世界模型的。盡管像 Sora 這樣的視頻生成模型確實融入了物理模型,問題在于這些模型的准確性及其泛化能力——即它們是否能夠適應新的、非訓練數據插值的情況。


François Chollet的X截圖

Chollet 強調,這些問題至關重要。因爲它們決定了生成圖像的應用範圍——是僅限于媒體生産,還是用作現實世界的可靠模擬。

同時他還指出,僅僅依靠擬合大量數據(例如通過遊戲引擎生成的圖像或視頻)來期待構建出能廣泛適用于現實世界所有情況的模型是不現實的。原因在于,現實世界的複雜度和多樣性遠遠超出了任何模型通過有限數據所能學習到的範圍。

Artificial Intuition 作者 Carlos E. Perez 則認爲 Sora 並不是學會了物理規律,“只是看起來像學會了,就像幾年的煙霧模擬一樣。 ”


Carlos E. Perez的X截圖

知名 AI 學者、Meta AI 研究科學家田淵棟也表示,關于 Sora 是否有潛力學到精確物理(當然現在還沒有)的本質在是:爲什麽像“預測下一個 token ”或“重建”這樣簡單的思路會産生如此豐富的表示?


Yuandong Tian 的 X 截圖

最初,世界模型的概念源于人類對理解和模擬現實世界的追求。

它與動物(包括人類)如何理解和預測周圍環境的研究相關,這些研究起源于認知科學和神經科學。隨著時間的推移,這一思想被引入到計算機科學、特別是人工智能領域,成爲研究者設計智能系統時的一個重要考慮因素。

在人工智能領域,所謂的世界模型,是指機器對世界運作方式的理解和內部表示,也可以理解爲抽象概念和感受的集合。它能幫助 AI 系統理解、學習和控制環境中發生的事情。因此世界模型也可以看作是 AI 系統的“心智模型”,是 AI 系統對自身和外部世界的認知和期望。

比如,玩家正在玩一個賽車遊戲,世界模型可以協助玩家模擬賽車預測不同駕駛策略的結果,從而選擇最佳的行駛路線;或者在現實中,一個機器人可以使用世界模型來預測移動一件物體可能引起的連鎖反應,從而做出更安全、更有效的決策。

世界模型對于發展通用人工智能至關重要,因爲它不僅提高了 AI 的抽象和預測能力,使其能夠理解複雜環境並規劃未來行動,還促進了 AI 的創造性問題解決和社會互動能力。通過內部模擬和推理,世界模型使 AI 能夠適應新環境、有效合作以及自主學習,從而推動 AI 技術向更高層次的智能進化。

02 Meta 力推非生成式世界模型

既然 LeCun 說生成式路線的 Sora 不行,那麽 Meta 發布的非生成式路線的 V-JEPA 水平如何?

去年,LeCun 提出了一個全新思路,希望“打造接近人類水平的 AI”。他指出,構建能夠學習世界模型或許就是關鍵。

通過這種方式,機器不僅能更迅速地學習和規劃解決複雜問題的策略,而且也能更有效地適應新穎或未知的環境。並且 LeCun 還斷言:“掌握了如何學習和應用這種世界模型的 AI ,將能夠真正地接近人類水平的智能”。

動物和人類的大腦運行著一種模擬世界的模型,這種模型在嬰兒期通過觀察世界就已經學會,是動物(包括人類)對周圍發生情況做出良好猜測的方法。

LeCun 將這種直覺性的推理稱爲“常識”(包含我們對簡單物理學的掌握)。他根據大腦運行機制,提出了一個端到端的仿生架構,包含 6 個核心模塊:配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊。


Yann LeCun的自主智能系統的架構示意圖,來源:《通向自主機器智能的路徑 版本0.9.2, 2022-06-27》

其中世界模型模塊是最複雜的部分。它主要承擔兩個關鍵任務:一是補充感知模塊未能捕獲的信息;二是對世界未來狀態進行預測,這不僅包括世界自然發展的趨勢,還有參與者行爲可能引起的變化。

簡而言之,世界模型就像是一個現實世界的虛擬模擬器,它需要能夠應對各種不確定性,做出多種可能的預測。

基于該理念設計的 V-JEPA 是一種“非生成模型”,通過預測抽象表示空間中視頻的缺失或屏蔽部分來進行學習。

這與圖像聯合嵌入預測架構(I-JEPA)相似,I-JEPA 通過比較圖像的抽象表示來進行學習,而不是直接對比“像素”。與嘗試重建每個缺失像素的生成式方法不同,V-JEPA 摒棄了預測那些難以捉摸的信息,這種方式使其在訓練和樣本效率上實現了1.5到6倍的提高。

V-JEPA 采用了自我監督的學習方法,就好比一個初生兒,通過觀察來理解世界,建立自己的認知。因此,Meta 完全使用未標記的數據進行預訓練。標簽僅用于在預訓練後使模型適應特定任務。Meta 表示,這種類型的架構比以前的模型更有效,無論是在所需的標記示例數量方面,還是在學習未標記數據方面投入的總工作量方面。

V-JEPA模型的訓練過程是,先遮蔽掉視頻中的大部分內容,只向模型展示一小部分上下文,然後要求預測器填補缺失的部分——不是以實際像素的形式,而是在這個表示空間中以更抽象的描述來填補。


V-JEPA 通過預測學習的潛在空間中的屏蔽時空區域來訓練視覺編碼器,圖片來自Meta。

這個過程涉及到兩個核心步驟,一是掩蔽技術,二是高效預測。

V-JEPA 並未接受過理解某一特定類型操作的訓練。相反,它對一系列視頻進行了自我監督訓練,並了解了許多有關世界如何運作的知識。Meta 團隊仔細考慮了屏蔽策略——如果你不遮擋視頻的大片區域,而是到處隨機采樣補丁,那麽任務就會變得過于簡單,並且模型不會學到任何關于世界的特別複雜的東西。

在抽象表示空間進行預測至關重要,因爲這使得模型能夠集中于視頻中更高層次的概念信息,而非那些對大多數任務來說並不重要的細節。畢竟,當視頻展示一棵樹時,觀看者通常不會對每片葉子的細微動作感興趣。

Meta 表示,V-JEPA 是第一個擅長“凍結評估”的視頻模型,只要在編碼器和預測器上進行所有自監督預訓練。當想讓模型學習一項新技能時,只需訓練一個小型輕量級專業層或在此之上訓練一個小型網絡,這是非常高效和快速的。

V-JEPA 中的“V”代表“視頻”,它只是一個關于感知的視頻模型。但 Meta 表示,正在仔細考慮將音頻與視覺效果結合起來,進一步構建世界模型。

現在,Meta 已經將 V-JEPA 代碼開源,供用戶下載使用。而 Sora 仍然沒有向普通用戶開放。

不論 LeCun 是真心覺得生成式路線無法實現世界模型,還是爲了讓 V-JEPA 在與 Sora 的競爭中爭取用戶的關注度,Meta 都在用開源的方式真正實現“open 的 AI”。

這一次,V-JEPA 能否像去年的 LLama 一樣,利用開源模式在大模型的競賽中占得先機?

參考資料:《Meta發布V-JEPA,世界模型更進一步,這是通往通用人工智能(AGI)之路嗎?》,作者:求索,知乎。---來源: 钛媒體-