01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

哲學家萬字解析Sora本質,楊立昆點贊轉發,AI視頻離世界模擬器還有多遠?

2024031120:11


智東西3月8日報導,近日,深度學習三巨頭之一、Meta首席科學家楊立昆點贊分享了一篇萬字博文《視頻生成器是世界模擬器嗎?(Are Video Generation Models World Simulators?)》。



▲楊立昆在X平台上轉發並稱這是一篇好文章

文章從Sora的工作原理、模擬假說、直觀物理學、世界模型的定義、圖像生成等角度,深入探討了標題所提出的問題,並得出結論:像Sora這樣的視頻生成器,可能不是人們想象中的“世界模擬器”,但從更寬泛的定義上來看,它們可以被視作有限的“世界模型”。

本文作者以文生圖模型爲例證,論述了Sora可能和Stable Diffusion類似,生成過程超出了對像素空間表面統計的擬合,可能受到3D幾何和動態關鍵方面的潛在表示的影響,從而學到有用的深度、因果等特征的抽象表征。換句話說,Sora能在潛在空間中學習抽象規律,具有部分模擬世界的能力。

自Sora于今年初發布以來,“Sora是否理解物理世界”話題引來衆多大佬下場討論。其中英偉達的科學家Jim Fan將Sora描述爲“數據驅動的物理引擎”;楊立坤則多次開噴Sora,稱Sora的訓練方式無法構建世界模型,通過生成像素的方式來建模世界,與幾乎已經被抛棄的“綜合分析”方法一樣,浪費時間且“是一次徹頭徹尾的失敗”。

該文章的作者是澳大利亞悉尼麥考瑞大學的哲學講師拉斐爾·米利埃爾(Raphaël Millière),他主要從事AI、認知科學和心智哲學等方面的學術研究。以下是對該文章的全文編譯,由于篇幅原因進行了部分刪減。



▲文章首頁截圖

原文地址:
https://artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts

一、Sora是一項工程壯舉,架構沒有真正突破

2024年2月16日,OpenAI推出Sora,一個令人印象深刻的新型深度學習模型,可以根據文本提示生成視頻和圖像。Sora可以生成長達一分鍾的視頻,具有不同的分辨率和寬高比。雖然目前無法測試該模型,但OpenAI挑選的結果表明它在先前的技術水平上有了巨大的改進。

OpenAI有些自大地聲稱Sora是一個“世界模擬器”。那麽什麽是世界模擬器呢?這是OpenAI對訓練Sora動機的陳述:

“我們正在教AI如何理解和模擬物理世界中的運動,目標是訓練出能夠幫助人們解決需要與現實世界進行交互的問題的模型。”

OpenAI還發布了Sora技術報告,其中闡述了對Sora理論意義的理解:

“我們的研究結果表明,擴展視頻生成模型是建立物理世界通用模擬器的一條可行之路。”

Sora的技術報告對細節描述得很少,但提供了一些關于架構的線索。其核心是一個擴散變換器(Diffusion Transformer,簡稱DiT),這是比爾·皮布爾斯(Bill Peebles,也是Sora的主要作者之一)紐約大學的謝賽甯設計的一種架構。

DiT是一種具有Transformer主幹網絡的擴散模型。我們熟悉的圖像生成模型,如Stable Diffusion是潛在擴散模型。它們使用預訓練的變分自動編碼器(VAE)將原始圖像從像素空間壓縮到潛在空間;然後,擴散模型在從VAE學習的較低維潛在空間上進行訓練,而不是在高維像素空間上。這種擴散過程通常使用U-Net骨幹實現。U-Net是一種卷積神經網絡,最初用于圖像分割,後來被調整用于去噪擴散。

DiT架構受潛在擴散模型的啓發,但將U-Net骨幹替換爲修改後的視覺Transformer(ViT)。ViT是專門用于視覺任務的Transformer模型,它不以語言標記作爲輸入,而是接收圖像塊的序列。例如,一幅圖像可以分割成16*16的補丁(Patches),從而爲Transformer提供256個輸入Tokens。同樣,作爲DiT的核心修改後,ViT接受來自VAE的圖像補丁的潛在表示作爲序列輸入Tokens。相較于帶有U-Net的傳統潛在擴散模型,DiT具有一些優勢:效率更高、擴展性更好,而且易于適應不同的生成分辨率。

在Sora之前,DiT架構已經被用于文本條件下的圖像和視頻生成。OpenAI提出的解決方案使用所謂的“視頻壓縮網絡”(Video compressor network),這可能是針對視頻進行改編的VAE。其基本思想與最初的DiT相同:

(1)視頻壓縮網絡將原始視頻輸入壓縮爲潛在時空表示;

(2)壓縮後的視頻被轉換爲“時空補丁”,作爲輸入Token提供給擴散變換器;

(3)在最後一個Transformer塊之後,與視頻壓縮網絡一起訓練的解碼器模型將生成的潛在表示映射回像素空間。

與OpenAI之前的GPT-3等成就一樣,大家的共識似乎是,Sora的架構並沒有什麽真正的突破。正如謝賽甯所說,它實質上是一種適用于視頻的DiT,沒有額外的花哨功能。

因此,Sora在很大程度上是一項工程壯舉,也是對擴展能力的又一次證明。技術報告生動地說明了樣本質量隨著訓練計算量的增加而提高。與語言模型一樣,某些能力似乎也會隨著規模的擴大而顯現;自然地,Sora也再次引發了關于純粹的擴展到底能達到什麽程度的激烈爭論。

二、模擬假說:視頻生成模型在訓練中習得物理規律

Sora的技術報告聲稱,隨著規模的擴大,Sora獲得了“新興的模擬能力”。它提到了通過動態攝像機運動、遮擋、客體永久性和視頻遊戲模擬等來實現場景一致性,作爲此類能力的示例。報告繼續得出結論:

“這些能力表明,視頻模型的持續擴展是開發高性能物理和數字世界模擬器的有力路徑,這些模擬器涵蓋了生活在其中的對象、動物和人。”

我們稱之爲模擬假說(Simulation hypothesis)。

這個假設的問題在于,它非常模糊。視頻生成模型模擬物理世界到底意味著什麽?什麽樣的證據可以支持這一主張?讓我們逐一回答這些問題。

在Sora發布之後,AI行業的知名人士紛紛表達了他們對模擬假說的理解。英偉達的Jim Fan將Sora描述爲“數據驅動的物理引擎”。他這樣解釋這句話的含義:

“Sora通過大量視頻的梯度下降,在神經參數中隱式地學習物理引擎。Sora是一個可學習的模擬器,或者說是‘世界模型’。

Sora必須學習一些隱式的文本到3D、3D變換、光線追蹤渲染和物理規則,以便盡可能准確地模擬視頻像素。它必須學習遊戲引擎的概念,以滿足目標。”

物理引擎的術語有些令人困惑,尤其是考慮到有猜測認爲Sora是在虛幻5場景上訓練得到的,所以讓我們先澄清這一點。

據我所知,包括Jim Fan在內,沒有人真的認爲Sora在推理時有一個物理引擎在循環中。換句話說,作爲一個DiT模型,它不會在生成視頻時調用虛幻引擎。

實際上,神經網絡調用物理引擎以前已經有人嘗試過,但不是用于視頻生成,而是爲了物理推理。2023年,谷歌大腦的一篇論文Mind’s Eye通過物理引擎模擬可能的結果,來提高語言模型在物理推理問題上的表現,將這些模擬的結果作爲提示詞中的線索。

▲Mind’s Eye論文截圖

那麽,我們應該如何理解Sora類似于“數據驅動的物理引擎”模擬物理世界的主張呢?谷歌DeepMind的Nando de Freitas這樣說:

“一個有限大小的神經網絡能夠預測任何情況下會發生什麽的唯一方式,是通過學習內部模型來促進這種預測,包括直觀的物理定律。”

我們越來越接近模擬假說的明確陳述:一個基于端到端神經網絡架構、參數設置有限的足夠好的視頻生成模型,應該有望在訓練過程中獲得物理世界的內部模型,因爲這是神經網絡生成任意場景的連貫、逼真視頻的最有效方法——也許是唯一的方法。

Sora 是否真的從 2D 視頻中歸納出物理定律?

如上所述,這可能看起來很荒謬。

遊戲引擎通常也不模擬這些法則。雖然它們可能會模擬熱效應(火災、爆炸)和做功(物體克服摩擦力移動),但這些模擬通常是高度抽象的,並不嚴格遵守熱力學方程。他們根本不需要這樣做,因爲他們的重點是渲染場景的視覺和交互可信度,而不是嚴格的物理准確性。

Sora會做類似的事情嗎?

如果想回答這個問題,我們需要探討直觀物理學。

三、像人一樣,通過直觀物理引擎模擬事件?

對人類而言,即使是嬰兒也展現出對物理世界的穩定預期。例如看到一只球沿著地板滾向牆壁,我們會直覺地知道球會撞到牆壁並反彈回來,而不是穿過它。

這就是認知科學家稱之爲直觀物理學(Intuitive physics)的東西:一種快速、自動的日常推理,它讓人們知道當各種物體相互作用時會發生什麽,而不需要有意識地進行物理計算。


▲作爲概率推理的直觀物理學論文截圖

人類是如何做到的呢?認知科學家提出了一個著名的假設,人們使用一個直觀物理引擎(IPE)來模擬物理事件。

IPE類似于計算機遊戲中的物理引擎,它基于不完全准確的物理原理,通過隨機模擬來預測物理現象。根據這種觀點,當我們觀察物理場景時,會根據質量、摩擦、彈性等感知證據構建對物體、屬性和作用力的心理表征,然後運行內部模擬來預測接下來會發生什麽。

然而,關于IPE假設也存在爭議。批評者指出,人類的物理推理有時會偏離IPE式模擬預測,包括系統偏差和錯誤以及對視覺捷徑的依賴等。一些人認爲,非牛頓心理模型、深度學習模型可能更好地解釋人類對物理的直覺。

盡管存在爭議,但至少有一個相對合理且有豐富實驗文獻支持的案例支持模擬假說。現在,我們可以將這一背景知識應用于人工神經網絡,探討它們是否能夠模擬物理世界。

四、已有“世界模型”,未達強因果概念高標准

通過心理學中的直觀物理學,我們提出了一個重要的點:對物理場景進行心理模擬,與僅僅表示物理世界的各個方面(例如幾何形狀)之間存在表面上的區別,這個區別在討論像視頻生成模型這樣的神經網絡的能力時非常重要。

世界模型(World models)的含義已經被淡化,以至于在實踐中變得相當難以捉摸。在機器學習研究中,它主要起源于20世紀90年代Juergen Schmidhuber實驗室的強化學習文獻。在這種情況下,世界模型指的是智能體對其交互的外部環境的內部表示。具體來說,給定環境狀態和智能體行動,世界模型可以預測智能體采取該行動後環境的未來狀態。

在2018年Ha和Schmidhuber發表的世界模型論文中,他們提出世界模型包括一個感官組件,它處理原始觀察結果,並將它們壓縮成一個緊湊的編碼。具體來說,基于RNN的世界模型被訓練爲在智能體之前的經驗條件下,內部模擬並預測未來的潛在觀察編碼、獎勵和終止信號(完成狀態)。

▲Ha和Schmidhuber的世界模型模擬的環境中駕駛的智能體

Ha和Schmidhuber的世界模型論文影響了許多後續作品。谷歌DeepMind近日推出了基礎世界模型Genie,雖然它不是一個強化學習系統,但它與Ha和Schmidhuber的框架具有關鍵的相似之處。

Genie生成一個交互式環境,人類用戶可以通過影響未來視頻生成的操作來控制智能體,它引入了無監督動作空間學習的概念,以避免訓練過程中對動作標簽的依賴。因此,任意視頻都可以作爲訓練數據,而不是帶有動作標記的示例。

▲Genie

另一個值得一提的世界模型概念來自楊立昆,這在他的聯合嵌入式預測架構(JEPA)中得到了突出體現。在他的框架中,世界模型是一個智能體用于規劃和推理世界如何運作的內部預測模型,用于兩個關鍵功能:

(1)估算智能體感知系統未提供的有關當前世界狀態的缺失信息;

(2)預測智能體提出的一系列動作可能産生的多個可能的未來世界狀態。



▲楊立昆提出的自主機器智能認知架構的高層示意圖

在JEPA架構中,世界模型模塊是由預測器網絡實現的。它最近被應用于視頻,自監督模型V-JEPA通過預測視頻潛在空間中遮蔽時空區域的表示來學習。V-JEPA和Sora之間的一個關鍵區別是它們各自的學習目標,以及這些目標可能對其潛在表示産生的下遊影響。Sora針對像素空間的幀重建進行訓練的,而V-JEPA則針對潛在空間的特征預測進行訓練。根據楊立昆的觀點,這會導致它們潛在表示之間的巨大差異。在他看來,像素級別的生成目標根本不足以誘導可能對在世界中規劃和行動有用的抽象表示。

總之,人們使用“世界模型”一詞的方式略有不同。無論是生成模型、強化模型,還是JEPA模型,都沒有達到因果推理文獻中“世界模型”這一強因果概念所設定的高標准。

那麽像Sora這樣的視頻生成模型呢?我們可以從圖像生成模型中尋找線索。

五、圖像生成模型能學習3D幾何結構,提供重要線索

Sora模型的核心是DiT,它受到常用于圖像生成的潛在擴散模型的啓發,但將U-Net骨幹替換爲了ViT。

這引發了一系列問題:基于潛在擴散的圖像生成模型實際上編碼了哪些信息?是僅僅編碼了圖像表面的啓發式信息,還是編碼了視覺場景的潛在變量,比如3D幾何結構?

目前,關于這個問題的研究並不多。

Zhan等人于2023年提出了一種方法來評估潛在擴散模型是否編碼了圖像中描繪的3D場景的不同物理屬性。測試結果顯示,像Stable Diffusion這樣的模型能夠編碼關于3D場景幾何、支持關系、照明和相對深度的信息,盡管在遮擋方面的分類性能較低。

這項研究僅僅表明物理屬性的信息可以從模型的激活中解碼出來,並不意味著這些信息在模型行爲上具有因果效力。

Chen等人在2023年的研究填補了這一空白。他們創建了一個由潛在擴散模型Stable Diffusion生成的圖像數據集,並訓練線性探測器來預測顯著對象的分割和深度值。通過幹預實驗,他們發現模型的內部激活對生成圖像的幾何形狀有因果影響。


▲用Chen等人的擴散模型解碼的深度和突出物體表示

這個實驗表明,像SD這樣的潛在擴散模型能夠學習到關于簡單場景幾何的線性表示,特別是與深度和前景/背景區分相關的表示,即使它們僅僅在沒有顯式深度監督的情況下,只通過2D圖像進行訓練。

此外,這些表示在叠代采樣過程的早期階段就出現了,而在這些階段,圖像本身對于人類觀察者來說仍然像是隨機噪聲,並且幾乎不包含深度信息。這表明潛在擴散模型所做的遠遠超出了對像素空間表面統計的擬合。它們引導了關于深度和顯著性的潛在信息,因爲這樣的信息對于生成逼真的圖像目標非常有用。

還有其他關于圖像生成模型的相關研究。低秩自適應(LoRA)可以用來直接從潛在擴散模型中提取內在的“場景圖”,如表面法線和深度。該方法可以將任何圖像生成模型轉化爲固有場景屬性預測器,而不需要額外的解碼網絡。結果表明,可以通過利用模型參數中已經存在的信息來提取關于3D場景幾何的精細預測。



▲在SD的內在場景地圖使用I-LoRA方法

這並不意味著潛在擴散模型能完美地表示視覺場景的各個方面的三維幾何。實際上,經過訓練的人眼通常可以注意到輸出中的各種缺陷,物理不一致性甚至可以通過分類器進行量化,就像Sarker等人(2023年)所做的那樣。這些不一致性包括物體及其陰影的錯位,以及違反投影幾何學的情況,例如線條未能正確地收斂到消失點或不遵循線性透視:



▲AI生成的圖像中存在的物理不一致性

對于如何修複生成圖像中這些持續存在的缺陷,有很多有趣的猜想。一個假設是,測試的模型可能不夠大,或者訓練數據不夠充分。通過擴大參數和數據集的規模,可能足以使潛在擴散模型學習正確的投影幾何,就像它足以修複先前模型中的許多其他逼真性和連貫性問題一樣。但也有可能存在更基本的問題,阻止潛在擴散模型正確學習投影幾何。例如,它們的架構可能缺乏適當的歸納偏差。在這種情況下,使用ViT作爲主幹結構的DiT也可能減輕純潛在擴散的不足之處。

總之,對潛在擴散模型的探測和幹預研究表明,它們確實能表示視覺場景3D幾何的一些特征,這與它們原則上可以學習至少有限程度的“世界模型”的假設是一致的。它們的潛在空間編碼了結構保持、因果有效的信息,這些信息超越了像素空間的表面統計數據。這是解決關于Sora和模擬假說的猜測的重要線索。

六、Sora在潛在空間中學習抽象規律,是有限的“世界模擬器”

與用于圖像生成的潛在擴散模型一樣,Sora是根據視覺輸入進行端到端訓練的,其訓練和生成都沒有明確地以物理變量爲條件。但就像潛在擴散模型一樣,它的輸出表現出驚人的規律性。

在回顧了認知科學和機器學習中的直觀物理模擬和世界模型的不同方式後,我們可以肯定的第一件事是,Sora從根本上不同于使用專用“直觀物理引擎”來運行模擬的複合模型。

與直觀物理引擎模型不同,Sora沒有專門的感知、預測和決策模塊,需要像物理引擎這樣的接口;它只是一個高維空間,其中潛在表示經曆跨層的連續變換。

Sora也與Ha和Schmidhuber的世界模型大不相同。它不基于離散動作、觀察和獎勵信號的曆史來運行模擬。

在這方面,OpenAI的技術報告有些誤導性內容。其給出的Sora演示視頻看起來像是從Minecraft這樣的視頻遊戲中捕獲的,但技術報告對這些輸出結果的解釋卻更進一步:Sora可通過基本策略(basic policy)控制Minecraft中的玩家,同時還能高保真地呈現世界及其動態效果。

▲Sora演示視頻

這表明Sora模仿了一個智能體(“可控”角色)的政策,就像離線強化學習一樣。但這裏沒有傳統意義上的“策略”——或者說代理、動作、獎勵。與Genie不同,Sora沒有接受過從視頻中誘發潛在動作的訓練,並且其輸出也不以此類動作爲條件。

如果按照字面意思,技術報告暗示Sora已經自發地學會了在Minecraft角色內部表示類似隱式策略的東西,但這肯定不是我們僅通過查看輸出就可以推斷出來的。這是一個相當大膽的主張,應該通過分析模型內部的情況來澄清和支持。

因此,Sora與IPE模型、基于RL世界模型以及Genie不同,在以下強定義上,它不是一個“世界模擬器”。

定義1:一個可以對環境的元素和動態進行向前時間模擬,並且其預測是基于這些模擬的輸出條件的系統。

Sora對時空Token的預測是基于先前的時空Token序列進行的,它不涉及運行大量關于2D視頻場景中所描繪的3D世界的向前時間模擬。它不會像傳統搜索算法一樣,通過運行多個內部模擬來預測合法移動,並根據結果調整下一步的預測。

然而,我們不能完全排除Sora是一個“世界模擬器”的假設,或者稍微不那麽嚴謹地說,它是一個“世界模型”,這個概念的弱意義是受到Othello-GPT等系統的啓發。

定義2:一種可學習其輸入域(包括三維環境的物理屬性等)屬性的結構保留、因果效應表征的系統。

作爲DiT,Sora本質上是一個潛在擴散模型,盡管它有一個Transformer主幹網絡。Sora與像Stable Diffusion這樣的潛在擴散模型在兩個重要方面有所不同:(1)處理視頻(3D“時空”對象)的潛在表示,而不是圖像;(2)其規模可能要大得多,並且在更多的數據上進行訓練。因此,我們可以預期,Stable Diffusion在潛在空間中的3D幾何圖形,可以轉化爲像Sora這樣的系統;我們也可以預期,Sora能代表其輸入域的更多“世界屬性”,包括隨時間展開的過程屬性等。

加裏·馬庫斯(Gary Marcus)等批評者指出,Sora的某些輸出結果公然違反了物理學原理,以此作爲反對模擬假說的證據。OpenAI在自己的博文和Sora技術報告中承認了這些局限性,並提供了一些特別嚴重的例子。例如,在下面摘錄的視頻中,我們可以看到明顯的時空不一致,包括違反重力、碰撞動力學、穩固性和物體永恒性。

▲Sora生成的視頻違反重力和碰撞物理學原理

▲Sora生成的視頻違反了實體和客體永恒性

首先要注意的是,雖然這些不一致的現象自然會讓我們覺得不可思議,但這些視頻也表現出了高度的一致性。玻璃杯懸浮、液體在玻璃中流動、椅子變形爲奇怪的形狀、人在被遮擋時突然出現……這些反常現象之所以讓人覺得奇怪,部分原因是其他一切看起來都與人們預想的差不多。這就是爲什麽這些輸出結果看起來更像是來自一個物理原理奇特的世界的怪異科幻特效,而不是抽象混亂的視覺圖案。例如,場景的全局3D幾何結構相當一致,各種場景元素的運動軌迹也是如此。

Sora的輸出結果顯然會在直觀物理方面出錯,就像SD的輸出結果會在投影幾何方面出錯一樣,但這並不能排除這樣一種假設,即該模型在某些方面的三維幾何和動態表現是一致的。

我們在討論Sora架構時提到的一點值得重溫。與用于生成圖像的潛在擴散模型一樣,Sora的生成過程並不是在像素空間中進行的,而是在潛在空間中進行的,即對時空斑塊的潛在表征進行編碼的空間。這大概率是很重要的一點,因爲一些評論家認爲Sora只是學會了在逐幀像素變化中插值常見模式。對這一評價的一種理解是,Sora只是對像素空間中視頻時空“紋理”的常見變換進行近似處理。

以這種方式思考Sora如何生成視頻可能會産生誤導。在Sora的架構中,編碼器和解碼器之間發生的一切都發生在潛在空間中。正如對潛在擴散模型的研究表明,深度等屬性的潛在表征可以從早期擴散時間步開始産生因果效應。Sora的情況也可能如此:與場景直觀物理相關的屬性的潛在表征即使在早期擴散時間步也能對生成過程産生因果效應,這並非不可信。

楊立昆等人可能不同意這一觀點,因爲Sora的訓練目標是像素級重建,盡管生成過程發生在潛在空間。因此,有人認爲Sora對視頻場景的潛在表征不可能那麽抽象。但是,同樣的論點也適用于用于圖像生成的潛在擴散模型;而且,我們也有具體證據表明,這些模型確實能學習到有用的深度等特征的抽象表征。也許V-JEPA的表征比Sora的更加抽象和結構化,但這是一個開放的經驗性問題。

結語:視頻生成模型,從娛樂到世界模擬的探索

那麽,像Sora這樣的視頻生成模型是世界模擬器嗎?

或許在某種程度上是,但不一定是人們所想象的方式。它們的生成過程並不以直觀物理的前向時間模擬爲條件,就像直觀物理引擎那樣;但它可能受到3D幾何和動態關鍵方面的潛在表示的影響。

從更弱的意義上說,Sora可能有一個有限的世界模型,就像用于圖像生成的潛在擴散模型有一個更有限的世界模型一樣。但我們還不能確定,除非某個研究小組以正確的方式對Sora進行研究。OpenAI仍然偶爾進行可解釋性研究,所以還是有希望的;我們希望看到更廣泛的研究團隊能在可解釋性方面做出努力,比如Stable Video這樣的開源視頻生成模型。雖然這些模型的能力遠不如Sora,但它們便于研究。

在我們進行猜想的同時,請允許我對視頻生成模型的未來做一個簡單的推測。我曾說過,Sora並不是一個模擬器,因爲它並不是通過先對場景進行一系列模擬來預測視頻幀的。不過,也許Sora或其他更強大的視頻生成模型可以在一個更綜合的系統中用作模擬器。例如,Genie論文的作者們暗示了類似的模型可以用來爲訓練強化學習智能體生成多樣化的模擬環境。未來,我們可以想象機器人系統將使用三個主要組件:

(1)一個大型的視覺語言模型,用于解析語言指令,將其轉化爲計劃,並對視覺輸入進行推理;

(2)一個大型的視頻生成模型,用于模擬未來可能的觀察結果,以進行底層規劃;

(3)一個通用的逆動力學模型,用于從這些模擬中提取合適的行動,並據此執行計劃。

也許(2)和(3)可以合並到一個通用的Genie式生成模型中,該模型具有內置的(或者學習到的)表示潛在動作的能力;也可以將這三個模型合並成一個巨大的Gato式多模態模型,該模型可以解析和生成語言、時空和動作的標記。這些推測性的場景揭示了從視頻的生成建模到更強大意義上的“世界模擬”之間的路徑。

讓我們以一個有趣的開放性問題來做個總結。無論視頻生成模型在AI和機器人技術的未來中扮演什麽角色,人們可能會問,與任何深度學習模型一樣,它們是否會以非表面的方式與認知科學相關。正如前面討論的那樣,關于人類物理推理在多大程度上依賴于直觀物理引擎的顯式模擬,目前仍未達成共識。也許視頻生成模型的進展,以及未來對其作爲基于代理架構的實際模擬器的可行性研究,會給IPE模型帶來一些壓力。這也可能會引發有趣的討論,即是否應將能可靠模擬直觀物理的神經網絡作爲端到端學習IPE的核心機制,而不是作爲直觀物理IPE模型的真正替代品。

無論人們對Sora和OpenAI持何種觀點,思考視頻生成模型如何超越其娛樂價值而與深度學習和認知科學的關鍵研究問題相關,都是一件令人興奮的事情。從GIF生成器到世界模擬器,我們拭目以待。---[智東西公衆號:zhidxcom*編譯 : 香草*編輯 : 李水青/來源: 智東西]