爲什麽說Sora是世界的模擬器?
【新智元導讀】從虛擬到物理,如果世界皆可被模擬,什麽是現實?
AI 視頻生成的「ChatGPT時刻」比想象中提前了6個月。
Sora 的誕生意味著什麽,何以堪稱「世界的模擬器」?
OpenAI 技術報告中透露,Sora 能夠深刻地「理解」運動中的物理世界,堪稱爲真正的世界模型。
而 LeCun 則一貫酸溜溜地認爲 Sora 不能理解物理世界,在他看來,「僅根據文字提示生成逼真的視頻,並不代表模型理解了物理世界。生成視頻的過程與基于世界模型的因果預測完全不同」。
Sora 真的理解物理世界嗎?與 ChatGPT 的底層邏輯有什麽異同?
成爲物理世界的模擬器,Sora 是唯一的解法嗎?
OpenAI 接連核爆,「暴力美學」之路真的能抵達 AGI 嗎?
01. Sora 是世界的模擬器?
OpenAI 在其技術報告中只字未提與模型架構、數據規模、訓練成本等相關的細節,但其標題赫然指出Sora這類視頻生成模型是「世界的模擬器」。
OpenAI 想強調,Sora 不是單純的視頻生成模型,不只是視頻行業顛覆者,而是「世界的模擬器」——它打開了一條通往模擬物理世界的有效路徑。
OpenAI 僅列舉了作爲物理世界的模擬器應具備的幾個特點和例子——3D一致性、遠程相關性、物體持久性、與世界互動等,卻並未對「什麽是世界的模擬器」做任何定義和具體分析。
但我們大概可以總結出它的邏輯:Sora生成的視頻能夠在相當長的時空範圍內,不違反物理世界的常見規律(比如重力、光電、碰撞等)。如果模型規模進一步提升,它有可能模擬生成物理世界的一切視頻。
我們不禁疑問,爲什麽 OpenAI 在此時提出「模擬器」這一概念,它究竟是什麽?如何成爲「世界的模擬器」?與單純的視頻生成模型有什麽邏輯關系?進而,一個能夠模擬複雜世界動態的 AI 會將人類帶往何處?
在談物理世界的模擬器之前,我們先重溫一下虛擬世界的模擬器——ChatGPT。
02. ChatGPT 是虛擬思維世界的「模擬器」 ?
何謂「模擬器」,顧名思義,如同動態鏡像一般,模擬器是可以逼真「反映」虛擬世界或現實世界的模型或系統。
遊戲可視爲一種對現實世界的模擬,所謂數字世界。
遊戲的數字世界通常有一個既定的環境,包括人物、場景、功能道具等,還有一個起始的配置。給以目標指令,按下『start』,遊戲主角便可以開始出發探索這個世界,與之互動。
比如在小遊戲《超級馬裏奧》中,主角馬裏奧和每一關卡的場景都是既定的環境,小馬裏奧只身出場是起始配置,在規則下贏得金幣是目標指令,『start』遊戲開始,直達旅程目標。
這就是一個最簡單模擬器的模擬過程,構造了一個既定場景的小世界。
在 ChatGPT 這類應用中,我們通常可以爲模型設置角色,例如設置爲用戶的助理、教師或伴侶(可視爲環境),用戶就可以給出目標指令開始與之交互。
比如可以讓 ChatGPT 寫一篇關于 Sora 的文章,給它一段開頭,ChatGPT 就會續寫整篇;給定一段故事結尾,它可以補足故事的來龍去脈;給出一段故事節選,它可以展開前後兩端的想象,予以擴寫;給定完整的篇幅,它也可以縮寫摘要。成篇非常順暢絲滑,符合文法和邏輯。
這些語言任務的完成,其實是在模擬創作者的思維過程。
而對創作者思維的模擬,需要遵從思維背後的邏輯和常識。比如 ChatGPT 在續寫 Sora 原理的文章時,會圍繞深度學習和語言模型層層推進,邏輯線條合理,而不會跳躍到辛亥革命或咖啡機使用指南。
ChatGPT 作爲語言模型 ,通過「語言」這一思維的載體,可以多方面模擬虛擬世界中的各種場景和角色(合理絲滑的故事線),成爲虛擬世界的「模擬器」。
既然 ChatGPT 對答如流,也能模擬不同風格的文學家、詩人寫詩作文,作品不違反常識,也符合人類思維規律,那是否說明它就掌握了這些規律呢?
功能主義角度的回答是肯定的。我們可以認爲ChatGPT是懂得思維的,是理解思維世界的,具有自己的認知。雖然我們沒有一一教他具體的思維邏輯和常識,但它讀遍浩瀚的書籍數據,已然從數據中汲取了海量的知識,掌握了知識背後的思維邏輯。
ChatGPT這類語言模型從語言大數據中的學習,實際上就是在模擬一個充滿了人類思維和認知映射的虛擬世界。
今天的ChatGPT已經攻下了虛擬世界「模擬器」的堡壘。它所反映的人類認知,包括常識、百科知識以及推理邏輯,實際上已經遠遠超過了絕大部分人類個體。
那麽物理世界的模擬器會以何種方式呈現?
03. 何爲物理世界的模擬器?遵循物理世界規律
如同人類的思維世界要前後自洽,不違反常識,遵循分析歸納、邏輯推理等「規律」(統稱思維邏輯),物理世界也有背後的「規律」,包括能量守恒定律、熱力學定律、力的相互作用定律等等。
比如蘋果不能突然在空中漂浮,這不符合牛頓的萬有引力定律;比如在光線照射下,物體産生的陰影和高光的分布要符合光影規律等;比如物體之間産生碰撞後會破碎或者彈開。
作爲「物理世界的模擬器」,需要能夠在虛擬環境中重現物理現實,爲用戶提供一個逼真且不違反「物理規律」的數字世界。
技術上至少有兩種方式可以實現這樣的模擬器,一種是通過大數據學習出一個AI系統來模擬這個世界,比如說本文討論的 Sora。
另外一種是弄懂物理世界各種現象背後的數學原理,並把這些原理手工編碼到計算機程序裏,從而讓計算機程序「渲染」出物理世界需要的各種人、物、場景、以及他們之間的互動。
虛幻引擎(Unreal Engine,UE)就是這種物理世界的模擬器。它內置了光照、碰撞、動畫、剛體、材質、音頻、光電等各種數學模型。一個開發者只需要提供人、物、場景、交互、劇情等配置,系統就能做出一個交互式的遊戲,這種交互式的遊戲可以看成是一個交互式的動態視頻。
UE 這類渲染引擎所創造的遊戲世界已經能夠在某種程度上模擬物理世界,只不過它是通過人工數學建模及渲染而成,而非通過模型從數據中自我學習。而且,它也沒有和語言代表的認知模型連接起來,因此本質上缺乏世界常識。而 Sora 代表的AI系統有可能避免這些缺陷和局限。
04. 爲什麽 Sora 有望成爲世界的通用模擬器?
不同于 UE 這一類渲染引擎,Sora 並沒有顯式地對物理規律背後的數學公式去「硬編碼」,而是通過對互聯網上的海量視頻數據進行自監督學習,從而能夠在給定一段文字描述的條件下生成不違反物理世界規律的長視頻(雖然目前長度只有一分鍾,但是完全碾壓了此前有數秒限制的類似競品,如曾被熱捧的 Pika 和 Runway)。
與 UE 這一類「硬編碼」的物理渲染引擎不同,Sora視頻創作的想象力來自于它端到端的數據驅動,以及跟LLM這類認知模型的無縫結合。
端到端的數據驅動更加通用、更方便叠代提升
與曆史上所有的數據驅動的端到端AI系統一樣,Sora 的優勢是如果數據給力,數據量足夠大,它可以覆蓋各種各樣的邊界條件下的複雜度。與之相比,UE 能夠硬編碼的數學原理和場景模版畢竟是有限的,更何況很多物理世界的現象,人類還沒有發現其背後的數學原理。
所以很多時候,UE遊戲開發者不得不犧牲用戶體驗,或者手工對某些特殊情況「頭痛醫頭」地做針對性專門編碼。比如,由于材質和碰撞模型的不完善,大家經常看到數字人直播時的穿模現象(手插到肚子裏去了),而要解決穿模問題得做很多額外的工作。
以叠代完善的角度,對于數據驅動的AI系統,我們只要利用摩爾定律,不停地加大數據和算力,系統就會自動越來越完善。而「硬編碼」的系統則依賴于「人工」的努力和進展。
與認知模型的無縫融合讓多模態模型更加通用和魯棒
與很多人一樣,我們爲 Sora 視頻的高質量所折服,但讓我們真正興奮的是, Sora 類視頻生成模型的架構終于向 LLM 的架構靠近。
比如 Sora 采用 Transformer 作爲模型的骨架來學習文本和視頻的關系以及視頻內部的時空關系。又比如 Sora 把視頻數據 token 化。這樣的好處是視頻生成模型能跟 LLM 在模型層面無縫融合。
雖然我們現在無法判斷 Sora 的訓練是否將 LLM 作爲起點,然後再加入視頻的模態繼續訓練。但是幾乎可以肯定的是,未來的多模態模型都會把 LLM 作爲起點,從而把 LLM 的認知能力遷移到下遊的其它模態裏。
這既提升了下遊模型的智能天花板,也 大大降低了下遊模型的數據需求。筆者多次強調,這種跨模態的知識遷移可能是 LLM 對AI建模的最大貢獻,已經在RT-2、Gemini、出門問問魔音工坊的語音大模型等很多實踐中得 到證明。
爲什麽 LLM 的認知賦能及其與視頻模型的無縫融合這麽重要?
前文提到如果視頻生成模型要成爲世界的模擬器,那它生成的視頻必須得符合物理規律。我們可以從大量的視頻數據裏學習這些規律,也可以直接繼承語言模型裏海量的常識,而繼承這些常識會大大降低對視頻數據的質量和數量的需求,也會大大降低模型學習的難度。
比如,如果我們讓 Sora 生成一只杯子掉在地板上的視頻。今天的大語言模型,比如出門問問的「序列猴子」,就含有玻璃會碎、水會濺出等常識(見下圖)。
有了這些常識,視頻生成模型將不再需要大量的類似玻璃掉地的視頻數據來訓練,從而大大降低了生成逼真視頻的難度。語言模型還包含了對其它物理規律(比如聲光電、碰撞等)的各種描述。
所以,如果 Sora 訓練的基礎是一個語言模型,這個模型不僅僅處理文本數據,而且繼承了對世界常識的理解。
通過引入多模態數據處理能力——特別是視頻與文本對應的數據——Sora 能夠實現更深層次的 Grounding,即將語言的虛擬概念與物理世界的具體實例緊密關聯。
這種能力使得 Sora 在模擬物理世界時,能夠更准確地反映出現實世界的複雜性和多樣性。具象的視頻訓練數據總是有限的,因此模型所能學到的物理現象總有局限。
但語言模型中的物理常識幾乎是面面俱到的,這是由語言作爲思維認知模型的本性所決定的。這種知識遷移彌補了視頻數據不可能面面俱到的短板。
語言模型是多模態大模型的核心,必將居于獨一無二的中心賦能地位。而「視頻」作爲物理世界的映像,是世界模型渲染出來的結果。
相比語言數據,通過視頻大數據學習到的模型是「模型的模型」 ,同時學到了很多物理世界規律,讓模型更加逼近模擬物理世界。
文本與視頻的區別在于,前者是理解人類的邏輯思維,後者在于理解物理世界。所以,視頻生成模型 Sora 如果能很好跟文本模型 LLM 融合,那它真有望成爲世界的通用模擬器。如果有一天,這樣的系統自己通過模擬駕車場景,學會了在城市複雜的交通環境下開車,我們應該也不會奇怪。
我們認爲,Sora 之所以有潛力成爲下一代物理世界模擬器的翹楚,主要歸功于其基于多模態大模型的設計理念及其實現中巨大算力和工程能力。
Sora 在視頻賽道重現 ChatGPT 式的成功,很可能得力于其把虛擬世界的模型(LLM)落地到具象化的物理世界模型(視頻生成),如果現在不是這樣,將來也大概率是。
Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
(Sora可以通過鏡像原理等世界常識生成逼真的帶有反光影像的視頻)
能生成世界,就意味著理解世界?
類比語言模型,面對 ChatGPT 的對答如流、通情達理,我們反思語言模型到底是否學會了「思維」和「理解」?
雖然尚無法從原理上解釋,但從結果上看,它與基于對語言的深刻理解所呈現出來的行爲是一致的,我們可以認爲它其實已經學會了虛擬世界的「思維」和「理解」;那今天的 Sora 已經可以在長時空的範圍裏生成不違反物理規律和常識的視頻,我們是否也可以認爲,它已經理解了物理世界?它具備了世界模型的能力?
模擬物理世界,Sora 是唯一解法嗎?
如果 Sora 深度融合 LLM (如 ChatGPT)被認知智能充分賦能,它的確有望成爲「世界的模擬器」。除此之外,還有其他成爲世界模擬器的可能性解法嗎?另外一種可能是:ChatGPT + UE。
如果我們能把自然語言模型(如 ChatGPT)與物理渲染引擎(如 UE)結合起來,把自然語言模型的描述轉換成 UE 的描述語言,然後由 UE 來渲染出視頻,是不是也意味著一個可行的物理世界模擬器?
在很多對通用性的要求不那麽高的場景中,這可能是優于 Sora 這種端到端模型的選擇,估計未來很快會看到這樣的嘗試。但是,UE的天花板就是整個系統的天花板。
另外一個相關話題,Sora 的訓練可能用了 UE 合成的數據,但 Sora 模型本身應該沒有調用 UE 的能力。
05. 從虛擬到物理,如果世界皆可被模擬,什麽是現實?
如果說這個世界(無論是虛擬世界還是物理世界),其背後存在著簡單的規律和模型,那麽文本和視頻等模態就是這些規律的具體呈現,也可以說是渲染。
OpenAI 的 ChatGPT 和 Sora 通過互聯網上海量的自然的文本和視頻數據,「隱式」地學會了這些數據背後的規律和模型。那麽,未來是否有一天,ChatGPT 和 Sora 之類的系統還將融合味覺、觸覺等其他模態,從而可以模擬我們的整個世界呢?
如果這一天到來,什麽是現實呢?我們是否還那麽堅定地相信我們這個物理世界不是被模擬出來的?科幻電影 所描述的世界是否仍是科幻呢?這是現代版的莊周夢蝶,古老的哲學思辨在後現代的技術浪潮中再度沖擊我們的信仰,細思有點恐。
展開想象,爲什麽AI模擬器不可以模擬巴以沖突、中美關系,模擬人類從山頂洞走向農耕文明的過程呢?「世界模擬器」通過模擬不同的事件和情景,預測未來的發展趨勢,或可輔助決策制定。Sora 類不僅能夠模擬政治經濟、人類社會等宏觀層面的動態,也應該可以深入到病毒傳播、交通規劃等微觀領域。這一切最終是否會改變各種學科研究的方式?
我們可以展望,AI 有能力通過模擬學會各種物理世界的技能。比如城市駕駛,AI 可以從文本裏學到各種駕駛規則,自己渲染一些交通視頻場景並在這些場景裏學習提升,從而學會基本駕駛技能。當然,模型最後還是會有真正物理環境下的Fine Tuning。如果機器人能夠自主學習各種技能,這是否也會改變機器人服務世界的發展路徑?
總之,如果未來的 AI 既理解了人類思維,又理解了物理世界,而且還不知疲倦自主模擬學習,下一步將會「湧現」怎樣的斑斓世界?人類如何自處?
06. 暴力美學能抵達 AGI 嗎?
回看OpenAI的最初勝利,主要並非算法上的創新,而是「暴力美學」的勝利。
如今,以GPT爲代表的「暴力美學」已成爲工業界凝聚了共識的做 AI 的方法論:把模型架構做得簡簡單單,但足夠通用,然後把精力放在猛搞數據和算力上。
這一次 Sora 的成功延續了 OpenAI 的暴力美學的套路。把 Diffusion Model 裏的 Unet 換成 Transformer、把視頻的時空 Patch 轉換成 Token 等之類的想法應該很多人拍腦袋都能想到,都是對模型的簡化從而更便于 Scale Up。但是,能夠堅信這些簡單的 ideas、並有能力和有條件把規模真正做上去修成正果的卻是鳳毛麟角。
OpenAI 這次關于 Sora 的技術 blog 裏的兩段話,把這種信念的力量體現得淋漓盡致。
「These capabilities suggest thatcontinued scalingof video modelsis a promising pathtowards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.」
「We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people, animals and environments from the physical world.These properties emerge without any explicit inductive biases for 3D, objects, etc.—they are purely phenomena of scale.」
第一段話表達了他們對 Scaling 的信念,而第二段話強調了 Scaling 導致湧現的實證。
這次 Sora 的發布又讓很多人對 AGI 的實現更加樂觀了,可能也讓心高氣盛的 OpenAI 對 Scaling Law 和暴力美學的信念進一步堅定。但是,沿著 Scaling Law 和暴力美學一定能抵達 AGI 嗎?面對飛速發展的AI科技,也許只能拷問自己,到底是因爲看見而相信,還是因爲相信而看見?
可以肯定的是,Sora 如果真能實現對物理世界的模擬、能夠跟 LLM 代表的虛擬世界無縫融合,那它必然是通往 AGI 路上的裏程碑。
結語 : 當我們回到人類文明的前夜,從用石頭砸開堅果,從山洞走向茅屋,一一回望人類最早的科技成就——石制工具、火、衣服、長矛和弓箭是如何被發明的。正是有了讓能力邊界不斷延伸的它們,人類才得以走出非洲。
其中最重要的一項能力——語言能力,它使現代智人能有效傳遞信息,不斷完成物理世界的任務,最終將尼安德特人趕到比利牛斯半島的盡頭,成爲世界主人。
而今天,掌握人類語言的AI,將能進一步地通過視頻生成模擬世界,面向我們爲之雀躍的 AGI 時刻,是否已是另一種文明的前夜?
---[新智元報導*作者:李維 高佳 李志飛*編輯 : 好困 /來源: 新智元]