Sora爲何出道即碾壓主流AI視頻模型：文生視頻最長紀錄，對世界有全面認知

2024021912:41

近日，AI（人工智能）新銳巨頭OpenA推出文生視頻模型Sora，將人們的視線再次引到了AI視頻生成賽道。

由于在AI生成視頻的時長上成功突破到一分鍾，再加上演示視頻的高度逼真和高質量，Sora立刻引起了轟動。不過，OpenAI尚未宣布Sora對公衆正式開放的日期。Sora將首先被提供給安全團隊，以評估産品的危害或風險，一些視覺藝術家、設計師和電影制作人也能獲得Sora的訪問權限。

在Sora推出之前，已經出現了一些用戶認可度較高的AI生成視頻模型。爲什麽Sora能引發如此大的轟動？多家外媒對三款熱門文生視頻模型Runway、Pika Labs和Stable Video進行了分析，並比較了Sora和它們之間的技術差別。

時長：60秒 vs 16秒

在Sora橫空出世之前，Runway一直被視爲AI生成視頻的默認選擇，尤其是自去年11月推出第二代模型以來，Runway還被稱爲“AI視頻界的MidJourney”。第二代模型Gen-2不僅解決了第一代AI生成視頻中每幀之間連貫性過低的問題，在從圖像生成視頻的過程中也能給出很好的結果。

Runway能夠生成已經很逼真的四秒短視頻。來源：Runway

而在Sora發布後，Runway的CEO克裏斯托瓦爾·巴倫蘇埃拉（Cristóbal Valenzuela）便在X平台上發布了兩個字：“Game On（比賽開始了）。”

Sora最震撼的技術突破之一在于其輸出的視頻時長。Runway能夠生成4秒長的視頻，用戶可以將其最多延長至16秒，是AI生成視頻在2023年所能達到的最長時長紀錄。Stable Video也提供4秒的視頻，Pika則提供3秒的視頻。在這一方面，Sora以1分鍾的時長向競爭對手們提出了挑戰。

Sora傳播度最高的時長60秒的視頻之一，女子行走在東京街頭。來源：Sora

Sora模型能夠實現視頻時長突破，主要功臣是其所采用的擴散Transformer架構，而Sora的創始者之一、現任OpenAI工程師的William Peebles剛在去年和別人一同發布了針對該架構的研究論文。

本質上，Sora和Pika、Runway采用了相似的底層模型，即Diffusion擴散模型。不同之處在于，Sora把其中的實現邏輯進行了變化，將U-Net架構替換成了Transformer架構。

不過目前，外界尚不清楚Sora提供了哪些功能以供用戶定制輸出視頻，因此Runway仍可能是Sora的替代方案之一。今年1月，Runway剛宣布，用戶將能夠通過多頭運動筆刷（Multi Motion Brush）功能實現對AI生成視頻中多個元素的運動控制。此外，Runway也因其提供了集合多種AI工具的視頻制作解決方案而備受推崇。

鏡頭語言：運動鏡頭 vs 靜止視角

值得注意的是，X平台上的一些用戶表示，在OpenAI推出Sora的2月15日晚上，AI視頻生成初創公司Stability AI也在官網和X平台上發布了新動態，宣布了Stable Video Diffusion更新1.1版本。但是，幾分鍾後，這兩條消息都迅速消失了。

被Stability刪掉的文章截屏。來源：X平台

外界無從得知這究竟是由于操作失誤，還是Stability觀察到了兩種AI生成視頻之間的巨大質量差異，選擇重新制作廣告。Stable Video和前兩款産品一樣，都沒能脫離現有文生視頻的一般模式，即輸出單一的、通常是靜止視角的短視頻片段。相比之下，Sora的宣傳視頻包括變換攝像機角度、電影式剪輯和場景變換，也就是人們常說的鏡頭語言的使用。

此外，許多分析都指出，Sora帶有世界模型的特質。所謂世界模型便是對真實的物理世界進行建模，讓機器能夠像人類一樣，對世界産生一個全面而准確的認知。這一特性使得AI視頻生成更流暢、更符合邏輯，降低了視頻模型的訓練成本，提升了訓練效率。

由Sora生成的“賽博朋克背景下機器人的生活故事”。來源：Sora

和Runway一樣，Stability AI的CEO埃馬德·莫斯塔克（Emad Mostaque）也在X平台上感慨“奧特曼（OpenAI的創始人兼CEO）真是一個魔術師”，並稱Sora可以被視爲AI視頻的GPT3，將在未來幾年內得到擴展、細化、調整和優化。

劣勢：有無免費選項，能否開源

和前輩們相比，Sora也存在兩個可能令其不會被用戶青睐的問題：有無免費選項，以及能否開源。

作爲AI視頻領域的新晉競爭者，Pika Labs于去年11月推出了生成式AI視頻工具Pika 1.0，也在推出時憑借精美的演示視頻引起了轟動。Pika已于去年12月公開，與Runway具備相似的質量，並在短時間內建立了一個非常活躍的用戶社區。

Pika生成的視頻截圖。來源：Pika

最重要的是，和其他競爭對手相比，Pika提供了更具吸引力的免費使用選項。Runway只會給用戶125個不可續的免費積分，而Pika每天都會給用戶發放30個積分，這使得它在短時間內擁有了一個龐大且活躍的用戶社群。

Stability AI旗下的Stable Video Diffusion則是一款開源的視頻生成模型。類似于圖像版的Stable Diffusion，該模型可以根據用戶自己的需求進行定制，並且可以在個人設備上進行本地安裝，而Sora大概率永遠不會提供這種功能。

目前，Stable Video Diffusion也僅供部分用戶試用，在Stability的官網上可以加入等待列表。---來源: 澎湃新聞 -

*Sora刷屏視頻出現多處失誤模擬真實世界仍需闖關*

2月18日，由OpenAI 發布的文生視頻AI工具Sora引發的討論仍在繼續，範圍涉及科技圈、資本圈、影視圈等，同時對Sora尚存在的問題研究也逐漸深入。

例如針對OpenAI定位“世界模擬器”的觀點，圖靈獎得主、Meta首席AI科學家楊立昆（YannLeCun）表示，根據提示詞生成的大部分逼真視頻並不表明這樣的AI系統理解物理世界，生成視頻的過程與基于世界模型的因果預測完全不同。

翻閱OpenAI披露的數十份視頻，楊立昆的觀點具體表現爲老奶奶吹蠟燭火苗卻不動、東京街頭步伐錯誤的女郎、玻璃杯碎後錯誤的液體流向、在跑步機上反向跑步的男子等。

雖然OpenAI的明星效應爲其帶來大量關注，同日谷歌發布的多模態通用模型Gemini 1.5 Pro也變爲配角，但不論是美國矽谷AI項目還是中國大模型創業公司，外界關注的核心均爲實際應用效果。

視頻雖驚豔bug仍存在

目前，Sora所生成的視頻內容得到影視行業人士的普遍認可。Mystery Novel視覺預演工作室創始人、導演牛萌琛對第一財經記者表示，Sora視頻中的畫質，畫面內容中的細節、光影、色彩都較精細，對導演來說，爲其在拍攝前期做一個簡單的鏡頭樣板是夠用的。對廣告片拍攝來說，也可以用這種樣板來與客戶更好地進行概念上的溝通和確認。但如果涉及鏡頭運動角度，與更精細內容調控——如色彩、光影、道具、人物動作等，目前AI還不能達到令客戶滿意的程度。

一位紀錄片從業者對記者表示，目前Sora還不能直接用于影視作品，因爲精細度還不夠。但已經足夠震撼，完全可以用于前期開發，尤其是概念設計。一位宣傳片從業者表示，工作室目前還沒試過用AI生成來做素材，Sora 只發布了部分作品，且未開放公測，能不能用來代替剪輯不確定。無論如何，這些工具最後都是爲人服務的，人的個人感情複雜性的表達不可替代。

攝影專業人士孟凡對記者表示，Sora視頻幀率較高，說明計算能力比較強，且影片的寬容度更高，如調色、細節表現、高速鏡頭展現等。在直觀感受上，Sora 模型産出的視頻運鏡自然，物體運動符合規律，鏡頭間邏輯一致性好，但是Sora視頻的邏輯性會差一點。

具體表現在Sora視頻內容中，如一分鍾的東京街頭女郎漫步，女郎走路過程中存在腿部變形、腿部交叉換位時錯亂、右腿連續兩次在前方邁步等錯誤；一段提示詞爲“一個人跑步的場景”中，主角在跑步機上反向奔跑；提示詞爲“考古學家在沙漠發現塑料椅子”的視頻中，椅子呈現懸浮狀態。

針對目前Sora存在的不成熟之處，OpenAI表示，Sora可能難以准確模擬複雜場景的物理原理，可能無法理解因果關系，可能混淆提示的空間細節，可能難以精確描述隨著時間推移發生的事件，如遵循特定的相機軌迹等。

OpenAI方面在《作爲世界模擬器的視頻生成模型》技術報告中表示，Sora作爲一個模擬器，目前表現出許多限制，它並沒有准確地模擬許多基本互動的物理效應，比如玻璃破碎。吃食物之類的互動不總是産生正確的物體狀態變化。還有在長時間樣本中發展的不連貫性或物體的自發出現。

對于這些問題，多位人工智能領域人士對記者表示，皆因概率模式的邏輯硬傷所致。中科深智創始人兼CEO成維忠表示，Sora因其並非嚴格的推理模型，目前還存在因果關系推理問題，但這個問題不是Sora自身的問題，而是目前所有類似模型均存在的問題，類似于大模型普遍存在的幻覺問題。未來會隨著訓練的加強而得到改善。

宜遠智能CEO吳博對記者表示，通過加大訓練量、增加訓練數據與物理邏輯，該問題會逐漸得到改善，但無法根治。

南洋理工大學副教授張含望此前在GAIR全球人工智能與機器人大會上表示，想要真正突破最底層邏輯上的問題，因果關系（Causality）是一條必經之路。如果不把因果關系加上去，大模型只是在進行強行關聯，幸運的話，模型在回答問題時能夠給出正確答案，否則就會“胡說八道”。這是因爲它背後的關聯是錯誤的——把共生關系當成了因果關系。

實際使用價值待解

Sora之所以能引發廣泛關注，除了畫面超過同行的質量原因外，更在于外界對其即將帶來的行業叠代充滿好奇。

就影視行業而言，得知Sora視頻發布後，時光矩陣聯合創始人郁剛稱自己的心態冰火兩重天，一方面對于影視特效公司而言，該消息算不上一個好消息，自己第一個感覺是“特效公司要死了嗎？”很想將過去學的特效工具“埋了”。

郁剛稱自己過去能想象到AI視頻會發展到這個精度，但沒有想過會這麽快，其原本的預測時間是三到五年，結果在一年時間內就達到——從兔年春節到龍年春節，OpenAI實現了從文生文到文生視頻的叠代。但從另一個角度來說，郁剛稱自己很欣喜，從導演角色來說，過去最痛苦的就是拿到劇本之後找錢、找投資方，開了四年公司，賬上虧損欠賬三百萬人民幣，但看了Sora之後，拍視頻、做成特效並放到熒幕上這步最貴的動態預演環節，完全可以通過AI實現成本節省。

郁剛預計，未來AI視頻生態將發生巨大變化，影視行業或將變爲服務業，視頻生産的概念也將發生變化。

專業動畫師Owen Fern不認可當下“Sora顛覆行業”的極端觀點，他稱，作爲一名動畫師，目前並不對Sora視頻感到害怕，因爲動畫制作本質上是需要反複修正的過程，特別是在爲客戶服務時更是如此。目前 AI 還無法提供給客戶一個精雕細琢的作品，而只是一些粗制濫造的東西。這些細節看似挑剔，但它們正是客戶對知識産權（IP）或産品所持的態度。

Owen Fern強調稱，Sora視頻的質量的確是令人驚歎的高，只是就目前而言，它們除了作爲展示AI潛力的範例作用外，實用價值仍待觀察。

新加坡Vibranium Consulting副總裁陳沛近期實際使用和觀察了RunwayML、Stable Video Diffusion（SVD）、Adobe Firefly等主流AI視頻服務，通過對比發現，目前AI生成視頻的質感往往達不到最初宣傳的效果，還會在物體行進方向、人物四肢等方面出現明顯錯誤，無法滿足實際應用的需求。

Perplexity AI 創始人之一的Aravind Srinivas表示，Sora雖然令人驚歎，但其還沒有做好准確模擬物理的准備——正如Sora研究員在報告中提及的那樣。並且，行業並不能很快地在家庭清潔機器人上運行這些巨大的“世界模擬器”的模擬推理。

浙商證券認爲，短期內，Sora及同類産品可大幅提升圖像和短視頻的制作效率，改變創意生産及營銷工作流，提升短視頻産品生産力。對于業態更加複雜的長視頻和遊戲，受限于模型還無法准確理解因果關系及其他技術難點，現階段或以提供美術靈感支持爲主。

中長期來看，浙商證券表示，Sora及同類産品將參與到改變信息生産和分發兩大環節的進程中，PGC(專業生産內容)將廣泛采用AI工具輔助生産，UGC(用戶生成內容)將借助AI 工具逐步替代PGC。此間，AI生成視頻工具的商業化將提速。---來源: 第一財經資訊

我要留言

Sora爲何出道即碾壓主流AI視頻模型：文生視頻最長紀錄，對世界有全面認知

中美終于談妥，美國派人來華面談，沈默96小時，普京撥通中方電話

中國大模型産業的五個真問題

中美終于談妥，美國派人來華面談，沈默96小時，普京撥通中方電話

中國大模型産業的五個真問題