矽谷一線科學家：Sora驚豔，中國作爲追趕者差在哪裏？

2024031317:27

3.13 知識分子The Intellectual

圖源[1]

編者按 : 近期，OpenAI推出了名爲Sora的文生視頻模型，其驚豔效果引發關注和熱議，在國內的人工智能（AI）領域更是掀起了基准大模型討論的熱潮。

目前，Sora可一次性生成高質量的1分鍾視頻，不僅在視頻長度和質量上都超越了傳統模型，視覺效果上達到了令人難以置信的真實，展示出人工智能在理解和創造動態影像方面的巨大潛力

爲了更好地幫助了讀Sora背後的科學原理和影響，以及在AI科技發展和産業中的位置，我們和在美國矽谷從事人工智能研究的科學家田淵棟博士聊了聊。田淵棟博士畢業于卡耐基梅隆大學機器人系，曾在谷歌無人駕駛汽車項目組工作，2017年至今在Meta AI Research（FAIR）擔任研究科學家和高級經理，在深度學習領域有著豐富的經驗，對于人工智能領域的前沿工作非常熟悉。

在一個多小時的訪談中，田淵棟帶來了一線矽谷科學家的觀察和思考，許多洞察值得一讀，尤其是對文生視頻模型的現狀與未來的解讀，以及中美人工智能投資與創業生態的比較。

以下爲訪談要點，出于簡潔和清晰，文字有編輯。

[訪談 : 張天祁陳曉雪*撰文 : 張天祁]

田淵棟，Meta AI Research（FAIR）擔任研究科學家和高級經理

田淵棟，Meta AI Research（FAIR）擔任研究科學家和高級經理

“Sora的進展比我預期的要快”

《知識分子》：首先，整體評價下您對Sora的觀感？

田淵棟：感謝你們對Sora的興趣，最近這個方向確實很火，談論的人很多。首先要聲明我一直以來主要做優化，搜索和表示學習，還有可解釋性，最近開始做一些大語言模型在訓練和推理時的優化，包括算法和系統方面，並不是專業做文生圖/視頻的。因爲Sora用了Transformer作爲骨架，讓我有一些興趣，但我只是作爲一個旁觀的研究員看一下最近的進展，給一些比較外行的評論。

總體來說還是很驚喜的。過去的文生視頻都比較短，但Sora能達到一分鍾。這一分鍾的視頻基本上沒有完全重複，包含大量視角轉換，鏡頭拉近和拉遠，以及物體的動作，動作也相當大，這是一個很大的進步。

在Sora發布之前，其他團隊可能已經嘗試過生成幾秒鍾的視頻，不會太長。這幾秒鍾的視頻通常也僅限于使用同一張照片，稍微調整鏡頭，讓人物或物體産生一些動作，或者展示水的波浪等特效。相對而言，這種視頻更像是動態圖，而不是真實的視頻。Sora這次生成的視頻看起來像是真正的視頻，這是一個很大的區別。

《知識分子》：按您過去的估計，AI生成視頻達到Sora現在的水平需要多久？Sora的進展比您預期的快嗎？

田淵棟：是的，Sora的進展比我預期的快。我原本認爲按照正常速度，達到現在這個水平可能需要一兩年，但他們做得很快很好，出乎意料。

《知識分子》：Sora和過去的AI生成視頻相比優勢在哪裏？

田淵棟：Sora的優勢在于它並不是簡單地預測下一幀，而是一次性預測整個視頻序列。這種方式其實很有趣，它與通常的預測方式有所不同。

過去很多AI生成視頻的做法是先有照片，然後再預測照片的下一幀，把照片擴展成一個視頻。實際上很多時候根據照片做預測效果和能力有限，而像Sora將整個視頻通過擴散模型（Diffusion Model）一起生成，可以保證前後的連貫性和一致性達到最佳狀態。

一致性指的是，如果視頻第一幀中有一個人，最後一幀也應該有這個人，在整個時間段內這個人是連貫的。舉個例子，在Sora的某個視頻中一個女士在東京街頭漫步，她的表情、特征等應該在整個過程中保持一致。

實現這種一致性並不容易，因爲如果僅僅預測下一幀，特別是在視頻很長的情況下，會出現compounding error（累計誤差），可能導致變形、失真，甚至出現畫面模糊等問題，這些都是之前的模型面臨的挑戰。從一張照片擴展成一個視頻，一定會遇到一致性的問題。另外一個問題是視頻不能太長，太長的話整個視頻的質量都會下降。

但是現在通過一次性生成整個視頻，讓視頻的一致性有了空前的提高，這是一個空前的進步。這次Sora視頻出來之後，雖然還不像人類做的視頻那樣有情節，但一致性表現得非常好。

《知識分子》：這是通過什麽技術或原理實現的？

田淵棟：Sora采用了Transformer架構加擴散模型進行視頻生成，它的做法是將輸入的三維視頻先逐幀轉換爲潛在的Token表示，形成一個Token序列，然後用Diffusion Transformer結構，從隨機噪音開始，逐漸生成整個視頻序列的所有幀的Latent Tokens表示。這種做法的好處是它並不是逐幀預測，而是一次性生成整個視頻序列，這種方法很有意思，現在看起來能保證整個視頻長程的一致性。

Sora的視頻生成過程借鑒了擴散模型在圖像生成領域的思路。擴散模型能夠通過逐步去噪的方式，從純噪音圖像開始，通過逐步去噪並引入條件信息，讓圖像向著指定方向進行演化，一步步生成清晰的目標圖像。視頻實際上就是三維的圖片，通過將視頻視爲三維的圖像數據，Sora采用類似的去噪過程逐漸生成整個視頻。每一步生成的信息取決于給出的條件信息也就是文本描述(prompt)，文本描述不一樣，視頻的內容和結構也不一樣。

這種方法生成視頻不需要以具體的某張照片作爲基礎。這倒不是什麽特別令人驚訝的事情，因爲文字生成圖片也是類似的過程，是根據文字提示無中生有直接生成圖片。當然在訓練階段是利用了大量圖片，記錄了很多文字和圖片結構的對應關系，才能在生成階段從文字直接生成圖片。

文生圖片的嘗試大概從2015到2016年左右就開始了。因爲文字到圖片有難度，圖片到文字相對容易，所以那時候先訓練的是圖片生成文字的模型。而給定文字生成圖片，用的是訓練時很不穩定的GAN，效果也在逐年提高。

使用人工智能生成圖像的時間線。圖源[1]

使用人工智能生成圖像的時間線。圖源[1]

現在圖片生成文字或者視頻生成文字已經有了相對成熟的內部應用模型，有了這個模型之後就能把視頻轉化成大量的文字數據，再逆向訓練文生視頻。Sora團隊也利用了這些模型，這在他們的技術報告裏也有體現。

《知識分子》：在人工智能的生態裏，Sora處于一個什麽位置？

田淵棟：每個工作在人們心目中的地位是不同的。有些工作是基礎性的，而有些工作則是在拓展邊界。我覺得Sora屬于拓展邊界的工作，它讓人們認識到這項工作是可以實現的，就會有更多的人願意在上面花時間，把它做得更好。

Sora起了一個非常好的示範效果，它可能有巨大的影響力，讓人們相信人工智能是有前途的。人們願意投入時間和精力來從事這項工作，資本市場也願意進行投資，而人們也願意購買相關産品。這當然對整個領域起到了很大推動作用。就算現在生成視頻還比較貴，但我相信以後推理成本是會大幅度下降的。

《知識分子》：即使是不在人工智能行業的人，對于2016年火爆的AlphaGo也記憶猶新。最近出圈的大模型ChatGPT和Sora，也得到了普通人的關注。作爲一個從業者，對于AI發展的進程，您的內部觀察是怎樣的？

田淵棟：其實有很多水面下的工作沒有被關注，所以大家會覺得AlphaFold、Sora都是技術上的爆發。實際上背後一直有許多技術工作在做，很多不錯的工作也會在圈內受到關注，只是這些工作沒有像Alphafold、Sora那麽火。等到Sora這些成果火出圈了，大家才突然發現那些低調的技術工作對行業的貢獻。

比如，過去已經有預測蛋白質結構的比賽了，但直到AlphaFold的出現，這些比賽和它的成果才真正引起轟動。AlphaFold本身也用了Transformer，用了類似BERT那樣的先加噪音然後重建的損失函數，沒有前人把比賽建立起來，把數據集做出來，把計算的框架和深度學習的工作都做好的話，這些成就是不可能實現的。這些工作都是逐步積累、一步步完成的，Sora的工作也是如此。

Sora用到的Diffusion Transformer (DiT)是謝賽甯（加州大學聖地亞哥分校博士，曾是Meta的研究員，現任紐約大學報計算機科學助理教授）和實習生一起做的工作，主要發現是它的scaling的能力不錯。但之前DiT在計算機視覺領域沒有那麽火。後來DiT的一作成爲了Sora的核心成員，自然會想到用之前的工作，有效果之後就突然就火起來了。對圈內人來說，Sora的技術都是有曆史積澱的。

包括Sora這套方法，先把視頻轉化成三維token陣列，然後把這些latent space裏的token連在一起放進Transformer裏面，然後用diffusion process來從噪音開始重建。這個方法其實以前也有人試過，我們的一些過去的文章也有這種做法，不過主要的目標不是圖像/視頻生成，而是用來建模智能體將來可能會走的路徑（也就是所謂的“世界模型”），然後來做決策，比如說最近我們在ICLR’24上發表的H-GAP[2]及Diffusion World Model[3]，等等。這些方案的共同優點是能保持整條路徑的長程一致性，不會因爲路徑很長産生compounding error。

所以Sora利用的技術過去都有，如果沒有OpenAI做出來，遲早也會有另外團隊做出來。只是這個方式可能沒有那麽激進，會用一些溫和的方法做出來，效果沒那麽好，但慢慢也能做出來。技術是一直在進展，只是說這些工作現在出圈了，讓大家覺得有很厲害，但是它其實是繼承在過去大量的技術積累基礎上産生的。

OpenAI 的方案很大膽

《知識分子》：之前的模型沒有做到這一點，是技術上無法達到，還是思路上存在盲區？

田淵棟：肯定有人嘗試過，但OpenAI擁有足夠的算力和大量數據，才使得這一切成爲可能。我不相信大家想不到，總是有各種各樣的方案，只是一些效果好，一些不好。

在嘗試生成視頻時，會遇到許多技術難題。例如，制作一個60秒、每秒24幀的高清視頻需要處理大量數據，把這些數據同時放進Transformer，會有訓練不動的情況。剛開始考慮制作文生視頻時，面對這麽大的數據量，很多人第一反應是覺得，我要不要先減采樣？把視頻圖片變小一點，調整一下采樣率。要不要從某個已經訓練好的文生圖模型出發？但是這些實際上會影響最終算法的效果。

對于大多數人來說，OpenAI的方案很大膽，大部分團隊都會保守一點。少數團隊可能擁有足夠的算力和數據，可以直接進行大規模處理。但是，大部分團隊一是沒有資源，另外也沒有這個數據。即使有資源和數據，也得考慮哪種方案更適合他們。

最終的成功是多個因素共同作用的結果，需要有足夠的算力、數據，同時方案也需要足夠大膽。在這個過程中，主要作者們付出了巨大的努力，聽說他們可能一天只睡4個小時，搞出Sora花了將近一年，工作非常辛苦，另外他們也有很多很多GPU和數據。可以認爲他們是不太計成本地去做這件事情，這就是OpenAI，或者說Sora團隊的魄力。

《知識分子》：這是OpenAI做事方法的成功嗎？

田淵棟：這個完全是取決于團隊的方針，團隊的方針不一樣，最後的結果就不一樣。每個團隊都有自己選擇的方向，沿著這種方向做項目，某些東西他就能比別人先做出來，但另外一些東西他就可能沒有辦法比別人做得更好。

OpenAI做的事情是集中大量資源，包括人力和算力，去突破邊界，讓大家來看到不一樣的世界。如果想要在理論上對算法及模型的分析有突破，或者是找到一個全新的模型訓練範式，肯定不會去找OpenAI團隊，因爲他們這套不適合。

Sora這個項目是一個研究項目，通過展示我們可以實現電影畫質而且達到一分鍾長度、擁有一致性的視頻，證明這個想法是可行的。一旦證明了這一點，大家就會獲得巨大的動力去繼續前行。因爲原本這是一個不確定的領域，大家可能認爲將一張圖片轉變成一部電影幾乎不可能，可能需要花費多年時間去探索。現在他們告訴你這是可以實現的，大家就會願意花時間花精力去實現這個目標。

《知識分子》：所以說Sora並沒有帶來理論上的突破？

田淵棟：對，他們只是做成了這件事，告訴大家這個方向是可行的。以前的DeepMind也有相似的做法。通過堆大量的算力和人力，把現有的工作做scale up（增加模型、數據和算力的大小）做到極致，最後把結果做出來。

《知識分子》：有人評價Sora在文生視頻上取得的成果是“因爲相信所以看到”。

田淵棟：是的，就是說你相信這件事情能做完。OpenAI內部的員工，他們每天工作的任務之一就是相信AGI（通用人工智能）馬上就要實現了。這是一個相當于洗腦的過程，相信它能夠實現，相信調動大量數據和資源能夠達到一個目標。

OpenAI整個的氛圍都是這樣。都覺得一定要把東西堆上去，把效果做出來。每天堆算力，洗數據，把模型訓練好，都是這麽想的，這是他們的一個信念。

有這個自我實現的信念之後，慢慢這個事情就能真正地做成。確實也是這樣。如果你相信這件事情是真的，每天只做一件事情，其實一年可以做很多，可以在一個方向做非常遠。

這是個正向循環的模式。成功帶來自信，你就想更多更遠，有自信去做更好的東西。錢也是這樣來的，你先做幾個爆款的，然後大家會給你錢。有更多的錢，更多資源可以做更好的東西。

文生視頻模型還在努力達到人類常識水平

《知識分子》：Sora現在呈現的不夠好的點是什麽？

田淵棟：我看了一些視頻，還是有些前後不一致的地方。你會發現在幾只小狗走路的視頻裏，它們走到一半的時候，這些狗會慢慢融合在一起，或者說一個狗的尾巴突然變成另外一個狗的尾巴。或者一只貓在床上踩人的時候，這只貓突然會出現三只腳。

另一個問題，Sora在物理上還是有比較多的細節不對。比如說一個海底的視頻，裏面有章魚在遊動，但章魚的吸盤會在它手臂上移動，非常詭異。另外玻璃杯破碎這種物理過程也模擬不出來。這些奇怪情況的發生，說明這個模型並沒有完全學會現實世界的一些物體的結構，或者說它們之間的一些關系。可能是因爲數據不夠多，它還沒有學會這些。

《知識分子》：Sora現在是否能夠理解物理世界？

田淵棟：我認爲這個問題的關鍵在于模型的理解程度。我們可能期望模型在某些情況下表現得像人類一樣理解，但實際上還存在許多問題。正如我之前提到的那些情況，有些明顯違反了人類的常識。

比人類理解物理更高級的方法，是電影制作中使用的物理模擬軟件。這些軟件可以提供非常詳細的物理模擬，使每個水珠看起來非常真實，當然代價是需要人去設定整個場景，也需要大量算力來模擬。目前大模型的水平還遠遠達不到這種程度，因爲需要更多的數據和生成才能實現。

我們可以將挑戰分爲兩個階段：首先是達到人類常識水平的理解，目前還未達到；其次是實現高精度的物理模擬水平，這就更加遙遠了。

《知識分子》：如果在未來有更多數據，Sora能夠抵達您說的這兩種理解程度嗎？

田淵棟：我認爲可能需要一些更具挑戰性的突破，類似于自動駕駛技術。最終，模型可能會在90%的情況下表現良好，但總會有一些情況，例如兩個物體之間的碰撞或相互作用，模型可能無法很好地處理。這是因爲世界上各種物體之間的相互關系是無限的，而且總會出現一些以前從未遇到過的情況。在這種情況下，如何讓模型學習這些新情況是一個挑戰。

如果只依靠大量的計算資源和數據，實際上是相當困難的。人類之所以能夠應對這些情況，是因爲我們具有一些高層次的理解，可以從這些高層次的理解中推斷出解決方案。然而，目前機器尚未達到這一點。讓機器學會對事物進行高層次的理解，並利用這種理解快速學習新的過程，實際上是相當困難的，目前還沒有找到解決方法。

《知識分子》：有人認爲比起能夠自主決策的AlphaGo，大模型的決策能力是一種倒退，您怎麽看？

田淵棟：這兩者是互補的關系。AlphaGo更會做決策，但需要人類先設定好決策框架把圍棋規則寫入程序中。人其實不依賴外界的人幫他寫入規則，如果是一盤棋改了規則或者改變了初始的棋子位置，棋手馬上能適應並且下出很好的棋。對于AI來說，這可能意味著得要重新訓練一遍，所以人的能力在這方面現在優于AI。當然現在的大語言模型也開始有一些適應的能力了，比如說in-context learning，不用訓練就能適應新的任務。現在在強化學習上已經看到一些這樣的文章了。

大模型還可以通過學習大量已有的數據來自動學出規則，並預測未來的行動。盡管在某些情況下，大模型的效果還不好，但大模型技術至少邁出了一步，讓大家知道我再也不用手寫這個規則，可以讓它用模型從大數據去學出來。大模型也許以後會和決策的那些方案拼起來，能得到一些更像人的決策。

AI研究追趕者心態的局限

《知識分子》：在Sora出現之後，國內AI領域有一些反思的聲音認爲國內對AI的信念不夠，在沒有先例之前只敢做小規模的探索。您怎麽看待這種說法？

田淵棟：容錯性確實是個問題。追趕者往往會覺得我什麽事情都要聽，最好是到各種渠道聽到別人怎麽做的，我就跟著做，這樣其實永遠追不上別人。

另外一點是心態上的問題，國內有些的公司可能確實資源不夠，但更多時候問題出在想法上。很多公司第一的想法是我一定要追上前面的人，但是這個思路其實不對的，做研究不能天天想著追上前面的人，我覺得應該換種想法，想想我能不能做出我們這邊有特色的東西，

Sora那幾個領頭的人本身就是頂刊頂會論文的一作，他們是有自己的研究方向的，做模型的時候當然會沿這個方向去想，並不會去照抄之前的那些人的工作。所以他們跳出了思維的局限，用更多的資源，一下子把整個視頻生成出來，這和過去的生成視頻是非常不一樣的東西。

OpenAI目標似乎不是賺錢，他們的目標很遠大，想搞AGI。搞AGI是個大方向，可以有很多發展。至于要不要賺考慮商業化，現在他們有錢，也許以後會考慮商業化。他們可以考慮提供服務，給人付費生成視頻。以前拍電影需要整個團隊，現在你說幾句話就能做個短片，這個就效率很高了，只要成本夠低，肯定會有人願意去買。

《知識分子》：在美國有很多像OpenAI這樣的公司嗎？這類並不急于追求商業化，而是有著更宏大的目標，而且持續有資金支持它們的目標的公司。

田淵棟：是的，在美國有很多這樣的公司。問他們在做什麽的時候，他們會說要做AGI。也有很多公司不缺錢，找了一些大佬來投資，之後很長時間不幹預很正常。相比之下，國內可能更加希望回報快一些，給了錢就希望立刻翻倍。

《知識分子》：Sora在國外的熱度似乎沒有國內這麽高？

田淵棟：國內可能有一兩個點特別火，突然間大家都在談論這個問題，像Sora就是一個例子。相比之下，國外就比較多元，有的人就不管什麽熱門，他就好好做自己的，不會去跟著熱點跑，所以相對來說熱門不會有那麽大的影響力。

《知識分子》：OpenAI的成立有9年了，一直在燒錢。國內也有一些AI領域的投資機構，但很少有堅持這麽久的，甚至有投資多年的機構突然解散的。這一點還挺不同的？

田淵棟：對，這可能是中美之間的區別。在美國，公司對自己提出的承諾應該要遵守的，這從某種程度上來說是一個招牌，會持續不斷地吸引人過來。如果因爲公司的一些原因，導致原來做研究的部門的員工去做産品了，那樣公司的聲譽就會受到影響，比如說2014年的時候，微軟突然把矽谷研究院裁撤了，這就導致很長一段時間微軟失去了信譽，很多頂級的人不願意過去了。

之前在公司比較艱難的時候，我們公司也問過我們（研究組）要不要去産品組，但我們都堅持要留著做研究，公司也不能把我們怎麽樣。這種堅持也是會給公司帶來很大收益的，比如LLaMA就是讓公司能夠在關鍵時刻拿出來的成果。所以不會出現上面讓你幹什麽，你就得幹什麽這種情況，還是有相當的自主性的。

《知識分子》：在美國，公司不遵守規則你可以選擇離開，還有其他的選擇。在國內，研究人員好像沒有這麽多選項。要麽就進研究機構，要麽就進高校，能夠支持你做基礎研究的公司並不多。

田淵棟：國內做人工智能的機構，整體上還是沒有像美國這種規模這麽大，提供這麽多機會。最頂尖的研究員在市場上有各種選擇，公司必須順應這些研究員的選擇，因爲沒有他們的工作，公司的估值就會下降。如果一些公司做出出格的事情，可能就招不到好的研究員了，那公司會迅速滑落到第二甚至第三梯隊，這是公司不能接受的。

這樣的環境下，在這些最頂尖的人裏面，能夠堅持自己理想的人是多的，他不願意爲放棄這個理想去做其他東西。相比之下，在國內競爭激烈，個人可能會面臨爲了生計而不得不妥協的情況，也缺乏話語權表達自己的訴求。

另外，在美國，各方都在進行博弈，包括員工與老板、老板與大老板、公司與員工之間的博弈，最終會找到一個平衡點。這種平衡點有助于避免侵犯對方權利，維持良好的工作環境。我們經常會看到美國各種亂，各種公開吵架，其實正是這種博弈的體現。

在國內情況可能不同，因爲個人可能難以形成團體，沒有團結起來做一件事的能力，大家也甯願聽別人的，而不是自己去獨立思考問題，尤其是從第一性原理出發去思考問題，形成獨到見解和觀點。這就會導致在一些問題上可能會一邊倒。

《知識分子》：大模型和Sora引起了各公司和機構複刻的熱潮，可以說它們指出的方向是現在AI研究的主流嗎？

田淵棟：肯定有很多人願意去做。但並不是說矽谷所有人都願意跟這兩個方向，或者說願意跟最火的方向。大模型確實很多人在跟進（包括我自己），可以算漸漸成爲主流；但要是說Sora是主流，估計很多人都不會贊同的。在自己的方向上堅持很多很多年，這正是創新的源泉所在。深度學習之所以能在2012年開始爆發，代替了以前廣泛使用的特征工程和線性分類器，也是因爲有“一小撮”研究員們長達十幾年的堅持。

在人工智能領域還有許多其他方向值得做，可供選擇，例如大型模型面臨著多方面的挑戰，包括高效訓練，快速推理，還有安全性等問題；如何提升模型的安全性、推理能力，如何解決一些現有方案難以解決的多步推理問題，如何與已有的推理和求解器高效結合以達成最優決策，等等。這些我們都在做，像我們最近發布的省內存預訓練方案GaLore[4]，僅用350M參數進行預訓練並有不錯效果的MobileLLM[5]，還有能讓Transformer學會通過搜索和規劃來解決難題，並以比傳統算法更快的方式得到最優解的Searchformer[6]，等等。

總的來說，最重要的是要選擇符合自身背景和興趣的方向，並且一直堅持，同時得到別人的支持，這樣才能夠做出好的工作來。我對深度神經網絡的原理一直有興趣，這也是我當年離開Google無人車組，來到Meta AI (FAIR)的一個動因。我在知乎上也一直有一個《求道之人，不問寒暑》的博客系列。快十年過去了，這個初心還是沒有變。回頭看來，這十年的堅持很有意義，做出了很多不僅在理論上有意思，還在實際上有用的工作。---來源: 知識分子-

參考文獻：
[1]https://freedomandsafety.com/en/content/blog/how-has-ai-developed-over-years-and-whats-next

[2]https://arxiv.org/abs/2312.02682

[3]https://arxiv.org/abs/2402.03570

[4]https://arxiv.org/abs/2403.03507

[5]https://arxiv.org/abs/2402.14905

[6]https://arxiv.org/abs/2402.14083

我要留言

矽谷一線科學家：Sora驚豔，中國作爲追趕者差在哪裏？

用大模型測試人格/抑郁/認知模式！遊戲劇情測心理特質｜清華出品

Meta兩個豪華AI集群曝光：每個配備2.4萬塊英偉達H100，價值幾十億

用大模型測試人格/抑郁/認知模式！遊戲劇情測心理特質｜清華出品

Meta兩個豪華AI集群曝光：每個配備2.4萬塊英偉達H100，價值幾十億