Sora分裂了科技圈:它是比ChatGPT更重要的里程碑?
OpenAI向業界扔出重磅炸彈Sora,引發了科技圈異常激烈的觀點交鋒。
圖靈獎得主、Facebook首席AI科學家楊立昆(Yann LeCun)公開表示Sora是生成像素,不能理解物理世界;360董事長周鴻祎和獵豹CEO傅盛也在近日隔空“打擂台”。
Sora出現後,周鴻祎提到的一個觀點傳播甚廣,他認爲,Sora出現意味著AGI(通用人工智能)的實現將從十年縮短到一兩年。傅盛則在公開場合表示,Sora是一個産品級別的裏程碑,但不是AI的技術革命,AGI不會因此在一年內就到來。兩人就此在社交平台展開辯論。
OpenCSG創始人陳冉則認爲,Sora是比ChatGPT更重要的裏程碑,“在我看來ChatGPT是一個墊腳石,爲Sora創新做了一個基礎准備,而Sora我覺得是next generation(下一代)的一個innovation(創新)”。
關于Sora,OpenAI官方的技術文檔並未給出更多信息,圍繞其觀點的交鋒也還沒有最終答案,但OpenAI開年投下的這枚重磅炸彈,可以預計將會是整個2024年討論的焦點,如同ChatGPT之于2023年一樣。
“這壺酒足夠全體人類最聰明的大腦們回味一陣子了。”複旦大學計算機科學技術學院教授、上海市數據科學重點實驗室主任肖仰華認爲,機器或許會顛覆幾千年來科學家、哲學家解釋世界的方式,類似Sora所帶來的巨大沖擊恐怕會接二連三地到來。
*更重要的裏程碑?
Sora的出現既在肖仰華的意料之中,也在意料之外。
“意料之中在于GPT一定會向多模態發展,這是去年年初大家就形成的共識。意料之外在于,切實看到其效果,尤其是在物理世界的模擬方面的逼真效果,將會顛覆我們已經建立的太多既有認識。”
從理性角度而言,肖仰華對第一財經表示,OpenAI的進步速度沒有超出他的預期,因爲當ChatGPT出現時,有不少人判斷這是人類社會的奇點時刻,一旦越過這個時刻未來就是指數發展,我們不過是在見證指數發展而已。但從感性上來看,“我們的感受器官從來只能接受溫和的線性變化,Sora所帶來的震撼仍然是一場巨大沖擊。”
業界對于Sora的出現分爲謹慎的冷靜派和看好的樂觀一派。早在sora發布當天,周鴻祎就在微博發布了一篇長文表達自己對Sora的看好,他認爲,Sora展現的不僅僅是視頻的制作能力,而是大模型對真實世界有了理解和模擬之後,會帶來新的成果和突破,“這就離AGI真的就不遠了,不是10年20年的問題,可能一兩年很快就可以實現。”
傅盛則給這個熱度潑了一盆冷水,在他看來,Sora其實是産品上重大的裏程碑,但是技術上並不是比ChatGPT更大的一個突破,甚至和AGI關系沒那麽大,是大模型能力的一個延伸。
陳冉並不認爲Sora能模擬物理世界,但他對第一財經表示,OpenAI將Transformer架構和Stable Diffusion的模型結合起來,是獨創的全新的結構,且走通了這一路徑,無疑是一個巨大的技術創新,或許是更爲重要的一個裏程碑。陳冉是作爲技術側人才投身于大模型創業的一員,其創立的OpenCSG聚焦于開源大模型生態建設,希望鏈接上下遊讓大模型、數據集、Agent AI(代碼集)更加民主和公平。
“我們現在認可ChatGPT的文生文是一個裏程碑性的創新,現在是文生視頻的一個新的巨大創新,會讓應用側出現很多的變數,對未來的創業形態、投資形態來說是一個巨變,比文生文更有革命性的意義。”陳冉認爲,Sora有技術上的創新,同時是一個不錯的産品,但到現在爲止還沒有真正展現它的能量,其未來應用可能比ChatGPT更廣。
作爲投資人,聯想創投董事總經理羅旭認爲,和去年ChatGPT的推出帶來的震撼相比,Sora對行業的感官沖擊是差不多的,但從技術的難度性來說,這一次推出的Sora會比ChatGPT更高一些。
“主要原因是文字數據是可以結構化的,但視頻的數據並非結構化,且體量較大,要用這樣的數據去訓練難度也相對較大。”羅旭認爲,Sora解決了大量非計劃數據的訓練問題,將工程化的方法找到了,由此之前業內所有的嘗試一下都被碾壓了。
投資人對Sora的關注並不亞于創業者,在其出現後,所有投資會上的討論都避不開Sora這一話題。
羅旭對第一財經表示,聯想創投內部會上討論的第一個點是,技術現在是什麽樣的狀態,其次,這個技術下一步會帶來什麽?
“我們覺得現在推出的技術應該是處于視頻生成的早期階段,但是早期階段驗證了一些事情,比如訓練的方法可以解決視頻時間軸的連貫性、一致性的問題,但多模態模型本身的天花板、能力邊界是很高的,進一步往前發展還存在更多的可能性。”羅旭表示,內部討論後對技術下了這樣的一個判斷,今年這一領域會有很多發展機會。
隨之而來的問題是,如果文生視頻發展得像語言模型那樣好,它下一步會帶來什麽?羅旭認爲,語言描述是對世界知識的壓縮,語言模型無法將很多感知的信息、物理世界的信息壓縮進去,但這些信息比語言更豐富,如果AI能訓練視頻,意味著模型會對物理世界的認知提高到另外一個層次,對于其邏輯判斷及推理就非常重要。
“我覺得這是一個多模態的開始,往認知方向又往前邁了一步,但下面能産生多大價值,就看多模態模型對這個世界的認知能起到多大的作用,現在我們看到它更多是一個視頻生成的工具。如果這個方向掌握得好,對世界的認知就更深刻了。”羅旭說。
*論戰背後
Sora推出後,科技圈爭議頗多的一個點是,模型是否能夠理解物理世界,在此基礎上是不是能夠推動AGI的快速到來?
在技術文檔裏,OpenAI給Sora的定位是作爲世界模擬器(world simulators)的視頻生成模型。OpenAI 表示,“Sora 是能夠理解和模擬現實世界模型的基礎,我們相信這種能力將成爲實現 AGI 的重要裏程碑。”
部分觀點認爲,基于其仿真的物理互動效果,Sora是基于對物理世界的理解去生成視頻,但也有不少人認爲,Sora並不理解物理規律,只是基于規模訓練去擴展了圖像。
連圖靈獎得主楊立昆(Yann LeCun)也多次下場表態,2月17日,他就在社交平台X上表示:澄清一個“巨大”的誤解,從提示中生成大部分看起來逼真的視頻並不表明系統理解物理世界,生成與世界模型的因果預測有很大不同。他認爲,通過生成像素來構建世界模型的方法,注定會失敗。
2月26日,周鴻祎發了一段20分鐘的視頻來反駁“權威”,他表示,“現在對sora最看不上的人是楊立昆”,雖然其是這個領域的元老級人物,但也不見得權威所說的都是對的。
“Sora或許沒有從現象的學習中總結出公式的規律,但應該已建立了對常識的認知,在這個基礎上才能將畫面還原出來。”周鴻祎認爲,Sora的推出宣告了人工智能的一個里程碑式的重大時刻,不要光看到表象,一定要看到背後這人工智能的這種發展,如果機器既理解了語言,又學習了人類的知識,又把隱藏在人類和這個世界互動過程中很多的知識和物理定律,學習理解下來,那就離真正的AGI就不遠了。
此前傅盛曾公開表態認爲Sora不會推動AGI的快速到來,這與周鴻祎此前的觀點背道而馳。在視頻中,周鴻祎還提到了“小付(傅)同學”,重申了自己的觀點。
隨後,傅盛模仿周鴻祎身穿紅衣,手持手機于鏡前自拍,回覆稱“老周在偷換概念”,自己提的不是Sora對世界有沒有理解力,而是Sora是不是縮短了AGI的時間,或者對AGI到來會不會有很大的幫助,Sora是不是提升了AI對世界的理解。”
“老周同志一上來最開始就說Sora特別理解世界,AGI從10年變1年,我覺得這個觀點肯定是錯的。Sora本質上對連續的視頻的理解肯定比以前要強了,但是沒有什麽底層的技術上的革命性的突破,也沒有比大語言模型更理解世界。”傅盛表示,AI當然要具備一定的理解,但在能否複刻物理世界這一點上,他認爲時間一長還是會産生偏差。
學術界也有不少行業人士下場表態。上海人工智能實驗室領軍科學家林達華近日在朋友圈發文表示,“這次還是明確認同 Yann Lecun(楊立昆)的觀點。誠然,Sora 是一個視頻生成方面的裏程碑式突破。但是生成逼真的視頻,跟掌握物理規律,以至 AGI,那是完全不一樣的事情,之間有著巨大的鴻溝。”
“我們測試 GPT-4 越深入,就越覺得人類離 AGI 還很遙遠。”林達華表示。
浙江大學博士生導師趙俊博同樣公開發文表示,Sora或許還不是世界模型,“我也反對很多自媒體把這個技術類比在 AGI 上面,我們距離AGI還差得遠。”他表示,一個世界模型需要有能力去輸出動作,輸出對未來的預測,輸出對當前所處狀態的判斷。Sora 大概率是學到了一些世界運轉的模式,但是是否具備其他上述能力我們不知道。
陳冉研究了OpenAI的技術文檔,他表示,同大語言模型通過上一個詞(token)預測下一個詞(token)同樣,Sora實際上是通過像素去預測並生成下一個像素,不過在視頻模型中,其基本單位從token變成了patch,即像素塊。
對以往做視覺模型的公司來說,往往是基于Diffusion做圖像和視頻生成,但OpenAI的功勞在于,將大語言模型Transformer的架構與Diffusion做了融合,從預測下一個token變成了預測下一個patch,有了新的視頻生成路徑。
“對于我們這些搞技術的人員,我們覺得更震撼其實不是視頻的産生,而是它將像素和字符做了一個對接,把傳送錨裏最關鍵的一個點用patch代替,這很創新,語言是字符,圖像同樣也可以用字符去表示規律,我覺得這是一個非常大的革命。”陳冉說。
陳冉認爲,未來更大的一個價值在于,元宇宙有可能會加速完成,因爲圖像也是有規則的,“每一幀、每個圖片,將它收集到一定程度,虛擬世界就産生了。從這個意義上來說,這也是Sora比ChatGPT更宏偉,更有裏程碑價值的地方。”
*正視差距
對國內的大模型公司來說,GPT-4還未迎頭趕上,OpenAI已經又進步了。
“Sora的出現或許會讓很多人清醒認識到差距。”肖仰華表示,一直以來差距都是存在的,要正視差距,要有危機感。但承認差距不等于要放棄,要迎頭追趕縮小差距,不過我們也要充分意識到追趕的艱巨性。
從國內來看,趙俊博認爲,在這個方向上我們和北美的差距又增加了。“且這次和 GPT不太一樣的是,如果要追,基本上連個Anchor(錨)都沒有。Meta是最有可能開源的玩家,但是V-JEPA 目前來說走的技術路線很不一樣。”
陳冉在2022年4月就開始做大模型,“我是看到大模型和美國之間差距越來越大,一方面是投資環境變差,試錯的成本越來越低,其次是算力被‘卡脖子’,大模型依賴于數據集、算力、代碼和生態,其中算力是關鍵點,沒辦法在短時間內去解決,這決定了我們會越走越慢,相當于美國是在高速公路上行駛,我們走的鄉間小道。”
不過,陳冉並不悲觀,他認爲,國內有應用層的優勢,且大模型的發展會有一個緩沖期。
“去年是大模型的元年,三年左右的時間裏中國可能是在蹒跚走路的階段,和美國差距越拉越大,但是我覺得不會大于3-5年,最終資本是逐利的,如果這個市場可以去掙錢,資本會回流。”陳冉預測,在2027年、2028年後,和美國之間的差距會開始縮小。
“我覺得最終這個市場需要一些像阿里一樣的公司在AI領域能夠冒出來,一些敢作敢爲的、有國際化視野的企業家去創造這個市場。”陳冉說。
對于國內的追趕,肖仰華認爲,我們總體上盲目跟隨的多,真正想明白爲何跟隨、如何跟隨,怎樣差異化競爭的少。未來我們可以在AGI的其他賽道上積極布局,形成優勢,從而在總體戰略上制衡對手。“從小的方面講,AI的競爭關系國運,從大的方面看,Sora打開未來更大範圍的想象空間,對整個人類發展而言,又是重大機遇,同時伴隨著重大挑戰。”
從投資人的視角來看,羅旭認爲,OpenAI這類頭部技術模型的公司,其能力提升現在還看起來還沒有到天花板,還在不斷叠代,且速度會比創業公司更快,這些公司不只擁有算力這類更豐富的資源,且有著外部並不知道的工程化訓練的方法,這些方法使得訓練成本在下降,同時效率在提高,而這些創業公司還在去填補,在工程方法上還在尋求經驗,這樣距離就會越來越遠。
國內能否出現Sora這樣的公司,在羅旭看來,現在還沒有定論, Sora的技術方法大家並沒有完全掌握,從投資角度來說其出現只能說讓大家看到了未來前進的方向是什麽。
從去年開始,羅旭就在關注視覺這一塊的創業公司,也聊了不少,但Sora出現以後,對國內外同類視頻生成創業公司影響都較大,因爲采用的技術路線不太一樣。Sora是否會影響投資人對AI項目的選擇,對文生視頻會更謹慎嗎?羅旭對這個方向比較有信心,因爲“它已經向我們展示了生成視頻的可能性以及可能的一個正確的前進方向”。
“我們在去年就在關注多模態、生成視頻這個方向,這次Sora把整個技術能力上限一下提高了很多倍,對技術方向未來落地的可能性我們有了更多的信心。”羅旭表示,未來會繼續去尋找相應的創業者去做這個事,但想趕上Sora或許還是有點難度,在投資時需要控制預期,多對行業進行深度調研。---来源: 第一財經资訊-