周鴻祎:不要把Sora看成鲨魚,把它看成海洋

2024022215:36

承認差距並不丟人，知道差距在哪兒，我們迎頭趕上。

繼ChatGPT之後，OpenAI推出的Sora模型再次引爆全球AI界。

北京時間2月16日淩晨，OpenAI發布文生視頻大模型Sora，其驚豔之處在于，只需要輸入一段文本，Sora就能夠根據文本提示創建逼真且富有想象力的場景，並生成具有多個角色、特定類型的運動，以及主體和背景細節准確的高清視頻，時長可以達到1分鍾。

根據Sora演示的案例，在長達1分鍾的視頻中，一位戴著黑色墨鏡、穿著時尚皮衣的女子，走在雨後夜晚的東京街頭，地面的積水映出她的身影和絢麗的霓虹燈。隨著鏡頭的隨意切換，視頻中的女主角、背景人物都達到了驚人的一致性。

來源：Sora演示視頻截圖

Sora生成的視頻有3個特征：第一，可生成1分鍾的長視頻，還可以自行分鏡和切換景別；第二，單個視頻既可以是多角度鏡頭也可以是一鏡到底；第三，所生成的視頻內容與物理世界規律保持一致，不會出現違反世界客觀規律的視覺信息。

如果你對此並無概念，一個可參考的對比是，與此前AI視頻存在人物或物體失真的情況不同，Sora生成的視頻幾乎可以做到以假亂真，甚至連女性臉上的睫毛、黑痣以及滾雪的小狗的毛發等細節都格外清晰。此外，在時長上，同類AI視頻工具Runway Gen 2、Pika等還在突破幾秒內的連貫性，而Sora已經達到了分鍾級別。

Sora的視頻發布後，一直關注AGI發展的360創始人、董事長周鴻祎第一時間發布了他對于Sora的解讀。2月20日，周鴻祎接受《中國企業家》直播訪談時表示：“Sora的出現讓AGI（通用人工智能）到來的時間提前了，原來估計需要十來年，現在我覺得可能只要兩三年吧。”

周鴻祎認爲，Sora看起來是個文生視頻的工具，但實際上是AGI的第二個突破點，是解決人工智能對這個世界的觀察、交互、認知，以及建立常識的重要裏程碑。

OpenAI CEO Sam Altman近日在社交媒體上表現得極爲活躍，他連發多條推特宣傳Sora的視頻效果。與此同時，他還讓網友玩起了互動，網友隨意提供prompt（提示詞），他在線接單幫網友一並輸出視頻。

Sora是如何實現的？根據OpenAI官網介紹，“通過一次性爲模型提供多幀的預測，我們解決了一個具有挑戰性的問題。我們正在教AI理解和模擬運動中的物理世界，目標是訓練模型來幫助人們解決需要現實世界交互的問題。”

與GPT模型類似，Sora使用了Transformer架構，有很強的擴展性。它建立在過去對DALL·E和GPT模型的綜合研究之上，提出了一種新的模型可能。它不僅可以理解用戶在提示中提出的要求，還能理解它們在物理世界中的存在方式。

不過，當前的Sora模型並不完美。它在模擬複雜場景的物理效果上可能會遇到難題，有時也難以准確理解特定情境下的因果關系，還可能混淆左右等空間細節。比如，畫面中人吃掉餅幹的一部分後，餅幹可能看起來仍然完整無損。

與此同時，周鴻祎也告誡大家，不必焦慮和擔憂：“AI不會淘汰任何行業和任何人，你只會被那些真正懂AI的人淘汰掉。至少現在人工智能取代不了人類的想象力和創造力，還有人類的主觀意願。”

以下爲《中國企業家》對話周鴻祎直播全文（有刪減）：

* Sora的轟動效果遠超GPT

《中國企業家》：Sora橫空出世之後，你是焦慮多一點還是興奮多一點？

周鴻祎：Sora出來之後，大家都應該感覺到很興奮。

有些人可能擔憂自己失業，擔憂某些行業被端了飯碗，我覺得這都想太多了，因爲這個世界在飛速變化過程中，很多東西你也不能改變，應該選擇接受，用更好的態度是主動去擁抱，而且積極地參與推動，成爲推動者甚至成爲布道者。

《中國企業家》：你之前提出AI發展的十大趨勢，現在Sora出世之後有變化嗎？

周鴻祎：兩個月不到，有4條都落實了，有兩條和Sora有關。

第一，我預言AIGC會有大的突破，但我原來以爲是文生圖會有大的突破，沒有想到文生視頻會産生這麽巨大的突破。

第二，Sora是怎麽做到的？它一定和現在的原理不一樣。我猜測Sora多模態輸入能力已經超越了原來像GPT4版本的多模態能力。所以，多模態會成爲大模型的主流。大模型過去只是理解文字、語言、思想、邏輯，但是Sora讓我們看到了大模型不僅能理解圖像，還能理解他們互動的時候應該符合什麽樣的物理定律。

還有兩個很熱的新聞被淹沒了。

一個是英偉達推出了Chat with RTX——只要你有RTX30系列、RTX40列的顯卡就可以把你好久不用的電腦折騰成一個大模型，這符合我預測大模型往終端走的趨勢。

另一個是Google推出了Gemini1.5版本，1.5版本的思路是把模型越做越大，越做越強。這也符合我的一個推斷，Gemini的輸出窗口高達100萬個token，這意味著你一次能把幾卷書籍或幾個小時的電影、視頻放給Gemini來做分析。

到不了今年一季度結束，可能這十大預言都會實現。

《中國企業家》：你曾提出企業的AI濃度，現在要不要加一個AI時間刻度？

來源：《中國企業家》對話周鴻祎直播截圖

周鴻祎：我提了三個概念，一個概念叫“AI信仰”，這裏邊包括：第一，你信不信這次AI的突破是真的突破？第二，你信不信這次AI是一場工業革命級別的革命？第三，你相不相信人類已經在朝著AGI甚至強人工智能在指數級地發展，你不要高估今天AI的能力，但絕對不要低估它的發展潛力，AGI原來估計需要十來年，但這次Sora出來之後，我覺得如果從基本的AGI來講可能還要兩三年吧；第四，AI不會淘汰任何行業、任何人，是被那些懂AI的人給淘汰掉的。

第二個概念叫“All in AI”，就是由內到外，面對你的員工、客戶，從內部的工作流程到客戶服務流程上，看看哪些地方可以用AI升級改造。

第三個概念叫“含AI量”，不光是AI人才的密度問題，還包括每天花多少時間在用AI，每天花多少時間在思考AI的問題。

Altman是個營銷大師。Sora現在還沒有正式發布，他現在就是不斷地發讓人驚歎的視頻，形成傳播、發酵，形成期望，然後把大衆注意力從Google、英偉達、Meta身上吸引過來。這兩天Apple的Vision pro也不熱了。Sora的轟動效果應該遠遠超過GPT。

我看到國內今天都出現了Sora的教程，你看Twitter上OpenAI的Sora團隊已經辟謠了，現在都沒對外放呢，哪會來的賬號和教程，大家別被“割韭菜”了。

* Sora解決了機器與世界互動的規律

《中國企業家》：爲什麽說Sora是個革命性的發布，它的革命性到底體現在哪兒？

周鴻祎：之前畫面、紋理的東西都比較容易用美術來解決，所以，文生圖的時候，大家覺得各家都差不多，因爲做一張靜止的圖片，只要把東西畫出來，在圖片中用像素來表達就可以了。

爲什麽大家覺得Sora比Pika、Runway要強很多呢？Pika、Runway比較像是用多幀圖片構成的，把每一幀圖片畫好，拼起來就構成一個視頻，所以像是工作在像素和美術層面。但Sora生成的這些畫面動起來以後，符合我們對這個世界認知的常識。

Sora的演示視頻中，讓我印象深刻的有2處，一個是金毛小狗在雪地裏撒歡，你看那個雪花的感覺，雪花是松軟的，狗頭可以紮到雪裏，狗頭擡起來的時候，雪花被揚起來，狗鼻子上留著雪花，雪花還在往下掉，那這種真實的感覺是符合我們生活經驗的。

來源：Sora演示視頻截圖

還有一個是女人在床上躺著睡覺，她旁邊一只貓在找她要吃的，那只貓在被子裏伸出腳來踏了兩下，然後這個女的翻了個身，頭壓在枕頭上滾了一下，那個枕頭的凹陷、皺紋效果非常真實。

你拿所謂過去的計算機CG去做的話是很困難。做出一個枕頭外形、花紋很容易，但是你要用什麽樣的物理學公式描述枕頭上被頭壓了之後下陷多少，産生多少個皺紋，皺紋有多寬，有多長，枕頭的松軟度等，我覺得這個電影特效工程師可能沒有半年都不一定做得出來。《阿凡達》爲了做雪的特效花了好幾年，投入了幾千名美工、設計師，用了可能幾十萬台機器來聯合做渲染。

Sora産出視頻的方式，比較像人類描繪産生視頻的方法。我認爲Sora應該是模擬和借鑒了人來重現這個世界的一種技能。

GPT實際上解決了AGI第一個基本問題——從人工到人工智能，就是對人類語言有了一個完整的理解，這樣跟人可以對話。

* 智障

Sora解決了機器和這個世界在互動中需要了解的一些規律，了解的一些知識，所以它能做出符合我們日常常識的、符合我們日常物理規律的場景，雖然它可能並不知道這個規律。

老有人跟我辯論說，Sora能總結出相對論和牛頓定律嗎？我的回答是，一只貓知不知道牛頓定律並不影響它准確地去預測老鼠的速度去抓到這個老鼠，這是生物的本能。這就更加證明了Sora的可怕，它是模擬了生物這種觀察、學習和表現的方式，而不是給這個世界所有的萬物重新建模。如果Sora開放接口，我會做一個這樣的視頻，把一個生雞蛋打在狗頭上會出現什麽情況。

《中國企業家》：這次Sora的一個突破，實際是Transformer和擴散模型的結合。

周鴻祎：其實大家把它叫做Diffusion大模型或者Diffusion Transformer，這裏面核心還是Transformer。OpenAI用Transformer找到了一條統一來做AGI的路。

Diffusion是處理生圖的時候用到的一種技術，它最後只是用來渲染，沒有Diffusion它最多是畫不出視頻，但它一樣有多模態的輸入和學習，一樣有把很多知識存到Transformer裏面。OpenAI雖然用到的技術是Google發明的，但用法是自己獨創的，真正做到大力出奇迹。

其實Sora的很多東西都沒有公布。OpenAI這幫人真的非常精明，他們知道到哪一步能讓你心癢癢，哪一點能讓你覺得這是個正確的方向。但真正的訣竅他們是絕對不會說的。

《中國企業家》：Sora是不是對算力要求特別高？

周鴻祎：第一，視頻要分析的要素太多了，1秒鍾24幀，1分鍾是60秒，每1幀的分辨率又是1920×1080 for HD的圖像，對算力的需求非常大。如果對算力的需求不大，它就不是1分鍾了。但OpenAI不缺顯卡，最近Altman說要弄7萬億美元做新的算力架構，說明他們AGI再往下走對算力的需求可能超出我們每個人的想象。

《中國企業家》：目前Sora的視頻還有穿幫的這種成分在裏面，這是因爲哪些技術未完善？

周鴻祎：做錯的部分有兩種可能，一種它沒有受過這方面的訓練，只要持續給算力，給訓練，這些東西都是可以改進的；第二，可能就像幻覺一樣，我認爲都是瑕不掩瑜。

* 不要把Sora看成鲨魚，把它看成是海洋

《中國企業家》：每次有新的技術出現，大家都會說要把所有的産業重做一遍，現在也是這樣一個新的機會嗎？

周鴻祎：這麽有利的工具對各個産業的影響一定是正向的。比如對做短視頻的人來說，Sora很可能就能通過描繪我的夢境來生成視頻，很多人拍短視頻很有創意，但拍攝工具、剪輯能力不行，也沒錢，利用Sora是不是可以拍出比現在質量更高的短視頻。

對電影工業來說，這個工具更是可能讓很多人都過一過小導演的感覺，我准備最近找一些導演，像陸川、甯浩交流一下，和他們去PK一下，我覺得至少它可以成爲有力的工具。

當然，我相信至少現在人工智能取代不了人類的想象力和創造力，還有人類的主觀意願。就跟今天所有人都編程之後一樣，程序員和程序員能力的差別還是巨大的。所以，我認爲，這裏邊並沒有消除人的主觀能動性。

《中國企業家》：在通用人工智能時代，C端創業的底層邏輯會有什麽變化？

周鴻祎：創業要廣義地來看，不見得每個人都要顛覆掉抖音才叫創業。比如：第一，如果可以接入Sora、GPT大模型API，你可以利用它的能力，Sora就可以給你産生很多素材，最後你把它組裝起來；可能你是做配音的，可以把你的能力和它結合起來。我覺得未來會産生很多新的工具，人工智能最典型的屬性就是工具，所以工具市場會有巨大的機會。

第二，對已有很多傳統的to C領域可能會有重塑一遍的機會。360下周就會推出互聯網兩個to C的應用場景，一個是浏覽器，一個是搜索。

你不要把這些平台看成是鲨魚，而是把它們看成是海洋。實際今天在抖音上有一批更年輕的創業者通過做內容、直播帶貨，已經嘗到了內容紅利，未來如果利用好AI工具也會有很多的機會。所以，我自己還是覺得Sora會帶來整個産業巨大的進步。

《中國企業家》：這種情況之下，每個人都有可能成爲一個超級的表達者，這個世界會變成怎麽樣呢？

周鴻祎：正向來說，我覺得內容會極大地豐富。從負面來說，如果有了Sora之後，人類消耗大量的算力和能源，我們每個人每天都在瘋狂産生視頻，你根本就沒有時間來回看。它甚至都超過一個宇宙的壽命了，那誰去看呢？所以，我也覺得挺迷茫的，但到那時候再說呗。

《中國企業家》：如果到了我們可以大量地用人工智能視頻的情況之下，人工智能它自己所吸收的這些視頻實際上是不是會進入“自喂養”的狀態？

周鴻祎：不行。人工智能産生的文字，如果拿來再訓練大模型，這個大模型會越訓練越傻，直到有一天變成腦癱了。這有點像“瘋牛病”——動物是不能吃同類的，它會進入一種“遞歸”，如果拿Sora産生的視頻去“喂”Sora，這裏邊一定會産生一種系統的崩潰。

《中國企業家》：在通用人工智能大發展的背景下，井底之蛙就是你的信息繭房。青蛙已經在井外面了，但你隨身永遠背著一口井，這個井是你自己隨身帶著的，你擺脫不了。

周鴻祎：如果Sora這種東西學習得足夠多，全世界的電影都看過，把《Matrix》片段和《諜中諜》的片段拼合起來它都能給你造出來。所以，“未來已來”。

但現在還有一個問題，詐騙視頻，過去詐騙視頻叫Deepfake深度僞造，過了幾年他們換了一個高大上的名字叫AIGC。今天AIGC做詐騙還只是換臉換身，以後完全不用換臉。所以一定要有相應的監管措施。

作爲全國政協委員，我今年准備了個提案，我覺得這種視頻産生要加明和暗的兩種水印，要明確標識這是AI生成的，而且暗的水印是不能去掉的，這需要用技術解決的問題，要不然宅男的白日夢利器沒來先變成緬北詐騙分子的利器。

《中國企業家》：你之前也講過，Sora大模型是不是可能對自動駕駛，對具身智能，産生一些影響？

周鴻祎：真的要做到自動駕駛和具身智能，光腦子裏能夠理解人的知識不夠的，你需要和這個世界從感知變成認知，要能夠和這個世界互動，這塊語言大模型是解決不了互動問題的。

來源：視覺中國

以汽車舉例，比如你開車的時候，前方出現一個紙殼，其實你會做判斷。如果這個紙箱看起來在風吹動下紋絲不動，你就覺得裏面肯定裝了東西，你就不敢撞，會避開；如果風一吹，這個紙殼上下亂飛，還會隨風滾一陣子，你就會做什麽判斷？你就會認爲這個東西是空的，你可能就撞過去，就不會並道，因爲旁邊右道有車。

如果只是通過攝像頭和雷達看到了東西，只是判斷說前方有障礙物，那你的機器就很難做正確的判斷。我最喜歡的産品經理是周星馳，有一部電影叫《國産零零漆》，它裏面講了非常好的例子，你看起來是一個刮胡刀實際上是個吹風機；看起來是個吹風機實際上是個刮胡刀。

Sora看起來是個AIGC文生視頻的工具，大家注意力都被它吸引了，但實際上Sora是個AGI第二個突破點，是解決人工智能和這個世界的觀察、交互、認知，建立常識的重要的裏程碑。

在這個基礎上，具身智能、通用機器人和自動駕駛都會得到突破。我認爲，有可能在一年之內，基于Sora的技術，OpenAI又會給我們一個驚喜。

* 戒掉吹牛的習慣

《中國企業家》：有網友問，Sora對中國市場有什麽影響？

周鴻祎：Sora給了中國的互聯網和人工智能行業一個響亮的提醒，承認差距並不丟人，知道差距在哪兒，我們迎頭趕上。別人起步畢竟比我們更早，有很多從0到1的原始創新，比如芯片、軟件。即使新能源車今天取得了進展，但你不得不承認，最開始也是先模仿，先追隨，在這個過程中再積累，再創新，再超越。這需要一個過程。向人學習沒啥丟人的，華爲的任老板也經常強調向人學習。

中國AI行業要戒掉吹牛的習慣，都說和OpenAI差不多了，甚至通過刷榜，把OpenAI的GPT4都刷到十名開外了。這種自我安慰、自我欺騙是沒有意義的，因爲你會迷惑自己，老覺得自己很了不起，說多了可能自己都信了，反而最後被人在關鍵的地方給落下了。

另外，現在國內也不用太悲觀，有些技術訣竅，我覺得很快地也都會被探索出來，剩下的需要時間。

國內比較值得擔憂的有三點：第一，人才的高度和密度；第二，算力，做Sora和下一步更大規模的大模型對算力的要求可能又是一個積累，10萬塊顯卡是個基本起點；第三，知識的問題，盡管我們很多人覺得中文搜索引擎更懂中文，但是網上的很多語料並不適合用來做直接的訓練，訓練大模型需要的是高純度的知識。

《中國企業家》：還有網友問，360的未來是什麽？

周鴻祎：我們All in AI，通過一年的時間對大模型的研發，已經完成了AI信仰。我們在核心的安全領域已經打造出行業裏最強的安全大模型，會用大模型的人工智能能力賦能安全服務，把能力再提升一個數量級。

當然，中國有個巨大的機會，大模型一方面是做這種千億、萬億參數的超級通用大模型；還有一個方向是把大模型走向垂直化、産業化、行業化的路，做各種企業大模型、場景大模型，把大模型賦能成傳統行業，特別是傳統制造業轉型升級。---[中國企業家記者 : 趙東山*編輯 : 李薇*頭圖攝影 : 鄧攀/來源: 中國企業家雜志]

我要留言

周鴻祎:不要把Sora看成鲨魚,把它看成海洋

中國科學家歷時7年開發“超級光盤”，全球首次實現PB量級光存儲

剛開始我以爲就是笑話，但美國人又來真的了

中國科學家歷時7年開發“超級光盤”，全球首次實現PB量級光存儲

剛開始我以爲就是笑話，但美國人又來真的了