周鴻祎:Sora的問世給行業警醒,中美在 AI 領域有巨大差距
钛媒體獲悉,全國政協委員、360集團創始人周鴻祎在2月23日的一場活動中重點回應外界聚焦的AI(人工智能)焦點話題。
周鴻祎表示,和美國相比,中國在 AI 技術上存在差距是客觀事實。
“我說中美有差距,我一直堅持這麽說,看到差距才知道怎麽去迎頭趕上,如果你都不承認差距,我們早就遙遙領先。我們領先的都很過分了。在刷榜的成績裏,國産大模型基本壟斷了Top1到Top10,GPT-4都被刷到10名開外去了。但是Sora的問世還是給了我們一桶清醒的冷水。”周鴻祎稱。
不過,周鴻祎也提到,中美在 AI 上的差距主要體現在方向上,一旦方向正確,國內公司馬上就會迎頭趕上。無論是Sora采用的Transformer模型,還是Sora本身,本質都是軟件,“現在的落後,我覺得大概一到兩年就能解決。”
談及最近深陷爭議的“AI帶課網紅”李一舟,在周鴻祎看來,人們確實需要 AI 科普教育,“他犯了一個很大錯誤,就是不該收費。”周鴻祎透露,自己將在不久後推出免費的 AI 課程,希望能用最粗淺的語言解釋最高深的技術,爲大家做好 AI 科普。他具體在2月29日公布相關事宜。
“AI 科普很關鍵,大家雖然都在談AI,實際對AI充滿恐懼,認爲 AI 會帶來大規模失業,實際上,AI 是人類最好的朋友。”周鴻祎談到,目前整個大模型賽道還沒開始掙錢,現在唯一能賺錢的就是“英偉達”,除此之外微軟、OpenAI都是在賠錢。
“按照顛覆式創新的思路,一個顛覆式創新的東西出來並不是完美的,它有很大的缺點,它最大的價值是降低了使用的門檻。”周鴻祎預測,大模型未來的紅利期至少還有十年。
周鴻祎強調,AI 大模型絕對是一場工業級別的革命。“這才剛剛開始,如果每個人都賺了很多錢了,就跟今天互聯網公司很賺錢一樣,這個行業就會‘成熟’了。”
以下是周鴻祎此次回應關于 AI 的部分內容整理:
問:請問您是如何看待Sora的?它對行業的影響會有多大?是否還會出現類似于之前百模大戰的競爭格局,您是怎麽看的?
周鴻祎(以下簡稱周總):Sora的技術原理國外討論的也非常多。像今天stable diffusion發了一個類似架構開源的東西。我經常講,人家一開源,我們科技就進步。所以,再往下,國內可能在原始創新從零到一做的弱一點,但一旦OpenAI宣布了技術方向,宣布了産品,我認爲國內的模仿很快會跟上。所以,肯定又有很多家,做出類似的文生視頻類似的工具,我覺得會出現你說的百模大戰的這種情況。
問:最近關于 AI 培訓這塊的輿論和爭議比較大,不知道您怎麽看?您覺得這個行業如何規範?
周總:有兩點我是肯定的。
第一,AI 的科普在中國變得非常關鍵。因爲我接觸很多人,大家雖然在談AI,實際上大家對AI是有恐懼的,這種恐懼被網上一些號給帶節奏,覺得AI會導致大規模失業,AI會帶來行業的崩潰。你去用一用 AI 就知道說,AI是人類有史以來發明的人類最好的朋友,也是最好的工具,它可以讓我們很多人解鎖技能,可以讓我們變得。比如我過去不會畫畫的,或者我過去不可能去做導演拍視頻的,我可以解鎖這個能力。所以,特別對年輕人來講,AI更是讓你從一個資曆非常淺的人,馬上可以跟那些有經驗的人站在同一個起跑線上。
第二,我一直認爲,AI並不會帶來行業的崩潰,或者是讓哪個行業(被)顛覆掉,它實際上會給這個行業,比如對短視頻行業、影視工業、廣告業帶來正向的推動,只有那些不用AI的人會被用AI的人淘汰。
但是很多人說,你講這些道理沒有用,現在網上只要立個攝像頭,裝模作樣的在攝像頭前面講一番話包括我本人也是,就會有很多人信以爲真,大家也確認不了誰講的是對的,誰講的是錯的,所以,我認爲最重要的是,AI 一定要自己去用,一定要去縮小。包括我跟很多企業的老板也講,企業裏面爲什麽要通過一個含 AI 量的概念。企業裏面從上到下,從內到外都要去用AI的東西,用了才知道它的長短在哪裏,它的邊界在哪裏,它的優點是什麽,它的不足是什麽,避免AI恐懼症或者AI萬能論,這兩個論點都是不對的。
大家用了AI之後,對AI有一個科普,才能更好的知道怎樣去擁抱AI。所以,我覺得搞AI科普教育是對的。
大家需要科普教育,所以我認爲AI的科普教育是非常重要的,但我認爲他犯了兩個錯誤:第一:他應該免費;二、還有他背後沒有自己 AI 的産品,好像是把很多國外的産品做了套殼,這個我就不評價了,這樣做肯定是有問題的。
所以,我最近在思考,我准備開一個免費的AI課,大家覺得我講課行嗎?但是我肯定不敢收費了。
問:我們想讓您多解釋一下,我們該如何理解這樣的差距,或者差距加大背後的核心原因是什麽?
周總:第一,我說中美有差距,我一直堅持這麽說,看到差距才知道怎麽去迎頭趕上,如果你都不承認差距,我們早就遙遙領先,我們領先的都很過分了,你要天天這麽覺得,不是有的公司曾經准確的預言什麽時候超過GPT4。大家做個大模型就去刷榜,刷榜的遊戲你們都知道,把那個考題預先訓一遍。當然在刷榜的成績裏,國産大模型基本可以壟斷Top1到Top10,GPT4都被刷到10名開外去了,但是,Sora的問世還是給了我們一桶清醒的冷水,讓人看看還是有點差距。
第二,我覺得GPT手裏有些秘密武器沒有亮出來。在去年OpenAI“宮鬥”的時候他們就爭論了半天,現在GPT5已經在蓄勢待發了,GPT-5發沒發的問題完全取決于奧特曼的心情和他的節奏感。奧特曼什麽時候發呢?當Google要做什麽事情的時候,或者當META要做什麽事情的時候他就會發一個東西。所以,考慮到他們對AGI的信心,我認爲在人工智能的原創方面上,我們跟他們的差距主要在原創方向上。
大家知道,搞技術最難的是找到原創方向。原來人工智能、深度學習、神經網絡,我稍微感慨一點,你們愛聽不聽。包括META的楊立昆 (Yann LeCun)在拼命攻擊Sora、攻擊GPT、攻擊Transformer模型。
其實,Transformer模型不是OpenAI發明的,但是OpenAI是第一個選擇了一種新的用法,就是在裏面無限地加參數的大小,加注意力的連接數目,加神經網絡的層數,也就是說他們相信一種叫做暴力美學,就是只要是大力出奇迹,所以,很多的跟Transformer當時一起競爭的模型,像T5、BERT,大家在小數據、小參數情況下的性能能力,Transformer都不是最好的,但是只要加大參數之後,只有Transformer是能支持無限的加大規模。所以,到目前來看Transformer這套模型至少被驗證了,是目前效果最好的。
所以,大家聽明白這一點嗎?這個方向絕對是正確的。OpenAI走對了方向。
其次,Transformer是把文本,文本是一個一維的數據,一個單詞在另一個單詞的前後,只有前後關系。處理圖片他們現在也是用類似的方法,圖片是二維的,一個像素,有X、Y軸的關系。視頻是3D的數據,爲什麽呢?一個色塊除了有在圖片上的位置之外,它有按照時間移動的關系或者按照時間變形的關系,所以,這次Sora的出現在技術上有個巨大的成果,OpenAI用Transformer架構成功實現了對各種各樣的文字、圖片、聲音還有視頻的歸一化的處理,而且再加上Transformer本身對語義的了解,對知識的理解,所以,它這次能做出Sora是把GPT的能力融在裏面了。它還做了一個文生圖的東西叫做DALLE,把DALLE的能力也融在裏面了,所以它就比Pika、或者Runway這種只是利用Diffusion模型做像素的複制這種效果要好很多。所以,Transformer目前全世界都在跟這個架構,這次處理視頻怎麽做呢?最早大家也不知道該用什麽架構做,有的人是用Diffusion做,就是Pika、Runway這種概念,就是把動畫看成是多幀圖片,把一張張圖畫出來,但是它沒有用Transformer模型來做。所以,在這種方向性的創新上,OpenAI做得非常好,我覺得差距主要在這裏面。
我剛才啰裏八嗦講了點技術細節。第一,我們和別人的差距主要在方向感上,一旦方向感確定,中國公司的學習能力和模仿能力會很快,而且你可以想象,馬上就會有人去挖Sora團隊的那些人,這些人中有些人會出來創業,比如同行會發布開源的東西,會發布一些公開的論文,所以,這裏面很多方法很快都會泄露出來或者分享出來,對中國團隊來說去跟進,不是一個很難的問題。但是Sora讓我覺得最震撼的是說,它産生視頻是一個副産品,它在做這個過程中突然發現說,通過對很多視頻材料的學習,不僅學到了如何去繪出圖案,最重要的它要繪出真實的這種、符合我們每個人常識的視頻,它必須要了解這個世界很多元素之間的互動關系,我不知道大家理解不理解這個意思。
所以,我再舉個例子,Sora如果開測試賬號,如果能拿到之後,你們可以多替我做個實驗,讓Sora畫一場籃球賽,讓Sora畫一場足球賽。如果一個人根本沒有看過籃球和足球,不懂得籃球和足球軌迹不一樣,得分規則不一樣,它是畫不出來的。比如說籃球打到籃板上會反彈不會穿過去,但籃球打到籃筐裏就會垂直的落下來,籃球在地上會彈起。這些知識如果Sora不掌握,你可以想象一個人如果都沒有看過,沒有把這個常識總結下來,他要把它複現出來幾乎是很困難的。
我通過這個例子來講,爲什麽Sora讓人離AGI又近了一步呢?GPT實際上是解決了機器和人之間相互理解和交互的問題,因爲它理解了語言。理解了語言的時候,楊樂坤就曾經攻擊,說它不理解,它只是會填空。但實際上,一旦把人的語言理解了就意味著是非常大的進步,因爲語言是人類所獨有的發明的東西,人類用語言可以描繪邏輯,人類用語言可以描繪這個世界的模型,人類可以用語言來描繪人類積累的知識。所以一旦把語言理解了,就意味著AGI的第一個難關就攻克了。
但是光是能說話了,智能是沒有太大用處的。因爲它對這個世界的很多規律並不知道,比如你弄個機器人,想讓機器人到冰箱裏拿個西紅柿炒雞蛋,你發現訓練起來就很難。因爲它要知道西紅柿是硬的摔不破,雞蛋一摔就會摔破,他要知道怎麽磕雞蛋,這些知識靠文本知識是不夠的,必須要像我們人類一樣要見過之後才能知道。所以,這次Sora等于有意無意,我個人覺得對OpenAI來說可能也是無意中做出來的,大力出奇迹之後他發現說,他實際上通過Sora的訓練方法讓機器能夠跟世界互動了。
最後他利用Diffusion模型只是把他要做的視頻做出來,但前面它一定是在Transformer模型裏把這個世界的一些規律給理解了,我不知道大家理解這個意思嗎?因爲我做過一個比較,一個畫面一只貓早上去撓主人要吃的,那個主人在床上翻身,你們看過那個嗎?你們可能光注意貓和主人了,沒注意那個枕頭。你知道那個主人在枕頭上一翻身,枕頭被壓皺了,枕頭柔軟的感覺。這個如果用計算機特效來做,這絕對是一個噩夢,你用什麽函數來描述這個枕頭的塌陷,來描述這個枕頭的皺紋,大家就會做的不像真的。但是Sora有限的算力,它一定是看過床和被子、枕頭類似的這種感覺,所以它把這種感覺能夠重繪出來。所以,我覺得這是Sora最了不起的地方。
爲啥我說它最後真正的貢獻是給通用機器人和自動駕駛呢?你讓通用機器人和自動駕駛有了對真實世界這種交互和感知的能力,你對這個世界的理解就比理解語言又更近了一步。
所以,這次Sora在AGI上的突破,從人類的角度來說,是了不起的突破。
問:對于中國來說,2024年,有沒有其他的一些獨特、值得拓展的優勢?您怎麽看待今年中國在 AI 方向的前景?
周總:我覺得中國還是有優勢的。盡管大家現在言論一邊倒,老是認爲,因爲在原創技術上我們落後,它是一個客觀事實。但是,這個落後,唯一樂觀的這個落後不像光刻機和芯片差距那麽大。畢竟Transformer模型也好,Sora也好本質上還是軟件,所以,現在這個落後的時間,我覺得大概也就是一年到兩年的時間,是可以去解決的。
但是,另一方面,你不需要等到全面趕上GPT-4,全面趕上Sora,我們才能去應用。所以,現在有一條主線是做Sora和GPT4這種超級通用的大模型。這是一條主線。2022年、2023年中國追趕的還不錯,用了不到一年的時間趕上GPT-3.5了,我覺得還是OK的。
2024年,我覺得應該是應用之年。否則大家對GPT會有啥感覺?就是能寫詩,能鬥樂子,能解奧數題,但離工作還太遠。或者能在辦公方面幫我們做一些工作。Sora大家震撼多點,是因爲Sora比GPT更近一步,大家明顯感覺短視頻産生在影視工業、遊戲行業、廣告業能夠做點具體的事了,但依然是一個通用的工具。我覺得2024年,除了這兩件事之外,2024年在企業方面在垂直領域,大模型是大有可爲的。
大模型本來要真正産生一場工業革命,大模型一定要進入到百行千業,跟很多企業的業務流程或者産品功能相結合。我們泛泛地講做一個通用大模型超過GPT4,真的超過GPT4是比較難的,但是GPT4是一個全才生,啥都懂,但是它不專。但如果我在某一個業務領域有獨特的業務數據,我就此在一個垂直領域把大模型訓練的很好,而且把大模型和企業的很多業務工具結合在一起。就像大模型不僅有腦子,而且有獨特的知識,還有手跟腳,那麽,我覺得在一些垂直領域大模型的能力,一方面能超過GPT4是完全有可能的。而且做垂直的模型,我也很贊同一個觀點,它不需要做千億、萬億的模型,它只要做百億的模型,這樣對很多企業承擔的成本來說也沒問題。
如果你做企業,按照我的一個預言,大模型無處不在,企業裏面將來不會只有一個超級大模型,企業裏面會有多個小規模的、百億級的大模型,每個大模型就幹一個場景的加強工作。這個大模型再跟企業的業務平台結合起來,按這種模式,對現在很多企業來說大模型完全用得起,而且可以用得很好。
所以,我們(360公司)在網絡安全方面做一個安全的垂直大模型,用的是百億的模型訓練的。因爲360有兩個優勢,一是我有很多安全工具,等于用這些工具的能力給它實現了能力的增強。大模型不能只動嘴,不能只思考,它還要有手和腳。還有我們有很多專家積累的知識,360安全大數據積累的知識,我們把這些知識全都灌到大模型裏去,現在這些大模型已經完全取代了360的安全大腦,現在在用戶那裏試用,碰到APT攻擊已經能夠自動發現、自動處置、自動給用戶出報告。在這一件事發現APT這件事上,我可以驕傲地說我們超越了GPT4,當然你別跟人家比全面能力。
所以,我是覺得,2024年無論在To c、To B都應該出來一個具體的場景。
問:我想問一下,在文生視頻後,視頻生文離我們還有多遠?
周總:這個問題問得有意思。文生視頻是最難的,文生視頻的過程中,必須有視頻生文的技術做支撐。所以,在這次Sora的技術報告裏,它管這個技術caption,很多人把它翻譯成字幕技術,就是視頻生文和圖生文的技術。OpenAI從Tiktok,包括從美國很多電影裏搬了很多視頻片段來做訓練,光是給它看視頻沒有用,一定是要把視頻打上標簽,要注明,這裏就需要用到圖和視頻生文的技術,這個技術比較容易。
問:現在有越來越多的年輕人希望創立 AI 公司,那麽您認爲釋放技術最大潛力的方向在哪裏?
周總:我簡單說,AI目前看有三個方向。一個方向是做大模型本身,這塊我不認爲年輕創業者能做,要想做就應該加入大廠去做,因爲你沒有足夠的顯卡、沒有足夠的算力,沒有長期的投入,國外這些公司說白了現在微軟OpenAI一年都要賠上百億美金,投入是巨大的,顯然小創業公司肯定幹不了。現在這些小創業公司,我也不點名,就算融到幾輪資,做了一個大模型出來又怎樣呢?因爲現在免費大模型已經把這個從原子彈變成了茶葉蛋了,大模型幾乎是免費的。所以,這條路我認爲就是你說的,我不贊同他們走。
第二個,利用大模型的API在to C場景找一些應用,相當于用別人的,用百度、用360、用阿裏的大模型做後台,大模型相當于是一個agent,給我提供能力的支撐,我找一些用戶場景,這條路是比較可行的。但這個不是簡單的套殼,套殼是你做得跟GPT、跟Sora、跟Stable diffusion做的差不多,這種套殼是沒有價值的,只要大模型廠商哪天一升級套殼的東西就會死一批。比如說我舉個例子,Sora出來了,是不是做文生視頻就沒有價值了,不是的。Sora只能做一分鍾,但是你要做十分鍾的話,比如你是不是需要有一個工程的管理,讓它幫你把十分鍾的東西調Sora做出來十段視頻,最後你要把十段視頻連在一起,你要配音,你要加字幕,有些地方是Sora的結果,有些地方是配上你自己拍的視頻。只要你找到用戶的場景,你後面可以調各種人工智能的強大的API的支撐,你還是能夠做出應用級別,不要老是在核心技術上說我要去跟Sora去。所以,最近Pika說准備轉型,如果它轉型成功,它的人機界面比Sora更友好,它在Sora之上能夠提供更複雜的視頻剪輯能力都是有機會的。
第三,我剛才反複說了好幾遍的,從目前來看GPT真正的作用還是在提高生産力,在中國國家也在支持更多的企業做數字化,所以大模型進企業,而且用百億的這種規模非常低的成本進企業是完全可行的,而且企業裏面只要你不貪多貪大,說我給你做一個什麽很宏大的大模型,而是選一個比較具體而微的場景解決問題,那麽它超過GPT4的可能性是非常大的。但這裏面就需要放下身段,因爲這時候用什麽場景、用什麽業務一定要找到某些行業、某些專業的這種垂直業務的公司,要跟他們合作。這時候有點像你做乙方別人做甲方,對很多創業者來說是巨大的挑戰,因爲創業者有時候比較牛比較自我,可能不一定聽得進別人的意見,他覺得我懂核心技術,但你要把核心技術用到很多傳統企業裏,在業務上確實要聽這種傳統企業的調度。
問:大模型現在難在哪裏?
周總:第一,這個方向出來之後,國外也有兩條路線的鬥爭,一條是以OpenAI的閉源,還有一條是以META爲代表的開源,所以,開源的路線,開源的目標要打過閉源,他們會不斷的去猜測閉源怎麽做,會把很多東西開源出來。開源出來的好處是天底下有很多好公司還有很多大公司程序員個人會積極的在開源項目裏,大家都踩著別人的基礎上貢獻成果,所以它的化學作用會非常明顯。我現在猜測,最近在國內我找了一些大學,包括昨天回來的時候和清華的張亞勤教授,他原來是微軟中國的頭,也在百度當過總裁,現在到了清華當我的老師去了,我現在不是在清華念書,所以也跟他聊了聊,現在很多的技術裏面用到了那些模型和算法應該都是公開的,實際上OpenAI最大的能力一個是找方向,一個是工程化思路非常嚴謹,現在就是要把這個工程化的思路探索出來。所以,大家前面學GPT的過程中,也是方向已經確定了,往東走毫無疑問一定能走通,但具體碰到一個檻怎麽過,碰到一個山怎麽翻,它也有很多具體的坑要踩,有很多具體的方法要驗證,所以這個需要時間。
第二,我的猜測對算力可能會是一個檻節。網上有些言論也不對,網上說Sora的參數不大,只有30億參數,這個人弄錯一個概念,視頻的參數和文本的參數不能簡單做對比,就像文本我有十萬字,視頻只有640×480,但是它兩個占的存儲量完全不在一個數量級上,所以,第一它不僅有30億參數,第二就算只有30億參數,視頻分析對算力的消耗應該是遠遠超過做一個千億模型。所以,我覺得現在國內的顯卡都被卡脖子之後,可能算力是一個問題。所以,包括GPT,包括Sora爲什麽只能做一分鍾,我在猜測,因爲它和4秒、6秒有本質的差別,4秒和6秒是因爲全部用像素生成,沒有世界的知識之外,4秒、6秒之後的圖怎麽樣就想不出來了。所以,Sora能解決一分鍾,意味著它也能做十分鍾,也能做六十分鍾,但它爲啥不做?我覺得也是由于算力的限制,還有成本的限制。
所以,對國內來講,下面如何能夠把算力集中起來。
爲啥我反複做科普,Sora如果僅僅是一個文生視頻的工具,我們落後就落後了,不就我們廣告落後點,不就我們電影拍得慢一點嘛,這些落後都不會給大國競爭帶來問題,不就對娛樂業帶來影響。但實際上這件事預示著AGI的一個關鍵節點,所以,這件事對國家是挺重要的。
問:對于大模型的紅利期,您的判斷何時能出現?
周總:我認爲大模型的紅利還沒開始,現在唯一能賺錢的就是英偉達,國外最掙錢的是英偉達,除了英偉達之後國外包括微軟也不掙錢,微軟每年在賠錢,OpenAI也在賠錢,所以還沒有進入到紅利期。我估計亞馬遜會掙錢,雲廠商和硬件廠商肯定率先掙錢,但是我覺得如果能場景化了,2023年、2024年在一些場景化上可能能夠看到這種掙錢的機會,所以,大模型的紅利,這是一場工業革命級別的革命,未來的紅利期至少有十年以上。
這個紅利會非常長,至少十年,現在大家還沒賺到錢,除了英偉達賺到錢了,大家還沒人賺到錢,這表示剛剛開始,如果每個人都賺了很多錢了,就跟今天互聯網公司很賺錢一樣,這個行業就已經成熟了。---(來源: 钛媒體|钛媒體AGI)