誰爲Sora上了頭?
OpenAI在春節期間發布了文生視頻的模型Sora技術報告,一下子引爆了科技圈。
我看這兩天國內的科技媒體也一直沒有平複下來,相關的新聞和對未來的暢想不斷流露,Sora成爲最大的熱詞。
甚至,有媒體和自媒體都打出“未來已來,我們已經落後于時代”等等這樣的標簽。
據市界等媒體的報道顯示,甚至已經有用大模型生成視頻的課程被炒到3000多一節。而所有參與其中的商家,打的旗號都是要教大家如何用Sora來快速推進視頻的制作。
好像一夜之間世界就變成了有Sora和沒Sora兩個不同的環境。
但其實這件事沒有這麽簡單,今天我要開始潑點冷水。
* 連毛坯房都不是的Sora
先糾正所有人一個概念,Sora不是一個被OpenAI發布的模型,而是OpenAI相關研究團隊在自己研究室內做出的一些進展,他們通過一個研究報告的方式向外展示。
這是一個類論文。
在OpenAI的官網上,關于Sora的這篇文章放入的是research,也就是研究這個欄目,而不是産品的欄目,就是一個很好的證明。
某種意義上,它根本不是一個模型,而是一系列實現用提示詞生成視頻的工具集合。OpenAI研究了文生視頻目前能查到最新的三四十篇論文,他們最牛的地方就是從中找到了一條看起來可行,並通過一年多時間逐漸推動落實的技術路線。
所以你才發現這一篇報道的最後,OpenAI的研究團隊列舉了超過32篇被引用的論文。
而整個過程他們分成5個部分,分別采用了不同的工具和原理。其中有創新思維的,是他們將視頻作爲了提示詞可以理解的一個部分。
爲了做到這一點,他們首先將視頻的內容降維,然後變成提示詞可以容納的內容提交給搭建的小模型去分析,輸出的東西再通過提壓的工具,把它變成多維的格式,最終形成視頻。
當然在這個過程中爲了保證不失真,他們增加了很多的算法,最終通過跟行業內交流,找到了一條可行的路徑。
整個文章實際上說的就是這麽一件事。
但請注意,Sora並不是一個現在可用的模型或者工具集。這個東西與其說是OpenAI發布的一個産品,倒不如說他們是一群科學家和工程師的集合體,定期要向贊助方顯示一下自己最近做的研究成果。
因爲在這篇文章的任何地方都沒有向外界提供可以進行測試的鏈接,或者能重複進行研究人員制作視頻的任何過程的頁面。
所以,這根本不是一個成熟的産品,甚至連毛坯房都算不上,只能算是技術前瞻。
也正因爲OpenAI知道目前實現不了相關的研究成果,除了展示沒有其他任何的方式,所以他們並沒有將這篇文章做成論文,在各大專業的平台或者媒體刊發。
畢竟論文驗證最核心的一點,就是結果可以重複。
這就是說,凡是發布的論文帶動的學科研究結果,通過其公布的實驗過程,其他科學家可以複現,才能證明這個實驗和結論的有效。這是在科學界的常識。
比如之前炒得沸沸揚揚的,韓國團隊發現常溫超導的事件,國際各大團隊紛紛做了相關的試驗,沒有幾個成功就對它的結果存疑。
而也因爲當下Sora還不是一個完整的模型産品,其生成的所有視頻,爲了保密不可能公開相關的內容和操作過程以及細節。這也就讓這件事在科技界的權威性要打上一個問號。
畢竟沒有可重複的過程,所有提供的視頻究竟是不是由動態模型自主生成,還是一個人工輔助或者參與的結果,沒法證實或者證僞。
*能不能用都是問題-這件事也沒那麽簡單。
OpenAI在文章中已經對此做了表述。一方面OpenAI表示這篇文章不涉及應用的模型和實施的細節,已經表明這不是一個可用的産品,而只是實驗室中的研究結果。因爲不提供這些內容,就無法讓科學界去複現結論。
另一方面OpenAI也承認,其視頻表現的內容和效果,是對某些領域進行深度訓練和調優的結果。這也就意味著,哪怕Sora是一個完成度頗高的准模型應用,現在並沒有辦法接受通用內容的輸入輸出,只是針對某些特定細分領域可以有非常好的效果。
其實OpenAI不可能不想將此新技術做成一個完整的産品,並迅速對外提供服務。畢竟商業化和盈利是奧特曼在2024年必須考慮的兩個重要話題。而依靠原本Gpt的商業覆蓋程度,所挖掘和變現的能力在逐漸降低。
畢竟2023年1月,Gpt3.5剛上線的時候,其日活最高能超過2億人次。但現在情況不同,OpenAI在去年10月發布會現場提供的數據顯示,當下周活將將1億人次。
這種按次收費的互聯網模式,使用頻次和潛在客戶數量是保證商業模式進展的基礎。爲了刺激使用者更頻繁更廣泛地使用OpenAI的相關産品,將文生視頻作爲一個突破口,肯定是奧特曼想幹的事情。
但現在Sora只能以技術前瞻報告的方式發布,造成這樣事實的重要原因,就在于這個産品太吃資源,而OpenAI哪怕財大氣粗也承擔不起。
大家要了解一個事實,跟對話式圖文生成不同,按照現在技術路線描述的情況來看,Sora如果要大規模商用,其所需要的服務器、算卡、算力池、顯示優化等資源是現有的百倍以上。這本身就會讓OpenAI的支出暴增,也加重奧特曼在盈利方面的壓力。
關鍵這些資源,在黃教主不斷提高英偉達算力顯卡價格的背景下,就成爲OpenAI一塊沒法解決的心病。
再加上OpenAI現在商業運營的電費,每天就超過70萬-80萬美元,一個月在3000萬美元左右,一年接近于4個億的支出。如果上文生視頻的産品,意味著電費的激增,是一個沒法想象的事件。
因爲服務器和算卡都是吃電力的大戶,如果要百倍的資源堆砌,就意味著可能每天OpenAI支付的電費都會上億,這是奧特曼和其運營團隊無法承擔的。
多說一句,以美國現在電力系統老化和發電能力的匹配,真不好說,有什麽地方可以向奧特曼提供文生視頻應用商業化後所需要的巨大能源。
畢竟當下美國超過八成的變壓器已經在超期服役,整個美國電網屬于一個超壓運行的狀態,出現問題可能就是災難性。
*這件事沒你想得那麽簡單
一方面來說,並不是文生視頻只有OpenAI可以做。實際上我去年參加百度世界大會,在現場看李彥宏發布文心大模型4.0的時候,就已經可以用一段文字迅速生成一個汽車廠商的視頻廣告,清晰度和自然情況非常好,論細節一點都不比Sora差。
但後續相關的能力,沒有大範圍地推廣。原因就在于資源的匹配上太過龐大,真正産生的費效比沒法平衡支出。
同樣,國際上已經有相關利用開源模型訓練並對外提供文生視頻服務的廠商。而且有的幹得還非常不錯。
在這樣的情況下,OpenAI迫切向外公布一個遠未成熟的産品,其實背後奧特曼有著自己的考量。
大學期間因爲參與英偉達贊助的人工智能研發大賽而出名的奧特曼,其在大賽現場開發的利用顯卡進行AI計算的程序,被認作是CUDA的前身。
而後續他的幾次創業,黃教主也慷慨解囊,給予投資。甚至在OpenAI組建前期,英偉達的算法提供基本上都是成本價,有人情在其中。
然而隨著OpenAI的成功,黃教主的商人本色逐漸顯露,不光OpenAI的采購價格逐年升高,甚至采購的數量還不能保證。這已經成爲奧特曼的心病。
于是最近奧特曼在不遺余力全球巡演,推動他領頭7萬億美元的融資計劃,希望能依靠OpenAI在算力方面的使用經驗,打造一個服務于OpenAI帝國的算力芯片生産體系。
而就在這樣一個節骨眼上,OpenAI公布了遠未成熟的文生視頻應用Sora,其背後的考慮不是産品和技術所能涵蓋。
當然並不是說我們不需要正視差距,OpenAI的研究團隊能在已經發布的技術論文中,找到真正的實施方向,並走出一條可行的技術路徑,確實是非常厲害的能力。
而且在文生視頻的目前效果來看,Sora應該達到了當下技術的巅峰。
但要注意一個特別核心的問題,中美在互聯網與大模型技術的方向上,從2023年下半年開始有了明顯的區別。我們的大模型越來越注重跟實體經濟和産業的融合,這就是李彥宏經常提的那個“現在到了做應用的時候”,也是華爲不先做通用模型,反而先做行業細分模型的原因。
文生視頻這個技術角度,依然是一個純互聯網創新的思路,其跟實體經濟的融合並不明確。是美國一直重視互聯網而輕實體經濟的一個潛在思路表現。
從這個角度看,美股周一開盤,VR/MR和元宇宙的股票暴漲,就好理解了。
所以我們說,凡是不以應用爲前提的技術研發,都是耍流氓。---來源: 钛媒體-