AI創世紀|視頻生成賽道內卷成風
圖片來源:視覺中國
[藍鯨新聞8月19日訊*記者: 朱俊熹] 今年2月,一段短視頻在全網爆紅:熙熙攘攘的東京街頭,一位戴著墨鏡的時尚女性正緩步行走,身後是炫目的霓虹燈——一句話就可描述完視頻的內容,但裏面的人物表情、環境光照都極為真實,如果不逐幀細看,很難分辨出這其實並非實拍視頻,而是人工智能明星公司OpenAI,用其視頻生成模型Sora生成的AI視頻示例。
OpenAI在2022年底通過發布ChatGPT掀起了此輪AI浪潮,而今年年初發布的包括東京女性在內的這幾段AI視頻,不僅在時長上倍超其他已有模型,視頻質量也實現了飛躍。但直到如今,曾震撼業界的視頻生成模型Sora仍處於期貨狀態,未向公眾開放。
然而,其他AI公司和科技界從業者們看到了OpenAI探索出的道路,在無窮的想象空間面前,它們決定立刻躬身如今到視頻生成模型的潮水中。在這半年時間內,多家公司開始奮起直追,紛紛發布基於各自優勢的視頻生成模型,以填補Sora的空位。
國外方面,Runway、Luma AI等一批初創企業均推出了最新的視頻生成模型,並全面開放給所有用戶。在國內,字節跳動旗下文生視頻產品「即夢AI」 8月上架蘋果和安卓應用商店;快手在更早的6月就推出了可靈視頻生成大模型,上線兩個月總申請人數超百萬;智譜AI、生數科技、愛詩科技等創企也都在上個月集中發布了自己的AI視頻大模型。
AI生成的視頻簡單、快速、便宜,這一願景似乎不再可望不可及。
但第一批使用AI生成視頻的用戶很快也發現,目前的實際體驗與理想中的一鍵生成仍有較遠差距。對已經押註AI視頻模型的科技巨頭、初創企業來說,雖然未來將導向怎樣的商業化路徑還不明確,但仍然前仆後繼地加入了這條賽道。
先入局,對AI公司而言或許更重要。
* 理想和現實的差距
自打Sora開了個頭,每當新的視頻生成模型面世時,「效果炸裂」、「顛覆行業」等媒體標簽總是緊隨其後。但在AI視頻創作者Ryan看來,距離視頻模型完全取代人力還「差得十萬八千裏遠」。Ryan的本職工作是一位攝影師,他發現用AI製作視頻很難完全實現實拍的效果,最主要的問題就在於無法精準控製。
Ryan告訴藍鯨新聞,在理想狀態下,視頻生成模型應當具有良好的可控性。這體現在許多方面,首先是人物的可控性,其動作和表情能夠符合創作者的要求。其次是鏡頭運動的可控性,視頻模型可以識別專業的鏡頭語言描述,根據創作者想要的角度進行變換。但現有視頻生成模型在這些方面仍存在局限。
而正因為無法精準控製,要想得到相對滿意的視頻畫面,創作者們需要不斷地「抽卡」,讓AI根據提示詞隨機生成相關畫面,就像在遊戲中抽取卡牌一樣。每段視頻需要的「抽卡」次數並不確定,Ryan通常會抽20到30遍。以快手可靈為例,每生成一個5秒的視頻,用戶需要在電腦前等待3分鐘,然後根據生成效果來調整提示詞,再等待3分鐘,如此循環,這個過程會耗費大量時間。
7月,智譜AI CEO張鵬在發布AI生成視頻模型「清影」時曾表示,生成視頻的可控性強烈依賴於模型能否準確理解指令。將來絕大部分視頻生成內容都是由人類通過語言控製的,如何從文字或簡圖轉換為視頻語言,實現真正的可控,是技術層面的事情。
全職從事AI視頻創作的秋和告訴藍鯨新聞,在商用AI視頻的製作過程中,視頻生成模型發揮的作用有限,主要用於生成視頻素材。但腳本創作、人物設計、聲音特效、剪輯等其他環節依然高度依賴人力,以及PS、AE等傳統工具。
今年以來湧現的視頻生成模型無疑為創作者提供了更多的選擇。除快手可靈支持生成2分鐘視頻外,其他視頻模型的生成時長大多在30秒內。秋和表示,不會局限於只使用某一個模型,一般會將不同模型生成的片段組合起來。「效果優先,每家模型各有所長,要根據自己的需求來選擇工具。」
在表現中國風方面,創作者大多反映國內模型的效果要優於Runway Gen-3 Alpha等國外模型。生數科技在推出Vidu時表示,作為中國自研的視頻大模型,它能夠理解中國元素,生成熊貓、龍等特有的畫面。背靠快手的可靈在處理人物表情,以及生成與吃有關的畫面時表現突出。6月可靈還推出了「復活老照片」等項目,因賦予原本靜態的人物惟妙惟肖的表情,迅速積累了較高的熱度。
但各個視頻模型各有所長,沒有哪家擁有絕對優勢。秋和此前需要生成一些宏大的黑白場景,以鳥瞰的鏡頭呈現車水馬龍的街道。但多數模型的結果都不盡人意,會出現人物畸變或無中生有,最後她發現剛上線的智譜清影效果是最優的。而據智譜AI此前介紹,其視頻訓練數據除了來自公開的數據集外,還來源於電視臺、影視公司、視頻平臺等合作夥伴。
「這些可能跟各公司在訓練時的數據占比有關。數據的數量、質量和分類,都會影響到不同模型擅長的能力不同。」秋和表示。
* 商業前景忽明忽暗
盡管AI視頻生成模型距離理想狀態還有很遠,一些AI創作者們卻已經發現了這個新興風口中的商機。
秋和最初是在社交媒體上分享自己的AI作品,漸漸就有企業帶著商單找來,想讓她用AI製作商品廣告片或行業宣傳片。
秋和認為,對這些B端客戶而言,AI視頻既是吸引流量的噱頭,通過眩目的畫面博人眼球,同時也能夠降本增效。以多地推出的AI文旅宣傳片為例,實地拍攝耗時耗力,還受限於天氣、光線等環境條件。而借助AI技術,只需要幾張當地的照片素材,秋和曾經最快只用4天的時間就能完成一條高質量的片子。
AI視頻創作者一旦有了訂單和收益,就有動力去選擇性能更優的視頻生成模型,並願意為之付費。
和絕大部分仍免費的C端AI智能助理產品不同,許多視頻模型產品由於成本巨大,在上線後不久就跟進了付費模式。可靈、即夢、Vidu等都推出了會員訂閱模式,每月費用在30多元到700多元不等,可享有無水印、優先體驗新功能等服務。智譜清影依然支持不限次數的免費使用,同時推出了付費加速服務,花費5元即可解鎖一天的高速權益,縮短等待時間。
圖片來源:快手官方
但相較於這些公司投入到視頻生成模型上的巨額成本,這些收費不過九牛一毛。據投資機構Factorial Funds估算,Sora在訓練環節就需要大量計算能力,一個月需要4200到10500塊英偉達H100 GPU。
到了應用層面,視頻模型的推理成本更是會比大語言模型高出多個數量級,且隨著視頻模型的廣泛部署,推理計算消耗將多於訓練計算消耗。
假設TikTok、YouTube等平臺大量采用AI視頻生成,推理階段的計算峰值需求將達約72萬塊英偉達H100 GPU,相當於英偉達預估2024年全年產能的一半。
高昂的成本可能也是Sora尚未向公眾開放的原因。OpenAI首席技術官Mira Murati 3月在接受采訪時表示,Sora的運行成本要比現有的生成式AI系統貴得多,公司希望能將其成本壓縮至接近文生圖模型DALL-E才對外發布。矽谷科技媒體The Information此前報道稱,OpenAI今年或將面臨50億美元的虧損。
與大語言模型一樣,To B是另一種商業路徑,盡管也並未驗證成功。
智譜AI在推出清影時,將其API同步上線到大模型開放平臺,供企業和開發者調用。Vidu在官方網站上提供了API內測申請,稱正在尋找第一批種子用戶來測試API服務的穩定性,「以便更快向全部開發者推出。」另一AI視頻創企愛詩科技則表示要聚焦C端,而字節即夢和快手可靈都未對外提供API。
有接近快手人士曾向媒體透露,可靈目前暫無商業化計劃。
智譜AI CEO張鵬在清影發布時坦承道,「從現在這個階段來說,無論是To C還是To B,純粹走向大規模商業化還比較早期。」他表示,智譜同時面向C端和B端開放視頻模型,是想看市場和用戶的反饋,後期再及時調整。考慮到生成視頻的高成本,能「稍稍收回來一點點也是好事」。
但用戶並未做好為視頻生成模型付費的準備。快手可靈剛發布時因其免費內測吸引了很多創作者,但一位AI創作者小鹿告訴藍鯨新聞,一個月之後,可靈突然要收費了,「官方群裏都炸了,都出來罵」。隨後,一些用戶發現可靈國際版還未收費,於是不斷地用新郵箱註冊可靈國際版,每天換著賬號領積分,來免費使用可靈做AI視頻。
「你覺得合理嗎?平臺如果全靠訂閱來收費,絕對虧本。」小鹿說。
* 不管結果如何,先入場再說
AI浪潮發展至今,FOMO(Fear of Missing Out)的情緒已經裹挾著整個科技行業,無論是巨頭、創企還是投資者。玩家們害怕的不只是失去當下的良機,更是將來的領先優勢。
東吳證券8月發布的一份研究報告指出,在這場視頻生成技術競賽中,互聯網大廠很可能將繼續扮演引領者的角色。分析師表示,視頻生成模型的核心競爭要素依然在於數據、場景和用戶。其中,數據是訓練高質量模型的關鍵,而場景決定了產品的市場適應性和商業潛力,互聯網大廠在這三個維度均占優勢。
這與行業內的意見一致。智譜AI CEO張鵬曾表示,視頻生成高度依賴於數據,智譜AI雖然在文字數據方面積累了多年時間,但視頻數據是這幾年才起步的。他解釋稱,對視頻數據的質量要求極高,並不是在短視頻網站上隨便抓取就能進行訓練,還要對數據進行清洗、篩選,配上相應的字幕和描述。
快手可靈在推出後獲得較多好評與較高熱度也與訓練數據豐富有關系。一位快手數據團隊成員此前告訴科技媒體「矽星人Pro」,快手植根視頻領域多年,最大的優勢就在,「數據都被『洗』得很幹凈,整整齊齊地放在那裏,做模型的時候可以直接拿過來用。」
快手視覺生成與互動中心負責人萬鵬飛在一場活動中介紹稱,為確保可靈訓練數據的質量,快手通過高度自動化的視頻數據平臺和精細的視頻標簽體系,篩掉那些不合適、低質、不符合要求的數據。
目前,激戰多年的抖音和快手已然相遇在AI視頻模型的新戰場上,雙方都密切關註著這條與其主營業務生態息息相關的賽道。
據矽星人Pro此前報導,快手將可靈視為公司戰略級項目,快手創始人兼首席執行官程一笑曾親自發話「可靈要大做」,高級副總裁蓋坤也表示公司將全力支持可靈,包括提供充分的GPU芯片。而字節內部將AI大模型設為集團最高優先級的P0級別,抖音、剪映等內部多個團隊都在研發AI視頻模型應用。
創作者小鹿向藍鯨新聞分析道,在大模型落地方面,大廠的常見策略是從內部做起,將AI接入原有業務。他認為,抖音即夢、快手可靈這樣的AI視頻應用首先可以作為公司前端的技術展示,更重要的是如何將視頻生成模型嵌入到已有的業務中,如抖音、快手的內容或電商生態。這樣即便無法直接通過AI應用直接實現盈利,「整體能把賬算平就可以了」。
對視頻生成領域的初創企業而言,從大廠中突圍或許難度重重,但他們仍然保有希望。愛詩科技創始人兼CEO王長虎曾擔任字節跳動視覺技術負責人,參與了抖音、TikTok等產品及字節視覺大模型的建設。在Sora發布前一年,王長虎決定離開大廠開始創業,聚焦於AI視覺領域,並推出了PixVerse視頻生成產品。
今年6月,王長虎在與科技媒體極客公園的對談中坦言,沒有人能在一開始就回答視頻生成最終將導向工具還是平臺。「誰不想做成平臺?如果前面有兩條路、兩個機會,一個是工具剪映,一個是平臺抖音,我想很多人都會選抖音。」
王長虎回溯了抖音和快手的崛起歷程,指出它們早期都只是工具。但在移動互聯網時代下,內容生成方式、人與信息的交互方式發生了變革,推動抖音和快手成長為成功的平臺。
而AI技術同樣會為這兩個層面帶來升級,因此他判斷在AIGC時代也存在平臺性的機會,只是無法確定具體是什麼。「打敗微信的一定不會是另外一個微信,可能是從另一個賽道來的東西。」王長虎稱。
而視頻生成模型的競賽也不過才剛剛打響了發令槍,誰都有機會成功,但同樣地,沒有人能保證自己一定會活到最後。無論大廠還是創業公司,現在能做的,就是先入場,以後的事以後再說。---來源: 藍鯨財經-