免費AI「神器」系列第14彈:Sora競品可生成2分鐘視頻;谷歌Vlogger能讓圖像說話
近期,生成式人工智能(AIGC)領域又湧現出多款創意十足的新應用。
今天,鈦媒體AGI梳理了免費 AI 「神器」系列第十四彈,共五款,其中不少產品再一次拓寬了我們對AI的想象力。
*120秒超長AI視頻模型——StreamingT2
*即插即用的視頻轉視頻框架——AnyV2V
*谷歌圖生視頻模型——Vlogger
*文本轉視頻模型——Hotshot ACT-1
*AI視頻生成模型——Motion-I2V
1、120秒超長AI視頻模型——StreamingT2
產品信息:StreamingT2是由Picsart AI Research、UT Austin和Shi Labs的研究團隊共同開發的一款文生視頻模型,該模型突破了以往AI視頻長度限製,可生成長達2分鐘的長視頻。StreamingT2的發布將視頻生成技術推向了新高度,也被稱為Sora的強勁對手。
產品功能:StreamingT2V可以根據用戶的文字提示生成長達120秒的長視頻,同時,StreamingT2V將條件註意力模塊(CAM)和外觀保持模塊(APM)核心構架結合,使得生成的視頻與文本描述緊密相關且動態連續,展現高動態效果和時間一致性。
此外,StreamingT2V的實現方法分為初始化、Streaming T2V生成和Streaming Refinement三個階段,保證了視頻生成的高質量和高分辨率,並且StreamingT2V的高效能並不局限於特定的模型,這意味著隨著技術的進步,視頻質量還有進一步提升的空間。
項目及演示:https://streamingt2v.github.io
論文地址:https://arxiv.org/abs/2403.14773
2、即插即用的視頻轉視頻框架——AnyV2V
產品信息:AnyV2V是一款無需訓練,即插即用的AI視頻編輯框架,該框架由滑鐵盧大學、Vector Institute 和 Harmony.AI 團隊共同開發,旨在幫助用戶簡化視頻創作流程,提高視頻製作效率。
產品功能:AnyV2V不僅支持對源視頻進行深度編輯與修改,還能按照輸入文本提示,主題或風格等,生成對應新視頻。
具體來看,AnyV2V將視頻編輯簡化為了兩個主要步驟:首先,AnyV2V 可以插入任何現有的圖像編輯工具,從而支持多個視頻編輯任務。其次,AnyV2V 可以插入任何現有的圖像視頻模型,執行 DDIM 反轉和中間特征註入,從而保持與源視頻的外觀和運動一致性。
此外, AnyV2V 還可以支持視頻編輯任務,包括基於參考的風格轉換、主題驅動編輯和身份處理。
項目地址:https://tiger-ai-lab.github.io/AnyV2V/
論文地址:https://huggingface.co/papers/2403.14468
3、谷歌圖生視頻模型——Vlogger
產品信息:Vlogger是谷歌推出的一款圖生視頻技術框架,該框架是基於 MENTOR 數據庫訓練而來,數據庫中包含超過 80 萬名人物肖像,以及累計超過 2200 小時的影片,使得VLOGGER可以生成不同種族、不同年齡、不同穿著、不同姿勢的人物視頻。
產品功能:用戶只需上傳一張人物圖片+音頻文件,就能實現讓人物開口說話,生成一段人像與音頻完美貼合且流暢的視頻,並能做到視頻中人物面部表情及肢體動作都相當自然且生動。
團隊成員表示,和業內此前的同類方法相比,VLOGGER最大的優勢體現在不需要對每個人進行訓練、也不依賴於面部檢測和裁剪,並且生成的視頻很完整(既包括面部和唇部,也包括肢體動作)等等。此外,Vlogger 還具有視頻編輯和翻譯等應用,能夠讓人物閉嘴、閉眼,甚至進行視頻翻譯。
項目地址:https://enriccorona.github.io/vlogger
4、文本轉視頻模型——Hotshot ACT-1
產品信息:Hotshot - ACT 1是一款由Hotshot Research開發的文本生成視頻模型,該模型基於大規模高分辨率文本視頻語料庫訓練,註重空間對齊、時間對齊和審美質量,旨在為視頻創作者提供高質量的視頻創作體驗。
產品功能:用戶只需輸入文本描述,即可生成動畫風格的視頻。同時可以根據自身需求選擇不同的寬高比和分辨率輸出,定製化自己的視頻內容。
體驗地址:https://hotshot.co/act-one
5、AI視頻生成模型——Motion-I2V
產品信息:Motion-I2V是一款AI視頻生成模型,能夠根據一張靜態圖片生成連貫且可控製的視頻。
產品功能:能實現圖像到視頻的自動轉換,能夠將靜態圖像自動轉換成連貫的動態視頻,通過模擬圖像中對象的自然運動,使靜態圖像動起來。同時支持用戶精確控製視頻中的運動軌跡和運動區域,使得生成的視頻不僅流暢連貫,而且用戶可以通過簡單的操作控製視頻內容。
此外,基於其先進的運動增強和時間註意力技術,無需額外的訓練樣本,Motion-I2V就能實現視頻風格轉換,比如從現實風格轉換成漫畫風格。
項目主頁:https://xiaoyushi97.github.io/Motion-I2V/
論文地址:https://huggingface.co/papers/2401.15977
---(鈦媒體/作者:章橙*編輯:林誌佳|鈦媒體AGI)