01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

免費AI「神器」系列第14彈:Sora競品可生成2分鐘視頻;谷歌Vlogger能讓圖像說話

2024041517:29


近期,生成式人工智能(AIGC)領域又湧現出多款創意十足的新應用。

今天,鈦媒體AGI梳理了免費 AI 「神器」系列第十四彈,共五款,其中不少產品再一次拓寬了我們對AI的想象力。

    *120秒超長AI視頻模型——StreamingT2
    *即插即用的視頻轉視頻框架——AnyV2V
    *谷歌圖生視頻模型——Vlogger
    *文本轉視頻模型——Hotshot ACT-1
    *AI視頻生成模型——Motion-I2V

1、120秒超長AI視頻模型——StreamingT2

產品信息:StreamingT2是由Picsart AI Research、UT Austin和Shi Labs的研究團隊共同開發的一款文生視頻模型,該模型突破了以往AI視頻長度限製,可生成長達2分鐘的長視頻。StreamingT2的發布將視頻生成技術推向了新高度,也被稱為Sora的強勁對手。



產品功能:StreamingT2V可以根據用戶的文字提示生成長達120秒的長視頻,同時,StreamingT2V將條件註意力模塊(CAM)和外觀保持模塊(APM)核心構架結合,使得生成的視頻與文本描述緊密相關且動態連續,展現高動態效果和時間一致性。

此外,StreamingT2V的實現方法分為初始化、Streaming T2V生成和Streaming Refinement三個階段,保證了視頻生成的高質量和高分辨率,並且StreamingT2V的高效能並不局限於特定的模型,這意味著隨著技術的進步,視頻質量還有進一步提升的空間。

項目及演示:https://streamingt2v.github.io

論文地址:https://arxiv.org/abs/2403.14773

2、即插即用的視頻轉視頻框架——AnyV2V

產品信息:AnyV2V是一款無需訓練,即插即用的AI視頻編輯框架,該框架由滑鐵盧大學、Vector Institute 和 Harmony.AI 團隊共同開發,旨在幫助用戶簡化視頻創作流程,提高視頻製作效率。

產品功能:AnyV2V不僅支持對源視頻進行深度編輯與修改,還能按照輸入文本提示,主題或風格等,生成對應新視頻。

具體來看,AnyV2V將視頻編輯簡化為了兩個主要步驟:首先,AnyV2V 可以插入任何現有的圖像編輯工具,從而支持多個視頻編輯任務。其次,AnyV2V 可以插入任何現有的圖像視頻模型,執行 DDIM 反轉和中間特征註入,從而保持與源視頻的外觀和運動一致性。

此外, AnyV2V 還可以支持視頻編輯任務,包括基於參考的風格轉換、主題驅動編輯和身份處理。

項目地址:https://tiger-ai-lab.github.io/AnyV2V/

論文地址:https://huggingface.co/papers/2403.14468

3、谷歌圖生視頻模型——Vlogger

產品信息:Vlogger是谷歌推出的一款圖生視頻技術框架,該框架是基於 MENTOR 數據庫訓練而來,數據庫中包含超過 80 萬名人物肖像,以及累計超過 2200 小時的影片,使得VLOGGER可以生成不同種族、不同年齡、不同穿著、不同姿勢的人物視頻。



產品功能:用戶只需上傳一張人物圖片+音頻文件,就能實現讓人物開口說話,生成一段人像與音頻完美貼合且流暢的視頻,並能做到視頻中人物面部表情及肢體動作都相當自然且生動。

團隊成員表示,和業內此前的同類方法相比,VLOGGER最大的優勢體現在不需要對每個人進行訓練、也不依賴於面部檢測和裁剪,並且生成的視頻很完整(既包括面部和唇部,也包括肢體動作)等等。此外,Vlogger 還具有視頻編輯和翻譯等應用,能夠讓人物閉嘴、閉眼,甚至進行視頻翻譯。

項目地址:https://enriccorona.github.io/vlogger

4、文本轉視頻模型——Hotshot ACT-1

產品信息:Hotshot - ACT 1是一款由Hotshot Research開發的文本生成視頻模型,該模型基於大規模高分辨率文本視頻語料庫訓練,註重空間對齊、時間對齊和審美質量,旨在為視頻創作者提供高質量的視頻創作體驗。




產品功能:用戶只需輸入文本描述,即可生成動畫風格的視頻。同時可以根據自身需求選擇不同的寬高比和分辨率輸出,定製化自己的視頻內容。

體驗地址:https://hotshot.co/act-one

5、AI視頻生成模型——Motion-I2V

產品信息:Motion-I2V是一款AI視頻生成模型,能夠根據一張靜態圖片生成連貫且可控製的視頻。

產品功能:能實現圖像到視頻的自動轉換,能夠將靜態圖像自動轉換成連貫的動態視頻,通過模擬圖像中對象的自然運動,使靜態圖像動起來。同時支持用戶精確控製視頻中的運動軌跡和運動區域,使得生成的視頻不僅流暢連貫,而且用戶可以通過簡單的操作控製視頻內容。



此外,基於其先進的運動增強和時間註意力技術,無需額外的訓練樣本,Motion-I2V就能實現視頻風格轉換,比如從現實風格轉換成漫畫風格。

項目主頁:https://xiaoyushi97.github.io/Motion-I2V/

論文地址:https://huggingface.co/papers/2401.15977

---(鈦媒體/作者:章橙*編輯:林誌佳|鈦媒體AGI)