免費 AI “神器”系列第五彈：斯坦福洗碗機器人突然爆火，字節版DALL·E登上開源榜單前三

2024022312:04

圖片來源：unsplash

近期，生成式人工智能（AIGC）領域又湧現出多款創意十足的新應用。

今天，钛媒體AGI梳理了免費 AI “神器”系列第五彈，共五款，其中不少産品又再一次拓寬了我們對AI的想象力。

    .斯坦福 AI 機器人框架技術——UMI
    .字節版DALL·E文生圖模型——SDXL-Lightning
    .在線試衣服神器——OOTDiffusion
    .高質量動畫生成模型——AnimateLCM-SVD-xt
    .“全能”視頻生成大模型——VideoPoet

1、斯坦福 AI “螃蟹”洗碗機器人技術——UMI

繼斯坦福炒蝦機器人爆火全網之後，斯坦福大學再出新的“洗碗機器人”，引發關注。

産品信息：UMI 是由美國斯坦福大學團隊開發的一個 AI 機器人數據收集和策略學習框架，通過手持式夾持器和精心設計的接口進行數據收集，可以將人類在複雜環境下的操作技能直接轉移給機器人，無需人類編寫詳細的編程指令。

簡單來說，UMI 就是通過人類操作演示然後收集數據，直接轉移到機器人身上，使得機器人能夠快速學習新任務。

産品功能：UMI 技術涵蓋技能轉移、數據收集、多平台部署、提高機器人操作能力、快速適應新任務、降低機器人學習成本等新亮點和功能，提供了一個便攜、直觀、低成本的數據收集和策略學習框架，允許直接讓人類演示轉化爲有效的視覺運動策略。

相比傳統機械臂遙控操作，UMI 在動態、精確、雙手操作和長期視角等方面，能更快實現 AI 機器人替代人類任務效果。

項目及演示：https://umi-gripper.github.io

GitHub：https://github.com/real-stanford/universal_manipulation_interface

2、字節版DALL·E——SDXL-Lightning開源文生圖模型

産品信息：SDXL-Lightning是一款由字節跳動開發的開源免費的文生圖模型，能根據文本快速生成相應的高分辨率圖像。

産品功能：用戶在SDXL-Lightning上輸入提示詞，然後選擇推理步驟（選擇範圍爲1步—8步），等待數秒即可生成一張高清圖像。

與以往的文生圖模型相比，SDXL-Lightning的生成速度有顯著提高，能夠在最少步驟內完成文本到1024px分辨率圖像的生成，適用于需要快速響應的應用場景。

SDXL-Lightning的生成效果圖

SDXL-Lightning的生成速度之所以能夠顯著提升，主要是因爲它通過結合漸進式蒸餾和對抗式蒸餾的方法，解決了擴散模型在生成過程中存在的速度慢和計算成本高的問題，同時保持生成圖像的高質量和多樣性，避免了傳統蒸餾方法中存在的圖像模糊問題。

使用SDXL-Lightning模型，可在幾秒鍾之內生成高達1024像素分辨率的圖像。目前，該模型已經在Hugging Face平台上開源，並且下載量超過2200次，登上了Hugging Face流行趨勢第三名，超越了gemma-2b，僅次于最新的谷歌gemma-7b，以及stabilityai/stable-cascade。

體驗地址：https://huggingface.co/spaces/AP123/SDXL-Lightning

3、在線試衣服神器——OOTDiffusion

産品信息：OOTDiffusion是一個高度可控的虛擬服裝試穿開源工具，可在線生成不同型號、款式的服裝在模特身上的試穿效果。

産品功能：OOTDiffusion支持半身和全身虛擬試穿，用戶在主頁面選擇與自身相似的模特體型，再選好心儀的服裝款式，點擊“Run”按鈕後等待一分鍾左右即可生成試穿效果。

OOTDiffusion主頁面在右側展示了模特的試穿效果。

用戶可通過OOTDiffusion調整模型路徑、縮放比例和采樣次數等參數，精細控制虛擬試穿的細節和效果，以滿足不同的試穿需求和偏好。

如未來推廣開來，OOTDiffusion想必會成爲網購愛好者的心頭好。另外，線上服裝品牌也可借其生成不同款式衣服的模特宣傳圖，節省一筆宣傳經費。截至發稿，OOTDiffusion在Github上已累積988顆星。

體驗地址：https://ootd.ibot.cn/

4、高質量動畫生成模型——AnimateLCM-SVD-xt

産品信息：AnimateLCM-SVD-xt是一款能以盡可能少的步驟加速采樣生成高保真視頻的模型。該模型由來自香港中文大學MMLab、Avolution AI、上海人工智能實驗室、商湯研究院的研究人員共同研發。

産品功能：在AnimateLCM-SVD-xt上，用戶可輸入提示詞，並可自由選擇推理步驟數、生成視頻的寬高尺寸來定制生成視頻。AnimateLCM-SVD-xt目前僅需2~8個推理步驟就能生成25幀分辨率576x1024的高質量動畫，比傳統Stable Video Diffusion（SVD）模型生成速度更快、視頻生成質量更高。

VideoPoet生成的視頻效果

體驗地址：https://huggingface.co/spaces/wangfuyun/AnimateLCM

5、“全能”視頻生成大模型——VideoPoet

産品信息：VideoPoet是谷歌推出的一款視頻生成大模型，主要有文本轉視頻、圖片轉視頻、視頻風格轉換、視頻修複和視頻生成音頻五大功能，而且默認生成豎屏方向的視頻，迎合了短視頻內容的需求。

産品功能：VideoPoet在單一的大型語言模型中集成了多種視頻生成能力，能根據不同的任務需求（如文本到視頻、圖像到視頻等）調整其生成過程。每種任務類型都有特定的任務標記指示，以引導模型進行相應的視頻生成。

此外，VideoPoet還能通過連續預測的方式生成長視頻，即通過在每一步中參考視頻的最後一部分（例如最後1秒），然後預測接下來的內容，從而實現視頻的延伸生成。谷歌研發團隊曾使用VideoPoet制作了一個浣熊去旅行的短視頻。

谷歌研發團隊曾使用VideoPoet制作了一個浣熊去旅行的短視頻。

VideoPoet曾被外界視爲革命性的Zero-shot視頻生成工具。值得注意的是，2月22日有消息稱，谷歌VideoPoet原項目負責人、卡內基梅隆大學（CMU）計算機學院兼職教授蔣路目前已經加入TikTok。

演示地址：https://sites.research.google/videopoet/

---（钛媒體/作者 : 任穎文*編輯 : 林志佳｜钛媒體AGI）

我要留言

免費 AI “神器”系列第五彈：斯坦福洗碗機器人突然爆火，字節版DALL·E登上開源榜單前三

Kitex 支持 Dubbo 協議：助力多語言雲原生生態融合

英偉達值14萬億嗎？

Kitex 支持 Dubbo 協議：助力多語言雲原生生態融合

英偉達值14萬億嗎？