免費 AI “神器”系列第三彈：AI 視頻領域的“字節跳動”誕生，首個GPT-4V盲測工具發布

2024021310:54

圖片來源：unsplash

近期，生成式人工智能（AIGC）領域又湧現出多款創意十足的新應用。

今天，钛媒體AGI梳理了免費 AI “神器”系列第三彈，共五款，其中大多數實用工具能幫你提升一定的生産力。

    AI視頻編輯神器——Runway Gen-2
    胸部x光片診斷神器——CheXagent
    AlphaZero升級版——DeepMind下象棋模型
    Vision Arena：視覺模型盲測工具
    圖片3D轉換器——ComfyUI 3D Pack

1、AI 視頻編輯神器——Runway Gen-2

産品信息：Runway Gen-2是一款功能強大的AI視頻編輯軟件，用戶可以直接使用“文本”、“圖片”和“文本+圖片”三種方式提示生成視頻內容，並自動剪輯視頻。

産品功能：用戶在主界面可自由選擇“文本”、“圖片”和“文本+圖片”三種方式來生成視頻內容。以“文本”生成視頻爲例，在輸入框輸入一段描述詞後，等待兩分鍾左右就會生成一段4秒的視頻內容。

除此之外，Runway Gen-2還配備有其他30種強大的 AI 工具，比如：“Remove Background”（綠幕去背景）、“Expand Image”（圖片擴展）、“Blur Faces”（模糊人臉）、“Inpainting”（移除視頻雜物/人）等，可以幫助視頻內容創作者極大提高工作效率。

Runway Gen-2配備有30種 AI 功能

據悉，Runway Gen-2背後的開發團隊來自Runway公司，他們致力于開發用于生成視頻、圖像和多媒體內容的産品和模型。在2023年6月，該公司以15億美元的估值，完成了1.41億美元的C輪融資，谷歌、英偉達等科技巨頭都參與了投資，被譽爲“AI 視頻生成領域的字節跳動”。

Runway Gen-2首席執行官Cristobal Valenzuela曾表示，“創意軟件的時代已經結束。”而有科技博主認爲：“如果（Runway）按照這個速度發展下去，到2024年底，我們或許能夠看到導演們手工制作出好萊塢水准的生成式視頻作品。”

體驗鏈接：https://app.runwayml.com/

2、胸部x光片診斷神器——CheXagent

産品信息：CheXagent是一個專門用來解讀胸部x光片的AI模型，旨在提高醫療影像診斷效率與准確性。

産品功能：用戶只需在CheXagent主界面上傳一張胸部x光片，等待數秒後即可生成相關的診斷結果，包括疾病識別、異常檢測、重要結構分析以及後續步驟建議。

CheXagent 界面

CheXagent由斯坦福大學與Stability AI合作開發，結合了臨床醫學大語言模型、視覺編碼器和視覺-語言橋接網絡，利用超過600萬組數據的大型集合進行訓練，提升了解讀X光圖像的能力。如若未來進入大規模應用，醫療工作者的工作效率和診斷准確率都將得到提升。

體驗鏈接：https://stanford-aimi.github.io/chexagent.html

3、AlphaZero升級版——DeepMind下象棋模型

産品信息：Google DeepMind抛棄傳統的搜索方法，使用Transformer模型，訓練了一個AI模型來下國際象棋。

産品功能：Google DeepMind下象棋模型使用了一個國際象棋程序Stockfish 16來訓練，AI不再需要像此前普通 AI 國際象棋依賴于搜索算法來預測和評估最佳選擇的走法，而是直接學習成千上萬棋局中的模式和策略，達到只需通過觀察當前棋盤的狀態，做出高水平決策的大師級棋藝。

DeepMind下象棋模型相關論文

該模型在性能上超越了AlphaGo Zero和GPT-3.5-Turbo-Instruct，證明了深度學習模型，特別是Transformer模型，能夠在複雜的決策和策略遊戲中學習和模擬高級人類智能，顯著減少了計算需求，爲AI的自主學習和理解複雜系統提供了新的範例。

與AI下棋體驗地址：https://lichess.org/

4、Vision Arena：視覺模型盲測工具

産品信息：Vision Arena是一款視覺模型領域的開放評測對比平台，目的是測試和比較不同的視覺語言模型（VLMs），比如GPT-4V、Gemini（谷歌模型）、Llava、Qwen-VL（通義模型）等。

産品功能：用戶可以在Vision Arena工具上同時測試兩個視覺模型，並對它們進行投票，以決定哪個更優秀。而且整個過程處于“盲測”狀態，需要選擇你認爲好的結果才會告訴你模型是什麽。

據透露，這是全球首個GPT-4V的盲測工具軟件。未來，基于該工具的模型基准排行榜（Elo Rating）功能也將推出。

體驗地址：https://huggingface.co/spaces/WildVision/vision-arena

5、圖片3D轉換器——ComfyUI 3D Pack

産品信息：ComfyUI 是一款基于穩定擴散模型（Stable Diffusion Model）架構技術，直觀、功能強大且實現模塊化的圖形平台，允許用戶創建複雜的 AI 文生圖工作，無需編程知識。

産品功能：今年1月，ComfyUI 宣布引入3D圖像處理模型，能快速將圖片轉換成3D模型。如今，用戶可在ComfyUI 3D Pack平台上將圖片快速轉換成一個3D模型，並能從不同角度查看該3D模型，還能使用3D高斯擴散技術提升模型質量，讓3D模型看起來更加真實和具有立體感。此外，ComfyUI 3D Pack還支持多種格式導出，集成了先進的3D處理算法。

ComfyUI 3D Pack界面

體驗地址：https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main

---（钛媒體/作者 : 任穎文*編輯 : 林志佳/｜钛媒體AGI）

我要留言

免費 AI “神器”系列第三彈：AI 視頻領域的“字節跳動”誕生，首個GPT-4V盲測工具發布

免費 AI “神器”系列第二彈：AI 浏覽器突然爆火，全新 AI 圖像應用已吸引40萬人

谷歌深夜爆最強複仇殺器，Gemini Ultra全面升級每月20美元“大會員”

免費 AI “神器”系列第二彈：AI 浏覽器突然爆火，全新 AI 圖像應用已吸引40萬人

谷歌深夜爆最強複仇殺器，Gemini Ultra全面升級每月20美元“大會員”