免費 AI “神器”系列第三彈:AI 視頻領域的“字節跳動”誕生,首個GPT-4V盲測工具發布
圖片來源:unsplash
近期,生成式人工智能(AIGC)領域又湧現出多款創意十足的新應用。
今天,钛媒體AGI梳理了免費 AI “神器”系列第三彈,共五款,其中大多數實用工具能幫你提升一定的生産力。
AI視頻編輯神器——Runway Gen-2
胸部x光片診斷神器——CheXagent
AlphaZero升級版——DeepMind下象棋模型
Vision Arena:視覺模型盲測工具
圖片3D轉換器——ComfyUI 3D Pack
1、AI 視頻編輯神器——Runway Gen-2
産品信息:Runway Gen-2是一款功能強大的AI視頻編輯軟件,用戶可以直接使用“文本”、“圖片”和“文本+圖片”三種方式提示生成視頻內容,並自動剪輯視頻。
産品功能:用戶在主界面可自由選擇“文本”、“圖片”和“文本+圖片”三種方式來生成視頻內容。以“文本”生成視頻爲例,在輸入框輸入一段描述詞後,等待兩分鍾左右就會生成一段4秒的視頻內容。
除此之外,Runway Gen-2還配備有其他30種強大的 AI 工具,比如:“Remove Background”(綠幕去背景)、“Expand Image”(圖片擴展)、“Blur Faces”(模糊人臉)、“Inpainting”(移除視頻雜物/人)等,可以幫助視頻內容創作者極大提高工作效率。
Runway Gen-2配備有30種 AI 功能
據悉,Runway Gen-2背後的開發團隊來自Runway公司,他們致力于開發用于生成視頻、圖像和多媒體內容的産品和模型。在2023年6月,該公司以15億美元的估值,完成了1.41億美元的C輪融資,谷歌、英偉達等科技巨頭都參與了投資,被譽爲“AI 視頻生成領域的字節跳動”。
Runway Gen-2首席執行官Cristobal Valenzuela曾表示,“創意軟件的時代已經結束。”而有科技博主認爲:“如果(Runway)按照這個速度發展下去,到2024年底,我們或許能夠看到導演們手工制作出好萊塢水准的生成式視頻作品。”
體驗鏈接:https://app.runwayml.com/
2、胸部x光片診斷神器——CheXagent
産品信息:CheXagent是一個專門用來解讀胸部x光片的AI模型,旨在提高醫療影像診斷效率與准確性。
産品功能:用戶只需在CheXagent主界面上傳一張胸部x光片,等待數秒後即可生成相關的診斷結果,包括疾病識別、異常檢測、重要結構分析以及後續步驟建議。
CheXagent 界面
CheXagent由斯坦福大學與Stability AI合作開發,結合了臨床醫學大語言模型、視覺編碼器和視覺-語言橋接網絡,利用超過600萬組數據的大型集合進行訓練,提升了解讀X光圖像的能力。如若未來進入大規模應用,醫療工作者的工作效率和診斷准確率都將得到提升。
體驗鏈接:https://stanford-aimi.github.io/chexagent.html
3、AlphaZero升級版——DeepMind下象棋模型
産品信息:Google DeepMind抛棄傳統的搜索方法,使用Transformer模型,訓練了一個AI模型來下國際象棋。
産品功能:Google DeepMind下象棋模型使用了一個國際象棋程序Stockfish 16來訓練,AI不再需要像此前普通 AI 國際象棋依賴于搜索算法來預測和評估最佳選擇的走法,而是直接學習成千上萬棋局中的模式和策略,達到只需通過觀察當前棋盤的狀態,做出高水平決策的大師級棋藝。
DeepMind下象棋模型相關論文
該模型在性能上超越了AlphaGo Zero和GPT-3.5-Turbo-Instruct,證明了深度學習模型,特別是Transformer模型,能夠在複雜的決策和策略遊戲中學習和模擬高級人類智能,顯著減少了計算需求,爲AI的自主學習和理解複雜系統提供了新的範例。
與AI下棋體驗地址:https://lichess.org/
4、Vision Arena:視覺模型盲測工具
産品信息:Vision Arena是一款視覺模型領域的開放評測對比平台,目的是測試和比較不同的視覺語言模型(VLMs),比如GPT-4V、Gemini(谷歌模型)、Llava、Qwen-VL(通義模型)等。
産品功能:用戶可以在Vision Arena工具上同時測試兩個視覺模型,並對它們進行投票,以決定哪個更優秀。而且整個過程處于“盲測”狀態,需要選擇你認爲好的結果才會告訴你模型是什麽。
據透露,這是全球首個GPT-4V的盲測工具軟件。未來,基于該工具的模型基准排行榜(Elo Rating)功能也將推出。
體驗地址:https://huggingface.co/spaces/WildVision/vision-arena
5、圖片3D轉換器——ComfyUI 3D Pack
産品信息:ComfyUI 是一款基于穩定擴散模型(Stable Diffusion Model)架構技術,直觀、功能強大且實現模塊化的圖形平台,允許用戶創建複雜的 AI 文生圖工作,無需編程知識。
産品功能:今年1月,ComfyUI 宣布引入3D圖像處理模型,能快速將圖片轉換成3D模型。如今,用戶可在ComfyUI 3D Pack平台上將圖片快速轉換成一個3D模型,並能從不同角度查看該3D模型,還能使用3D高斯擴散技術提升模型質量,讓3D模型看起來更加真實和具有立體感。此外,ComfyUI 3D Pack還支持多種格式導出,集成了先進的3D處理算法。
ComfyUI 3D Pack界面
體驗地址:https://github.com/MrForExample/ComfyUI-3D-Pack/tree/main
---(钛媒體/作者 : 任穎文*編輯 : 林志佳/|钛媒體AGI)