免費AI“神器”系列第七彈：華爲首個AI圖像生成模型論文公布；克隆數字分身應用近期爆紅

2024031222:21

近期，生成式人工智能（AIGC）領域又湧現出多款創意十足的新應用。

今天，钛媒體AGI梳理了免費 AI “神器”系列第七彈，共五款，其中不少産品再一次拓寬了我們對AI的想象力。

    華爲首個 AI 圖像生成模型——PixArt-Σ
    音樂生成模型——Chat Musician
    克隆自己的數字分身——D-IDAgent
    可以讀唇語的大模型框架——VSP-LLM
    醫學檢索增強生成（RAG）框架——MIRAGE

1、華爲首個 AI 圖像生成模型PixArt-Σ亮相

産品信息：日前，華爲諾亞方舟實驗室團隊在arxiv平台上發布多篇論文，展示華爲首個 AI 圖像生成模型PixArt-Σ技術，參數規模爲6億左右，其采用與Sora的Diffusion Transformer (DiT) 架構，可直接生成 4K 分辨率的 AI 圖像。

産品功能：華爲團隊在論文中表示，相比其前身PixArt-α，新的PixArt-Σ在訓練效率、數據質量、圖像標題配對、圖像生成質量等方面都有巨大提升，提供明顯更高保真度的圖像，並改進了與文本提示的一致性。同時，PixArt-Σ以顯著較小的模型規模實現了優于現有文本到圖像擴散模型，如 SDXL (26 億參數) 和 SD Cascade (51 億參數）的圖像質量和用戶提示遵從能力。華爲團隊在論文中強調，新的PixArt-Σ可生成 4K 圖像能力，從而將有效增強電影和遊戲等行業中高質量視覺內容的制作。

體驗地址：https://pixart-alpha.github.io/PixArt-sigma-project/

2、可以理解和生成音樂的大語言模型——Chat Musician

産品信息：Chat Musician是一個能理解和生成音樂的開源大語言模型，通過持續預訓練和微調LLaMA2，采用文本兼容的音樂表示方式——ABC符號，使模型能夠像處理語言文本一樣理解和生成音樂。

産品功能：首先是音樂生成功能，ChatMusician可以根據給定的文本提示、和弦序列、旋律線索、音樂主題等，自動生成結構完整、風格多樣的音樂作品，性能超越GPT-4的基線。

其次是音樂理解功能，ChatMusician可以理解和分析音樂理論的各個方面，如和聲分析、旋律結構、音樂形式等。在專爲大學級音樂理解基准測試MusicTheoryBench上，ChatMusician在零樣本設置中超過了LLaMA2和GPT-3.5，展示了其在音樂理論理解方面的優異性能。

此外，ChatMusicia還提供了大規模的音樂語言語料庫（MusicPile）、音樂理論基准測試（MusicTheoryBench）、模型代碼和在線演示，以供研究和教育使用。

項目演示：https://shanghaicannon.github.io/ChatMusician/

論文地址：https://arxiv.org/pdf/2402.16153.pdf

3、克隆自己的數字分身——D-IDAgent

産品介紹：D-IDAgent是生成數字人平台D-ID推出的一項可定制AI化身功能，用戶只需通過一張照片就能生成屬于自己的AI數字人。

産品功能：用戶可以通過上傳一張照片或一段語音就能生成屬于自己的AI數字人，並且生成的數字人可實現人性化交互。在接受用戶指令後，數字人可以通過面部表情和手勢以及多種語言進行回應，提供類似真人的面對面溝通體驗。此外，D-IDAgent可以通過鏈接或嵌入到網站上與他人共享AI代理。

據悉，D-ID Agent利用檢索增強生成 (RAG) 技術，能夠更加了解用戶的環境並能在兩秒內提供超過 90% 的准確率響應查詢，支持多種主要語言，可滿足不同用戶生成需求。

D-ID Agent的使用場景豐富，電商行業可利用數字人進行廣告代言、直播、産品推廣和營銷；教培行業可利用數字人生成數字教師進行線上授課；視頻創作者可以用數字人代替真人拍攝，從而降低視頻制作成本，提升視頻制作效率。

付費方面，D-ID Agent有14天免費試用期，超過試用期有三種按月付費標准，不同的付費標准對應不同的使用功能，比如在生成視頻時長，支持插件和視頻水印方面都有區別。

體驗地址：https://studio.d-id.com/

4、可以讀唇語的大模型框架——VSP-LLM

産品信息：VSP-LLM是一款基于AV-HuBERT模型開發的語言模型框架，該框架將視覺語音處理和大語言模型（LLMs）進行結合，旨在利用LLMs的上下文理解能力來提高視覺語音識別和翻譯的准確性和效率。

産品功能：VSP-LLM可以通過觀察視頻中人物的唇部動作，識別和理解說話內容，並將這些內容直接翻譯成目標語言文本。同時，利用先進的視覺語音識別技術，結合大語言模型的上下文理解能力，VSP-LLM通過自監督學習，可以智能識別和去除視頻中的冗余信息，避免內容重複，提升內容生成速度和准確性。

GitHub：

https://github.com/sally-sh/vsp-llm?tab=readme-ov-file&continueFlag=a18ff0efaae82b7b920d78ac725952b5

論文：https://arxiv.org/abs/2402.15151v1

5、醫學檢索增強生成（RAG）框架——MIRAGE

産品信息：MIRAGE是一個基于搜索增強生成（RAG）的框架，旨在提高醫學問答（QA）任務中的性能。

MIRAGE框架包含來自生物醫學領域五個常用QA數據集的7663 個問題，通過在工作中引入的 MedRag工具包對不同語料庫、檢索器和骨幹LLM 的 41 種組合進行了超過 1.8 萬億個提示標記的大規模實驗。

産品功能：首先是增強醫學問答准確性，通過檢索增強生成（RAG）技術，MEDRAG利用最新可靠的醫學文檔信息來輔助大型語言模型（LLM），提高醫學問答任務中的准確性和可靠性。

其次是系統性評估醫學RAG系統，MIRAGE基准爲醫學問答領域的檢索增強生成（RAG）系統提供了一個系統性評估平台。這種評估有助于識別哪些方法在處理醫學信息時最有效，特別是在准確性和可靠性方面。

再次，提供醫學專用工具包，MEDRAG工具包集成了多個領域特定的語言資料庫、搜索器和大型語言模型（LLM），支持研究人員在醫學問答任務上進行全面的實驗和評估。這些組件包括專門爲醫學領域設計的文檔庫、針對醫學信息優化的搜索算法以及適用于醫學問答的LLM。

最後，零樣本學習能力，MEDRAG特別關注RAG系統的零樣本學習能力，即在沒有給出具體例子的情況下，系統能夠解答新的、未見過的醫學問題。通過提高系統的零樣本學習能力，可以確保醫學問答系統即使在缺乏特定數據的情況下也能提供准確的答案，顯著提高系統在實際應用中的靈活性和有效性。---（钛媒體/作者 : 章橙*編輯 : 林志佳｜钛媒體AGI）

論文地址：https://arxiv.org/abs/2402.13178

GitHub地址：https://github.com/abi/screenshot-to-code

我要留言

免費AI“神器”系列第七彈：華爲首個AI圖像生成模型論文公布；克隆數字分身應用近期爆紅

大模型的盡頭是電力？

Capital O劉大衛：一代人有一代人的機遇｜青年創投家

大模型的盡頭是電力？

Capital O劉大衛：一代人有一代人的機遇｜青年創投家