最強文生圖模型架構曝光！28頁論文詳解技術細節，與Sora“師出同門”

2024030614:29

智東西3月6日報導，昨天下午，明星創企Stability AI發布Stable Diffusion 3（SD3）論文，首度披露其最強文生圖大模型背後的技術細節，並放出更多新鮮的生成示例。

▲Stable Diffusion 3模型技術原理論文

與OpenAI近期爆火的文生視頻模型Sora一樣，SD3采用了擴散Transformer架構DiT，並在其基礎上進行改進。新架構名爲MMDiT，其主要突破點在于對文字、圖像兩種模態的數據使用了兩組獨立的權重，並通過注意力機制進行連接，這使得信息可以在文本和圖像之間流動，大大提升了模型的語義理解和文字渲染能力。

在SD3放出的示例圖中，包含文字渲染部分的圖像占了很大比例。下圖的提示詞分別爲：漂亮的像素藝術，畫面是一個魔法師和懸浮文字“Achievement unlocked: Diffusion models can spell now”（成就已解鎖：擴散模型可以拼寫了）；青蛙坐在20世紀50年代的一家餐館裏，穿著皮夾克，頭戴禮帽，桌上有一個巨大的漢堡和一個寫著“froggy fridays”（青蛙星期五）的小牌子。

▲SD3生成圖像示例

目前，SD3還未開放訪問權限，但Stability AI承諾未來將公開實驗數據、代碼和模型權重。不得不說，Stability AI真的是將開源貫徹到底，可謂是真正意義上的“Open”AI。

體驗申請地址：

https://stability.ai/stablediffusion3

論文地址：

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

一、文字渲染完勝Midjourney，語義理解平均勝率超六成

Stability AI從視覺效果、語義理解、文字渲染三個方面將SD3的性能與主流文生圖模型進行比較，包括閉源模型DALL-E 3、Midjourney V6以及自家的開源模型SDXL、SDXL Turbo、Stable Cascade等。其中根據目前披露的示例來看，SD3的文字渲染僅支持英文，暫不支持中文等其他語言。

根據人類反饋結果，SD3最大參數規模的8B模型在視覺效果上，幾乎勝過所有市面上的模型，語義理解能力平均勝率超60%，文字渲染能力則“遙遙領先”，在與Midjourney V6等6款模型的比較上勝率超80%，對DALL-E 3的勝率也接近70%。

▲SD3-8B模型與主流文生圖模型相比的勝率

當然，人類評估帶有一定的主觀色彩和偶然性。論文中，Stability AI還放出了測評基准的比較結果。

在用于評估文本到圖像對齊的測評基准GenEval上，深度參數爲38、經過DPO（直接偏好優化）的SD3模型取得多個任務上的最佳成績。

▲SD3在GenEval基准上與其他主流模型的對比

Stability AI在論文中放出了更多新鮮的文生圖示例，讓我們一起來感受一下“最強文生圖大模型”有多強吧。

1、文字渲染能力：精准拼寫英文單詞，自動適配畫面背景

提示詞1：一幅由流動的色彩和風格組成的美麗畫作，上面寫著“The SD3 research paper is here!”（SD3研究論文來了！），背景是斑斑點點的水滴和飛濺的顔料。

提示詞2：一只穿著西裝、戴著帽子的熊站在森林中的一條河裏，舉著“I can’t bear it”（我無法忍受）的牌子。

提示詞3：一只面帶微笑的卡通狗坐在桌旁，手端咖啡杯，房間裏火光沖天。這只狗向自己保證：“This is fine.”（不會有事的。）

提示詞4：一副美麗的油畫，畫面是午後的河中有一艘蒸汽船。在河的一側是一座大型的磚砌建築，頂部有一個標志，上面寫著“SD3”。

2、語義理解能力：完美呈現細節描述，想象力Max

提示詞5：半透明的豬，裏面是一頭更小的豬。

提示詞6：一只奶酪做的螃蟹在餐盤上。

提示詞7：一個穿著運動鞋的長腿可愛大眼擬人化芝士漢堡，在裝飾簡樸的客廳沙發上休息的電影劇照。

提示詞8：一只袋鼠拿著啤酒，戴著滑雪鏡，熱情地唱著愚蠢的歌。

3、視覺美學能力：駕馭不同畫風，色彩明亮鮮豔

提示詞9：這幅細致的筆墨畫描繪了一艘巨大複雜的外星太空船，位于荒郊野外的一個農場上空。

提示詞10：分形主題餐廳櫃台後的擬人分形人。

提示詞11：黑暗的高對比度效果圖，迷幻的生命之樹照亮了神秘洞穴中的塵埃。

提示詞12：傾斜移位航拍，傍晚木桌上由壽司組成的可愛城市。

二、基于Sora同款架構DiT，文本、圖像采用兩組獨立權重

那麽，如此強大的文字理解、渲染和視覺效果，SD3是怎麽做到的？

作者提出一種新架構MMDiT（Multimodal Diffusion Transformer），它建立在DiT的基礎上——沒錯，就是Sora采用的那個DiT模型。其中，“MM”指的是它處理多模態信息的能力。

下圖是MMDiT的整體架構示意圖。與之前版本的SD模型一樣，SD3使用預訓練模型來推導合適的文本、圖像提示。

不同之處在于，MMDiT對文本和圖像兩種模態使用了兩組獨立的權重，並在圖像和文本標記之間實現雙向信息流，從而提高了文本理解和拼寫能力。

▲MMDiT架構示意圖

具體來說，SD3使用預訓練的自編碼器，將RGB圖像映射到一個低維的潛在空間；在文本編碼上，采用三種不同的文本嵌入器來編碼文本表示，包括兩個CLIP模型和T5。

隨後，SD3通過添加位置編碼，將圖像的潛在像素表示的2*2補丁（Patch）扁平化爲補丁編碼序列，構造了一個由文本嵌入和圖像輸入組成的序列。

在將該補丁編碼和文本編碼嵌入到一個共同維度後，SD3將這兩個序列連接起來，按照DiT的方法應用調制注意力和MLP（多層感知機）序列。

如下圖（b）所示，SD3爲每種模態設置了獨立的Transformer，但在注意力操作時，將兩種模態的序列結合在一起。這樣一來，兩種表征都能在各自的空間內工作，同時也將另一種空間考慮在內。

▲MMDiT模型完整架構

SD3采用的是整流（Rectified Flow，RF）公式，它的前向過程更簡單，采樣速度更快。爲了證明改進的RF方法的優越性，作者在2個數據集上訓練了61種不同的公式，包括各種擴散目標、損失函數以及不同的時間步采樣。

數據方面，作者使用開源模型CogVLM生成了合成標記，最終的數據集中有50%原始標記和50%合成標記，這些更加具有描述性的合成標記極大地提升了模型的性能。

▲使用合成數據對模型訓練的提升

模型訓練方面，Stability AI稱早期未優化的推理測試是在消費級硬件上進行的，其最大的80億參數SD3模型適用于24GB顯存的英偉達RTX 4090，使用50個采樣步長生成分辨率爲1024*1024的圖像耗時34秒。此外，SD3將發布多種規模的變體，從8億到80億參數不等，以進一步消除硬件障礙。

三、生成式AI成果連發，圖像視頻音頻3D語言全面布局

就在同一天，Stability AI還與3D重建平台Tripo AI合作推出了TripoSR，可在一秒內從單張圖像生成高質量的3D模型。

▲TripoSR輸入輸出示例

據介紹，TripoSR支持較低的推理預算，即使沒有GPU也能運行。該模型基于Adobe的三維重建模型LRM構建，主要針對娛樂、遊戲、工業設計等行業需求。

在英偉達A100上進行測試時，TripoSR能在0.5秒生成草稿質量的三維紋理網格，優于OpenLRM等其他開源圖生3D模型。

▲TripoSR與OpenLRM等三維重建模型的比較

開源地址：

https://github.com/VAST-AI-Research/TripoSR

密集的産品或模型發布並不是心血來潮，而是這家生成式AI獨角獸的常態。僅僅2024年以來，它便在短短兩個多月內連發5款新模型。除了昨天的SD3和TripoSR，還有文生圖模型Stable Cascade、語音模型Stable LM 2 1.6B、代碼模型Stable Code 3B。

成立5年來，Stability AI在圖像、視頻、音頻、3D和語言五個領域全方位布局生成式AI，形成了強大的“Stable家族”。最重要的是，它一直秉持著自己開源開放的原則，幾乎所有模型都支持下載並發布了技術論文。據其官網數據，Stability AI在托管平台Discord已擁有27萬用戶，基于其API（應用程序接口）生成的圖像超過4億張。

但同時，開源也是一把雙刃劍，尤其是對于一家技術是主要競爭力的大模型公司而言——更不用說模型訓練有多“燒錢”了。

2023年11月，Stability AI被曝由于財務狀況壓力巨大正在尋求出售。幾乎同時，Stability AI宣布將推出會員模式，其CEO在社交平台X上提到“最近幾周的情況表明，商業模式的一致性在AI中非常重要”。12月，Stability AI正式推出三種等級的會員制度，其中專業級月費20美元，可商用全套核心模型。

結語：文生圖開源社區再添一員巨將

Stability AI最近頗有種“AI界汪峰”的感覺。

先是2月22日，推出超強新版本文生圖模型Stable Diffusion 3，卻被谷歌的開源大模型Gemma搶了風頭。又在昨天，開源圖生3D新模型TripoSR，結果撞上OpenAI最強競爭對手Anthropic發布Claude 3，見證了GPT-4時代的“終結”。或許是咽不下這口氣，Stability AI在同一天又發布了這篇SD3論文，不僅披露了背後的MMDiT詳細架構，還承諾SD3將全面開源。

在生成式AI的浪潮中，Stability AI堅持爲開源社區添磚加瓦，爲研究人員和開發者提供了寶貴的資源。在技術論文中，我們不僅看到了該模型的強大能力，也看到了Stability AI對其開源精神的信守承諾。

雖然Stability AI公司內部管理、CEO的處事風格等一直存在爭議，還被福布斯預告今年將會倒閉，但隨著其一次次推動技術的邊界，也向我們證明了在科技領域，技術才是最重要的“護城河”。

在SD3的預告中，Stability AI還暗示其可能會具備視頻生成能力。未來我們期待看到SD3等開源模型迸發出更多潛力，造福更多用戶和開發者。

---[智東西公衆號：zhidxcom*作者 : 香草*編輯 : 李水青/來源: 智東西 ]

我要留言

最強文生圖模型架構曝光！28頁論文詳解技術細節，與Sora“師出同門”

歐盟《數字市場法》生效給全球科技巨頭敲警鐘

Claude 3 追上 GPT-4，它來自怎樣一家公司？丨TECH TUESDAY

歐盟《數字市場法》生效給全球科技巨頭敲警鐘

Claude 3 追上 GPT-4，它來自怎樣一家公司？丨TECH TUESDAY