最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”
智東西3月6日報導,昨天下午,明星創企Stability AI發布Stable Diffusion 3(SD3)論文,首度披露其最強文生圖大模型背後的技術細節,並放出更多新鮮的生成示例。
▲Stable Diffusion 3模型技術原理論文
與OpenAI近期爆火的文生視頻模型Sora一樣,SD3采用了擴散Transformer架構DiT,並在其基礎上進行改進。新架構名爲MMDiT,其主要突破點在于對文字、圖像兩種模態的數據使用了兩組獨立的權重,並通過注意力機制進行連接,這使得信息可以在文本和圖像之間流動,大大提升了模型的語義理解和文字渲染能力。
在SD3放出的示例圖中,包含文字渲染部分的圖像占了很大比例。下圖的提示詞分別爲:漂亮的像素藝術,畫面是一個魔法師和懸浮文字“Achievement unlocked: Diffusion models can spell now”(成就已解鎖:擴散模型可以拼寫了);青蛙坐在20世紀50年代的一家餐館裏,穿著皮夾克,頭戴禮帽,桌上有一個巨大的漢堡和一個寫著“froggy fridays”(青蛙星期五)的小牌子。
▲SD3生成圖像示例
目前,SD3還未開放訪問權限,但Stability AI承諾未來將公開實驗數據、代碼和模型權重。不得不說,Stability AI真的是將開源貫徹到底,可謂是真正意義上的“Open”AI。
體驗申請地址:
https://stability.ai/stablediffusion3
論文地址:
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
一、文字渲染完勝Midjourney,語義理解平均勝率超六成
Stability AI從視覺效果、語義理解、文字渲染三個方面將SD3的性能與主流文生圖模型進行比較,包括閉源模型DALL-E 3、Midjourney V6以及自家的開源模型SDXL、SDXL Turbo、Stable Cascade等。其中根據目前披露的示例來看,SD3的文字渲染僅支持英文,暫不支持中文等其他語言。
根據人類反饋結果,SD3最大參數規模的8B模型在視覺效果上,幾乎勝過所有市面上的模型,語義理解能力平均勝率超60%,文字渲染能力則“遙遙領先”,在與Midjourney V6等6款模型的比較上勝率超80%,對DALL-E 3的勝率也接近70%。
▲SD3-8B模型與主流文生圖模型相比的勝率
當然,人類評估帶有一定的主觀色彩和偶然性。論文中,Stability AI還放出了測評基准的比較結果。
在用于評估文本到圖像對齊的測評基准GenEval上,深度參數爲38、經過DPO(直接偏好優化)的SD3模型取得多個任務上的最佳成績。
▲SD3在GenEval基准上與其他主流模型的對比
Stability AI在論文中放出了更多新鮮的文生圖示例,讓我們一起來感受一下“最強文生圖大模型”有多強吧。
1、文字渲染能力:精准拼寫英文單詞,自動適配畫面背景
提示詞1:一幅由流動的色彩和風格組成的美麗畫作,上面寫著“The SD3 research paper is here!”(SD3研究論文來了!),背景是斑斑點點的水滴和飛濺的顔料。
提示詞2:一只穿著西裝、戴著帽子的熊站在森林中的一條河裏,舉著“I can’t bear it”(我無法忍受)的牌子。
提示詞3:一只面帶微笑的卡通狗坐在桌旁,手端咖啡杯,房間裏火光沖天。這只狗向自己保證:“This is fine.”(不會有事的。)
提示詞4:一副美麗的油畫,畫面是午後的河中有一艘蒸汽船。在河的一側是一座大型的磚砌建築,頂部有一個標志,上面寫著“SD3”。
2、語義理解能力:完美呈現細節描述,想象力Max
提示詞5:半透明的豬,裏面是一頭更小的豬。
提示詞6:一只奶酪做的螃蟹在餐盤上。
提示詞7:一個穿著運動鞋的長腿可愛大眼擬人化芝士漢堡,在裝飾簡樸的客廳沙發上休息的電影劇照。
提示詞8:一只袋鼠拿著啤酒,戴著滑雪鏡,熱情地唱著愚蠢的歌。
3、視覺美學能力:駕馭不同畫風,色彩明亮鮮豔
提示詞9:這幅細致的筆墨畫描繪了一艘巨大複雜的外星太空船,位于荒郊野外的一個農場上空。
提示詞10:分形主題餐廳櫃台後的擬人分形人。
提示詞11:黑暗的高對比度效果圖,迷幻的生命之樹照亮了神秘洞穴中的塵埃。
提示詞12:傾斜移位航拍,傍晚木桌上由壽司組成的可愛城市。
二、基于Sora同款架構DiT,文本、圖像采用兩組獨立權重
那麽,如此強大的文字理解、渲染和視覺效果,SD3是怎麽做到的?
作者提出一種新架構MMDiT(Multimodal Diffusion Transformer),它建立在DiT的基礎上——沒錯,就是Sora采用的那個DiT模型。其中,“MM”指的是它處理多模態信息的能力。
下圖是MMDiT的整體架構示意圖。與之前版本的SD模型一樣,SD3使用預訓練模型來推導合適的文本、圖像提示。
不同之處在于,MMDiT對文本和圖像兩種模態使用了兩組獨立的權重,並在圖像和文本標記之間實現雙向信息流,從而提高了文本理解和拼寫能力。
▲MMDiT架構示意圖
具體來說,SD3使用預訓練的自編碼器,將RGB圖像映射到一個低維的潛在空間;在文本編碼上,采用三種不同的文本嵌入器來編碼文本表示,包括兩個CLIP模型和T5。
隨後,SD3通過添加位置編碼,將圖像的潛在像素表示的2*2補丁(Patch)扁平化爲補丁編碼序列,構造了一個由文本嵌入和圖像輸入組成的序列。
在將該補丁編碼和文本編碼嵌入到一個共同維度後,SD3將這兩個序列連接起來,按照DiT的方法應用調制注意力和MLP(多層感知機)序列。
如下圖(b)所示,SD3爲每種模態設置了獨立的Transformer,但在注意力操作時,將兩種模態的序列結合在一起。這樣一來,兩種表征都能在各自的空間內工作,同時也將另一種空間考慮在內。
▲MMDiT模型完整架構
SD3采用的是整流(Rectified Flow,RF)公式,它的前向過程更簡單,采樣速度更快。爲了證明改進的RF方法的優越性,作者在2個數據集上訓練了61種不同的公式,包括各種擴散目標、損失函數以及不同的時間步采樣。
數據方面,作者使用開源模型CogVLM生成了合成標記,最終的數據集中有50%原始標記和50%合成標記,這些更加具有描述性的合成標記極大地提升了模型的性能。
▲使用合成數據對模型訓練的提升
模型訓練方面,Stability AI稱早期未優化的推理測試是在消費級硬件上進行的,其最大的80億參數SD3模型適用于24GB顯存的英偉達RTX 4090,使用50個采樣步長生成分辨率爲1024*1024的圖像耗時34秒。此外,SD3將發布多種規模的變體,從8億到80億參數不等,以進一步消除硬件障礙。
三、生成式AI成果連發,圖像視頻音頻3D語言全面布局
就在同一天,Stability AI還與3D重建平台Tripo AI合作推出了TripoSR,可在一秒內從單張圖像生成高質量的3D模型。
▲TripoSR輸入輸出示例
據介紹,TripoSR支持較低的推理預算,即使沒有GPU也能運行。該模型基于Adobe的三維重建模型LRM構建,主要針對娛樂、遊戲、工業設計等行業需求。
在英偉達A100上進行測試時,TripoSR能在0.5秒生成草稿質量的三維紋理網格,優于OpenLRM等其他開源圖生3D模型。
▲TripoSR與OpenLRM等三維重建模型的比較
開源地址:
https://github.com/VAST-AI-Research/TripoSR
密集的産品或模型發布並不是心血來潮,而是這家生成式AI獨角獸的常態。僅僅2024年以來,它便在短短兩個多月內連發5款新模型。除了昨天的SD3和TripoSR,還有文生圖模型Stable Cascade、語音模型Stable LM 2 1.6B、代碼模型Stable Code 3B。
成立5年來,Stability AI在圖像、視頻、音頻、3D和語言五個領域全方位布局生成式AI,形成了強大的“Stable家族”。最重要的是,它一直秉持著自己開源開放的原則,幾乎所有模型都支持下載並發布了技術論文。據其官網數據,Stability AI在托管平台Discord已擁有27萬用戶,基于其API(應用程序接口)生成的圖像超過4億張。
但同時,開源也是一把雙刃劍,尤其是對于一家技術是主要競爭力的大模型公司而言——更不用說模型訓練有多“燒錢”了。
2023年11月,Stability AI被曝由于財務狀況壓力巨大正在尋求出售。幾乎同時,Stability AI宣布將推出會員模式,其CEO在社交平台X上提到“最近幾周的情況表明,商業模式的一致性在AI中非常重要”。12月,Stability AI正式推出三種等級的會員制度,其中專業級月費20美元,可商用全套核心模型。
結語:文生圖開源社區再添一員巨將
Stability AI最近頗有種“AI界汪峰”的感覺。
先是2月22日,推出超強新版本文生圖模型Stable Diffusion 3,卻被谷歌的開源大模型Gemma搶了風頭。又在昨天,開源圖生3D新模型TripoSR,結果撞上OpenAI最強競爭對手Anthropic發布Claude 3,見證了GPT-4時代的“終結”。或許是咽不下這口氣,Stability AI在同一天又發布了這篇SD3論文,不僅披露了背後的MMDiT詳細架構,還承諾SD3將全面開源。
在生成式AI的浪潮中,Stability AI堅持爲開源社區添磚加瓦,爲研究人員和開發者提供了寶貴的資源。在技術論文中,我們不僅看到了該模型的強大能力,也看到了Stability AI對其開源精神的信守承諾。
雖然Stability AI公司內部管理、CEO的處事風格等一直存在爭議,還被福布斯預告今年將會倒閉,但隨著其一次次推動技術的邊界,也向我們證明了在科技領域,技術才是最重要的“護城河”。
在SD3的預告中,Stability AI還暗示其可能會具備視頻生成能力。未來我們期待看到SD3等開源模型迸發出更多潛力,造福更多用戶和開發者。
---[智東西公衆號:zhidxcom*作者 : 香草*編輯 : 李水青/來源: 智東西 ]