01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

最強文生圖模型架構曝光!28頁論文詳解技術細節,與Sora“師出同門”

2024030614:29


智東西3月6日報導,昨天下午,明星創企Stability AI發布Stable Diffusion 3(SD3)論文,首度披露其最強文生圖大模型背後的技術細節,並放出更多新鮮的生成示例。


▲Stable Diffusion 3模型技術原理論文

與OpenAI近期爆火的文生視頻模型Sora一樣,SD3采用了擴散Transformer架構DiT,並在其基礎上進行改進。新架構名爲MMDiT,其主要突破點在于對文字、圖像兩種模態的數據使用了兩組獨立的權重,並通過注意力機制進行連接,這使得信息可以在文本和圖像之間流動,大大提升了模型的語義理解和文字渲染能力。

在SD3放出的示例圖中,包含文字渲染部分的圖像占了很大比例。下圖的提示詞分別爲:漂亮的像素藝術,畫面是一個魔法師和懸浮文字“Achievement unlocked: Diffusion models can spell now”(成就已解鎖:擴散模型可以拼寫了);青蛙坐在20世紀50年代的一家餐館裏,穿著皮夾克,頭戴禮帽,桌上有一個巨大的漢堡和一個寫著“froggy fridays”(青蛙星期五)的小牌子。


▲SD3生成圖像示例

目前,SD3還未開放訪問權限,但Stability AI承諾未來將公開實驗數據、代碼和模型權重。不得不說,Stability AI真的是將開源貫徹到底,可謂是真正意義上的“Open”AI。

體驗申請地址:

https://stability.ai/stablediffusion3

論文地址:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

一、文字渲染完勝Midjourney,語義理解平均勝率超六成

Stability AI從視覺效果、語義理解、文字渲染三個方面將SD3的性能與主流文生圖模型進行比較,包括閉源模型DALL-E 3、Midjourney V6以及自家的開源模型SDXL、SDXL Turbo、Stable Cascade等。其中根據目前披露的示例來看,SD3的文字渲染僅支持英文,暫不支持中文等其他語言。

根據人類反饋結果,SD3最大參數規模的8B模型在視覺效果上,幾乎勝過所有市面上的模型,語義理解能力平均勝率超60%,文字渲染能力則“遙遙領先”,在與Midjourney V6等6款模型的比較上勝率超80%,對DALL-E 3的勝率也接近70%。


▲SD3-8B模型與主流文生圖模型相比的勝率

當然,人類評估帶有一定的主觀色彩和偶然性。論文中,Stability AI還放出了測評基准的比較結果。

在用于評估文本到圖像對齊的測評基准GenEval上,深度參數爲38、經過DPO(直接偏好優化)的SD3模型取得多個任務上的最佳成績。


▲SD3在GenEval基准上與其他主流模型的對比

Stability AI在論文中放出了更多新鮮的文生圖示例,讓我們一起來感受一下“最強文生圖大模型”有多強吧。

1、文字渲染能力:精准拼寫英文單詞,自動適配畫面背景

提示詞1:一幅由流動的色彩和風格組成的美麗畫作,上面寫著“The SD3 research paper is here!”(SD3研究論文來了!),背景是斑斑點點的水滴和飛濺的顔料。



提示詞2:一只穿著西裝、戴著帽子的熊站在森林中的一條河裏,舉著“I can’t bear it”(我無法忍受)的牌子。



提示詞3:一只面帶微笑的卡通狗坐在桌旁,手端咖啡杯,房間裏火光沖天。這只狗向自己保證:“This is fine.”(不會有事的。)



提示詞4:一副美麗的油畫,畫面是午後的河中有一艘蒸汽船。在河的一側是一座大型的磚砌建築,頂部有一個標志,上面寫著“SD3”。



2、語義理解能力:完美呈現細節描述,想象力Max

提示詞5:半透明的豬,裏面是一頭更小的豬。



提示詞6:一只奶酪做的螃蟹在餐盤上。



提示詞7:一個穿著運動鞋的長腿可愛大眼擬人化芝士漢堡,在裝飾簡樸的客廳沙發上休息的電影劇照。



提示詞8:一只袋鼠拿著啤酒,戴著滑雪鏡,熱情地唱著愚蠢的歌。



3、視覺美學能力:駕馭不同畫風,色彩明亮鮮豔

提示詞9:這幅細致的筆墨畫描繪了一艘巨大複雜的外星太空船,位于荒郊野外的一個農場上空。



提示詞10:分形主題餐廳櫃台後的擬人分形人。



提示詞11:黑暗的高對比度效果圖,迷幻的生命之樹照亮了神秘洞穴中的塵埃。



提示詞12:傾斜移位航拍,傍晚木桌上由壽司組成的可愛城市。



二、基于Sora同款架構DiT,文本、圖像采用兩組獨立權重

那麽,如此強大的文字理解、渲染和視覺效果,SD3是怎麽做到的?

作者提出一種新架構MMDiT(Multimodal Diffusion Transformer),它建立在DiT的基礎上——沒錯,就是Sora采用的那個DiT模型。其中,“MM”指的是它處理多模態信息的能力。

下圖是MMDiT的整體架構示意圖。與之前版本的SD模型一樣,SD3使用預訓練模型來推導合適的文本、圖像提示。

不同之處在于,MMDiT對文本和圖像兩種模態使用了兩組獨立的權重,並在圖像和文本標記之間實現雙向信息流,從而提高了文本理解和拼寫能力。


▲MMDiT架構示意圖

具體來說,SD3使用預訓練的自編碼器,將RGB圖像映射到一個低維的潛在空間;在文本編碼上,采用三種不同的文本嵌入器來編碼文本表示,包括兩個CLIP模型和T5。

隨後,SD3通過添加位置編碼,將圖像的潛在像素表示的2*2補丁(Patch)扁平化爲補丁編碼序列,構造了一個由文本嵌入和圖像輸入組成的序列。

在將該補丁編碼和文本編碼嵌入到一個共同維度後,SD3將這兩個序列連接起來,按照DiT的方法應用調制注意力和MLP(多層感知機)序列。

如下圖(b)所示,SD3爲每種模態設置了獨立的Transformer,但在注意力操作時,將兩種模態的序列結合在一起。這樣一來,兩種表征都能在各自的空間內工作,同時也將另一種空間考慮在內。


▲MMDiT模型完整架構

SD3采用的是整流(Rectified Flow,RF)公式,它的前向過程更簡單,采樣速度更快。爲了證明改進的RF方法的優越性,作者在2個數據集上訓練了61種不同的公式,包括各種擴散目標、損失函數以及不同的時間步采樣。

數據方面,作者使用開源模型CogVLM生成了合成標記,最終的數據集中有50%原始標記和50%合成標記,這些更加具有描述性的合成標記極大地提升了模型的性能。


▲使用合成數據對模型訓練的提升

模型訓練方面,Stability AI稱早期未優化的推理測試是在消費級硬件上進行的,其最大的80億參數SD3模型適用于24GB顯存的英偉達RTX 4090,使用50個采樣步長生成分辨率爲1024*1024的圖像耗時34秒。此外,SD3將發布多種規模的變體,從8億到80億參數不等,以進一步消除硬件障礙。

三、生成式AI成果連發,圖像視頻音頻3D語言全面布局

就在同一天,Stability AI還與3D重建平台Tripo AI合作推出了TripoSR,可在一秒內從單張圖像生成高質量的3D模型。


▲TripoSR輸入輸出示例

據介紹,TripoSR支持較低的推理預算,即使沒有GPU也能運行。該模型基于Adobe的三維重建模型LRM構建,主要針對娛樂、遊戲、工業設計等行業需求。

在英偉達A100上進行測試時,TripoSR能在0.5秒生成草稿質量的三維紋理網格,優于OpenLRM等其他開源圖生3D模型。


▲TripoSR與OpenLRM等三維重建模型的比較

開源地址:

https://github.com/VAST-AI-Research/TripoSR

密集的産品或模型發布並不是心血來潮,而是這家生成式AI獨角獸的常態。僅僅2024年以來,它便在短短兩個多月內連發5款新模型。除了昨天的SD3和TripoSR,還有文生圖模型Stable Cascade、語音模型Stable LM 2 1.6B、代碼模型Stable Code 3B。

成立5年來,Stability AI在圖像、視頻、音頻、3D和語言五個領域全方位布局生成式AI,形成了強大的“Stable家族”。最重要的是,它一直秉持著自己開源開放的原則,幾乎所有模型都支持下載並發布了技術論文。據其官網數據,Stability AI在托管平台Discord已擁有27萬用戶,基于其API(應用程序接口)生成的圖像超過4億張。

但同時,開源也是一把雙刃劍,尤其是對于一家技術是主要競爭力的大模型公司而言——更不用說模型訓練有多“燒錢”了。

2023年11月,Stability AI被曝由于財務狀況壓力巨大正在尋求出售。幾乎同時,Stability AI宣布將推出會員模式,其CEO在社交平台X上提到“最近幾周的情況表明,商業模式的一致性在AI中非常重要”。12月,Stability AI正式推出三種等級的會員制度,其中專業級月費20美元,可商用全套核心模型。

結語:文生圖開源社區再添一員巨將

Stability AI最近頗有種“AI界汪峰”的感覺。

先是2月22日,推出超強新版本文生圖模型Stable Diffusion 3,卻被谷歌的開源大模型Gemma搶了風頭。又在昨天,開源圖生3D新模型TripoSR,結果撞上OpenAI最強競爭對手Anthropic發布Claude 3,見證了GPT-4時代的“終結”。或許是咽不下這口氣,Stability AI在同一天又發布了這篇SD3論文,不僅披露了背後的MMDiT詳細架構,還承諾SD3將全面開源。

在生成式AI的浪潮中,Stability AI堅持爲開源社區添磚加瓦,爲研究人員和開發者提供了寶貴的資源。在技術論文中,我們不僅看到了該模型的強大能力,也看到了Stability AI對其開源精神的信守承諾。

雖然Stability AI公司內部管理、CEO的處事風格等一直存在爭議,還被福布斯預告今年將會倒閉,但隨著其一次次推動技術的邊界,也向我們證明了在科技領域,技術才是最重要的“護城河”。

在SD3的預告中,Stability AI還暗示其可能會具備視頻生成能力。未來我們期待看到SD3等開源模型迸發出更多潛力,造福更多用戶和開發者。

---[智東西公衆號:zhidxcom*作者 : 香草*編輯 : 李水青/來源: 智東西 ]