Stable Diffusion 3突然發布！與Sora同架構，一切都更逼真了

2024022311:19

Stable Diffusion 3，它終于來了！

足足醞釀一年之多，相比上一代一共進化了三大能力。

來，直接上效果！

首先，是開挂的文字渲染能力。

且看這黑板上的粉筆字：

Go Big or Go Home（不成功便成仁），這個倒是殺氣騰騰啊～

路牌、公交燈牌的霓虹效果：

還有刺繡上“勾”得快要看到針腳的“晚安”：

作品一擺出，網友就大呼：太精確了。

以至于有人表示：趕緊把中文也安排上啊。

其次，多主題提示能力直接拉滿。

什麽意思？你盡管一次性往提示詞中塞入n多“元素”，Stable Diffusion 3：漏一個算我輸。

呐，仔細瞅下圖，這裏面就有“宇航員”、“穿著芭蕾舞裙的小豬”、“粉色雨傘”、“戴著禮帽的知更鳥”，角落裏還有“Stable Diffusion”幾個大字（可不是什麽水印）。

有了這個能力，一幅作品你想多豐富就有多豐富。

最後，當屬圖像質量，再次進化了一個度。

光看前面這些圖，就被沖擊到有沒有？！

而各種超清特寫，那是再信手拈來不過的了。

心動嗎？目前官方已開放排隊名單，大夥可以前往官網申請。

咳咳，也不得不說，最近這AI圈可真是相當熱鬧啊。

有網友直呼，我的電腦已經Hold不住了……

Stable Diffusion 3來了！

全新的Stable Diffusion效果有多好，再給大夥奉送一些。

當然，所有出圖均來自官方，比如StabilityAI媒體負責人：

不得不說，文字效果實在最爲吸人眼球，各種形式都能呈現得相當清楚和“應景”。

而看到上面這幅圖，不得不想到“Midjourney尴尬亮相學術界：爲生物學論文亂配圖”一事——有了SD3之後，我們是不是可以制作非常專業的學術配圖了？

除了這些，SD3的“酒精水墨畫”也相當別出心裁：

動漫風格：

again，你可以在上面加清晰的文字了。

由于目前需要排隊申請，大夥還不好實際測試摸底。

不過有機智的網友已經用相同的提示詞喂給了Midjourney（v 6.0）。

比如開頭的那張“紅蘋果與黑板字”（prompt：cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk）

最終Midjourney給出的結果如下：

從這組對比來看，可以說是高下立判——SD3無論是文字拼寫還是質量、色彩協調性等方面都更勝一籌。

技術方面，目前，模型可選擇的參數範圍在800M到8B。

詳細的技術報告還未公布，官方目前只透露主要結合了擴散型transformer架構以及flow matching。

前者實際上同Sora一樣，附上的技術論文正是22年William Peebles同謝賽甯合寫的DiT。

DiT首次將Transformer與擴散模型結合到了一起，相關論文被ICCV 2023錄用爲Oral論文。

在該研究中，研究者訓練了潛在擴散模型，用對潛在 patch進行操作的 Transformer 替換常用的 U-Net 主幹網絡。他們通過以Gflops衡量的前向傳遞複雜度來分析擴散 Transformer (DiT) 的可擴展性。

而後者flow matching同樣也是來自22年，由Meta AI以及魏茨曼科學研究所的科學家完成。

他們提出了基于連續歸一化流（CNFs）的生成模型新範式，以及flow matching的概念，這是一種基于回歸固定條件概率路徑的矢量場的免模擬CNFs的方法。結果發現使用帶有擴散路徑的flow matching，可以訓練出來的模型更穩健和穩定。

不過最近看了這麽多視頻生成進展，也有網友表示：

你覺得呢？

One More Thing

除此之外，也就在前一天，他們的視頻産品Stable Video正式開放公測。

基于SVD1.1（Stable Video Diffusion 1.1），人人可用。

主要支持文生視頻和圖生視頻兩個功能。

---[白交豐色發自 : 凹非寺*量子位 : 公衆號 QbitAI/來源: 量子位]

參考鏈接：
[1]https://stability.ai/news/stable-diffusion-3
[2]https://arxiv.org/abs/2212.09748
[3]https://arxiv.org/abs/2210.02747
[4]https://twitter.com/pabloaumente/status/1760678508173660543

我要留言

Stable Diffusion 3突然發布！與Sora同架構，一切都更逼真了

Stable Diffusion 3來了！100%理解提示詞，不僅能生成文字，還湧現出物理能力了？

Kitex 支持 Dubbo 協議：助力多語言雲原生生態融合

Stable Diffusion 3來了！100%理解提示詞，不僅能生成文字，還湧現出物理能力了？

Kitex 支持 Dubbo 協議：助力多語言雲原生生態融合