01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

超越擴散模型!自回歸新範式僅需2.9秒就生成高質量圖像

2024062710:20

超越擴散模型!自回歸範式在圖像生成領域再次被驗證——

中科大、哈工大、度小滿等機構提出通用文生圖模型STAR。

僅需2.9秒就可生成高質量圖像,超越當前一眾包括SDXL在內擴散模型的性能。



此外在生成圖像真實度、圖文一致性和人類偏好上均表現優秀。



來看看具體是如何做到的?

自回歸通用文生圖模型STAR

擴散模由於其高質量和多元的生成,一度在文生圖領域占有主導地位。

它通過逐步的去噪過程,為圖像生成提供了更強的穩定性和可控性,然而也導致生成過程極其耗時。

而自回歸模型的潛力,在受到大語言模型啟發下,開始在這一領域逐漸被探索。

比如VAR指出是因為自回歸模型逐個預測token的行為不符合圖像模態的特點,提出「next-scale prediction」範式,將視覺自回歸建模為逐個預測更大尺度scale的token map。這一方式避免了原始基於next-token的自回歸方案難以建模圖像模態的問題,重新為視覺生成定義了新的自回歸範式,從而使得生成的圖像具有更高的真實度,不過仍然有很多局限,性能仍落後於擴散模型。

作者提出基於尺度的文生圖自回歸模型STAR,重新思考VAR中的「next-scale prediction」範式。

具體來說,所提出的STAR包括兩部分:

    增強的文本引導和改進的位置編碼,以高效地實現高質量圖像生成。

增強的文本引導

為了更好地處理各種復雜的文本描述並生成相應的圖像,研究者提出幾項關鍵解決方案:

1、文本特征作為起始token map,根據起始token map生成更高分辨率的token map這不僅增強了模型對新文本場景的適應性,確保模型可以泛化到新的文本提示,從整體上保證了文本描述與生成圖像之間的一致性

2、在每個transformer層引入交叉註意力機製,從更精細的粒度控製圖像生成,使得生成的圖像更加精確地貼合文本。

具體網絡格式如下:



歸一化旋轉位置編碼(Normalized RoPE)

對於next-scale prediction範式,如何利用同一個transformer生成不同尺度的token map是一個重要的問題,隨之而來的是如何編碼這些token map中的tokens的位置。

傳統的正余弦編碼難以處理不同尺度的token map,同時編碼多個尺度容易導致尺度之間的混淆。

可學習的絕對位置編碼需要為每個尺度的token map學習對應的位置編碼,導致額外的學習參數,提升了訓練難度,尤其是大尺度情況下的訓練變得更加困難;除此之外固定個數的位置編碼限製了更大分辨率圖像生成的可能。

研究者提出二維的歸一化旋轉位置編碼(Normalized RoPE)



除此之外,這一新的位置編碼不需要額外的參數,更易於訓練,為更高分辨率圖像生成提供了潛在的可能。

訓練策略

研究者選擇先在256*256圖像上以較大的batch size訓練生成,隨後在512*512圖像上微調,以獲得512的生成結果。由於歸一化位置編碼,模型很快收斂,僅需少量微調即可生成高質量512分辨率圖像。

相比目前的方法,所提出的STAR在FID,CLIP score和ImageReward上表現優異,體現了STAR良好的生成真實度,圖文一致性和人類偏好。除此之外,STAR生成一張512分辨率的高質量圖像僅需約2.9秒,相比現有的擴散文生圖模型具有顯著優勢。

具體地,在MJHQ-30k上的FID達到4.73,超越了PixArt-α等模型;CLIP score達到0.291,與SDXL相當:



在ImageReward benchmark上,STAR達到了0.87的image reward,與領先的PixArt-α相當:



在人物攝影、藝術繪畫、靜物、風景等場景下均能獲得很好的效果,生成的人臉、毛發、材質達到了令人驚嘆的細節:



總的來說,STAR基於scale-wise自回歸的方式,解決了VAR中存在的引導條件有限、位置編碼不合理的問題,實現了更高效、性能更好的文本引導圖像生成。

廣泛的實驗證明,所提出的方法在生成圖像真實度、圖文一致性和人類偏好上均表現優秀。僅需約2.9秒的時間內,在512分辨率圖像生成上,實現超越先進的文生圖擴散模型(PixArt-α、Playground、SDXL等)的性能。

基於自回歸的STAR為目前diffusion支配的文本控製圖像生成領域提供了新的可能。---[STAR團隊 投稿自: 凹非寺*量子位: 公眾號 QbitAI/來源: 量子位]

項目網站:https://krennic999.github.io/STAR/

論文鏈接:https://arxiv.org/pdf/2406.10797