家人們,咱就是說,又被國產AI作畫給狠狠驚艷到了!
不僅是在AI作畫的審美水平和專業度上達到頂尖水平,更是把用戶們的「福利值」直接拉滿的那種:
免費,在線可用,易上手,畫小姐姐特別方便(bushi)!
![](https://pica.nidbox.net/83/1698245133_1cc32bab_83.gif)
話不多說,直接來欣賞一組照片:
![](https://pica.nidbox.net/83/1698245182_ed4d64ad_83.jpg)
![](https://pica.nidbox.net/84/1698245218_e0a7ecd5_84.jpg)
如果不說是AI生成的,相信很多小夥伴會以為是俊男靚女的真人寫真了吧。
畢竟這根根分明的髮絲、清晰可見的膚質,還有縱橫交錯的光影,着實是有點影樓攝影級的了。
就算是打破次元壁,在二次元的作畫處理上,每張圖也都是達到了「拿來即用」的水平:
![](https://pica.nidbox.net/84/1698245381_72c15cb3_84.jpg)
這便是來自商湯科技最新升級的AI文生圖領域的預訓練模型——秒畫Artist v0.3.5 版本,而且還是時隔僅3個月迭代出來的新版本。
我們知道,預訓練對於提高模型的泛化性幫助很大,這樣往往只需要少量訓練和模型優化,它就能在新的下游任務中取得出色的表現,也就是大家通常所熟悉的LoRA模型。
現在市面上,很多知名LoRA模型,例如-blindbox/大概是盲盒,都是基於Stable Diffusion,添加相關數據,來進行訓練,從而在某一個垂類領域可以達到非常出色的作畫效果。
但是,Stable Diffusion作為泛化性支撐的預訓練模型,其本身的作畫效果並不會太突出。
那麼秒畫Artist v0.3.5作為商湯最新的預訓練模型,在不額外訓練LoRA模型的情況下,能達到什麼樣的水平呢?接下來,就讓我們從各個不同領域,深入來了解一下它的真實水平。
攝影級AI作畫體驗實錄
要想看一個AI作畫的水平,首先就得主打一個方方面面,各種類型風格需得全能hold住才可。
那麼接下來,就開啟我們的多輪測試吧~
猜猜誰是真人
我們先來看下這兩張照片,你是否能猜到哪張是真人呢?
![](https://pica.nidbox.net/84/1698245429_b238bc5a_84.jpg)
無論是人物的表情、頭髮和衣物的細節,這兩張都妥妥是真人模特出鏡的水準。
現在我們就來公布答案——右圖正是由秒畫生成的AI畫作。
而且提示詞也是極其的簡單:
中國女生,攝影風格,敦煌飛天風格,首飾細節精細,恢宏大氣
為了檢驗秒畫是不是一直能夠輸出如此高質量圖片,我們繼續輸入提示詞:
中國男孩,肖像照,黃色的花朵,白光,陽光進來,光影。
![](https://pica.nidbox.net/84/1698245838_7dc6679b_84.jpg)
應當是完全符合光看提示詞時,所腦補出來的畫面了。
我們再加大難度,添加一些天馬行空,但同樣頗具藝術氣息風格的提示詞:
一位搖滾明星的肖像,全身裹着珠寶,詳細的面部,雜誌,奇幻森林背景,大衛·拉夏貝爾的作品,微光,月光,高度細緻照片級真實感,細節,傑作,大師攝影作品。
![](https://pica.nidbox.net/84/1698245885_e4e89379_84.jpg)
毫無壓力完成畫作!所以不難看出,秒畫在專業攝影水平上是過關的。
*利好二次元愛好者
自打AI作畫火爆起來之後,二次元風格也成了檢驗能力的標準之一。
我們再來看下秒畫在二次元上的「功力」如何。
先「投餵」幾段國漫風的二次元提示詞:
二次元,清朝古裝男孩,漂浮和水下誇張的身體動態,糾纏着紅色和金色的錦鯉,超現實的油畫,廷德爾效應,水滴,夏天,夢幻的色彩。光折射到水中產生虹彩反射、寶石光、超細節、廷德爾效應、最佳質量。
![](https://pica.nidbox.net/84/1698245981_d37b8dea_84.jpg)
頗有《大魚海棠》的味道了!而且畫質上也比普通二次元風格要精進不少。
再來:二次元,中國古代少年將軍,女性,目光銳利,輕甲,勁裝,暗紅色布料,銀色花紋,護肩,護腕,玉佩。
![](https://pica.nidbox.net/83/1698246139_ee395a0b_83.jpg)
同樣是妥妥可以出片兒的國漫風水準。
我們繼續上難度,若是把「賽博朋克」和「中國武俠」來個混搭,秒畫又該如何接招?
動漫,中國少女仿生人,3D風格臉型,紫色,戰鬥中,黑煙流中間,紫色煙霧繚繞,符文環繞,武俠動作皮膚,精緻五官,漢服機甲,投影全息顯示。中國武術動作、全息光環、熒光、豐富背景、賽博朋克、特效、3D美術、OC渲染、超寫實、寫實細節、微小細節、細緻描繪、未來主義、3D渲染、虛幻引擎、超高清、8K。
![](https://pica.nidbox.net/83/1698246201_bcab25cc_83.jpg)
可以說是非常符合國漫的二次元風格,並且每幅作品都可以直接拿來當封面了有木有!
接下來,我們再大變風格,再來個lol同好們,最喜歡的金克絲同人畫創作:
![](https://pica.nidbox.net/84/1698246253_dc1aa0d9_84.jpg)
△Prompt:金克絲,二次元,插畫藝術
如何?是你心目中的金克絲嗎?
再來一個童年回憶,美少女戰士!
二次元,克勞德·莫奈的風格,印象派,月野兔來自漫畫美少女戰士,繪畫,筆觸。
![](https://pica.nidbox.net/83/1698246318_634b40a4_83.jpg)
宛如動畫片的某一幀鏡頭,人物的眼神和表情也是非常符合提示詞的要求。
*天馬行空的創造力
中規中矩的作畫之後,我們再來測試一下秒畫的想象力。
實驗電影技術,前衛電影肖像,被底片遮蔽,多層頁面,低角度,膠片圖像,融化,劃痕,刺穿,撕裂,抽象。
![](https://pica.nidbox.net/84/1698246374_ed382cd0_84.jpg)
不得不說,當看到這幅作品的時候,有被深深的震撼到;不論是作品的靈感亦或是妝造,都着實有點太前衛了。
再來看幾組腦洞大開的未來科幻大作:
![](https://pica.nidbox.net/83/1698246496_38d2eccd_83.jpg)
同樣,依舊是被科幻與大膽的想象力所震撼。
經過多輪測試,我們可以發現,秒畫Artist v0.3.5模型,作為一個基礎的預訓練模型,不僅保持了很好的泛化性,在畫面的細節效果上也有很優秀的表現,在某些垂類的作畫領域,甚至可以達到與LoRA模型相媲美的效果。
與Midjourney同台競技
在縱向看完秒畫的最新能力之後。相信很多人希望我們請出來更具挑戰性對手——Midjourney。
我們做比較的方式非常簡單粗暴:同樣的提示詞,直接比效果。
我們第一個提示詞是:一位美麗的異域女子,蓬鬆飛揚的長髮,印第安風格頭飾,金屬風格,逆光,皮膚紋理,廢土風,細節感,攝影作品。
A beautiful exotic woman with long, fluffy hair, Indian style headdress, metallic style, backlight, skin texture, wasteland, sense of detail, photography.
秒畫給出的作品結果如下:
![](https://pica.nidbox.net/84/1698246569_a3ead05d_84.jpg)
Midjourney給出的效果是這樣的:
![](https://pica.nidbox.net/84/1698246618_25e1ac27_84.jpg)
不得不說,在最終效果上是難分伯仲的,都非常符合提示詞要求的意境。
再來動漫與科幻結合的比拼:一個穿着白色服裝的男人被一個巨大的圓盤包圍,看起來,低角度視圖,夜核風格,深青色和深紅色,機甲動漫,未來派色波,噩夢,錯綜複雜。
A man in a white costume surrounded by a huge disc, looks, low angle view, nightcore style, dark cyan and crimson, Mecha anime, futuristic color wave, nightmare, intricate.
秒畫的輸出結果如下:
![](https://pica.nidbox.net/84/1698246692_4a7c2dc0_84.jpg)
而Midjourney從不同角度給出了它的「理解」:
![](https://pica.nidbox.net/84/1698246741_7cb5bdcb_84.jpg)
單單是在這個「題目」上,個人更傾向於秒畫的作品,構圖和意境相對更加完善一些。
最後前衛抽象派的水平: 抽象的臉,拼貼。
an abstract face, collage style.
![](https://pica.nidbox.net/84/1698246816_edaccbe4_84.jpg)
△左:秒畫;右:Midjourney
那麼對於二者的比較,你覺得誰更勝一籌呢?
不過在實用性上,秒畫單是在免費這一條上,應當算是更勝一籌了。
其實秒畫作為預訓練模型,在這樣的對標比拼中能夠展現這樣的作畫能力,已經十分令人驚喜。
我們還了解到,用戶可以基於秒畫Artist v0.3.5 模型進一步訓練小模型的功能,目前已經在B端開放應用了,這樣企業可以基於秒畫的能力,訓練打磨自己的專屬模型。
也讓我們期待這一功能面向C端開放,讓秒畫能夠進一步釋放全部實力。
如何「食用」?
在操作上,秒畫也是非常的好上手。
在官網註冊登陸之後,直接點擊「開始創作」,即可開啟AI作畫之旅。
![](https://pica.nidbox.net/84/1698246871_0bc78034_84.jpg)
根據自己的需要,選擇自行選擇商湯自研大模型(Artist)或各類社區開源模型,也可根據風格傾向自行LoRA模型。
在圖生圖界面,新版本的秒畫還將ControlNet這一寶藏工具進行了整合,用戶無需跳轉,直接在「圖生圖」功能下即可使用,進階創作更快捷。
![](https://pica.nidbox.net/83/1698246929_c7cca4c1_83.jpg)
是不是很簡單?
如果大家靈感枯竭,也可以點擊「靈感廣場」,進行「充能」哦。
例如,匯集了用戶諸多優質作品,包括完整的提示詞,可以在靈感枯竭的時候「充能」。
![](https://pica.nidbox.net/84/1698246974_9ec2dcc6_84.jpg)
並且在模型與數據集的選擇上也並非單一不可改,在主頁的上方菜單欄中即可進行選擇。
不難看出,秒畫在用戶體驗上也是主打的一個「方便易懂」。
怎麼做到的?
正如我們前文提到的,秒畫3.5的版本迭代,僅僅耗時3個月。
而追溯到更早的版本,秒畫也在不斷成長:
2023年1月:秒畫Artist v0.1.0模型,內測上線。
2023年4月:秒畫Artist v0.2.0模型,正式上線,是商湯首款基於14億參數文生圖模型打造的C端應用。
2023年7月:秒畫Artist v0.3.0模型,參數量提升至70億,並採用全新的生成模型架構。
2023年10月:帶有全新美學引導算法的,秒畫Artist v0.3.5模型,正式公測。
可以看到,近乎是每3個月便有一次版本的更新。
隨之而來的一個問題便是:怎麼做到的?
其實早在半年前,商湯站在AIGC新時代下,圍繞數據、算法和算力三要素給出了一個新公式:
計算量(GPU數量 x 運行時間 x 並行效率 )=模型參數量x處理數據量。
這個公式側重體現的是大數據和大算力方面的發力,但除此之外,我們發現商湯實則在算法方面也做了不少的工作。
據了解,秒畫的預訓練模型是由商湯科技基模型研究團隊支撐完成。
過去的幾年中,商湯在大模型結構設計、訓練優化、平台和數據、算力等領域都有長期的深耕與投入,有架構設計和優化方面的豐富經驗和積累。不但儲備了超過50億的有效圖文數據,更發表10+相關論文。
例如在上半年提出的RAPHAEL算法,便是通過探究生成模型的內在性質,設計更高效的稀疏架構來強化文本理解和生成能力。
![](https://pica.nidbox.net/84/1698247032_8731a849_84.jpg)
簡單來說,這項技術是通過堆疊數十個「多專家模型」( Mixture-of-Experts,MoEs),包括空間維度和時間步維度等等,從而實現從網絡輸入到輸出的數十億個擴散路徑。
而這些個路徑,每個都可以視為一個「畫家」, 用擴散時間步長將特定文本概念描繪到指定圖像區域上。
![](https://pica.nidbox.net/83/1698247089_7aebbdcc_83.jpg)
△基於RAPHAEL的生成效果圖
從綜合實驗上來看,RAPHAEL在圖像質量和美學吸引力方面已經優於當時眾多的尖端模型。
![](https://pica.nidbox.net/83/1698247135_1c0b6ea2_83.jpg)
在此之後,商湯還在基礎文生圖預訓練模型方向進一步探索更高效的基礎網絡架構、大規模訓練優化算法、美學算法引導架構設計、空間感知的動態文本尺度控制等算法,提升AI作畫的生成質量和能力。
在這般努力之下,也就有了我們目前看到的秒畫3.5版本了。
總而言之,有大數據、有大算力、有大模型,算法技術也在不斷優化,商湯能夠讓秒畫每三個月做到版本迭代就不難理解了。
最後,秒畫的地址放下面了,感興趣的小夥伴可以開啟高質量、免費的AI作畫之旅了~---[金磊 發自 凹非寺*量子位*公眾號:QbitAI/來源:量子位]
秒畫入口:https://miaohua.sensetime.com/