當AI懂創作、會畫畫,AIGC爆發的底層邏輯是什麼?
核心提示 : 無論是賣出天價的AI作畫,還是近期風靡全球的ChatGPT,都預示着AIGC(人工智能生成內容)賽道將迎來產業大爆發。此時,理解AIGC的演進歷程和底層架構,以及AIGC會帶來哪些改變,將成為觀察產業趨勢的關鍵。
未來的藝術展,會不會變成機器人之間的PK?
這個問題如果問在幾十年前,人們可能會說這是遙遠的科幻,而在人工智能(AI)一日千里的今天,回答它恐怕需要思考再三。
2018年,一幅由AI創作,名為《埃德蒙·貝拉米畫像》曾在紐約佳士得拍賣行以43.25萬美元的價格被拍下——這是估價的40多倍,成為第一幅被拍賣的人工智能作品。
去年9月,另一幅名為《太空歌劇院》的作品獲得了美國科羅拉多州博覽會藝術比賽的金獎。令人意外的是,這幅作品並非作者傑森·艾倫親自手繪,而是用AI作畫工具Midjourney完成。
賽後,兩位評委都稱此前並不知道Midjourney是AI工具,但二人隨後也都表示,即使他們知道,同樣也會授予作者最高獎項。這一度引發AI創作的作品該不該拿來參加比賽的大討論。
不過,如果和最近火遍全球的ChatGPT做對比,AI作畫似乎只是開胃菜。這個能作詩、編懸疑小說、甚至寫代碼的人工智能聊天機器人,上線兩個月便收穫1億用戶,以至於特斯拉CEO馬斯克直言:「ChatGPT非常好,我們離強大到危險的AI不遠了。」比爾·蓋茨甚至定性ChatGPT的出現「不亞於互聯網和個人電腦的誕生」。
AI作畫、ChatGPT有什麼共性?本質上,它們都屬於AIGC的範疇,即人工智能生成內容。
AIGC潛力不容小視,根據Precedence Research預測,AIGC將在2022年後迎來應用的爆發。預計市場空間將由2022年的108億美元上漲至2032年的1181億美元,10年的複合增速高達27%。
可見,AIGC將會在未來的商業世界中扮演越來越重要的角色,此時了解其演進歷程和底層邏輯將成為關鍵。
1、技術、需求雙輪驅動
AIGC看似一夜爆發,實則是多年技術沉澱的結果。
1957年,歷史上第一支由計算機創作的音樂作品《依利亞克組曲》誕生,這被看作AIGC故事的起點。
不過,在人工智能發展初期,受限於種種因素,相關算法大多基於預先定義的規則或者模板,遠算不上智能。而相關高昂的系統成本無法帶來可觀的商業變現,也讓各國政府紛紛減少在人工智能領域的投入,AIGC 沒有取得顯著進展。
AIGC真正引發市場關注,來自近年生成式對抗網絡(GAN)、Transformer、擴散模型(Diffusion Model)等深度學習生成算法相繼湧現。這些生成算法為AI高品質輸出內容打下基礎。
比如畫出獲獎作品《太空歌劇院》的Midjourney,就參考了CLIP和Diffusion,構建了自己的閉源模型。而ChatGPT的底層——AI大模型GPT3.5,底層技術則是來自2017年穀歌重磅發布的Transformer。
如果說技術推動只是AIGC發展的左腳,那麼創新需求的牽引,則是AIGC加速落地的右腳。
隨着用戶對內容數量和質量的需求爆增,但傳統的內容生產模式在產能和質量上,正逐步暴露短板。
內容的生產方式可分為三類:偏傳統的專業生成內容(PGC)、用戶生成內容(UGC)、更新穎的人工智能生成內容(AIGC)。
PGC內容往往製作標準高、工作周期長,但由於供給端人力資源有限,PGC難以滿足大規模內容生產的需求;UGC模式則相反,它滿足了個性化需求且提高了容量上限,但由於其對製作者、生成工具、內容話題沒有限制,質量無法保證。
AIGC雖然暫時無法替代這兩種內容生產模式,但能對兩種生產方式起到優化作用。藉助AIGC,創作者一方面能夠通過持續深度學習提升內容的專業性;另一方面AI也能輔助專業創作者,提升創作效率。
在文本領域,騰訊打造的「夢幻寫手」的新聞寫作系統能夠在規定的22種場景中進行寫作,具有0.46秒的平均發稿速度;在音頻領域,風險投資機構a16z曾透露,Siri聯合創始人Tom Gruber目前已經打造了能夠實時動態編曲的自適應音樂平台LifeScore。用戶只需向LifeScore輸入一系列的音樂「原材料「,AI就會改編並實時混音,帶來音樂表演。
隨着AIGC時代來臨,商業世界的變化遠不止於此。
2、如何打出新型「閃電戰」?
眾所周知,英國人發明了坦克,但德國人發明了基於坦克的閃電戰。
一項新技術、工具誕生後,誰能將其用到極致,誰越能占據主動。
本輪生產力革命的受益者,或許不只是AIGC技術的發明人,更是把AIGC技術用到極致,進行模式創新的先行者。正如當年的互聯網,以瀏覽器為起點,後續衍生出了社交網絡、電商、視頻、遊戲等一系列更具想象空間的新模式。
在電商行業,AIGC正試圖降低商家和用戶間的交易成本。
2021年4月,阿里巴巴上線了3D版天貓家裝城。對於商家,天貓幫助其快速構建3D購物空間;對於消費者,3D版天貓家裝城支持消費者自己動手做家裝搭配,消費者可以沉浸式體驗「雲逛街」。
數據顯示,3D購物的轉化率平均值為70%,較行業平均水平提升了9倍,同比正常引導成交客單價提升超200%,同時商品退換貨率明顯降低。
再比如在金融行業,AIGC正幫助企業不斷增強品牌粘性。
2022年年初,商湯科技為寧波銀行上海分行專屬打造了001號數字人員工「小寧」,這位數字人化身大堂經理為日常客戶提供各類業務諮詢和服務辦理。
去年12月16日,「小寧」主持了一場虛實結合、打破次元壁的線上直播活動。活動中,「小寧」可以幽默介紹自己的工作內容,並向網友推薦寧波銀行的多種金融產品和優惠福利。從粉絲互動到直播帶貨,商湯數字人「虛擬IP」可以自主直播運營,用更低的業務運營成本為企業前端帶來全天候的「用戶觸達」。
數字人商業潛力巨大。根據《虛擬數字人深度產業報告》的預測,到2030年,中國虛擬人整體市場規模將達到2700億元人民幣。從商業模式上看,虛擬數字人的客單價相對更高。
小冰CEO李笛在接受採訪時曾表示,之前他們嘗試銷售終端內容時,只能按劑量去銷售,形成的是類似菜市場一樣的內容市場,單價非常低。「後來,我們把生成的能力捆綁在數字人身上,平均客單價迅速從20萬提高到了300萬。」
目前,隨着以ChatGPT為代表的自然語言技術(NLP)再一次在單點取得突破,進一步降低AI的使用和觸達門檻,AIGC的商業化表現不俗。
2021年成立的Jasper,通過其文字生成功能,用戶可以生成社交媒體標題,編寫短視頻腳本、廣告營銷文本、電子郵件內容等工作。成立當年,Jasper就擁有7萬多名客戶,其中不乏Airbnb、IBM等知名企業。2021年一年便創造了4000萬美元的收入,2022年預估收入為7500萬美元。
這些數字充分展示了AIGC產業不俗的商業化落地速度和效果。隨着自然語言技術、計算機視覺技術和AIGC生成算法的不斷發展和優化,AIGC產業的商業化應用將會更加廣泛和深入。這些應用不僅可以幫助企業提高效率、降低成本、提升競爭力,也可以為用戶提供更加個性化、智能化的服務和體驗。
3、AIGC掀起「三大軍備競賽」
AIGC的爆發,正吸引知名投資機構圍觀。
去年9月,紅杉美國發表《生成式Al:一個創造性的新世界》,核心觀點認為AIGC將成為眾多產業新一輪範式轉移的開始。
在文章結尾,作者憧憬,如果技術繼續沿着當下的變化速度發展,那麼AI自己寫備忘錄、將文字輕鬆轉變為皮克斯電影的科幻未來,將不再遙遠。
紅杉的預測是不是空想?事實上,目前AIGC領域逐步掀起的三重「軍備競賽」,正加速讓理想照進現實。
第一重軍備賽,來自更大的模型,它讓AIGC更會表達。
大模型之所以重要,是因為AIGC生成的文本、圖像、音頻等多模態內容,結構和語義相對複雜,要想生成高質量內容,需要模型具備強大的學習和表達能力。此時,大模型具有更多參數、更深網絡結構、更豐富學習數據的特點,可以更好地擬合和表達生成任務的模式和特徵,在AIGC中發揮其獨特優勢,實現高質量的內容生成。
比如在自然語義處理(NLP)領域,龍頭公司OpenAI在2022年開發的ChatGPT的底層大模型GPT-3.5,就包含1750億的參數,且調用了8000億個單詞(相當於1351萬本牛津詞典)的訓練數據。這千億參數,海量學習數據,也讓ChatGPT應對不少問題能對答如流,正常得不像個機器。
在計算機視覺領域,國內人工智能龍頭企業商湯科技的視覺大模型同樣布局深厚。2021年商湯推出一套名為SenseCore AI大裝置的人工智能基礎設施,這套裝置同時布局模型層、平台層、算力層,能夠低成本、大規模生產人工智能模型。
基於這套大裝置,商湯開發的視覺大模型,參數已達到320億,是基於公開信息可查的計算機視覺中,具有最大參數量的模型。
之所以視覺大模型的參數量少於語言大模型,主要是由於相比語言文字,可用於訓練的視覺數據信息維度相對偏少,而且受到此前計算機硬件的限制,計算機視覺技術的發展和自然語言處理技術存在數十年差距。但隨着數據量和計算能力的增加,視覺大模型在未來幾年內將有顯著發展。
打造領先的大模型,除了取決於先進的算法,還取決於豐富的產業實踐經驗。因為只有基於大量應用實踐,企業才能構建泛化性能更好、通用性更強的大模型。
自2016年起,商湯科技開始全面布局AIGC包括文字、語音、圖像、視頻、代碼、三維人物動作等多模態的數據分析和內容生產。這些豐富的應用實踐,不但促進了商湯AIGC大模型的研發,也反過來促進多模態內容的生產,彼此形成正循環。
大模型之外,第二重軍備賽點,來自更高的算力。
大算力,一方面可以支持更複雜的模型和更大規模的數據訓練,提高AIGC生成內容的質量和多樣性;另一方面可以提高AIGC生成內容的生產效率和速度,支持實時生成和個性化定製。
不過,獲得大算力,需要支付高昂的成本,一般的小企業無法負擔。
《財經十一人》曾測算,如果某企業想以1萬枚英偉達A800 GPU為基準構建智能算力集群,每枚GPU價格10萬元,那麼僅GPU的採購成本就高達10億元。再考慮到服務器採購成本通常占據數據中心建設成本的30%,構建一個智能算力集群的建設成本將超過30億元。
高昂的成本,也使得全國算力網絡的建設,只有政府和產業資深行業玩家才能參與。2022年5月,西南地區最大的人工智能計算中心——成都智算中心正式上線。
這座智算中心由成都高新區、郫都區與華為公司共同建設運營,總投資高達109億元。其中,人工智能算力平台採用基於華為昇騰AI基礎軟硬件的AI集群,算力達到300 PFLOPS(每秒30億億次浮點運算),相當於15萬台高性能PC的計算能力。
在上海,作為商湯科技SenseCore AI大裝置的底座,全新啟用的商湯臨港人工智能智算中心(AIDC)目前上線了1.745 EFLOPS(每秒174.5億億次浮點運算)的算力規模,並獲得強勁的市場需求。
截至2022年8月,上海臨港AIDC對外服務算力已突破1 EFLOPS。為算法模型的分析、低成本訓練、大規模數據管理提供支撐。
不過,雖然AIGC可以輔助提高內容的創作效率,甚至改變內容的創作模式,但這項技術仍會讓設計、文案等非行業人士感覺高高在上。此時,只有更細化地打造出面向各個行業的垂直型AIGC工具,才能真正實現行業的革新。
這也使得產業玩家要想脫穎而出,需要打贏第三軍備競賽點——讓應用門檻更低,讓AIGC應用更普惠。
目前Open AI近期已宣布開放ChatGPT和語音轉文本模型Whisper模型API(應用接口),開發人員可以通過API將ChatGPT和Whisper模型集成到自己的應用程序和服務中,並由此訪問到最前沿的語言以及語音到文本功能。
通過一系列全面優化,自去年12月以來,OpenAI也已成功將ChatGPT的使用成本降低了90%;谷歌的AutoDraw應用程序,可以幫助用戶自動將簡筆畫轉換為專業的矢量圖形,省去了用戶自己做圖的麻煩;
商湯科技則在近日發布了擁有30億參數的多模態多任務通用大模型「書生(INTERN)2.5」,並在GitHub上的商湯通用視覺開源平台OpenGVLab中開源。「書生(INTERN)2.5」在多模態多任務處理能力方面有多項突破,將視覺、語音及多任務建模三個模型能力有效融合,其圖文跨模態開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持。
利用多模態多任務通用大模型輔助完成自動駕駛場景中各類複雜任務
「書生(INTERN)2.5」是商湯科技向通用人工智能(AGI)邁出的堅實一步,已建立起AGI模型的研發架構,憑藉在計算機視覺方面的積累,其視覺能力在全球處於領先位置,語言能力仍在增強,相信在這一競賽中後續會推出更大、更強的AGI模型。
AIGC規模化落地後,各行各業將產生怎樣的變化?在近期召開的「2023全球人工智能開發者先鋒大會」上,商湯科技CEO徐立提出了一個「新二八定律」。
他表示,過去傳統行業的二八定律,是機器20%的指令/代碼解決80%的事情,企業會把部分能力抽象出來,變成各種庫、編譯包,所以20%的工作是自動化的,剩下的80%由人來定製。
「但是當有了生成式AI,我們將迎來『新二八定律』,即80%的工作由機器完成,20%的工作才由人來做。基模型推動的行業領域的變化,再推動行業應用的迭代,這套流程可能成為未來標準化的生產流程。」
4、寫在最後
有關技術如何在社會中擴散?演化經濟學家卡蘿塔·佩蕾絲在其《技術革命與金融資本》一書中總結道,每一輪技術革命都會經歷兩期、四階段:導入期(爆發階段、狂熱階段)和展開期(協同階段、成熟階段)。
在導入期,新技術會被引入少數行業做示範,然後大量熱錢會在此時湧入。而一旦導入期示範效果好,新技術就會進入大規模應用時期,也叫展開期。
展開期建立在技術和制度框架彼此協調的基礎上,是一個相對穩定而繁榮的發展時期。許多國家會在展開期達到高就業水平。因此,人們往往將展開期看作「黃金時代」或「美好年代」。
回看當下,近幾年智能駕駛、智能監控、AIGC產業等AI細分賽道的持續爆發,其示範效應或將推動人工智能產業整體逐步從導入期進入展開期。
而隨着ChatGPT等應用的橫空出世,我們也會發現,AI產業的演進已誕生更明確的方向,即通過大模型結合大算力實現通用型AI,讓非資深的企業和個人也能享受到技術進步。此時,誰能提前深度布局大模型以及配套強算力,誰將構築更高的壁壘,更早收穫產業紅利。-(作者:李鑫*編輯:劉楊/來源:豹變)