ChatGPT,背後的核心是什麼?*聯合發布
2022年12月份的時候,ChatGPT還只是個被人各種撩的聊天工具。但進入2023年後,已經向着效率工具邁進了。
微軟宣布正和ChatGPT開發團隊OpenAI進行洽談,投資百億美元,並計劃把這個工具整合到雲服務、搜索引擎、甚至office中。海外高校、學術機構,也興起了關於用ChatGPT寫論文是否合規的大討論;諮詢公司也開始擔憂是否會被搶飯碗。
毫無疑問,ChatGPT的應用熱情,已經被點燃;應用場景也不斷拓展。但ChatGPT並不是一蹴而就,以更廣闊的的視野來看,這背後是AIGC「智慧湧現」的大浪潮。那麼,AIGC的發展節點有哪些?企業競爭靠什麼?
AIGC是如何一步步突破的?
AI懂創作、會畫畫,可以說是人工智能的一個「跨越式」提升。雖然人工智能在生活中不斷普及,比如我們習慣了機器代替人去搬運重物、製造精密的產品、完成複雜的計算等等。但是,如果人工智能更接近人,那就必須具備人類「創作」的能力。這就是AIGC的意義。
AI能力的提升,並不是一蹴而就,而大部分則經歷了「模型突破-大幅提升-規模化生產-遇到障礙-再模型突破-大幅提升」的循環發展。而要實現落地、走進人類生活,則必須具備「規模化生產」的能力,在資源消耗、學習門檻等方面大幅降低到平民化。
比如以AI畫畫為例,則經歷了三個關鍵節點:
第一個節點,早期突破:2014年,對抗生成網絡(GAN)誕生,真正「教會」AI自己畫畫。
GAN包含兩個模型,一個是生成網絡G、一個是判別網絡D。G負責把接收到的隨機噪聲生成圖片,D則要判斷這張圖是G畫的、還是現實世界就存在的。G、D互相博弈,能力也不斷提升,而當D不再能判斷出G生成的圖片時,訓練就達到了平衡。
GAN的開創性在於,精巧地設計了一種「自監督學習」方式,跳出了以往監督學習需要大量標籤數據的應用困境,可以廣泛應用於圖像生成、風格遷移、AI藝術和黑白老照片上色修復。
但其缺陷也正來源於這一開創性:由於需要同步訓練兩個模型,GAN的穩定性較差,容易出現模式崩潰。以及另一個有趣的現象「海奧維提卡現象」(the helvetica scenario):如果G模型發現了一個能夠騙過D模型的bug,它就會開始偷懶,一直用這張圖片來欺騙D,導致整個平衡的無效。
模型也會躺平,這雞賊的特性,真是有人的風格。
第二個節點,大幅提升:2020年,一篇關於擴散模型(Diffusion Model)的學術論文,大幅提升AI的畫畫水平。
擴散模型的原理是「先增噪後降噪」。首先給現有的圖像逐步施加高斯噪聲,直到圖像被完全破壞,然後再根據給定的高斯噪聲,逆向逐步還原出原圖。當模型訓練完成後,輸入一個隨機的高斯噪聲,便能「無中生有」出一張圖像了。
這樣的設計大大降低了模型訓練難度,突破了GAN模型的局限,在逼真的基礎上兼具多樣性,也就能夠更快、更穩定的生成圖片。
擴散模型在AI業界的「起飛」源於2021年1月,Open AI基於此開發出DALL·E文字生成圖片模型,能夠生成接近真實生活但並不真實存在的圖片,讓AI業界震了三震。但由於在像素空間進行了大量計算,這一模型仍存在進程緩慢、內存消耗大的缺陷。
第三個節點,批量生產:2022年夏天誕生的Stable Diffusion,讓高大上的學術理論變得「接地氣」。
去年8月,Stability AI將擴散過程放到更低維度的潛空間(Latent Diffusion),從而開發出了Stable Diffusion模型。這個模型帶來的提升,在於資源消耗大幅降低,消費級顯卡就可以驅動的,可以操作也更為方便,普通人也可以體會到人工智能驚艷的創作能力。而且開發團隊還把所有代碼、模型和權重參數庫都進行了開源,踐行了Geek的共享精神、去中心化主義。
門檻降低、效果提升,因此,大受歡迎。發布10天後,活躍數據達到了每天1700萬張,如果都用A4紙打印出來疊一起,相當於一座52層高的大樓。
共享,也是Stability AI的另一特色。在開源社區中,除了更小的內存和更快的速度,Stable Diffusion收穫了更完善的指南與教程、共享提示詞、新UI,也依靠集體的智慧,走進了Photoshop、Figma等經典軟件,匯入創作者們的既有工作流中。可謂是,依靠群眾、回饋群眾。
從技術實現突破、到技術提升、再到規模化降低門檻,AI創作能力也不斷提升。2022年10月,美國一名男子用AI繪畫工具Midjourney,生成了一幅名為《太空歌劇院》的作品,並獲得了第一名。這引起了一波不小的爭論,也終於形成了一條新賽道。於是,2022年以AI繪畫為代表的各種生成式AI工具,如雨後春筍般瘋狂冒尖,比如盜夢師、意間AI、6pen、novelAI等等。
而在文本AI領域也是如此。如今大火的ChatGPT則是基於GPT3.5模型,已經迭代了4次。而對話一次的平均成本為0.01-0.2美元,也就是六毛到一塊錢人民幣,成本依然需要不斷降低。但整體而言,無論畫畫、還是聊天,AI已經體現出智慧湧現。
如何成為浪潮寵兒?
Stability AI的創始人Emad認為,圖像才是殺手級應用。
圖像模型可以迅速創造,並引導人們迅速消費,同時又能以較低成本快速整合到不同領域,從而快速普及,掀起浪潮。而事實上,確實許多創業者湧入了這些領域。AIGC成為了幣圈之後的投資新焦點。在 GPT-3 發布的兩年內,風投資本對 AIGC 的投資增長了四倍,在 2022 年更是達到了 21 億美元。
公司增多,投資增多,但並不是每家企業都能活得很好。比如2022年底,僅創立4個月的AI繪畫公司StockAI就停止了運營。公司CEO表示,主要是因為商業化模式不成熟,目前的付費用戶群體無法覆蓋高昂的運營成本。雖然他也表明會在今年1月份推出全新的平台,但從透露的信息來看,新平台已不會有需要大量算力的AI圖片生成功能了。
那麼,什麼樣的企業,才是這波浪潮的「寵兒」?
首先,無疑是掌握核心前沿技術的行業引領者。全球TOP3的人工智能研究機構,都在各出奇招、爭奪AIGC主導地位。
OpenAI是文字生成領域的領航員。 不光吸引了「生成對抗網絡之父」Ian Goodfellow加盟,還早早獲得了微軟的10億美元投資。從GPT到GPT3.5,OpenAI不斷迭代,也不斷帶給行業驚喜。這一次的ChatGPT更加獲得了微軟的認可。而通過開放GPT-3受控API的模式,OpenAI也將賦能更多公司和創業者。
DeepMind是通用型AI的探路人。2016年,AlphaGo擊敗人類圍棋的最高代表韓國棋手李世石,Go背後正是谷歌旗下的DeepMind。但DeepMind的目標並不是下棋,而是通用型AI,比如能預測蛋白質結構的AlphaFold、能解決複雜數學計算的AlphaTensor等等。但這些AI始終面臨着一個瓶頸,即無法像人類一樣進行「無中生有」的創作。
這兩年,DeepMind終於向通用型AI又推近了一步。在對話機器人Sparrow、劇本創作機器人Dramatron等背後的語言大模型中找到靈感,構建了會聊天、會幹活、會玩遊戲的Gato。
Meta在加速AI的商業化落地。重組調整AI部門,將其分布式地下放到各實際業務中,而FAIR被併入元宇宙核心部門Reality Labs Research,成為新場景探索者的一員。
也許同行相輕,Meta首席人工智能科學家Yann LeCun對ChatGPT的評價並不高,他認為從底層技術上看,ChatGPT並不是什麼創新性、革命性的發明,除了谷歌和Meta,至少有六家初創公司擁有類似的技術。
當被問及Meta的AI願景時,LeCun為FAIR畫下了「生成藝術」的大餅。他提出,Facebook上有1200萬商鋪在投放廣告,其中多是沒有什麼資源定製廣告的夫妻店,Meta將通過能夠自動生成宣傳資料的AI幫助他們做更好的推廣。
其次,另一類寵兒,則是押對應用場景的企業們,在「繪畫」之外吸納了不少資本支持與人才投入。
在所有內容生成式AI中,輸出文字和音樂的已經先一步找到了財富密碼。最早出現的AI生成文字在遍歷了寫新聞稿、寫詩、寫小劇本等頗受關注的應用方式後,終於在營銷場景找到了能夠穩定變現的商業模式,成為寫作輔助的效率工具,幫助從業者寫郵件、文案、甚至策劃。專注於音樂的LifeScore,則讓人工智能學會了即時編曲,按照場景、長度的需要,組織藝術家同事人工創作、演奏的音樂素材,在人類的創作流程中找到了自己的位置。
能夠互動的聊天機器人,則在客服和遊戲這兩個相去甚遠的行業分別「打工」。區別於當下只會提供預設問題解答,有時還會答非所問的「智能客服」,真正的AI需要結合用戶的行為和上下文來理解人類的真正意圖。在遊戲領域,AI則被用來協助人類,高效地創造內容豐富、體驗良好的遊戲內容,從而延長用戶的遊戲時間。
顯然,寵兒是少的。而經歷了過去一年多「科技股大回落」後,投資者們也謹慎一些了,當下的AIGC雖然很好,但等大模型出來也許更香。
大模型,也許是企業比拼的護城河
模型是人工智能的靈魂,本質上它是一套計算公式和數學模型。「參數」可以看做是模型里的一個個公式,這意味着,參數量越大,模型越複雜,做出來的預測就越準確。
小模型就像「偏科的機器」,只學習針對特定應用場景的有限數據,「舉一反三」能力不足,一些智能產品被用戶調侃為「人工智障」的情況時有發生。
大模型就是參數量極大的模型,目前業界主流的AIGC模型都是千億級、萬億級參數量的水平。通過學習各行各業各類數據,除了能給出相較於小模型更準確的預測結果之外,它也展現出了驚人的泛化能力、遷移能力,產出內容質量更高、更智能,這也是當前AIGC工具讓人眼前一亮的原因。
而大模型的快速發展,對行業發展起到了明顯的推動作用。例如ChatGPT是基於GPT-3模型進行優化所產生的,引領AI繪畫發展的DALL·E 2也離不開GPT-3的貢獻。類似的還有Deepmind的Chinchilla、百度的文心大模型等等。
大模型,很大概率是行業淘汰與否的判斷要素。
首先,訓練數據量大,OpenAI為了讓GPT-3的表現更接近人類,用了45TB的數據量、近 1 萬億個單詞來訓練它,大概是1351萬本牛津詞典。
GPT-3 訓練數據集一覽
這就帶來了兩個問題:巨大的算力需求與資金消耗。訓練和運行模型都需要龐大的算力,有研究估測,訓練 1750 億參數語言大模型 GPT-3,需要有上萬個 CPU/GPU 24 小時不間輸入數據,所需能耗相當於開車往返地球和月球,且一次運算就要花費450萬美元。
國內也不例外。目前國內自研的大模型包括百度的文心大模型、阿里的M6大模型、騰訊的混元大模型,針對中文語境,國內廠商的表現要比國外大廠要好得多。而且國內的大模型發展速度也很驚人。
採用稀疏MoE結構的M6大模型,2021年3月僅1000億參數,3個月後就達到了萬億級,又過了五個月模型參數達到了十萬億級,成為全球最大的AI預訓練模型。混元模型也是萬億級別,成本大幅降低,最快用256張卡,1天內就能訓練完成。而採用稠密結構(可以粗糙理解是和稀疏相比,密度更大)的文心大模型,2021年,參數規模達到2600億。2022年,百度又先後發布了數十個大模型,其中有11個行業大模型。
這樣高的研發門檻,註定目前主流的大模型多由大企業、或是背靠大企業的研究機構掌握,中小企業只能望而卻步。因此,大模型,也就成為企業的「護城河」。
但進行大模型的研發只是「成功第一步」,還有三個維度的比拼,也非常重要。
一是數據資源。 有研究表明,到2026年就沒有更多高質量的數據可以訓練AI了。此外,基於現實生活中已有的數據來訓練模型只能解決一些已知問題,對於一些我們還沒有發現的、潛在的、未知的問題,現在的模型未必能解決。因此有一些研究人員提出了合成數據的概念,即通過計算機程序人工合成的數據,一方面補充高質量的訓練數據,另一方面填補一些極端或者邊緣的案例,增加模型的可靠性。
二是綠色發展。 雖然模型越大效果越好,但無限「大」下去並不經濟,對自然資源消耗、數據資源都帶來巨大壓力。而過高的資源消耗,也不利於平民化普及。
三是應用場景 。商業和純理論研究不同,不能拿着技術的錘子,瞎找釘子,而是要結合應用來發展技術。而國內廠商要想拿出Stable Diffusion、ChatGPT這樣的殺手級應用,還需要更多的思考和努力:
跳出「跑分」怪圈,找到應用場景,進行模型「瘦身」,甚至,將模型開源、形成生態,利用群眾的智慧、為群眾服務。
尾聲
隨着微軟對ChatGPT的關注,產業、投資圈都熱了起來,美股BuzzFeed因為要採用ChatGPT技術就實現了兩天漲三倍的壯舉;H股、A股也迎風而動,不少上市公司也表態具備技術積累。
躁動當然是好事兒,科技創新,就是要令人心潮澎湃。我國廣闊的產業,是應用開花的土壤。但與此同時,國內的AIGC也存在着隱憂,比如高算力的芯片,如何造出來?
另一方面,科技創新,也要牢記Gartner曲線揭示的規律:萌發期→泡沫期→泡沫破裂期→穩步發展期→穩定產出期。只有躁動,沒有篤定、沒有低谷時的忍耐,也絕不可能成功的。
適度的泡沫,成為驅動力;過度的泡沫,也許會劣幣驅逐良幣。 但至少目前,我們和海外相比,幾乎在同一起跑線,值得充滿熱情 的 期待。
本文由遠川科技評論和高新南七道聯合發布。高新南七道,數字經濟產業觀察者,記錄新興產業發展。-(來源:遠川科技評論)
參考資料:
[1] GAN網絡之入門教程(一)之GAN網絡介紹,CSDN
[2] 生成對抗網絡GAN開山之作論文精讀,CSDN
[3] 你真的看懂擴散模型(diffusion model)了嗎?,CSDN
[4] Stable Diffusion模型閱讀筆記,CSDN
[5] AI繪畫,VC投不動,獵雲精選
[6] GPT-3是什麼?OpenAI GPT-3大白話指南:對未來的影響 -Fahri Karakas,CSDN
[7] 包含近 20 萬本圖書,OpenAI 級別的訓練數據集上線,CSDN
[8] 讓你的AI綠起來,艾倫研究所提出深度學習效率評估標準Green AI,量子位
[9] ChatGPT's next big challenge: Helping Microsoft to challenge Google search,ZDNet
[10] ChatGPT is 'not particularly innovative,' and 'nothing revolutionary', says Meta's chief AI scientist,ZDNet