"GPT-N"一定更強嗎?專家警告:當人類數據用完,AI大模型或將越來越笨
1966年,在由Michael Keaton主演的科幻喜劇電影《丈夫一籮筐》(Multiplicity)中,劇中主角 Doug Kinney 在 Leeds 博士的幫助下成功克隆了自己,隨後又製作了「克隆人的克隆人」,其結果是,後代克隆人的智力水平均呈現出了指數級下降,愚蠢程度不斷增加。
圖|《丈夫一籮筐》海報
放眼當下,以 ChatGPT 為代表的大型語言模型(LLMs),在一定程度上也成為了人類智力的克隆產物。而數據作為模型性能和泛化能力的重要基礎之一,會直接影響這些「克隆人」的智能水平。
如我們所知,用於訓練 LLMs 和其他支撐 ChatGPT、Stable Diffusion 和 Midjourney 等產品的 Transformer 模型的數據,最初都來自於人類的資源,如書籍、文章、照片等。而這些都是在沒有人工智能(AI)幫助的情況下創造出來的。
未來,隨着 AI 生成的數據越來越多,大模型訓練又將如何展開?當 AI 只能用自己生成的數據來訓練自己時,又會怎樣?
近日,牛津大學、劍橋大學的研究人員及其合作者對這一問題進行了研究,並將研究成果論文發表在了預印本網站 arXiv 上。
論文鏈接:https://arxiv.org/abs/2305.17493v2
他們通過研究文本到文本和圖像到圖像 AI 生成模型的概率分布,得出了這樣一個結論:
「模型在訓練中使用(其他)模型生成的內容,會出現不可逆轉的缺陷。」
即「模型崩潰」(Model Collapse)。
*什麼是模型崩潰?
本質上,當 AI 大模型生成的數據最終污染了後續模型的訓練集時,就會發生「模型崩潰」。
論文中寫道,「模型崩潰指的是一個退化的學習過程,在這個過程中,隨着時間的推移,模型開始遺忘不可能發生的事件,因為模型被它自己對現實的投射所毒化。」
一個假設的場景更有助於理解這一問題。機器學習(ML)模型在包含 100 只貓的圖片的數據集上進行訓練——其中 10 只貓的毛色為藍色,90 只貓的毛色為黃色。該模型了解到黃貓更普遍,但也表示藍貓比實際情況偏黃一點,當被要求生成新數據時,會返回一些代表「綠毛色的貓」的結果。隨着時間的推移,藍色毛色的初始特徵會在連續的訓練周期中逐漸消失,從逐漸變成綠色,最後變成黃色。這種漸進的扭曲和少數數據特徵的最終丟失,就是「模型崩潰」。
論文中還強調,還有許多其他方面會導致更嚴重的影響,比如基於性別、種族或其他敏感屬性的歧視,特別是如果生成式 AI 隨着時間的推移學會在其反應中產生一個種族,而「忘記」他人的存在。
重要的是要注意,這種現象不同於「災難性遺忘」(catastrophic forgetting),模型只是丟失以前學到的信息,相比之下,「模型崩潰」涉及模型根據它們強化的信念誤解現實。
此外,研究人員表示,即使在訓練後代模型時使用的人類自身創作數據占比依然有 10%,「模型崩潰也還會發生,只是不會那麼快。」
*可以避免嗎?
幸運的是,有一些方法可以避免模型崩潰,即使是對於當前的 Transformers 和 LLMs 而言。
在論文中,為避免響應質量下降,並減少 AI 模型中不需要的錯誤或重複,研究人員給出了兩種具體方式。
第一種方法是,保留原始的完全或名義上由人類生成的數據集的副本,並避免與 AI 生成的數據相混淆。然後,模型可以根據這些數據定期重新訓練,或者從頭開始進行一次「完全刷新」。
第二種方法,將新的、清洗過的、人類生成的數據集重新引入到模型訓練中。
然而,正如研究人員指出的那樣,這需要內容製作者或 AI 公司採用某種大規模的標籤機制,或由內容生產商、AI 公司使用更好的方法來區分 AI 和人類生成的內容。「這會增加訓練成本,但至少在某種程度上會幫助你抵消模型崩潰。」
另外,研究人員也給出了提示:「為了阻止模型崩潰,我們需要確保原始數據中的少數群體在後續數據集中得到公平的代表。」
但在實踐中,這是十分困難的。例如,數據需要被仔細備份,並涵蓋所有可能的少數情況。在評估模型的性能時,應該使用模型預期要處理的數據,即使是那些最不可能的數據案例。(請注意,這並不意味着應該對不可能的數據進行過採樣,而是應該適當地表示它們。)
*未來,人類創造的內容將更有價值?
儘管這一警示似乎對當前的生成式 AI 技術以及尋求通過它獲利的公司來說都是令人擔憂的,但是從中長期來看,或許能讓人類內容創作者看到更多希望。
研究人員表示,在充滿 AI 工具及其生成內容的未來世界,人類創造的內容將比今天更有價值——如果只是作為人工智能原始訓練數據的來源。
這一發現,對 AI 領域有着重要的意義。研究人員強調,我們通過改進方法來保持生成模型的完整性,以及未經檢查的生成過程的風險,並可能指導未來的研究,防止或管理模型崩潰。
「很明顯,模型崩潰是 ML 的一個問題,必須採取一些措施來確保生成式 AI 繼續得到改進。」-學術頭條-