普林斯頓DeepMind用數學證明：LLM不是隨機鹦鹉！「規模越大能力越強」有理論根據

2024021617:40

【新智元導讀】普林斯頓大學和DeepMind的科學家用嚴謹的數學方法證明了大語言模型不是隨機鹦鹉，規模越大能力一定越大。

今天故事的主角是兩位科學家，Sanjeev Arora和Anirudh Goyal。

Arora來自普林斯頓大學，而Goyal則來自谷歌DeepMind。

他們湊到一起，只想探究一個問題。

那就是，LLM，究竟是只會叽叽喳喳學舌的隨機鹦鹉，還是真學會了什麽，搖身一變成爲了具有湧現能力的智能體？

AI先驅Hinton和吳恩達曾經也聊過這個問題，但彼時並沒有得出什麽明確的結論。

不過Hinton表示，在這個問題的回答上如果我們不能達成共識，那麽在AI會産生多大危害這個問題上也不可能達成共識。

而Arora和Goyal的觀點是，LLM並不是只會學舌的鹦鹉。具體來說，他們不認爲LLM的輸出內容只是從海量的訓練數據中隨機組合而來的。

兩個人爲此合寫了一篇論文。

論文地址：https://arxiv.org/abs/2307.15936

真相則是，經過大量訓練，LLM的規模變得越來越大，它們的相關能力會得到切實的提升，並開發出新的能力。

這可不是一般的排列組合能做到的。

大模型之「大」

衆所周知，LLM是一個龐大的人工神經網絡，連接著一個個「神經元」。

其實說的就是模型的參數。參數越多，LLM的規模越大。

咱們先了解一下訓練LLM的機制和環節。

訓練的過程會有這麽個環節——給LLM提供一個單句，把最後一個詞隱藏掉，然後讓LLM根據概率來預測空缺的詞彙應該是誰。

假如LLM知道1000個單詞，那它就會搞出1000個概率。最後選一個概率最大的填上。

一開始，LLM可能選不准詞，算法就會給出一個損失值，即在某個高維的數學空間中，LLM給出的初始答案和原句正確答案之間的「距離」（distance），然後用這個值來對參數進行微調。

之後，還是同一個句子，LLM就能算出一個更正確的概率分布，上述損失值就會稍微降低一點。

如此這般，訓練數據中數以十億計的句子都跑一遍這個流程，等LLM的總體損失值降低到一個還不錯的程度爲止。

同樣，測試LLM也會走這個流程，根據損失值得出測試的結果（當然，測試用的句子肯定不在訓練數據裏，要不然不是作弊了嘛）。

訓完練，測完試，LLM在遇到全新的文本prompt時，就有極大可能生成最正確的那個詞了。一個詞出來，扔到prompt裏，再生成下一個詞。

慢慢生成下去，一個看似連貫的回答就躍然紙上了。

然而在這個過程中，並沒有迹象表明，規模更大的LLM會在需要推理能力（reasoning）的提問上表現更好。

注意跟上思路，沒有迹象表明，意思是說沒有實證能指向這個結果，但是從表面上的事實來看，這個結論是對的。

也就是說，規模更大的LLM會在推理能力上表現的比小規模的模型好，雖然二者在訓練方式上沒有不同，只差在規模上。

Arora大惑不解，那這能力是從哪來的？

這也就是Arora和Goyal研究的起點了——試圖構建一個理論框架來分析這些新能力是如何出現的。

于是，他們把目光轉向了數學領域，瞄上了一個叫隨機圖的東西。簡單來說，這個名詞處于圖論和概率論兩個領域的交叉地帶。

在隨機圖中，任何兩個節點之間是否存在一條把它們連起來的邊，是隨機的，就好像抛硬幣一樣。

硬幣擲出正面，就有一條邊，概率爲p。

p的值發生某些變化的時候，整個隨機圖的屬性就可能發生突然的轉變。比方說，p值超過某個特定阈值，有些孤立的節點（即和其它節點不存在連接的點），就會突然消失。

兩位科學家意識到，隨機圖的這個特點可能是模擬大語言模型的一種直觀方式。

雖說神經網絡的複雜程度難以言說，幾乎難以分析，但是隨機圖這個概念已經被數學家研究了相當長的一段時間，還開發出了各種工具來分析。

也許，通過隨機圖的相關理論，神經網絡的研究人員就可以試著理解並分析大語言模型的一些特征。

這裏，兩位研究人員把目光專注在了二分圖上，圖裏會包含兩種類型的節點。

在他們的模型中，一種類型的節點代表著文本片段。注意，這裏的片段從篇幅上看最起碼得是個段落，甚至長達幾頁都有可能，而非單個的詞彙。

這類節點構成一條直線。

第二類節點，代表著理解上述給定文本所需要的的技能。比方說，對邏輯關系的理解，或是計算的能力，更具體點，還可能有理解諷刺的能力。

舉這幾個例子是爲了講明白，這第二類節點所代表的能力多種多樣，沾的上邊的都算。

Arora表示，LLM如果能看出某段文本裏含有反諷，可能對整體的理解都會出現較大變化。

不過，我們上面講到過，第二類節點所代表的能力，不代表LLM在訓練的過程中的目的是爲了實現這些能力。換句話說，LLM在訓練的時候只訓練了對下一個可能出現的單詞的預測能力。

也就是說，第二類節點所代表的能力，是Arora和Goyal從結果的角度設計的，爲的是更好的理解LLM所展現出來的能力。

設定講完了，兩類節點就要開始互相連接了，連接代表的是LLM爲了讀懂某段文字需要哪些能力。可能一對一，可能一對多，也可能多對一。

還拿讀懂反諷舉例，這個技能點就會和所有包含反諷元素的文本建立聯系。

連接可沒那麽簡單。要知道，OpenAI和DeepMind這種大公司，是不會公開訓練數據或者測試數據的。所以兩位研究人員不能依賴這些。

此外，他倆想搞明白的還是規模和行爲、能力之間的關系。

自從2021年以來，研究LLMs和其他神經網絡性能的研究人員已經觀察到了一個普遍的特征。

他們注意到，隨著模型的增大，無論是在大小還是在訓練數據量上，它在測試數據上的損失（在訓練後對新文本的預測與正確答案之間的差異）以一種非常特定的方式減少。

這些觀察已被編碼爲一個叫做神經縮放定律的方程。

因此，Arora和Goyal表示，他們的理論不依賴于任何單個LLM的情況、或者特定的一組訓練和測試數據，而是某種普適法則：通過縮放定律預測的損失。

而他們進一步研究的關鍵，就是神經縮放定律和上面介紹的二分圖之間的關系。

二分圖的借用

首先，研究人員假設存在一個對應LLM在測試數據上行爲的二分圖。

爲了利用好LLM在測試數據上的損失變化，他們設想了一種如下這種方式，來描繪LLM是如何習得技能的。

還是以能理解反諷這種技能爲例——

這個概念由一個技能節點表示，因此研究人員查看這個技能節點連接到了哪些文本節點。

如果幾乎所有這些連接的文本節點都成功——意味著LLM對這個特定技能所代表的文本的預測非常准確——那麽LLM在這個特定技能上是有能力的。

但如果超過一定比例的技能節點連接到失敗的文本節點，那麽LLM在這個技能上就算失敗了。

這些二分圖與LLMs之間的連接使Arora和Goyal能夠利用隨機圖理論的工具來分析LLM的行爲。

研究這些圖揭示了節點之間的某些關系。這些關系進而轉化爲一種有邏輯，且可測試的方法，得以解釋大語言模型究竟怎麽獲得一些意想不到的能力。

這裏，Arora和Goyal首先解釋了一個關鍵行爲——爲什麽較大的LLMs在個別技能上比相對較小的模型更加熟練。

他們從神經縮放定律預測的較低測試損失開始。

如果失敗的測試節點較少，那麽說明失敗的測試節點與技能節點之間的連接也較少。因此，更多的技能節點與成功的測試節點相連接，就表明模型在技能方面的能力增強。

接下來，兩位研究人員又找到了一種解釋更大模型所獲得的能力的方法——隨著LLM的大小增加和測試損失減小，技能節點的隨機組合開始連接到個別文本節點。

這表明LLM也變得更擅長同時使用多個技能，並開始使用多個技能生成文本，即使這些確切的技能組合在訓練數據的任何文本中都沒有出現過。

比方說，一個LLM已經可以使用一種技能來生成文本了，那麽如果我們把LLM的參數數量或訓練數據擴大一個數量級，它將同樣擅長生成需要兩種技能的文本。

以此類推，再擴大一個數量級，LLM現在就可以執行需要同時具備四種技能的任務了！而且，在各項能力上所具有的熟練程度也是相同的。

因此，更大的LLMs有更多將技能組合在一起的方式，從而導向LLM自身的性能得到大幅提升。

隨著LLM的擴大，它在訓練數據中遇到所有這些技能組合的可能性變得越來越小，直至0。

根據隨機圖理論的規則，每種組合都來自對可能技能的隨機抽樣。因此，如果圖中存在大約一千個基本的單個技能節點，並且假設我們想要組合四種技能，那麽有大約1000的四次方——也就是足足一萬億種可能的組合方式。

也就是說，如果一個LLM真的能夠通過組合這1000種技能中的四種來執行這些任務，那麽意味著該模型一定具備了泛化能力，更進一步說，這個模型很可能就不是一個隨機鹦鹉了。

但是Arora和Goyal想要超越理論，進一步來測試他們的觀點——LLMs在規模和訓練數據增加時，會更擅長組合更多的技能，因此在泛化方面表現得更好。

他們與團隊其他成員一起設計了一種稱爲技能混合的方法，用于評估LLM使用多種技能生成文本的能力。

爲了對LLM進行測試，研究團隊要求它生成關于隨機選擇的主題的三個句子，這些句子的生成首先展示了LLM隨機選擇的技能點。

比方說，他們要求GPT-4寫一篇有關劍術的文章，然後他們再要求該模型展示來自四個領域的技能：自我偏見、比喻、統計學和物理學嘗試的掌握。

GPT-4的輸出是這樣的：

在這場與鋼鐵的舞蹈中，我的勝利（用上了比喻）像物體會自由落體一樣確定（用上了物理學嘗試）。

而作爲一名著名的決鬥者，我天生靈活，就像大多數人所知曉的我一樣（用上了統計）。失敗？只可能是由于戰場偏向了敵人，不可能是由于我的不足（自我偏見）。

實際上的結果，正如數學所預測的那樣，GPT-4的性能遠遠超過了GPT-3.5。

Arora大膽猜想，會不會一年後，會有遠超GPT-4的模型出現呢？---[新智元報導*編輯：拉燕/來源: 新智元]

參考資料：https://www.quantamagazine.org/new-theory-suggests-chatbots-can-understand-text-20240122/

我要留言

普林斯頓DeepMind用數學證明：LLM不是隨機鹦鹉！「規模越大能力越強」有理論根據

巴菲特、科技巨頭創始人們紛紛減持，美科技股泡沫2.0要來？

Vision Pro打開一扇門，空間計算今年有望出現六大新趨勢

巴菲特、科技巨頭創始人們紛紛減持，美科技股泡沫2.0要來？

Vision Pro打開一扇門，空間計算今年有望出現六大新趨勢