01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

普林斯頓DeepMind用數學證明:LLM不是隨機鹦鹉!「規模越大能力越強」有理論根據

2024021617:40


【新智元導讀】普林斯頓大學和DeepMind的科學家用嚴謹的數學方法證明了大語言模型不是隨機鹦鹉,規模越大能力一定越大。

今天故事的主角是兩位科學家,Sanjeev Arora和Anirudh Goyal。

Arora來自普林斯頓大學,而Goyal則來自谷歌DeepMind。

他們湊到一起,只想探究一個問題。

那就是,LLM,究竟是只會叽叽喳喳學舌的隨機鹦鹉,還是真學會了什麽,搖身一變成爲了具有湧現能力的智能體?



AI先驅Hinton和吳恩達曾經也聊過這個問題,但彼時並沒有得出什麽明確的結論。

不過Hinton表示,在這個問題的回答上如果我們不能達成共識,那麽在AI會産生多大危害這個問題上也不可能達成共識。

而Arora和Goyal的觀點是,LLM並不是只會學舌的鹦鹉。具體來說,他們不認爲LLM的輸出內容只是從海量的訓練數據中隨機組合而來的。

兩個人爲此合寫了一篇論文。


論文地址:https://arxiv.org/abs/2307.15936

真相則是,經過大量訓練,LLM的規模變得越來越大,它們的相關能力會得到切實的提升,並開發出新的能力。

這可不是一般的排列組合能做到的。

大模型之「大」

衆所周知,LLM是一個龐大的人工神經網絡,連接著一個個「神經元」。



其實說的就是模型的參數。參數越多,LLM的規模越大。

咱們先了解一下訓練LLM的機制和環節。

訓練的過程會有這麽個環節——給LLM提供一個單句,把最後一個詞隱藏掉,然後讓LLM根據概率來預測空缺的詞彙應該是誰。

假如LLM知道1000個單詞,那它就會搞出1000個概率。最後選一個概率最大的填上。

一開始,LLM可能選不准詞,算法就會給出一個損失值,即在某個高維的數學空間中,LLM給出的初始答案和原句正確答案之間的「距離」(distance),然後用這個值來對參數進行微調。

之後,還是同一個句子,LLM就能算出一個更正確的概率分布,上述損失值就會稍微降低一點。

如此這般,訓練數據中數以十億計的句子都跑一遍這個流程,等LLM的總體損失值降低到一個還不錯的程度爲止。

同樣,測試LLM也會走這個流程,根據損失值得出測試的結果(當然,測試用的句子肯定不在訓練數據裏,要不然不是作弊了嘛)。

訓完練,測完試,LLM在遇到全新的文本prompt時,就有極大可能生成最正確的那個詞了。一個詞出來,扔到prompt裏,再生成下一個詞。

慢慢生成下去,一個看似連貫的回答就躍然紙上了。

然而在這個過程中,並沒有迹象表明,規模更大的LLM會在需要推理能力(reasoning)的提問上表現更好。

注意跟上思路,沒有迹象表明,意思是說沒有實證能指向這個結果,但是從表面上的事實來看,這個結論是對的。

也就是說,規模更大的LLM會在推理能力上表現的比小規模的模型好,雖然二者在訓練方式上沒有不同,只差在規模上。

Arora大惑不解,那這能力是從哪來的?

這也就是Arora和Goyal研究的起點了——試圖構建一個理論框架來分析這些新能力是如何出現的。

于是,他們把目光轉向了數學領域,瞄上了一個叫隨機圖的東西。簡單來說,這個名詞處于圖論和概率論兩個領域的交叉地帶。


在隨機圖中,任何兩個節點之間是否存在一條把它們連起來的邊,是隨機的,就好像抛硬幣一樣。

硬幣擲出正面,就有一條邊,概率爲p。

p的值發生某些變化的時候,整個隨機圖的屬性就可能發生突然的轉變。比方說,p值超過某個特定阈值,有些孤立的節點(即和其它節點不存在連接的點),就會突然消失。

兩位科學家意識到,隨機圖的這個特點可能是模擬大語言模型的一種直觀方式。

雖說神經網絡的複雜程度難以言說,幾乎難以分析,但是隨機圖這個概念已經被數學家研究了相當長的一段時間,還開發出了各種工具來分析。

也許,通過隨機圖的相關理論,神經網絡的研究人員就可以試著理解並分析大語言模型的一些特征。


這裏,兩位研究人員把目光專注在了二分圖上,圖裏會包含兩種類型的節點。

在他們的模型中,一種類型的節點代表著文本片段。注意,這裏的片段從篇幅上看最起碼得是個段落,甚至長達幾頁都有可能,而非單個的詞彙。

這類節點構成一條直線。

第二類節點,代表著理解上述給定文本所需要的的技能。比方說,對邏輯關系的理解,或是計算的能力,更具體點,還可能有理解諷刺的能力。

舉這幾個例子是爲了講明白,這第二類節點所代表的能力多種多樣,沾的上邊的都算。

Arora表示,LLM如果能看出某段文本裏含有反諷,可能對整體的理解都會出現較大變化。

不過,我們上面講到過,第二類節點所代表的能力,不代表LLM在訓練的過程中的目的是爲了實現這些能力。換句話說,LLM在訓練的時候只訓練了對下一個可能出現的單詞的預測能力。

也就是說,第二類節點所代表的能力,是Arora和Goyal從結果的角度設計的,爲的是更好的理解LLM所展現出來的能力。

設定講完了,兩類節點就要開始互相連接了,連接代表的是LLM爲了讀懂某段文字需要哪些能力。可能一對一,可能一對多,也可能多對一。

還拿讀懂反諷舉例,這個技能點就會和所有包含反諷元素的文本建立聯系。

連接可沒那麽簡單。要知道,OpenAI和DeepMind這種大公司,是不會公開訓練數據或者測試數據的。所以兩位研究人員不能依賴這些。

此外,他倆想搞明白的還是規模和行爲、能力之間的關系。

自從2021年以來,研究LLMs和其他神經網絡性能的研究人員已經觀察到了一個普遍的特征。

他們注意到,隨著模型的增大,無論是在大小還是在訓練數據量上,它在測試數據上的損失(在訓練後對新文本的預測與正確答案之間的差異)以一種非常特定的方式減少。

這些觀察已被編碼爲一個叫做神經縮放定律的方程。



因此,Arora和Goyal表示,他們的理論不依賴于任何單個LLM的情況、或者特定的一組訓練和測試數據,而是某種普適法則:通過縮放定律預測的損失。

而他們進一步研究的關鍵,就是神經縮放定律和上面介紹的二分圖之間的關系。

二分圖的借用

首先,研究人員假設存在一個對應LLM在測試數據上行爲的二分圖。

爲了利用好LLM在測試數據上的損失變化,他們設想了一種如下這種方式,來描繪LLM是如何習得技能的。

還是以能理解反諷這種技能爲例——

這個概念由一個技能節點表示,因此研究人員查看這個技能節點連接到了哪些文本節點。



如果幾乎所有這些連接的文本節點都成功——意味著LLM對這個特定技能所代表的文本的預測非常准確——那麽LLM在這個特定技能上是有能力的。

但如果超過一定比例的技能節點連接到失敗的文本節點,那麽LLM在這個技能上就算失敗了。

這些二分圖與LLMs之間的連接使Arora和Goyal能夠利用隨機圖理論的工具來分析LLM的行爲。

研究這些圖揭示了節點之間的某些關系。這些關系進而轉化爲一種有邏輯,且可測試的方法,得以解釋大語言模型究竟怎麽獲得一些意想不到的能力。

這裏,Arora和Goyal首先解釋了一個關鍵行爲——爲什麽較大的LLMs在個別技能上比相對較小的模型更加熟練。

他們從神經縮放定律預測的較低測試損失開始。

如果失敗的測試節點較少,那麽說明失敗的測試節點與技能節點之間的連接也較少。因此,更多的技能節點與成功的測試節點相連接,就表明模型在技能方面的能力增強。

接下來,兩位研究人員又找到了一種解釋更大模型所獲得的能力的方法——隨著LLM的大小增加和測試損失減小,技能節點的隨機組合開始連接到個別文本節點。

這表明LLM也變得更擅長同時使用多個技能,並開始使用多個技能生成文本,即使這些確切的技能組合在訓練數據的任何文本中都沒有出現過。

比方說,一個LLM已經可以使用一種技能來生成文本了,那麽如果我們把LLM的參數數量或訓練數據擴大一個數量級,它將同樣擅長生成需要兩種技能的文本。

以此類推,再擴大一個數量級,LLM現在就可以執行需要同時具備四種技能的任務了!而且,在各項能力上所具有的熟練程度也是相同的。

因此,更大的LLMs有更多將技能組合在一起的方式,從而導向LLM自身的性能得到大幅提升。



隨著LLM的擴大,它在訓練數據中遇到所有這些技能組合的可能性變得越來越小,直至0。

根據隨機圖理論的規則,每種組合都來自對可能技能的隨機抽樣。因此,如果圖中存在大約一千個基本的單個技能節點,並且假設我們想要組合四種技能,那麽有大約1000的四次方——也就是足足一萬億種可能的組合方式。

也就是說,如果一個LLM真的能夠通過組合這1000種技能中的四種來執行這些任務,那麽意味著該模型一定具備了泛化能力,更進一步說,這個模型很可能就不是一個隨機鹦鹉了。

但是Arora和Goyal想要超越理論,進一步來測試他們的觀點——LLMs在規模和訓練數據增加時,會更擅長組合更多的技能,因此在泛化方面表現得更好。

他們與團隊其他成員一起設計了一種稱爲技能混合的方法,用于評估LLM使用多種技能生成文本的能力。

爲了對LLM進行測試,研究團隊要求它生成關于隨機選擇的主題的三個句子,這些句子的生成首先展示了LLM隨機選擇的技能點。

比方說,他們要求GPT-4寫一篇有關劍術的文章,然後他們再要求該模型展示來自四個領域的技能:自我偏見、比喻、統計學和物理學嘗試的掌握。



GPT-4的輸出是這樣的:

在這場與鋼鐵的舞蹈中,我的勝利(用上了比喻)像物體會自由落體一樣確定(用上了物理學嘗試)。

而作爲一名著名的決鬥者,我天生靈活,就像大多數人所知曉的我一樣(用上了統計)。失敗?只可能是由于戰場偏向了敵人,不可能是由于我的不足(自我偏見)。

實際上的結果,正如數學所預測的那樣,GPT-4的性能遠遠超過了GPT-3.5。

Arora大膽猜想,會不會一年後,會有遠超GPT-4的模型出現呢?---[新智元報導*編輯:拉燕/來源: 新智元]



參考資料:https://www.quantamagazine.org/new-theory-suggests-chatbots-can-understand-text-20240122/