讓GPT一步步思考,這一魔咒為何生效?
* 讓GPT一步步思考,這一魔咒為何生效?*
如今,大型語言模型就像是有著無限詞匯量的超級大腦,它們能夠幫助我們解答問題、寫作文、甚至編故事。但是,就像學生在學習新知識時一樣,在學習新知識時,大語言模型需要一步步來,不能一蹴而就。這些超級大腦如果能「展示它們的思考過程」,就能處理更復雜的問題。
回想一下小學學習加法的時候,老師不會直接讓你計算一個龐大的數字。如果你知道怎麽加兩個小數字,只需紙筆和一絲耐心,從個位數開始,逐步加上去,不知不覺就能算出一個天文數字。這種按部就班的方法對我們很有效。「我們解決問題不是靠盯著它直到答案蹦出來,」哈佛大學的機器學習研究員埃蘭·馬拉赫(Eran Malach)說,「而是需要循序漸進。」
這種逐步推進的思考方式也啟發了研究ChatGPT這樣的大語言模型的科學家們。這些高端的聊天機器人能輕松處理一些簡單的計算問題,但面對需要多步驟的復雜計算時就會卡殼,例如兩個大數字相加。
不過在2022年,谷歌的研究人員發現【1】,如果讓這些語言模型學習像人類一樣逐步解決問題,它們突然就能解決之前難以攻克的問題。這種方法被稱為「思維鏈」(chain-of-thought),盡管科學家們還在探索其背後的原理,但它已經開始被廣泛應用了。
目前,一些研究團隊正在使用計算復雜性理論(computational complexity theory)探索思維鏈的神秘力量。他們想了解這些大語言模型能做什麽、不能做什麽、哪裏可能會出現問題,以及如何更好地構建它們。「這打破了大語言模型的一部分神秘感,」
威斯康星大學麥迪遜分校的機器學習研究員迪米特裏斯·帕帕利奧普洛斯(Dimitris Papailiopoulos)說,「這是件好事。
01 大預言模型的訓練營:變壓器
人工神經網絡是大型語言模型的基礎。這些網絡裏的「神經元」會對代表單詞的數字序列進行簡單的數學操作,進而將一個單詞轉換成另一個單詞。這種轉換依賴於一組稱為網絡參數的數字,它們決定了神經元之間的連接強度。
要讓一個語言模型能流暢地「說話」,研究人員得先向模型輸入大量的文本數據,對這些參數進行訓練。模型嘗試根據已知的詞來預測下一個詞,然後根據預測結果調整參數。這樣反復調整,模型就能學會如何對未知的的輸入做出反應了。
自谷歌在2017年推出變壓器(transformers)模型以來,訓練神經網絡處理語言的工作實現了飛躍[2]。「七年前提出的東西,感覺已經像是史前時代。」智利天主教大學的機器學習研究員帕布洛·巴塞洛(Pablo Barceló)說。
變壓器可以很容易地擴展,能在控製成本的前提下提升處理數據的能力。在變壓器出現之前,神經網絡的參數最多只有幾億個;而現在,最大的模型可以擁有超過一萬億個參數。正是這種規模的增加,讓語言模型變得更加強大。
變壓器做到這一點的關鍵在於其采用的「註意力機製」(attention head)。這讓它們在處理文本的時候,能夠識別出哪些詞是最重要的。這就像是給變壓器裝上了一副特殊的眼鏡,能讓它在一大堆信息中迅速找到關鍵點。變壓器內部有很多層,每一層都使用這種眼鏡,讓信息處理變得更精準。這種設計不僅加快了訓練速度,還讓我們能用更大的數據集來訓練模型,並把龐大的計算任務分散到多個處理器上並行工作。「要想從大數據中獲得最大的收益,就需要構建非常大的模型,」聖母大學的機器學習研究員大衛·張(David Chiang)說,「如果不並行處理,訓練這樣的模型就不現實。」
話雖如此,在訓練完成後,變壓器用於並行處理的架構就顯得有些多余了。在實際使用中,變壓器需要一次輸出一個詞,並將這個詞加回到輸入中以生成下一個詞。這種方式雖然有效,卻局限於最初為並行處理而優化的架構之內。隨著基於變壓器的模型變得越來越龐大,處理一些復雜任務時的挑戰也隨之增加。這讓研究人員開始思考,是否在追求模型並行處理能力時,忽略了其它可能更加重要的能力。這引出了一個問題:我們是否能從理論上深入理解變壓器的工作原理,以發展出更加先進的模型?
02 探索變壓器的復雜性
研究神經網絡,特別是它們如何學習,一直是個大挑戰。當神經網絡在訓練中通過梯度下降法微調參數時,人們很難理解這個過程如何帶來好的參數。一些研究者決定不深究訓練過程,而嘗試把變壓器的參數調整到任何他們想要的值,看看變壓器能做到什麽程度。這其實就像是把變壓器當成一臺特殊的可編程計算機來研究。
「當你手頭有一臺計算設備,你自然會好奇,這臺機器能完成哪些任務?能解決哪些計算問題?」張這樣提問。這是計算理論研究的核心,旨在深入理解計算機的潛能和局限。
這個研究方向可以追溯到1936年,阿蘭·圖靈設想出了圖靈機——理論上能執行任何計算任務的機器。隨後,計算復雜性理論家在圖靈的基礎上進一步發展,將計算問題分成了不同的復雜性類別,每個類別根據解決問題所需的資源量來定義。到了2019年,巴塞洛(Barceló)和他的團隊證明[3],固定參數數量的變壓器在理想狀態下和圖靈機一樣強大。也就是說,如果能讓變壓器不斷地把自己的輸出作為輸入,並為特定問題設置合適的參數,它最終能找到正確答案。不過,這個結論基於了一些不太實際的假設,可能讓人對變壓器的實際能力期待過高。在接下來的幾年裏,研究者們努力想要發展出更切實的理論框架。
這項工作的一個關鍵節點發生在2021年,當時威廉·梅裏爾(William Merrill)即將離開艾倫人工智能研究所,前往紐約大學繼續他的學術之路。艾倫所期間的研究讓他認識到,他所用的方法可能不適合分析變壓器的並行架構。在離開之前,他和研究過復雜性理論的同事阿希什·薩巴爾瓦爾(Ashish Sabharwal)討論了這個問題。他們開始思考,復雜性理論是否能幫助揭示變壓器的局限。「看上去變壓器是個很簡單的模型,我們應該能找出它的一些明確限製。」薩巴爾瓦爾說。
為了探究這個想法,他們使用了計算復雜性理論中的一個分支——線路復雜性(circuit complexity),來分析變壓器。這個分支通常用來研究並行計算問題,最近也被應用於簡化版本的變壓器上[4]。接下來的一年裏,他們修正了之前研究中的一些不切實際的假設。
他們考慮了一個特定的情況:變壓器不能將其輸出作為輸入進行反饋,也就是說,它們必須一次性給出最終答案。他們發現,在這種框架下,變壓器無法解決超出特定復雜度範疇的計算問題[5]。甚至一些看似簡單的數學問題,如解線性方程,都可能超出變壓器處理的範圍。這一發現揭示了並行處理的雙刃劍屬性:它為變壓器提供了強大的計算能力,但在某些情況下也限製了它們的表現。「給變壓器一個輸入,要讓它立即給出答案,這種情況下變壓器的表現其實相當有限。」梅裏爾解釋說。
03 思想實驗:讓變壓器「逐步思考」
梅裏爾和薩巴爾瓦爾的研究提出了一個引人入勝的問題:如果變壓器可以循環使用自己生成的信息,它們的能力會提升多少?這個問題並不新穎,早在2019年,巴塞洛及其團隊就已經開始探討這個概念。但隨著「思維鏈」技術的出現,這個問題變得更加緊迫和實際。
想象一下,如果我們給語言模型提供的指令不僅僅是直接得出答案,而是要求它們展示出解題的每一步思考過程,會有怎樣的結果?這正是梅裏爾和薩巴爾瓦爾試圖探索的[6]——讓語言模型學會利用自己先前的「思考成果」,我們是否能借此打破它們處理信息的傳統限製?
北京大學的研究團隊也在這條路上探索,並且他們在2023年5月發表的一篇論文中表示[7],這種方法是有希望的。他們發現,即使是那些看似超出變壓器能力範圍的問題,通過引入中間步驟,它們也能找到解決方案。
但是,讓變壓器這樣「逐步思考」並不簡單。到了10月,梅裏爾和薩巴爾瓦爾的進一步研究表明[8],這種方法的有效性很大程度上取決於變壓器在給出最終答案之前能夠進行多少次中間步驟的「思考」。解決一個較大數字的加法問題比解決一個小數字的加法問題需要更多的中間步驟。這意味著,少數幾步中間「思考」對變壓器的幫助不大。事實上,只有當中間步驟的數量隨著問題的復雜度成比例增加時,變壓器的思維鏈才真正開始發揮作用。這項研究的深入和徹底讓許多研究者印象深刻。「他們非常清晰地界定了這個問題,」哥倫比亞大學的機器學習研究員丹尼爾·許(Daniel Hsu)評論道。
梅裏爾和薩巴爾瓦爾的研究告訴我們,思維鏈原則上可以幫助變壓器解決更復雜的問題,但這背後需要巨大的計算力。「我們在尋找其他克服變壓器局限的方法,」梅裏爾說。「思維鏈確實是一條路,但這項研究表明,它可能不是最節省成本的方式。」
04 回歸現實
研究人員提醒我們,這些理論分析只能告訴我們部分真相。有意思的是,雖然理論上變壓器可以解決一些問題,但這並不意味著它們在實際訓練中能夠自動掌握所有的解決方案。同時變壓器局限的研究結果表明,沒有哪種變壓器能完美應對所有問題——這幾乎是不可能的。正如丹尼爾·許所指出,「變壓器可能表現得很出色,但須在某些特定場景下。」
即便如此,這些發現仍為我們提供了一種評估未來可能取代現有變壓器的不同類型神經網絡架構的方法。如果通過復雜性理論分析,我們發現某些網絡類型在理論上比其他類型更有優勢,那麽這可能是一個強有力的跡象,表明這些網絡在實際應用中能有更好的表現。大衛·張強調,在語言模型越來越多地被應用於各種實際場景的今天,理解變壓器的限製變得尤其重要。這種理解能讓我們不過分樂觀地估計這些技術的能力。「事實上,這些模型處理很多問題的結果並不理想,我們需要非常清楚這些局限所在,」大衛·張說。「這就是為什麽進行這類研究特別重要。---來源:鈦媒體-
原文鏈接:https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/
*可以互相交談的人工智能來了*
僅憑口頭或書面指令,人類就能執行新任務,還可以通過描述,使他人能夠重復執行該任務。這項能力是人類溝通的基石,但對人工智能仍是一個挑戰。
日內瓦大學(UNIGE)的一個團隊成功地模擬了一個能夠進行這種認知能力的人工神經網絡。在學習和執行一系列基本任務之後,這個AI能夠向一個「姐妹」AI提供它們的語言描述,讓後者執行這些任務。這項成果尤其對機器人學領域具有重要意義,現已發表在《自然-神經科學》雜誌上。
▷Riveland, Reidar, and Alexandre Pouget. "Natural language instructions induce compositional generalization in networks of neurons." Nature Neuroscience (2024): 1-12.
01 遵循指令與下達指令
無需事先訓練,僅基於口頭或書面指令執行新任務,這是人類獨有的能力。更重要的是,一旦我們學會了任務,我們也能夠描述它,以便另一個人復製。這種雙重能力區分了我們和其他物種:其他物種為了學習新任務,需要無數次的嘗試,需伴隨著正面或負面的強化信號,且無法將知識其傳達給同類。
人工智能(AI)的一個子領域——自然語言處理——旨在復製這種人類的能力,讓機器能夠理解和響應語音或文本數據。這種技術基於人工神經網絡,靈感來自於我們的生物神經元以及它們在大腦中相互傳遞電信號的方式。
然而,現在還沒有神經計算能實現上述認知壯舉。目前,使用AI的對話代理能夠整合語言信息來生成文本或圖像。但據我們所知,它們還不能將口頭或書面指令轉化為感覺運動行為,更不用說將其解釋給另一個人工智能以便它能夠復製。
02 模擬語言交流的人工智能
該研究成功開發了一個具有這種雙重能力的人工神經網絡模型。研究人員從一個現有的人工神經元模型S-Bert開始,它有3億個神經元,並且已經預訓練以理解語言。研究人員將其『連接』到另一個更簡單的幾千個神經元的網絡上」。
在實驗的第一階段,神經科學家們訓練這個網絡來模擬韋尼克區——大腦中使我們能夠感知和解釋語言的區域。在第二階段,網絡被訓練來復製布洛卡區,該區域在韋尼克區的影響下,負責單詞產生和發音。整個過程都可在筆記本電腦上完成。
接著,研究人員向AI傳遞英文指令,例如:指向感知到的刺激的位置——左邊或右邊;在刺激的相反方向做出反應;或者更復雜的,從兩個視覺刺激中選擇對比度略有差異的一個,指出更亮的一個。
然後,科學家們評估了模型的結果。該模型模擬了特定條件下的指向或移動,一旦學會這些任務,網絡就能夠將它們描述給第二個網絡——第一個網絡的副本——以便它能夠復製它們。這是第一次兩個AI能夠以純粹的語言方式相互交流,盡管該模型仍然需要事先訓練。
▷圖1.實驗任務和模型輸入輸出示例圖。圖源:論文。
該研究訓練遞歸神經網絡(RNNs)模型執行一系列心理物理任務,利用預訓練語言模型處理每個任務嵌入的自然語言指令。研究中表現最好的模型可以利用這些嵌入來進行全新的模型,平均正確率達到83%。
通過利用指令嵌入和任務表示的共享組合結構,模型能對練習過任務和新穎指令之間關系進行推斷,從而可以很好地推斷出未見任務所需的感覺運動轉換。該研究還構建了一個人工神經網絡,可以僅基於其觀察到的感覺運動來為任務提供語言描述。
03 實驗意義
該模型對大腦區域中整合語言信息以控製感覺運動區域的神經表征做出了幾個預測。首先,模型的層次結構表明,當人類必須根據指令泛化一組相關任務時,指令的語義表征有層次結構,生物大腦也有感覺運動區域。
該模型指出,語言區域中等效任務相關結構的出現對於人類按指令行動至關重要。該研究還預測,參與實施感覺運動映射的個體單元應該根據輸入指令的語義在逐次試驗的基礎上進行調整,並且未能以預期方式調整會導致泛化性能差。這一預測在解釋人類的如何執行多步驟任務時可能特別有用。
最後,當模型語言描述包含基於任務集的感覺運動需求時,模型的性能有所提升,該研究的作者猜測在學習過程中,模型語言處理層次的最高級別也受到伴隨語言輸入的具身過程的影響,例如運動規劃或可供性評估。
語言使用者能夠以更靈活的方式組織任務中的多個子組件,在更廣泛的情境中重新組合,並傳播其中蘊含的知識,這是人類得以成為萬物之靈的關鍵。開發可解釋的人工神經網絡既能理解指令以指導特定感覺運動反應,也能將感覺運動學習的成果作為可理解的語言指令進行交流。
該模型的借此幫助我們解釋語言是如何在編碼和在神經元網絡中傳遞知識的,這為理解語言和行為之間的互動開辟了新的視野。該研究還可以指導未來的實驗工作,即檢驗人類中語言和感覺運動技能的相互作用。
該研究對機器人學領域尤其有意義,開發使機器能夠相互交流的技術是該領域的一個關鍵問題。雖然該研究開發的網絡非常小。但未來的研究者完全可以在此基礎上開發更復雜的網絡。這些網絡將被集成到既能理解人類語言和意圖,也能理解彼此的仿人機器人中。
未來研究可整合自回歸語言模型和表現最好的感覺運動模型中的表征,以描繪參與指令遵循的每個階段的大腦區域的完整過程,從低級別的下一個詞預測到更高層次的結構化句子表征,再到語言控製的感覺運動。---來源:鈦媒體-