大模型對語言有自己理解！MIT論文揭示大模型思維過程 | ICML 24

2024081713:49

大模型對現實世界，可以形成自己的理解！

MIT的一項研究發現，隨著模型能力越強，它對現實的理解可能不僅是簡單模仿。

比如大模型沒有聞過氣味，是否就意味著它不能理解氣味？

研究發現，它可以自發模擬一些概念，方便理解。

這項研究意味著，大模型未來有希望更深入理解語言和世界，論文已被頂會ICML 24接收。

這篇論文的作者是MIT計算機與人工智能實驗室（CSAIL）華裔博士生Charles Jin和他的導師Martin Rinard教授。

研究當中，作者讓大模型只學習代碼文本，結果發現模型逐漸掌握了其背後的含義。

Rinard教授表示，這項研究直接針對現代人工智能的一個核心問題——

大模型的能力僅僅是由於大規模的統計相關性，還是對它們要處理的現實問題產生了有意義的理解？

△來源：MIT官網

同時這項研究也引發了不少討論。

有網友表示，雖然大模型對語言的理解可能和人類不同，但這項研究至少說明了模型做的絕不僅僅是對訓練數據的記憶。

讓大模型學習純代碼

為了探究大模型能否產生語義層面的理解，作者構建了一個由程序代碼及其對應輸入輸出組成的合成數據集。

這些代碼程序用一種名為Karel的教學語言編寫，主要用於實現機器人在2D網格世界中導航的任務。

這個網格世界由8x8的格子組成，每個格子可以包含障礙物、標記物或空地。機器人可以在格子間移動，並進行放置/拾取標記物等操作。

Karel語言包含5個原始操作——move（前進一步）、turnLeft（左轉90度）、turnRight（右轉90度）、pickMarker（拾取標記物）、putMarker（放置標記物），程序就是由這些原始操作的序列組成。

作者隨機生成了一個包含50萬個Karel程序的訓練集，每個程序長度在6到10之間。

每個訓練樣本由三部分組成：5個輸入狀態、5個輸出狀態和完整的程序代碼，輸入輸出狀態以特定格式編碼進字符串中。

利用這些數據，作者訓練了標準Transformer架構的CodeGen模型的一個變體。

訓練過程中，模型可以訪問每個樣本中的輸入輸出信息和程序前綴，但看不到程序執行的完整軌跡和中間狀態。

除了訓練集，作者還構建了一個包含1萬個樣本的測試集，用於評估模型的泛化性能。

為了研究語言模型是否掌握了代碼背後的語義，同時深入了解模型的「思維過程」，作者設計了一套包含線性分類器和單/雙隱層MLP的探測器組合。

探測器的輸入是語言模型在生成程序tokens過程中的隱藏狀態，預測目標則是程序執行的中間狀態，具體包括機器人的朝向（direction）、相對於初始位置的偏移量（position）以及是否正面朝向障礙物（obstacle）這三個特征。

在生成模型的訓練過程中，作者每隔4000步記錄一次上述三個特征，並同時記下生成模型的隱藏狀態，形成探測器的訓練數據集。

大模型學習的三個階段

通過觀察語言模型產生的程序的多樣性、困惑度等指標隨訓練進程的變化，作者將訓練過程分為了三個階段——

    Babbling（胡言亂語）階段：輸出程序重復度高，探測器準確率不穩定。
    語法習得階段：程序多樣性迅速提高，生成準確率小幅提升，困惑度下降，說明語言模型習得了程序的句法結構。
    語義習得階段：程序多樣性和句法結構掌握程度平穩，但生成準確率和探測器性能大幅提升，說明語言模型習得了程序的語義。

具體來說，Babbling階段占據了整個訓練過程的前50%，例如在訓練到20%左右的時候，無論輸入什麽規範，模型都只會生成一個固定的程序——「pickMarker」重復9次。

語法習得階段處於訓練過程的50%到75%，模型在Karel程序上的困惑度顯著下降，表明語言模型開始更好地適應Karel程序的統計特性，但生成程序的準確率提升幅度不大（從10%左右提升到25%左右），仍然無法準確完成任務。

語義習得階段是最後的25%，程序的準確率出現了急劇提升，從25%左右提升到90%以上，生成的程序能夠準確地完成給定的任務。

進一步實驗又發現，探測器不僅可以對t時刻的同時間步進行預測，還能預測後續時間步的程序執行狀態。

舉例來說，假設生成模型在t時刻生成了token「move」，並將在t+1時刻生成「turnLeft」。

與此同時，t時刻的程序狀態是機器人面向北方，位於坐標(0,0)，而t+1時刻機器人將是機器人將面向西方，位置不變。

如果探測器能夠從語言模型在t時刻的隱藏狀態中，成功預測到t+1時刻機器人會面向西方，就說明在生成」turnLeft」之前，隱藏狀態就已經包含了這一操作帶來的狀態變化信息。

這一現象說明，模型並非只對已生成的程序部分有語義理解，而是在生成每一步時，就已經對接下來要生成的內容有所預期和規劃，顯現出了初步的面向未來的推理能力。

但這一發現又給這項研究帶來了新的問題——

實驗中觀察到的準確度提升，到底真的是生成模型進步了，還是探測器自己推論的結果呢？

為了解決這個疑惑，作者補充了語義探測幹預實驗。

實驗的基本思路是改變程序操作的語義解釋規則，具體又分為「flip」和「adversarial」兩種方式。

「flip」是強行反轉指令含義，如將「turnRight」強行解釋為「左轉」不過能進行這種反轉的也只有「turnLeft」和「turnRight」；

「adversarial」則是將所有指令對應的語義隨機打亂，具體方式如下方表格。

如果生成模型的隱藏狀態只編碼了程序的句法結構，而非語義信息，那麽探測器應該仍然能夠從隱藏狀態中以同等的性能去提取這些被改變的語義信息。

相反，如果探測器性能顯著下降，則說明探測器顯示出的的性能提升的確是因為生成模型隱藏狀態編碼了實際語義。

實驗結果顯示，在兩種新語義下，探測器的性能都出現了顯著下降。

尤其是在「adversarial」模式下更加明顯，這也與該模式下的語義與原始語義差異更大的特征相一致。

這些結果有力地排除了探測器「自己學會語義映射」的可能性，進一步證實了生成模型的確掌握了代碼的含義。

論文地址：https://icml.cc/virtual/2024/poster/34849

參考鏈接：
[1]https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814

[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_understanding_of_reality/

---[克雷西發自: 凹非寺*量子位: 公眾號 QbitAI/來源: 量子位]

*人工智能熱潮中的隱憂：員工工作量激增，引發倦怠、恐懼、壓力感*

AI的加速推進雖然提高了效率和產出，但同時也讓許多員工「苦不堪言」，老板期望更高了，工作量更多了，身體更勞累了。

目前，許多公司正積極推進AI的應用，以期提高效率和產出。然而，公司在推進AI技術時，往往面臨人員不夠、資金不足、技術和基礎設施落後和時間短缺等資源不足的問題。

Tenabl的首席安全官Bob Huber指出，在評估AI技術能帶來的潛在好處時，我們並沒有得到額外的資源支持。資源必須從其他地方，例如通過重新分配員工工作時間或推遲其他項目來獲得。

由於資源緊張，現有員工可能需要同時處理更多的任務。比如，他們不僅要完成原有的工作，還要承擔AI相關的項目，導致他們在不同任務之間切換。這樣一來，員工的工作負擔會大大增加，可能會感到壓力山大，甚至導致工作疲憊。

Huber強調：「員工可能需要同時處理多項任務，這將進一步加劇資源的緊張狀況。盡管有些AI應用對資源的需求較低，但但大多數AI應用還是需要專門的資源來進行開發、設計和評估的，這會消耗員工大量的時間和精力。」

此外，員工看到公司宣傳AI會顯著提升效率和生產力，可能會自然擔心自己的工作量會大幅增加，同時還要面臨更高的生產力期望。Resume Now的職業專家Heather O'Neill提到：「員工們聽到這些宣傳，自然會擔心他們的工作量會隨著對生產力的期望而急劇增加。」

除了擔心工作負擔增加，實施AI項目通常需要具備特定技能的員工，如果公司內部缺乏這些專門技能的人才，可能會影響AI項目的進展，所以員工需要花費額外的精力和時間接受AI相關培訓，培訓不僅需要時間，還可能需要額外的精力和學習新技能，這讓員工感到很疲憊。

O'Neill指出，培訓過程可能令人感到畏懼和疲憊，員工們可能會因為被迫提升技能和適應AI工具而感到壓力山大。這種壓力可能會加劇他們已有的焦慮和職業倦怠。

此外，O'Neill補充說，有些員工擔心，AI的引入可能會打破他們的工作與生活平衡。Resume Now在2024年3月對1150名美國員工進行的調查顯示，63%的受訪者對AI的使用感到憂慮，61%擔心這將導致職業倦怠的增加。

在年輕員工中，近90%擔心因AI而感到職業倦怠，約一半的受訪女性認為AI會對工作與生活平衡產生負面影響。此外，三分之二的受訪者擔心因AI而失業。

平衡AI技術進步與員工福祉的策略

幸運的是，企業可以采取一系列明智的策略，在不造成員工疲勞的情況下，成功推進AI項目。以下為專家給出的部分建議。

1）逐步引入AI，避免急功近利

首席安全官Huber建議，企業應逐步引入AI項目，避免追求需要大量資源的宏偉目標，以減少對團隊的壓力。這種逐步推進的方法有助於緩解員工的擔憂，同時確保項目的穩健實施。

2）透明溝通，建立信任

職業專家O'Neill強調，為了緩解員工的擔憂，公司必須采取緩慢的步伐，並承諾就人工智能的使用、培訓的形式以及績效期望的變化進行清晰和透明的溝通。

3）傾聽員工聲音，賦予權力

O'Neill指出，人力資源部門應積極收集員工對AI的反饋，解決他們對使用AI工具的疑慮。將AI的運用轉變為一種討論而非強製命令，可以賦予員工更多的權力，激發他們對新技術的熱情。

4）明確AI的整合計劃

O'Neill表示，公司必須清晰地說明AI將如何整合到工作中，以及具體的采納時間表。這不僅僅是一個全公司範圍的通告，而是需要具體到每個員工的崗位和日常工作流程。

5）領導層的現實期望設定

Huber認為，領導層應該優先考慮人員的工作，從一開始就設定現實的期望，確保團隊理解業務目標，避免因推進AI項目而感到焦慮。

6）強調AI的輔助作用

企業應不斷向員工強調，AI的主要目的是協助他們完成重復性和平凡性的任務，讓他們能夠專註於更高層次的項目。這種安心的保證有助於員工接受並使用AI技術。O'Neill表示，盡管一些職位可能會被AI取代，但大多數不會。這種安心的保證對於員工接受並使用這項技術至關重要。

7）提供針對性培訓和支持

O'Neill稱，由於每個職位融合AI的方式都會略有不同，因此企業應提供針對性的培訓，幫助員工適應AI帶來的轉變，並考慮建立專門的AI支持團隊，以便在員工適應這種新的工作方式時，能夠及時回答他們的問題。---來源: 華爾街見聞官方-

我要留言

大模型對語言有自己理解！MIT論文揭示大模型思維過程 | ICML 24

金價漲破2500美金，三個月沒買黃金的央行會出手嗎？

美國AI法案大削弱！AI圈炸鍋，李飛飛公開譴責，國內AI企業關心的全在這了

金價漲破2500美金，三個月沒買黃金的央行會出手嗎？

美國AI法案大削弱！AI圈炸鍋，李飛飛公開譴責，國內AI企業關心的全在這了