打開神經網絡的黑盒:分解神經元特征,讓複雜模型變得簡潔、可解釋
近年來,隨著人工智能技術的飛速發展,神經網絡已經成爲了研究的熱門對象。然而,神經網絡內部的運作機制一直充滿了神秘和複雜性,人們始終難以直觀理解它是如何進行決策的。
爲了解釋看似異常複雜的神經網絡,首要任務是將其分解爲易于理解的組件。通過理解每個組件的功能以及它們之間的相互作用,我們可以推斷神經網絡的運作原理。
然而,分解神經網絡並非一項簡單的工作。神經網絡中最自然的計算單元——神經元,並非人類可以輕松理解的具有單一功能的自然單位,而是呈現多義性,即對看似無關的輸入混合作出響應。比如,在視覺模型Inception v1中,一個單獨的神經元會同時對貓的臉和汽車的正面作出響應。
這種多義性的一個潛在原因是神經元的疊加現象。這是一種假設現象,即神經網絡通過線性地組合神經元來表征遠大于神經元數量的數據特征。這種疊加使得小型神經網絡利用特征稀疏性和高維空間的特性來近似模擬規模更大、更稀疏的神經網絡。
請輸入圖說▷圖 1:神經元疊加假設。圖源:論文原文
爲了深入理解神經網絡的工作方式,來自Anthropic研究者們借助稀疏自編碼器,試圖從神經網絡內部複雜的神經元疊加中分解出具有單一語義的特征,來揭示神經網絡內部的奧秘。這項研究成功將複雜Transformer模型的激活模式分解爲簡潔、可解釋的特征,這些特征響應特定輸入,並且能通過調整特征值影響網絡行爲。
▷圖 2:論文。圖源:Anthropic官網
特征分解
盡管有時單個神經元具有基本可解釋性,但很多情況下並非如此。
大量研究表明,神經網絡在激活(神經元的激活值)空間中具有可解釋的線性方向[4]。研究者認爲,既然線性方向是可解釋的,那必然存在一些可解釋的高維方向。這些方向被稱爲特征,也是研究者希望將模型分解爲的組件,這些特征往往具有單一的可解釋的語義。
什麽樣的分解可以被稱作是好的分解呢?研究者認爲一個良好的分解要具備以下特點:
1. 能夠解釋每個特征激活的條件,即能描述哪些數據點會導致特征激活,並且這種解釋是有意義的。
2. 能夠解釋每個特征對下遊效果的影響,即特征值的變化如何影響後續的神經網絡層。
3. 這些特征能夠解釋被分解的神經網絡層的大部分功能。
這樣的特征分解能夠使研究人員進行可解釋的神經網絡分析與調控。比如,能夠確定特定示例中特征對層輸出和下一層激活的貢獻,能夠監視網絡以檢測特定特征的激活與否,通過改變特征的值可預測地改變網絡行爲,展示網絡學到的數據屬性,展示網絡在生成特定示例的輸出時使用了哪些數據屬性,能夠設計輸入以激活特定特征並引出特定輸出等。
根據這些分解原則,研究者針對Transformer模型中具有ReLU激活函數的單層MLP(多層感知機)展開了研究,試圖提取其激活並將其分解爲“特征”。在某種意義上說,MLP模型是語言模型中最簡單但也最難以解釋的部分。
研究者也表示,選擇單個MLP層進行分解的原因之一是特征分解的維度詛咒。隨著模型規模的不斷擴大,那些需要解釋的代表模型內部狀態的潛空間的體積會呈指數增長。
研究者試圖利用詞典學習的線性矩陣因子分解方法,將激活向量xj分解爲更一般的特征的組合,這些特征可以是任何高維方向:
其中xj是神經網絡對于數據點j的激活向量,fi(xj)是特征i的激活,每個di是特征方向,代表激活空間中的單位向量,b是偏置。
從表面上看,從神經元激活(即特征的疊加)中恢複原本的特征似乎是不可能的,這要求從低維投影確定一個高維向量。換句話說,這就像試圖反轉一個長寬比極大的矩形矩陣。唯一使其可能的因素是我們正在尋找的高維向量是稀疏的。
這就是著名的壓縮感知問題,需要采用複雜的詞典學習方法[5]。研究者嘗試了大量傳統的詞典學習方法後,選擇使用稀疏自編碼器對詞典學習進行近似,以實現特征分解。
研究者選擇稀疏自編碼器主要基于兩個原因:首先,稀疏自編碼器作爲一種神經網絡能夠輕松應用到非常大的數據集上;其次,使用稀疏自編碼器能夠避免從模型本身無法訪問的激活中恢複特征。
在稀疏自動編碼器設置中,特征的激活是編碼器的輸出:
其中We是編碼器的權重矩陣,bd和be是預編碼器和編碼器的偏置,特征方向是解碼器權重矩陣的列(具體設置可參考論文原文)。
研究者強調,如果存在這樣的稀疏分解,這就提出了一個重要問題:從根本上說,模型是否由特征組成,還是特征只是一種方便的事後描述?在這項工作中,研究者持中立立場。但研究者對特征普遍性的研究結果表明,特征在單個模型之外具有某種普遍性的存在。
將模型分解爲這些特征組件是神經網絡可解釋性工作的開始,這爲解釋工作提供了突破口,讓研究者能夠深入了解模型內部工作,並建立更廣泛的模型理解。
特征分析
本項工作中最重要的觀點之一是,字典學習可以提取比神經元更具單一含義的特征。因此,研究者對一些特定特征進行了詳細的演示,這些特征僅在高度特定的上下文中被激活。
對于每個學到的特征,研究者試圖證明以下幾項聲明:
1. 學到的特征在假設的上下文中具有高度特異性激活(當特征激活時,通常存在該上下文)。
2. 學到的特征對于假設的上下文具有高度敏感性激活(當上下文存在時,特征通常會激活)。
3. 學到的特征會導致適當的下遊行爲。
4. 學到的特征不對應任何單一神經元。
5. 學到的特征是普適的——在應用于不同模型時,通過字典學習會得到類似的特征。
此外,研究者著力展示每個特征的特異性,即一個特征只在某些相對罕見和具體的上下文中激活,這對于排除多義性十分重要。
在本項工作中,研究者以編號爲A/1/3450(A爲模型編號;1爲實驗設置編號,越大表示特征數量越多;3450爲特征編號)的一個阿拉伯文字特征爲例進行了具體分析,並對以上聲明進行了證明。這個特征非常具體,對阿拉伯文字的敏感性相對較強。更重要的是,如果以單個神經元的視角查看模型,這類行爲幾乎無法發現。
(一)特征特異性
在整體數據分布中,阿拉伯文本非常罕見,僅占0.13%的訓練token。但在所有能夠激活特征A/1/3450的token中,這些阿拉伯token占到了81%。這證明該特征幾乎只對阿拉伯文字的文本産生激活。
此外,研究者發現盡管該特征只會對阿拉伯文字作出高度特異性的響應,但也會對一些阿拉伯文字做出低活躍度的響應。研究者猜測這可能是因爲模型本身不夠精准、或者是自編碼器不夠完善導致的,因爲自編碼器的寬度可能小于模型正在使用的“真實特征”的數量。
(二)特征敏感性
實驗證明,A/1/3450並不對阿拉伯文字中的所有token都敏感。在隨機數據集示例中,它在前綴“ال”(相當于英語中的定冠詞“the”)的五個示例中未能觸發。然而,在這些示例中,另一個特定于阿拉伯文字的特征A/1/3134會被激活。此外,當一個阿拉伯字符被拆分爲多個token時,A/1/3450只會在構成字符的最後一個token上觸發,而A/1/3399會在構成字符的第一個token上觸發。這展示了這些特征之間的協作關系。
此外,研究者還度量了特征的活躍度與阿拉伯文字的活躍度之間的皮爾遜相關系數。這種度量綜合考慮了敏感度和特異性,相關系數達到了0.74,表明存在相當顯著的相關性。
(三)特征的下遊行爲
研究者表示,字典學習所得到的特征能夠對模型的輸出産生可解釋的因果效應,並且與特征的激活水平相一致。換句話說,可以通過控制特征的激活水平來引導模型的輸出。
爲了驗證這一觀點,研究者進行了一個有趣的實驗。實驗中讓模型預測以前綴1、2、3、4、5、6、7、8、9、10開頭的後續序列,並固定特征A/1/3450爲最大值。實驗結果顯示,模型會生成由阿拉伯文字組成的後續序列,而不加幹涉時則會生成數字序列。因此,研究者確信這些特征與網絡中MLP的功能真正相關,而不僅僅是基礎數據的一個特性。
▷圖 3:特征可以影響模型輸出。圖源:論文原文
(四)特征不對應單一神經元
爲了證明這一點,研究者分別統計了每一個神經元以及能夠最激活它們的20個文本數據示例(TOP 20)。研究結果顯示,僅有一個神經元的TOP 20中包含阿拉伯文本,且僅有一個阿拉伯示例,其余的十八個示例是英文,一個是西裏爾文。因此,單一的神經元無法充分表達A/1/3450所表達的語義。
更直觀的是,研究者找到了與特征A/1/3450最相關的神經元A/neurons/489,發現A/neurons/489會對多種不同的非英語語言産生響應,而阿拉伯文字符只占很小一部分。這進一步佐證了這些特征不是單個神經元的簡單對應,如果僅根據神經元進行分析,那麽阿拉伯文的特征將幾乎無法發現。
(五)特征的普適性
研究者認爲A/1/3450可能是一種通用特征,並且可能在其他模型中出現。研究者對另一個Transformer模型(同樣訓練數據但不同訓練種子)使用稀疏自動編碼器進行特征分解,找到了和A/1/3450具有極高相關性的特征B/1/1334,其相關性爲0.91。
爲了進一步驗證,研究者在B/1/1334上進行與A/1/3450相同的實驗,而實驗結果都十分相似,這進一步證明了特征可能在模型之間普遍存在。
在本項工作中,研究者還對DNA、Base64和Hebrew特征進行了類似的分析。此外,他們制作了一個可視化的網站,用來展示所有特征以及相應的語義、相關神經元和示例。
▷圖 4:可視化網站(https://transformer-circuits.pub/2023/monosemantic-features/vis/index.html)。圖源:論文原文
除了對特征逐個進行分析,研究者還進行了對特征的總體分析。
首先,研究者對所有特征的可解釋性進行了實驗,實驗中采用了三種解釋方法,包括人工解釋和兩種利用AI的自動解釋。實驗結果表明,盡管並非所有的特征都具有很高的可解釋性,但所有三種方法都一致地顯示,特征的可解釋性明顯高于神經元。
值得一提的是,在A/1自編碼器中學到的4096個特征中,有168個是“死”的(在1億數據集中沒有激活),有292個是“超低密度”的(在百萬分之一以下的數據集示例中激活),並且具有一些其他非典型特性。
其次,研究者試圖衡量這種基于特征分析的解釋方法對模型的解釋程度。換句話說,他們想了解,“這些特征覆蓋了模型功能的多少?是否完全覆蓋了?”
研究者通過將MLP的激活值替換爲稀疏自動編碼器的輸出值(即特征激活值),來嘗試衡量這一點。結果顯示,僅在MLP的對數似然損失上,信息僅僅損失了21%。
然而,這並不代表這些特征解釋了模型功能的79%。一方面,要解釋剩下的21%,可能需要提取多得多的特征;另一方面,研究者認爲這些特征不是完全單一含義的,也不是所有特征都是清晰可解釋的。
最後,研究者認爲,這些特征的特性來源于模型和數據的共同作用。爲了評估數據集的相關性對特征可解釋性的影響,研究者對具有隨機權重的單層模型進行了字典學習。
結果顯示,提取出的特征中,只有那些對應于單個token的特征是可解釋的,而其他特征都無法解釋。因此研究者得出結論——隨著學習的進行,模型在其激活中創造了比數據集中的token分布更豐富的結構。
我們能從特征中學到什麽
可解釋AI的最終目的是理解神經網絡,而將模型分解爲特征只是實現這一目標的手段。研究者對特征的“現象學(Phenomenology)”進行了深入討論,即特征能教給我們什麽有關神經網絡的經驗教訓。
(一)特征主題
在所有的特征中,上下文特征和上下文token特征最爲普遍。其中上下文(context)特征會被特定上下文的輸入激活(比如DNA序列),而上下文token(token-in-context)會被特定上下文中的特定token激活(比如數學公式裏的
這類上下文token特征數量巨大,例如在A/4(一種實驗設置)中,有一百多個主要響應不同上下文中的“the”這一token的特征。並且隨著學習的特征數的增加,上下文特征和純token特征會逐漸分裂爲上下文token特征。
研究者強調,在一個單層模型中找到的所有特征都可以解釋爲“動作特征”。也就是說,這些特征不僅可以被特定的輸入激活,也可以作爲一個“動作”刺激模型産生特定的輸出或預測。此外,特征的激活和動作所對應的token並不一定一致,比如一個特征可以由大寫字母激活並輸出下劃線。
(二)特征拆分
特征的一個主要特點是其呈簇狀分布,比如會有多個base64特征、多個阿拉伯文特征。隨著特征分解數量的增加,會有更多的base64特征出現。這種現象被稱作特征分裂。研究者通過二維UMAP(Uniform Manifold Approximation and Projection)分析發現,這些簇內的特征對應的字典向量之間的角度很小。
▷圖 5:特征簇。圖源:論文原文
舉例而言,當我們僅學習512個特征時(實驗A/0),發現特征A/0/341會被所有數學公式語境下的“the”激活。而當學習的特征數增多時(實驗A/2),這一特征會分解爲更多精確的特征,包括針對機器學習語境下的“the”的A/2/15021,針對抽象代數語境下的A/2/4878,和針對場論語境下的A/2/2609。也就是說,特征分裂會更精確地反映模型功能的差異。
此外,特征分裂的現象可以引導特征分析的學習模式。研究者可以首先學習較粗糙的特征集以了解模型行爲的類別,然後學習更精細的特征集以研究該行爲的微妙之處。這種學習模式可能非常適用于特征集較大的大型模型。
(三)特征普適性
關于特征的一個最重要的“元問題”是它們是否具有普適性,也就是說,不同模型是否會産生相同的特征。這個問題涉及到是否能將在研究一個模型時得到的寶貴經驗推廣到其他模型。更重要的是,普適性可能證明了提取到的特征是“真實的”,或者至少是可複制的。
正如前文分析的阿拉伯文特征一樣,可以在兩個Transformer模型中都能學習到。研究者用激活相似度來衡量兩個模型之間特征的相似度,結果顯示許多特征在兩個模型之間能找到對應的相似特征。
研究者進一步將發現的特征與其他文獻中報道的特征進行比較,以尋找更強的普遍性形式。例如,研究者在文獻[6]中找到了代表Base64(A/0/45)、十六進制(A/0/119)和大寫字母(A/0/317)的特征;在文獻[7]中找到了代表澳大利亞(A/3/16085)、加拿大(A/3/13683)和非洲(A/3/14490)的特征。
(四)特征狀態機
研究者在實驗中觀察到了一些類似于“有限狀態自動機”的特征組合。一個特征增加某種token的輸出概率,接著另一個特征在下一步被這一token觸發,依此類推。
舉例而言,當模型生成遵守“全大寫蛇形命名法”的名稱(比如ARRAY_MAX_VALUE)時,一個特征(A/0/207)在下劃線上激活並生成大寫字母,另一個特征(A/0/358)被大寫字母激活使模型生成下劃線。
這種雙節點的狀態機系統在Unicode字符中也很常見,而在中文語境下這種狀態機系統會更加複雜。而這種狀態機也使得模型似乎會記憶特定的短語。
總結
在本項工作中,研究者運用稀疏自編碼器將Transformer模型中複雜的激活模式分解爲語義相對單一且可解釋的特征。這些特征對輸入具有特定響應模式,甚至能夠操縱網絡的行爲。這爲解釋神經網絡內部的工作方式提供了新的視角。
對于分解得到的特征,研究者進一步分析了這些特征的特異性和敏感性,並嘗試通過設置這些特征的取值來控制網絡的輸出。此外,他們還證實了相似的特征普遍存在于模型之間,甚至是不同模型解釋方法之間。
更具價值的是,通過對特征現象學的分析,研究者總結了特征聚類、分裂、普遍性以及特征狀態機等現象和理論,爲逐步拆解複雜的大模型、揭示其隱藏的特征和工作原理提供了可能性。
這些研究對于進一步深入研究和改進神經網絡的性能具有重要意義,也爲我們解鎖人工智能的更多奧秘提供了新的線索。-[文:追問NextQuestion*作者:雲書*編輯 : lixia/钛媒體]
參考文獻:[1] Feature Visualization. C. Olah, A. Mordvintsev, L. Schubert.Distill. 2017.
[2] Linear algebraic structure of word senses, with applications to polysemy. S. Arora, Y. Li, Y. Liang, T. Ma, A. Risteski.Transactions of the Association for Computational Linguistics, Vol 6, pp. 483--495. MIT Press. 2018.
[3] Toy Models of Superposition. N. Elhage, T. Hume, C. Olsson, N. Schiefer, T. Henighan, S. Kravec, Z. Hatfield-Dodds, R. Lasenby, D. Drain, C. Chen, R. Grosse, S. McCandlish, J. Kaplan, D. Amodei, M. Wattenberg, C. Olah. Transformer Circuits Thread. 2022.
[4] Linguistic regularities in continuous space word representations. T. Mikolov, W. Yih, G. Zweig. Proceedings of the 2013 conference of the north american chapter of the association for computational linguistics: Human language technologies, pp. 746--751. 2013.
[5] Method of optimal directions for frame design. K. Engan, S.O. Aase, J.H. Husoy.1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258), Vol 5, pp. 2443--2446. 1999.
[6] Softmax Linear Units. N. Elhage, T. Hume, C. Olsson, N. Nanda, T. Henighan, S. Johnston, S. ElShowk, N. Joseph, N. DasSarma, B. Mann, D. Hernandez, A. Askell, K. Ndousse, A. Jones, D. Drain, A. Chen, Y. Bai, D. Ganguli, L. Lovitt, Z. Hatfield-Dodds, J. Kernion, T. Conerly, S. Kravec, S. Fort, S. Kadavath, J. Jacobson, E. Tran-Johnson, J. Kaplan, J. Clark, T. Brown, S. McCandlish, D. Amodei, C. Olah.Transformer Circuits Thread. 2022.
[7] Multimodal Neurons in Artificial Neural Networks. G. Goh, N. Cammarata, C. Voss, S. Carter, M. Petrov, L. Schubert, A. Radford, C. Olah. Distill. 2021. DOI: 10.23915/distill.00030