剛剛!2024年諾貝爾物理學獎頒給了這兩位AI奠基人
易科技10月8日消息,剛剛, 2024年諾貝爾物理學獎公布。約翰·霍普菲爾德 (John J. Hopfield) 和杰弗里·辛頓 (Geoffrey E. Hinton)被授予獎項,“以表彰他們爲利用人工神經網絡進行機器學習做出的基礎性發現和發明”。
他們的研究爲現代人工智能奠定了重要的理論基礎,使得計算機能夠模擬人類的記憶和學習過程。
此次諾貝爾物理學獎的授予,標志著人工智能研究特別是機器學習和神經網絡領域的重要性獲得了全球最高的學術認可。霍普菲爾德和辛頓的研究不僅極大地推動了現代計算技術的發展,還跨越了物理學、計算機科學與神經科學的學科界限,影響深遠。
約翰·霍普菲爾德因其提出的“霍普菲爾德網絡”而聞名,這一框架能夠存儲並重建信息,成爲早期人工神經網絡的一個重要模型。
霍普菲爾德的工作將神經網絡引入了記憶和模式識別領域,啓發了後來的深度學習技術。他的研究不僅推動了神經網絡的早期發展,還幫助人們從全新視角理解大腦的工作原理。
杰弗里·辛頓的貢獻則集中在反向傳播算法的開發上,這是現代神經網絡訓練中的關鍵技術。反向傳播允許人工神經網絡在處理數據時自動調整其內部權重,從而自主學習和發現數據中的複雜模式。
這項技術對今天的深度學習領域至關重要,廣泛應用于語音識別、圖像處理和自然語言理解等關鍵人工智能應用。(袁甯)
以下內容來自諾貝爾獎官方介紹:(致敬AI學者,本介紹由AI翻譯,網易進行校對)
2024年諾貝爾物理學獎——科普背景
他們利用物理學在信息中尋找模式
今年的諾貝爾物理學獎得主利用物理學工具,構建了一些方法,爲當今強大的機器學習奠定了基礎。約翰·霍普菲爾德(John Hopfield)創建了一種能夠存儲和重構信息的結構。
杰弗里·辛頓(Geoffrey Hinton)發明了一種可以獨立發現數據中屬性的方法,這對現如今的大型人工神經網絡至關重要。
許多人已經體驗到計算機可以在語言之間翻譯、解釋圖像,甚至進行合理的對話。或許不太爲人所知的是,這類技術長期以來一直對研究很重要,包括對大量數據的分類和分析。
過去十五到二十年間,機器學習的開發取得了爆炸性的發展,它采用了一種名爲“人工神經網絡”的結構。如今,當我們談論人工智能時,這通常就是我們指的技術。
雖然計算機無法思考,但機器如今能夠模仿諸如記憶和學習等功能。今年的諾貝爾物理學獎得主正是幫助實現這一點的人。他們利用物理學中的基本概念和方法,開發了能夠使用網絡結構處理信息的技術。
模仿大腦
人工神經網絡使用整個網絡結構來處理信息,其靈感最初源于對大腦如何工作的理解。20世紀40年代,研究人員開始思考大腦中神經元和突觸網絡背後的數學原理。
另一部分啓示來自心理學,神經科學家唐納德·赫布(Donald Hebb)提出了關于學習是如何發生的假設,認爲當神經元協同工作時,它們之間的連接會得到加強。
隨後,這些想法被應用于通過計算機模擬構建人工神經網絡。在這些模擬中,大腦中的神經元被模仿爲賦予不同數值的節點,而突觸則由節點之間的連接來表示,這些連接可以變得更強或更弱。赫布的假設至今仍被用于更新人工網絡的基本規則之一,這一過程被稱爲“訓練”。
聯想記憶
想象一下你試圖回憶一個你很少使用的詞,比如常見于電影院和演講廳的傾斜地板的術語。你在記憶中搜尋,你可能會想到“斜坡”(slope)……也許是“坡度”(gradient)?不對,應該是“梯坡”(rake),就是它!
這種通過相似詞語搜索正確詞語的過程類似于1982年物理學家約翰·霍普菲爾德發現的聯想記憶。霍普菲爾德網絡能夠存儲模式,並有方法在接收到不完整或稍微扭曲的模式時,找到最接近的存儲模式。
霍普菲爾德曾運用他的物理學背景研究分子生物學中的理論問題。在一次神經科學會議上,他接觸到了大腦結構的研究並深受啓發,開始思考簡單神經網絡的動態。
當神經元協同工作時,它們可以産生新的強大特性,這些特性在單獨觀察網絡的各個部分時是看不出來的。
霍普菲爾德網絡的工作原理
霍普菲爾德網絡通過節點和連接來構建,每個節點可以儲存獨立的數值——在霍普菲爾德的初步研究中,這些數值可以是0或1,類似黑白圖片中的像素。
霍普菲爾德用一種類似于物理學中自旋系統的能量屬性描述了網絡的整體狀態。能量通過一個公式計算,該公式包含了節點的所有數值以及它們之間的連接強度。
網絡通過輸入一個圖像來進行編程,節點被賦予黑(0)或白(1)的值,然後使用能量公式調整網絡的連接,使所存儲的圖像能量較低。
當另一個模式被輸入網絡時,有一條規則逐一檢查節點,如果節點的值改變後能量下降,則改變該節點的顔色。這個過程一直持續到沒有進一步改進的可能爲止,最終網絡往往會再現它曾訓練過的原始圖像。
網絡保存圖像在一個“景觀”中
霍普菲爾德構建的網絡中的節點通過不同強度的連接相互連接。每個節點可以存儲一個獨立的數值——在霍普菲爾德的最初研究中,這些數值可以是0或1,類似黑白圖片中的像素。
霍普菲爾德用一個類似物理學中自旋系統能量的屬性來描述網絡的整體狀態。通過一個公式計算能量,該公式涉及節點的所有數值以及它們之間連接的強度。
網絡通過輸入一個圖像來進行編程,節點被賦予黑(0)或白(1)的數值。然後使用能量公式調整網絡的連接,使得保存的圖像具有較低的能量。
當網絡輸入一個新模式時,它會依次檢查每個節點,並根據能量是否降低來決定是否改變節點的值。如果改變一個黑像素爲白像素能夠降低能量,它就會發生變化。
這個過程一直持續到無法再找到進一步的改進爲止。當達到這個點時,網絡通常會再現它訓練過的原始圖像。
如果僅僅保存一個模式,或許這並不顯得十分特別。你可能會想,爲什麽不直接保存圖像本身,然後與輸入圖像進行比較呢?霍普菲爾德的方法特別之處在于,它可以同時保存多個圖像,並且網絡通常能夠區分這些圖像。
霍普菲爾德將網絡尋找存儲狀態比作在山峰和山谷的景觀中滾動一個小球,球的移動會因摩擦而減緩。如果小球從某個特定位置釋放,它會滾動到最近的谷底並停在那裏。
同樣,當網絡接收到一個接近存儲模式的輸入時,它會不斷“向前滾動”,直到到達能量景觀中的某個谷底,從而找到最接近的存儲模式。
霍普菲爾德網絡能夠重構包含噪聲或部分丟失的數據。
使用十九世紀物理學進行分類
記住一個圖像是一回事,但解釋圖像中描繪的內容則需要更多的技巧。
即使是很小的孩子也可以自信地指出不同的動物,比如狗、貓或松鼠。雖然有時他們可能會出錯,但很快就能夠幾乎每次都正確。孩子們不需要看到任何關于物種或哺乳動物的圖表或解釋,通過遇到幾種動物的例子,他們頭腦中自然而然地將這些類別整理好。
當霍普菲爾德發表關于聯想記憶的文章時,杰弗里·辛頓正在美國匹茲堡的卡內基梅隆大學工作。他早期學習了實驗心理學和人工智能,並思考機器是否可以像人類一樣處理模式,自己發現分類並解釋信息。與同事特倫斯·塞諾夫斯基(Terrence Sejnowski)一起,辛頓從霍普菲爾德網絡開始,並使用統計物理學的想法構建了一些新的東西。
統計物理學描述了由許多相似元素組成的系統,比如氣體中的分子。很難或幾乎不可能追蹤氣體中每個單獨的分子,但可以通過集合來確定氣體的總體性質,比如壓力或溫度。
通過統計物理學可以分析系統中各個狀態的聯合可能性,並計算它們發生的概率。
一些狀態比其他狀態更可能發生,這取決于可用能量的多少。這些能量的分布可以用19世紀物理學家路德維希·玻爾茲曼的方程來描述。辛頓的網絡采用了這一方程,該方法于1985年以“玻爾茲曼機”的名字發表。
識別同類型的新例子
玻爾茲曼機通常使用兩種不同類型的節點。一組節點是可見節點,信息輸入其中。另一組是隱藏節點,它們的值和連接也影響整個網絡的能量。
該機器通過逐個更新節點值的規則來運行,最終機器會進入一種狀態,在這種狀態下,節點的模式可以改變,但網絡整體的屬性保持不變。根據網絡的能量方程,每個可能的模式都會有一個特定的概率。當機器停止運行時,它會創建一個新的模式,這使玻爾茲曼機成爲生成模型的早期實例之一。
經過訓練的玻爾茲曼機可以識別出它從未見過的信息中的熟悉特征。就像你第一次見到朋友的兄弟姐妹時,可以立即看出他們的親屬關系。同樣,玻爾茲曼機能夠識別出完全新的例子,只要它屬于訓練數據中的某一類別,並將其與不相似的材料區分開來。
不同類型的網絡
霍普菲爾德網絡、玻爾茲曼機以及受限玻爾茲曼機有一些重要區別。
霍普菲爾德網絡是一個聯想記憶網絡,所有節點彼此連接,信息在所有節點之間輸入和讀取。
玻爾茲曼機通常由兩層構成,信息通過可見節點層輸入和讀取。隱藏節點層影響整個網絡的運作。
受限玻爾茲曼機則沒有同一層節點之間的連接。它們通常以鏈式方式使用,一個接一個。訓練完第一個受限玻爾茲曼機後,隱藏節點的內容會被用于訓練下一個機器,依此類推。
玻爾茲曼機可以通過示例學習,而不是通過明確的指令。它通過更新網絡中連接的值來進行訓練,以確保訓練時輸入到可見節點的示例模式在機器運行時具有最高的發生概率。如果在訓練過程中重複某一模式,該模式的發生概率會更高。訓練還會影響輸出與訓練模式相似的新模式的概率。
經過訓練的玻爾茲曼機能夠識別它以前未見過的特征。就像見到朋友的兄弟姐妹時,你可能會立即看出他們的親屬關系。類似地,玻爾茲曼機可以識別屬于訓練材料中的某一類的新例子,並區分出與其不相似的材料。
機器學習——今天與明天
由于約翰·霍普菲爾德和杰弗里·辛頓從1980年代開始的貢獻,他們爲大約在2010年左右興起的機器學習革命奠定了基礎。
我們現在所看到的發展得益于大量用于訓練網絡的數據以及計算能力的巨大提升。今天的人工神經網絡往往非常龐大,由許多層組成。這些被稱爲深度神經網絡,訓練方式稱爲深度學習。
簡要回顧霍普菲爾德在1982年發表的關于聯想記憶的文章,可以對這種發展有一些體會。在他的文章中,他使用了一個包含30個節點的網絡。
如果所有節點彼此連接,則有435個連接。節點有它們的數值,連接有不同的強度,總共有不到500個參數需要追蹤。他還嘗試了一個100個節點的網絡,但由于當時使用的計算機限制,計算起來非常複雜。
如今的大型語言模型相比之下規模龐大得多,它們的網絡可以包含超過一萬億個參數(即一百萬的百萬)。
目前,許多研究人員正在開發機器學習的應用領域。哪一領域最終最具可行性還有待觀察,同時圍繞這項技術的發展和使用也展開了廣泛的倫理討論。
由于物理學爲機器學習的發展提供了工具,因此有趣的是,物理學作爲一個研究領域也在從人工神經網絡中受益。
機器學習早已在一些我們熟悉的物理學諾貝爾獎領域中使用,如利用機器學習來篩選和處理發現希格斯粒子所需的大量數據。其他應用還包括減少測量黑洞碰撞産生的引力波中的噪聲,或搜索系外行星。
近年來,這項技術還開始用于計算和預測分子和材料的屬性——比如計算蛋白質分子的結構,這決定了它們的功能,或推斷哪些新材料可能擁有最適合用于更高效太陽能電池的特性。
約翰·霍普菲爾德
1933年生于美國伊利諾伊州芝加哥。1958年獲得美國康奈爾大學博士學位。現任職于美國普林斯頓大學教授。
杰弗里·辛頓
1947年生于英國倫敦。1978年獲得英國愛丁堡大學博士學位。現任職于加拿大多倫多大學教授。
瑞典皇家科學院決定將2024年諾貝爾物理學獎授予 :“他們爲實現使用人工神經網絡進行機器學習的基礎性發現和發明。”---[文源:易科技報導 /責任編輯 : 袁甯]