01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

腦機接口、腦波和fMRI,AI正在掌握讀心術

2023051518:23

讀心術可以說是人類最想要的超能力之一,同時也必定是人們最不希望別人有的一種超能力。只需在搜索引擎中輸入「讀心術」這個關鍵詞,你就能找到大量相關書籍、視頻和教程,足可見人們對這一能力的痴迷。但拋開那些心理學、行為學或神秘主義的內容不談,單從技術角度看,人類的大腦信號是存在模式的,也因此讀心術(解析大腦信號的模式)是可能實現的。

現如今,隨着 AI 技術的發展,其分析模式的能力也越發精進,讀心術正在變成現實。

前些天,得克薩斯大學奧斯汀分校發表於 Nature Neuroscience 一篇論文引起了熱議,其可以通過非侵入式地讀取大腦信號而重建出語義相符的連續語句 —— 不出意外,該模型同樣使用了當前大受追捧的 GPT 語言模型。但我們先暫時按下這項最新的成果不表,看看稍早時間其它一些有關 AI 讀心術的研究成果,以大概理解該課題的當前研究圖景。

寬泛地說,讀心術可分為兩大類:直接讀心術和間接讀心術。

間接讀心術是指通過間接的特徵來揣度一個人的想法和情緒。這些特徵包括人臉表情、身體姿態、體溫、心率、呼吸節律、說話語速和語氣等。近些年基於大數據的深度學習技術已經能讓 AI 相當準確地通過人臉表情識別情緒,比如輕量級的開源人臉識別軟件庫 Deepface 能在年齡、性別、情緒和種族多項特徵上整體達到 97.53% 的測試集準確度。但基於上述特徵的情緒分析技術通常並不會被視為讀心術,畢竟人類自身也或多或少能通過他人的表情等特徵猜到其情緒,因此本文關注的讀心術僅限於直接讀心術。

使用 Deepfake 庫得到人臉屬性分析結果


直接讀心術是指直接將大腦信號「翻譯」成他人能理解的形式,比如文本、語音和圖像。目前而言,研究者關注的大腦信號主要有三種:侵入式腦機接口、腦波(brain wave)和神經成像(neuroimaging)。

基於侵入式腦機接口的讀心術

侵入式的腦機接口可以說賽博朋克作品的標配,你能在《黑客帝國》和《賽博朋克 2077》等許多電影或遊戲中看到它。其基本思路就是在大腦或神經系統中或附近讀取神經細胞之間傳遞的電信號。相較於非侵入式的方法,侵入式讀取的大腦信號通常準確度更高,噪聲也更低。

2021 年,在論文《Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria》中,來自加利福尼亞大學舊金山分校的研究者提出使用 AI 幫助有語音障礙的殘障人士交流。在該研究中,受試者是一位發音不清且獨臂的殘障人士。值得注意的是,他們在實驗中使用了一種神經植入物來獲取信號,該植入物組合使用了高密度皮層腦電圖電極陣列和一個經過皮膚的連接器。這種侵入式的方法自然具備更高的準確度 —— 能達到最高 98% 的準確度和 75% 的中位數解碼率,該模型的解碼速度可達到最高每分鐘 18 個詞。此外,語言模型的應用也極大提升了解碼結果的意義表達,使其不再只是簡單的字符串堆積。

之後,該團隊在 2022 年的 Nature Neuroscience 論文《Generalizable spelling using a speech neuroprosthesis in an individual with severe limb and vocal paralysis》中進一步改進了他們的系統,整合了新興的語言模型 GPT,使性能得到了進一步提升。

直接語音腦機接口工作流程示意圖


具體來說,其工作流程為:

    a 在語句拼寫試驗開始時,參與者嘗試不發音地默念一個詞,用意識激活拼寫器。

    b 在任務過程中,從所記錄的皮層數據實時地提取神經特徵(高伽馬活動和低頻信號)。麥克風信號表明任務過程中沒有語音信號。

    c 語音檢測模型,其由一個循環神經網絡(RNN)和閾值運算構成,其任務是檢測出語音表達嘗試的神經特徵。一旦檢測到受試者的說話嘗試,就啟動拼寫流程。

    d 在拼寫流程中,受試者通過每 2.5 秒發生一次的字母解碼周期拼寫其想表達的信息。每個周期,受試者都能看到一個倒計時,倒計時結束是開始提示。收到開始提示後,受試者嘗試無聲說出代表所要字母的代碼詞。

    e 在拼寫過程中,為所有電極通道計算高伽馬活動和低頻信號,並將其分配到 2.5 秒長度的非重疊時間窗口中。

    f 當參與者想要無聲說出 26 個可能代碼詞中的每一個或試圖操作一個手部運動命令時,基於 RNN 的字母分類模型處理每一個神經時間窗口來預測其概率。

    g 參與者在拼寫完想表達的信息後,他會嘗試擠壓自己的右手來結束拼寫流程和讓句子收尾。

    h 與手部運動命令有關的神經時間窗口會被傳遞給分類模型。

    i 如果分類器確認參與者試圖使用手部運動命令,則使用一個基於神經網絡的語言模型(DistilGPT-2)對有效語句進行重新評分。重新評分後,最有可能的句子作為最終預測結果。

另一項植入式腦機接口的研究則宣稱實現了高性能的基於手寫的大腦到文本通信。在 Nature 論文《High-performance brain-to-text communication via handwriting》,斯坦福大學的研究者成功讓脊椎損傷的癱瘓人士能以每分鐘 90 字符的速度打字,並且在線原始準確度達到了 94.1%,使用了語言模型的離線準確度更是超過 99%!

實時解碼受試者嘗試手寫的大腦信號



圖中 a 是解碼算法的示意圖。首先,每個電極上的神經活動被暫時合併及平滑化。然後,使用 RNN 將神經群體時間序列轉換成概率時間序列,其描述了每個字符的可能性和任何新字符開始的概率。

該 RNN 有 1 秒的輸出延遲(d),讓其在確定字符的身份之前有時間完整地觀察每個字符。

最後,設定字符概率的閾值,為實時使用得到「原始在線輸出」(當新字符的概率在時間 t 超過某個閾值時,就在時間 t+0.3 秒給出最有可能的字符並將其展示在屏幕上)。

在離線的回顧性分析中,研究者將字符概率與一個具有大詞彙庫的語言模型組合到一起,用以解碼參與者最有可能寫下的文本。

基於腦波的讀心術

基於近幾十年腦科學的研究成果,我們知道大腦中神經細胞傳遞信號過程中會有微小電流,這就會產生細微的電磁波動。當大量神經細胞同時工作時,可採用非侵入式的精密儀器捕獲到這些電磁波動。1875 年,科學家首次在動物身上觀察到了一種流動的電場現象,即腦波。1925 年,Hans Berger 發明了腦電圖(EEG),並首次記錄到了人類大腦的電活動現象。此後的近百年裡,EEG 技術不斷改進,其精度和實時性能都已經達到了相當高的程度並已得到了商業應用,現在你甚至能買到便攜式的腦波檢測分析設備。



幾種不同的腦波波形樣本,從上到下依次為 γ 波(35Hz 以上)、β 波(12-35 Hz)、α 波 (8-12 Hz)、θ 波 (4-8 Hz)、δ 波(0.5-4 Hz),它們分別大致於不同的大腦狀態

通過腦波來分析人的情緒和想法方面,最常見的方法是分析 P300 波,即受試者的大腦在看到刺激物後大約 300 毫秒時產生的腦波。解析腦波的研究在腦波被發現以後就一直沒有中斷,比如 2001 年,該領域頗具爭議的研究者 Lawrence Farwell 提出了一種算法,可以通過評估腦波響應來檢測受試者是否經歷過某個事件,並且即便受試者試圖隱瞞也無濟於事。也就是說,這是一種基於腦波的測謊儀。

由於腦波本身是一種具備模式的信號,因此使用神經網絡來分析腦波也就成了自然而然的事情。下面我們將通過近些年的一些研究介紹科學們正通過什麼方法來將腦波信號翻譯成語音、文本和圖像。

2019 年,俄羅斯一個研究團隊提出了一個視覺腦機接口(BCI)系統,可基於腦波來重建圖像。其研究思路很直接,就是從腦電波信號提取特徵,然後提取特徵向量,再進行映射,找到特徵在隱藏空間中的位置,最後解碼和重建出圖像。其中,圖像解碼器是用了一個圖像到圖像卷積自動編碼器模型的一部分,包含 1 個全連接輸入層,之後是 5 個去卷積模塊,每個模塊都由 1 個去卷積層和 ReLU 激活組成,而最後一個模塊的激活是雙曲正切激活層。

該模型另一個重要組件是 EEG 特徵映射器,其功能是將數據從 EEG 特徵域轉譯到圖像解碼器的隱藏空間域。具體來說,該團隊在模型中使用 LSTM 作為循環單元並使用了注意力機制。其損失函數是最小化 EEG 和圖像的特徵表徵之間的均方誤差。詳情參閱他們的論文《Natural image reconstruction from brain waves: a novel visual BCI system with native feedback》。

EEG 特徵映射器的模型結構 (a) 和訓練例程 (b)



下面是一些示例結果,可以看出重建圖像與原始圖像之間存在顯著關聯。

受試者看到的原始圖像(每對圖左)以及根據受試者腦波重建的圖像(每對圖右)



2022 年,Meta AI 團隊在論文《Decoding speech from non-invasive brain recordings》提出了一種可從腦電圖(EEG)或腦磁圖(MEG)信號解碼出語音信號的神經網絡架構。

                                                               Meta AI 團隊的方法示意圖



該團隊採用的方法是讓實驗參與者一邊聽故事或句子一邊記錄其大腦活動的腦電圖或腦磁圖。為此,該模型首先會通過一個預訓練自監督模型(wav2vec 2.0)提取 3 秒語音信號(Y)的深度上下文表徵,同時還會學習相應對齊的 3 秒窗口(X)中的大腦活動的表徵(Z)。表徵 Z 是由一個深度卷積網絡給出的。在評估時,研究者向模型輸入剩下的句子,並根據每個大腦表徵計算出每段 3 秒的語言片段。由此,這樣的解碼過程可以做到 zero-shot,從而讓模型可以預測出訓練集不曾有的音頻片段。

基於神經成像的讀心術

科學家還能使用一種名為功能性磁共振成像(fMRI)的技術來了解大腦的活動情況。這項技術誕生於 1990 年代初期,其工作機制是通過磁共振成像觀察大腦中的血液流動來檢測大腦活動。該技術能揭示出大腦中特定功能區是否活躍。

當我們說某個大腦區域「更活躍」時,我們指的是什麼呢?fMRI 又是如何檢測這種活動的?

當一個大腦區域中的神經元開始發出比之前更多的電信號時,我們就說這個大腦區域更活躍了。舉個例子,如果你在抬腿時某個特定的大腦區域變得更加活躍,那麼就可以認為這片大腦區域負責控制抬腿動作。

fMRI 是通過檢測血液中的含氧水平來檢測這種電活動。這被稱為血氧水平依賴(BOLD)反應。其工作方式為:當神經元更加活躍時,就會需要紅細胞提供更多氧。為此,周圍的血管就會變寬以便讓更多血液流過。所以,當神經元更加活躍時,氧濃度就會上升。相比於脫氧血液,含氧血液產生的場干擾更少,這讓神經元的信號(實際上就是水中的氫)能持續更長時間。所以當信號留存時間更長時,fMRI 就知道該區域有更多氧,也就說明這裡更加活躍。用顏色編碼這種活動之後,就能得到 fMRI 影像。

接下來我們就看看前文提到的使用 GPT 重建出語義相符的連續語句的研究《Semantic reconstruction of continuous language from non-invasive brain recordings》。他們提出了一種非侵入式的解碼器,可以根據 fMRI 記錄中語義含義的大腦皮層表徵而重建出連續的自然語言。當出現新的大腦記錄時,該解碼器能生成可理解的詞序列,其能復現受試者聽到的語音、想象的語音甚至無聲視頻中的含義,這表明單個語言解碼器可以應用於一系列不同的語義任務。該語言解碼器的工作流程如下:



(a) 當三位受試者聽 16 小時的敘事故事時記錄到的 BOLD fMRI 反應。系統為每位受試者都估計了一個編碼模型,以預測作為刺激物的詞的語義特徵所引發的大腦反應。(b) 為了基於全新的大腦記錄重建語言,解碼器維持着一個候選詞序列集合。當檢測到新的詞時,會有一個語言模型為每個序列提議連續性,然後會用該編碼模型評估每種連續條件下所記錄大腦反應的可能性。最後保留最有可能的連續序列。

在這其中,語言模型使用的正是現處於 AI 領域研究核心的 GPT 模型。研究者在一個大型語料庫上對所用 GPT 進行了微調,該語料庫包含超過 2 億詞 Reddit 評論以及來自 The Moth Radio Hour 和 Modern Love 的 240 個自傳故事。模型訓練了 50 epoch,最大上下文長度為 100。下面展示了一些實驗結果:



最後我們再來看看這一篇 CVPR 2023 論文《Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding》。來自新加坡國立大學、香港中文大學和斯坦福大學的研究者宣稱他們提出的 MinD-Vis 模型首次實現了將基於 fMRI 的大腦活動信號解碼成圖像的成就,並且重建出的圖像不僅細節豐富而且還包含準確的語義和圖像特徵(紋理和形狀等)。

MinD-Vis 工作流程示意圖



我們來看看 MinD-Vis 的兩個工作階段。如圖所示,在 A 階段,使用 SC-MBM(稀疏編碼的掩碼大腦建模)在 fMRI 上進行預訓練。然後為 fMRI 隨機加掩碼,再將它們 token 化成大型嵌入。研究者訓練了一個自動編碼器來恢復被掩蓋的圖塊。在 B 階段,通過雙條件(double conditioning)與隱含擴散模型(LDM)整合。使用一個隱含維度投射算法,通過兩條路徑將 fMRI 隱含空間投射到 LDM 條件空間。其中一條路徑是直接連接 LDM 中的交叉注意力頭。另一條路徑是將 fMRI 隱含量加到時間嵌入中。

從論文給出的實驗結果看,這個模型的讀心能力確實非常不錯:

其中左圖是受試者看到的原始圖片,紅框標記了 MinD-Vis 的重建結果,而後面三列是其它方法的結果。


結語

隨着數據量的增長和算法的改進,人工智能正在越來越深刻地理解我們這個世界,而我們人類作為這個世界的一部分自然也是被理解的對象 —— 通過發掘人類大腦的活動模式,機器正在獲得從底層理解人類所思所想的能力。也許未來某一天,AI 能夠成為真正的讀心大師,甚至可能還將具備高保真地捕捉人類夢境的能力!

上文只是簡單介紹了 AI 在直接讀心方面的一些近期研究成果,而實際上已經有一些公司開始致力於相關技術的商業化,比如以 Neuralink 和 Blackrock Neurotech 為代表的腦機接口和神經技術公司,它們未來的潛在產品將具有激動人心的應用前景,比如幫助無法表達的殘障人士重建與世界的聯繫、遠程操控在深海和太空等危險區域作業的機器。同時,這些技術的發展也讓許多人看到了破解人類意識之謎的希望。

當然,這類技術也引發了不少人關於隱私、安全和道德倫理的擔憂,畢竟我們已經在許多電影或小說中看到過這類技術被用於邪惡目的了。現如今,這類技術的進一步發展已經不可避免,因此如何確保這些技術與人類的利益保持一致就成了需要所有相關人士和政策制定者思考和討論的重要問題。-[機器之心報導*作者:Panda W/機器之心Pro]