01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

AI幹6周=生物學家134年!斯坦福生物學基礎模型開啓生物學AI時代

2024031802:46


【新智元導讀】AI在生物學領域的成績再添一筆,斯坦福大學開發的生物學基礎模型,在短短6周內就發現了人類花了134年才發現的Norn細胞,生物學的AI時代正在開啓。

人類花了134年才發現Norn細胞,AI用了6周就做到了!

來自斯坦福大學的研究人員使用數百萬個真實細胞的化學和基因組成作爲原始數據訓練了一個AI大模型,

通過自行學習到的知識,模型可以將之前從未見過的細胞歸類爲1000多種類別中的某一種,Norn細胞就是其中之一。

而此時,距離科學家發表Norn細胞的發現才過去短短幾個月,也許早一點訓練模型的話,這個功勞說不定就被AI給搶了!


Norn細胞是一種腎細胞,可以感知缺氧狀態。當人體氧氣含量迅速下降時,Norn細胞就會出來搶救,通過消耗鐵來合成促紅細胞生成素(Epo)。

這可是能救命的能力,于是最初的發現者以傳說中控制人類命運的北歐神靈來命名了這個細胞。

而對于Norn細胞及其相關機制,至今仍是非常重要的研究,比如Nature上動不動就要揭開人家的面紗:



Norn細胞産生的Epo是氧穩態的主要調節因子,在紅細胞的生成過程中至關重要。

健康狀態下,Epo的調控能夠保證紅細胞按需生成,比如當人處于高海拔或者高強度運動時,紅細胞就會增加,滿足人體的供氧。

相應的,如果調控出現問題,就會影響人體健康:過低會導致貧血,過高會引起多發性骨髓瘤等疾病。

曆經134年的發現

1889年,一位名叫Francois-Gilbert Viault的法國醫生從安第斯山脈的一座山上爬下來,從他的手臂上抽血,並在顯微鏡下檢查。

結果顯示,Viault的血液中運送氧氣的紅細胞激增了42%。——于是他發現了人體的一種神秘力量:可以按需制造紅細胞。



最早,科學家們推測是激素,稱這種激素爲促紅細胞生成素。七十年後,研究人員在過濾了670加侖尿液後終于發現了這種促紅細胞生成素。

又過了大約50年後,也就是去年,以色列的生物學家宣布,他們發現了一種罕見的腎細胞,當氧氣降得太低時,它就會産生激素,——這就是掌管人類命運的Norn細胞。


從1889年到2023年,人類花了整整134年的時間才發現Norn細胞。

但是在去年夏天,斯坦福大學研究者訓練的AI模型,在短短六周內就發現了Norn細胞。

生物學基礎模型

研究人員訓練了一個類似于ChatGPT的模型,所不同的是,ChatGPT吃的是互聯網上的數十億條文本,而他們的模型喂的是數百萬個真實細胞的化學和基因組成的原始數據。

研究人員沒有告訴模型這些數據的含義,也沒有解釋不同種類的細胞具有不同的生化特征(哪些細胞在我們的眼睛中發光,或者哪些細胞産生抗體)。

模型自行處理數據,根據它們在廣闊的多維空間中彼此的相似性創建所有細胞的模型。

當訓練完成時,模型已經學到了驚人的知識,可以將以前從未見過的細胞歸類爲1000多種不同類型之一,這其中就包括Norn細胞。

斯坦福大學的計算機科學家Jure Leskovec表示,“這很了不起,因爲從來沒有人告訴模型腎髒中存在Norn細胞”。

斯坦福的這個模型是最近的幾個生物學基礎模型之一,它們不僅僅是整理生物學家收集的信息,而是正在發現基因如何工作以及細胞如何發育。

隨著模型規模的擴大、實驗室數據和計算能力的增加,科學家們預測會得到更深刻的發現。

比如揭示有關癌症和其他疾病的秘密,或者找出將一種細胞變成另一種細胞的秘訣。

用AI來理解生物學是一個有爭議的問題。不過樂觀的科學家認爲,基礎模型甚至能夠解決當前最大的生物學問題:是什麽將生命與非生命區分開來?

心臟細胞和鼹鼠



長期以來,生物學家一直試圖了解人體內的不同細胞如何利用基因來做維持生命所需的許多事情。

大約十年前,研究人員開始了工業規模的實驗,從單個細胞中撈出遺傳片段。

波士頓兒童醫院(Boston Children's Hospital)的醫師Christina Theodoris博士閱讀了谷歌工程師在2017年爲語言翻譯制作的AI模型,——也就是大名鼎鼎的Transformer。


Transformer擁有翻譯以前從未見過的句子的能力,Theodoris博士于是設想一個類似的模型是否可以自學,以理解細胞圖譜中的數據。

2021 年,她努力尋找一個實驗室來支持自己的想法,雖然遭到了很多質疑,但最終波士頓Dana-Farber癌症研究所的計算生物學家Shirley Liu給了她機會。



Christina Theodoris

Theodoris博士從106項已發表的人體研究中提取數據,總共包括3000萬個細胞,她將這些數據全部喂給了一個名爲GeneFormer的模型。

模型深入學習了人類基因在不同細胞中的行爲。例如,它預測關閉一個名爲TEAD4的基因會嚴重破壞心肌細胞,這與Theodoris團隊的實際測試相符。

在另一項測試中,Theodoris和同事爲模型提供了心跳節律有缺陷的人以及健康人的心髒細胞數據,並詢問模型如何修改不健康的細胞。

GeneFormer建議降低某四個基因的活性,而這四個基因以前從未與心髒病相關。

Theodoris團隊遵循了模型的建議,在參加實驗的病例中,有一半獲得了改善。

斯坦福大學團隊在幫助建立了世界上最大的細胞數據庫之一(CellXGene)後,開始研發基礎模型。

從去年8月開始,研究人員利用數據庫中的3300萬個細胞的數據訓練模型,並重點關注一種稱爲信使RNA的遺傳信息。他們還向模型提供了蛋白質的三維結構。


據此,模型學會了如何根據基因的開啓和關閉方式對一千多種類型的細胞進行分類。

研究人員將這個基礎模型命名爲通用細胞嵌入(Universal Cell Embedding,UCE),吸收了幾代生物學家發現的細胞類型數據。



此外,UCE還自學了一些關于細胞如何從單個受精卵發育的重要知識。UCE認識到,體內的所有細胞都可以根據它們在早期胚胎中三層中的哪一層來進行分組。

幫助開發UCE的斯坦福大學的生物物理學家Stephen Quake表示,“它基本上重新發現了發育生物學”。

UCE還能夠將知識轉移到新物種上。通過一種從未見過的動物(比如裸鼹鼠)的細胞遺傳圖譜,UCE可以識別出許多細胞類型。

“你可以帶來一個全新的生物體——雞、青蛙、魚,隨便什麽——把它放進去,你會得到一些有用的東西。”

——好家夥,新時代的黑暗料理。

在UCE發現Norn細胞後,Leskovec博士和他的同事們在CellXGene數據庫中查看了細胞的來源,因爲根據數據,模型有可能在腎髒外發現了Norn細胞。

人們之前並沒有在其他地方發現促紅細胞生成素激素。但可能存在一種新細胞,像Norn細胞一樣感知氧氣。

換句話說,UCE可能在生物學家之前發現了一種新型細胞。

細胞互聯網



當然了,像所有大模型一樣,生物模型有時也會出錯。

牛津大學的計算生物學家Kasia Kedzierska和她的同事們最近對GeneFormer和另一個基礎模型scGPT進行了一系列測試。

他們向模型展示了以前從未見過的細胞圖譜,並讓模型執行諸如細胞分類等任務。這些模型在某些任務上表現良好,但在一些情況下表現不如普通的程序。

雖然Kedzierska博士對這些模型寄予厚望,“但就目前而言,在沒有正確了解其局限性的情況下,不應該開箱即用。”

相對于大語言模型使用互聯網數據不斷改進自身,生物模型能得到的新數據量(細胞圖譜)是較小的,Kedzierska博士想要一個完整的細胞互聯網。

隨著更大的細胞圖譜上線,更多的細胞正在路上。

科學家們同時也在收集不同類型的數據,比如對粘附在基因上的分子進行分類,或者拍攝細胞照片來表明蛋白質的精確位置。

科學家們還在開發工具,讓基礎模型將自己學到的東西與生物學家已經發現的東西結合起來。

所有這些信息都將作爲基礎模型的養料,使它們越來越強大。



有了足夠的數據和計算能力,科學家們最終可能會創建出一個完整的細胞數學表示,——虛擬細胞。

這對生物學領域來說將是巨大的革命,從培養皿,轉移到了計算機。

也許,AI正在學著理解生命的意義。---[新智元報導*編輯:alan/來源: 新智元]

參考資料:https://www.nytimes.com/2024/03/10/science/ai-learning-biology.html