扎克伯格夫婦署名文章:幫助學界在本世紀末治癒、預防或管理疾病
作為最小的活體單元,細胞是理解疾病的關鍵,但關於它們的很多信息仍然未知。例如,我們不知道數十億個生物分子,如 DNA、蛋白質和脂質是如何聚集在一起成為一個細胞的。
我們也不知道我們體內多種類型的細胞是如何相互作用的。對細胞、組織和器官如何患病,以及它們需要什麼才能保持健康我們的了解依然非常有限。
人工智能可以幫助我們回答這些問題,並將這些知識用於改善全球的健康和福祉,前提是研究人員能夠獲得、並能很好地利用這種強大的新技術。
想象一下,如果我們有一種方法,可以用人工智能模型來表示每種細胞狀態和細胞類型。「虛擬細胞」就可以模擬我們身體中任何類型細胞的外觀和已知特徵,比如檢測視網膜中光線的視杆和視錐細胞,以及維持心臟跳動的心肌細胞。
科學家可以使用這樣的模擬來預測細胞對特定條件和刺激的反應:比如了解免疫細胞對於感染的反應,了解孩子出生時患有罕見疾病時在細胞水平上會發生什麼,甚至患者的身體對新藥的反應。這樣的話,科學發現、患者診斷和治療決策都將變得更快、更安全、更高效。
在陳-扎克伯格倡議(CZI,Chan Zuckerberg Initiative)中,我們正在幫助生成科學數據,通過建立計算基礎設施力圖實現上述目標,並為科學家提供所需的工具,利用人工智能的新進展來幫助終結疾病。
(來源:視頻截圖)
01.數據
人工智能的進步,外加上大量的科學數據,已經預測了幾乎所有已知蛋白質的結構。DeepMind 根據 50 年來精心收集的數據訓練了 AlphaFold,在短短五年之內他們解開了蛋白質結構之謎。
ESM,是由 Meta 開發的另一個人工智能系統,它是一個蛋白質語言模型,其訓練數據不是單詞,而是 6000 多萬個蛋白質序列。它的應用場景非常廣泛,比如預測蛋白質結構和單個序列突變的影響。
虛擬細胞建模系統也需要大量的數據。自 2016 年以來,CZI 倡議一直支持全球研究人員生成和注釋有關細胞及其成分的數據,構建工具來集成這些大型數據集,並使研究人員能夠學習和借鑑這些數據集。
據了解,一個全球性質的研究人員聯盟正在構建人體中每種細胞類型的參考圖譜,而我們的舊金山生物中心正在創建全微生物細胞圖譜。這些數據集共同形成了開源的人類細胞圖譜的初稿,該圖譜將繪製從發育階段到成年階段的人體細胞類型。
我們的 SF Biohub 和陳-扎克伯格成像研究所正在合作開發 OpenCell,它可以繪製我們細胞中不同蛋白質的位置。
科研人員還在使用 Geneformer 和 scGPT 等機器學習模型來探索有關基因和細胞的大量數據,其中包括來自 CELLxGENE 的數據。CELLxGENE,是 CZI 科技團隊為加快單細胞研究而創建的開源軟件平台。
同樣,通過冷凍電子斷層掃描的新原型數據門戶,我們的成像研究所和科學技術團隊正在聘請機器學習專家開發顯微鏡數據的自動注釋。這將把曾經需要幾年或幾個月的數據處理時間縮短到幾周。
我們正在使數據儘可能地具有代表性,以確保科學突破惠及所有人。這包括將兒科數據納入人類細胞圖譜,填補我們對兒童疾病細胞機制的認識空白。
通過我們的 Ancestry Networks 撥款,我們還支持研究人員根據黑人、拉丁裔、東南亞人和土著人的組織樣本,以及其他種族、族裔和祖先背景研究不足的人,生成其細胞的參考數據。
科研人員已經利用這些精心準備的數據集做出了發現。一項研究發現,與囊性纖維化有關的斷裂基因,能由科學家此前從未見過的一種細胞表達。而另一項研究則確定了最容易感染新冠病毒 SARS-CoV-2 的呼吸細胞。
其他人正在利用這些數據尋找剪接基因的新選擇,這或許可以糾正特定細胞中的致病突變。
這些發現是開發疾病治療方法的第一步,我們相信人工智能可以顯著加快學界的發現速度。
02.計算
為了創建一個虛擬細胞,我們正在構建一個擁有 1000 多個 H100 GPU 的高性能計算集群,這將使我們能夠開發新的人工智能模型,使用各種關於細胞和生物分子的大型數據集進行訓練。
我們希望隨着時間的推移,這將使科學家能夠模擬健康和患病狀態下的每種細胞類型,並對這些模擬進行查詢,以了解難以捉摸的生物現象可能會如何發生,包括細胞是如何形成的、它們是如何在全身相互作用的、以及致病變化究竟是如何影響它們的。
我們的計算集群不會像私營部門用於商業產品的計算集群那麼大,但一旦建成並運行,它將成為世界上最大的非營利科學研究人工智能集群之一。
這將是學術團隊的重要資源,他們希望能以新的方式使用數據集,但由於訪問最新人工智能技術的高昂成本而受到阻礙。而與我們其他工具一樣的是,這些數字細胞模型及其相關數據和應用程序將向世界各地的研究人員開放。
03.人
生成這些數據集,構建這個計算集群,並將人工智能用於生物學,這是一種跨學科協作的努力。
我們的 Biohub Network 匯集了來自不同學科和機構的專家,以應對一些在傳統學術環境中無法解決的棘手挑戰和風險。
通過 CELLxGENE 等項目,世界各地的研究人員幫助建立了一個單細胞數據語料庫,這證明了開放科學的共享資源,可以在更多合作者貢獻資源和腦力的情況下有效地發展。
當 CZI 於 2016 年首次啟動我們的科學研究時,我們設定了一個大目標:幫助科學界在本世紀末治癒、預防或管理所有疾病。
我們相信,如果領先的科學家和技術人員共同努力,充分利用人工智能創造的機會,這一目標是可能的,並且將取得重大進展。我們可以從解開我們細胞的奧秘開始,這將有助於終結我們所知的許多疾病。
作者簡介①:普莉希拉·陳(Priscilla Chan)是陳-扎克伯格倡議的聯合創始人和聯合首席執行官。普莉希拉作為一名兒科醫生和教師,與美國加州灣區社區的患者和學生合作,努力讓學習更加個性化,找到管理和治癒疾病的新途徑,並為更多人擴大機會。早年間普莉希拉在美國哈佛大學獲得生物學學士學位,後在美國加州大學舊金山分校(UCSF)獲得醫學博士學位。
作者簡介②:馬克·扎克伯格(Mark Zuckerberg)是陳-扎克伯格倡議的聯合創始人和聯合首席執行官。作為 Meta 的創始人、董事長和 CEO,扎克伯格致力於增強人們的能力和建立社區,並在 CZI 的工作中積累了豐富的技術經驗。在 2004 年搬到加州的帕洛阿爾托之前,扎克伯格曾在哈佛大學學習計算機科學。
-(支持:Ren/DeepTech深科...)