01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

AlphaFold3重磅開源,諾獎級AI 顛覆世界 !GitHub斬獲1.8k星,本地即可部署...

2024111222:31

* AlphaFold3重磅開源,諾獎級AI 顛覆世界 !GitHub斬獲1.8k星,本地即可部署 *

【新智元導讀】六個月的爭議後,諾獎級AI AlphaFold3開源了。這個在蛋白質結構預測領域掀起波瀾的AI——期待它的開源推動更多科學家的大量創新。文後附有安裝和運行步驟詳解哦!

AlphaFold3源碼終于開放了!

六個月前,AlphaFold3橫空出世震撼了整個學術界。AlphaFold的開發人也憑借它在上個月贏得了諾貝爾化學獎。



然而,這個諾獎級AI的「不開源」一直引起學界的不滿。谷歌DeepMind只推出了一個免費研究平台「AlphaFold Server」,而且該服務有每日的次數限制。相比于開源的AlphaFold2來說,這種使用方式缺失了很多自由度。

好在它現在終于開源了!開源後,生化醫藥的科學家們可以在本地部署AlphaFold3,極大地縮短了新藥、疫苗等研發進程。

現在,任何人都可以下載AlphaFold3軟件代碼並進行非商業使用,但目前只有學術背景的科學家可申請訪問訓練權重。

GitHub上的AlphaFold3開源項目代碼目前已斬獲1.8k星。

開源項目:https://github.com/google-deepmind/alphafold3

AlphaFold3的「效仿者」們

在過去的幾個月中,不少公司都依靠AlphaFold3論文中的僞代碼,爭相發布了各自受到AlphaFold3啓發的類似模型。

比如,獲得OpenAI投資的AI生物初創Chai Discovery,就在9月發布了用于分子結構預測的新型多模態基礎模型Chai-1,並附帶了一份技術報告,比較了Chai-1與AlphaFold等模型的性能。

官網地址:https://www.chaidiscovery.com/

另一家位于美國舊金山的公司Ligo Biosciences則發布了一個無使用限制的AlphaFold3版本。但它尚未具備完整的功能,比如模擬藥物和蛋白質以外分子的能力。

項目地址:https://github.com/Ligo-Biosciences/AlphaFold3

其他團隊也正在開發沒有使用限制的AlphaFold3版本:AlQuraishi希望在年底前推出一個名爲OpenFold3的完全開源模型。這將使制藥公司能夠使用專有數據(例如結合不同藥物的蛋白質結構)重新訓練模型,從而有可能提高性能。

開源的重要性

過去一年裏,許多公司發布了新的生物AI模型,這些公司對開放性采取了不同的態度。

威斯康星大學麥迪遜分校的計算生物學家Anthony Gitter對盈利性公司加入他的領域沒有異議——只要他們在期刊和預印本服務器上分享工作時遵循科學界的標准。

「我和其他人希望盈利性公司們也分享關于如何進行預測的信息,並以我們可以審查的方式發布AI模型和代碼,」Gitter補充道,「我的團隊不會基于無法審查的工具進行構建和使用。」

DeepMind科學AI負責人Pushmeet Kohli表示,幾種AlphaFold3複制品的出現表明,即使沒有開源代碼,該模型也是可複現的。

他補充說,未來他希望看到更多關于出版規範的討論,因爲這一領域越來越多地由學術界和企業研究人員共同參與。

此前,AlphaFold2的開源推動了其他科學家的大量創新。

例如,最近一次蛋白質設計競賽的獲勝者使用該AI工具設計出能夠結合癌症靶標的新蛋白質。

AlphaFold項目的負責人Jumper最喜歡的一個AlphaFold2創新,是一個團隊使用該工具識別出一種幫助精子附著在卵細胞上的關鍵蛋白。

Jumper迫不及待地想看到在分享AlphaFold3後出現這樣的驚喜。

安裝和運行

安裝AlphaFold3需要一台運行Linux的機器;AlphaFold3不支持其他操作系統。

完整安裝需要多達1TB的磁盤空間來存儲基因數據庫(建議使用SSD存儲)以及一塊具有計算能力8.0或更高的 NVIDIA GPU(具有更多內存的GPU可以預測更大的蛋白質結構)。

經過驗證,單個NVIDIA A100 80 GB或NVIDIA H100 80 GB可以適配最多5120個token的輸入。在NVIDIA A100和H100 GPU上的數值准確性也已被驗證。

尤其是對于較長的目標,基因搜索階段可能會消耗大量RAM——建議至少使用64GB的RAM運行。

配置步驟:

1. 在GCP上配置機器

2. 安裝Docker

3. 爲A100安裝NVIDIA驅動程序

4. 獲取基因數據庫

5. 獲取模型參數

6. 構建AlphaFold3 Docker容器或Singularity鏡像

獲取AlphaFold3源代碼

通過git下載AlphaFold3的代碼庫 :

git clone https://github.com/google-deepmind/alphafold3.git

獲取基因數據庫

此步驟需要「curl」和「zstd」。

AlphaFold3需要多個基因(序列)蛋白質和RNA數據庫來運行:

- BFD small

- MGnify

- PDB(mmCIF格式的結構)

- PDB seqres

- UniProt

- UniRef90

- NT

- RFam

- RNACentral

Python程序「fetch_databases.py」可以用來下載和設置所有這些數據庫。

建議在「screen」或「tmux」會話中運行以下命令,因爲下載和解壓數據庫需要一些時間。完整數據庫的總下載大小約爲252GB,解壓後的總大小爲630GB。

cd alphafold3 # Navigate to the directory with cloned AlphaFold3 repository.
python3 fetch_databases.py --download_destination=

該腳本從托管在GCS上的鏡像下載數據庫,所有版本與AlphaFold3論文中使用的相同。

腳本完成後,應該有以下目錄結構 :

pdb_2022_09_28_mmcif_files.tar # ~200k PDB mmCIF files in this tar.
bfd-first_non_consensus_sequences.fasta
mgy_clusters_2022_05.fa
nt_rna_2023_02_23_clust_seq_id_90_cov_80_rep_seq.fasta
pdb_seqres_2022_09_28.fasta
rfam_14_9_clust_seq_id_90_cov_80_rep_seq.fasta
rnacentral_active_seq_id_90_cov_80_linclust.fasta
uniprot_all_2021_04.fa
uniref90_2022_05.fa

獲取模型參數

訪問AlphaFold3模型參數需要向Google DeepMind申請並獲得授權。

數據管線

數據管線的運行時間(即基因序列搜索和模板搜索)可能會因輸入的大小、找到的同源序列數量以及可用的硬件(磁盤速度尤其會影響基因搜索的速度)而顯著變化。

如果想提高性能,建議提高磁盤速度(例如通過利用基于RAM的文件系統),或增加可用的CPU核心並增加並行處理。

此外,請注意,對于具有深度MSA的序列,Jackhmmer或Nhmmer可能需要超出推薦的64 GB RAM的大量內存。

模型推理

AlphaFold3論文的補充信息中的表8提供了在配置爲運行在16個NVIDIA A100上時的AlphaFold3的無需編譯的推理時間,每個設備具有40GB的內存。



相比之下,該存儲庫支持在單個NVIDIA A100上運行AlphaFold3,具有80GB內存,並在配置上進行了優化以最大化吞吐量。

下表中使用GPU秒(即使用16個A100時乘以16)比較了這兩種設置的無需編譯的推理時間。該存儲庫中的設置在所有token大小上效率更高(提高至少2倍),表明其適合高吞吐量應用。



硬件要求

AlphaFold3正式支持以下配置,並已對其進行了廣泛的數值准確性和吞吐量效率測試:

- 1 NVIDIA A100(80GB)

- 1 NVIDIA H100(80GB)

通過以下配置更改,AlphaFold3可以在單個NVIDIA A100 (40GB) 上運行:

1. 啓用統一內存。

2. 調整model_config.py中的pair_transition_shard_spec:

pair_transition_shard_spec: Sequence[_Shape2DType] = (
(2048, None),
(3072, 1024),
(None, 512), )

雖然數值上准確,但由于可用內存較少,因此與NVIDIA A100 (80GB) 的設置相比,該配置的吞吐量會較低。

雖然也可以在單個NVIDIA V100上使用run_alphafold.py中的--flash_attention_implementation=xla來運行長度最多爲1280 token的AlphaFold3,但此配置尚未經過數值准確性或吞吐量效率的測試,因此請謹慎操作。---[新智元報導*編輯 :靜音/來源 :  新智元 ]

參考資料 :https://www.nature.com/articles/d41586-024-03708-4

* 諾獎AI成果開源!AlphaFold3代碼人人可以免費下,Nature撰文推薦 *

剛剛,谷歌開源了自己的諾獎模型AlphaFold3!

至此來自生物醫藥、生命科學等各個領域的科學家們都可以免費下載模型代碼,自行運行模型開展工作。

此舉直接獲得了Nature親自撰文推薦。



與前兩個版本僅可以預測蛋白質結構不同, AlphaFold3能夠預測所有生命分子的相互作用。這相當于打開了整個生命科學研究的新大門,生命的基本過程被了解,直接推動了藥物發現和疾病治療。

以往這些工作往往需要數月的實驗室工作和數百萬資金才可以搞定,還無法保證成功。而現在科學家免費擁有了一把強大的利器。

科學家們也是大爲興奮,甚至已經在搓搓手期待怎麽用了。比如研究一下人體肌肉生長過程。





諾獎得主、DeepMind AlphaFold 團隊負責人John Jumper表示,我們非常興奮地看到人們用這個技術能做些什麽。

短短幾小時,GitHub官網已經收獲了1.5k星。



谷歌說到做到:6個月前曾因沒有開源而受爭議

今年5月,AlphaFold3發布,並直接登上Nature。

除了將預測範圍擴大到了蛋白質、DNA、RNA以及一系列配體、離子和化學修飾等更多生物分子結構,還創新性地用上了擴散模型,可以生成每個原子的3D坐標。

用另一位諾獎得主、DeepMind聯創兼CEO哈撒比斯的話來說 :

 AlphaFold 3是人類了解生物學動態系統曆史性的第一步。

在不輸入任何結構信息的情況下,AlphaFold3預測准確度比現有方法提高了50%,對于部分相互作用類別甚至提高了1倍。

這使得AlphaFold 3成爲首個超越基于真實生物分子結構預測工具的AI系統。

當時官方說的是,全球科學家通過AlphaFold服務器即可免費訪問使用AlphaFold 3進行非商業研究(開放大部分功能)。



換句話說,沒有像AlphaFold2那樣開放底層代碼,而是通過網絡服務器提供訪問權限。官方還推出了免費的工具AlphaFold Server,科學家只需點擊幾下就模擬由蛋白質、DNA、RNA 以及一系列配體、離子和化學修飾組成的結構。

雖說免費,但實則限制不少,每天只能進行10次預測,而且不可能獲得可能與藥物結合的蛋白質結構。

不免讓人懷疑之所以不開源,是因爲谷歌Deepmind自己用來進行藥物開發。當時他們成立的公司Isomorphic Labs使用AlphaFold3通過自己的管道或與其他制藥公司合作開發藥物。

結果這操作直接受到了科學家們的批評,他們稱此舉破壞了可重複性。

于是DeepMind 迅速改變了方針,並表示將在半年內推出該工具的開源版本。

如今半年過去,應該算是說到做到。不過模型權重需要單獨申請,填寫表單,同不同意由DeepMind決定。



AlphaFold3

最後再來簡單回顧一下AlphaFold3吧。

在AlphaFold 2的基礎上,AlphaFold 3在架構和訓練過程上有很大改進:

   .  遺傳特征編碼器(MSA module)被大幅簡化,聚焦提取更關鍵的進化信息。

    . 成對殘基關系編碼器(Pairformer)取代了原有的進化特征處理單元(Evoformer),增強了複雜相互作用模式的建模能力

    . 結構生成器從以氨基酸爲中心,改爲直接預測原子坐標,增加了處理通用分子結構的靈活性。

爲了避免擴散方法在一些無結構區域産生幻覺,還引入了一種新的交叉蒸餾方法,通過AlphaFold-Multimer v2預測的結構數據來豐富訓練數據。



更讓人驚歎的是,AlphaFold 3即便在訓練數據極度匮乏的領域,也展現出了驚人的泛化能力。舉個例子,在CASP15的RNA預測任務中,它在10個公開靶點上的平均表現超過了專門的RNA結構預測模型。要知道,這可是在幾乎沒有RNA訓練數據的情況下實現的。

好了,現在AlphaFold3終于開源,有需要的可以去官網下載。

值得一提的是,DeepMind 科學AI主管Pushmeet Kohli還說了一嘴,AlphaFold3各種複現版本都有了。這說明該模型即使沒有開源也是可以複制的。---[白小交 發自 :  凹非寺*量子位 :  公衆號 QbitAI/來源 :  量子位]

GitHub鏈接:
https://github.com/google-deepmind/alphafold3?tab=readme-ov-file

參考鏈接:
[1]https://www.nature.com/articles/d41586-024-03708-4
[2]https://x.com/maxjaderberg/status/1855943552745845095