諾獎解讀 |馬劍鵬 :AI已繞不開,不能再不懂,宜從娃娃抓起
“我整個職業生涯一直在做這個東西,但心裏很清楚,同行也這麽認爲——在我們有生之年,‘蛋白質的折疊’問題是不可能解決的,尤其是蛋白質結構預測問題。結果AlphaFold出來了!” 10月9日,博士生導師、國際著名計算生物學家、複旦大學複雜體系多尺度研究院院長馬劍鵬教授告訴澎湃科技。
當地時間2024年10月9日,瑞典斯德哥爾摩,諾貝爾化學委員會成員約翰·阿奎斯特、常任秘書漢斯·埃萊格倫和諾貝爾化學委員會主席Heiner Linke在瑞典皇家科學院將今年的諾貝爾化學獎頒發給戴維·貝克、德米斯·哈薩比斯和約翰·江珀。 視覺中國 圖
當地時間10月9日,瑞典皇家科學院宣布,將2024年諾貝爾化學獎授予三位科學家,其中,一半授予美國華盛頓大學的戴維·貝克 (David Baker),以表彰其在計算蛋白質設計方面的貢獻,另一半則共同授予英國倫敦人工智能公司谷歌DeepMind公司的丹米斯·哈薩比斯(Demis Hassabis)和約翰·喬普(John M. Jumper),以表彰其在蛋白質結構預測方面的貢獻。
這是繼10月8日兩位人工智能先驅被授予2024年諾貝爾物理學獎之後,人工智能科學家們再次被授予諾貝爾獎。
2021年,複旦大學複雜體系多尺度研究院院長馬劍鵬團隊合作發表基于主鏈的蛋白質側鏈預測算法(OPUS-Rota4 算法),針對谷歌團隊AlphaFold的軟肋,大大提升了蛋白質側鏈結構測試精度。
據介紹,上述預測算法“目前已經叠代至OPUS-Rota6,精度比AlphaFold 2/3都高”。
復旦大學複雜體系多尺度研究院院長馬劍鵬教授。
對于2024年諾貝爾化學獎,馬劍鵬認爲,雖然人們疑惑又有人工智能領域的科學家拿諾獎,但這其實分兩個問題:一是蛋白質結構的預測,該不該拿諾獎;二是人工智能在這方面的貢獻值不值得拿諾獎。
“這也是爲什麽給他們這個獎。其實這個問題並沒有完全解決,但已經往前進了一大步,已經超越了我們有生之年的期望。現在已經可以使用了。”馬劍鵬說。
他認爲,正如複旦大學宣布將推出至少100門AI領域課程一樣,AI已繞不開,你不一定需要會寫算法,但至少要會用。他建議,“從娃娃抓起”,會用AI。
復旦大學複雜體系多尺度研究院院長馬劍鵬教授。
他還強調,爲什麽谷歌Deepmind公司能取得AlphaFold這樣的突破?這個問題對中國極具現實意義。
“王冠上的明珠”:一個老得不得了的極難的科學問題
蛋白質爲什麽重要?
“在你身體的每個細胞內,數十億個微型機器——蛋白質——正在努力工作。”
有人甚至說,幾乎生命的一切特征都跟蛋白質有關。
的確,蛋白質是每個生物體中每個生物過程的基礎,它是生命的基石。沒有蛋白質,生命就無法存在。結構是如此重要,蛋白質複雜而多樣的結構,對應了各種驚人的功能,從而促成了生命的豐富多彩。其結構背後是生命的奧秘。
“我給學生上課,頭一件事就是要解釋爲什麽蛋白質的結構預測如此困難、如此複雜?”馬劍鵬說。
一個個氨基酸相連“串成”多肽,而長鏈一樣的多肽折疊形成穩定的空間三維結構,成爲一個有功能的蛋白質。根據一個氨基酸序列推測出相應蛋白質最終的“折疊結構”(folded structure),這就是蛋白質結構的預測問題。它被視爲現代分子生物學“皇冠上的明珠”。
馬劍鵬說,“這不是個新問題。而是個老得不得了的問題,然而這個問題是如此的難。”
他舉例,100個氨基酸組成的蛋白質非常小,但假如其中的每個氨基酸只有兩個態——折疊態和非折疊態(但實際上它有無窮個態),那麽這個蛋白質就有2的100次方個態。
“這個數字是如此巨大,如果用人類的任何計算機一個一個窮舉過來,或者來檢索,尋找其中一個正確答案,需要的時間甚至比宇宙壽命還長。但是蛋白質瞬間就能完成折疊。”馬劍鵬說。
科學家通過X射線晶體學或冷凍電鏡等實驗技術來測定蛋白質結構,但耗時費力。
劍橋大學的研究人員約翰·肯德魯和馬克斯·佩魯茨在20世紀90年代末取得了突破性的發現,他們成功地使用了一種叫做x射線晶體學的方法,展示了第一個蛋白質的三維模型。爲了表彰這一發現,他們于1962年被授予諾貝爾化學獎。
“2020年,AlphaFold解決了50多年來最大的科學挑戰之一。”Deepmind官網稱,“取得了蛋白質結構預測方面的根本性突破”。
到目前爲止,AlphaFold已經預測了超過2億種蛋白質的結構——幾乎所有科學界已知的蛋白質,並幫助科學家了解生命分子如何相互作用。
AlphaFold 軟件已發布過三個主要版本。2018年12月,一個使用 AlphaFold 1的研究小組在第13屆結構預測關鍵評估(CASP13) 的總體排名中名列第一。2020 年11月,一個使用AlphaFold 2的團隊在CASP14競賽中再次名列第一。
2021年7月15日,關于AlphaFold 2的研究論文在國際學術期刊《自然》(Nature)上在線發表,論文標題是《使用 AlphaFold 進行高精度蛋白質結構預測》(Highly accurate protein structure prediction with AlphaFold)。John Jumper和Demis Hassabis是共同通訊作者。
AlphaFold 3于2024年5月8日發布。它可以預測蛋白質與DNA、RNA、各種配體和離子形成的複合物的結構。相關研究論文也于同一天在線發表在國際學術期刊《自然》(Nature)上。
Deepmind官網介紹,迄今爲止,全球數百萬研究人員已使用 AlphaFold 2在瘧疾疫苗、癌症治療和酶設計等領域取得發現。AlphaFold 3讓人們超越蛋白質,進入更廣泛的生物分子領域。這一飛躍可以開啓更多變革性科學,從開發生物可再生材料和更具彈性的作物,到加速藥物設計和基因組學研究。
馬劍鵬說,“如果純粹從蛋白質結構的建模上,或者說制藥業的藥物設計上來看,Alphafold的精度(准確度)遠遠沒有達到理想的精度。但是,它比以前的工具不知道好到哪去了!”
結構預測是技術,設計是藝術
馬劍鵬介紹,蛋白質的結構預測問題實際上涉及兩個具體問題——蛋白質折疊的過程和最終的結構預測。“一個是蛋白質到底是怎麽折疊起來的?其實就是剛才那一百個氨基酸的多肽折疊起來的整個過程。在起點和終點之間,怎麽走?這個問題到現在也沒有解決。
但是從生物學家的角度,他們可以繞開第一個問題,我不care(在乎)到底是怎麽折疊的,給你一個蛋白質序列,你只要能告訴我最終的蛋白質結構就行了。根本不看路徑。實際上路徑(問題)更煩。”
與預測結構相比,馬劍鵬表示,設計一個新蛋白更難。前者是解題,預測一個自然界已經存在的蛋白的結構,後者是創造一個不曾存在的結構。“所以,我一直說搞折疊是個技術,搞設計是個藝術。”
2024年的三位諾貝爾化學獎得主之一戴維·貝克(David Baker) 在加州大學伯克利分校師從蘭迪·謝克曼獲得生物化學博士學位,並在加州大學舊金山分校師從大衛·阿加德進行生物物理學博士後研究。他現在是華盛頓大學生物化學教授、華盛頓大學醫學院蛋白質設計研究所所長。
貝克實驗室開發蛋白質設計軟件,並利用它來創建分子,以解決醫學、技術和可持續性方面的挑戰。他最近的工作之一是開發用于生成功能性蛋白質的強大機器學習方法。
貝克還是華盛頓大學基因組科學、生物工程、化學工程、計算機科學和物理學的兼職教授。他發表了600 多篇研究論文,共同創辦了21家公司,並獲得了100多項專利。
馬劍鵬介紹,貝克做蛋白質結構預測更早,在AlphaFold出現以前,他多次是CASP比賽的冠軍。他預測的准確率達到了百分之四十幾。“貝克突出的優點就是,他不僅會計算,會預測,他還會做實驗,做設計。他本身是做實驗出身,他的團隊是一個非常典型的“幹濕”結合的團隊,所以特別成功。”
上世紀90年代末,戴維·貝克開始開發能夠預測蛋白質結構的計算機軟件羅塞塔(Rosetta)。研究小組繪制了一種具有全新結構的蛋白質,然後讓羅塞塔計算:哪一種氨基酸序列可以産生所需的蛋白質。事實證明,羅塞塔確實可以構建蛋白質。研究人員開發的蛋白質Top7幾乎跟他們設計的結構完全相同。
顯而易見,人們可以用這種軟件設計想要的蛋白質,用作藥物、疫苗、納米材料和微型傳感器。
人生無處不AI:已繞不開,宜從娃娃抓起,不能再不懂
“我有一個觀點,我認爲,Alphafold的成功,對AI領域、計算機科學領域的影響,可能比對蛋白質結構預測的影響更重要。”馬劍鵬。
這種觀點源自他長期的觀察:1997年,“深藍”計算機(Deep Blue)曾經打敗過國際象棋的世界冠軍加裏·卡斯帕羅夫(Garry Kasparov)。當時就有人覺得天要塌下來了,世界要被電腦顛覆了,結果什麽事情都沒發生;人們認爲國際象的棋盤那麽小,可以被打敗,但圍棋是不可能被電腦打敗的。
2016年3月,阿爾法狗(AlphaGo,阿爾法圍棋)以4:1比分戰勝韓國圍棋九段高手、世界冠軍李世石。又有人覺得天要了。但也有人認爲,那只是個遊戲,圍棋遊戲而已。直到Deepmind公司不惜代價,把AlphaFold做出來。
“計算機科學AI領域的人一看,連這麽難的蛋白質結構預測都能做出來,人臉識別、自動駕駛還算事兒嗎?結果真的變成‘人生無處不AI了’。”“雖然Alphafold不完美,但真的可以用了,它可以加速科研。”馬劍鵬說,Alphafold的成功催生了一個現在天天能聽到的名詞——AI for science,用AI這個工具輔助科學研究。
復旦大學2024年招生培養政策發布會上發布的信息稱,從2024年秋季學期開始,複旦大學將在2024-2025學年推出至少100門AI領域課程。AI大課將納入所有複旦學生的學業安排。“要從娃娃抓起,你不能再不懂AI,不能再不會用AI。”
“不需要每個人天天專門做算法,但廣大科技工作者哪怕是做實驗的,也至少得會用。”馬劍鵬說,AI算法確實非常強大,Alphafold已經真正有實用價值了,不像以前搞理論自娛自樂。
Alphafold這種技術的存在,使得包括顔甯、施一公等科學家在內的做實驗的人,他們解析蛋白質結構的速度可能更快了,但不是說不用做實驗了。“它還取代不了實驗。至少到今天爲止,‘金標准’還得靠實驗。如果哪一天預測技術准確到,算出來的結構一定是對的,那世界又變了。”
爲什麽谷歌Deepmind公司能取得AlphaFold這樣的突破?是因爲算力嗎?
馬劍鵬說,“這個問題對我們國家,尤其現在,是非常有意義的。”
他表示,首先算力很重要,但關鍵還是算法。其次是問題的選擇——你有沒有想法,瞄准蛋白質結構預測問題。
馬劍鵬說,“更重要的一個啓示是,你有沒有注意到現在大部分突破都是公司做出來的?”
他表示,它是典型的“大兵團作戰”。公司和高校的區別在于,在高校裏面,你再有經費,還是單一的一個團隊。但在公司裏,可以雇各種各樣的人,在一個領頭人的負責下,爲了同一件事努力。“
(公司裏)不需要你發nature或發science等論文。你的任務就是把這個事情做出來。這是一種範式上的轉變。團隊作戰,最大的特點就是一定要有一個強有力的‘領頭羊’,把各種各樣的人團結在一起。理論上,這很適合于我們國家,我們也有這樣的經驗,集中力量辦大事。”---來源 : 澎湃新聞 -