01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

從計算機跨界生物學,坐了10年冷板凳後,他開創蛋白質預測新範式

2024100116:07



圖源丨分子之心官網

2024年,在世界政府峰會上,阿聯酋人工智能部長問黃仁勳:“如果站在科技的前沿,人們到底應該學習什麽?”

老黃的回答是:“人人都必須學會計算機的時代過去了,人類生物學才是未來。”這種制造反差的技巧,在脫口秀圈被稱爲“預期違背”。

實際上,英偉達一直在用實際行動爲這個答案做鋪墊。2023年以來,英偉達旗下投資部門NVentures至少投資了12家AI制藥企業;今年3月的GTC期間,與醫療保健和生命科學相關的會議共有90場,在具體行業分布中排名第一。

全球科技巨頭都保持著很好的默契。除英偉達外,谷歌、微軟、亞馬遜、Salesforce,以及國內的百度、阿裏巴巴、騰訊、華爲、字節跳動等科技巨頭均在AI制藥領域有大量布局。

在大模型浪潮帶動下,國內AI制藥領域的投融資態勢也同樣火熱。據《財經》報道,在中國,2024年上半年發生AI制藥融資22起,較前兩年同期15起、16起明顯回升;融資金額18.09億元,亦較2023年同期增長11.6%。

9月13日,國內AI蛋白質設計企業分子之心宣布完成數億元A輪融資,由謝諾投資、深創投聯合領投,商湯國香資本、久奕投資跟投。分子之心成立于2022年1月,公司成立100天之際,便獲紅杉中國領投的數千萬美元天使輪融資。過去兩年,分子之心共獲3輪融資,過往投資方包括合成生物學龍頭企業凱賽生物、紅杉中國、百度BV、聯想創投等知名機構。



分子之心能夠獲得投資者的青睐,離不開其創始人許錦波。

許錦波被譽爲“AI預測蛋白質結構全球第一人”。他是麻省理工學院博士後,曾任美國芝加哥豐田計算技術研究所終身教授、基因測序巨頭Illumina的Senior Fellow,多次榮獲美國斯隆研究獎、美國自然科學基金早期職業獎、《PLoS Computational Biology》創新突破獎、國際計算生物學頂級會議 RECOMB 最佳論文獎和時間檢驗獎等國際頂級獎項。

2016年,許錦波開發的RaptorX-Contact方法,首次證明了深度學習可以大幅提高蛋白質結構預測的准確性,甚至開創了一種蛋白質結構預測的新範式。

但在取得這個劃時代的成就前,許錦波大多時間,都輾轉在巨大的靜默裏。

01,  計算機博士變身生物學“小白”

“我叫許錦波,我是個計算生物學家。”

在2022年4月的一次演講中,許錦波這樣介紹自己。當時分子之心已成立3個月,拿到了紅杉中國領投的數千萬美元天使輪融資。

計算生物學是一門十分年輕的交叉學科。簡單來看,計算生物學就是利用數學模型、計算機模擬和統計方法來研究生物學問題,側重于數據分析和理論方法的開發與應用,以理解生物系統的結構、動態行爲和演化過程。

因此,“生物學家”與“計算生物學家”雖僅有兩字之差,工作內容卻是天差地別。生物學家基本每天都在擺弄各種試管、試劑;而計算生物學家每天要在虛擬世界構建算法、分析數據。



許錦波在“科普中國-我是科學家”第37期“健康的防線”演講中展示自己的工作台面

在許錦波人生的前27年裏,幾乎和生物學沒有太多交集。

1991年,許錦波因曾在全國高中數學聯賽中獲江西賽區第一名,被臨川一中保送至中國科學技術大學計算系。1999年,他獲得中科院計算所碩士學位後,便趕赴加拿大繼續深造,在滑鐵盧大學攻讀計算機博士學位。

2001年,當時的博導李明給了許錦波一個提議:“有一個很難的問題,就是研究蛋白質折疊,想不想做?”

早在20世紀初,科學家們就已經開始研究蛋白質的結構和功能,並且普遍認爲蛋白質才是遺傳信息的載體。直到1953年,科學家首次證明,DNA才是真正的遺傳物質。

2001年,“人類基因組計劃”取得最新突破,美、日、德、法、英、中等6國科學家和美國塞萊拉公司聯合公布人類基因組圖譜及初步分析結果。這次公布的人類基因組圖譜更加准確、清晰、完整。科學家還發現,與蛋白質合成有關的基因只占整個基因組不到2%。

關于基因與蛋白質的關系,印度裔美國醫生、科學家、作家悉達多·穆克吉曾在《基因傳》一書中有很形象的表述:

“無論是細菌、大象、紅眼果蠅還是王公貴族,生物信息始終以某種原始的方式在生命體系中有條不紊地流動:其中DNA經過轉錄形成RNA,然後RNA通過翻譯合成蛋白質,並且最終由蛋白質構建結構並且執行功能,從而讓基因展現出無窮無盡的生命力。”

然而,由于蛋白質結構繁雜且變化多端,自然界中的蛋白質能在幾毫秒內自發折疊,無數生物學家在其中深耕幾十年而無果。但盡管如此,考慮到蛋白質結構預測問題的難度和重要性,生物知識僅有高中水平的許錦波,還是決定接過導師給的課題,開始一篇一篇啃生物學論文。

“當時覺得這個問題很有趣,也非常重要,並且非常難,”他曾對媒體解釋過投身蛋白質折疊預測的原因,“當我們選擇研究課題的時候,通常要選擇一些比較重要和困難的問題,因爲如果這個問題不重要的話,就白花時間去研究了,沒有人在乎;如果這個問題不那麽難,可能幾年之內就被別人做出來了,其實也沒有多大意義”。

至于最終結果,許錦波沒想太多,“如果一點結果都做不出來也沒關系,到時候大不了去矽谷寫代碼,當碼農”。

02,  蛋白質折疊預測的少數派

事實證明,許錦波不僅做出了成果,還由此開創了蛋白質折疊預測的新範式。

許錦波曾提及自己做科研的兩個標准:做研究要有原始創新,要盡可能地做一些原創的、從0到1的工作;而從産業角度出發,要學以致用,研發出來的東西是否能解決真實的問題和重要的問題。

在這兩條標准的指引下,他大膽選擇了一條少有人走的路。

很長一段時間內,結構生物學家們用X射線晶體學、核磁共振波譜學(NMR)、冷凍電鏡(Cryo-SEM)三種實驗技術解析了很多蛋白質的結構。這個方法有許多弊端,例如,用時長、費用高,而且並非所有蛋白質的三維構型都能用這些實驗技術解析。

因此,科學家們開始嘗試用計算的方法,預測蛋白質結構。

1972年,諾貝爾化學獎得主、美國科學家克裏斯蒂安·安芬森(Christian Anfinsen)提出了一個著名假設:蛋白質的3D折疊結構,完全取決于它的氨基酸序列。

通俗來講,每一個氨基酸分子都由若幹原子通過化學鍵鏈接而成,若幹氨基酸分子又通過各種化學鍵鏈接構成蛋白質。因此,在安芬森的假設下,蛋白質結構預測的問題,就被“轉化”爲對氨基酸分子序列的預測。

而在氨基酸序列折疊的過程中,遵循著物理學的“最小能量原理”,即在沒有外部幹擾的情況下,一個系統會自然趨向于能量最低的狀態,這也是系統最穩定的狀態。因此,找到氨基酸序列折疊後形成的能量最低的構象,就可以預測蛋白質結構。



然而,許錦波曾向媒體解釋,這種方法存在兩個弊端:“第一,一個蛋白質是一個非常大的體系,由成千上萬個原子組成,對應一個非常巨大的搜索空間,構型是千變萬化的。”另外,“雖然說大家普遍接受蛋白質折疊到最小能量狀態,但能量函數到底是什麽樣的?我們本身就對能量函數的理解還不是特別好。”

于是,2006年,許錦波嘗試跳出傳統的“能量優化”思路,引入機器學習。當時,機器學習發展尚在早期,關注到這門新技術的人並不多,用機器學習來預測蛋白質結構的更是少數。

很快,許錦波發現機器學習仍有很大局限。傳統的機器學習是直接把蛋白質的氨基酸序列映射到一個三維構型上,比基于物理或是統計的方法結果好一些,但預測准確性和效率都不理想。

因此,蛋白質預測一度成爲“冷門”選項,很多人換了方向,而留下來繼續研究的人一度連研究經費都很難申請。“過去這個領域一直比較冷清,特別是在2006年到2016年這10年間,當時大家都覺得這個問題是沒辦法做出來的,所以很多人都離開這個領域去做其他的問題了。”許錦波後來回憶道。

直到2012年,AI界拉開深度學習革命,許錦波再次成爲“第一個吃螃蟹的人”。

2014年,許錦波開始帶領團隊嘗試用深度學習解決這個問題。當時,生物學界很少有人關注到深度學習,以至于團隊的學生對許錦波提出的任務很是不解,研究結果並不理想。

2016年,許錦波開始親自寫代碼,帶領團隊開發出一種可以直接用來預測蛋白質三維結構的深度學習算法,也就是後來爲人熟知的RaptorX-Contact方法,首次證明了深度學習在蛋白質結構預測問題上的可行性。由于使用了深度學習算法,研究人員只需給計算機輸入氨基酸序列,告訴計算機這些序列對應的真實結構或者實驗結構,就可以讓計算機學會自主預測蛋白質結構。



2018年,DeepMind繼承許錦波團隊的方法,開發了AlphaFold。CASP比賽創辦者,現任馬裏蘭大學細胞生物學和分子遺傳學系教授的約翰·莫爾特曾評價道:“DeepMind在開發一種非常有效的方法方面做得很好。然而,這項工作背後的概念和方法並非憑空而來,關鍵技術是深度學習方法的應用。毫無疑問,DeepMind直接建立在許錦波的工作之上。”

2年後,DeepMind推出AlphaFold 2,用注意力機制網絡取代卷積神經網絡處理蛋白質序列,揭示了蛋白質內部氨基酸之間的空間關聯,並在第14屆CASP上刷新了預測精度的最高記錄。

或許有人會問,許錦波教授是第一個將卷積神經網絡用于蛋白質結構預測的人,爲什麽沒能將傳奇延續到注意力機制網絡的技術範式中?

資源是一個主要門檻。由于注意力機制網絡需要消耗大量計算資源,而算力資源和頂尖人才大多聚集在微軟、谷歌等科技巨頭手中,高校及其他研究機構很難獲得高密度的人才和算力資源。

“學術界沒有人有這麽多資源去做這件事情。”許錦波曾坦言,團隊也曾在2020年嘗試將注意力機制網絡簡化,嘗試讓它在現有的計算資源上跑起來,“我們沒有幾百塊GPU”。此外,許錦波認爲,AlphaFold 2真正令人吃驚的地方在于,“他們能夠一下子調動30個人去做這個事情,能夠把它實現得非常好”。

與此同時,就像OpenAI推出ChatGPT後,國內很多企業重現ChatGPT一樣,當時國內很多企業也試圖重現AlphaFold 2的效果。但許錦波對此並不太認同,他曾呼籲,重複實現DeepMind的AlphaFold 2不應成爲其他團隊的目標,“這個領域仍然有一系列問題真正需要我們去解決”。

03,  AI顛覆蛋白質結構預測只是一個開始

2021年9月,許錦波回國,希望能“做出一些真正有用的東西”。

例如,能否把一個抗體優化得更好,使得它能夠跟抗原結合更好?或設計一個自然界不存在的蛋白,用它來做藥或工業生産?要解決這些問題,便涉及到比蛋白質結構預測更進一步的蛋白質設計。

蛋白質設計和蛋白質預測幾乎是一對鏡像。

2003年,華盛頓大學大衛·貝克(David Baker)團隊設計出了第一個原本並不存在于自然界中的蛋白質——Top7。

和許錦波相似,大衛也是生物學領域的“跨界者”,進入生物領域前,他的專業是哲學。大學期間,一堂生物課點燃了大衛對蛋白質折疊的熱情。

1996年,大衛已經成爲華盛頓大學生物化學系助理教授,他和學生共同開發了一款名爲Rosetta的程序,爲之後從頭設計蛋白質埋下了伏筆——已知氨基酸序列,Rosetta能夠找到能量最低的蛋白質三維結構,那麽如果已知最終的蛋白質結構,Rosetta是否能倒推出形成這一結構所需的蛋白組件呢?

在這個思路下,Top7誕生了。可惜的是,Top7只完成了上述從蛋白質結構到氨基酸序列的倒推,卻沒有實際功能。

這也是蛋白質設計比蛋白質預測更難的原因。一種蛋白質結構所對應的氨基酸序列可能有成百上千億種可能,要結合産業需要“按需定制”,難度可想而知。



2022年1月成立的分子之心,便瞄准了更難,但應用空間更大的蛋白質設計。

許錦波曾對媒體表示,公司只有一個小團隊繼續研究蛋白質結構預測,更大的重心放在蛋白質設計上。

目前,分子之心研發了AI蛋白質優化和設計平台MoleculeOS,該平台能夠用AI幫助生物工作者快速發現、改造、甚至從頭設計具備特定功能的蛋白質,加速實驗室成果的産業轉化。

許錦波介紹,目前,MoleculeOS已應用于産業中,面向藥物設計、生物制造等領域的需求,進行多肽、抗體、酶和小蛋白的研究和設計,“用生成而非發現的方法設計出具有特定功能的蛋白質産品,變革藥物設計和合成生物學産業模式,開啓可編程藥物、可編程生物制品定向進化新時代”。

在2023世界人工智能大會上,分子之心又推出了首個AI蛋白質生成大模型“達爾文(NewOrigin)”。分子之心曾向媒體透露,NewOrigin可“針對産業應用需求在幾小時內、甚至是分鍾級‘定制’具有特定功能的蛋白質”。

此外,分子之心還推出了蛋白質動態結合設計算法,突破了AlphaFold等算法只能做蛋白質靜態結構預測的局限,規避目前主流算法和大模型大量存在的假陽性問題。

不過,對于所有生命科學賽道的初創公司而言,在實驗室裏完成從0到1的進化只是第一步,接下來的産業化進程無疑是更複雜,甚至關乎企業生死。

目前,蛋白質設計的産業化進程還存在諸多顯性難題,例如,采用大模型技術所帶來的計算成本如何解決;以及從實驗室走向産線還需要面臨一系列監管、工藝、質量控制等流程。

這個難題,或許還需要無數生物科技從業者來解答。

而許錦波的答案是 :“AI顛覆蛋白質結構預測只是一個開始,我希望打造出中國生物經濟時代的基礎設施。”---[作者 :  劉楊楠*編輯 :  海腰/來源 :  創業邦 ]