劃重點(diǎn)
01谷歌DeepMind的AlphaFold2在2020年CASP競(jìng)賽中預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),準(zhǔn)確度高達(dá)90分以上,引發(fā)科學(xué)界關(guān)注。
02然而,AlphaFold2在預(yù)測(cè)某些點(diǎn)突變和蛋白質(zhì)與環(huán)境相互作用方面仍有局限,需要實(shí)驗(yàn)驗(yàn)證。
03為此,研究人員正在開發(fā)更先進(jìn)的算法,如AlphaFold3和RoseTTAFold All-Atom,以提高預(yù)測(cè)準(zhǔn)確性。
04同時(shí),蛋白質(zhì)科學(xué)領(lǐng)域的研究人員正嘗試將深度學(xué)習(xí)與冷凍電鏡等技術(shù)相結(jié)合,以更好地研究蛋白質(zhì)結(jié)構(gòu)。
05盡管AlphaFold2的成功引發(fā)了關(guān)于人工智能在科學(xué)領(lǐng)域應(yīng)用的討論,但科學(xué)家們?nèi)詧?jiān)信理解基本原理對(duì)于科學(xué)發(fā)展至關(guān)重要。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
2024年諾貝爾化學(xué)獎(jiǎng)公布,一半授予大衛(wèi)貝克(David Baker),“以表彰在計(jì)算蛋白質(zhì)設(shè)計(jì)方面的貢獻(xiàn)”;另一半則共同授予德米斯哈薩比斯(Demis Hassabis)和約翰M詹珀(John M. Jumper),“以表彰他們?cè)诘鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)方面的成就”。
德米斯哈薩比斯和約翰詹珀成功地利用人工智能技術(shù)預(yù)測(cè)了幾乎所有已知蛋白質(zhì)的結(jié)構(gòu)。而大衛(wèi)貝克掌握了生命的構(gòu)建模塊,并創(chuàng)造了全新的蛋白質(zhì)。本文將為你詳解AlphaFold的歷史,以及它為何值得獲獎(jiǎng)。
2020 年 12 月,由于新冠疫情限制了大家的活動(dòng),許多人無(wú)法親自參加會(huì)議,數(shù)百名計(jì)算科學(xué)家聚集在屏幕前,共同見證科學(xué)新時(shí)代的到來(lái)。
他們聚集在一起是為了參加一個(gè)會(huì)議,一個(gè)持續(xù)近三十年的友誼賽。他們其中有些人親身參與過(guò)這項(xiàng)賽事,并通過(guò)這項(xiàng)比賽同聚一堂,癡迷于探討同一個(gè)問(wèn)題這便是蛋白質(zhì)折疊問(wèn)題。簡(jiǎn)單來(lái)說(shuō)就是:我們能否根據(jù)最基本的信息也就是蛋白質(zhì)分子的一維分子編碼準(zhǔn)確預(yù)測(cè)出其三維結(jié)構(gòu)?蛋白質(zhì)讓人類細(xì)胞和身體保持活力和正常運(yùn)轉(zhuǎn)。由于蛋白質(zhì)的結(jié)構(gòu)決定了它的行為,因此成功解決這個(gè)問(wèn)題將對(duì)我們了解疾并研發(fā)新藥和理解生命體的運(yùn)作方式產(chǎn)生深遠(yuǎn)影響。
在每?jī)赡昱e行一次的會(huì)議上,科學(xué)家們將用最新的蛋白質(zhì)折疊工具做測(cè)試。但解決方案似乎總是遙不可及。有些人窮極一生都在力求逐步提高預(yù)測(cè)的準(zhǔn)確性,因此這項(xiàng)賽事只能說(shuō)是蹣跚前行,參賽的研究者們沒(méi)有理由認(rèn)為2020年會(huì)有所不同。
但他們想錯(cuò)了。
一串一維的分子如何正確折疊成特定的三維結(jié)構(gòu)?這被稱為蛋白質(zhì)折疊(protein folding problem)的問(wèn)題近期被人工智能解決了。圖源:Fran Pulido
比賽當(dāng)周,蛋白質(zhì)科學(xué)界的新秀John Jumper展示了谷歌 DeepMind在倫敦的人工智能分部推出的最新人工智能工具:AlphaFold2。他通過(guò)Zoom會(huì)議分享的相關(guān)數(shù)據(jù)顯示,AlphaFold2的三維蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型準(zhǔn)確率超過(guò)90%,比最接近的競(jìng)爭(zhēng)對(duì)手高出5倍。
一瞬間,蛋白質(zhì)折疊問(wèn)題的解決方案從遙不可及變?yōu)榱送偈挚傻。人工智能輕松地過(guò)了人類智慧舉步維艱的泥潭,這震撼了整個(gè)生物學(xué)界。出席會(huì)議的哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目的系統(tǒng)生物學(xué)家Mohammed AlQuraishi表示:“我感到非常震驚。很多人都拒絕接受這個(gè)現(xiàn)實(shí)。”
但在總結(jié)陳詞時(shí),會(huì)議組織者John Moult打消了所有疑慮。他幾乎斬釘截鐵地表示:AlphaFold2已經(jīng)“基本解決”了蛋白質(zhì)折疊問(wèn)題,并永遠(yuǎn)改變了蛋白質(zhì)科學(xué)。他穿著黑色高領(lǐng)毛衣,坐在家中辦公室的書架前,用Zoom分享著自己的幻燈片,“這不是結(jié)束,而是開始,”他這樣說(shuō)道,語(yǔ)氣既令人興奮又令人擔(dān)憂。
蛋白質(zhì)是具有數(shù)億種不同結(jié)構(gòu)的分子。每一種都具有特定的生物功能,有些負(fù)責(zé)在血液中輸送氧氣,有些則負(fù)責(zé)引發(fā)化學(xué)反應(yīng)。具體功能通常由其形狀或結(jié)構(gòu)決定。
上:從左往右依次為SARS-COV-2刺突蛋白、新冠疫苗靶點(diǎn);5-羥色胺受體、管控情緒與消化;血紅蛋白、輸送血液中的氧氣;細(xì)胞因子、調(diào)節(jié)免疫防御。
下:從左往右依次為膠原蛋白、讓組織成型;螢火蟲螢光素酶、發(fā)光;抗體、鑒別外來(lái)物質(zhì);胰島素、調(diào)節(jié)血糖;淀粉酶、消化淀粉;瘦素、控制食欲。圖源:RCSB PDB
當(dāng)谷歌的公關(guān)部門向全世界發(fā)布這一消息時(shí),媒體為之瘋狂。AlphaFold2“將會(huì)改變一切”的說(shuō)法占據(jù)了各大新聞的頭版頭條。那些畢生致力于研究單個(gè)蛋白質(zhì)結(jié)構(gòu)的蛋白質(zhì)生物學(xué)家擔(dān)心自己會(huì)丟掉飯碗。還有人聲稱,AlphaFold2將徹底改變藥物研發(fā),因?yàn)樯飳W(xué)家可以快速了解蛋白質(zhì)的結(jié)構(gòu),從而更高效地研發(fā)出以蛋白質(zhì)為靶點(diǎn)的新藥。其他人則反駁說(shuō),這些結(jié)果大多是炒作,不會(huì)帶來(lái)實(shí)質(zhì)性改變。
Moult自己也幾乎無(wú)法理解這件事本身意味著什么。他在會(huì)議最后問(wèn)出了大家都想問(wèn)的問(wèn)題:“接下來(lái)怎么辦?”
這個(gè)問(wèn)題已經(jīng)是三年半以前的事了,現(xiàn)在我們終于能夠嘗試回答他的問(wèn)題了。
不可否認(rèn),AlphaFold2的確改變了生物學(xué)家研究蛋白質(zhì)的方式。然而,雖然AlphaFold2是一個(gè)強(qiáng)大的預(yù)測(cè)工具,但它并不是一個(gè)全知全能的機(jī)器。它非常巧妙地解決了蛋白質(zhì)折疊問(wèn)題的一部分,但并不是科學(xué)家所想的那樣。它并沒(méi)有取代生物實(shí)驗(yàn),而是強(qiáng)調(diào)了生物實(shí)驗(yàn)的必要性。
AlphaFold2最大的影響可能是讓生物學(xué)家關(guān)注人工智能的力量。它已經(jīng)啟發(fā)了新的算法,包括設(shè)計(jì)在自然界中不存在的新蛋白質(zhì)的算法。此外,它還催生了新型生物技術(shù)公司,引領(lǐng)了新的科學(xué)實(shí)踐方式。2024年5月,其繼任者AlphaFold3發(fā)布,它能夠模擬蛋白質(zhì)和DNA或RNA等其他分子的結(jié)構(gòu)與相互作用,標(biāo)志著生物領(lǐng)域的預(yù)測(cè)模型進(jìn)入了新的發(fā)展階段。
AlQuraishi表示:“這是迄今為止科學(xué)領(lǐng)域最重要的‘機(jī)器學(xué)習(xí)’故事。”
然而,生物科學(xué)領(lǐng)域仍有許多人工智能未能跨越的鴻溝。這些工具無(wú)法模擬蛋白質(zhì)如何隨時(shí)間發(fā)生變化,也無(wú)法根據(jù)蛋白質(zhì)存在的環(huán)境(即細(xì)胞內(nèi))對(duì)其進(jìn)行建模。在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室開發(fā)生物分子結(jié)構(gòu)建模算法的結(jié)構(gòu)生物學(xué)家Paul Adams表示:“AlphaFold似乎改變了一切,又好像什么都沒(méi)有改變。”
本文便是有關(guān)來(lái)自谷歌DeepMind的Jumper團(tuán)隊(duì)是如何變革蛋白質(zhì)科學(xué)及其如何影響人工智能在生物學(xué)領(lǐng)域未來(lái)應(yīng)用的故事。
前夜
(1)物理基礎(chǔ)
一張折紙?jiān)谝蕴囟ǚ绞秸郫B之前,只不過(guò)是壓制的木漿,而在折疊之后,它才能煥然一新。幾經(jīng)精妙的卷曲與翻折,它就變成了一個(gè)紙制的算命工具,可以用來(lái)預(yù)測(cè)你的未來(lái)。而只需改變幾個(gè)折疊步驟,同一張紙就可以變成一只展翅飛翔的仙鶴,給人帶來(lái)好運(yùn)。
同樣,一長(zhǎng)串氨基酸分子在自發(fā)折疊成其固有形狀(生物學(xué)家稱之為結(jié)構(gòu))之前沒(méi)有任何功能。蛋白質(zhì)的結(jié)構(gòu)決定了它如何與其他分子結(jié)合或相互作用,因此也決定了它在細(xì)胞中的作用。
圖源:Mark Belan,翻譯:vicky,制圖:存源
地球上有幾億種已知的蛋白質(zhì),還有更多未知的蛋白質(zhì)。它們無(wú)所不能:血紅蛋白和肌紅蛋白將氧氣運(yùn)送到肌肉和身體各處。角蛋白構(gòu)成頭發(fā)、指甲和皮膚的外層結(jié)構(gòu)。胰島素使葡萄糖進(jìn)入細(xì)胞,轉(zhuǎn)化為能量。蛋白質(zhì)的形態(tài)似乎變幻莫測(cè),以滿足實(shí)際生活中各種各樣的需求。
“從原子到生態(tài)系統(tǒng),(蛋白質(zhì)結(jié)構(gòu))像是一種通用語(yǔ)言,是一切的起源,”AlQuraishi說(shuō)道。
細(xì)胞通過(guò)菊花鏈的方式將氨基酸這種小分子連接成長(zhǎng)長(zhǎng)的多肽串,從而生成蛋白質(zhì)。它所選擇的氨基酸取決于DNA提供給它的一組基本指令。生成后不到一秒,多肽串就會(huì)開始精確地彎曲、扣合、折疊成蛋白質(zhì)的最終三維結(jié)構(gòu)。一旦裝配完成,它們便會(huì)立刻開始履行自己的生物職能。
如果蛋白質(zhì)不能很好地完成這一折疊過(guò)程,那么人體將會(huì)經(jīng)受一系列危及性命的打擊。錯(cuò)誤折疊或結(jié)構(gòu)解開的蛋白質(zhì)會(huì)導(dǎo)致中毒和細(xì)胞死亡。許多疾病和失調(diào)都是由錯(cuò)誤折疊的蛋白質(zhì)引起的,如鐮狀細(xì)胞貧血。此類蛋白質(zhì)還會(huì)聚集成塊,這也是阿爾茨海默病和帕金森病等神經(jīng)退行性疾病的特征。
然而,沒(méi)有人真正了解蛋白質(zhì)是如何折疊的。這些簡(jiǎn)單分子鏈中的序列信息又是如何編碼蛋白質(zhì)的復(fù)雜結(jié)構(gòu)呢?約翰霍普金斯大學(xué)生物物理學(xué)名譽(yù)教授George Rose表示“這是我們能提出的最深?yuàn)W的問(wèn)題。”
20世紀(jì)50年代,生物化學(xué)家Christian Anfinsen進(jìn)行的實(shí)驗(yàn)表明,氨基酸串內(nèi)部含有一種內(nèi)在的代碼,指示它如何折疊成蛋白質(zhì)并且應(yīng)該有一種方法可以從這一代碼中預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。這個(gè)假設(shè)被稱為安芬森教條(Anfinsen’s dogma)。圖源:PBH Images/Alamy
早在20世紀(jì)30年代,科學(xué)家們就開始探究這個(gè)問(wèn)題。但真正取得突破要等到20世紀(jì)50年代中期,當(dāng)時(shí)一位名叫Christian Anfinsen的生物化學(xué)家將蛋白質(zhì)加入化學(xué)溶液中,這一做法要么會(huì)導(dǎo)致蛋白質(zhì)的鍵斷裂,使其結(jié)構(gòu)展開;要么會(huì)導(dǎo)致蛋白質(zhì)發(fā)生錯(cuò)誤折疊。通過(guò)觀察,他發(fā)現(xiàn),展開或折疊錯(cuò)誤的蛋白質(zhì)可以自發(fā)地重新折疊成正確的結(jié)構(gòu)。這一發(fā)現(xiàn)證明了蛋白質(zhì)的三維結(jié)構(gòu)是由內(nèi)部編碼(由氨基酸串的編碼)決定的,Christian Anfinsen也憑此獲得了諾貝爾獎(jiǎng)。
基于這一發(fā)現(xiàn),Anfinsen提出了一個(gè)假設(shè):應(yīng)該有一種方法可以根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)這就是后來(lái)廣為人知的蛋白質(zhì)折疊問(wèn)題。
一旦多肽鏈組裝完成,它們就能在千分之一秒內(nèi)折疊成正確的結(jié)構(gòu),速度之快令分子生物學(xué)家Cyrus Levinthal咋舌。在1969年發(fā)表的論文《如何優(yōu)雅地折疊》(How to Fold Graciously)中,Levinthal計(jì)算出,如果一個(gè)蛋白質(zhì)要嘗試每一種可能的折疊方案,那么它的組裝時(shí)間將長(zhǎng)得無(wú)法想象。他推測(cè),顯然是有某種更為直接地方式引導(dǎo)了蛋白質(zhì)的正確折疊。
隨著時(shí)間的推移,蛋白質(zhì)折疊問(wèn)題又衍生出新的問(wèn)題,主要有三個(gè):能否根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)?折疊編碼是什么?折疊機(jī)制是什么?
20 世紀(jì) 60 年代初,當(dāng)?shù)谝慌ㄟ^(guò)實(shí)驗(yàn)決定的蛋白質(zhì)結(jié)構(gòu)問(wèn)世時(shí),這些問(wèn)題開始在科學(xué)家的心中生根發(fā)芽。劍橋大學(xué)的兩位生物學(xué)家Max Perutz和John Kendrew將蛋白質(zhì)培育成晶體,用X射線轟擊它們,并測(cè)量射線如何彎曲這種技術(shù)被稱為X射線晶體學(xué)(X-ray crystallography)。通過(guò)這種方法,他們確定了血紅蛋白和肌紅蛋白的三維結(jié)構(gòu)。這項(xiàng)實(shí)驗(yàn)耗時(shí)二十多年,為兩人贏得了諾貝爾獎(jiǎng)。
John Kendrew(左)和Max Perutz(右)利用 X 射線晶體學(xué)仔細(xì)揭示了血紅蛋白和肌紅蛋白的結(jié)構(gòu)。隨后,他們使用小球(代表原子)和棍子(代表化學(xué)鍵)構(gòu)建了物理模型。圖源:MRC Laboratory of Molecular Biology
從那時(shí)起,無(wú)數(shù)研究人員不懈努力,試圖了解不同蛋白質(zhì)的結(jié)構(gòu),及其底層的機(jī)制。格拉斯哥大學(xué)的結(jié)構(gòu)生物學(xué)家Helen Walden表示:“想弄清楚事物的外觀是人類的本能,因?yàn)檫@樣我們便能了解其功能。”還有一些科學(xué)家嘗試從化學(xué)或物理的角度解決問(wèn)題。他們?nèi)諒?fù)一日地在實(shí)驗(yàn)室里辛勤工作,最終成功重建了蛋白質(zhì)的結(jié)構(gòu)。計(jì)算生物學(xué)家通過(guò)模型和模擬尋找線索,他們用不同的算法規(guī)則組合對(duì)模型和模擬進(jìn)行編程并不斷改進(jìn)更新。
隨著越來(lái)越多的蛋白質(zhì)結(jié)構(gòu)被發(fā)現(xiàn),蛋白質(zhì)科學(xué)界需要一種方法來(lái)組織和共享這些信息。1971年,蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank),作為一個(gè)存儲(chǔ)蛋白質(zhì)結(jié)構(gòu)的檔案庫(kù),應(yīng)運(yùn)而生。該數(shù)據(jù)庫(kù)可免費(fèi)使用,對(duì)于所有想要通過(guò)了解蛋白質(zhì)結(jié)構(gòu)來(lái)探究生物問(wèn)題的研究者來(lái)說(shuō),都是一個(gè)可靠的工具。
蛋白質(zhì)數(shù)據(jù)庫(kù)建立之初,只保存了7種蛋白質(zhì)的結(jié)構(gòu)。將近50年后,當(dāng)谷歌DeepMind利用它來(lái)訓(xùn)練AlphaFold2時(shí),它已記錄了超過(guò)14萬(wàn)種蛋白質(zhì)結(jié)構(gòu)每個(gè)結(jié)構(gòu)都是由結(jié)構(gòu)生物學(xué)家費(fèi)盡周折解碼出來(lái)的。
(2)實(shí)驗(yàn)派的苦惱
從20世紀(jì)70年代中期起,牛津大學(xué)的生物物理學(xué)家Janet Thornton每隔幾個(gè)月就會(huì)收到一個(gè)郵包。里面是一卷12英寸的磁帶,包含了存入蛋白質(zhì)數(shù)據(jù)庫(kù)的新蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)。她會(huì)迫不及待地撕開包裹,想要立刻開始分析新發(fā)現(xiàn)的蛋白質(zhì)結(jié)構(gòu)。她收到的第一盤磁帶上只包含20種蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)。
“有很多學(xué)生說(shuō),‘我想來(lái)解決蛋白質(zhì)折疊問(wèn)題,’”去年從歐洲分子生物學(xué)實(shí)驗(yàn)室退休的結(jié)構(gòu)生物學(xué)家Janet Thornton說(shuō)。“但坦率地說(shuō),我對(duì)如何做到這一點(diǎn)沒(méi)有任何新想法。”圖源:Jeff Dowling, EMBL-EBI
磁帶記錄的每一個(gè)蛋白質(zhì)都是多年心血的結(jié)晶。通常情況下,一名博士生會(huì)在讀研的四年間或花費(fèi)更長(zhǎng)時(shí)間研究單個(gè)蛋白質(zhì)的結(jié)晶,從中收集數(shù)據(jù)或解讀數(shù)據(jù),從而厘清其折疊結(jié)構(gòu)。
牛津大學(xué)生物物理系當(dāng)時(shí)是世界X射線晶體學(xué)中心之一。1965年,蛋白質(zhì)晶體學(xué)的先驅(qū)之一David Phillips在牛津大學(xué)首次測(cè)定了溶菌酶的結(jié)構(gòu),這種酶會(huì)被免疫系統(tǒng)用來(lái)對(duì)抗細(xì)菌。牛津大學(xué)的生物物理學(xué)家利用X射線晶體學(xué)繪制了蛋白質(zhì)的電子密度圖;電子聚集的區(qū)域很可能含有一個(gè)原子。Thornton和她的同事們將這些電子密度圖打印到塑料板上,然后將它們疊放在一起,從而繪制出蛋白質(zhì)的形態(tài)“輪廓圖”。
X射線晶體學(xué)可以幫助科學(xué)家繪制電子密度圖,直觀地顯示電子聚集的位置,從而顯示分子中可能存在原子的位置。通過(guò)將電子密度圖疊放在一起(左圖),科學(xué)家可以推斷出蛋白質(zhì)或青霉素等其他分子的結(jié)構(gòu)(右圖)。圖源:Science Museum Group
隨后,他們將輪廓圖轉(zhuǎn)換成了物理模型。他們先將塑料平面圖放入理查茲盒中以牛津大學(xué)生物物理學(xué)家弗雷德里克理查茲(Frederic Richards)命名的裝置,他于1968年發(fā)明了這種裝置。理查茲盒內(nèi)設(shè)有一面傾斜的鏡子,能將輪廓圖反射到一個(gè)工作區(qū)內(nèi),這讓科學(xué)家們能看到每個(gè)原子相對(duì)于其他原子的準(zhǔn)確位置。然后,他們用小球和棍子搭建出了一個(gè)物理模型。
這種方法既繁瑣又有局限性。1971年,Louise Johnson著手為磷酸化酶建模,包含842個(gè)氨基酸的磷酸化酶是當(dāng)時(shí)學(xué)界研究過(guò)的最大的蛋白質(zhì)。為了成功建立模型,Johnson不得不爬梯子進(jìn)入牛津大學(xué)專門為她的項(xiàng)目建造的兩層樓高的理查茲盒中。她日后成為了知名晶體學(xué)家。
模型完成后,科學(xué)家們用尺子測(cè)量了原子間的距離,從而得出蛋白質(zhì)結(jié)構(gòu)的各個(gè)坐標(biāo)。Thornton表示:“這種方法太過(guò)時(shí)了。”然后,他們將坐標(biāo)輸入計(jì)算機(jī)。她說(shuō),電腦上看起來(lái)就像一片茂密的森林,原子們雜亂無(wú)章地?cái)D在一起。只有戴上3D眼鏡觀察結(jié)構(gòu)時(shí),才能看清蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。
“這個(gè)過(guò)程太折磨人了,能堅(jiān)持到底已經(jīng)非常了不起了,”Thornton感慨道。
X射線晶體學(xué)的工作原理。
年復(fù)一年,他們終于成功了。一旦研究人員確認(rèn)了自己所復(fù)構(gòu)的蛋白質(zhì)結(jié)構(gòu),他們就會(huì)將其提交給蛋白質(zhì)數(shù)據(jù)庫(kù)。到1984年,已有152個(gè)蛋白質(zhì)的結(jié)構(gòu)被存入了數(shù)據(jù)庫(kù)。1992年,這一數(shù)字攀升至747個(gè)。
當(dāng)實(shí)驗(yàn)學(xué)家們還在苦苦研究物理模型時(shí),另一學(xué)派的蛋白質(zhì)生物學(xué)家計(jì)算科學(xué)家們卻采取了不同的方法。但是,當(dāng)他們考量Anfinsen所提出的假設(shè),即根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)時(shí),卻顯得有點(diǎn)過(guò)于自信了。
(3)制定規(guī)則
20世紀(jì)60年代初,John Moult還是一名大學(xué)生時(shí),就計(jì)劃成為一名物理學(xué)家。后來(lái),他了解到了蛋白質(zhì)折疊問(wèn)題。他說(shuō):“有人來(lái)給我們講了一堂課,說(shuō)生物學(xué)問(wèn)題太重要了,不能留給生物學(xué)家來(lái)解決。我當(dāng)時(shí)很傲慢,所以當(dāng)真了。”被生物學(xué)迷住的他將職業(yè)生涯轉(zhuǎn)向了另一個(gè)方向。
畢業(yè)后,Moult進(jìn)入了蛋白質(zhì)晶體學(xué)領(lǐng)域。他解碼了幾種蛋白質(zhì)的結(jié)構(gòu),包括β-內(nèi)酰胺酶,這是一種能夠破壞青霉素的細(xì)菌酶。1970年,他在牛津大學(xué)獲得分子生物物理學(xué)博士學(xué)位。但當(dāng)開啟博士后研究后,他厭倦了實(shí)驗(yàn)派的方法,并開始轉(zhuǎn)向逐步發(fā)展壯大的計(jì)算派。計(jì)算生物學(xué)家與實(shí)驗(yàn)學(xué)家不同,他們編寫計(jì)算機(jī)算法,試圖證明Anfinsen的假設(shè),即他們可以向一個(gè)程序輸入一串氨基酸,從而生成正確的蛋白質(zhì)結(jié)構(gòu)。
John Moult與人共同創(chuàng)立了“結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估”(CASP) 實(shí)驗(yàn),迫使他自己和其他計(jì)算生物學(xué)家根據(jù)實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu),來(lái)測(cè)試他們的蛋白質(zhì)計(jì)算機(jī)模型。圖源:Umit Gulsen / Quanta Magazine
從生物實(shí)驗(yàn)到計(jì)算的轉(zhuǎn)變并非坦途。Moult已經(jīng)習(xí)慣了以慢工出細(xì)活地方式解析單一蛋白質(zhì)的結(jié)構(gòu)。但在計(jì)算生物學(xué)領(lǐng)域,每隔一段時(shí)間就有論文聲稱蛋白質(zhì)折疊問(wèn)題和相關(guān)子問(wèn)題已經(jīng)得到了解決。
Moult對(duì)此表示懷疑。他說(shuō):“在這一領(lǐng)域發(fā)表的論文不像我以前所在領(lǐng)域那樣嚴(yán)謹(jǐn)。這并不是說(shuō)計(jì)算生物學(xué)領(lǐng)域都是騙子,而是因?yàn)榇祟愑?jì)算工作都是在虛擬世界中完成的。”
在虛擬世界中,當(dāng)自然界的規(guī)則不起作用時(shí),計(jì)算學(xué)家們就會(huì)制定自己的規(guī)則。他們會(huì)設(shè)計(jì)算法,讓原子以某種方式粘在一起,或者讓蛋白質(zhì)總是向右或向左折疊。隨著時(shí)間的推移,這些模型變得越來(lái)越脫離現(xiàn)實(shí)。Moult認(rèn)為,在一個(gè)你可以完全控制的世界里,人很難保持嚴(yán)謹(jǐn)。
不過(guò),他還是認(rèn)為兩種方法都有可取之處。實(shí)驗(yàn)派工作精細(xì),但速度緩慢;計(jì)算派進(jìn)展迅速,但卻遠(yuǎn)離生物物理現(xiàn)實(shí),以至于經(jīng)常出錯(cuò)。
他想,一定有辦法把兩種方法的優(yōu)點(diǎn)結(jié)合起來(lái)。
(4)跺腳以示反對(duì)
20世紀(jì)90年代初,Moult和他的同事Krzysztof Fidelis想出了一個(gè)辦法來(lái)規(guī)范計(jì)算生物學(xué)領(lǐng)域的混亂局面。他們啟動(dòng)了一個(gè)名為“結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估”(Critical Assessment of Structure Prediction,簡(jiǎn)稱 CASP)的社區(qū)科學(xué)實(shí)驗(yàn)。
這個(gè)想法很簡(jiǎn)單。作為CASP的發(fā)起人,Moult和Fidelis會(huì)公布一份蛋白質(zhì)氨基酸序列列表,上面列舉了近期已被解析的蛋白質(zhì)結(jié)構(gòu),相關(guān)數(shù)據(jù)由相應(yīng)的實(shí)驗(yàn)人員提供,但結(jié)果尚未發(fā)布。然后,世界各地的計(jì)算研究小組將使出渾身解數(shù)來(lái)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。一個(gè)獨(dú)立的科學(xué)家小組將通過(guò)比較他們的答案和實(shí)驗(yàn)證實(shí)的結(jié)構(gòu)來(lái)評(píng)估這些預(yù)測(cè)模型。
這個(gè)想法被付諸實(shí)踐。于是,CASP很快就成為以計(jì)算方法解決蛋白質(zhì)折疊問(wèn)題的試驗(yàn)常那時(shí)還沒(méi)有人工智能,計(jì)算方法主要是模擬分子的物理學(xué)原理。這是科學(xué)家們公開與同行同場(chǎng)競(jìng)技,驗(yàn)證自己觀點(diǎn)的機(jī)會(huì)。Thornton表示:“CASP本意并不是為了比賽,但實(shí)際上已經(jīng)成為一項(xiàng)賽事。”
CASP每?jī)赡昱e辦一次,科學(xué)家們會(huì)在阿西洛馬會(huì)議中心齊聚一堂,這是加利福尼亞州蒙特雷附近一座古老的小教堂,曾經(jīng)是衛(wèi)理公會(huì)教徒的隱居地。與會(huì)期間,組織者會(huì)宣布競(jìng)賽結(jié)果,計(jì)算學(xué)家們會(huì)發(fā)表演講,介紹自己所用的方法。Moult鼓勵(lì)與會(huì)者如果不贊同陳述的內(nèi)容,可以在木地板上跺幾腳以示反對(duì)。
他說(shuō):“剛開始的時(shí)候,跺腳聲確實(shí)是此起彼伏。”
曾師從Thornton的倫敦大學(xué)學(xué)院生物信息學(xué)教授David Jones回憶說(shuō):“跺腳聲仿佛鼓聲一樣。”如果演講者所分享的細(xì)節(jié)太冗長(zhǎng),生物學(xué)家們會(huì)跺腳;如果陳述內(nèi)容夸大其詞,他們也會(huì)跺腳;如果演講者的觀點(diǎn)重復(fù)或過(guò)于雜亂,他們還會(huì)跺腳。Jones表示:“跺腳聲并不討厭,”因?yàn)檫@都是善意的聲音。
早期的CASP會(huì)議在加利福尼亞州蒙特雷的阿西洛瑪會(huì)議中心舉行。當(dāng)與會(huì)者在木地板上跺腳時(shí),聲音就像鼓聲一樣。圖源:Aramark Destinations
不管跺腳是出于什么原因,當(dāng)跺腳聲在演講者耳邊響起時(shí),都會(huì)讓人感到尷尬。Jones說(shuō):“感謝老天爺,我演講時(shí)沒(méi)人跺過(guò)腳。有一年,他和同事們提出了一種名為“穿線法(threading)”的計(jì)算方法,即通過(guò)已知的蛋白質(zhì)結(jié)構(gòu)編織氨基酸序列,尋找契合點(diǎn)。他們的表現(xiàn)還可以。“我們當(dāng)時(shí)很高興。......但之后就開始走下坡路了,”Jones笑著回憶道.“真的,挺很意思的。”
帕多瓦大學(xué)生物信息學(xué)教授Silvio Tosatto表示,當(dāng)時(shí)學(xué)界興致盎然。“大家覺得如果自己有能夠正確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的算法,就可以成為百萬(wàn)富翁。還有一些人認(rèn)為諾貝爾獎(jiǎng)已經(jīng)近在咫尺了。”
當(dāng)然,早年這些美夢(mèng)都沒(méi)成真。當(dāng)被問(wèn)及在此期間,CASP收到的分享報(bào)告質(zhì)量如何時(shí),Moult停頓了一下,說(shuō)道:“可以用參差不齊(Random)來(lái)形容。”
有些方法的效果比預(yù)期的要好,比如“同源建模(homology modeling)”,它通過(guò)比較已知蛋白質(zhì)的結(jié)構(gòu)來(lái)推導(dǎo)未知蛋白質(zhì)的結(jié)構(gòu)。還有些方法則一敗涂地。Moult說(shuō),大多數(shù)模型的預(yù)測(cè)結(jié)果都是“扭曲變形的”。
荷蘭癌癥研究所和烏特勒支大學(xué)的結(jié)構(gòu)生物學(xué)家Anastassis Perrakis開玩笑說(shuō):“我很喜歡看到他們失敗。”他曾將實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)結(jié)構(gòu)提供給CASP組織者作為比賽參考。“這不是較勁,我們只是喜歡就科學(xué)問(wèn)題捉弄彼此。”
不過(guò)在這一過(guò)程中,也有一些人嶄露頭角。1996年,第二屆CASP結(jié)束后,一位名叫David Baker的年輕人邀請(qǐng)Jones共乘一輛出租車前往機(jī)常他聽過(guò)Jones的演講,正在研究自己的計(jì)算模型。雖然他還沒(méi)準(zhǔn)備好參加這次的CASP,但他想和Jones聊聊。于是,Jones在出租車上傾聽了他的想法,但沒(méi)想過(guò)會(huì)再見到他。
等到1998年,這位年輕人憑借自己的算法Rosetta驚艷全常Jones說(shuō),他當(dāng)時(shí)可謂是“一馬當(dāng)先”。
David Baker 現(xiàn)在是世界領(lǐng)先的蛋白質(zhì)設(shè)計(jì)專家之一,他憑借名為 Rosetta 的高性能算法,在CASP中成為了眾矢之的。。圖源:BBVA Foundation
Rosetta這樣的算法可以模擬氨基酸分子的原子間相互作用,從而預(yù)測(cè)它們將如何折疊。它們“表明你確實(shí)可以預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。但它還不夠好,也不夠準(zhǔn)確,因此實(shí)用價(jià)值有限,”Baker評(píng)論道。
2008年,計(jì)算機(jī)的表現(xiàn)依然不如人類。Baker當(dāng)時(shí)正在華盛頓大學(xué)管理自己的實(shí)驗(yàn)室,他創(chuàng)建了一款名為Foldit的免費(fèi)在線游戲,玩家可以將一串串氨基酸折疊成蛋白質(zhì)結(jié)構(gòu)。他的團(tuán)隊(duì)在發(fā)表于《自然》期刊的一篇論文中報(bào)告說(shuō),人類玩家在蛋白質(zhì)建模方面的表現(xiàn)優(yōu)于Rosetta。
但人類的領(lǐng)先優(yōu)勢(shì)不會(huì)持續(xù)太久。2010年代初,科學(xué)家們?cè)谝粋(gè)被稱為“協(xié)同進(jìn)化(co-evolution)”的概念上取得了重大突破,這推動(dòng)了這一領(lǐng)域的發(fā)展,并為日后人工智能的發(fā)展打下了重要基石。這個(gè)概念其實(shí)已經(jīng)存在了幾十年,簡(jiǎn)單明了的說(shuō)就是:通過(guò)比較成百上千個(gè)蛋白質(zhì)中密切相關(guān)的氨基酸序列,科學(xué)家們可以識(shí)別出發(fā)生變異的氨基酸。更重要的是,可以確定它們是否與其他氨基酸同步發(fā)生變異。如果兩個(gè)氨基酸同時(shí)發(fā)生了變化,那么它們之間很可能存在某種聯(lián)系。伯克利實(shí)驗(yàn)室的結(jié)構(gòu)生物學(xué)Adams表示:“我們可以說(shuō),這兩個(gè)氨基酸也許在空間上很靠近。”
蛋白質(zhì)的協(xié)同進(jìn)化能夠揭示其結(jié)構(gòu)。圖源:Mark Belan
但直到2010年代初,這種預(yù)測(cè)哪些氨基酸會(huì)發(fā)生接觸的方法令人失望,準(zhǔn)確率徘徊在20% 到24%之間。隨后,科學(xué)家們注意到,他們的統(tǒng)計(jì)方法存在誤差,也就是說(shuō)一些看似彼此接觸的氨基酸實(shí)際上并沒(méi)有任何接觸。后來(lái),Moult了解到,幾十年來(lái),統(tǒng)計(jì)學(xué)家一直對(duì)這種誤差的存在心知肚明。他說(shuō),回首往事,你會(huì)想“我當(dāng)初怎么這么笨?”
隨后,計(jì)算生物學(xué)家清理了統(tǒng)計(jì)工具。到了2016年,接觸預(yù)測(cè)的準(zhǔn)確率已經(jīng)飆升至47%。兩年后,準(zhǔn)確率達(dá)到了70%。Baker的算法之所以能取得成功還要?dú)w功于以下原因:2014年,Rosetta生成了兩個(gè)非常精確的蛋白質(zhì)結(jié)構(gòu),以至于CASP評(píng)審員認(rèn)為Baker可能已經(jīng)解決了蛋白質(zhì)折疊問(wèn)題。
Adams表示,協(xié)同進(jìn)化的洞見“非常奇妙”。在不使用機(jī)器學(xué)習(xí)的情況下,協(xié)同進(jìn)化是“真正推動(dòng)該領(lǐng)域發(fā)展的重大事件之一”。
然而,這項(xiàng)突破并沒(méi)能帶領(lǐng)該領(lǐng)域走得太遠(yuǎn)。協(xié)同進(jìn)化需要大量相似的蛋白質(zhì)進(jìn)行比較,而實(shí)驗(yàn)人員解析蛋白質(zhì)結(jié)構(gòu)的速度不足以滿足計(jì)算人員的需求。
談及這一切時(shí),Moult引用了進(jìn)化生物學(xué)中的一個(gè)術(shù)語(yǔ):歲月在間斷平衡(punctuated equilibrium)中流逝。有時(shí),人們感覺好像十億年都沒(méi)有進(jìn)化出好的想法,但緊接著便有可能發(fā)生令人興奮的進(jìn)展。
問(wèn)世
(1)倉(cāng)促上陣
2016年,David Jones在《自然》期刊上發(fā)表的一篇新論文中瞥見了未來(lái)的景象。來(lái)自谷歌DeepMind(一個(gè)位于倫敦的人工智能團(tuán)隊(duì))的研究人員詳細(xì)介紹了他們的算法是如何利用一種被稱為深度學(xué)習(xí)的方法,在圍棋這項(xiàng)古老的棋盤游戲中擊敗人類冠軍的。
Jones大吃一驚。“大事即將發(fā)生,我真的要了解深度學(xué)習(xí)了,”他回憶道。
深度學(xué)習(xí)是一種受人類大腦啟發(fā)的人工智能技術(shù)。在你的大腦中,分子信息通過(guò)由神經(jīng)元這種腦細(xì)胞構(gòu)成的互通互聯(lián)網(wǎng)絡(luò)進(jìn)行傳輸。神經(jīng)元向外延伸的突起叫做樹突,可以捕捉鄰近神經(jīng)元派出的分子,這些分子會(huì)告訴接收神經(jīng)元,是否需要發(fā)射和傳播信號(hào)。
布朗大學(xué)計(jì)算機(jī)科學(xué)系的教授Michael Littman說(shuō):“如果該神經(jīng)元接受到了足夠多的活動(dòng)分子,那么該神經(jīng)元就會(huì)被激活,從而發(fā)出信號(hào)。這將導(dǎo)致另一波分子被釋放到下一個(gè)神經(jīng)元。”
20世紀(jì)50年代,計(jì)算機(jī)科學(xué)家意識(shí)到,他們可以將電子比特連接起來(lái),創(chuàng)建“神經(jīng)網(wǎng)絡(luò)”。神經(jīng)網(wǎng)絡(luò)中的每個(gè)單元都是一個(gè)節(jié)點(diǎn),研究人員將其比喻為神經(jīng)元:一個(gè)神經(jīng)元接收來(lái)自其他神經(jīng)元的信息,然后計(jì)算是否向下一個(gè)神經(jīng)元發(fā)射信息。在這樣的神經(jīng)網(wǎng)絡(luò)中,信息通過(guò)多層神經(jīng)元傳播,產(chǎn)生特定的結(jié)果,比如識(shí)別圖像中的狗等。
神經(jīng)網(wǎng)絡(luò)的工作原理。圖源:Mark Belan
神經(jīng)元的層數(shù)越多,能進(jìn)行的計(jì)算越復(fù)雜。但早期的神經(jīng)網(wǎng)絡(luò)一般只有兩層。到了20世紀(jì)90年代,神經(jīng)元層數(shù)增加到了三層,并在接下來(lái)20年間都未增加。Littman說(shuō):“我們不知道如何可靠地創(chuàng)建比這更深層的神經(jīng)網(wǎng)絡(luò)。”
自20世紀(jì)90年代以來(lái),包括Jones和Moult在內(nèi)的結(jié)構(gòu)生物學(xué)家一直嘗試將神經(jīng)科學(xué)網(wǎng)絡(luò)運(yùn)用到蛋白質(zhì)科學(xué)中,但淺層網(wǎng)絡(luò)和稀疏數(shù)據(jù)的局限性讓他們止步不前。隨后時(shí)間來(lái)到20世紀(jì)10年代初,計(jì)算機(jī)科學(xué)家們學(xué)會(huì)了如何更好地構(gòu)建神經(jīng)網(wǎng)絡(luò),以便對(duì)更多層神經(jīng)元進(jìn)行穩(wěn)定的訓(xùn)練。神經(jīng)網(wǎng)絡(luò)的層數(shù)也逐漸從20層、50層、100層發(fā)展到數(shù)千層。Littman表示:“為了區(qū)別于我們?cè)?0年代的做法,人們開始稱之為‘深度學(xué)習(xí)’。要說(shuō)機(jī)器學(xué)習(xí)領(lǐng)域的研究者們擅長(zhǎng)什么,那可以說(shuō)是創(chuàng)造一些酷炫的名詞了。”
深度學(xué)習(xí)改變了人工智能,使算法能夠出色地識(shí)別照片或聲音中的特征,并在游戲中擊敗了人類。
2016年3月,當(dāng)DeepMind聯(lián)合創(chuàng)始人Demis Hassabis在首爾見證其旗下的人工智能系統(tǒng)AlphaGo在歷史悠久的圍棋比賽中擊敗人類世界冠軍時(shí),他回想起了自己在大學(xué)時(shí)玩Foldit的情景。他想知道,如果DeepMind的研究人員能寫出模仿圍棋大師直覺的算法,難道他們不能寫出模仿Foldit游戲玩家直覺的算法嗎?這樣的算法雖然不懂生物學(xué),卻知道如何折疊蛋白質(zhì)。
2016年,谷歌DeepMind的人工智能系統(tǒng)AlphaGo戰(zhàn)勝了世界圍棋冠軍李世石(右),其模仿人類直覺的能力引起了生物學(xué)家對(duì)深度學(xué)習(xí)在蛋白質(zhì)科學(xué)中潛力的關(guān)注。圖源:Google DeepMind
芝加哥豐田工業(yè)大學(xué)的教授許錦波(Jinbo Xu)也認(rèn)識(shí)到了利用深度學(xué)習(xí)解決蛋白質(zhì)折疊問(wèn)題的潛力。他受到了神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別方面所取得的成績(jī)的啟發(fā)。當(dāng)時(shí),計(jì)算機(jī)科學(xué)家已經(jīng)在卷積網(wǎng)絡(luò)方面取得了巨大成功,卷積網(wǎng)絡(luò)利用深度學(xué)習(xí)算法將圖像分割成若干塊,并識(shí)別它們之間的模式。許教授將這一技術(shù)引入了蛋白質(zhì)折疊領(lǐng)域。他使用一種稱為矩陣的數(shù)學(xué)對(duì)象來(lái)表示哪些氨基酸在空間中彼此鄰近,然后將數(shù)據(jù)作為圖像輸入卷積網(wǎng)絡(luò)。該算法通過(guò)尋找這些圖像之間的模式來(lái)預(yù)測(cè)組成蛋白質(zhì)的原子的三維坐標(biāo)。
2016年,他在arxiv.org上發(fā)布了這項(xiàng)的預(yù)印*(后來(lái)發(fā)表在PLOS Computational Biology上),向人們展示了“深度學(xué)習(xí)的潛在應(yīng)用”。Moult表示:“這在當(dāng)時(shí)對(duì)蛋白質(zhì)折疊領(lǐng)域影響頗深。”
Wang, Sheng, et al. "Accurate de novo prediction of protein contact map by ultra-deep learning model."PLoS computational biology13.1 (2017): e1005324.
不久之后,蛋白質(zhì)結(jié)構(gòu)研究小組開始涉足深度學(xué)習(xí)。AlQuraishi和他的團(tuán)隊(duì)率先開發(fā)出了一種方法,可以完全通過(guò)神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),也就是所謂的“端到端”(end-to-end)方法,只是效果并不理想。其他人則是各顯神通,努力想要跟上這波科研的新浪潮。
Jones說(shuō):“我當(dāng)時(shí)并不清楚自己想用深度學(xué)習(xí)做什么,但我意識(shí)到我需要了解和運(yùn)用深度學(xué)習(xí)。”
在他已經(jīng)開始撰寫資助申請(qǐng),自尋出路時(shí),他收到了谷歌DeepMind的一封電子郵件。他們向Jones詢問(wèn)了CASP競(jìng)賽的情況,并表示愿意提供幫助。“我以為他們的意思是:我們可以提供強(qiáng)大的計(jì)算機(jī)能力,”瓊斯說(shuō)道。
雙方見面之后,Jones發(fā)現(xiàn)谷歌的野心顯然不止于此。但要實(shí)現(xiàn)自己的雄心壯志,這家科技巨頭公司需要更多的科學(xué)人才。
(2)新秀入場(chǎng)
2016年,Jones開始擔(dān)任谷歌DeepMind的顧問(wèn),負(fù)責(zé)一個(gè)后來(lái)被稱為AlphaFold的項(xiàng)目;與此同時(shí),John Jumper正在芝加哥大學(xué)完成他的理論化學(xué)博士學(xué)位。
少年時(shí)期,Jumper自學(xué)了計(jì)算機(jī)編程。他在物理方面也很有天賦。因此,到了選擇大學(xué)專業(yè)時(shí),盡管他的父母都是工程師且擔(dān)心他找不到工作,但他還是決定學(xué)習(xí)數(shù)學(xué)和物理。
“我一直以為自己會(huì)成為一名研究‘宇宙法則’的物理學(xué)家,”Jumper說(shuō)。“我一直熱愛探索宇宙真理的這一理念。”
作為一名本科生,John Jumper學(xué)習(xí)了物理和數(shù)學(xué),然后找到了一份創(chuàng)建蛋白質(zhì)計(jì)算機(jī)模擬的工作。這些經(jīng)歷使他能夠領(lǐng)導(dǎo)谷歌DeepMind 的AlphaFold項(xiàng)目。圖源:John Jumper
在范德比爾特大學(xué)讀本科時(shí),他與費(fèi)米國(guó)家加速器實(shí)驗(yàn)室的研究人員合作,研究夸克(quarks)這種亞原子粒子的奇特屬性。一天,當(dāng)他和研究人員坐在一起吃午飯時(shí),他得知了一個(gè)壞消息。“那么,我們正在進(jìn)行的這項(xiàng)實(shí)驗(yàn)什么時(shí)候才能啟動(dòng)呢?”Jumper回憶自己曾這樣問(wèn)他們。其中一位教授說(shuō),他可能退休前等不到了。另一位年紀(jì)稍長(zhǎng)的教授說(shuō),他可能都活不到那一天。
“我希望自己做科研耗費(fèi)的時(shí)間比兩位教授說(shuō)的短一點(diǎn),”Jumper說(shuō)。在完成本科學(xué)業(yè)后,他參與了一個(gè)理論凝聚態(tài)物質(zhì)物理學(xué)的博士課程但很快就輟學(xué)了。他在D.E. Shaw研究公司找到了一份工作,這是一家紐約的公司,當(dāng)時(shí)正在進(jìn)行蛋白質(zhì)基本模擬的研究。通過(guò)了解蛋白質(zhì)如何運(yùn)動(dòng)和變化,他們希望能更好地理解各種疾病的機(jī)制,例如肺癌。
這是Jumper第一次意識(shí)到自己工作的潛在重要性。“這關(guān)乎健康和延長(zhǎng)人們的壽命,”他說(shuō)。在接下來(lái)的三年里,Jumper在公司的超級(jí)計(jì)算機(jī)上對(duì)蛋白質(zhì)的運(yùn)動(dòng)進(jìn)行了建模,這些超級(jí)計(jì)算機(jī)是專門為更快地模擬分子而建造的。“有時(shí)候,我在周二一天做的模擬比我整個(gè)博士期間要做的還多,”他說(shuō)。
2011年,他決定再次嘗試讀研,這次是在芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍然對(duì)蛋白質(zhì)結(jié)構(gòu)和運(yùn)動(dòng)感興趣。但他對(duì)學(xué)術(shù)界的緩慢進(jìn)展感到沮喪。“我再也無(wú)法使用我在D.E. Shaw公司用過(guò)的那種定制計(jì)算機(jī)硬件了,”Jumper說(shuō)。他想知道是否可以使用人工智能(當(dāng)時(shí)被稱為統(tǒng)計(jì)物理)來(lái)實(shí)現(xiàn)快速模擬,而這通常需要先進(jìn)的機(jī)器。他開始涉足機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。
在此期間,他也開始思考蛋白質(zhì)折疊問(wèn)題。他覺得這個(gè)問(wèn)題應(yīng)該可以用蛋白質(zhì)數(shù)據(jù)庫(kù)中的訓(xùn)練數(shù)據(jù)來(lái)解決到2012年,該數(shù)據(jù)庫(kù)已包含超過(guò)76,000種蛋白質(zhì)結(jié)構(gòu)。
Jumper說(shuō):“我當(dāng)時(shí)相信數(shù)據(jù)量已經(jīng)足夠多了,但是想法還不夠成熟。”
2017年,Jumper聽說(shuō)谷歌DeepMind開始涉足蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。他剛剛完成博士學(xué)位,讀博期間恰好主攻利用機(jī)器學(xué)習(xí)來(lái)模擬蛋白質(zhì)折疊和動(dòng)態(tài)。于是,他申請(qǐng)了谷歌的研究科學(xué)家職位。
“這個(gè)項(xiàng)目當(dāng)時(shí)處于保密階段,”他說(shuō)。如果他在面試中提到蛋白質(zhì)折疊,DeepMind團(tuán)隊(duì)就會(huì)轉(zhuǎn)移話題。“您轉(zhuǎn)移話題太多次的話,只會(huì)讓我更加確定貴公司在做什么。”Jumper說(shuō)。
谷歌 DeepMind 總部位于倫敦。圖源:Buildington
2017年10月,他來(lái)到了DeepMind位于倫敦的辦公室。在顧問(wèn)Jones的幫助下,團(tuán)隊(duì)已經(jīng)開始深入開發(fā)AlphaFold。“那會(huì)兒真的太有意思了,我們不斷提出各種想法,”Jones說(shuō)。“最終會(huì)有一個(gè)比較好的核心想法脫穎而出,然后他們便開始全力推進(jìn)。”
為了訓(xùn)練算法,DeepMind團(tuán)隊(duì)使用了超過(guò)140,000個(gè)來(lái)自蛋白質(zhì)數(shù)據(jù)庫(kù)的蛋白質(zhì)結(jié)構(gòu)。他們將這些信息輸入到一個(gè)卷積網(wǎng)絡(luò)中,但并沒(méi)有對(duì)AI架構(gòu)本身進(jìn)行太多改動(dòng)。“這是‘標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)’,”Jumper說(shuō)道。
到了2018年春季,AlphaFold準(zhǔn)備參加CASP,與“正統(tǒng)的”蛋白質(zhì)科學(xué)家們同臺(tái)競(jìng)技。“有點(diǎn)像一級(jí)方程式賽車,”Jones回憶道。“你認(rèn)為自己建造了最好的賽車,但你不知道其他車隊(duì)的實(shí)力如何。”由于風(fēng)險(xiǎn)很高,DeepMind團(tuán)隊(duì)討論是否應(yīng)匿名參賽,因?yàn)樗麄儾幌氡划?dāng)眾羞辱。
Jones說(shuō):“沒(méi)有人想失敗。”在學(xué)術(shù)界,失敗是工作的一部分;你失敗了,只能繼續(xù)前行,因?yàn)槟銊e無(wú)選擇。“但如果是一家價(jià)值數(shù)十億美元的科技公司,那么失敗的嘗試顯然會(huì)很讓公司看著狼狽。”
他們最終決定以谷歌DeepMind的名義提交參賽成果。在12月會(huì)議開始前幾個(gè)月,Jones收到了CASP組織方的回復(fù),他們建議DeepMind團(tuán)隊(duì)線下參加會(huì)議,因?yàn)锳lphaFold表現(xiàn)非常出色。
雖然他們?cè)陬A(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)方面的準(zhǔn)確性大約是第二名的2.5倍,但并非絕對(duì)碾壓。不過(guò),他們的凱旋依舊給人留下了深刻印象。“顯然,有趣的事情正在上演,”Moult說(shuō)道。
(3)重啟算法
這次勝利對(duì)DeepMind團(tuán)隊(duì)來(lái)說(shuō)本應(yīng)是一針強(qiáng)心劑,但他們知道自己離真的解決蛋白質(zhì)折疊問(wèn)題還相距甚遠(yuǎn)。幾個(gè)月前,Hassabis將團(tuán)隊(duì)成員召集在一起。“我們的目標(biāo)是否是真正解決這個(gè)問(wèn)題?”Jumper回憶起他當(dāng)時(shí)說(shuō)的話。“如果這不是我們的目標(biāo),那我們就著手解決能夠真正產(chǎn)生巨大影響的問(wèn)題。”
John Jumper懷疑生物學(xué)家已經(jīng)研究了足夠的蛋白質(zhì)結(jié)構(gòu)來(lái)解決蛋白質(zhì)折疊問(wèn)題。 2017年開始在谷歌DeepMind工作的Jumper 說(shuō):“我相信數(shù)據(jù)已經(jīng)足夠了。”但“想法還不夠”。圖源:Google DeepMind
憑借在物理學(xué)、化學(xué)、生物學(xué)和計(jì)算領(lǐng)域的多重背景,Jumper在頭腦風(fēng)暴會(huì)議上分享了獨(dú)到的見解。很快,他開始領(lǐng)導(dǎo)這個(gè)從六人擴(kuò)展到十五人的團(tuán)隊(duì)。“他們?cè)谧鲆患芴貏e的事情,”Raphael Townshend評(píng)價(jià)道。2019年,他曾在谷歌DeepMind實(shí)習(xí),后來(lái)自己成立了AI驅(qū)動(dòng)的生物技術(shù)公司Atomic AI。
在學(xué)術(shù)界,專家們經(jīng)常各自為政,負(fù)責(zé)獨(dú)立的項(xiàng)目,很少有合作。而在DeepMind,統(tǒng)計(jì)學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算化學(xué)、軟件工程等領(lǐng)域的專家們協(xié)同合作,共同解決蛋白質(zhì)折疊問(wèn)題。他們還擁有谷歌強(qiáng)大的財(cái)政和計(jì)算資源支持。“作為博士生,我可能要花幾個(gè)月的時(shí)間才能完成的事情,在這里一天內(nèi)就能完成,”Townshend說(shuō)。
他說(shuō),倫敦DeepMind辦公室氛圍活躍,而這種活力很大程度上歸功于Jumper。“我覺得他是一個(gè)真正的天才,同時(shí)也是一個(gè)非常謙遜的人,團(tuán)隊(duì)成員都非常喜歡他。”計(jì)算機(jī)科學(xué)家Ellen Zhong這樣評(píng)價(jià)道。2021年,她曾在DeepMind實(shí)習(xí),現(xiàn)任普林斯頓大學(xué)的助理教授。
在Jumper的領(lǐng)導(dǎo)下,團(tuán)隊(duì)對(duì)AlphaFold進(jìn)行了重構(gòu)。他們?cè)O(shè)計(jì)了一種新型的Transformer架構(gòu)這是一種深度學(xué)習(xí)技術(shù),“在過(guò)去五年中推動(dòng)了幾乎每一次機(jī)器學(xué)習(xí)領(lǐng)域的突破,”Townshend說(shuō)道。神經(jīng)網(wǎng)絡(luò)通過(guò)調(diào)整神經(jīng)元連接的強(qiáng)度來(lái)創(chuàng)建更精確的數(shù)據(jù)表征,主要是關(guān)于蛋白質(zhì)進(jìn)化和結(jié)構(gòu)的數(shù)據(jù)。它通過(guò)第二個(gè)Transformer架構(gòu)運(yùn)行這些數(shù)據(jù),以預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。然后,該算法會(huì)將預(yù)測(cè)所得的3D結(jié)構(gòu)與修訂后的數(shù)據(jù)結(jié)合起來(lái),返回到Transformer架構(gòu)中運(yùn)行數(shù)次,以達(dá)到提高蛋白質(zhì)3D結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性的效果。
變革性的架構(gòu)
當(dāng)他們剛開始研發(fā)AlphaFold2時(shí),他們的算法“很糟糕,但沒(méi)有我們預(yù)期的那么糟糕,”Jumper說(shuō)。“(它)輸出了一些看起來(lái)有點(diǎn)像蛋白質(zhì)的螺旋結(jié)構(gòu)。”但隨著對(duì)算法的進(jìn)一步優(yōu)化,他們注意到預(yù)測(cè)的效率和準(zhǔn)確性大幅提升。
“這實(shí)際上讓人感到害怕,”Jumper說(shuō)。如果它表現(xiàn)得太好,通常意味著“你做錯(cuò)了一些事情。”但檢查過(guò)后,他們沒(méi)有發(fā)現(xiàn)問(wèn)題,優(yōu)化后的算法就是有效。
團(tuán)隊(duì)決定進(jìn)行一次內(nèi)部實(shí)驗(yàn),檢驗(yàn)他們的系統(tǒng)是否對(duì)生物學(xué)家有幫助。他們識(shí)別出大約50篇發(fā)表在《科學(xué)》、《自然》和《細(xì)胞》等頂級(jí)期刊上的論文,這些論文不僅描述了新的蛋白質(zhì)結(jié)構(gòu),還基于結(jié)構(gòu)分享了有關(guān)蛋白質(zhì)功能的深刻見解。他們想看看AlphaFold2的效果能否與實(shí)驗(yàn)人員費(fèi)時(shí)費(fèi)力的實(shí)驗(yàn)方法相媲美。
他們輸入了氨基酸序列,然后開啟了AlphaFold2的預(yù)測(cè)引擎。對(duì)于每個(gè)輸入的序列,AlphaFold2預(yù)測(cè)出的蛋白質(zhì)結(jié)構(gòu)都接近論文中實(shí)驗(yàn)所得的結(jié)果。然而,在團(tuán)隊(duì)看來(lái),這還不夠準(zhǔn)確。這些結(jié)構(gòu)缺少實(shí)驗(yàn)人員發(fā)現(xiàn)的關(guān)鍵細(xì)節(jié)。“你感覺好像已經(jīng)跑完了比賽,卻發(fā)現(xiàn)其實(shí)只完成了一半,”Jumper說(shuō)道。
接下來(lái)的六個(gè)月里,團(tuán)隊(duì)一點(diǎn)一點(diǎn)的改進(jìn)系統(tǒng)。距離2020年CASP競(jìng)賽的蛋白質(zhì)候選名單發(fā)布還有幾周時(shí),他們進(jìn)行了另一次有用性測(cè)試。Jumper對(duì)這次測(cè)試結(jié)果感到滿意。于是,谷歌DeepMind在2020年春季向CASP提交了他們的預(yù)測(cè)效果,然后等待評(píng)估結(jié)果。
(4)學(xué)科大地震
初夏時(shí)節(jié),Moult收到了一位CASP評(píng)估人員發(fā)給他的電子郵件:“看看這個(gè),相當(dāng)令人印象深刻。”郵件附上了由谷歌DeepMind團(tuán)隊(duì)提出的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)解決方案。Moult確實(shí)被震撼到了,但他認(rèn)為這是單一案例,不可復(fù)現(xiàn)。
然后他收到了另一封郵件,然后又一封郵件。“奇怪了,”他回憶自己當(dāng)時(shí)的感受。他收到了三個(gè),四個(gè),許多個(gè)接近完美的蛋白質(zhì)預(yù)測(cè)結(jié)果而且全部來(lái)自DeepMind團(tuán)隊(duì)。到了夏末,“我們迅速意識(shí)到……發(fā)生了非常非常不同尋常的事情,”Moult說(shuō)道。
CASP的評(píng)估人員通過(guò)比較預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)與其經(jīng)過(guò)驗(yàn)證的實(shí)驗(yàn)結(jié)構(gòu)來(lái)評(píng)分。如果模型預(yù)測(cè)和實(shí)驗(yàn)結(jié)果一一對(duì)應(yīng),十分完美,那么得分是100分。Moult一直認(rèn)為,90以上的分?jǐn)?shù)表明算法有效地解決了蛋白質(zhì)的結(jié)構(gòu)。AlphaFold的大多數(shù)預(yù)測(cè)結(jié)果都達(dá)到或超過(guò)了90分。
會(huì)議前幾個(gè)月,Moult通過(guò)電話將這個(gè)消息分享給了Jumper。“我(興奮地)當(dāng)場(chǎng)大聲咒罵,”Jumper回憶道。“我妻子還關(guān)心地問(wèn)我還好嗎。”
2020年12月,在新冠疫情爆發(fā)不到一年的時(shí)間里,Jumper在CASP在線會(huì)議上通過(guò)Zoom展示了AlphaFold2。
像其他與會(huì)者一樣,Jones也在家中觀看。“我當(dāng)時(shí)就呆住了……看著眼前發(fā)生的一切,”他說(shuō)。“因?yàn)橥虏辉谏磉?hellip;…我們都被封鎖在家,無(wú)法分享這一切。”
對(duì)于任何不是神經(jīng)網(wǎng)絡(luò)專家的人來(lái)說(shuō),這些想法很復(fù)雜。即便如此,結(jié)論卻很明確。DeepMind已經(jīng)解決了蛋白質(zhì)折疊問(wèn)題中的結(jié)構(gòu)預(yù)測(cè)部分。AlphaFold2能夠基于氨基酸序列準(zhǔn)確預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。
“啊,我的最愛研究課題走到了盡頭,”Jones回憶道。“DeepMind終結(jié)了比賽,這就是結(jié)局。”
多年來(lái),Anastassis Perrakis一直為CASP競(jìng)賽貢獻(xiàn)未發(fā)表的實(shí)驗(yàn)結(jié)果。當(dāng)他看到AlphaFold2準(zhǔn)確預(yù)測(cè)出他的團(tuán)隊(duì)煞費(fèi)苦心解析出的蛋白質(zhì)結(jié)構(gòu)時(shí),他感到心里咯噔一下。
雖然疫情被獨(dú)自困在家里時(shí),但科學(xué)家們一致認(rèn)為蛋白質(zhì)科學(xué)的世界已經(jīng)發(fā)生了永久性的改變。當(dāng)這個(gè)世界的“居民”眺望眼前的新景色時(shí),他們不由得問(wèn)出了同一個(gè)問(wèn)題:接下來(lái)該怎么辦?
余波
(1)驚訝之余,敬畏之心
結(jié)構(gòu)生物學(xué)突然失去結(jié)構(gòu)性了。
Silvio Tosatto從CASP創(chuàng)立早期就開始參與相關(guān)賽事了,他說(shuō),剛開始的時(shí)候,很多人陷入了深思。一些結(jié)構(gòu)生物學(xué)家擔(dān)心他們的工作將不復(fù)存在,另一些則產(chǎn)生了抵觸心理,聲稱AlphaFold2不夠準(zhǔn)確。
有些計(jì)算生物學(xué)家已經(jīng)為解決蛋白質(zhì)折疊問(wèn)題付出了數(shù)十年的心血,但當(dāng)這一刻真的到來(lái)時(shí),他們的感受是苦樂(lè)參半的。在CASP結(jié)束之后的一篇博客文章中,AlQuraishi引用了一位與會(huì)者的話,形容自己感覺像是孩子第一次走出家門的父母。
哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目的系統(tǒng)生物學(xué)家 Mohammed AlQuraishi 希望,到2040年,深度學(xué)習(xí)能夠模擬整個(gè)細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動(dòng)態(tài)。圖源:Nicole Pereira
但是,即便對(duì)這個(gè)耀眼的新工具感到惴惴不安,許多科學(xué)家還是非常興奮。那些不進(jìn)行結(jié)構(gòu)研究的人過(guò)去必須與結(jié)構(gòu)生物學(xué)家合作來(lái)確定蛋白質(zhì)結(jié)構(gòu),現(xiàn)在他們只需按幾個(gè)按鈕就可以自己得出蛋白質(zhì)的結(jié)構(gòu)。
媒體口中的AlphaFold2成為了“改變一切”的新人工智能突破。但是,科學(xué)家們花了數(shù)月甚至數(shù)年來(lái)剖析AlphaFold2的優(yōu)缺點(diǎn)。Jumper演講約六個(gè)月后,谷歌DeepMind正式發(fā)布了這款產(chǎn)品并分享了AlphaFold2的底層代碼。“AlphaFold2發(fā)布的第二天,我們就嘗試將它安裝到我們的GPU服務(wù)器上了,”Perrakis表示。生物學(xué)家們開始了探索。
“我原以為(AlphaFold2)會(huì)失敗,”Thornton說(shuō)。“但實(shí)際上它卻取得了巨大的成功。”
荷蘭癌癥研究所和烏特勒支大學(xué)的結(jié)構(gòu)生物學(xué)家Anastassis Perrakis開玩笑說(shuō):“我很喜歡看到他們失敗。”他曾將實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)結(jié)構(gòu)提供給CASP組織者作為比賽參考。“這不是較勁,我們只是喜歡就科學(xué)問(wèn)題捉弄彼此。”圖源:Anastassis Perrakis
Anastassis Perrakis向CASP貢獻(xiàn)了實(shí)驗(yàn)蛋白質(zhì)結(jié)構(gòu),計(jì)算生物學(xué)家在其上測(cè)試了他們的方法。“我很高興看到[這些方法]失敗,”他開玩笑說(shuō)。 “這不是競(jìng)爭(zhēng),但我們喜歡在科學(xué)上互相取笑。”
科學(xué)家們逐漸意識(shí)到,AlphaFold2可能并不會(huì)威脅到他們的工作,而是加速研究的催化劑。它不僅沒(méi)有使結(jié)構(gòu)生物學(xué)家失業(yè),反而為他們提供了一種新的工具,使他們的工作更加出色。“如果你認(rèn)為結(jié)構(gòu)生物學(xué)家只是技術(shù)專家,他們的工作僅僅是弄清蛋白質(zhì)的結(jié)構(gòu),那么他們當(dāng)然會(huì)失業(yè),”Walden說(shuō)道。但這就像說(shuō)因?yàn)橛辛巳祟惢蚪M計(jì)劃,基因組學(xué)家不能再發(fā)表描述單個(gè)基因序列的論文,所以他們會(huì)失業(yè)一樣。
在許多情況下,結(jié)構(gòu)生物學(xué)家的目標(biāo)其實(shí)是探索蛋白質(zhì)的功能。有了AlphaFold2,他們可以在幾分鐘內(nèi)提出假設(shè),而不是等待數(shù)月甚至數(shù)年來(lái)通過(guò)實(shí)驗(yàn)弄清蛋白質(zhì)的結(jié)構(gòu)。
Adams認(rèn)為:“這給結(jié)構(gòu)生物學(xué)帶來(lái)了許多有益的改變,而非壞處,讓這個(gè)領(lǐng)域更加令人興奮。”
然而,它并沒(méi)有立即像一些人預(yù)測(cè)的那樣加速各種新藥的研發(fā),因?yàn)檠芯咳藛T很快發(fā)現(xiàn)這個(gè)工具也有其局限性。Perrakis表示,AlphaFold2的預(yù)測(cè)并不完美,需要實(shí)驗(yàn)驗(yàn)證,但“你可以更快地進(jìn)入實(shí)際的結(jié)構(gòu)研究”。現(xiàn)在,當(dāng)他的學(xué)生開始一個(gè)新項(xiàng)目時(shí),他們會(huì)首先使用AlphaFold2預(yù)測(cè)特定蛋白質(zhì)的結(jié)構(gòu),然后進(jìn)行實(shí)驗(yàn)驗(yàn)證。
Perrakis認(rèn)為自己和其他研究人員可能仍會(huì)在某些情況下用到X射線晶體學(xué)。但是,為了初步構(gòu)建蛋白質(zhì)結(jié)構(gòu),許多人開始將深度學(xué)習(xí)預(yù)測(cè)與先進(jìn)的電子顯微鏡技術(shù)如冷凍電鏡(cryo-EM)相結(jié)合,這項(xiàng)技術(shù)的核心是快速冷凍生物樣本并用電子轟擊它們。解析了結(jié)構(gòu)之后,他們便可以著手研究蛋白質(zhì)的功能問(wèn)題。AlQuraishi表示,AlphaFold2的出現(xiàn)加速了冷凍電鏡的應(yīng)用。
冷凍電鏡(Cryo-EM)的工作原理。
這種轉(zhuǎn)變已經(jīng)開始。2022年6月,《科學(xué)》雜志的一期特刊揭示了人類核孔復(fù)合體的近原子結(jié)構(gòu)。這個(gè)由30種不同蛋白質(zhì)構(gòu)成的龐大而復(fù)雜的結(jié)構(gòu)幾十年來(lái)一直是生物學(xué)上的難題?茖W(xué)家們使用AlphaFold2的預(yù)測(cè)結(jié)果來(lái)彌補(bǔ)冷凍電鏡未能解決的蛋白質(zhì)結(jié)構(gòu)問(wèn)題。
Jumper表示,看到這篇論文中的其他科學(xué)家使用AlphaFold2取得了生物學(xué)上的突破,他在那一刻意識(shí)到“(AlphaFold)確實(shí)非常、非常重要”。
在過(guò)去三年里,像核孔復(fù)合體這樣的突破標(biāo)志著蛋白質(zhì)科學(xué)領(lǐng)域的一個(gè)又一個(gè)里程碑。迄今為止,AlphaFold2預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)已被用于研究疾病和開發(fā)新的藥物輸送工具。“對(duì)我們來(lái)說(shuō),這非常有幫助,”博德研究所的分子生物學(xué)家Feng Zhang表示。他使用AlphaFold2設(shè)計(jì)了一種將藥物輸送到人體細(xì)胞內(nèi)的分子注射器。了解蛋白質(zhì)的結(jié)構(gòu)還可以輔助藥物開發(fā),例如,它能幫助研究人員判斷哪些分子能夠附著在蛋白質(zhì)結(jié)構(gòu)上,并改變其行為。盡管有些研究表明,AlphaFold2的預(yù)測(cè)結(jié)果在藥物研發(fā)領(lǐng)域不如實(shí)驗(yàn)所得有用,但也有研究證明它可以發(fā)揮相同的作用。人們還在探索人工智能工具對(duì)藥物開發(fā)的綜合影響。
另一方面,一些生物學(xué)家已經(jīng)不滿足于AlphaFold2在識(shí)別已知蛋白質(zhì)結(jié)構(gòu)和功能方面的應(yīng)用,轉(zhuǎn)向設(shè)計(jì)自然界中不存在的蛋白質(zhì),這種技術(shù)對(duì)創(chuàng)新藥物研發(fā)來(lái)說(shuō)十分關(guān)鍵。
(2)新前沿
看到Jumper在2020年CASP會(huì)議上的演講后,Baker立刻回到了他的Rosetta算法的工作上。當(dāng)時(shí)谷歌尚未分享AlphaFold2的底層源代碼。盡管如此,“我們開始嘗試他們分享的一些想法,”Baker說(shuō)。谷歌DeepMind團(tuán)隊(duì)在《自然》期刊上發(fā)表AlphaFold2的當(dāng)天,Baker和他的團(tuán)隊(duì)宣布了RoseTTAFold,這是一種與準(zhǔn)確度能與AlphaFold媲美的預(yù)測(cè)模型。RoseTTAFold同樣使用深度學(xué)習(xí)來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但其底層架構(gòu)與AlphaFold2大相徑庭。
Tosatto表示:“科學(xué)理念一旦被提出,其他人就可以逆向工程并在此基礎(chǔ)上進(jìn)行構(gòu)建,至少那些有足夠多資源的人可以做到。”
RoseTTAFold并不是AlphaFold唯一的競(jìng)爭(zhēng)者。Meta也開發(fā)了自己的算法來(lái)解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)或相關(guān)問(wèn)題。一些公司,已經(jīng)不局限于蛋白質(zhì)領(lǐng)域,而是使用深度學(xué)習(xí)來(lái)解析RNA結(jié)構(gòu),這其中就有Townshend的生物科技初創(chuàng)公司Atomic AI,。然而,在單一結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,迄今為止還沒(méi)有人能夠達(dá)到AlphaFold的精確度,Thornton表示:“我相信有些公司也可以做到,但我認(rèn)為很難再現(xiàn)AlphaFold當(dāng)初帶來(lái)的震撼。”
去年, David Baker(如圖)與John Jumper和Demis Hassabi因其在使用人工智能研究和設(shè)計(jì)蛋白質(zhì)方面的革命性工作,共同獲得了生物學(xué)和生物醫(yī)學(xué)領(lǐng)域的知識(shí)前沿獎(jiǎng)。圖源:BBVA Foundation
至少對(duì)外而言,Baker和Jumper繼續(xù)延續(xù)著CASP的良性競(jìng)爭(zhēng)傳統(tǒng)。“他們可能覺得我在與他們競(jìng)爭(zhēng),但我覺得我們只是從他們的工作中獲取靈感,”Baker說(shuō)道。
Jumper對(duì)此表示歡迎,他說(shuō):“大家共同推動(dòng)這門科學(xué)的發(fā)展真的很重要。如果AlphaFold的智慧結(jié)晶后繼無(wú)人,我覺得是件很悲哀的事情。”
Baker已經(jīng)扛起了這份傳承的重任,并在嘗試將之運(yùn)用到蛋白質(zhì)科學(xué)的新前沿中:蛋白質(zhì)設(shè)計(jì)。由于生物學(xué)家現(xiàn)在只能研究自然界已經(jīng)存在的蛋白質(zhì),所以Baker設(shè)想了一門科學(xué),能夠設(shè)計(jì)出新的蛋白質(zhì),專門用來(lái)控制陽(yáng)光、分解塑料或研發(fā)新藥或疫苗。
荷蘭胡布勒支研究所的結(jié)構(gòu)生物學(xué)家Danny Sahtoe曾在Baker指導(dǎo)下做博士后研究,他表示:“目前自然界中不同類型的蛋白質(zhì)結(jié)構(gòu)或形狀的數(shù)量是相當(dāng)有限的。理論上,應(yīng)該有更多可能的形狀,而如果你能生成更多形狀的蛋白質(zhì),那么就意味著你能擁有更多不同功能的蛋白質(zhì)。”
作為華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所的主任,Baker認(rèn)為蛋白質(zhì)設(shè)計(jì)本質(zhì)上是“逆蛋白質(zhì)折疊問(wèn)題”。與其將氨基酸序列輸入深度學(xué)習(xí)算法并讓它輸出蛋白質(zhì)結(jié)構(gòu),蛋白質(zhì)設(shè)計(jì)者應(yīng)該做的是將一個(gè)結(jié)構(gòu)輸入算法并讓它輸出一個(gè)序列,然后利用這個(gè)序列在實(shí)驗(yàn)室里生成蛋白質(zhì)。
AlphaFold和RoseTTAFold本身不能輸出這些序列,它們的編程邏輯是相反的。但Baker創(chuàng)建了RoseTTAFold的設(shè)計(jì)專用迭代版,基于其神經(jīng)架構(gòu),被稱為RoseTTAFold diffusion或RF diffusion。
Sahtoe說(shuō),蛋白質(zhì)設(shè)計(jì)由來(lái)已久,但深度學(xué)習(xí)加速了這一領(lǐng)域的發(fā)展,讓設(shè)計(jì)符合現(xiàn)實(shí)的蛋白質(zhì)計(jì)算機(jī)模型變得“極其快速”。以前,接受過(guò)專業(yè)培訓(xùn)的蛋白質(zhì)設(shè)計(jì)師需要幾周或幾個(gè)月的時(shí)間來(lái)創(chuàng)建新蛋白質(zhì)的骨架,但現(xiàn)在他們可以在幾天內(nèi),甚至一夜之間完成。
Foldit是由Baker實(shí)驗(yàn)室開發(fā)的在線游戲,玩家可以借此預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
Baker還更新了Foldit,將蛋白質(zhì)設(shè)計(jì)融入其中。玩家不僅可以構(gòu)建蛋白質(zhì)結(jié)構(gòu),還可以動(dòng)手設(shè)計(jì)蛋白質(zhì)。這個(gè)改變頗具成效,Baker的實(shí)驗(yàn)室已經(jīng)發(fā)表了幾篇關(guān)于玩家設(shè)計(jì)的蛋白質(zhì)的論文。Baker在華盛頓大學(xué)的同事指導(dǎo)的一名研究生就是世界上最頂尖的Foldit玩家之一。
“我們真的理解蛋白質(zhì)折疊嗎?如果我們能夠設(shè)計(jì)出新的序列,并使其折疊成新的結(jié)構(gòu),那么這表明我們對(duì)蛋白質(zhì)折疊有著相當(dāng)豐富的了解,”Baker說(shuō)。“從某種意義上說(shuō),這也可以被視為蛋白質(zhì)折疊問(wèn)題的解決方案。”
(3)信任練習(xí)
AlphaFold2的成功無(wú)疑改變了生物學(xué)家對(duì)人工智能的態(tài)度。長(zhǎng)期以來(lái),許多實(shí)驗(yàn)生物學(xué)家不信任計(jì)算方法,因?yàn)樗麄冎滥承C(jī)器學(xué)習(xí)方法可以使數(shù)據(jù)看起來(lái)比實(shí)際更好。但是,谷歌DeepMind團(tuán)隊(duì)“明確地證明了你可以把它用在嚴(yán)肅的科研工作中,”AlQuraishi說(shuō)道,F(xiàn)在如果還有人對(duì)此持懷疑態(tài)度,其他人便會(huì)反駁道:“好吧,那你怎么看AlphaFold呢?”
推動(dòng)了卷積網(wǎng)絡(luò)發(fā)展的計(jì)算生物學(xué)家許錦波說(shuō):“現(xiàn)在生物學(xué)家相信我們的預(yù)測(cè)結(jié)果了,他們以前總是懷疑我們的預(yù)測(cè)是否可靠。”
這種信任部分源于AlphaFold2平臺(tái)的一個(gè)特性:它不僅生成蛋白質(zhì)的3D模型,還按照從0到100的信心等級(jí)對(duì)結(jié)構(gòu)的不同部分進(jìn)行評(píng)分,以此來(lái)自我評(píng)估預(yù)測(cè)的準(zhǔn)確性。
2022年7月,在谷歌DeepMind發(fā)布2180萬(wàn)種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)后(幾乎涵蓋了已知的所有蛋白質(zhì))Adams決定分析AlphaFold2的自我報(bào)告。他將預(yù)測(cè)結(jié)果與這些蛋白質(zhì)的已解結(jié)構(gòu)進(jìn)行比較,并獨(dú)立評(píng)估其準(zhǔn)確性。
“好消息是,當(dāng)AlphaFold認(rèn)為自己是正確的時(shí)候,它往往確實(shí)是對(duì)的,”Adams說(shuō)道。“當(dāng)它認(rèn)為自己不對(duì)時(shí),現(xiàn)實(shí)情況往往也是如此。”但是,在大約10%的情況下,當(dāng)AlphaFold2對(duì)其預(yù)測(cè)“非常自信”(信心等級(jí)得分至少90分)時(shí),其預(yù)測(cè)結(jié)果其實(shí)與實(shí)驗(yàn)所得有出入,所以它自信過(guò)頭了。
AI系統(tǒng)似乎有某種自我懷疑的能力,可能會(huì)導(dǎo)致人們過(guò)度依賴其結(jié)論。大多數(shù)生物學(xué)家僅僅將AlphaFold2視為一種預(yù)測(cè)工具,但有些人步子邁得太大了。一些以前與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家已經(jīng)用AlphaFold2完全取代了結(jié)構(gòu)生物學(xué)家,并將其預(yù)測(cè)結(jié)果奉為圭臬。Perrakis說(shuō),有時(shí)科學(xué)家發(fā)表的論文中包含的蛋白質(zhì)結(jié)構(gòu)在任何結(jié)構(gòu)生物學(xué)家看來(lái)都顯然是錯(cuò)誤的。“而他們卻說(shuō):‘這可是AlphaFold預(yù)測(cè)的結(jié)果。’”
在美國(guó)國(guó)立衛(wèi)生研究院,Lauren Porter研究了可以改變構(gòu)象的蛋白質(zhì),稱為折疊轉(zhuǎn)換蛋白質(zhì)。他們“挑戰(zhàn)了序列編碼一種結(jié)構(gòu)的范式,”她說(shuō),“因?yàn)轱@然它們不編碼一種結(jié)構(gòu)。”圖源:Lauren Porter
“有些人對(duì)這些深度學(xué)習(xí)模型的能力過(guò)于自信,實(shí)在太過(guò)自信了,”美國(guó)國(guó)立衛(wèi)生研究院的研究員Lauren Porter這樣認(rèn)為。“我們應(yīng)該盡可能多地使用這些深度學(xué)習(xí)模型,但我們也需要以謹(jǐn)慎和謙遜的態(tài)度對(duì)待它們。”
Jones聽說(shuō)有科學(xué)家想通過(guò)計(jì)算方法確定蛋白質(zhì)結(jié)構(gòu),但在申請(qǐng)資金時(shí)卻遇到了困難。Jones說(shuō):“普遍的看法是DeepMind已經(jīng)做到了,為什么你還要繼續(xù)做?”但他認(rèn)為這項(xiàng)工作仍有必要繼續(xù)下去,因?yàn)锳lphaFold2并非完美無(wú)缺。
他表示:“(AlphaFold2)與實(shí)際科研要求還存在非常大的差距,有些事情它顯然無(wú)法做到。”
雖然AlphaFold2在預(yù)測(cè)小而簡(jiǎn)單的蛋白質(zhì)結(jié)構(gòu)方面表現(xiàn)出色,但在預(yù)測(cè)包含多個(gè)部分的蛋白質(zhì)時(shí)其準(zhǔn)確性較低。它也無(wú)法兼顧蛋白質(zhì)的環(huán)境或與其他分子的結(jié)合,而這些因素會(huì)在自然狀態(tài)下改變蛋白質(zhì)的結(jié)構(gòu)。有時(shí),蛋白質(zhì)需要被某些離子、鹽類物質(zhì)或金屬類物質(zhì)包圍才能正確折疊。
Walden說(shuō):“目前,AlphaFold還無(wú)法確定蛋白質(zhì)所處的環(huán)境。”她的小組已經(jīng)通過(guò)實(shí)驗(yàn)確定了幾種AlphaFold2無(wú)法預(yù)測(cè)的結(jié)構(gòu)。
AlphaFold2對(duì)集中動(dòng)態(tài)蛋白質(zhì)的預(yù)測(cè)結(jié)果也不是很好,這些蛋白質(zhì)的功能也非常重要。有些蛋白質(zhì)的形狀會(huì)發(fā)生改變,因此被稱為折疊轉(zhuǎn)換蛋白質(zhì)(fold-switching protein)。此類蛋白質(zhì)不是靜態(tài)的,它們的形狀隨著與其他分子的相互作用而發(fā)生變化。有些即使具有相同的氨基酸序列,也會(huì)折疊成截然不同的形狀。Porter認(rèn)為,折疊轉(zhuǎn)換蛋白質(zhì)“反駁了序列編碼單一結(jié)構(gòu)的傳統(tǒng)觀點(diǎn),因?yàn)檫@顯然與現(xiàn)實(shí)不符”。
此處所示的 RfaH 等折疊轉(zhuǎn)換蛋白能夠改變構(gòu)型以執(zhí)行不同的任務(wù)。當(dāng)處于α螺旋形態(tài)時(shí),RfaH蛋白無(wú)法與其目標(biāo)結(jié)合但當(dāng)其轉(zhuǎn)變?yōu)?beta;-折疊時(shí),就能進(jìn)行結(jié)合。圖源:Lauren Porter
與DeepMind算法訓(xùn)練用到的數(shù)十萬(wàn)種靜態(tài)單一結(jié)構(gòu)蛋白質(zhì)相比,折疊轉(zhuǎn)換蛋白質(zhì)只有大約100個(gè),當(dāng)然肯定還有更多尚未被發(fā)現(xiàn)。Porter說(shuō),其實(shí)這可能也不是很出人意料,因?yàn)?ldquo;一般來(lái)說(shuō),這些算法就是為了預(yù)測(cè)單一折疊而設(shè)計(jì)的”。
還有一些內(nèi)在無(wú)序蛋白質(zhì)或蛋白質(zhì)區(qū)域缺乏穩(wěn)定結(jié)構(gòu),就像是汽車經(jīng)銷商門口擺來(lái)擺去的充氣玩偶,總是在不停的扭動(dòng)、重組。“它們?cè)诤芏喾矫姹缓鲆暳,因(yàn)樗鼈冇悬c(diǎn)煩人,”哥本哈根大學(xué)計(jì)算蛋白質(zhì)生物物理學(xué)教授Kresten Lindorff-Larsen說(shuō)道。大約44%的人類蛋白質(zhì)存在至少一個(gè)由30個(gè)氨基酸組成的無(wú)序區(qū)域。Lindorff-Larsen表示:“這是一個(gè)相對(duì)較大的比例。”
AlphaFold2可以預(yù)測(cè)某些區(qū)域何時(shí)會(huì)內(nèi)在無(wú)序的情況,但它無(wú)法告訴你這種無(wú)序的具體形態(tài)。
對(duì)于Jumper來(lái)說(shuō),最令他失望的是AlphaFold2無(wú)法區(qū)分兩個(gè)僅相差一個(gè)氨基酸的蛋白質(zhì),也被稱為點(diǎn)突變(point mutation)。他說(shuō),點(diǎn)突變有時(shí)會(huì)對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能產(chǎn)生相當(dāng)顯著的影響,但“AlphaFold卻對(duì)它們幾乎視而不見,”基于兩段不同的序列生成相同結(jié)構(gòu)預(yù)測(cè)。
2023年9月,DeepMind發(fā)布了AlphaMissense,這是一種預(yù)測(cè)此類突變影響的深度學(xué)習(xí)算法。它不能顯示結(jié)構(gòu)的變化,但它可以根據(jù)已知病原蛋白中的類似突變,告知用戶該突變是否可能使蛋白質(zhì)致病或誘發(fā)功能障礙。
然而,即使AlphaFold2能夠完美預(yù)測(cè)所有蛋白質(zhì),它也離模擬現(xiàn)實(shí)中的生物原理相距甚遠(yuǎn)。因?yàn)樵诩?xì)胞中,蛋白質(zhì)從不單獨(dú)行動(dòng)。
(4)細(xì)胞復(fù)雜性
細(xì)胞內(nèi)部復(fù)雜且混亂。細(xì)胞的外膜包裹著一個(gè)擁擠的生化環(huán)境,其中充滿了各種分子成分蛋白質(zhì)、信號(hào)分子、信使RNA、細(xì)胞器等。蛋白質(zhì)相互結(jié)合并與其他分子結(jié)合,這改變了它們的形式和功能。
蛋白質(zhì)并不是單獨(dú)起作用的:它們不斷與其他分子相互作用。創(chuàng)作者Gael McGill寫道,這幅細(xì)胞圖是由真實(shí)蛋白質(zhì)和其他分子的模型組成的,“目的是為了展現(xiàn)細(xì)胞分子‘編排’的復(fù)雜性和藝術(shù)性。”圖源:Evan Ingersoll和Gal McGill, PhD/Digizyme Inc.
AlphaFold2預(yù)測(cè)單個(gè)蛋白質(zhì)結(jié)構(gòu)的能力并沒(méi)有幫助生物學(xué)家更好理解復(fù)雜天然環(huán)境中的蛋白質(zhì)。但是,這正是該領(lǐng)域目前正在前進(jìn)的方向。蛋白質(zhì)科學(xué)領(lǐng)域的人工智能巨頭谷歌DeepMind和David Baker的蛋白質(zhì)設(shè)計(jì)研究所,都在優(yōu)化它們的深度學(xué)習(xí)算法,以預(yù)測(cè)蛋白質(zhì)在與其他分子相互作用時(shí)所呈現(xiàn)的結(jié)構(gòu)。
在2024年春天,他們都發(fā)表了有關(guān)在該領(lǐng)域取得相似進(jìn)展的論文。通過(guò)更新算法,他們分別發(fā)布了AlphaFold3和RoseTTAFold All-Atom,它們能夠預(yù)測(cè)蛋白質(zhì)與其他蛋白質(zhì)、DNA、RNA和其他小分子結(jié)合時(shí)的結(jié)構(gòu)。
生物學(xué)家也開始對(duì)這些新模型進(jìn)行測(cè)試。目前為止,AlphaFold3比RoseTTAFold All-Atom準(zhǔn)確許多,AlQuraishi表示,但這不是像“AlphaFold2”那樣的技術(shù)飛躍。對(duì)于某些大分子,如RNA結(jié)構(gòu),其準(zhǔn)確性仍低于其他基于物理學(xué)的系統(tǒng)和實(shí)驗(yàn)。
AlphaFold3 可以預(yù)測(cè)分子復(fù)合物的結(jié)構(gòu),例如在破壞植物的真菌中發(fā)現(xiàn)的這種酶。在此模型結(jié)構(gòu)中,蛋白質(zhì)(藍(lán)色)與單糖(黃色)和離子(黃色球體)相連。圖源:Google DeepMind
盡管如此,這些新算法朝著正確的方向邁進(jìn)了一步。蛋白質(zhì)與其他分子的相互作用對(duì)其在細(xì)胞中的功能至關(guān)重要。為了開發(fā)可以與蛋白質(zhì)結(jié)合并按需改變其活性的藥物,研究人員需要了解這些復(fù)合物的形態(tài)。然而,Adams說(shuō),任何一種算法在短時(shí)間內(nèi)都不太可能催生新的藥物。“這兩種方法的準(zhǔn)確性仍然有限,(但)它們都在力所能及的范圍內(nèi)實(shí)現(xiàn)了巨大進(jìn)步。”
DeepMind的新產(chǎn)品還發(fā)生了一個(gè)重要的變化。此前AlphaFold2的底層代碼是開源的,其他研究人員可以研究該算法,在此基礎(chǔ)上進(jìn)行調(diào)整,以便更好地服務(wù)自己的項(xiàng)目。然而,谷歌迄今為止都未公開AlphaFold3的源代碼,而是將其作為商業(yè)機(jī)密加以保護(hù)。AlQuraishi說(shuō):“至少目前,沒(méi)有人可以像使用(AlphaFold2)那樣運(yùn)行和使用它。
化學(xué)家兼物理學(xué)家Brenda Rubenstein找到了如何創(chuàng)造性地使用AlphaFold2來(lái)預(yù)測(cè)她在布朗大學(xué)研究的蛋白質(zhì)的多種構(gòu)象。圖源:Melissa Shein
即使在AlphaFold3發(fā)布之前,研究人員就已經(jīng)在測(cè)試AlphaFold2,看看它是否能提供有關(guān)不同構(gòu)象下蛋白質(zhì)的有用信息。布朗大學(xué)化學(xué)和物理學(xué)副教授Brenda Rubenstein對(duì)激酶(kinases)這種能激活其他蛋白質(zhì)的蛋白質(zhì)很感興趣。具體來(lái)說(shuō),她想了解一種誘發(fā)癌癥的激酶的機(jī)制,以此開發(fā)更精準(zhǔn)對(duì)癥的藥物。她的實(shí)驗(yàn)室使用物理學(xué)的方法對(duì)激酶的結(jié)構(gòu)進(jìn)行了建模,即基于牛頓定律繪制原子的3D坐標(biāo)。這個(gè)過(guò)程花了兩年半的時(shí)間。
Rubenstein說(shuō):“大約一年前,我們開始思考能否加速這個(gè)過(guò)程?”他們嘗試以一種創(chuàng)新的方式使用AlphaFold2。通過(guò)向算法輸入有關(guān)相關(guān)蛋白質(zhì)的數(shù)據(jù),她發(fā)現(xiàn)其預(yù)測(cè)不同構(gòu)象激酶的準(zhǔn)確度超過(guò)了80%。
AlQuraishi評(píng)價(jià)道,Rubenstein的實(shí)驗(yàn)室為數(shù)不多能夠發(fā)現(xiàn)“如果你以正確的方式‘刺激’AlphaFold,它會(huì)輸出多個(gè)構(gòu)象”的實(shí)驗(yàn)室之一。“這令人鼓舞。”
AlQuraishi希望到2040年,深度學(xué)習(xí)能夠模擬一個(gè)完整的細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動(dòng)態(tài)。然而,要實(shí)現(xiàn)這一目標(biāo),需要在實(shí)驗(yàn)和計(jì)算兩方面取得質(zhì)的飛躍。
(5)非專業(yè)視角
對(duì)于許多生物學(xué)家來(lái)說(shuō),AlphaFold2是他們一直在等待的突破性技術(shù)。CASP的目標(biāo)是創(chuàng)建能夠基于氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的計(jì)算工具。然而,許多人不禁要問(wèn):為什么一個(gè)初出茅廬的新手能夠破解蛋白質(zhì)的奧秘,而那么多專家卻苦苦掙扎了幾十年?
不可否認(rèn)的是,谷歌DeepMind的計(jì)算機(jī)和蛋白質(zhì)科學(xué)團(tuán)隊(duì)為解決這個(gè)問(wèn)題提供了新的視角。同時(shí),蛋白質(zhì)科學(xué)已有無(wú)數(shù)先驅(qū)為其打下了堅(jiān)實(shí)的基礎(chǔ),做好了迎接深度學(xué)習(xí)革命的準(zhǔn)備。AlQuraishi說(shuō):“這些突破不是憑空出現(xiàn)的。”
到2020年CASP啟動(dòng)時(shí),許多研究人員預(yù)計(jì)結(jié)構(gòu)預(yù)測(cè)的突破將通過(guò)人工智能實(shí)現(xiàn)。“一切都朝著這個(gè)方向發(fā)展,”Townshend 說(shuō)。但他們沒(méi)有想到會(huì)來(lái)自一家市值數(shù)十億美元的科技公司,也沒(méi)有想到會(huì)這么快。有些人認(rèn)為AlphaFold2并不是全新的科學(xué)成就,而是精妙的工程技術(shù);有些人對(duì)David Baker的算法沒(méi)有獲獎(jiǎng)感到驚訝;還有些人則認(rèn)為谷歌DeepMind坐擁其他公司和團(tuán)隊(duì)無(wú)法匹敵的資源,因此不足為奇。
每年大約有100個(gè)實(shí)驗(yàn)室參加CASP,盡管他們已經(jīng)開始采用AI技術(shù),但他們“可能沒(méi)有DeepMind的專業(yè)人才儲(chǔ)備,也沒(méi)有同等的算力,”Thornton這樣認(rèn)為。DeepMind“可以使用的算力幾乎是無(wú)限的”。
她還推測(cè),谷歌雖然在蛋白質(zhì)科學(xué)方面缺乏專業(yè)知識(shí),但這反而可能釋放了他們的創(chuàng)造力。“他們專注于建立一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò),”Thornton說(shuō)。蛋白質(zhì)生物學(xué)家包袱更重。當(dāng)他們開發(fā)AI工具時(shí),他們希望捕捉蛋白質(zhì)折疊過(guò)程中涉及的原子級(jí)分子物理和化學(xué)原理。DeepMind的想法不一樣:我們只需序列數(shù)據(jù)轉(zhuǎn)化為3D結(jié)構(gòu),至于如何實(shí)現(xiàn),那無(wú)所謂。
Walden說(shuō):“他們沒(méi)有像此前很多預(yù)測(cè)模型那樣,試圖解決蛋白質(zhì)折疊的問(wèn)題本身,而是單純用‘蠻力’”去繪制原子在空間中的最終位置。有趣的是,他們反而因此解決了這個(gè)問(wèn)題。”
普林斯頓大學(xué)計(jì)算機(jī)科學(xué)家Ellen Zhu于2021年在谷歌DeepMind的AlphaFold2團(tuán)隊(duì)實(shí)習(xí),率先使用深度學(xué)習(xí)與冷凍電鏡相結(jié)合來(lái)研究蛋白質(zhì)動(dòng)力學(xué)。圖源:Tori Repp/Fotobuddy for Princeton University
對(duì)一些生物學(xué)家來(lái)說(shuō),這種方法并沒(méi)有完全解決蛋白質(zhì)折疊問(wèn)題。結(jié)構(gòu)生物學(xué)創(chuàng)立的初心是希望了解氨基酸鏈?zhǔn)侨绾握郫B成蛋白質(zhì)的。大多數(shù)生物學(xué)家認(rèn)為AlphaFold2確實(shí)解決了結(jié)構(gòu)預(yù)測(cè)問(wèn)題,但卻沒(méi)有解決蛋白質(zhì)折疊問(wèn)題。Ellen Zhong表示:“現(xiàn)在,我們只是擁有了一個(gè)黑匣子,它可以某種方式告訴你最終的折疊狀態(tài),但實(shí)際上你卻不知道是如何實(shí)現(xiàn)的。”
“這不是科學(xué)家解決問(wèn)題的方式,”布朗大學(xué)計(jì)算機(jī)科學(xué)家Littman表示。
但約翰霍普金斯大學(xué)生物物理學(xué)榮譽(yù)教授George Rose表示,這聽起來(lái)可能像是在‘找茬’,但顯然不是。”AlphaFold2可以根據(jù)對(duì)數(shù)十萬(wàn)蛋白質(zhì)結(jié)構(gòu)的分析,識(shí)別出給定氨基酸序列潛在折疊模式。但它無(wú)法告訴科學(xué)家蛋白質(zhì)折疊過(guò)程的任何信息。
“對(duì)于許多人來(lái)說(shuō),你不需要知道。他們不在乎,”Rose說(shuō)。“但科學(xué),至少?gòu)倪^(guò)去500年以來(lái)……一直致力于理解事物發(fā)生的過(guò)程。”為了理解以蛋白質(zhì)為基礎(chǔ)的生命的動(dòng)態(tài)變化、機(jī)制、功能和本質(zhì),Rose認(rèn)為,你需要具備對(duì)過(guò)程的全面了解而深度學(xué)習(xí)算法無(wú)法做到這一點(diǎn)。
對(duì)Moult來(lái)說(shuō),重要的并不是機(jī)器在做的事情他無(wú)法理解。“我們都習(xí)慣了機(jī)器做我們無(wú)法做到的事情。比如,我跑得不如我的車快,”他說(shuō)。對(duì)于想要研究蛋白質(zhì)的分子生物學(xué)家來(lái)說(shuō),只需要大致知道它的結(jié)構(gòu)即可,至于蛋白質(zhì)是如何折疊形成這樣的結(jié)構(gòu)并不重要。
但“在我們真正知道它是如何運(yùn)作之前,我們永遠(yuǎn)不會(huì)有一個(gè)100%可靠的預(yù)測(cè)器,”Porter說(shuō)。“我們必須理解基本的物理學(xué),才能做出最有根據(jù)的預(yù)測(cè)。”
AlQuraishi 表示:“我們的目標(biāo)在不斷變化。我確實(shí)認(rèn)為核心問(wèn)題已經(jīng)解決,現(xiàn)在更加關(guān)心接下來(lái)會(huì)發(fā)生什么。”
即使生物學(xué)家之間還存在不少爭(zhēng)辯,其他人已將目光投向了一個(gè)毫無(wú)疑問(wèn)已經(jīng)改變的領(lǐng)域,并開始回顧起近期的發(fā)展。
有時(shí)Perrakis會(huì)懷念以前的工作方式。2022年,他的團(tuán)隊(duì)通過(guò)X射線晶體學(xué)解析了一種參與修飾微管的酶的結(jié)構(gòu)(微管microtubules)是形成細(xì)胞結(jié)構(gòu)的巨大棒狀分子)。他說(shuō):“我意識(shí)到我再也不會(huì)(這樣做)了,也無(wú)法再次感受到在數(shù)月的工作之后首次確定結(jié)構(gòu)帶來(lái)的特殊滿足感。”
AlphaFold2并沒(méi)有淘汰這些實(shí)驗(yàn)。相反,它揭示了它們的必要性。它將兩個(gè)歷史上截然不同的學(xué)科聯(lián)系在一起,觸發(fā)了一場(chǎng)酣暢淋漓的對(duì)話。
(6)新世界
七十年前,人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì),Porter說(shuō)。“而現(xiàn)在我們能看到的”:一個(gè)由各種結(jié)構(gòu)構(gòu)成的巨大的蛋白質(zhì)世界,無(wú)論它們是自然界中存在的還是設(shè)計(jì)出來(lái)的。
蛋白質(zhì)生物學(xué)領(lǐng)域“在AlphaFold出現(xiàn)之后更令人興奮了”,Perrakis說(shuō)。這種興奮來(lái)自于基于蛋白質(zhì)結(jié)構(gòu)促進(jìn)藥物發(fā)現(xiàn)的可能,來(lái)自各種假說(shuō)的層出不窮,來(lái)自理解細(xì)胞內(nèi)復(fù)雜相互作用的希望。
“這感覺就像基因組學(xué)革命一樣,”AlQuraishi說(shuō)。面對(duì)海量數(shù)據(jù),無(wú)論是在濕實(shí)驗(yàn)室還是在計(jì)算機(jī)前的生物學(xué)家都在學(xué)習(xí)如何處理這些數(shù)據(jù)。
但就像在全球范圍內(nèi)激發(fā)的其他人工智能突破一樣,這可能也有一個(gè)天花板。
AlphaFold2的成功建立在大量可用的高質(zhì)量訓(xùn)練數(shù)據(jù)上,也就是勤勤懇懇的實(shí)驗(yàn)人員通過(guò)一絲不茍的工作解析的數(shù)十萬(wàn)種蛋白質(zhì)結(jié)構(gòu)。雖然AlphaFold3和相關(guān)算法在確定分子化合物結(jié)構(gòu)方面取得了一些成功,但其準(zhǔn)確性仍不及對(duì)單蛋白質(zhì)的預(yù)測(cè)。有部分原因就是因?yàn)榭捎玫挠?xùn)練數(shù)據(jù)少了很多。
Thornton 表示,蛋白質(zhì)折疊問(wèn)題“幾乎是一個(gè)AI解決方案的完美例證”,因?yàn)橄嚓P(guān)算法的訓(xùn)練數(shù)據(jù)來(lái)自以統(tǒng)一形式收集的數(shù)十萬(wàn)種蛋白質(zhì)結(jié)構(gòu)。然而,蛋白質(zhì)數(shù)據(jù)庫(kù)可能是生物學(xué)領(lǐng)域有組織的數(shù)據(jù)共享的特殊案例。沒(méi)有高質(zhì)量的數(shù)據(jù)來(lái)訓(xùn)練算法,AI模型將無(wú)法做出準(zhǔn)確的預(yù)測(cè)。
“我們很幸運(yùn),”Jumper說(shuō)。“我們遇到問(wèn)題的時(shí)候恰逢解決問(wèn)題的時(shí)機(jī)成熟。”
沒(méi)有人知道深度學(xué)習(xí)在解決蛋白質(zhì)折疊問(wèn)題上的成功是否會(huì)延續(xù)到其他科學(xué)領(lǐng)域,甚至是生物學(xué)的其他領(lǐng)域。但有些人,比如AlQuraishi,持樂(lè)觀態(tài)度。“蛋白質(zhì)折疊只是冰山一角,”他說(shuō)。例如,化學(xué)家需要進(jìn)行的計(jì)算成本高昂。通過(guò)深度學(xué)習(xí),這些計(jì)算已經(jīng)比以前快了一百多萬(wàn)倍,AlQuraishi說(shuō)。
人工智能顯然可以推進(jìn)特定類型的科學(xué)問(wèn)題的解決。但它可能只能增進(jìn)科學(xué)家對(duì)結(jié)果的了解,而AlQuraishi表示:“從歷史的角度出發(fā),科學(xué)的本質(zhì)在于理解原理,”也就是生命和宇宙演化的基本過(guò)程。如果科學(xué)通過(guò)給出解決方案而不是揭示過(guò)程的深度學(xué)習(xí)工具向前發(fā)展,它還能稱得上是科學(xué)嗎?
“如果你能治愈癌癥,你真的在乎它是如何被治愈的嗎?”AlQuraishi說(shuō)。“這是一個(gè)我們將在接下來(lái)數(shù)年里反復(fù)爭(zhēng)論的問(wèn)題。”
如果許多研究人員決定放棄理解自然的過(guò)程,那么人工智能不僅會(huì)改變科學(xué)它還會(huì)改變科學(xué)家。
與此同時(shí),CASP的組織者正在處理另一個(gè)問(wèn)題:如何繼續(xù)他們的競(jìng)賽和會(huì)議。AlphaFold2是CASP催生的產(chǎn)物,它解決了會(huì)議旨在解決的主要問(wèn)題。“對(duì)我們來(lái)說(shuō),這在某種程度上是一個(gè)巨大的沖擊:CASP現(xiàn)在要何去何從?”Moult說(shuō)。
2022 年,CASP會(huì)議在土耳其安塔利亞舉行。谷歌DeepMind團(tuán)隊(duì)沒(méi)有參賽,但存在感依然強(qiáng)烈。“幾乎是AlphaFold使用者之間的比賽,”Jones說(shuō)。從這個(gè)意義上說(shuō),最大贏家還是谷歌。
現(xiàn)在一些研究人員對(duì)參加會(huì)議的興趣減少了。“看到那個(gè)結(jié)果后,我改變了我的研究方向,”許錦波說(shuō)。其他人則繼續(xù)完善他們的算法。Jones仍然繼續(xù)結(jié)構(gòu)預(yù)測(cè)研究,但這對(duì)他來(lái)說(shuō)現(xiàn)在更像是一種愛好。還有一些人,比如AlQuraishi和Baker,繼續(xù)開發(fā)新的結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)算法,即便是與一家市值數(shù)十億美元的公司競(jìng)爭(zhēng)也絲毫不怵。
Moult和會(huì)議組織者正在嘗試與時(shí)俱進(jìn)。下一輪CASP于五月開始接受報(bào)名。他希望深度學(xué)習(xí)能征服結(jié)構(gòu)生物學(xué)的更多領(lǐng)域,比如RNA或生物分子復(fù)合物。“這種方法解決了一個(gè)問(wèn)題,”Moult說(shuō)。“但在結(jié)構(gòu)生物學(xué)中還有許多其他相關(guān)問(wèn)題。”
下一次會(huì)議將于2024年12月在加勒比海舉行。藍(lán)天碧海,風(fēng)和日麗,相信大家的交流也會(huì)在友好的氛圍中進(jìn)行。至少現(xiàn)在,沒(méi)有人會(huì)再公開跺腳以示反對(duì)了。誰(shuí)也猜不到今年的比賽會(huì)是什么樣子。但基于往屆CASP的經(jīng)驗(yàn)來(lái)看,Moult知道有一件事是大家可以期待的“驚喜”。