當(dāng)前位置：人工智能實(shí)驗(yàn)室> 科技新聞 > 為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-10 09:55:17 瀏覽：3438次

導(dǎo)讀：劃重點(diǎn) 01DeepMind的AlphaFold2在2020年CASP競(jìng)賽中預(yù)測(cè)了超過(guò)90%的蛋白質(zhì)結(jié)構(gòu)，引發(fā)了科學(xué)界的關(guān)注和討論。 02然而，AlphaFold2在預(yù)測(cè)已知蛋白質(zhì)結(jié)構(gòu)的功能和準(zhǔn)確性方面仍有局限，需要與實(shí)驗(yàn)方法相結(jié)合。 03為此，其他研究團(tuán)隊(duì)如貝克領(lǐng)導(dǎo)的蛋白質(zhì)設(shè)計(jì)研究所...

劃重點(diǎn)

01DeepMind的AlphaFold2在2020年CASP競(jìng)賽中預(yù)測(cè)了超過(guò)90%的蛋白質(zhì)結(jié)構(gòu)，引發(fā)了科學(xué)界的關(guān)注和討論。

02然而，AlphaFold2在預(yù)測(cè)已知蛋白質(zhì)結(jié)構(gòu)的功能和準(zhǔn)確性方面仍有局限，需要與實(shí)驗(yàn)方法相結(jié)合。

03為此，其他研究團(tuán)隊(duì)如貝克領(lǐng)導(dǎo)的蛋白質(zhì)設(shè)計(jì)研究所和谷歌DeepMind正在改進(jìn)他們的深度學(xué)習(xí)算法，以預(yù)測(cè)蛋白質(zhì)在與其他分子相互作用時(shí)的結(jié)構(gòu)。

04盡管如此，AlphaFold2的成功已經(jīng)改變了生物學(xué)家對(duì)人工智能的態(tài)度，激發(fā)了他們?cè)诮Y(jié)構(gòu)生物學(xué)領(lǐng)域的更多探索。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

2024 年 10 月 9 日北京時(shí)間 17 時(shí) 45 分許，戴維貝克（David Baker）因計(jì)算蛋白質(zhì)設(shè)計(jì)，戴米斯哈薩比斯（Demis Hassabis）和約翰江珀（John Jumper）因蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)共同獲得 2024 年諾貝爾化學(xué)獎(jiǎng)。

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

戴維貝克（David Baker）是美國(guó)化學(xué)家、計(jì)算生物學(xué)家，華盛頓大學(xué)教授、蛋白質(zhì)設(shè)計(jì)研究所主任，計(jì)算蛋白質(zhì)設(shè)計(jì)和預(yù)測(cè)領(lǐng)域先驅(qū)。貝克1962年出生于美國(guó)華盛頓州，1984年在哈佛大學(xué)取得生物學(xué)學(xué)士學(xué)位，1989年獲得加利佛尼亞大學(xué)伯克利分校生物化學(xué)博士學(xué)位，并在加利福尼亞大學(xué)舊金山分校完成生物物理方向的博士后訓(xùn)練。貝克是被廣泛使用的蛋白質(zhì)結(jié)構(gòu)從頭設(shè)計(jì)和預(yù)測(cè)軟件“羅賽塔”的發(fā)明人，他的團(tuán)隊(duì)還設(shè)計(jì)出了首個(gè)具有全新折疊結(jié)構(gòu)的人工蛋白質(zhì)Top7。

戴米斯哈薩比斯（Demis Hassabis）是英國(guó)計(jì)算機(jī)科學(xué)家，人工智能研究者、前游戲設(shè)計(jì)師，DeepMind（現(xiàn)Google DeepMind）聯(lián)合創(chuàng)始人及首席執(zhí)行官。哈薩比斯1976年出生于英國(guó)倫敦，幼年便展現(xiàn)出驚人的智力天賦，13歲達(dá)到國(guó)際象棋大師水平。青少年時(shí)代的哈薩比斯大部分時(shí)間在家由父母輔導(dǎo)自學(xué)，15歲時(shí)開(kāi)始游戲設(shè)計(jì)師生涯，并在21歲獲得劍橋大學(xué)計(jì)算機(jī)科學(xué)學(xué)位。畢業(yè)后，他繼續(xù)游戲設(shè)計(jì)師工作，運(yùn)用AI算法參與開(kāi)發(fā)了著名游戲《黑與白》、《共和國(guó)：革命》和《邪惡天才》；在此過(guò)程中，他對(duì)神經(jīng)科學(xué)產(chǎn)生濃厚興趣并重返校園，2009年獲得倫敦大學(xué)學(xué)院認(rèn)知神經(jīng)科學(xué)博士學(xué)位，其后在麻省理工學(xué)院-哈佛大學(xué)進(jìn)行神經(jīng)科學(xué)和人工智能研究。2010年，哈薩比斯在英國(guó)倫敦聯(lián)合創(chuàng)立機(jī)器學(xué)習(xí)公司DeepMind，并帶領(lǐng)團(tuán)隊(duì)先后發(fā)布震撼世界的AlphaGo、AlphaFold系列模型。在谷歌收購(gòu) DeepMind 后，哈薩比斯帶領(lǐng)團(tuán)隊(duì)主導(dǎo)了谷歌最先進(jìn)的人工智能模型Gemini的開(kāi)發(fā)。

約翰江珀（John Jumper）是 Google DeepMind 高級(jí)研究員。江珀 1985 年出生于美國(guó)阿肯色州，2007 年在美國(guó)范德比爾特大學(xué)取得物理學(xué)和數(shù)學(xué)學(xué)士學(xué)位， 2008 年在英國(guó)劍橋大學(xué)取得理論凝聚態(tài)物理學(xué)碩士學(xué)位。之后，江珀在美國(guó)生物化學(xué)研究公司 D. E. Shaw Research 擔(dān)任了 3 年科學(xué)助理，利用計(jì)算機(jī)模擬進(jìn)行分子動(dòng)力學(xué)研究，并開(kāi)發(fā)了一種從這些模擬中提取關(guān)鍵數(shù)據(jù)的算法。2017 年，江珀在美國(guó)芝加哥大學(xué)取得理論化學(xué)博士學(xué)位，利用機(jī)器學(xué)習(xí)模擬蛋白質(zhì)折疊和動(dòng)力學(xué)研究。之后，他又在芝加哥大學(xué)完成了博士后研究，繼續(xù)從事蛋白質(zhì)預(yù)測(cè)深度學(xué)習(xí)模型的研究工作。2018 年起，江珀進(jìn)入英國(guó) DeepMind 公司擔(dān)任高級(jí)研究員。在 DeepMind 公司，江珀和同事開(kāi)發(fā)了AlphaFold 系列模型，他也是 AlphaFold2 開(kāi)發(fā)團(tuán)隊(duì)的領(lǐng)導(dǎo)者。

《環(huán)球科學(xué)》雜志2024年10月新刊推出“AI重塑結(jié)構(gòu)生物學(xué)”系列專題文章，恰逢其時(shí)地對(duì)今年諾貝爾化學(xué)獎(jiǎng)的成果及三位獲獎(jiǎng)?wù)叩难芯窟M(jìn)行了深入解讀。文章系統(tǒng)梳理了計(jì)算蛋白質(zhì)設(shè)計(jì)與結(jié)構(gòu)領(lǐng)域的發(fā)展歷程，并詳盡解析了其中的重大突破與前沿進(jìn)展。為方便讀者系統(tǒng)完整地了解今年的獲獎(jiǎng)成果，我們特將兩萬(wàn)余字的專題內(nèi)容全文刊出。

撰文| 亞塞明薩普拉科格盧（Yasemin Saplakoglu）

翻譯| 金燁鐘博子韜

審校| 張陽(yáng)

打破僵局的“羅塞塔”

2020年12月，上百位計(jì)算科學(xué)家端坐在各自的電腦屏幕前，見(jiàn)證了科學(xué)新紀(jì)元的展開(kāi)。他們因?yàn)橐粓?chǎng)會(huì)議匯聚一堂。在這場(chǎng)友好的競(jìng)爭(zhēng)中，一些人已經(jīng)參與了近三十年，沉迷于探討一個(gè)不變的問(wèn)題著名的“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題”。它解釋起來(lái)很簡(jiǎn)單：人們能否憑借最為簡(jiǎn)單的信息一段蛋白質(zhì)分子的一維序列，精準(zhǔn)預(yù)測(cè)出它的三維結(jié)構(gòu)？蛋白質(zhì)維持著我們細(xì)胞與身體的活力和運(yùn)轉(zhuǎn)，由于它的行為取決于其形狀與結(jié)構(gòu)，因此成功解答這一問(wèn)題將深刻影響我們對(duì)疾并新藥研發(fā)以及生命機(jī)制的理解。

這個(gè)會(huì)議每?jī)赡昱e辦一次，科學(xué)家會(huì)在會(huì)議中測(cè)試自己最新研發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具。然而，解決方案總是遙不可及，其中一些人賭上了自己的全部科研生涯，試圖提高預(yù)測(cè)的準(zhǔn)確性。這場(chǎng)競(jìng)爭(zhēng)始終處于嬰兒學(xué)步階段，所以大家并不認(rèn)為2020年會(huì)有所不同。

但是，他們錯(cuò)了。就在那一周，一名叫約翰江珀（John Jumper）的科學(xué)家在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這一領(lǐng)域嶄露頭角，他展示了一套全新的人工智能（AI）工具“阿爾法折疊2”（AlphaFold2），它是谷歌位于英國(guó)倫敦的人工智能子公司“深度思維”（DeepMind）的研發(fā)成果。在在線視頻會(huì)議上，這名在該領(lǐng)域資歷尚淺的科學(xué)家報(bào)告的數(shù)據(jù)表明，AlphaFold2的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)模型準(zhǔn)確率超過(guò)90%，是緊隨其后的對(duì)手的5倍。

一瞬間，蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)從不可解的難題變成了不再令人痛苦的問(wèn)題。人類思維陷入僵局，AI大獲成功，一舉震驚了生物學(xué)界。“我當(dāng)時(shí)就驚呆了，”與會(huì)的美國(guó)哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項(xiàng)目（Program for Mathematical Genomics）的系統(tǒng)生物學(xué)家穆罕默德庫(kù)雷希（Mohammed AlQuraishi）說(shuō)，“很多人不愿意承認(rèn)（AlphaFold2的成就）。”

但在總結(jié)發(fā)言中，會(huì)議組織者約翰莫爾特（John Moult）以不容置疑的口氣說(shuō)道：AlphaFold2“在很大程度上解決了”蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題，自此徹底改變了蛋白質(zhì)科學(xué)。莫爾特身穿黑色高領(lǐng)衫，坐在自家辦公室的書(shū)架前，在會(huì)議軟件上點(diǎn)擊自己的幻燈片，語(yǔ)氣激動(dòng)又帶著一絲不祥的口吻：“這不是終結(jié)，而是開(kāi)始。”

當(dāng)谷歌的公關(guān)部門將這一消息在全球大肆宣揚(yáng)之后，媒體為之瘋狂。各大頭條口徑一致：AlphaFold2“將改變一切”。而那些將一生貢獻(xiàn)于探索單個(gè)蛋白質(zhì)結(jié)構(gòu)的結(jié)構(gòu)生物學(xué)家們則心生恐懼，擔(dān)心自己會(huì)失業(yè)。一些人主張AlphaFold2會(huì)革新藥物研發(fā)，能讓生物學(xué)家快速確定蛋白質(zhì)結(jié)構(gòu)，創(chuàng)造全新的靶向藥物。其他人則反駁說(shuō)這些結(jié)果大部分都是炒作，這個(gè)世界并不會(huì)因此出現(xiàn)什么變化。莫爾特自己也無(wú)法理解這個(gè)橫空出世的新事物。會(huì)議結(jié)束時(shí)，他提出了一個(gè)每個(gè)人都想問(wèn)的問(wèn)題：“接下來(lái)怎么辦？”

現(xiàn)在，時(shí)間已經(jīng)過(guò)去了三年半，他這個(gè)問(wèn)題終于能得到回應(yīng)了。毫無(wú)疑問(wèn)，AlphaFold2確實(shí)改變了生物學(xué)家研究蛋白質(zhì)的方式。然而，盡管AlphaFold2是強(qiáng)大的預(yù)測(cè)工具，但它并非無(wú)所不能。它非常巧妙地使用不同于科學(xué)家的方法解決了一部分蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題，卻無(wú)法取代生物實(shí)驗(yàn)，反而更加凸顯了實(shí)驗(yàn)的必要性。

也許AlphaFold2最大的影響力是讓生物學(xué)家注意到了AI的威力。它啟發(fā)了新的算法，例如設(shè)計(jì)出自然界中并不存在的全新蛋白質(zhì)，也催生了新的生物技術(shù)公司以及實(shí)踐科學(xué)的新方法。它的新版本AlphaFold3在2024年5月上線，引領(lǐng)生物學(xué)預(yù)測(cè)技術(shù)進(jìn)入下一階段：構(gòu)建蛋白質(zhì)與其他分子（諸如DNA或者RNA）結(jié)合的復(fù)合體結(jié)構(gòu)。“這是迄今為止最宏大的‘機(jī)器學(xué)習(xí)驅(qū)動(dòng)科學(xué)’的故事。”庫(kù)雷希說(shuō)道。

不過(guò)，AI無(wú)法填補(bǔ)的鴻溝仍然大量存在。這類工具無(wú)法模擬蛋白質(zhì)隨著時(shí)間推移而發(fā)生的變化，或者說(shuō)無(wú)法構(gòu)建處于自身生存環(huán)境即細(xì)胞中的蛋白質(zhì)的動(dòng)態(tài)結(jié)構(gòu)。而在科學(xué)家為AlphaFold2的預(yù)測(cè)能力折服之前，人類對(duì)蛋白質(zhì)結(jié)構(gòu)背后隱藏秘密的不懈追求，已經(jīng)持續(xù)了半個(gè)多世紀(jì)。

問(wèn)題的誕生

一張折紙不過(guò)是一層被壓縮的木漿，直到以特定方式折疊，它才煥發(fā)新生。只需要幾次精準(zhǔn)地翻卷和壓折，這張紙就能變成“算命大師”預(yù)言你的未來(lái)。在同一張紙上改變一些折疊步驟，一只紙鶴就此展翅而來(lái)，給收到它的人帶來(lái)好運(yùn)。

同樣，一長(zhǎng)串氨基酸分子鏈本身沒(méi)有任何功能，直到它自發(fā)折疊成固有形狀，生物學(xué)家稱之為蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)的結(jié)構(gòu)決定了自身與其他生命分子結(jié)合或相互作用的方式，從而定義它在細(xì)胞中的作用。

地球上已知的蛋白質(zhì)種類上億，未知的則更多。它們無(wú)所不能：血紅蛋白和肌紅蛋白在肌肉和身體中循環(huán)輸送氧氣。角蛋白為頭發(fā)、指甲與皮膚提供結(jié)構(gòu)框架。胰島素協(xié)助葡萄糖進(jìn)入細(xì)胞，轉(zhuǎn)化成能量。蛋白質(zhì)可以呈現(xiàn)無(wú)數(shù)形狀結(jié)構(gòu)，以匹配生命活動(dòng)過(guò)程中無(wú)數(shù)的“工作需求”。“從原子到生態(tài)系統(tǒng)，（蛋白質(zhì)結(jié)構(gòu)）就像是一種通用語(yǔ)。”庫(kù)雷希打比方道，“萬(wàn)物源自此處。”

細(xì)胞讓名為氨基酸的小分子像雛菊花環(huán)一樣連起來(lái)形成多肽長(zhǎng)鏈，制造出蛋白質(zhì)。它所選擇的氨基酸取決于DNA提供的一連串指令。在這個(gè)創(chuàng)造過(guò)程中，多肽鏈一瞬之間就能彎曲扣合，精準(zhǔn)折疊成蛋白質(zhì)最終的三維結(jié)構(gòu)。一旦脫離分子組裝流水線，蛋白質(zhì)就會(huì)立刻奔赴屬于自己的生物學(xué)工作。

如果蛋白質(zhì)無(wú)法順利完成折疊過(guò)程，災(zāi)難將接踵而至，破壞身體功能。蛋白質(zhì)錯(cuò)誤折疊或展開(kāi)都會(huì)產(chǎn)生毒性，導(dǎo)致細(xì)胞死亡。許多疾病與身體障礙，例如鐮狀細(xì)胞貧血，都由蛋白質(zhì)錯(cuò)誤折疊造成。此外，錯(cuò)誤折疊的蛋白質(zhì)還會(huì)凝聚成斑塊，成為阿爾茨海默病和帕金森病等神經(jīng)退行性疾病的生物學(xué)標(biāo)志。

然而，無(wú)人確切知曉蛋白質(zhì)折疊究竟是如何發(fā)生的。這些簡(jiǎn)單分子鏈中的序列信息如何編碼蛋白質(zhì)的復(fù)雜結(jié)構(gòu)？這是“我們能夠提出的最深刻的問(wèn)題”，美國(guó)約翰霍普金斯大學(xué)（Johns Hopkins University）大學(xué)的生物物理學(xué)名譽(yù)教授喬治羅斯（George Rose）如此評(píng)價(jià)道。

科學(xué)家對(duì)這個(gè)問(wèn)題的探索最早可追溯至20世紀(jì)30年代，但真正開(kāi)始動(dòng)手嘗試解謎則是在50年代中期。當(dāng)時(shí)，生物化學(xué)家克里斯蒂安安芬森（Christrian Anfinsen）將蛋白質(zhì)加入化學(xué)溶液中，試圖打斷化學(xué)鍵展開(kāi)蛋白質(zhì)，或者令其錯(cuò)誤折疊。安芬森發(fā)現(xiàn)，被打開(kāi)或錯(cuò)誤折疊的蛋白質(zhì)會(huì)自發(fā)重構(gòu)成正確結(jié)構(gòu)。這個(gè)后來(lái)為他贏得了諾貝爾獎(jiǎng)的發(fā)現(xiàn)，表明蛋白質(zhì)會(huì)根據(jù)其內(nèi)部代碼形成三維結(jié)構(gòu)，這個(gè)代碼是由它的氨基酸鏈書(shū)寫(xiě)的。

于是，安芬森假設(shè)，我們應(yīng)該能找到一種方法，通過(guò)氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)的形狀結(jié)構(gòu)。這就是后來(lái)廣為人知的“蛋白質(zhì)折疊問(wèn)題”。

一旦多肽鏈組裝完成，蛋白質(zhì)便能在千分之一秒內(nèi)折疊成形，速度之快讓分子生物學(xué)家塞勒斯利文索爾（Cyrus Levinthal）困惑不已。在他1969年發(fā)表的論文《如何優(yōu)雅折疊》（How to Fold Graciously）中，利文索爾計(jì)算出，如果蛋白質(zhì)嘗試每一種可能的折疊方式，那么組裝完畢所需的時(shí)間可能會(huì)無(wú)限漫長(zhǎng)。他思索著，顯然一定有什么方法能更直接地“護(hù)送”蛋白走在正確折疊的道路上。

隨著時(shí)間的推移，蛋白質(zhì)折疊問(wèn)題已經(jīng)分化成了全新的類型。如今的科學(xué)家提出了三大主要問(wèn)題：能否通過(guò)蛋白質(zhì)氨基酸序列來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)？蛋白質(zhì)的折疊編碼是什么？它的折疊機(jī)制又是怎樣的？

20世紀(jì)60年代早期，隨著首批實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)相繼問(wèn)世，這些問(wèn)題開(kāi)始“鉆入”科學(xué)家的大腦。英國(guó)劍橋大學(xué)（University of Cambridge）的兩位生物學(xué)家馬克斯佩魯茨（Max Perutz）和約翰肯德魯（John Kendrew）讓蛋白質(zhì)生長(zhǎng)成晶體，用X射線轟擊后測(cè)量射線偏折的程度，這一技術(shù)便是X射線晶體學(xué)（X-ray crystallography）。如此一來(lái)，他們就能確定血紅蛋白和肌紅蛋白的三維結(jié)構(gòu)。這一過(guò)程耗費(fèi)了兩人二十多年的時(shí)間，最終為他們帶來(lái)了諾貝爾獎(jiǎng)。

自此之后，無(wú)數(shù)科研人員努力鉆研，不僅想要理解不同蛋白質(zhì)不同的結(jié)構(gòu)形態(tài)，還想要知道它們是如何形成的。“想要看清事物的樣貌是人的本性，因?yàn)橹挥兄淙�，才能知其所以然�?rdquo;英國(guó)格拉斯哥大學(xué)（University of Glasgow）的結(jié)構(gòu)生物學(xué)家海倫沃爾登（Helen Walden）解釋道。有些人從蛋白質(zhì)化學(xué)入手，其他人則集中解決物理角度上的問(wèn)題。實(shí)驗(yàn)科學(xué)家展開(kāi)艱苦的研究工作，重構(gòu)蛋白質(zhì)結(jié)構(gòu)；計(jì)算生物學(xué)家以各種方式結(jié)合算法進(jìn)行編程和重編程，通過(guò)模型和模擬來(lái)捕捉線索。

隨著被破解的蛋白質(zhì)結(jié)構(gòu)越來(lái)越多，這個(gè)領(lǐng)域需要新的方法來(lái)組織與共享信息。1971年，為蛋白質(zhì)結(jié)構(gòu)存檔的蛋白質(zhì)數(shù)據(jù)庫(kù)（Protein Data Bank）成立了。這個(gè)免費(fèi)的數(shù)據(jù)庫(kù)成為了需要了解蛋白質(zhì)結(jié)構(gòu)、探索生物學(xué)問(wèn)題的研究者的可靠研究工具。蛋白質(zhì)數(shù)據(jù)庫(kù)成立之初，里面只保存了7種蛋白質(zhì)結(jié)構(gòu)。50年之后谷歌DeepMind用它來(lái)訓(xùn)練AlphaFold2時(shí)，它所保存的蛋白質(zhì)結(jié)構(gòu)數(shù)量已超過(guò)14萬(wàn)，這都是結(jié)構(gòu)生物學(xué)家在實(shí)驗(yàn)室內(nèi)解析所得。

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

實(shí)驗(yàn)科學(xué)家的苦惱

從20世紀(jì)70年代中期開(kāi)始，珍妮特桑頓（Janet Thorntom）每隔幾個(gè)月一定會(huì)收到一只郵包，里面是一盤12英寸磁帶，記錄著被存入蛋白質(zhì)數(shù)據(jù)庫(kù)的新結(jié)構(gòu)數(shù)據(jù)。作為英國(guó)牛津大學(xué)（Oxford University）的生物物理學(xué)家，桑頓迫不及待地打開(kāi)包裹，在新結(jié)構(gòu)被發(fā)現(xiàn)后的第一時(shí)間展開(kāi)分析。她收到的第一份磁帶中只有20個(gè)結(jié)構(gòu)。

每一個(gè)蛋白質(zhì)結(jié)構(gòu)都凝結(jié)著數(shù)年研究的心血。通常情況下，讓單個(gè)蛋白質(zhì)結(jié)晶，從中收集數(shù)據(jù)或解釋數(shù)據(jù)以解析出折疊結(jié)構(gòu)，需要一個(gè)博士生在研究生院里投入四年或更長(zhǎng)的時(shí)間。牛津大學(xué)生物物理系當(dāng)時(shí)是全球X射線晶體學(xué)的研究中心之一。1965年，蛋白質(zhì)晶體學(xué)領(lǐng)域的先驅(qū)之一戴維菲利普斯（David Phillips）首先確定了溶菌酶的結(jié)構(gòu)這是我們的免疫系統(tǒng)用來(lái)攻擊細(xì)菌的一種蛋白質(zhì)。

使用X射線晶體學(xué)方法，牛津大學(xué)的生物物理學(xué)家繪制出了蛋白質(zhì)電子密度圖譜，圖中電子集中的區(qū)域可能包含一個(gè)原子。桑頓和同事將電子密度圖譜打印到塑料薄片上，一張又一張地疊放起來(lái)，創(chuàng)造出了蛋白質(zhì)地理的 “等高線圖”。

然后，他們將圖片轉(zhuǎn)變成物理模型�？茖W(xué)家將打印在塑料上的圖譜放入名為“理查茲盒”（Richards box）的設(shè)備中，該設(shè)備1968年由牛津大學(xué)生物物理學(xué)家弗雷德里克理查茲（Frederic Richards）發(fā)明，并以他的名字命名。理查茲盒的內(nèi)部有一面以一定角度傾斜的鏡子，能將圖片反射到工作區(qū)域內(nèi)，這樣科學(xué)家就能真切地看清每一個(gè)原子之間的相對(duì)位置。接下來(lái)，他們使用圓球和小棍子，搭建出物理實(shí)體模型。

這一方法過(guò)程繁瑣，限制頗多。1971年，后來(lái)成為著名晶體學(xué)家的路易絲約翰遜（Louise Johnson）正在搭建磷酸酶的模型，它由842個(gè)氨基酸組成，是當(dāng)時(shí)科學(xué)家研究的最大蛋白質(zhì)。為了建模，約翰遜必須爬上兩層樓高的理查茲盒，這是牛津?yàn)榱怂难芯繉ｉT建造的。

模型建成后，科學(xué)家用尺來(lái)測(cè)量各原子之間的距離，確定蛋白質(zhì)結(jié)構(gòu)坐標(biāo)。“這個(gè)方法很古老，”桑頓說(shuō)。接下來(lái)，他們將所有坐標(biāo)數(shù)據(jù)輸入計(jì)算機(jī)中，計(jì)算機(jī)版本的蛋白質(zhì)結(jié)構(gòu)看上去像一片密林，她繼續(xù)解釋道，原子雜亂聚集在一起，只有戴上3D眼鏡，才開(kāi)始能看到蛋白質(zhì)的拓?fù)浣Y(jié)構(gòu)。“整個(gè)過(guò)程非常折磨人，”桑頓說(shuō)，“但結(jié)果出來(lái)后又令人愉悅。”

經(jīng)過(guò)年復(fù)一年的努力付出，一旦科研人員確信自己的蛋白質(zhì)結(jié)構(gòu)無(wú)誤，他們就將數(shù)據(jù)提交給蛋白質(zhì)數(shù)據(jù)庫(kù)。1984年，數(shù)據(jù)庫(kù)內(nèi)存放了152種蛋白質(zhì)結(jié)構(gòu)，到了1992年，這一數(shù)字增長(zhǎng)至747。

就在實(shí)驗(yàn)科學(xué)家努力建造物理模型的同時(shí)，另一批蛋白質(zhì)生物學(xué)家計(jì)算生物科學(xué)家卻另辟蹊徑。他們思考著安芬森對(duì)于可以通過(guò)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的假說(shuō)，并且有點(diǎn)兒過(guò)于自信了。

書(shū)寫(xiě)自己的法則

20世紀(jì)60年代初，還是本科生的約翰莫爾特打算成為物理學(xué)家。然后，他了解到了蛋白質(zhì)折疊問(wèn)題。“有人舉辦了一場(chǎng)講座，說(shuō)生物太重要了，不能只留給生物學(xué)家。”他說(shuō)，“我很自負(fù)地把這話當(dāng)真了。”被講座深深吸引的莫爾特將自己的職業(yè)生涯轉(zhuǎn)向了另一個(gè)方向。

畢業(yè)之后，莫爾特進(jìn)入了蛋白質(zhì)晶體學(xué)領(lǐng)域。他破譯出若干蛋白質(zhì)結(jié)構(gòu)，包括β-內(nèi)酰胺酶（一種能破壞青霉素的細(xì)菌酶）。1970年他在牛津大學(xué)獲得了分子生物物理學(xué)博士學(xué)位。但在開(kāi)始博士后工作的時(shí)候，他厭倦了實(shí)驗(yàn)方法，開(kāi)始轉(zhuǎn)向日漸蓬勃的蛋白質(zhì)計(jì)算領(lǐng)域。計(jì)算生物學(xué)家，可以說(shuō)是實(shí)驗(yàn)科學(xué)家的對(duì)立面，他們編寫(xiě)計(jì)算機(jī)算法，嘗試證明安芬森是對(duì)的：給程序投喂氨基酸鏈，讓它生成正確的蛋白質(zhì)結(jié)構(gòu)。

從生物實(shí)驗(yàn)轉(zhuǎn)向計(jì)算領(lǐng)域并非易事。莫爾特習(xí)慣了對(duì)每個(gè)蛋白質(zhì)結(jié)構(gòu)進(jìn)行緩慢但細(xì)致的研究。而在新領(lǐng)域中，關(guān)于算法的論文一篇接一篇，常常宣稱已經(jīng)解決了蛋白質(zhì)結(jié)構(gòu)問(wèn)題以及相關(guān)的子問(wèn)題。

莫爾特對(duì)此持懷疑態(tài)度。“計(jì)算生物學(xué)領(lǐng)域發(fā)表的文章并不像我以前熟悉的研究那么嚴(yán)謹(jǐn)。”他說(shuō)，“這并不是因?yàn)檫@個(gè)圈子里的人都是騙子，而是因?yàn)槿绻氵M(jìn)行計(jì)算研究，就是在虛擬世界中工作。”

在虛擬世界中，計(jì)算科學(xué)家編寫(xiě)自己的法則，而自然世界的法則在此不發(fā)揮作用。他們?cè)O(shè)計(jì)自己的算法，好讓原子以某一方式凝聚在一起，或者讓蛋白質(zhì)總是向右或向左折疊。隨著時(shí)間的推移，模型與現(xiàn)實(shí)越來(lái)越遙遠(yuǎn)。在一個(gè)完全處于自己掌控的世界中，人們很難始終保持嚴(yán)謹(jǐn)，莫爾特如此評(píng)價(jià)道。

盡管如此，他能看到這兩個(gè)領(lǐng)域各自的優(yōu)勢(shì)。實(shí)驗(yàn)科學(xué)家的研究細(xì)致但緩慢；計(jì)算科學(xué)家迅速卻偏離生物物理的現(xiàn)實(shí)，所以他們經(jīng)常出錯(cuò)。于是，他想到，一定有一種方法，能夠?qū)⑦@兩個(gè)途徑結(jié)合起來(lái)。

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

開(kāi)始“跺腳”

20世紀(jì)90年代初，莫爾特和同事克日什托夫菲德利斯（Krzysztof Fidelis）想出了一個(gè)辦法來(lái)規(guī)范領(lǐng)域內(nèi)混亂的形勢(shì)。他們創(chuàng)立了一個(gè)群體性科學(xué)實(shí)驗(yàn)，稱為“全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽”（Critical Assessment of Structure Prediction，CASP）。

他們的思路很簡(jiǎn)單，作為CASP的組織者，莫爾特與菲德利斯會(huì)公布一張氨基酸序列清單，這些序列所代表的蛋白質(zhì)結(jié)構(gòu)已被實(shí)驗(yàn)科學(xué)家解析出來(lái)，但尚未公開(kāi)發(fā)表。隨后，全球的計(jì)算科學(xué)團(tuán)隊(duì)可以使用他們能想到的任何方法來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。將有一支獨(dú)立的科學(xué)家團(tuán)隊(duì)評(píng)估后者的模型，將其與實(shí)驗(yàn)確定的結(jié)構(gòu)做對(duì)比。

這個(gè)主意被推行開(kāi)來(lái)，CASP很快成為了用計(jì)算生物學(xué)方法解決結(jié)構(gòu)預(yù)測(cè)難題的試驗(yàn)常當(dāng)時(shí)AI還未誕生，計(jì)算方法主要涉及分子物理學(xué)模擬。對(duì)于科學(xué)家來(lái)說(shuō)，這正是將自己的想法付諸實(shí)驗(yàn)，與同行公開(kāi)測(cè)試的好機(jī)會(huì)。“這原本不是競(jìng)賽。”桑頓說(shuō)，“但結(jié)果卻成為了一場(chǎng)競(jìng)賽。”

每隔兩年，科學(xué)家齊聚阿西洛瑪會(huì)議中心（Asilomar conference center），這是一座位于美國(guó)加利福尼亞州蒙特利附近的古老教堂，曾是基督教新教衛(wèi)理公會(huì)的靜修場(chǎng)所。會(huì)議期間，組織者宣布競(jìng)賽結(jié)果，計(jì)算生物學(xué)家彼此交流自己的方法。如果與會(huì)者不喜歡他們聽(tīng)到的內(nèi)容，莫爾特鼓勵(lì)學(xué)者們?cè)谀镜匕迳隙迥_表達(dá)意見(jiàn)。

“一開(kāi)始，跺腳聲響成一片。”他說(shuō)。曾跟隨桑頓學(xué)習(xí)過(guò)的英國(guó)倫敦大學(xué)學(xué)院（University College London）生物信息學(xué)教授戴維瓊斯（David Jones）回憶道，“聲響就跟打鼓一樣。”如果會(huì)議陷入細(xì)節(jié)的泥沼，生物學(xué)家們就會(huì)跺腳；如果言過(guò)其實(shí)，他們也會(huì)跺腳；如果發(fā)言人不停重復(fù)或者過(guò)于嗦，他們還是會(huì)跺腳。當(dāng)然，這些都是友好性跺腳，“并不令人生厭”。

無(wú)論出于何種原因，當(dāng)嘈雜的跺腳聲傳入發(fā)言人的耳中，總會(huì)讓人尷尬。“感謝上帝，我發(fā)言的時(shí)候從來(lái)沒(méi)人跺腳。”瓊斯說(shuō)道，他的團(tuán)隊(duì)提出了一套名為“穿針引線”（threading）的計(jì)算方法，這種方法將氨基酸序列“編織”進(jìn)已知的蛋白質(zhì)結(jié)構(gòu)中，據(jù)此來(lái)匹配正確的結(jié)構(gòu)。結(jié)果還不錯(cuò)。“我們很滿意，之后一切就順理成章了。”瓊斯笑著回憶道，“還充滿樂(lè)趣。”

意大利帕多瓦大學(xué)（University of Padua）生物信息學(xué)教授西爾維奧托薩托（Silvio Tosatto）說(shuō)，當(dāng)時(shí)大家都興奮不已。“人們認(rèn)為自己能成為百萬(wàn)富翁，因?yàn)樗麄冋莆樟苏_的算法，還有一些人覺(jué)得自己馬上就能得諾貝爾獎(jiǎng)了。”

在最初幾年內(nèi)，什么都沒(méi)發(fā)生。當(dāng)被問(wèn)及當(dāng)時(shí)CASP的預(yù)測(cè)結(jié)果提交情況時(shí)，莫爾特頓了一下說(shuō)：“隨機(jī)是個(gè)不錯(cuò)的說(shuō)法。”有些方法的表現(xiàn)超出預(yù)期，例如“同源性建模”（homology modeling），這種方法將已知蛋白質(zhì)結(jié)構(gòu)作為參照，用來(lái)推測(cè)未知的蛋白結(jié)構(gòu)。其他方法則一無(wú)所獲。大部分結(jié)構(gòu)預(yù)測(cè) “看上去都很折磨人”，莫爾特說(shuō)道。

“我樂(lè)于看到他們失敗。”荷蘭癌癥研究所（Netherlands Cancer Insitute）和烏特勒支大學(xué)（Utrecht University）的結(jié)構(gòu)生物學(xué)家阿納斯塔西斯佩拉基斯（Anastassis Perrakis）開(kāi)玩笑道。他向CASP組織者提供實(shí)驗(yàn)確定的結(jié)構(gòu)，用于預(yù)測(cè)競(jìng)賽。“這不是競(jìng)爭(zhēng)，但我們喜歡在科學(xué)上互相逗樂(lè)。”

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

在這一過(guò)程中，明顯的領(lǐng)先者出現(xiàn)了。1996年，第二屆CASP結(jié)束之后，一位名叫戴維貝克（David Baker）的年輕人邀請(qǐng)瓊斯一同坐車去機(jī)常貝克聽(tīng)過(guò)瓊斯的演講，正在鉆研自己的計(jì)算模型。雖然模型還沒(méi)準(zhǔn)備好參加CASP，但他很想先和瓊斯聊一下。瓊斯在車上聽(tīng)了他的想法，也沒(méi)想過(guò)以后還會(huì)再見(jiàn)。

然而，1998年下一輪競(jìng)賽期間，貝克就帶著自己的“羅塞塔”（Rosetta）算法一鳴驚人。他成為了“最難打敗的人”，瓊斯這樣評(píng)價(jià)道。羅塞塔這樣的算法模擬氨基酸分子中原子之間的相互作用，以此預(yù)測(cè)它們的折疊方式。這“表明你確實(shí)可以預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，”貝克解釋說(shuō)，“但不夠好，也不夠精確，用途不大。”

2008年時(shí)，人類還能戰(zhàn)勝計(jì)算機(jī)。貝克當(dāng)時(shí)已經(jīng)在美國(guó)華盛頓大學(xué)（University of Washington）擁有了自己的實(shí)驗(yàn)室。他開(kāi)發(fā)了一款名為“折疊它”（Foldit）的免費(fèi)在線游戲，玩家需要將給定的氨基酸鏈折疊成蛋白質(zhì)結(jié)構(gòu)。在一篇發(fā)表于《自然》（Nature）的論文中，他的團(tuán)隊(duì)報(bào)告說(shuō)在模擬蛋白質(zhì)結(jié)構(gòu)方面，人類玩家的表現(xiàn)超越了羅塞塔算法。

然而，人類的領(lǐng)先優(yōu)勢(shì)并沒(méi)有持續(xù)太久。在21世紀(jì)10年代初，“協(xié)同演化”（co-evolution）這一概念的重大突破推動(dòng)了領(lǐng)域的發(fā)展，后來(lái)還成為了AI預(yù)測(cè)工具誕生的關(guān)鍵。這一概念已存在了幾十年，解釋起來(lái)相當(dāng)簡(jiǎn)單：通過(guò)比較數(shù)百個(gè)乃至數(shù)千個(gè)密切相關(guān)但彼此不同的蛋白質(zhì)的氨基酸序列，科學(xué)家能夠識(shí)別出那些發(fā)生了突變氨基酸，重點(diǎn)是，還能確定它們是否與其他氨基酸同步突變。如果兩個(gè)氨基酸共同變化，它們很可能以某種方式相連。“你就能說(shuō)：‘這兩個(gè)氨基酸在空間上可能很接近。’”美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室（Lawrence Berkeley National Laboratory）的結(jié)構(gòu)生物學(xué)家保羅亞當(dāng)斯（Paul Adams）解釋道。

但直到21 世紀(jì)10年代初，這種預(yù)測(cè)哪些氨基酸可能存在物理接觸的準(zhǔn)確率依然很低，徘徊在20%~24%。后來(lái)，科學(xué)家注意到自己的統(tǒng)計(jì)學(xué)方法會(huì)引入錯(cuò)誤，數(shù)據(jù)表明一些氨基酸存在接觸，但實(shí)際上并沒(méi)有。接下來(lái)，莫爾特了解到，幾十年來(lái)統(tǒng)計(jì)學(xué)家一直敏銳地知到這樣的錯(cuò)誤確實(shí)存在。他說(shuō)，當(dāng)你回頭看時(shí)，你會(huì)想，“我怎么會(huì)這么蠢？”

計(jì)算生物學(xué)家改進(jìn)了統(tǒng)計(jì)學(xué)工具。到2016年，氨基酸接觸預(yù)測(cè)的準(zhǔn)確率攀升至47%，兩年之后則達(dá)到70%。貝克的算法便是建立在這一成功之上：2014年羅塞塔非常精準(zhǔn)地生成了兩個(gè)蛋白質(zhì)結(jié)構(gòu)，CASP評(píng)估方甚至認(rèn)為貝克可能解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的難題。

協(xié)同演化的見(jiàn)解“絕妙無(wú)比”，亞當(dāng)斯如此說(shuō)道。在不使用機(jī)器學(xué)習(xí)的情況下，協(xié)同演化是“推動(dòng)領(lǐng)域前進(jìn)的重大事件之一”。然而，該領(lǐng)域的發(fā)展仍然有限。協(xié)同演化要求大量的相似蛋白質(zhì)彼此比對(duì)，而實(shí)驗(yàn)科學(xué)家解析蛋白質(zhì)結(jié)構(gòu)的速度沒(méi)那么快，無(wú)法滿足計(jì)算科學(xué)家的需求。對(duì)此，莫爾特套用了一個(gè)演化生物學(xué)術(shù)語(yǔ)：研究蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的進(jìn)度是一種“間斷平衡”。有時(shí)候，大家覺(jué)得好像幾十億年都沒(méi)出現(xiàn)什么好想法，然后，一些令人振奮的事情就會(huì)發(fā)生。

AlphaFold2一鳴驚人

2016年，戴維瓊斯（David Jones）在《自然》（Nature）雜志發(fā)布的一篇新論文中瞥見(jiàn)了未來(lái)。在這篇論文中，谷歌（Google）旗下、位于英國(guó)倫敦的人工智能團(tuán)隊(duì)深度思維的研究人員詳細(xì)描述了他們?nèi)绾问褂靡环N名為“深度學(xué)習(xí)”（deep learning）的算法，在古老的圍棋游戲中擊敗了人類冠軍。這一成果令瓊斯十分驚訝。“形勢(shì)正在變化，”他回憶起當(dāng)時(shí)自己的想法，“我意識(shí)到了解深度學(xué)習(xí)迫在眉睫。”

深度學(xué)習(xí)是一種受人腦啟發(fā)而開(kāi)發(fā)的人工智能方法。在大腦中，分子信息通過(guò)神經(jīng)元組成的一個(gè)神經(jīng)網(wǎng)絡(luò)傳遞。神經(jīng)元是腦細(xì)胞的一種，它們有一些名為樹(shù)突的小手臂，可以“抓住”鄰近神經(jīng)元釋放的信號(hào)分子（也稱為神經(jīng)遞質(zhì)），這些信號(hào)分子會(huì)告訴接收的神經(jīng)元是否激活并傳播信號(hào)。“如果神經(jīng)元接收到足夠多的刺激，那么它就會(huì)激活并釋放信號(hào)分子，”美國(guó)布朗大學(xué)計(jì)算機(jī)科學(xué)教授邁克爾利特曼（Michael Littman）說(shuō)道。這些信號(hào)分子被釋放后，會(huì)傳遞給下一個(gè)神經(jīng)元。

20世紀(jì)50年代，一些計(jì)算機(jī)科學(xué)家意識(shí)到，他們可以將電子比特連接在一起，創(chuàng)建一個(gè)“人工神經(jīng)網(wǎng)絡(luò)”（Artificial Neural Network，ANN）。ANN中的每個(gè)單元都是一個(gè)節(jié)點(diǎn)，研究人員將其比作一個(gè)人工神經(jīng)元：在ANN中，人工神經(jīng)元接受來(lái)自其他人工神經(jīng)元的信息，并通過(guò)計(jì)算決定是否需要向下一個(gè)人工神經(jīng)元傳遞信號(hào)。信息會(huì)通過(guò)多層人工神經(jīng)元傳播，以產(chǎn)生一個(gè)特定的結(jié)果，例如從一張圖像中識(shí)別出一只狗。神經(jīng)元層數(shù)越多，進(jìn)行的計(jì)算就會(huì)越復(fù)雜。然而，早期的ANN僅有兩層神經(jīng)元。在20世紀(jì)90年代，這一數(shù)量增加到三層，并一直維持了20年。“我們無(wú)法找到可靠的方法來(lái)創(chuàng)建更深層的網(wǎng)絡(luò)，”利特曼說(shuō)道。

自20世紀(jì)90年代以來(lái)，包括瓊斯和約翰莫爾特（John Moult）在內(nèi)的結(jié)構(gòu)生物學(xué)家就一直在嘗試將ANN應(yīng)用于蛋白質(zhì)科學(xué)。然而，淺層神經(jīng)網(wǎng)絡(luò)的局限性和稀疏的數(shù)據(jù)阻礙了他們前進(jìn)。不過(guò)在大概十年之前，計(jì)算機(jī)科學(xué)家學(xué)會(huì)了如何更好地構(gòu)建ANN，從而可靠地訓(xùn)練更多層的網(wǎng)絡(luò)。ANN的深度從20層、50層、100層逐漸增加到數(shù)千層。“為了將這些新網(wǎng)絡(luò)與上世紀(jì)90年代的ANN區(qū)分開(kāi)來(lái)，人們開(kāi)始稱其為‘深度學(xué)習(xí)’，”利特曼說(shuō)道，“如果說(shuō)機(jī)器學(xué)習(xí)領(lǐng)域的人特別擅長(zhǎng)哪件事，那一定是起一些有吸引力的名字。”深度學(xué)習(xí)徹底變革了人工智能，讓算法不僅在圖像和語(yǔ)音識(shí)別方面表現(xiàn)卓越，甚至在游戲中擊敗了人類。

2016年3月，當(dāng)DeepMind的聯(lián)合創(chuàng)始人戴米斯哈薩比斯（Demis Hassabis）在韓國(guó)首爾觀看他的AI系統(tǒng)“阿爾法圍棋”（AlphaGo）在圍棋比賽中擊敗一位人類世界冠軍時(shí)，他突然回想起自己在大學(xué)時(shí)玩蛋白質(zhì)折疊游戲Foldit的經(jīng)歷。他不禁思考：既然DeepMind的研究人員能夠編寫(xiě)一個(gè)模仿圍棋大師直覺(jué)的算法，他們是否也能開(kāi)發(fā)出一個(gè)算法，去模擬Foldit玩家對(duì)生物學(xué)一無(wú)所知但仍能成功折疊蛋白質(zhì)的直覺(jué)呢？

美國(guó)芝加哥豐田計(jì)算技術(shù)研究院（Toyota Technological Institute at Chicago）的教授許錦波（Jinbo Xu）也意識(shí)到了深度學(xué)習(xí)在解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的潛力。當(dāng)時(shí)，計(jì)算機(jī)科學(xué)家在卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）中取得了巨大成功，在這種網(wǎng)絡(luò)中，算法會(huì)將圖像分解為小塊，并通過(guò)識(shí)別這些小塊之間的模式來(lái)處理圖像。受到這些圖像處理網(wǎng)絡(luò)的啟發(fā)，許錦波將這一技術(shù)引入蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。他使用一種叫做矩陣的數(shù)學(xué)對(duì)象，來(lái)描述在空間上彼此接近的氨基酸，然后將這個(gè)矩陣作為圖像輸入CNN。算法會(huì)在這些圖像中尋找規(guī)律，以預(yù)測(cè)蛋白質(zhì)中各個(gè)原子的三維坐標(biāo)。

2016年，許錦波在預(yù)印本文庫(kù)arXiv上發(fā)布了研究成果，并隨后將其發(fā)表在《公共科學(xué)圖書(shū)館計(jì)算生物學(xué)》（PLOS Computational Biology）上。莫爾特說(shuō)，“這項(xiàng)工作在該領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響，它向人們展示了‘如何使用深度學(xué)習(xí)來(lái)做這類事情（比如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)）’。”沒(méi)過(guò)多久，許多蛋白質(zhì)結(jié)構(gòu)研究小組也開(kāi)始嘗試深度學(xué)習(xí)。穆罕默德庫(kù)雷希（Mohammed AlQuraishi）和他的研究團(tuán)隊(duì)開(kāi)發(fā)了首個(gè)完全依靠ANN直接預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的方法，這類方法也被稱為“端到端”方法盡管預(yù)測(cè)效果并不理想。其他研究者也開(kāi)始探索這種革命性的新方法。

“最初我并不完全知道自己想用深度學(xué)習(xí)來(lái)解決什么具體問(wèn)題，但我意識(shí)到我需要進(jìn)入這一領(lǐng)域，”瓊斯說(shuō)道。于是，他開(kāi)始撰寫(xiě)經(jīng)費(fèi)申請(qǐng)以尋找自己的方向，就在這時(shí)，他恰巧收到了來(lái)自DeepMind的電子郵件。他們?cè)儐?wèn)了瓊斯關(guān)于全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽（CASP）的情況，并表示愿意提供幫助。“我以為他們的意思只是想說(shuō)：我們擁有很多算力，”瓊斯說(shuō)道。然而，在瓊斯見(jiàn)到他們之后，他發(fā)現(xiàn)谷歌顯然有更大的雄心壯志。而為了實(shí)現(xiàn)這些目標(biāo)，這家科技巨頭需要更多學(xué)術(shù)界的人才。

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

新秀登場(chǎng)

2016年，當(dāng)瓊斯開(kāi)始作為顧問(wèn)參與DeepMind的項(xiàng)目時(shí)即后來(lái)的阿爾法折疊（AlphaFold），約翰江珀（John Jumper）正在美國(guó)芝加哥大學(xué)攻讀他的理論化學(xué)博士學(xué)位。江珀在青年時(shí)期不僅自學(xué)了編程，還展現(xiàn)出物理方面的天賦。所以當(dāng)他進(jìn)入大學(xué)時(shí)，盡管他的工程師父母擔(dān)心他將來(lái)可能很難找到工作，但他還是堅(jiān)定選擇了數(shù)學(xué)和物理專業(yè)。“我一直認(rèn)為自己會(huì)成為一名研究‘宇宙法則’的物理學(xué)家，”江珀說(shuō)，“我一直很喜歡這種探索宇宙真理的想法。”

在美國(guó)范德比爾特大學(xué)（Vanderbilt University）就讀本科期間，他與費(fèi)米實(shí)驗(yàn)室的研究人員合作研究一種名為夸克的亞原子粒子的獨(dú)特性質(zhì)。一天，當(dāng)他和很多研究人員一起坐在午餐桌旁時(shí)，他聽(tīng)到了一個(gè)令人沮喪的消息。“我們正在設(shè)計(jì)的這個(gè)實(shí)驗(yàn)，什么時(shí)候會(huì)啟動(dòng)？”江珀回憶起當(dāng)時(shí)曾這樣問(wèn)道。一位教授表示可能要等到他退休后，而另一位更年長(zhǎng)的教授說(shuō)，他可能看不到那一天了。

“我希望從事一些時(shí)間周期更短的科學(xué)研究，”江珀說(shuō)道。本科畢業(yè)后，他開(kāi)始攻讀凝聚態(tài)物理學(xué)的博士學(xué)位，但很快便輟學(xué)了。這之后他在位于紐約的D.E. 肖研究公司（D.E. Shaw Research）找到了一份工作，這家公司當(dāng)時(shí)正在進(jìn)行蛋白質(zhì)動(dòng)力學(xué)模擬的基礎(chǔ)研究。通過(guò)了解蛋白質(zhì)如何運(yùn)動(dòng)和變化，他們希望能夠更好地理解各種疾病（例如肺癌）的致病機(jī)制。

這是江珀第一次了解到自己的工作具有潛在的重大意義：“這關(guān)乎人類的健康，能延長(zhǎng)人們的生命”。在接下來(lái)的3年里，江珀在公司的超級(jí)計(jì)算機(jī)上模擬蛋白質(zhì)的運(yùn)動(dòng)，這些超級(jí)計(jì)算機(jī)專門用于加速分子動(dòng)力學(xué)模擬。“有時(shí)候我花一天時(shí)間進(jìn)行的模擬比我整個(gè)博士期間的總和都要多，”他說(shuō)。

2011年，他再次攻讀博士學(xué)位，這次是在芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍然對(duì)蛋白質(zhì)的結(jié)構(gòu)和運(yùn)動(dòng)充滿興趣，但同時(shí)也為學(xué)術(shù)界緩慢的研究進(jìn)展而沮喪。“我不再能使用D.E. 肖研究公司那些定制的計(jì)算機(jī)硬件了，”江珀說(shuō)道。他想知道是否可以使用人工智能“當(dāng)時(shí)我們稱之為統(tǒng)計(jì)物理學(xué)”來(lái)實(shí)現(xiàn)快速的蛋白質(zhì)模擬，這個(gè)過(guò)程通常需要借助先進(jìn)的機(jī)器才能實(shí)現(xiàn)。于是他開(kāi)始涉足機(jī)器學(xué)習(xí)和ANN。

也是在此期間，他開(kāi)始思考蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題。他認(rèn)為利用蛋白質(zhì)數(shù)據(jù)庫(kù)（Protein Data Bank, PDB）中的結(jié)構(gòu)作為訓(xùn)練數(shù)據(jù)就能解決這個(gè)問(wèn)題到2012年時(shí)，該數(shù)據(jù)庫(kù)已包含超過(guò)7.6萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)。“我相信這些數(shù)據(jù)是足夠的，”江珀說(shuō)道，“但當(dāng)時(shí)的方法還不夠成熟。”

在博士期間，江珀一直致力于利用機(jī)器學(xué)習(xí)來(lái)模擬蛋白質(zhì)的折疊和運(yùn)動(dòng)過(guò)程。2017年，剛獲得博士學(xué)位的他聽(tīng)聞DeepMind正在開(kāi)展蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，便申請(qǐng)了研究科學(xué)家的職位。“當(dāng)時(shí)這個(gè)項(xiàng)目仍然是保密的，”江珀說(shuō)道。在面試中，只要他提到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，DeepMind團(tuán)隊(duì)就會(huì)迅速轉(zhuǎn)移話題，“然而，正是因?yàn)樗麄冞@樣做了太多次，我才確信他們確實(shí)在做這件事情。”

2017年10月，江珀來(lái)到了DeepMind位于倫敦的辦公室。在瓊斯的幫助下，團(tuán)隊(duì)已經(jīng)在對(duì)AlphaFold進(jìn)行深入的開(kāi)發(fā)工作。“那段時(shí)間非常有趣，我們會(huì)不停地提出各種想法。”瓊斯說(shuō)道，“最終一個(gè)好的核心想法浮現(xiàn)出來(lái)，團(tuán)隊(duì)便開(kāi)始沿著這個(gè)方向展開(kāi)工作。”為了訓(xùn)練他們的算法，DeepMind團(tuán)隊(duì)使用了PDB中超過(guò)14萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)。他們將這些信息輸入到一個(gè)CNN中，但對(duì)人工智能架構(gòu)本身沒(méi)有進(jìn)行太多改動(dòng)。“這是 ‘標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)’”，江珀說(shuō)道。

到2018年春天，AlphaFold已經(jīng)準(zhǔn)備好參加CASP，與真正的蛋白質(zhì)科學(xué)家們展開(kāi)競(jìng)爭(zhēng)。“這有點(diǎn)像F1賽車，”瓊斯回憶道，“你以為你造了最好的車，但你不知道其他團(tuán)隊(duì)造了什么。”這場(chǎng)比賽的風(fēng)險(xiǎn)很高，DeepMind團(tuán)隊(duì)討論了是否應(yīng)該匿名參賽，畢竟他們不想冒著被羞辱的風(fēng)險(xiǎn)。“沒(méi)有人想失敗。”瓊斯說(shuō)，“在學(xué)術(shù)界，這是研究工作的一部分。如果你失敗了就只能繼續(xù)前進(jìn)，因?yàn)槟銢](méi)有其他選擇。但如果你是一家市值數(shù)十億美元的科技公司，嘗試做某事卻失敗了，這顯然會(huì)給外界留下不好的印象。”

他們最終還是決定以DeepMind的名義提交結(jié)果。在12月召開(kāi)的CASP會(huì)議的前幾個(gè)月，瓊斯收到了CASP組織者的消息。他們建議DeepMind團(tuán)隊(duì)來(lái)參加會(huì)議，因?yàn)锳lphaFold表現(xiàn)非常好，它在超過(guò)一半的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中，給出了最好的預(yù)測(cè)。盡管這次勝利并不算特別耀眼，其蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)總分只比第二名高13分，但也給人留下了深刻印象。“顯然，一些有趣的事情發(fā)生了，”莫爾特說(shuō)道。

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

算法新生

這場(chǎng)勝利極大地鼓舞了DeepMind團(tuán)隊(duì)，但他們深知距離徹底解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題還有一段很長(zhǎng)的路要走。哈薩比斯再次將他們聚集在一起。“我們要繼續(xù)攻克這個(gè)問(wèn)題嗎？”江珀回憶起哈薩比斯的話，“如果不繼續(xù)，那就去尋找那些我們能產(chǎn)生巨大影響的問(wèn)題。”江珀繼續(xù)說(shuō)，“有那么一刻，我們決定要把這個(gè)問(wèn)題徹底解決。”于是，他們重新回到起點(diǎn)，開(kāi)始新一輪的研究。

憑借著在物理、化學(xué)、生物學(xué)和計(jì)算領(lǐng)域的多樣化背景，江珀給那些頭腦風(fēng)暴會(huì)議帶來(lái)了獨(dú)特的見(jiàn)解。不久后，他開(kāi)始領(lǐng)導(dǎo)這個(gè)團(tuán)隊(duì)，團(tuán)隊(duì)的規(guī)模也從最初的6人擴(kuò)大到了15人。“有一些非常特別的事情正在發(fā)生，”拉斐爾湯曾德（Raphael Townshend）說(shuō)道。2019年，他曾在DeepMind實(shí)習(xí)，后來(lái)創(chuàng)辦了由人工智能驅(qū)動(dòng)的生物科技公司“原子人工智能”（Atomic AI）。

在學(xué)術(shù)界，專家們往往彼此分隔，各自研究一些獨(dú)立項(xiàng)目，很少尋求合作。而在DeepMind，來(lái)自統(tǒng)計(jì)學(xué)、結(jié)構(gòu)生物學(xué)、計(jì)算化學(xué)、軟件工程等領(lǐng)域的專家們齊聚一堂，共同研究蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。他們還擁有谷歌提供的龐大財(cái)力和計(jì)算資源。“我在博士期間需要花費(fèi)幾個(gè)月完成的事情，在這里一天就能完成，”湯曾德說(shuō)道。

“位于倫敦的DeepMind辦公室充滿活力，而其中的大部分活力都來(lái)自江珀。”湯曾德說(shuō)，“我認(rèn)為他是一個(gè)真正的天才，同時(shí)也是一個(gè)非常謙遜的人。”美國(guó)計(jì)算機(jī)科學(xué)家埃倫鐘（Ellen Zhong）說(shuō)道：“他深受團(tuán)隊(duì)的喜愛(ài)。”鐘曾于2021年在DeepMind實(shí)習(xí)，現(xiàn)在是美國(guó)普林斯頓大學(xué)（Princeton University）的助理教授。

在江珀的領(lǐng)導(dǎo)下，團(tuán)隊(duì)對(duì)AlphaFold進(jìn)行了重構(gòu)，開(kāi)發(fā)了AlphaFold2。DeepMind設(shè)計(jì)了一種新型的轉(zhuǎn)換架構(gòu)（Transformer）“在過(guò)去5年中，這種深度學(xué)習(xí)模型幾乎推動(dòng)了所有機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)突破”，湯曾德說(shuō)道。這種ANN通過(guò)調(diào)整連接的強(qiáng)度來(lái)建造更精確的數(shù)據(jù)表征，在AlphaFold2中用于處理蛋白質(zhì)的演化和結(jié)構(gòu)數(shù)據(jù)。隨后，這些數(shù)據(jù)會(huì)被第二個(gè)Transformer架構(gòu)用來(lái)預(yù)測(cè)一個(gè)蛋白質(zhì)的三維結(jié)構(gòu)。AlphaFold2將預(yù)測(cè)的結(jié)構(gòu)與一些修正數(shù)據(jù)繼續(xù)輸入這些架構(gòu)中，以進(jìn)一步優(yōu)化預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)。

“當(dāng)我們剛開(kāi)始研發(fā)AlphaFold2時(shí)，算法表現(xiàn)得非常糟糕，但并沒(méi)有我們預(yù)期的那么糟。”江珀說(shuō)，“它得到了一些看起來(lái)有點(diǎn)像蛋白質(zhì)的螺旋結(jié)構(gòu)。”但隨著他們進(jìn)一步優(yōu)化算法，他們注意到預(yù)測(cè)的效率和準(zhǔn)確性都大幅提高。“這確實(shí)讓人有些害怕。”江珀說(shuō)道，“如果它表現(xiàn)得太好，通常意味著你做錯(cuò)了什么。”但他們檢查后沒(méi)有發(fā)現(xiàn)任何問(wèn)題，AlphaFold2確實(shí)在正常工作。

團(tuán)隊(duì)決定進(jìn)行一項(xiàng)內(nèi)部實(shí)驗(yàn)，看看他們的系統(tǒng)是否對(duì)生物學(xué)家有所幫助。他們挑選了大約50篇發(fā)表在《科學(xué)》（Science）、《自然》（Nature）和《細(xì)胞》（Cell）等頂級(jí)期刊上的論文。這些論文不僅描述了一種新的蛋白質(zhì)結(jié)構(gòu)，還從蛋白質(zhì)的結(jié)構(gòu)中得出了一些關(guān)于其功能的見(jiàn)解。他們想看看AlphaFold2的表現(xiàn)能否與實(shí)驗(yàn)人員費(fèi)時(shí)費(fèi)力獲得的研究成果相媲美。

于是，他們將這些氨基酸序列輸入AlphaFold2的預(yù)測(cè)引擎。對(duì)于每個(gè)序列，它給出的預(yù)測(cè)都很接近論文中的實(shí)驗(yàn)獲得的蛋白質(zhì)結(jié)構(gòu)。然而，在DeepMind團(tuán)隊(duì)看來(lái)，這仍然不夠準(zhǔn)確，這些結(jié)構(gòu)中缺少實(shí)驗(yàn)研究人員從蛋白質(zhì)中獲得的一些關(guān)鍵細(xì)節(jié)。“你認(rèn)為自己跑完了比賽，卻發(fā)現(xiàn)只是跑了一半，”江珀說(shuō)道。在接下來(lái)的6個(gè)月里，團(tuán)隊(duì)進(jìn)一步優(yōu)化了系統(tǒng)，一點(diǎn)一點(diǎn)地改進(jìn)細(xì)節(jié)。在2020年CASP的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)名單發(fā)布前幾周，他們又進(jìn)行了另一次有效性測(cè)試，江珀對(duì)這次結(jié)果感到滿意。DeepMind在2020年春季向CASP提交了他們的預(yù)測(cè)結(jié)果，接下來(lái)是等待最終結(jié)果。

震驚世界

到初夏時(shí)，莫爾特收到了一封來(lái)自CASP評(píng)估員的電子郵件，寫(xiě)著“看看這個(gè)，真是令人印象深刻”。郵件的附件是一個(gè)AlphaFold2預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)。莫爾特非常驚訝，但他認(rèn)為這只是一次偶然的成功。

緊接著，他收到了一封又一封這樣的電子郵件。“這很不尋常，”他回憶起當(dāng)時(shí)的想法。有3個(gè)、4個(gè)甚至一大堆近乎完美的蛋白質(zhì)預(yù)測(cè)結(jié)構(gòu)，而它們?nèi)縼?lái)自AlphaFold2。到夏末時(shí)，莫爾特說(shuō)，“我們迅速意識(shí)到，有一些極其超乎想象的事情發(fā)生了。”

CASP評(píng)估員會(huì)將每個(gè)提交的蛋白質(zhì)預(yù)測(cè)結(jié)構(gòu)與相對(duì)應(yīng)的、經(jīng)過(guò)實(shí)驗(yàn)獲得并驗(yàn)證的結(jié)構(gòu)進(jìn)行比較，給出評(píng)分。滿分為100分，意味著預(yù)測(cè)的結(jié)構(gòu)與實(shí)際結(jié)構(gòu)中的每一個(gè)原子都能完美匹配。莫爾特一直認(rèn)為，任何超過(guò)90分的結(jié)果都能表明算法已經(jīng)有效地解決了蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)問(wèn)題。AlphaFold2預(yù)測(cè)的大多數(shù)結(jié)構(gòu)都已經(jīng)達(dá)到甚至超過(guò)了90分。會(huì)議召開(kāi)的前幾個(gè)月，莫爾特打電話告訴了江珀這個(gè)消息。“我激動(dòng)得爆了粗口，”江珀回憶道，“妻子當(dāng)時(shí)還問(wèn)我是否還好。”

2020年12月，新冠疫情暴發(fā)不足一年之際，江珀在CASP的視頻會(huì)議上展示了AlphaFold2。和其他與會(huì)者一樣，瓊斯在家觀看了會(huì)議。“我完全呆在那里……看著一切徐徐展開(kāi)，”他說(shuō)，“我沒(méi)有發(fā)泄情緒的途徑，因?yàn)橥聜兌疾辉谏磉?hellip;…我們都處于疫情防控中，哪也去不了。”

對(duì)于任何不是ANN專家的人來(lái)說(shuō)，其中的概念聽(tīng)起來(lái)會(huì)都很復(fù)雜。不過(guò)即便如此，結(jié)論卻很明確：DeepMind已經(jīng)解決了蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)問(wèn)題，他們開(kāi)發(fā)的AlphaFold2能夠基于蛋白質(zhì)的氨基酸序列來(lái)準(zhǔn)確預(yù)測(cè)其結(jié)構(gòu)。“唉，我最喜歡的課題完蛋了，”瓊斯回憶道，“DeepMind殺死了比賽，一切都結(jié)束了。”多年以來(lái)，阿納斯塔西斯佩拉基斯（Anastassis Perrakis）一直向CASP提交未發(fā)表的蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果以供比賽使用。當(dāng)他看到AlphaFold2預(yù)測(cè)的、他的研究團(tuán)隊(duì)辛苦獲得的一個(gè)蛋白質(zhì)結(jié)構(gòu)時(shí)，他心想：“完了。”AlphaFold2完全正確地預(yù)測(cè)了該蛋白質(zhì)的結(jié)構(gòu)。在疫情防控期間，獨(dú)自在家的科學(xué)家們一致認(rèn)為蛋白質(zhì)科學(xué)的世界至此永遠(yuǎn)改變了。當(dāng)他們展望這片新的領(lǐng)域時(shí)，心中只有一個(gè)問(wèn)題：接下來(lái)怎么辦？

從預(yù)測(cè)到創(chuàng)造

結(jié)構(gòu)生物學(xué)家突然陷入了混亂。“一開(kāi)始，許多人進(jìn)行了深刻的反思”，西爾維奧托薩托（Silvio Tosatto）說(shuō)道，他從全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽（CASP）的早期就開(kāi)始參加這項(xiàng)比賽。一些結(jié)構(gòu)生物學(xué)家擔(dān)心，他們的工作可能會(huì)變得過(guò)時(shí)。另一些人則表現(xiàn)出防御性姿態(tài)，聲稱“阿爾法折疊2”（AlphaFold2）的預(yù)測(cè)結(jié)果并不準(zhǔn)確。

這一刻，那些長(zhǎng)期致力于解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題的計(jì)算生物學(xué)家感到苦樂(lè)參半，他們其中一些人甚至已經(jīng)研究了數(shù)十年時(shí)間。CASP賽后，穆罕默德庫(kù)雷希（Mohammed AlQuraishi）撰寫(xiě)了一篇博客文章，其中引用了一位與會(huì)者的話，他形容這感覺(jué)就像自己的孩子第一次離開(kāi)家。

盡管對(duì)這種備受矚目的新工具感到不安，但許多科學(xué)家還是欣喜若狂。過(guò)去，那些不從事蛋白質(zhì)結(jié)構(gòu)研究的科學(xué)家，在進(jìn)行涉及多學(xué)科問(wèn)題的研究時(shí)，必須與結(jié)構(gòu)生物學(xué)家合作，才能確定實(shí)驗(yàn)中的蛋白質(zhì)結(jié)構(gòu)�，F(xiàn)在，他們只需按幾個(gè)按鈕，只靠自己就能得到結(jié)構(gòu)。

在媒體上，AlphaFold2被形容為將“改變一切”的嶄新的人工智能（AI）突破。但科學(xué)家花了數(shù)月甚至數(shù)年的時(shí)間，才終于理清AlphaFold2的能力和局限性。大約是在約翰江珀（John Jumper）演講的6個(gè)月后，谷歌子公司“深度思維”（DeepMind）發(fā)表了他們的結(jié)果，并公開(kāi)了AlphaFold2的底層代碼。生物學(xué)家開(kāi)始嘗試使用這個(gè)工具。阿納斯塔西斯佩拉基斯（Anastassis Perrakis）說(shuō)：“AlphaFold2發(fā)布的第二天，我們就試著把它裝到了我們的圖形處理單元（GPU）服務(wù)器上。”

珍妮特桑頓（Janet Thornton）表示：“我原本以為AlphaFold2會(huì)失敗，但它實(shí)際上取得了驚人的成功。”漸漸地，人們開(kāi)始意識(shí)到，AlphaFold2不僅不是一種威脅，反而可能成為加速研究的催化劑。它沒(méi)有讓結(jié)構(gòu)生物學(xué)家失業(yè)，而是給他們提供了一個(gè)新的工具，讓他們更好地完成工作。海倫沃爾登（Helen Walden）說(shuō)：“如果你只是把結(jié)構(gòu)生物學(xué)家看作解析蛋白質(zhì)結(jié)構(gòu)的技術(shù)專家，那么是的，結(jié)構(gòu)生物學(xué)家當(dāng)然會(huì)失業(yè)。”但這樣說(shuō)就好比認(rèn)為，人類基因組計(jì)劃讓基因組學(xué)家變得多余了，因?yàn)樗麄儾辉倌馨l(fā)表解析單個(gè)基因序列的論文了。

在許多情況下，結(jié)構(gòu)生物學(xué)家的目標(biāo)是通過(guò)研究蛋白質(zhì)的結(jié)構(gòu)來(lái)發(fā)現(xiàn)其功能。有了AlphaFold2，他們就能基于這種工具在幾分鐘內(nèi)生成的蛋白質(zhì)結(jié)構(gòu)，提出關(guān)于蛋白質(zhì)功能的假設(shè)，而不必事先通過(guò)數(shù)月甚至數(shù)年的實(shí)驗(yàn)來(lái)解析結(jié)構(gòu)。保羅亞當(dāng)斯（Paul Adams）說(shuō)：“它在許多方面都推動(dòng)結(jié)構(gòu)生物學(xué)向著更好的方向發(fā)展，這并非一件壞事，反而會(huì)讓這個(gè)研究領(lǐng)域變得更加令人興奮。”

然而，AlphaFold2并未像一些人預(yù)測(cè)的那樣立即帶來(lái)各種新藥。研究人員很快了解到，這個(gè)工具也有局限性：AlphaFold2的預(yù)測(cè)并不完美。佩拉基斯說(shuō)，它預(yù)測(cè)的結(jié)果仍需通過(guò)實(shí)驗(yàn)驗(yàn)證，但你“可以更快地開(kāi)始具體結(jié)構(gòu)的研究”�，F(xiàn)在，當(dāng)他的學(xué)生開(kāi)始一個(gè)新課題時(shí)，他們會(huì)首先使用AlphaFold2預(yù)測(cè)特定蛋白質(zhì)的結(jié)構(gòu)，然后再用實(shí)驗(yàn)驗(yàn)證。

佩拉基斯認(rèn)為，他和其他研究人員仍會(huì)在一定程度上繼續(xù)使用X射線晶體學(xué)。但是，為了得到初始的蛋白質(zhì)結(jié)構(gòu)，許多人已經(jīng)開(kāi)始將深度學(xué)習(xí)預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)與先進(jìn)的電子顯微鏡技術(shù)（例如冷凍電子顯微術(shù)）結(jié)合使用。冷凍電子顯微術(shù)（cryo-EM）又稱冷凍電鏡術(shù)，是一種用于分析快速冷凍的含水生物樣品的透射電鏡成像技術(shù)，通過(guò)電子轟擊樣品進(jìn)行分析。將這兩種技術(shù)相結(jié)合之后，研究人員就能迅速開(kāi)展對(duì)蛋白質(zhì)功能的研究，專注于研究更有趣的科學(xué)問(wèn)題。庫(kù)雷希表示，AlphaFold2“極大推動(dòng)了”冷凍電子顯微術(shù)的應(yīng)用。

轉(zhuǎn)變已經(jīng)開(kāi)始了。2022年6月，《科學(xué)》（Science）的一期特刊揭示了人類核孔復(fù)合體近原子水平分辨率的結(jié)構(gòu)。對(duì)于這個(gè)由30種不同蛋白質(zhì)組成的龐大而復(fù)雜的蛋白質(zhì)復(fù)合體，其結(jié)構(gòu)解析幾十年來(lái)一直是生物學(xué)中的難題。這群科學(xué)家使用AlphaFold2的預(yù)測(cè)結(jié)果，填補(bǔ)了核孔復(fù)合體中未能用冷凍電子顯微術(shù)解析的部分。江珀表示，當(dāng)他讀到這篇論文，看到其他科學(xué)家利用AlphaFold2取得了生物學(xué)上的突破，就是在那一刻，他意識(shí)到“AlphaFold2確實(shí)非常重要”。

過(guò)去三年中，類似核孔復(fù)合體這樣的發(fā)現(xiàn)點(diǎn)綴了蛋白質(zhì)科學(xué)領(lǐng)域的發(fā)展歷程。AlphaFold2已經(jīng)預(yù)測(cè)了許多蛋白質(zhì)結(jié)構(gòu)，它們幫助科學(xué)家研究疾病并創(chuàng)造了新的藥物遞送工具。美國(guó)博德研究所（Broad Institute）的分子生物學(xué)家張鋒說(shuō)：“它對(duì)我們非常有幫助。”他用AlphaFold2設(shè)計(jì)了一種分子注射器，用于將藥物遞送到人體細(xì)胞中。除了藥物遞送，了解蛋白質(zhì)的結(jié)構(gòu)也有助于藥物開(kāi)發(fā)：例如，如果研究人員能找到緊密貼合靶標(biāo)蛋白形狀并能改變其功能的分子，它就有潛力作為藥物。盡管一些研究表明，AlphaFold2的預(yù)測(cè)結(jié)果并不如實(shí)驗(yàn)得到的結(jié)構(gòu)有用，但也有研究表明AlphaFold2的預(yù)測(cè)結(jié)果同樣有效。總的來(lái)看，AI工具對(duì)藥物發(fā)現(xiàn)的全面影響仍在逐步顯現(xiàn)。

然而，在預(yù)測(cè)已知蛋白質(zhì)的結(jié)構(gòu)和功能之外，一些生物學(xué)家已經(jīng)在嘗試將AlphaFold2用于其他用途。他們轉(zhuǎn)而用人工智能設(shè)計(jì)自然界中不存在的蛋白質(zhì)，這一技術(shù)對(duì)設(shè)計(jì)新型藥物至關(guān)重要。

開(kāi)拓新領(lǐng)域

觀看了江珀在2020年CASP會(huì)議上的演講后，戴維貝克（David Baker）幾乎立即就回到了他的羅塞塔（Rosetta）算法工作中。當(dāng)時(shí)，谷歌尚未公開(kāi)AlphaFold2的底層源代碼。即便如此，“我們開(kāi)始嘗試他們介紹的一些想法”，貝克說(shuō)道。就在谷歌DeepMind在《自然》（Nature）上發(fā)表AlphaFold2的同一天，貝克和團(tuán)隊(duì)宣布了AlphaFold2的競(jìng)爭(zhēng)對(duì)手“羅塞塔折疊”（RoseTTAFold），它也有極高的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精確度。RoseTTAFold同樣使用深度學(xué)習(xí)來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，但其底層架構(gòu)與AlphaFold2非常不同。托薩托說(shuō)：“科學(xué)想法一旦被提出，人們就可能對(duì)其進(jìn)行逆向工程并嘗試在其基礎(chǔ)上進(jìn)行構(gòu)建，至少對(duì)那些擁有足夠資源的人而言是這樣。”

RoseTTAFold并不孤單。包括美國(guó)元宇宙（Meta）公司在內(nèi)的其他AlphaFold2競(jìng)爭(zhēng)者也開(kāi)發(fā)了自己的算法，用于解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)或相關(guān)問(wèn)題。一些公司已經(jīng)擴(kuò)展到了蛋白質(zhì)以外的領(lǐng)域，例如拉斐爾湯曾德（Raphael Townshend）所在的美國(guó)生物科技初創(chuàng)公司“原子人工智能”（Atomic AI），就使用深度學(xué)習(xí)來(lái)解析RNA的結(jié)構(gòu)。然而，在單分子結(jié)構(gòu)預(yù)測(cè)領(lǐng)域，目前還沒(méi)有算法能達(dá)到AlphaFold2的精度，桑頓說(shuō)道。“我相信他們最終會(huì)做到這種精度，但我認(rèn)為要再現(xiàn)另一個(gè)那樣的‘AlphaFold2時(shí)刻’將會(huì)非常困難。”

CASP建立了一種卓有成效的競(jìng)爭(zhēng)傳統(tǒng)。至少在大眾眼中，貝克和江珀將這種競(jìng)爭(zhēng)延續(xù)了下去。貝克說(shuō)：“他們可能覺(jué)得我在與他們競(jìng)爭(zhēng)，但我覺(jué)得他們只是啟發(fā)了我們。”江珀則對(duì)此表示歡迎，他說(shuō)：“讓人們?cè)谶@個(gè)科學(xué)基礎(chǔ)上繼續(xù)開(kāi)發(fā)是非常重要的。如果AlphaFold2沒(méi)有知識(shí)上的傳承，那對(duì)我來(lái)說(shuō)將是一件很悲哀的事。”

貝克已經(jīng)在發(fā)展他的項(xiàng)目傳承，重點(diǎn)關(guān)注蛋白質(zhì)科學(xué)的新前沿領(lǐng)域蛋白質(zhì)設(shè)計(jì)。此前，生物學(xué)家受限于研究自然界中已經(jīng)存在的蛋白質(zhì)，但在貝克設(shè)想的科學(xué)中，他們可以設(shè)計(jì)全新的蛋白質(zhì)，這些人為設(shè)計(jì)的蛋白質(zhì)可以專門用于利用陽(yáng)光、分解塑料或作為藥物和疫苗的基矗

荷蘭胡布雷赫特研究所（Hubrecht Institute）的結(jié)構(gòu)生物學(xué)家丹尼薩托（Danny Sahtoe）曾在貝克的指導(dǎo)下完成博士后研究，他說(shuō)：“對(duì)于目前自然界中不同類型的蛋白質(zhì)而言，其結(jié)構(gòu)或形狀的數(shù)量相當(dāng)有限。理論上，還存在更多的可能性。如果能有更多形狀，那也意味著蛋白質(zhì)可以擁有更多功能。”

現(xiàn)任美國(guó)華盛頓大學(xué)（University of Washington）蛋白質(zhì)設(shè)計(jì)研究所（Institute for Protein Design）所長(zhǎng)的貝克說(shuō)，蛋白質(zhì)設(shè)計(jì)本質(zhì)上是“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的逆向問(wèn)題”。使用蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法時(shí)，科學(xué)家會(huì)將氨基酸序列輸入深度學(xué)習(xí)算法，并讓它輸出蛋白質(zhì)結(jié)構(gòu)。而蛋白質(zhì)設(shè)計(jì)則不同，蛋白質(zhì)設(shè)計(jì)師是將特定的蛋白質(zhì)結(jié)構(gòu)輸入算法，然后讓它輸出氨基酸序列。緊接著，他們會(huì)基于模型輸出的序列，再在實(shí)驗(yàn)室中構(gòu)建出設(shè)計(jì)的蛋白質(zhì)。

AlphaFold2和RoseTTAFold本身無(wú)法生成這些序列，因?yàn)樗鼈兊木幊踢壿媹?zhí)行的是相反的操作。但貝克基于RoseTTAFold的神經(jīng)架構(gòu)，創(chuàng)建了一個(gè)專門用于設(shè)計(jì)蛋白質(zhì)的迭代版本，名為“RoseTTAFold擴(kuò)散”（RoseTTAFold diffusion），簡(jiǎn)稱“RF擴(kuò)散”。薩托說(shuō)，蛋白質(zhì)設(shè)計(jì)領(lǐng)域已經(jīng)存在了很長(zhǎng)時(shí)間，但深度學(xué)習(xí)加速了這一進(jìn)程，它使切實(shí)可行的蛋白質(zhì)計(jì)算機(jī)模型的設(shè)計(jì)過(guò)程變得“極其快速”。過(guò)去，訓(xùn)練有素的蛋白質(zhì)設(shè)計(jì)師需要數(shù)周或數(shù)月的時(shí)間，才能創(chuàng)建一個(gè)新蛋白質(zhì)的骨架。而現(xiàn)在，他們幾天之內(nèi)甚至一夜之間就能完成。

貝克還更新了Foldit游戲，將他的執(zhí)念融入其中：玩家不再是構(gòu)建蛋白質(zhì)結(jié)構(gòu)，而是設(shè)計(jì)蛋白質(zhì)。這一嘗試確實(shí)富有成效。基于一些玩家設(shè)計(jì)的蛋白質(zhì)，貝克實(shí)驗(yàn)室已經(jīng)撰寫(xiě)了多篇論文。而且一名世界頂級(jí)Foldit玩家如今正就讀于華盛頓大學(xué)，是貝克一位同事的研究生。

貝克說(shuō)：“我們真的理解蛋白質(zhì)的折疊過(guò)程嗎？如果我們?cè)O(shè)計(jì)出能折疊成新結(jié)構(gòu)的新序列，那就表明我們對(duì)蛋白質(zhì)折疊有了相當(dāng)多的了解。從某種意義上說(shuō)，你也可以將它看作蛋白質(zhì)折疊問(wèn)題的一種解決方案。”

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

相信與懷疑

AlphaFold2的成功無(wú)疑改變了生物學(xué)家對(duì)人工智能的態(tài)度。長(zhǎng)期以來(lái)，許多實(shí)驗(yàn)生物學(xué)家并不相信計(jì)算方法，他們覺(jué)得一些機(jī)器學(xué)習(xí)方法可能會(huì)讓數(shù)據(jù)看起來(lái)很好，而實(shí)際使用時(shí)并非如此。然而，谷歌DeepMind的成功明確證明了“你可以用它進(jìn)行嚴(yán)肅的科學(xué)研究”，庫(kù)雷希說(shuō)道�，F(xiàn)在，任何對(duì)這件事的懷疑都會(huì)被人反問(wèn)：“那AlphaFold2呢？”許錦波，那位曾推進(jìn)卷積神經(jīng)網(wǎng)絡(luò)研究的計(jì)算生物學(xué)家說(shuō)：“現(xiàn)在，生物學(xué)家開(kāi)始相信我們的預(yù)測(cè)結(jié)果。而在以前，生物學(xué)家總是懷疑我們的預(yù)測(cè)是否可靠。”

這種信任的建立要?dú)w功于AlphaFold2平臺(tái)的一個(gè)特性：它不僅能生成蛋白質(zhì)的三維模型，還會(huì)自我評(píng)估預(yù)測(cè)的準(zhǔn)確性，對(duì)結(jié)構(gòu)中的每個(gè)部分給出從0到100的置信度評(píng)分。2022年7月，谷歌DeepMind發(fā)布了2.18億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)，幾乎涵蓋了世界上所有已知蛋白質(zhì)。之后，亞當(dāng)斯便決定開(kāi)始分析AlphaFold2的自我評(píng)估結(jié)果。他將這些預(yù)測(cè)的結(jié)構(gòu)與已通過(guò)實(shí)驗(yàn)解析的蛋白質(zhì)結(jié)構(gòu)進(jìn)行比較，并獨(dú)立評(píng)估它們的準(zhǔn)確性。

亞當(dāng)斯說(shuō)：“好消息是，當(dāng)AlphaFold2認(rèn)為自己正確的時(shí)候，它通常非常正確。當(dāng)它認(rèn)為自己不對(duì)時(shí)，它通常也確實(shí)不對(duì)。”然而，在AlphaFold2對(duì)其預(yù)測(cè)結(jié)果“非常有信心”（置信度評(píng)分不低于90分，滿分為100分）的情況下，大約在10%的例子中，預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果不一致。

AI系統(tǒng)似乎具有一定的自我懷疑能力，這可能會(huì)導(dǎo)致人們過(guò)度依賴其結(jié)論。大多數(shù)生物學(xué)家將AlphaFold2視為一種預(yù)測(cè)工具，但也有一些人走得太遠(yuǎn)了。一些過(guò)去與結(jié)構(gòu)生物學(xué)家合作的細(xì)胞生物學(xué)家和生物化學(xué)家，甚至用AlphaFold2取代了結(jié)構(gòu)生物學(xué)家，并將其預(yù)測(cè)視為真理。佩拉基斯說(shuō)，有些科學(xué)家在發(fā)表論文中展示的蛋白質(zhì)結(jié)構(gòu)顯然是錯(cuò)誤的，任何結(jié)構(gòu)生物學(xué)家都能看出來(lái)。“但他們會(huì)說(shuō)：‘好吧，那是AlphaFold2預(yù)測(cè)的結(jié)構(gòu)。’”美國(guó)國(guó)立衛(wèi)生研究院（NIH）的研究員勞倫波特（Lauren Porter）表示：“一些人對(duì)這些深度學(xué)習(xí)模型的能力過(guò)于自信了。我們應(yīng)該盡可能多地使用這些深度學(xué)習(xí)模型，但也需要以謹(jǐn)慎和謙遜的態(tài)度來(lái)對(duì)待它們。”

戴維瓊斯（David Jones）聽(tīng)說(shuō)，有些從事計(jì)算解析蛋白質(zhì)結(jié)構(gòu)的科學(xué)家在爭(zhēng)取資金時(shí)遇到了困難。他說(shuō)：“你知道的，普遍的看法是，DeepMind已經(jīng)做到了，那為什么你還在做這個(gè)方向？”但瓊斯認(rèn)為，這項(xiàng)工作仍然是必要的，因?yàn)锳lphaFold2并非無(wú)懈可擊，他說(shuō)：“（距離真正解決該領(lǐng)域的所有問(wèn)題）依舊存在非常大的差距，有些事情它顯然做不到。”

雖然AlphaFold2在預(yù)測(cè)小型、簡(jiǎn)單蛋白質(zhì)的結(jié)構(gòu)方面表現(xiàn)出色，但在預(yù)測(cè)包含多個(gè)組成部分的蛋白質(zhì)復(fù)合體時(shí)，其準(zhǔn)確性仍然較低。它也無(wú)法考慮蛋白質(zhì)的環(huán)境因素或蛋白質(zhì)與其他分子的結(jié)合，而這些因素會(huì)在自然狀態(tài)下改變蛋白質(zhì)的形狀。例如，有時(shí)蛋白質(zhì)需要被特定的離子、鹽或金屬包圍才能正確折疊。沃爾登說(shuō)：“目前，AlphaFold2在理解蛋白質(zhì)所處環(huán)境方面還有些問(wèn)題。”她的團(tuán)隊(duì)已經(jīng)通過(guò)實(shí)驗(yàn)解析了幾個(gè)AlphaFold2無(wú)法預(yù)測(cè)的結(jié)構(gòu)。

自然界中還存在幾類動(dòng)態(tài)的蛋白質(zhì)，它們的功能十分重要，但AlphaFold2對(duì)它們的結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性較差。這些會(huì)發(fā)生形變的蛋白質(zhì)，也被稱為折疊轉(zhuǎn)換蛋白質(zhì)（fold-switching protein），它們的結(jié)構(gòu)并不是靜態(tài)的，其形狀會(huì)在與其他分子相互作用時(shí)發(fā)生變化。即使是相同的氨基酸序列，有些蛋白質(zhì)也會(huì)折疊成截然不同的形狀。波特說(shuō)，折疊轉(zhuǎn)換蛋白質(zhì)“挑戰(zhàn)了序列編碼單一結(jié)構(gòu)的范式，因?yàn)樗鼈冿@然不只有一種結(jié)構(gòu)”。與用于訓(xùn)練DeepMind算法的數(shù)十萬(wàn)種靜態(tài)、單一結(jié)構(gòu)的蛋白質(zhì)相比，用于訓(xùn)練的折疊轉(zhuǎn)換蛋白質(zhì)只有大約100個(gè)例子，盡管肯定還有更多此類蛋白質(zhì)存在。波特表示，“一般來(lái)說(shuō)，這些算法是為了預(yù)測(cè)單個(gè)折疊結(jié)構(gòu)而設(shè)計(jì)的”，因此有這樣的表現(xiàn)也許并不令人意外。

還有一些蛋白質(zhì)會(huì)像汽車專賣店外的充氣人偶一樣胡亂擺動(dòng)。固有無(wú)序蛋白（IDP）或固有無(wú)序蛋白質(zhì)區(qū)域缺乏穩(wěn)定的結(jié)構(gòu)，它們會(huì)不斷地?fù)u擺和重新形成。丹麥哥本哈根大學(xué)（University of Copenhagen）的計(jì)算蛋白質(zhì)生物物理學(xué)教授克雷斯滕林多夫-拉森（Kresten Lindorff-Larsen）說(shuō)：“它們?cè)诤芏喾矫娑急蝗撕鲆暳�，僅僅是因?yàn)樗鼈冇悬c(diǎn)煩人。”大約44%的人類蛋白質(zhì)都包含一個(gè)由至少30個(gè)氨基酸組成的無(wú)序區(qū)域，“這是一個(gè)相對(duì)較大的比例”，林多夫-拉森表示。AlphaFold2能預(yù)測(cè)某個(gè)區(qū)域可能是固有無(wú)序的，但它不能告訴你這種無(wú)序狀態(tài)具體是什么樣的。

對(duì)于江珀來(lái)說(shuō)，AlphaFold2最讓他失望的點(diǎn)在于，它無(wú)法顯示兩種僅相差一個(gè)氨基酸（即點(diǎn)突變）的蛋白質(zhì)之間的結(jié)構(gòu)差異。他說(shuō)，點(diǎn)突變“有時(shí)會(huì)對(duì)蛋白質(zhì)的結(jié)構(gòu)和功能產(chǎn)生相當(dāng)顯著的影響，但AlphaFold2常常會(huì)忽視這些區(qū)別”，它會(huì)為兩個(gè)序列生成相同的結(jié)構(gòu)。2023年9月，DeepMind發(fā)布了AlphaMissense，這是一種能預(yù)測(cè)此類點(diǎn)突變影響的深度學(xué)習(xí)算法。它無(wú)法展示結(jié)構(gòu)上的變化，但會(huì)根據(jù)已知致病蛋白質(zhì)中類似突變的信息，告知用戶該突變是否可能導(dǎo)致蛋白質(zhì)致病或出現(xiàn)功能障礙。

然而，就算AlphaFold2能夠完美地預(yù)測(cè)所有蛋白質(zhì)的結(jié)構(gòu)，它仍然遠(yuǎn)未達(dá)到模擬生命的程度。因?yàn)樵诩?xì)胞中，蛋白質(zhì)從來(lái)都不是單獨(dú)行動(dòng)的。

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)

AlphaFold3誕生

細(xì)胞內(nèi)部復(fù)雜而混亂。細(xì)胞的外膜包裹著細(xì)胞內(nèi)的生化環(huán)境，這里密集地?cái)D滿了各種分子部件蛋白質(zhì)、信號(hào)分子、信使RNA和細(xì)胞器等等。蛋白質(zhì)彼此之間以及與其他分子相互結(jié)合，這會(huì)改變它們的形態(tài)與功能。

盡管AlphaFold2在預(yù)測(cè)單個(gè)蛋白質(zhì)結(jié)構(gòu)方面表現(xiàn)出色，但它并未幫助生物學(xué)家更深入地理解蛋白質(zhì)在這種復(fù)雜天然環(huán)境中的表現(xiàn)。這正是該領(lǐng)域當(dāng)前研究的方向。蛋白質(zhì)科學(xué)領(lǐng)域的兩大人工智能巨頭谷歌DeepMind和貝克領(lǐng)導(dǎo)的蛋白質(zhì)設(shè)計(jì)研究所，目前正在改進(jìn)他們的深度學(xué)習(xí)算法，用于預(yù)測(cè)蛋白質(zhì)在與其他分子相互作用時(shí)的結(jié)構(gòu)。2024年春天，兩個(gè)機(jī)構(gòu)都發(fā)表了論文，描述了他們?cè)谠擃I(lǐng)域的類似進(jìn)展。他們更新的算法AlphaFold3和RoseTTAFold All-Atom，使他們能預(yù)測(cè)蛋白質(zhì)與蛋白質(zhì)、DNA、RNA和其他小分子結(jié)合時(shí)的結(jié)構(gòu)。

生物學(xué)家才剛剛開(kāi)始測(cè)試這些更新。庫(kù)雷希表示，到目前為止，AlphaFold3的準(zhǔn)確性遠(yuǎn)高于RoseTTAFold All-Atom，但這次并不像“AlphaFold2時(shí)刻”那樣是一次巨大的飛躍。對(duì)于預(yù)測(cè)一些大分子，例如RNA的結(jié)構(gòu)，它的準(zhǔn)確性仍低于其他基于物理的系統(tǒng)和實(shí)驗(yàn)方法。

即便如此，這些新算法仍朝著正確的方向邁出了一步。蛋白質(zhì)與其他分子之間的相互作用對(duì)其在細(xì)胞中的功能至關(guān)重要。為了開(kāi)發(fā)出能與蛋白質(zhì)結(jié)合并按需改變其活性的藥物，研究人員需要了解兩者形成的復(fù)合體的結(jié)構(gòu)。不過(guò)亞當(dāng)斯表示，兩種算法都不太可能在短期內(nèi)帶來(lái)新藥。他說(shuō)：“這兩種方法的準(zhǔn)確性仍然有限，但它們都在原有基礎(chǔ)上有了巨大進(jìn)步。”

DeepMind的新產(chǎn)品還有一個(gè)重大變化。AlphaFold2的底層代碼是開(kāi)源的，因此其他研究人員可以研究該算法并將其改造后用于自己的項(xiàng)目。然而，谷歌目前仍選擇將AlphaFold3的源代碼作為商業(yè)機(jī)密保護(hù)起來(lái)，而不是公開(kāi)分享。庫(kù)雷希說(shuō)：“至少目前，沒(méi)人能像使用AlphaFold2那樣運(yùn)行和使用AlphaFold3。”

早在AlphaFold3發(fā)布之前，研究人員就已經(jīng)在測(cè)試AlphaFold2，看它能否提供有關(guān)蛋白質(zhì)在不同構(gòu)象下的有用信息。美國(guó)布朗大學(xué)（Brown University）的化學(xué)與物理學(xué)副教授布倫達(dá)魯本斯坦（Brenda Rubenstein）對(duì)激酶很感興趣，這是一類能激活其他蛋白質(zhì)的蛋白質(zhì)。具體來(lái)說(shuō)，她想了解一種會(huì)導(dǎo)致癌癥的激酶的作用機(jī)制，以便她針對(duì)這種激酶開(kāi)發(fā)更精確的藥物。魯本斯坦的實(shí)驗(yàn)室使用了一種基于物理的方法，通過(guò)牛頓定律映射原子的三維坐標(biāo)來(lái)對(duì)激酶的結(jié)構(gòu)建模。這項(xiàng)研究已經(jīng)耗費(fèi)了兩年半的時(shí)間。

“大約一年前，我們說(shuō)：能不能更快地完成這個(gè)過(guò)程呢？”魯本斯坦說(shuō)道。于是，他們嘗試以一種新的方式使用AlphaFold2。通過(guò)給算法輸入相關(guān)蛋白質(zhì)的數(shù)據(jù)，她發(fā)現(xiàn)AlphaFold2能以超過(guò)80%的準(zhǔn)確性，預(yù)測(cè)該激酶在不同構(gòu)象下的結(jié)構(gòu)。庫(kù)雷希說(shuō)，“如果用正確的方式使用AlphaFold2，你就能讓它輸出多個(gè)不同構(gòu)象”，魯本斯坦的實(shí)驗(yàn)室是發(fā)現(xiàn)這一點(diǎn)的幾個(gè)實(shí)驗(yàn)室之一，“這件事非常振奮人心”。

庫(kù)雷希希望，深度學(xué)習(xí)能在2040年前實(shí)現(xiàn)模擬整個(gè)細(xì)胞及其內(nèi)部的所有結(jié)構(gòu)和動(dòng)力學(xué)。然而，要實(shí)現(xiàn)這一目標(biāo)，需要在實(shí)驗(yàn)和計(jì)算兩個(gè)方面都取得飛躍性進(jìn)展。

捷足先登

對(duì)許多生物學(xué)家而言，AlphaFold2是他們一直在等待的突破。CASP的目標(biāo)一直都是：創(chuàng)建能根據(jù)序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的計(jì)算工具。盡管如此，許多人忍不住要問(wèn)：在如此多專家已經(jīng)奮斗了幾十年的情況下，為何一個(gè)相對(duì)較新的團(tuán)隊(duì)卻能破解蛋白質(zhì)的代碼呢？不可否認(rèn)，谷歌DeepMind的計(jì)算機(jī)和蛋白質(zhì)科學(xué)家團(tuán)隊(duì)為這個(gè)問(wèn)題帶來(lái)了全新的見(jiàn)解。與此同時(shí)，蛋白質(zhì)科學(xué)的土壤已變得肥沃，已經(jīng)準(zhǔn)備好迎接深度學(xué)習(xí)的革命，庫(kù)雷希說(shuō)道，“這些事情不是憑空出現(xiàn)的”。

在2020年CASP賽前，許多研究人員都已經(jīng)預(yù)料到，蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的突破會(huì)通過(guò)人工智能實(shí)現(xiàn)。湯曾德說(shuō)：“一切都在朝那個(gè)方向發(fā)展。”但他們沒(méi)想到這種突破會(huì)來(lái)自一家市值數(shù)十億美元的科技公司，也沒(méi)想到它會(huì)來(lái)得這么快。一些人認(rèn)為，AlphaFold2并不是什么新的科學(xué)成就，不過(guò)是巧妙的工程設(shè)計(jì)。一些人對(duì)貝克的算法沒(méi)能奪冠感到驚訝，而另一些人則并不意外，因?yàn)楣雀鐳eepMind擁有無(wú)與倫比的資源。桑頓說(shuō)，每年大約有100個(gè)實(shí)驗(yàn)室參加CASP，盡管他們已經(jīng)開(kāi)始采用AI技術(shù)，但他們“可能沒(méi)有DeepMind那樣的AI專業(yè)知識(shí)，也沒(méi)有那樣的算力，而DeepMind基本上可以使用無(wú)限的算力”。

桑頓還推測(cè)，谷歌在蛋白質(zhì)科學(xué)方面缺乏專業(yè)知識(shí)，這反而可能釋放了他們的創(chuàng)造力。她表示，“他們心無(wú)旁騖”，專注于構(gòu)建一個(gè)出色的人工神經(jīng)網(wǎng)絡(luò)。而蛋白質(zhì)生物學(xué)家則背負(fù)了很多包袱：在開(kāi)發(fā)AI工具時(shí)，他們總希望能捕捉到蛋白質(zhì)折疊過(guò)程中原子層面的分子物理和化學(xué)過(guò)程。DeepMind則采用了不同的方法：把氨基酸序列數(shù)據(jù)轉(zhuǎn)化為三維結(jié)構(gòu)，至于如何實(shí)現(xiàn)，這并不重要。沃爾登表示：“他們并沒(méi)有試圖解決蛋白質(zhì)折疊問(wèn)題，我想這是此前許多預(yù)測(cè)方法嘗試在做的事。相反，他們實(shí)際上只是簡(jiǎn)單粗暴地將原子的最終位置映射到空間中。有趣的是，他們可能正是因此才解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。”

對(duì)一些生物學(xué)家而言，這種方法沒(méi)能解決蛋白質(zhì)折疊問(wèn)題。從結(jié)構(gòu)生物學(xué)的早期階段開(kāi)始，研究人員就希望能了解氨基酸鏈折疊成蛋白質(zhì)這一過(guò)程背后的規(guī)則。隨著AlphaFold2的出現(xiàn)，大多數(shù)生物學(xué)家認(rèn)為，結(jié)構(gòu)預(yù)測(cè)問(wèn)題已經(jīng)解決。然而，蛋白質(zhì)折疊問(wèn)題并未解決。埃倫鐘（Ellen Zhong）說(shuō)：“現(xiàn)在，你只是有了這個(gè)黑箱，它能以某種方式告訴你折疊后的狀態(tài)，卻無(wú)法告訴你究竟如何到達(dá)那個(gè)狀態(tài)。”布朗大學(xué)的計(jì)算機(jī)科學(xué)家邁克爾利特曼（Michael Littman）則表示，“這不是科學(xué)家解決問(wèn)題的方式。”

美國(guó)約翰霍普金斯大學(xué)（Johns Hopkins University）的生物物理學(xué)榮譽(yù)退休教授喬治羅斯（George Rose）說(shuō)，這聽(tīng)起來(lái)可能像是“語(yǔ)義上的爭(zhēng)論，但當(dāng)然不是這樣”。AlphaFold2可以基于它對(duì)數(shù)十萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)的分析，識(shí)別出給定氨基酸序列可能的折疊模式。但它無(wú)法告訴科學(xué)家關(guān)于蛋白質(zhì)折疊過(guò)程的任何信息。羅斯說(shuō)：“對(duì)許多人而言，你并不需要知道這些，他們也不在乎。但科學(xué)，至少在過(guò)去500年左右的時(shí)間里，它一直致力于理解事情的發(fā)生過(guò)程。”羅斯認(rèn)為，要理解以蛋白質(zhì)為基礎(chǔ)的生命動(dòng)態(tài)、機(jī)制、功能和本質(zhì)，你需要一個(gè)完整的故事，而這正是深度學(xué)習(xí)算法無(wú)法告訴我們的。

對(duì)約翰莫爾特（John Moult）而言，機(jī)器做到了一些自己無(wú)法理解的事情，這沒(méi)什么關(guān)系。他說(shuō)：“我們都習(xí)慣了讓機(jī)器做我們做不到的事情。比如說(shuō)，我沒(méi)法跑得像我的車那么快。”而對(duì)于那些試圖研究蛋白質(zhì)，并且只需要大致了解其外觀的分子生物學(xué)家來(lái)說(shuō)，如何達(dá)到這個(gè)目標(biāo)也并不重要。

波特表示：“但在我們真正了解蛋白質(zhì)折疊的原理之前，我們永遠(yuǎn)不會(huì)有100%可靠的預(yù)測(cè)方法。我們必須了解基本的物理原理，才能做出最有依據(jù)的預(yù)測(cè)。”庫(kù)雷希則說(shuō)：“我們一直在調(diào)整目標(biāo)。我確實(shí)認(rèn)為，核心問(wèn)題已經(jīng)解決了。所以現(xiàn)在的重點(diǎn)是，接下來(lái)會(huì)發(fā)生什么。”

即使生物學(xué)家還在繼續(xù)爭(zhēng)論這些話題，但對(duì)于這個(gè)無(wú)疑已經(jīng)發(fā)生改變的領(lǐng)域，其他人已經(jīng)開(kāi)始展望未來(lái)，同時(shí)也回顧了其近來(lái)的發(fā)展歷程。有時(shí)，佩拉基斯會(huì)對(duì)過(guò)去的工作方式產(chǎn)生一陣懷舊之情。2022年，他的團(tuán)隊(duì)用X射線晶體學(xué)解析了一種參與微管（為細(xì)胞提供結(jié)構(gòu)支撐的巨型棒狀結(jié)構(gòu)）修飾的酶的結(jié)構(gòu)。佩拉基斯說(shuō)：“我意識(shí)到，我再也不會(huì)那樣做了。過(guò)去，在工作了幾個(gè)月之后，第一次看到結(jié)構(gòu)被解析出來(lái)的時(shí)候，會(huì)讓人有一種非常特別的滿足感。”

AlphaFold2并沒(méi)有讓那些實(shí)驗(yàn)變得過(guò)時(shí)，相反，它凸顯了這些實(shí)驗(yàn)的必要性。它將歷史上截然不同的兩個(gè)學(xué)科聯(lián)系在了一起，開(kāi)啟了一場(chǎng)新的、激動(dòng)人心的對(duì)話。

新世界

波特感嘆道，70年前，人們認(rèn)為蛋白質(zhì)是一種膠狀物質(zhì)。“再看看現(xiàn)在我們能看到什么”，無(wú)論是自然界中存在的還是人為設(shè)計(jì)的蛋白質(zhì)，這樣一個(gè)龐大的蛋白質(zhì)世界，在我們眼中變成了一個(gè)又一個(gè)結(jié)構(gòu)。佩拉基斯表示，“相比于AlphaFold誕生之前，如今的蛋白質(zhì)生物學(xué)領(lǐng)域變得更加令人興奮了。”這種興奮來(lái)自許多方面，包括基于結(jié)構(gòu)的藥物發(fā)現(xiàn)可能會(huì)重新振興，科學(xué)家提出假設(shè)的速度會(huì)變快，以及它給理解細(xì)胞內(nèi)復(fù)雜的相互作用帶來(lái)了希望。庫(kù)雷希說(shuō)：“這種感覺(jué)就像是當(dāng)年基因組學(xué)的那場(chǎng)革命。”對(duì)于生物學(xué)家，無(wú)論是實(shí)驗(yàn)科學(xué)家還是在電腦前運(yùn)行程序的計(jì)算科學(xué)家，這里的數(shù)據(jù)都太多太多了，他們才剛開(kāi)始弄清楚如何處理這些數(shù)據(jù)。

但正如世界各地由人工智能帶來(lái)的其他突破一樣，這一突破也可能存在上限。AlphaFold2的成功建立在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上，即那些由耐心的實(shí)驗(yàn)人員精心解析的數(shù)十萬(wàn)個(gè)蛋白質(zhì)結(jié)構(gòu)。盡管AlphaFold3和相關(guān)算法在預(yù)測(cè)分子復(fù)合體結(jié)構(gòu)方面已經(jīng)取得了一些成功，但其準(zhǔn)確性仍落后于它的前輩在單一蛋白質(zhì)結(jié)構(gòu)上的表現(xiàn)，部分原因是可用的訓(xùn)練數(shù)據(jù)顯著減少了。

桑頓說(shuō)，蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題“幾乎是AI解決方案的一個(gè)完美案例”，因?yàn)樗惴ǹ梢栽跀?shù)十萬(wàn)個(gè)以統(tǒng)一方式收集的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)上進(jìn)行訓(xùn)練。然而，蛋白質(zhì)數(shù)據(jù)庫(kù)（PDB）可能只是生物學(xué)中有組織的數(shù)據(jù)共享的特例。如果沒(méi)有高質(zhì)量的數(shù)據(jù)用于訓(xùn)練算法，它們也無(wú)法做出準(zhǔn)確的預(yù)測(cè)。江珀表示：“我們很幸運(yùn)，在我們遇到這個(gè)問(wèn)題時(shí)，它正好已經(jīng)到了可以解決的時(shí)機(jī)。”

沒(méi)人知道深度學(xué)習(xí)在解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題上的成功能否延續(xù)到其他科學(xué)領(lǐng)域，哪怕只是生物學(xué)的其他領(lǐng)域。但像庫(kù)雷希這樣的一些人對(duì)此持樂(lè)觀態(tài)度，他說(shuō)：“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)真的只是冰山一角。”例如，化學(xué)家也需要進(jìn)行成本高昂的計(jì)算。庫(kù)雷希說(shuō)，借助深度學(xué)習(xí)，這些計(jì)算的速度已經(jīng)比以前快了一百萬(wàn)倍。

人工智能顯然能推動(dòng)解決特定類型的科學(xué)問(wèn)題，但在推進(jìn)知識(shí)進(jìn)展方面，它對(duì)科學(xué)家的幫助可能是有限的。庫(kù)雷希表示，“歷史上，科學(xué)一直是關(guān)乎理解自然的”，也就是理解生命和宇宙背后的過(guò)程。深度學(xué)習(xí)工具揭示的是解決方案而并非過(guò)程。如果科學(xué)通過(guò)這些工具向前發(fā)展，那它還是真正的科學(xué)嗎？庫(kù)雷希繼續(xù)說(shuō)，“如果你能治愈癌癥，你還會(huì)在乎所使用的療法是如何起效的嗎？未來(lái)幾年，這將是我們會(huì)不斷爭(zhēng)論的問(wèn)題。”如果許多研究人員決定放棄理解自然的過(guò)程，那么人工智能不僅會(huì)改變科學(xué)，它也會(huì)改變科學(xué)家。

與此同時(shí)，CASP的組織者們正面臨一個(gè)不同的問(wèn)題：如何延續(xù)他們的競(jìng)賽和會(huì)議。AlphaFold2是CASP的產(chǎn)物，它解決了人們組織這個(gè)會(huì)議原本要解決的主要問(wèn)題。莫爾特說(shuō)：“如今的CASP到底是為了什么？對(duì)我們而言，這是一個(gè)巨大的沖擊。”2022年，CASP會(huì)議在土耳其安塔利亞市舉行。盡管谷歌DeepMind并未參賽，但該團(tuán)隊(duì)的存在感依然很強(qiáng)。瓊斯說(shuō)：“無(wú)非就是人們使用了或多或少的AlphaFold。”他表示，從這個(gè)意義上說(shuō)，谷歌還是贏了。

如今，一些研究人員對(duì)參加CASP的興趣也減弱了。許錦波說(shuō)：“一看到那個(gè)結(jié)果，我就轉(zhuǎn)變了研究方向。”也有一些人仍在繼續(xù)改進(jìn)自己的算法。比如瓊斯仍然涉足結(jié)構(gòu)預(yù)測(cè)領(lǐng)域，但這對(duì)現(xiàn)在的他來(lái)說(shuō)更多只是一種愛(ài)好。諸如庫(kù)雷希和貝克等其他人，則在繼續(xù)開(kāi)發(fā)新的結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)算法。在與一家市值數(shù)十億美元的公司競(jìng)爭(zhēng)的前景面前，他們毫不畏懼。

莫爾特和會(huì)議的組織者們也在努力改進(jìn)。下一輪CASP已于2024年5月開(kāi)放報(bào)名。他希望深度學(xué)習(xí)能征服結(jié)構(gòu)生物學(xué)的更多方面，比如RNA或生物分子復(fù)合體。莫爾特說(shuō)：“這種方法已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)問(wèn)題上奏效了，而結(jié)構(gòu)生物學(xué)領(lǐng)域還有許多其他相關(guān)問(wèn)題。”

下一次CASP會(huì)議將于2024年12月在加勒比海碧藍(lán)的海水旁舉行。屆時(shí)，微風(fēng)和煦，或許討論的氛圍也會(huì)十分和睦。曾經(jīng)激烈的跺腳聲早已平息，至少表面上是這樣。今年的競(jìng)賽會(huì)是什么樣子，誰(shuí)也無(wú)法預(yù)測(cè)。但如果從過(guò)去幾屆CASP中尋找線索的話，莫爾特知道，他只能期待一件事，“那就是驚喜”。

本文選自《環(huán)球科學(xué)》10月刊專題報(bào)道“AI重塑結(jié)構(gòu)生物學(xué)”。

上一篇：黃仁勛：AI未來(lái)在于“推理”，芯片成本大降是關(guān)鍵！

下一篇：獲得諾貝爾獎(jiǎng)的AI教父辛頓，后悔了

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-10 09:55:17 瀏覽：3438次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué) 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-10 09:55:17 瀏覽：3438次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

為何諾貝爾化學(xué)獎(jiǎng)又頒給AI？萬(wàn)字詳解：AI重塑結(jié)構(gòu)生物學(xué)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-10 09:55:17 瀏覽：3438次