文 | 追問nextquestion
在過去十年中,神經(jīng)影像學(xué)已迅速發(fā)展為一個(gè)數(shù)據(jù)密集型的“大數(shù)據(jù)”學(xué)科。隨著數(shù)據(jù)共享的普及,研究者們現(xiàn)在能夠訪問規(guī)?涨暗纳窠(jīng)影像數(shù)據(jù)。僅在2020年5月至2021年4月間,OpenNeuro平臺(tái)上就增加了406TB的數(shù)據(jù)[1]。
2018年~2021年OpenNeuro平臺(tái)上的可用數(shù)據(jù)集(綠)與被試(紅)數(shù)量穩(wěn)步增長。圖源:The OpenNeuro resource for sharing of neuroscience data. eLife, 10, e71774. https://doi.org/10.7554/eLife.71774
數(shù)據(jù)體量的增長,既帶來了重要機(jī)遇,也伴隨生出諸多新問題。在當(dāng)前環(huán)境下,研究者們愈發(fā)意識(shí)到加強(qiáng)數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)訓(xùn)練的必要性。盡管已經(jīng)出現(xiàn)了如Brainhack等開放科學(xué)社區(qū)以及NeuroMatch Academy等教學(xué)項(xiàng)目,但要應(yīng)對(duì)這些挑戰(zhàn),卻還遠(yuǎn)遠(yuǎn)不夠。
針對(duì)這一現(xiàn)狀,近年來出現(xiàn)的生成式AI(generative AI),或許有望徹底改變神經(jīng)影像學(xué)研究范式。
Elizabeth DuPre,Russell Alan Poldrack; The future of data analysis is now: Integrating generative AI in neuroimaging methods development.Imaging Neuroscience2024; 2 18. doi:https://doi.org/10.1162/imag_a_00241
01 生成式AI與神經(jīng)影像學(xué)
生成式AI結(jié)合生成模型與深度神經(jīng)網(wǎng)絡(luò),能夠根據(jù)文本或圖像提示生成新的文本、圖像和音頻。生成式AI的實(shí)際應(yīng)用中,尤其是AI輔助編程被認(rèn)為可以提高開發(fā)者的生產(chǎn)力,減少低級(jí)細(xì)節(jié)問題,節(jié)省大量時(shí)間,帶來更愉悅的編程體驗(yàn)。
生成式AI將如何改變腦影像研究?我們可以以史為鑒,從數(shù)據(jù)科學(xué)的發(fā)展中一窺究竟。
1962年,約翰圖基(John Tukey)在《數(shù)據(jù)分析的未來》一書中呼吁創(chuàng)建一種系統(tǒng)化科學(xué)數(shù)據(jù)分析方法數(shù)據(jù)科學(xué)[2],他特別強(qiáng)調(diào)對(duì)自動(dòng)化、標(biāo)準(zhǔn)化統(tǒng)計(jì)程序的開發(fā),以代替對(duì)個(gè)別研究者的專業(yè)知識(shí)的依賴。他警告人們:
隨著數(shù)據(jù)量的增加,大部分的數(shù)據(jù)分析工作,將由缺乏經(jīng)驗(yàn)而時(shí)間有限的人力來完成;而如果未能為這些人提供相應(yīng)的工具,則會(huì)有更多數(shù)據(jù)未經(jīng)分析。
約翰圖基(John Tukey),圖源:APS
而這也正是神經(jīng)影像學(xué)面臨的困境由于缺乏專業(yè)的數(shù)據(jù)科學(xué)訓(xùn)練,分析方法在實(shí)驗(yàn)室之間,甚至實(shí)驗(yàn)室之內(nèi),都存在差異。
對(duì)此,研究者們開發(fā)了BIDS(Brain Imaging Data Structure)等數(shù)據(jù)標(biāo)準(zhǔn)以及Nipreps等生態(tài)系統(tǒng),在一定程度上填補(bǔ)了這些空白。Nipreps基于AFNI、FSL等軟件,在常見的功能性磁共振成像(fMRI)的預(yù)處理方法上實(shí)現(xiàn)了自動(dòng)化。
Nipreps生態(tài)系統(tǒng)突顯了神經(jīng)影像學(xué)方法開發(fā)的兩大核心問題:
在尚未實(shí)現(xiàn)標(biāo)準(zhǔn)化的領(lǐng)域(如影像質(zhì)量控制),需要繼續(xù)推動(dòng)分析方法的標(biāo)準(zhǔn)化;
在預(yù)處理后的數(shù)據(jù)分析階段,分析方法的選擇往往取決于特定的研究問題和任務(wù)設(shè)計(jì),該過程需要實(shí)現(xiàn)自動(dòng)化。
生成式AI,具有解決這兩大難題的巨大潛力。“神經(jīng)AI”(NeuroAI)等方法有望對(duì)神經(jīng)科學(xué)的方法論和理論基礎(chǔ)產(chǎn)生巨大影響。僅就方法論而言,AI可能為神經(jīng)科學(xué)帶來重大變革;然而,AI也可能引發(fā)新的問題如果研究者對(duì)其認(rèn)識(shí)不足,它可能反而會(huì)阻礙領(lǐng)域的發(fā)展。
02 生成式AI與影像質(zhì)控
圖基強(qiáng)烈主張將現(xiàn)有的統(tǒng)計(jì)方法自動(dòng)化。然而,這在神經(jīng)影像學(xué)中卻很難推進(jìn)。一些實(shí)驗(yàn)方法尚未統(tǒng)一明確量化指標(biāo),不同研究者有各自側(cè)重的指標(biāo),因而難以實(shí)現(xiàn)自動(dòng)化。
以生成實(shí)驗(yàn)刺激圖片為例,雖然像MidJourney和StableDiffusion等生成式AI能夠輕松生成多種圖像,但問題在于研究人員須在有限的實(shí)驗(yàn)時(shí)間內(nèi)選擇優(yōu)先考慮哪些圖像。這體現(xiàn)了神經(jīng)影像學(xué)方法自動(dòng)化的復(fù)雜性:即便有了先進(jìn)的AI工具,研究人員的判斷仍然至關(guān)重要。
另一個(gè)更明顯的例子,在影像質(zhì)控時(shí),人工檢驗(yàn)仍然是金標(biāo)準(zhǔn)。在不同的科學(xué)問題中,使用的質(zhì)控方法不同。即便是人工檢驗(yàn),不同專家的質(zhì)控打分也可能有所不同。而即便存在不確定性,鑒于有待檢驗(yàn)的數(shù)據(jù)量巨大,學(xué)界必須著手研發(fā)無需依賴參考圖像的質(zhì)控指標(biāo),以指導(dǎo)人工檢查及后續(xù)的機(jī)器學(xué)習(xí)。
雖然存在這些挑戰(zhàn),但我們?nèi)杂欣碛杀3謽酚^。在神經(jīng)影像預(yù)處理方面,NoBrainer和FastSurfer等方法,已經(jīng)實(shí)現(xiàn)在保持高質(zhì)量輸出的前提下,利用AI大幅減少了圖像分割等圖像任務(wù)的計(jì)算時(shí)間。AI在神經(jīng)影像數(shù)據(jù)處理中表現(xiàn)出巨大潛力。然而,現(xiàn)有的這些工具的廣泛驗(yàn)證是基于大量公開可用的有標(biāo)注數(shù)據(jù)集進(jìn)行的;而到目前為止,研究者仍難以獲取大型有標(biāo)注數(shù)據(jù)集以用于驗(yàn)證質(zhì)控結(jié)果。
通過眾包來增補(bǔ)現(xiàn)有的質(zhì)控標(biāo)注,是一種潛在的解決方案。Swipes for Science、Brainmatch等項(xiàng)目已經(jīng)成功地利用分布式公民眾包科研,生成了大量質(zhì)控標(biāo)簽。雖然這些方法潛力巨大,但AI的日益普及卻使它們的可靠性遭到質(zhì)疑。越來越多的眾包正在使用ChatGPT等工具來完成任務(wù),尤其是允許自由輸入文本的任務(wù)。如果用這些AI生成的內(nèi)容來訓(xùn)練模型,可能會(huì)造成“模型崩潰”。
近來,質(zhì)控流程演示(Demonstrating Quality Control Procedures)等諸多項(xiàng)目,已逐漸轉(zhuǎn)為關(guān)注標(biāo)簽生成任務(wù)本身。由此生成的質(zhì)控流程,可能反過來對(duì)未來的AI應(yīng)用至關(guān)重要。例如,生成式AI可通過增加特定標(biāo)簽的可用數(shù)據(jù)(例如“環(huán)狀偽影”),來評(píng)估評(píng)分者之間的一致性。然而,其中一些質(zhì)控程序和標(biāo)簽可能只適合特定人群,例如,用于卒中患者劃分病灶區(qū)域的方法,并不適用于健康人群。在這種情況下,有限的數(shù)據(jù)量和隱私問題可能有礙于大規(guī)模的數(shù)據(jù)標(biāo)注的實(shí)現(xiàn)。
聯(lián)邦學(xué)習(xí)(Federated Learning)等其他算法,則提供了另外一種思路通過模型共享而非數(shù)據(jù)共享的方式來訓(xùn)練聯(lián)合模型。類似地,神經(jīng)影像基礎(chǔ)模型(Neuroimaging Foundation Models)或可實(shí)現(xiàn)將經(jīng)過預(yù)訓(xùn)練的數(shù)據(jù)密集型模型遷移到小而專的數(shù)據(jù)集上。但是,重點(diǎn)是,這些范式都需要對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格的標(biāo)準(zhǔn)化處理,以確保模型能遷移到不同的應(yīng)用環(huán)境中。
03 AI輔助編程在神經(jīng)影像分析中的具體應(yīng)用
在神經(jīng)影像分析環(huán)節(jié),統(tǒng)計(jì)方法的自動(dòng)化也難以推進(jìn)。
部分原因在于,分析方法的多樣性。二十多年來,一階和二階廣義線性模型,一直是fMRI分析的基石;然而直到近幾年,才出現(xiàn)專門將這些常見分析整合在標(biāo)準(zhǔn)格式中的工具(例如 FitLins)。沒有標(biāo)準(zhǔn)化且可機(jī)讀的輸入和輸出結(jié)構(gòu),便難以通過AI或其他工具實(shí)現(xiàn)自動(dòng)化。
標(biāo)準(zhǔn)化的廣義線性模型算法仍在開發(fā)中,其他較新的方法也大多沒有實(shí)現(xiàn)標(biāo)準(zhǔn)化。在這種情況下,研究人員需要確保他們的代碼正確執(zhí)行所需的分析。對(duì)于代碼基礎(chǔ)薄弱的研究者而言,這可能會(huì)阻礙他們探究某些科學(xué)問題,或使其得出錯(cuò)誤的結(jié)論。
在這些場(chǎng)景中,AI輔助編程是一個(gè)頗具吸引力的解決辦法,可以像“催化劑”一樣加速研究進(jìn)程。
當(dāng)然,AI輔助編程也不是完美的,它只是將負(fù)擔(dān)從“代碼編寫”轉(zhuǎn)移到了“代碼審閱與測(cè)試”。用AI生成的代碼進(jìn)行測(cè)試,如果產(chǎn)生陰性結(jié)果,是測(cè)試的問題還是代碼的問題?代碼的輸入和輸出是否合理?這些問題仍然需要熟悉編程的研究人員來解決。
另外,雖然AI輔助編程可用于某些分析場(chǎng)景,如編寫大項(xiàng)目中的單個(gè)簡(jiǎn)單函數(shù);但如若將其擴(kuò)展到神經(jīng)影像分析的全流程,出錯(cuò)的可能性也將大大增多。研究人者缺乏單一的度量標(biāo)準(zhǔn)來對(duì)結(jié)果進(jìn)行基準(zhǔn)測(cè)試,因此很難區(qū)分AI生成的代碼是在產(chǎn)生有意義的差異,還是引入難以發(fā)現(xiàn)的錯(cuò)誤。
對(duì)此,如果能獲取已有結(jié)果背后的數(shù)據(jù)和代碼,則可進(jìn)一步驗(yàn)證生成的代碼:
“在AI的幫助下,可否將已有的代碼遷移到新數(shù)據(jù)上?”
“如果在原始數(shù)據(jù)上運(yùn)行生成的代碼,產(chǎn)生的結(jié)果是否和原始結(jié)果相似?”
這可為已有結(jié)果的魯棒性和可重復(fù)性提供參考,同時(shí)也能確認(rèn)新的代碼能夠復(fù)現(xiàn)相應(yīng)的分析。但是,這也有賴于已有實(shí)驗(yàn)的數(shù)據(jù)和代碼是否開源。
04AI輔助工具與開放科學(xué)之間的關(guān)系
過去十年間,開放科學(xué)已成為神經(jīng)影像學(xué)方法研發(fā)的關(guān)鍵驅(qū)動(dòng)力,大量的研究致力于將常見的分析流程標(biāo)準(zhǔn)化。開放科學(xué)實(shí)踐與AI輔助工具相輔相成。
那么,AI輔助工具將如何影響開放科學(xué)及其在神經(jīng)影像方法開發(fā)中的應(yīng)用?換言之,當(dāng)數(shù)據(jù)和代碼可以通過簡(jiǎn)單的命令生成時(shí),AI輔助工具是否會(huì)減少數(shù)據(jù)共享和代碼開源等開放科學(xué)做法?
其他領(lǐng)域的證據(jù)表明,情況恰恰相反。近期,數(shù)據(jù)科學(xué)領(lǐng)域的領(lǐng)軍人物David Donoho提出,AI的商業(yè)化成功反映了經(jīng)驗(yàn)機(jī)器學(xué)習(xí)中深厚的數(shù)據(jù)科學(xué)文化。他不僅倡導(dǎo)代碼開源和數(shù)據(jù)共享,還倡導(dǎo)通過公開的預(yù)測(cè)挑戰(zhàn)等明確的方法來比較各種分析方法。
盡管預(yù)測(cè)挑戰(zhàn)在神經(jīng)影像學(xué)中難以成功,但這種通過明確的指標(biāo)評(píng)判結(jié)果的理念,對(duì)于充分利用生成式AI研發(fā)神經(jīng)影像學(xué)方法而言至關(guān)重要。如果沒有明確的結(jié)果指標(biāo),就需要強(qiáng)大的人在閉環(huán)(human-in-the-loop systems)來審核AI應(yīng)用,這與圖基倡導(dǎo)的自動(dòng)化分析相悖。因此,要想在腦影像領(lǐng)域推廣生成式AI,首先要在標(biāo)準(zhǔn)化上下功夫。令人鼓舞的是,質(zhì)控流程演示(Demonstrating Quality Control Procedures)等項(xiàng)目,正致力于將模糊的評(píng)判標(biāo)準(zhǔn)標(biāo)準(zhǔn)化。
盡管如此,還有大量工作仍有待完成,其中包括如何使影像分析結(jié)果符合“可發(fā)現(xiàn)、可訪問、可互操作、可重復(fù)使用”的標(biāo)準(zhǔn),以便接受其他研究者的客觀評(píng)估。雖然生成式AI或能推動(dòng)這一進(jìn)程(如開發(fā)新的人工標(biāo)簽示例等),但進(jìn)一步的進(jìn)展仍有賴于人類主導(dǎo)的標(biāo)準(zhǔn)化進(jìn)程。
因此,從目前學(xué)界全力研發(fā)自動(dòng)化分析方法的趨勢(shì)來看,生成式AI短期內(nèi)不會(huì)取代現(xiàn)有的開放科學(xué)項(xiàng)目。相反,它將要求研究人員將數(shù)據(jù)和代碼公開,還要提供明確的結(jié)果,以便在實(shí)驗(yàn)之間相互比較。
神經(jīng)影像分析復(fù)現(xiàn)與預(yù)測(cè)研究(Neuroimaging Analysis Replication and Prediction Study)表明,不同的研究團(tuán)隊(duì)在同樣的數(shù)據(jù)上開展相同的分析,其結(jié)果可能會(huì)相去甚遠(yuǎn)(但該研究卻并未提供一個(gè)清晰的框架用以比較各個(gè)團(tuán)隊(duì)的結(jié)果)[2]
多元宇宙樣分析(Multiverse Analysis)或更通用的“振動(dòng)”分析(“Vibration” Analysis),或能校正給定實(shí)驗(yàn)可能的結(jié)果范圍。理想情況下,這些校正分析可以指導(dǎo)生成公開的評(píng)判指標(biāo)。然而,目前仍然需要繼續(xù)推進(jìn)代碼和數(shù)據(jù)公開,以便開展這些校準(zhǔn)分析。這將有助于推廣新興的AI輔助方法。
05 結(jié)語
作為數(shù)據(jù)密集型領(lǐng)域,神經(jīng)影像學(xué)有賴于數(shù)據(jù)科學(xué)以取得方法上的創(chuàng)新。然而,目前大多數(shù)研究人員缺乏必要的數(shù)據(jù)科學(xué)訓(xùn)練。生成式AI工具或有助于填補(bǔ)這一缺口,但在此過程中,它需要與現(xiàn)有的神經(jīng)影像學(xué)方法研發(fā)體系相互配合,包括數(shù)據(jù)與代碼共享等開放科學(xué)理念。本文認(rèn)為,AI工具的出現(xiàn)不會(huì)取代開放科學(xué),反而會(huì)凸顯其重要性。
但這也并不意味著開放科學(xué)與基于生成式AI方法之間完美協(xié)調(diào)。例如,歐盟通用數(shù)據(jù)保護(hù)條例(The European Union’s General Data Protection Regulations)認(rèn)定去除面部的腦影像為隱私數(shù)據(jù);而在包括美國在內(nèi)的多數(shù)國家,未經(jīng)匿名化處理的腦影像也被視為隱私數(shù)據(jù)。因此,將腦影像直接發(fā)送給生成式AI工具,在多數(shù)情況下并不符合倫理標(biāo)準(zhǔn)。
AI和開放科學(xué)的其他交互則更難厘清利弊。例如,AI輔助編程將大幅度降低編程門檻,使研究人員更容易參與到研究軟件工程師社群(Research Software Engineers)等開放科學(xué)項(xiàng)目之中,共同開發(fā)新的方法。但由于這些項(xiàng)目受到的資助有限,以及開發(fā)者用以審閱代碼和維護(hù)項(xiàng)目的時(shí)間有限,AI輕易生成的代碼可能會(huì)帶來新的問題。
總的來說,為了利用好AI,我們需要回歸數(shù)據(jù)科學(xué)的核心原理。尤其是要開發(fā)明確的評(píng)價(jià)指標(biāo)以比較不同研究的結(jié)果,這將有望整體促進(jìn)AI輔助工具的應(yīng)用和神經(jīng)影像學(xué)方法的發(fā)展。
參考文獻(xiàn)
[1] Markiewicz, C. J., Gorgolewski, K. J., Feingold, F., Blair, R., Halchenko, Y. O., Miller, E., Hardcastle, N., Wexler, J., Esteban, O., Goncavles, M., Jwa, A., & Poldrack, R. (2021). The OpenNeuro resource for sharing of neuroscience data.eLife,10, e71774. https://doi.org/10.7554/eLife.71774
[2] Botvinik-Nezer, R., Holzmeister, F., Camerer, C. F., Dreber, A., Huber, J., Johannesson, M., Kirchler, M., Iwanir, R., Mumford, J. A., Adcock, R. A., Avesani, P., Baczkowski, B. M., Bajracharya, A., Bakst, L., Ball, S., Barilari, M., Bault, N., Beaton, D., Beitner, J., Benoit, R. G., … Schonberg, T. (2020). Variability in the analysis of a single neuroimaging dataset by many teams.Nature,582(7810), 8488. https://doi.org/10.1038/s41586-020-2314-9
更多精彩內(nèi)容,關(guān)注鈦媒體微信號(hào)(ID:taimeiti),或者下載鈦媒體App