奇月 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
LLM可以比科學(xué)家更準(zhǔn)確地預(yù)測(cè)神經(jīng)學(xué)的研究結(jié)果!
最近,來(lái)自倫敦大學(xué)學(xué)院、劍橋大學(xué)、牛津大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布了一個(gè)神經(jīng)學(xué)專用基準(zhǔn)BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。
結(jié)果顯示,經(jīng)過(guò)該基準(zhǔn)訓(xùn)練的LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果的準(zhǔn)確度方面高達(dá)81.4%,遠(yuǎn)超人類專家的63%。
在神經(jīng)學(xué)常見(jiàn)的5個(gè)子領(lǐng)域:行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中,LLM的表現(xiàn)也都全方位超過(guò)了人類專家。
更重要的是,這些模型被證實(shí)對(duì)于數(shù)據(jù)沒(méi)有明顯的記憶。
也就是說(shuō),它們已經(jīng)掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)預(yù)測(cè)、預(yù)測(cè)未知的事物。
這立馬引發(fā)科研圈的圍觀。
多位教授和博士后也表示,以后就可以讓LLM幫忙判斷更多研究的可行性了,nice!
LLM預(yù)測(cè)能力全面超越人類專家讓我們先來(lái)看看論文的幾個(gè)重要結(jié)論:
總體結(jié)果:LLMs在BrainBench上的平均準(zhǔn)確率為81.4%,而人類專家的平均準(zhǔn)確率為63.4%。LLMs的表現(xiàn)顯著優(yōu)于人類專家
子領(lǐng)域表現(xiàn):在神經(jīng)科學(xué)的幾個(gè)重要的子領(lǐng)域:行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中,LLMs在每個(gè)子領(lǐng)域的表現(xiàn)均優(yōu)于人類專家,特別是在行為認(rèn)知和系統(tǒng)/回路領(lǐng)域。
模型對(duì)比:較小的模型如Llama2-7B和Mistral-7B與較大的模型表現(xiàn)相當(dāng),而聊天或指令優(yōu)化模型的表現(xiàn)不如其基礎(chǔ)模型。
人類專家的表現(xiàn):大多數(shù)人類專家是博士學(xué)生、博士后研究員或教職員工。當(dāng)限制人類響應(yīng)為自我報(bào)告專業(yè)知識(shí)的最高20%時(shí),準(zhǔn)確率上升到66.2%,但仍低于LLMS。
置信度校準(zhǔn):LLMs和人類專家的置信度都校準(zhǔn)良好,高置信度的預(yù)測(cè)更有可能是正確的。
記憶評(píng)估:沒(méi)有跡象表明LLMs記憶了BrainBench項(xiàng)目。使用zlib壓縮率和困惑度比率的分析表明,LLMs學(xué)習(xí)的是廣泛的科學(xué)模式,而不是記憶訓(xùn)練數(shù)據(jù)。
全新神經(jīng)學(xué)基準(zhǔn)本論文的一個(gè)重要貢獻(xiàn),就是提出了一個(gè)前瞻性的基準(zhǔn)測(cè)試BrainBench,可以專門用于評(píng)估LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果方面的能力。
那么,具體是怎么做到的呢?
數(shù)據(jù)收集首先,團(tuán)隊(duì)利用PubMed獲取了2002年至2022年間332807篇神經(jīng)科學(xué)研究相關(guān)的摘要,從PubMed Central Open Access Subset(PMC OAS)中提取了123085篇全文文章,總計(jì)13億個(gè)tokens。
評(píng)估LLM和人類專家其次,在上面收集的數(shù)據(jù)的基礎(chǔ)上,團(tuán)隊(duì)為BrainBench創(chuàng)建了測(cè)試用例,主要通過(guò)修改論文摘要來(lái)實(shí)現(xiàn)。
具體來(lái)說(shuō),每個(gè)測(cè)試用例包括兩個(gè)版本的摘要:一個(gè)是原始版本,另一個(gè)是經(jīng)過(guò)修改的版本。修改后的摘要會(huì)顯著改變研究結(jié)果,但保持整體連貫性。
測(cè)試者的任務(wù)是選擇哪個(gè)版本包含實(shí)際的研究結(jié)果。
團(tuán)隊(duì)使用Eleuther Al Language Model EvaluationHaress框架,讓LLM在兩個(gè)版本的摘要之間進(jìn)行選擇,通過(guò)困惑度(perplexity)來(lái)衡量其偏好。困惑度越低,表示模型越喜歡該摘要。
對(duì)人類專家行為的評(píng)估也是在相同測(cè)試用例上進(jìn)行選擇,他們還需要提供自信度和專業(yè)知識(shí)評(píng)分。最終參與實(shí)驗(yàn)的神經(jīng)科學(xué)專家有171名。
實(shí)驗(yàn)使用的LLM是經(jīng)過(guò)預(yù)訓(xùn)練的Mistral-7B-v0.1模型。通過(guò)LoRA技術(shù)進(jìn)行微調(diào)后,準(zhǔn)確度還能再增加3%。
評(píng)估LLM是否純記憶為了衡量LLM是否掌握了思維邏輯,團(tuán)隊(duì)還使用zlib壓縮率和困惑度比率來(lái)評(píng)估LLMs是否記憶了訓(xùn)練數(shù)據(jù)。公式如下:
其中,ZLIB(X)表示文本X的zlib壓縮率,PPL(X)表示文本X的困惑度。
部分研究者認(rèn)為只能當(dāng)作輔助這篇論文向我們展示了神經(jīng)科學(xué)研究的一個(gè)新方向,或許未來(lái)在前期探索的時(shí)候,神經(jīng)學(xué)專家都可以借助LLM的力量進(jìn)行初步的科研想法篩選,剔除一些在方法、背景信息等方面存在明顯問(wèn)題的計(jì)劃等。
但同時(shí)也有很多研究者對(duì)LLM的這個(gè)用法表示了質(zhì)疑。
有人認(rèn)為實(shí)驗(yàn)才是科研最重要的部分,任何預(yù)測(cè)都沒(méi)什么必要:
還有研究者認(rèn)為科研的重點(diǎn)可能在于精確的解釋。
此外,也有網(wǎng)友指出實(shí)驗(yàn)中的測(cè)試方法只考慮到了簡(jiǎn)單的AB假設(shè)檢驗(yàn),真實(shí)研究中還有很多涉及到平均值/方差的情況。
整體來(lái)看,這個(gè)研究對(duì)于神經(jīng)學(xué)科研工作的發(fā)展還是非常有啟發(fā)意義的,未來(lái)也有可能擴(kuò)展到更多的學(xué)術(shù)研究領(lǐng)域。
研究人員們?cè)趺纯茨兀?br/>
參考鏈接:[1]https://www.nature.com/articles/s41562-024-02046-9#author-information[2]https://github.com/braingpt-lovelab/BrainBench