展會(huì)信息港展會(huì)大全

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-01 18:23:00   瀏覽:0次  

導(dǎo)讀:奇月 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAILLM可以比科學(xué)家更準(zhǔn)確地預(yù)測(cè)神經(jīng)學(xué)的研究結(jié)果!最近,來(lái)自倫敦大學(xué)學(xué)院、劍橋大學(xué)、牛津大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布了一個(gè)神經(jīng)學(xué)專用基準(zhǔn)BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。結(jié)果顯示,經(jīng)過(guò)該基準(zhǔn)訓(xùn)練的LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果的準(zhǔn)確度方面高達(dá)81.4%,遠(yuǎn)超人類專家的63%。在神經(jīng)學(xué)常見(jiàn)的5個(gè)子領(lǐng)域:行為 ......

奇月 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI

LLM可以比科學(xué)家更準(zhǔn)確地預(yù)測(cè)神經(jīng)學(xué)的研究結(jié)果!

最近,來(lái)自倫敦大學(xué)學(xué)院、劍橋大學(xué)、牛津大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布了一個(gè)神經(jīng)學(xué)專用基準(zhǔn)BrainBench,登上了Nature子刊《自然人類行為(Nature human behavior)》。

結(jié)果顯示,經(jīng)過(guò)該基準(zhǔn)訓(xùn)練的LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果的準(zhǔn)確度方面高達(dá)81.4%,遠(yuǎn)超人類專家的63%。

在神經(jīng)學(xué)常見(jiàn)的5個(gè)子領(lǐng)域:行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中,LLM的表現(xiàn)也都全方位超過(guò)了人類專家。

更重要的是,這些模型被證實(shí)對(duì)于數(shù)據(jù)沒(méi)有明顯的記憶

也就是說(shuō),它們已經(jīng)掌握了一般科研的普遍模式,可以做更多的前瞻性(Forward-looking)預(yù)測(cè)、預(yù)測(cè)未知的事物。

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

這立馬引發(fā)科研圈的圍觀。

多位教授和博士后也表示,以后就可以讓LLM幫忙判斷更多研究的可行性了,nice!

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

LLM預(yù)測(cè)能力全面超越人類專家讓我們先來(lái)看看論文的幾個(gè)重要結(jié)論:

總體結(jié)果:LLMs在BrainBench上的平均準(zhǔn)確率為81.4%,而人類專家的平均準(zhǔn)確率為63.4%。LLMs的表現(xiàn)顯著優(yōu)于人類專家

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

子領(lǐng)域表現(xiàn):在神經(jīng)科學(xué)的幾個(gè)重要的子領(lǐng)域:行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中,LLMs在每個(gè)子領(lǐng)域的表現(xiàn)均優(yōu)于人類專家,特別是在行為認(rèn)知和系統(tǒng)/回路領(lǐng)域。

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

模型對(duì)比:較小的模型如Llama2-7B和Mistral-7B與較大的模型表現(xiàn)相當(dāng),而聊天或指令優(yōu)化模型的表現(xiàn)不如其基礎(chǔ)模型。

人類專家的表現(xiàn):大多數(shù)人類專家是博士學(xué)生、博士后研究員或教職員工。當(dāng)限制人類響應(yīng)為自我報(bào)告專業(yè)知識(shí)的最高20%時(shí),準(zhǔn)確率上升到66.2%,但仍低于LLMS。

置信度校準(zhǔn):LLMs和人類專家的置信度都校準(zhǔn)良好,高置信度的預(yù)測(cè)更有可能是正確的。

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

記憶評(píng)估:沒(méi)有跡象表明LLMs記憶了BrainBench項(xiàng)目。使用zlib壓縮率和困惑度比率的分析表明,LLMs學(xué)習(xí)的是廣泛的科學(xué)模式,而不是記憶訓(xùn)練數(shù)據(jù)。

全新神經(jīng)學(xué)基準(zhǔn)本論文的一個(gè)重要貢獻(xiàn),就是提出了一個(gè)前瞻性的基準(zhǔn)測(cè)試BrainBench,可以專門用于評(píng)估LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果方面的能力。

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

那么,具體是怎么做到的呢?

數(shù)據(jù)收集首先,團(tuán)隊(duì)利用PubMed獲取了2002年至2022年間332807篇神經(jīng)科學(xué)研究相關(guān)的摘要,從PubMed Central Open Access Subset(PMC OAS)中提取了123085篇全文文章,總計(jì)13億個(gè)tokens。

評(píng)估LLM和人類專家其次,在上面收集的數(shù)據(jù)的基礎(chǔ)上,團(tuán)隊(duì)為BrainBench創(chuàng)建了測(cè)試用例,主要通過(guò)修改論文摘要來(lái)實(shí)現(xiàn)。

具體來(lái)說(shuō),每個(gè)測(cè)試用例包括兩個(gè)版本的摘要:一個(gè)是原始版本,另一個(gè)是經(jīng)過(guò)修改的版本。修改后的摘要會(huì)顯著改變研究結(jié)果,但保持整體連貫性。

測(cè)試者的任務(wù)是選擇哪個(gè)版本包含實(shí)際的研究結(jié)果。

團(tuán)隊(duì)使用Eleuther Al Language Model EvaluationHaress框架,讓LLM在兩個(gè)版本的摘要之間進(jìn)行選擇,通過(guò)困惑度(perplexity)來(lái)衡量其偏好。困惑度越低,表示模型越喜歡該摘要。

對(duì)人類專家行為的評(píng)估也是在相同測(cè)試用例上進(jìn)行選擇,他們還需要提供自信度和專業(yè)知識(shí)評(píng)分。最終參與實(shí)驗(yàn)的神經(jīng)科學(xué)專家有171名。

實(shí)驗(yàn)使用的LLM是經(jīng)過(guò)預(yù)訓(xùn)練的Mistral-7B-v0.1模型。通過(guò)LoRA技術(shù)進(jìn)行微調(diào)后,準(zhǔn)確度還能再增加3%。

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

評(píng)估LLM是否純記憶為了衡量LLM是否掌握了思維邏輯,團(tuán)隊(duì)還使用zlib壓縮率和困惑度比率來(lái)評(píng)估LLMs是否記憶了訓(xùn)練數(shù)據(jù)。公式如下:

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

其中,ZLIB(X)表示文本X的zlib壓縮率,PPL(X)表示文本X的困惑度。

部分研究者認(rèn)為只能當(dāng)作輔助這篇論文向我們展示了神經(jīng)科學(xué)研究的一個(gè)新方向,或許未來(lái)在前期探索的時(shí)候,神經(jīng)學(xué)專家都可以借助LLM的力量進(jìn)行初步的科研想法篩選,剔除一些在方法、背景信息等方面存在明顯問(wèn)題的計(jì)劃等。

但同時(shí)也有很多研究者對(duì)LLM的這個(gè)用法表示了質(zhì)疑。

有人認(rèn)為實(shí)驗(yàn)才是科研最重要的部分,任何預(yù)測(cè)都沒(méi)什么必要:

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

還有研究者認(rèn)為科研的重點(diǎn)可能在于精確的解釋。

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

此外,也有網(wǎng)友指出實(shí)驗(yàn)中的測(cè)試方法只考慮到了簡(jiǎn)單的AB假設(shè)檢驗(yàn),真實(shí)研究中還有很多涉及到平均值/方差的情況。

科研黨狂喜!AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

整體來(lái)看,這個(gè)研究對(duì)于神經(jīng)學(xué)科研工作的發(fā)展還是非常有啟發(fā)意義的,未來(lái)也有可能擴(kuò)展到更多的學(xué)術(shù)研究領(lǐng)域。

研究人員們?cè)趺纯茨兀?br/>

參考鏈接:[1]https://www.nature.com/articles/s41562-024-02046-9#author-information[2]https://github.com/braingpt-lovelab/BrainBench

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港