欧美一区二区三区精品影视,一本久久a久久精品免费不卡,太深了啊慢点噗嗤噗嗤视频

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-01 18:23:00 瀏覽：0次

導(dǎo)讀：奇月發(fā)自凹非寺量子位 | 公眾號(hào) QbitAILLM可以比科學(xué)家更準(zhǔn)確地預(yù)測(cè)神經(jīng)學(xué)的研究結(jié)果！最近，來(lái)自倫敦大學(xué)學(xué)院、劍橋大學(xué)、牛津大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布了一個(gè)神經(jīng)學(xué)專用基準(zhǔn)BrainBench，登上了Nature子刊《自然人類行為（Nature human behavior）》。結(jié)果顯示，經(jīng)過(guò)該基準(zhǔn)訓(xùn)練的LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果的準(zhǔn)確度方面高達(dá)81.4%，遠(yuǎn)超人類專家的63%。在神經(jīng)學(xué)常見(jiàn)的5個(gè)子領(lǐng)域：行為 ......

奇月發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

LLM可以比科學(xué)家更準(zhǔn)確地預(yù)測(cè)神經(jīng)學(xué)的研究結(jié)果！

最近，來(lái)自倫敦大學(xué)學(xué)院、劍橋大學(xué)、牛津大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)發(fā)布了一個(gè)神經(jīng)學(xué)專用基準(zhǔn)BrainBench，登上了Nature子刊《自然人類行為（Nature human behavior）》。

結(jié)果顯示，經(jīng)過(guò)該基準(zhǔn)訓(xùn)練的LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果的準(zhǔn)確度方面高達(dá)81.4%，遠(yuǎn)超人類專家的63%。

在神經(jīng)學(xué)常見(jiàn)的5個(gè)子領(lǐng)域：行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中，LLM的表現(xiàn)也都全方位超過(guò)了人類專家。

更重要的是，這些模型被證實(shí)對(duì)于數(shù)據(jù)沒(méi)有明顯的記憶。

也就是說(shuō)，它們已經(jīng)掌握了一般科研的普遍模式，可以做更多的前瞻性（Forward-looking）預(yù)測(cè)、預(yù)測(cè)未知的事物。

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

這立馬引發(fā)科研圈的圍觀。

多位教授和博士后也表示，以后就可以讓LLM幫忙判斷更多研究的可行性了，nice！

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

LLM預(yù)測(cè)能力全面超越人類專家讓我們先來(lái)看看論文的幾個(gè)重要結(jié)論：

總體結(jié)果：LLMs在BrainBench上的平均準(zhǔn)確率為81.4%，而人類專家的平均準(zhǔn)確率為63.4%。LLMs的表現(xiàn)顯著優(yōu)于人類專家

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

子領(lǐng)域表現(xiàn)：在神經(jīng)科學(xué)的幾個(gè)重要的子領(lǐng)域：行為/認(rèn)知、細(xì)胞/分子、系統(tǒng)/回路、神經(jīng)疾病的神經(jīng)生物學(xué)以及發(fā)育/塑性和修復(fù)中，LLMs在每個(gè)子領(lǐng)域的表現(xiàn)均優(yōu)于人類專家，特別是在行為認(rèn)知和系統(tǒng)/回路領(lǐng)域。

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

模型對(duì)比：較小的模型如Llama2-7B和Mistral-7B與較大的模型表現(xiàn)相當(dāng)，而聊天或指令優(yōu)化模型的表現(xiàn)不如其基礎(chǔ)模型。

人類專家的表現(xiàn)：大多數(shù)人類專家是博士學(xué)生、博士后研究員或教職員工。當(dāng)限制人類響應(yīng)為自我報(bào)告專業(yè)知識(shí)的最高20%時(shí)，準(zhǔn)確率上升到66.2%，但仍低于LLMS。

置信度校準(zhǔn)：LLMs和人類專家的置信度都校準(zhǔn)良好，高置信度的預(yù)測(cè)更有可能是正確的。

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

記憶評(píng)估：沒(méi)有跡象表明LLMs記憶了BrainBench項(xiàng)目。使用zlib壓縮率和困惑度比率的分析表明，LLMs學(xué)習(xí)的是廣泛的科學(xué)模式，而不是記憶訓(xùn)練數(shù)據(jù)。

全新神經(jīng)學(xué)基準(zhǔn)本論文的一個(gè)重要貢獻(xiàn)，就是提出了一個(gè)前瞻性的基準(zhǔn)測(cè)試BrainBench，可以專門用于評(píng)估LLM在預(yù)測(cè)神經(jīng)科學(xué)結(jié)果方面的能力。

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

那么，具體是怎么做到的呢？

數(shù)據(jù)收集首先，團(tuán)隊(duì)利用PubMed獲取了2002年至2022年間332807篇神經(jīng)科學(xué)研究相關(guān)的摘要，從PubMed Central Open Access Subset（PMC OAS）中提取了123085篇全文文章，總計(jì)13億個(gè)tokens。

評(píng)估LLM和人類專家其次，在上面收集的數(shù)據(jù)的基礎(chǔ)上，團(tuán)隊(duì)為BrainBench創(chuàng)建了測(cè)試用例，主要通過(guò)修改論文摘要來(lái)實(shí)現(xiàn)。

具體來(lái)說(shuō)，每個(gè)測(cè)試用例包括兩個(gè)版本的摘要：一個(gè)是原始版本，另一個(gè)是經(jīng)過(guò)修改的版本。修改后的摘要會(huì)顯著改變研究結(jié)果，但保持整體連貫性。

測(cè)試者的任務(wù)是選擇哪個(gè)版本包含實(shí)際的研究結(jié)果。

團(tuán)隊(duì)使用Eleuther Al Language Model EvaluationHaress框架，讓LLM在兩個(gè)版本的摘要之間進(jìn)行選擇，通過(guò)困惑度（perplexity）來(lái)衡量其偏好。困惑度越低，表示模型越喜歡該摘要。

對(duì)人類專家行為的評(píng)估也是在相同測(cè)試用例上進(jìn)行選擇，他們還需要提供自信度和專業(yè)知識(shí)評(píng)分。最終參與實(shí)驗(yàn)的神經(jīng)科學(xué)專家有171名。

實(shí)驗(yàn)使用的LLM是經(jīng)過(guò)預(yù)訓(xùn)練的Mistral-7B-v0.1模型。通過(guò)LoRA技術(shù)進(jìn)行微調(diào)后，準(zhǔn)確度還能再增加3%。

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

評(píng)估LLM是否純記憶為了衡量LLM是否掌握了思維邏輯，團(tuán)隊(duì)還使用zlib壓縮率和困惑度比率來(lái)評(píng)估LLMs是否記憶了訓(xùn)練數(shù)據(jù)。公式如下：

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

其中，ZLIB（X）表示文本X的zlib壓縮率，PPL（X）表示文本X的困惑度。

部分研究者認(rèn)為只能當(dāng)作輔助這篇論文向我們展示了神經(jīng)科學(xué)研究的一個(gè)新方向，或許未來(lái)在前期探索的時(shí)候，神經(jīng)學(xué)專家都可以借助LLM的力量進(jìn)行初步的科研想法篩選，剔除一些在方法、背景信息等方面存在明顯問(wèn)題的計(jì)劃等。

但同時(shí)也有很多研究者對(duì)LLM的這個(gè)用法表示了質(zhì)疑。

有人認(rèn)為實(shí)驗(yàn)才是科研最重要的部分，任何預(yù)測(cè)都沒(méi)什么必要：

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

還有研究者認(rèn)為科研的重點(diǎn)可能在于精確的解釋。

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

此外，也有網(wǎng)友指出實(shí)驗(yàn)中的測(cè)試方法只考慮到了簡(jiǎn)單的AB假設(shè)檢驗(yàn)，真實(shí)研究中還有很多涉及到平均值/方差的情況。

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平

整體來(lái)看，這個(gè)研究對(duì)于神經(jīng)學(xué)科研工作的發(fā)展還是非常有啟發(fā)意義的，未來(lái)也有可能擴(kuò)展到更多的學(xué)術(shù)研究領(lǐng)域。

研究人員們?cè)趺纯茨兀?br/>

參考鏈接：[1]https://www.nature.com/articles/s41562-024-02046-9#author-information[2]https://github.com/braingpt-lovelab/BrainBench

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-01 18:23:00 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-01 18:23:00 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科研黨狂喜！AI預(yù)測(cè)神經(jīng)學(xué)研究結(jié)論超人類專家水平
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-01 18:23:00 瀏覽：0次