展會(huì)信息港展會(huì)大全

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了,我們能信任機(jī)器嗎?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-19 18:49:02   瀏覽:3271次  

導(dǎo)讀:研究人員創(chuàng)造了一個(gè)純粹的AI科學(xué)家,從查閱文獻(xiàn)到撰寫論文,它可以實(shí)現(xiàn)科研全流程自動(dòng)化。但對(duì)于AI在科研過程中的使用,科學(xué)家仍有不同觀點(diǎn)。 撰文 | 郭瑞東 隨著人工智能(AI)的進(jìn)步,越來越多的研究者嘗試在科研過程的每一步嘗試引入AI,而對(duì)于能否使用AI...

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了,我們能信任機(jī)器嗎?

研究人員創(chuàng)造了一個(gè)純粹的AI科學(xué)家,從查閱文獻(xiàn)到撰寫論文,它可以實(shí)現(xiàn)科研全流程自動(dòng)化。但對(duì)于AI在科研過程中的使用,科學(xué)家仍有不同觀點(diǎn)。

撰文 | 郭瑞東

隨著人工智能(AI)的進(jìn)步,越來越多的研究者嘗試在科研過程的每一步嘗試引入AI,而對(duì)于能否使用AI取代科學(xué)家展開研究,學(xué)界存在激烈的爭(zhēng)論。日前,日本創(chuàng)業(yè)公司Sakana AI創(chuàng)造出一個(gè)純粹的人工智能科學(xué)家,他們將其命名為THE AI SCIENTIST(以下稱AI Scientist),能夠以每篇10美元的成本,7*24小時(shí)持續(xù)工作。該成果目前發(fā)布在arXiv預(yù)印本平臺(tái)[1]。

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了,我們能信任機(jī)器嗎?

圖1 AI scientist的工作流程丨圖源:參考文獻(xiàn)[1]

基于大語言模型(LLM)的AI Scientist是一個(gè)端對(duì)端的完整工作流(如圖1所示),目前只能從事機(jī)器學(xué)習(xí)的相關(guān)研究。AI Scientist從產(chǎn)生新的研究議題開始,它會(huì)在網(wǎng)上搜索相關(guān)文獻(xiàn),并根據(jù)新穎性對(duì)研究思路進(jìn)行排名。在實(shí)驗(yàn)階段,AI Scientist可根據(jù)生成的研究思路自動(dòng)編寫代碼并執(zhí)行,負(fù)責(zé)代碼審核的部分(智能體)會(huì)確保生成的代碼不包含無關(guān)研究思路的內(nèi)容,以減緩大模型幻覺帶來的影響(大模型幻覺即生成的內(nèi)容看似邏輯通暢,但不符合已有知識(shí))。之后AI Scientist會(huì)根據(jù)代碼運(yùn)行的結(jié)果迭代優(yōu)化實(shí)驗(yàn)。如果實(shí)驗(yàn)?zāi)艿玫矫枋鰧?shí)驗(yàn)結(jié)果的圖表,AI Scientist會(huì)進(jìn)行論文文稿的撰寫。

AI Scientist以機(jī)器學(xué)習(xí)領(lǐng)域頂會(huì)NeurIPS發(fā)布語言模型類研究為模板,使用大模型Claude 3.5、GPT-4及開源的Deepseek coder和Llama-3.1,各自產(chǎn)生了52個(gè)研究思路;在之后的新穎性審查中,少部分研究由于不具備創(chuàng)新性被去除,又有部分研究思路無法通過實(shí)驗(yàn)驗(yàn)證(大模型編程能力有限),最終只有不到一半的研究最終完成論文撰寫。最后,由大模型驅(qū)動(dòng)的評(píng)審智能體自動(dòng)生成對(duì)文稿的審稿意見和打分(表1中Mean Score項(xiàng))。在成本方面,使用DeepSeek Coder模型生成每篇論文的成本僅需要10美元。

在這項(xiàng)研究中,作者論證了AI評(píng)審智能體給論文評(píng)審和人類專家針對(duì)2022年ICML(機(jī)器學(xué)習(xí)頂會(huì))的評(píng)審具有相關(guān)性,且AI評(píng)審智能體對(duì) AI Scientist 論文的評(píng)分,達(dá)到了過往發(fā)表在機(jī)器學(xué)習(xí)頂會(huì)論文的均值。這似乎說明Al Scientist生成了頂會(huì)級(jí)的研究。

該研究中所有由AI生成的論文稿件、評(píng)審意見及代碼均已公開。這樣的開放性使得其他研究者能夠分析 AI Scientist 的結(jié)果。所以在研究公布后,有人就發(fā)現(xiàn)它存在“人氣偏差”,偏愛引用次數(shù)高的論文。

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了,我們能信任機(jī)器嗎?

表1 AI scientist在語言模型領(lǐng)域自動(dòng)生成論文過程的評(píng)估結(jié)果

對(duì)于這項(xiàng)研究,艾倫人工智能研究所(Allen Institute for AI)的計(jì)算機(jī)科學(xué)家Tom Hope指出,“當(dāng)前除了基本的流行用語膚淺組合之外,它無法制定新穎和有用的科學(xué)方向。”同時(shí)也由于當(dāng)前大模型的能力限制,很多研究思路最終無法自動(dòng)化地進(jìn)行實(shí)驗(yàn)。然而即使 AI 無法在短期內(nèi)完成更具創(chuàng)造性的研究,它仍然可以自動(dòng)化地執(zhí)行具有重復(fù)性的工作。此外,AI Scientist的作者指出,由于大模型幻覺的存在,對(duì)于AI生成的論文需要人工審核其代碼及結(jié)果,以避免AI生成的代碼以改變約束條件的方式來達(dá)成目標(biāo),或循環(huán)調(diào)用導(dǎo)致程序崩潰。

這項(xiàng)研究初步論證了AI有可能獨(dú)立產(chǎn)生科學(xué)發(fā)現(xiàn)。盡管目前該系統(tǒng)只能用于機(jī)器學(xué)習(xí)領(lǐng)域,但一些科學(xué)家認(rèn)為其前景光明,勞倫斯伯克利國家實(shí)驗(yàn)室的材料科學(xué)家 Gerbrand Ceder 說:“我毫不懷疑這是大部分科學(xué)的發(fā)展方向。”AI Scientist的多智能體協(xié)作科研的模式,也可能適用于其他研究領(lǐng)域,這也是該論文指出的其未來研究方向。

雖然AI自動(dòng)化地完成科學(xué)研究全過程,但目前的進(jìn)展還不足以說明AI能夠取代科學(xué)家獨(dú)立開展研究。在實(shí)際工作中,現(xiàn)在科研人員更多的是將大模型當(dāng)作科研助手,將AI用于科研過程的某一部分:相對(duì)成功的應(yīng)用是在化學(xué)領(lǐng)域(通過大模型驅(qū)動(dòng)的機(jī)械臂自動(dòng)進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn)新材料),以及將大模型與符號(hào)主義相結(jié)合用于數(shù)學(xué)定理的自動(dòng)化證明[2, 3]。

而對(duì)于AI如何在科學(xué)研究的各項(xiàng)任務(wù)中輔助研究者,近期一項(xiàng)研究給出了更加審慎的結(jié)論[4]

該研究通過4項(xiàng)心理學(xué)實(shí)驗(yàn)考察ChatGPT在科研領(lǐng)域的4種能力,分別為整理科研文獻(xiàn),生成科研數(shù)據(jù),預(yù)測(cè)新穎的科研思路以及審核科研過程是否符合倫理規(guī)范。研究發(fā)現(xiàn),由于大模型幻覺的存在,GPT-3.5和GPT-4分別有36.0%和5.4%的時(shí)間生成虛構(gòu)的參考文獻(xiàn)(盡管GPT-4承認(rèn)其進(jìn)行了虛構(gòu)),說明這兩種大模型不適合進(jìn)行文獻(xiàn)整理的工作。GPT-3.5和GPT-4能夠復(fù)制在大型語料庫中先前發(fā)現(xiàn)的文化偏見模式,所以ChatGPT可以模擬生成符合已知結(jié)果的數(shù)據(jù)。然而對(duì)于訓(xùn)練數(shù)據(jù)中不存在的新內(nèi)容方面,兩種大模型都不成功;并且在預(yù)測(cè)更新穎與較不新穎的結(jié)果時(shí),都沒有顯著利用新信息,這說明大模型不擅長產(chǎn)生新的研究數(shù)據(jù)在推斷訓(xùn)練數(shù)據(jù)之外的事物方面能力有限。不過,GPT-4被證明能夠檢測(cè)到像數(shù)據(jù)操縱(p-hacking)或違反開放協(xié)議等學(xué)術(shù)不端行為,表明AI有成為一個(gè)合格的科研倫理審查者的潛力。

這項(xiàng)研究帶給學(xué)者的啟示是,大模型在輔助科研領(lǐng)域的能力可能不一定符合預(yù)設(shè)。例如人們會(huì)認(rèn)為擅長處理文本的大模型能夠整理文獻(xiàn),然而由于幻覺的存在,事實(shí)并非如此;且文獻(xiàn)整理也不僅僅是羅列相關(guān)研究,而是搭建有清晰邏輯的認(rèn)知框架。而大模型在審核研究是否符合倫理規(guī)范上表現(xiàn)較為優(yōu)秀,考慮到一般情況下認(rèn)為大模型缺少批判性思維,這一結(jié)果可能出乎一些人的意料。預(yù)期和實(shí)際結(jié)果的差距突顯了用于科研的AI所具有的復(fù)雜性,值得科研人員進(jìn)一步研究。

除此之外,科研人員在使用大模型時(shí),尤其要注意大模型有可能會(huì)生成不存在的數(shù)據(jù)。前述的AI Scientist在進(jìn)行自動(dòng)化研究時(shí),出現(xiàn)過這樣的情況:當(dāng)代碼無法達(dá)到預(yù)期的評(píng)價(jià)指標(biāo)時(shí),它不是試圖在下一輪迭代時(shí)修改代碼,而是降低評(píng)價(jià)指標(biāo)使代碼看起來合格。無獨(dú)有偶,根據(jù)此前報(bào)道[5],ChatGPT能夠按照使用者的要求,創(chuàng)建沒有真實(shí)原始數(shù)據(jù)支持的數(shù)據(jù)集,該數(shù)據(jù)集可與現(xiàn)有證據(jù)相反或研究方向不同。對(duì)此,微生物學(xué)家和獨(dú)立科研誠信顧問Elisabeth Bik表示:“這將非常容易讓研究人員對(duì)不存在的患者進(jìn)行虛假的數(shù)據(jù)測(cè)量,對(duì)問卷調(diào)查制作假答案,或生成關(guān)于動(dòng)物實(shí)驗(yàn)的大型數(shù)據(jù)集。”

這些案例提醒人們?cè)谝氪竽P蛥f(xié)助科研時(shí),需要注意大模型會(huì)虛構(gòu)數(shù)據(jù),尤其是當(dāng)使用大模型驅(qū)動(dòng)的智能體自動(dòng)化展開研究時(shí),需要科研人員去打開黑盒而非盲目信任大模型的結(jié)果。

上述的幾項(xiàng)研究,從不同學(xué)科為切入點(diǎn),討論了將大模型引入科學(xué)研究所帶來的機(jī)遇和風(fēng)險(xiǎn)。考慮到科研活動(dòng)自身的復(fù)雜性及不同學(xué)科的異質(zhì)性,對(duì)于如何更好地在科研過程中用好AI,需要分學(xué)科分別進(jìn)行討論?蒲羞^程不可避免地包含很多重復(fù)性的操作,將這些重復(fù)步驟自動(dòng)化,能解放科研人員的寶貴時(shí)間,有助于他們聚焦于科學(xué)問題。從這一方面來說,AI作為輔助工具具有廣闊的應(yīng)用前景。然而由于其能力的多變,其使用方法還需要系統(tǒng)性地摸索和考察。

人們無需擔(dān)心AI的引入會(huì)取代科學(xué)家,但AI無疑在改變科研全流程的方方面面。

參考文獻(xiàn)

[1]https://doi.org/10.48550/arXiv.2408.06292

[2]https://www.nature.com/articles/d41586-023-03956-w

[3]https://www.nature.com/articles/d41586-024-02441-2

[4]https://www.pnas.org/doi/10.1073/pnas.2404328121

[5]https://www.nature.com/articles/d41586-023-03635-w

第一個(gè)自動(dòng)做科研的AI出現(xiàn)了,我們能信任機(jī)器嗎?

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港