原文作者:Mariana Lenharo
研究人員表示,他們的AI系統(tǒng)或推動(dòng)醫(yī)療資源的普及。
一個(gè)基于谷歌大型語(yǔ)言模型的對(duì)話機(jī)器人能收集模擬患者的病史,并給出各種診斷。來(lái)源:Tero Vesalainen/Getty
一個(gè)被訓(xùn)練學(xué)習(xí)“看病”的人工智能(AI)系統(tǒng)在與模擬病人交談時(shí)可媲美乃至超過(guò)人類醫(yī)生的表現(xiàn),并能根據(jù)患者病史給出可能的診斷結(jié)果[1]。
這個(gè)對(duì)話機(jī)器人基于谷歌(Google)開發(fā)的大型語(yǔ)言模型(LLM),在呼吸道疾病和心血管疾病等方面的診斷比有執(zhí)業(yè)資格的初級(jí)保健醫(yī)師更加準(zhǔn)確。與人類醫(yī)生相比,該機(jī)器人在醫(yī)療對(duì)話中能獲取同等量的信息,而且更有同理心。
“據(jù)我們所知,這是首個(gè)以診斷對(duì)話和獲取病史為設(shè)計(jì)目標(biāo)的對(duì)話式AI系統(tǒng)。”Google Health的臨床研究科學(xué)家、該研究[1]共同作者Alan Karthikesalingam說(shuō)。該研究1月11日發(fā)布于arXiv預(yù)印本服務(wù)器,尚未經(jīng)過(guò)同行評(píng)審。
該對(duì)話機(jī)器人名為Articulate Medical Intelligence Explorer(簡(jiǎn)稱AMIE),尚處于純實(shí)驗(yàn)階段。它還未在有真實(shí)健康問(wèn)題的人群中測(cè)試過(guò),只在經(jīng)過(guò)訓(xùn)練患者模仿者中測(cè)試過(guò)。Karthikesalingam說(shuō):“我們希望大家能謹(jǐn)慎謙遜地解讀結(jié)果。”
即使該機(jī)器人距離臨床應(yīng)用仍很遠(yuǎn),但作者認(rèn)為,它最終或能推動(dòng)醫(yī)療護(hù)理的普及。這個(gè)工具能作為助手,但不應(yīng)取代病人與醫(yī)生的交流,哈佛大學(xué)醫(yī)學(xué)院內(nèi)科醫(yī)生Adam Rodman說(shuō),“醫(yī)療絕不是收集信息這么簡(jiǎn)單而是關(guān)于人與人的關(guān)系。”
學(xué)習(xí)干“細(xì)活”
意圖將LLM用于醫(yī)療領(lǐng)域的開發(fā)者很少研究過(guò)這類系統(tǒng)是否能模仿醫(yī)生采集患者病史的能力,并在此基礎(chǔ)上做出診斷。醫(yī)學(xué)生經(jīng)過(guò)長(zhǎng)年累月的訓(xùn)練才具備這種能力,Rodman說(shuō),“這是醫(yī)生需要掌握的最重要也最難的技能之一。”
開發(fā)者面對(duì)的一個(gè)挑戰(zhàn)是缺少作為訓(xùn)練數(shù)據(jù)的真實(shí)世界醫(yī)療對(duì)話,位于加州山景城的Google Health的AI研究科學(xué)家、該研究共同作者Vivek Natarajan 說(shuō)道。為了克服這個(gè)挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一種方法,讓這個(gè)對(duì)話機(jī)器人用它自己的“對(duì)話”進(jìn)行訓(xùn)練。
研究團(tuán)隊(duì)先用現(xiàn)成的真實(shí)世界數(shù)據(jù)對(duì)基礎(chǔ)LLM進(jìn)行了初輪微調(diào),這類數(shù)據(jù)包括電子病歷和醫(yī)療對(duì)話的轉(zhuǎn)錄文本。為進(jìn)一步訓(xùn)練該模型,團(tuán)隊(duì)再讓這個(gè)LLM扮演有特定疾病的患者和想了解病史并做出診斷的富有同情心的醫(yī)生。
該團(tuán)隊(duì)還讓這個(gè)模型扮演了另一個(gè)角色:一個(gè)給醫(yī)患對(duì)話打分并提出改進(jìn)意見的評(píng)委。這些評(píng)語(yǔ)會(huì)被用來(lái)進(jìn)一步訓(xùn)練這個(gè)LLM,并生成改進(jìn)后的對(duì)話。
為測(cè)試該系統(tǒng),研究團(tuán)隊(duì)招募了訓(xùn)練后能模擬病人的20人,讓他們同時(shí)與AMIE和20名有執(zhí)業(yè)資格的醫(yī)師進(jìn)行基于文字的醫(yī)療咨詢,并且不知道和他們對(duì)話的是人還是機(jī)器。
這些模仿者模擬了149種臨床情景,并被要求對(duì)體驗(yàn)進(jìn)行評(píng)價(jià)。一組專家也對(duì)AMIE和人類醫(yī)師的表現(xiàn)進(jìn)行打分。
AMIE得高分
在測(cè)試的全部6個(gè)醫(yī)療?浦校摍C(jī)器人的診斷準(zhǔn)確率均媲美或超越了人類醫(yī)生。在26個(gè)評(píng)估對(duì)話質(zhì)量的指標(biāo)中,該機(jī)器人有24個(gè)指標(biāo)的得分高于人類醫(yī)生,包括禮貌程度,對(duì)疾病和療法的解釋,給人感覺誠(chéng)實(shí),以及表達(dá)關(guān)心和關(guān)注。
Karthikesalingam說(shuō):“這絕不是說(shuō)語(yǔ)言模型在了解病史方面比醫(yī)生要強(qiáng)。”他指出,研究中的初級(jí)保健醫(yī)生可能并不習(xí)慣和病人用文字溝通,這會(huì)影響他們的表現(xiàn)。
而LLM在這方面具有天然的優(yōu)勢(shì),能快速給出結(jié)構(gòu)清晰而具體的回答,Karthikesalingam說(shuō),這讓它們能不知疲倦地照顧病人的需求。
“一視同仁”的對(duì)話機(jī)器人
他說(shuō),該研究接下來(lái)的重要一步是開展更具體的研究,分析可能存在的偏見,同時(shí)確保該系統(tǒng)能同等對(duì)待不同人群。這個(gè)谷歌團(tuán)隊(duì)已經(jīng)在思考,如果在真正有健康問(wèn)題的人群中測(cè)試該系統(tǒng)需要滿足哪些倫理要求。
杜克新加坡國(guó)立大學(xué)醫(yī)學(xué)院臨床AI科學(xué)家Daniel Ting也認(rèn)為,對(duì)該系統(tǒng)進(jìn)行偏見測(cè)試至關(guān)重要,這樣才能保證算法不會(huì)區(qū)別對(duì)待訓(xùn)練數(shù)據(jù)中代表性不高的族群。
對(duì)話機(jī)器人用戶的隱私也是需要考量的重要問(wèn)題,Ting說(shuō),“對(duì)于現(xiàn)在使用的很多商業(yè)大型語(yǔ)言模型平臺(tái)來(lái)說(shuō),我們?nèi)圆恢罃?shù)據(jù)究竟儲(chǔ)存在那里,也不知道這些數(shù)據(jù)是如何被分析的。”
原文以
Google AI has better bedside manner than human doctors and makes better diagnoses標(biāo)題發(fā)表在2024年1月12日《自然》的新聞版塊上
nature