展會信息港展會大全

Nature:為高維度醫(yī)學(xué)成像設(shè)計可臨床轉(zhuǎn)化的人工智能系統(tǒng)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2021-12-20 13:37:23   瀏覽:28139次  

導(dǎo)讀:編譯 | 王曄 編輯 | 青暮 本文來自于《 nature machine intelligence》。作者Rohan Shad是Hiesinger實驗室心胸外科系博士后研究員。他和團隊為心血管成像(超聲心動圖和心臟 MRI)構(gòu)建新型計算機視覺系統(tǒng),并且使用轉(zhuǎn)錄組學(xué)和蛋白質(zhì)設(shè)計研究心臟病的潛在機制...

編譯 | 王曄

編輯 | 青暮

本文來自于《 nature machine intelligence》。作者Rohan Shad是Hiesinger實驗室心胸外科系博士后研究員。他和團隊為心血管成像(超聲心動圖和心臟 MRI)構(gòu)建新型計算機視覺系統(tǒng),并且使用轉(zhuǎn)錄組學(xué)和蛋白質(zhì)設(shè)計研究心臟病的潛在機制,為嚴重心力衰竭患者設(shè)計設(shè)備。

文中探討了高維臨床影像數(shù)據(jù)所面臨的特有挑戰(zhàn),并強調(diào)了開發(fā)機器學(xué)習(xí)系統(tǒng)所涉及的一些技術(shù)和倫理方面的考慮,更好地體現(xiàn)了影像模式的高維性質(zhì)。此外,他們認為嘗試解決可解釋性、不確定性和偏見的方法應(yīng)被視為所有臨床機器學(xué)習(xí)系統(tǒng)的核心組成部分。

2018年,美國國家衛(wèi)生研究院確定將人工智能納入醫(yī)學(xué)成像未來發(fā)展的重點領(lǐng)域,并且為圖像采集、算法、數(shù)據(jù)標準化和可轉(zhuǎn)化的臨床決策支持系統(tǒng)的研究制定了基礎(chǔ)路線。

報告中提到,盡管數(shù)據(jù)的可用性、對新型計算架構(gòu)的需求和可解釋的人工智能算法等在過去幾年已經(jīng)取得了巨大的進展,但目前仍然是一個關(guān)鍵性問題。

此外,在早期的開發(fā)過程中,還必須考慮到數(shù)據(jù)共享的轉(zhuǎn)化目標、為監(jiān)管部門批準而進行的性能驗證、可推廣性以及減輕無意的偏見等問題。

1

主旨

算力的提高、深度學(xué)習(xí)架構(gòu)和專家標記數(shù)據(jù)集的進步刺激了醫(yī)學(xué)影像人工智能(AI)系統(tǒng)的發(fā)展。

然而,應(yīng)用人工智能系統(tǒng)來協(xié)助完成臨床任務(wù)是非常具有挑戰(zhàn)性的。機器學(xué)習(xí)算法的目的是減少臨床推斷所需的時間。但在臨床中進行應(yīng)用,有可能無意中會延誤患者的治療。當離開可控制的實驗室環(huán)境時,人工智能系統(tǒng)的終端用戶必須能夠控制輸入質(zhì)量,并且能夠解決網(wǎng)絡(luò)延遲等問題,設(shè)計出將這些系統(tǒng)整合到既定臨床實踐中的方法。

早期對可轉(zhuǎn)換的臨床機器學(xué)習(xí)的嘗試表明,設(shè)計的系統(tǒng)要在既定的臨床工作流程中正常工作,就必須要在算法開發(fā)之初就做出大量的整合努力。因為在未來部署該系統(tǒng)時,迭代的機會非常有限。

隨著開源機器學(xué)習(xí)軟件庫的日益增多和計算機性能的不斷進步,研究人員越來越容易開發(fā)出復(fù)雜的針對特定臨床問題的人工智能系統(tǒng)。除了檢測疾病診斷的特征外,下一代人工智能系統(tǒng)必須考慮訓(xùn)練數(shù)據(jù)的系統(tǒng)偏見,更為直觀地提醒終端用戶預(yù)測中固有的不確定性,并允許用戶能夠探索和解釋預(yù)測的機制。

該觀點以這些關(guān)鍵的優(yōu)先領(lǐng)域為基礎(chǔ),以加速醫(yī)學(xué)領(lǐng)域的基礎(chǔ)人工智能研究。我們概述了數(shù)據(jù)集的細微差別和高維醫(yī)學(xué)成像機器學(xué)習(xí)的具體架構(gòu)注意事項,同時討論了這些系統(tǒng)的可解釋性、不確定性和偏差。在此過程中,我們?yōu)橛信d趣解決構(gòu)建臨床可翻譯 AI 系統(tǒng),所帶來的一些問題和挑戰(zhàn)的研究人員提供了一個模板。

2

高維醫(yī)學(xué)影像數(shù)據(jù)

我們預(yù)計,在可預(yù)見的未來,可用的高質(zhì)量 "AI-ready "注釋的醫(yī)學(xué)數(shù)據(jù)集將仍然不能滿足需求;剡^頭來分配臨床事實標簽需要臨床專家投入大量的時間,而且將多機構(gòu)的數(shù)據(jù)匯總起來公開發(fā)布也存在很大的障礙。除了需要以在硬放射學(xué)真實標簽上訓(xùn)練的模型為特征的“診斷人工智能”之外,還需要根據(jù)潛在的更復(fù)雜的臨床綜合結(jié)果目標訓(xùn)練的 "疾病預(yù)測人工智能 "。具有標準化的圖像采集協(xié)議和臨床基本事實裁決的前瞻性數(shù)據(jù)收集,是構(gòu)建具有配對臨床結(jié)果的大規(guī)模多中心成像數(shù)據(jù)集的必要步驟。

大規(guī)模的多中心成像數(shù)據(jù)集會產(chǎn)生許多隱私和責任問題,這些問題與文件中嵌入的潛在敏感數(shù)據(jù)有關(guān)。醫(yī)學(xué)數(shù)字成像和通信(DICOM)標準普遍被用來捕獲、存儲和提供醫(yī)學(xué)圖像的工作流程管理。成像文件(以.dcm文件或嵌套文件夾結(jié)構(gòu)的形式存儲)包含像素數(shù)據(jù)和相關(guān)元數(shù)據(jù)。眾多的開源和專有工具可以幫助對 DICOM 文件進行去識別化。后端醫(yī)院信息學(xué)框架,如Google Healthcare API,是一種清除可能包含敏感信息的元數(shù)據(jù)域的方法,也通過 "安全列表 "支持DICOM去標識化。

在面向用戶方面,MIRC 臨床試驗處理器匿名器是一種流行的替代方法,盡管它需要使用某些遺留軟件。有據(jù)可查的Python軟件包(如pydicom)也可用于在使用或轉(zhuǎn)給合作機構(gòu)之前處理DICOM文件。然后可以提取成像數(shù)據(jù)并以各種機器可讀格式存儲。這些數(shù)據(jù)集可以迅速變得龐大且笨拙,雖然數(shù)據(jù)存儲格式的細節(jié)超出了本觀點的討論范圍,但醫(yī)學(xué)成像 AI 的一個關(guān)鍵考慮因素是圖像分辨率的保留。

自動去識別方法或腳本經(jīng)常被提及的一個缺點是受保護的健康信息有可能被 "刻錄 "在影像文件中。盡管有DICOM標準,但制造商的不同,使得難以通過 MIRC 臨床試驗處理器等工具來生成簡單的規(guī)則,以屏蔽可能位于受保護健康信息的區(qū)域。我們建議使用一個簡單的機器學(xué)習(xí)系統(tǒng)來屏蔽 "燒錄 "的受保護健康信息。

以超聲心動圖為例,有一個預(yù)定義的掃描區(qū)域,在那里可以看到心臟。其他潛在的選擇是基于機器學(xué)習(xí)的光學(xué)字符識別工具,以識別和屏蔽有印刷文本的區(qū)域。DICOM標簽本身可用于提取掃描級信息和特定模式的標簽。例如,在超聲心動圖和心臟磁共振成像 (MRI) 的情況下,可以輕松地從 DICOM 元數(shù)據(jù)中提取重要的掃描級別信息,例如采集幀速率和日期或 MRI 序列 (T1/T2)。

圖1:基于云的協(xié)作式注釋工作流程;谠频墓ぞ呖捎糜谏蓪<易⑨寯(shù)據(jù)集,并通過安全連接與臨床專家進行評估。圖為MD.ai的一個實施方案,其中臨床專家進行各種 2D 檢測以測評心臟功能。

對于涉及人工智能系統(tǒng)與臨床醫(yī)生進行正面基準測試的研究工作,或在臨床注釋者的幫助下策劃大型數(shù)據(jù)集,我們建議以DICOM格式存儲掃描的副本。這樣就可以通過可擴展和易于使用的云端注釋工具進行部署。目前有幾種解決方案用于分配掃描數(shù)據(jù)供臨床專家評估。要求的范圍可能從簡單的掃描級標簽到詳細的特定領(lǐng)域的解剖學(xué)分割掩碼。在我們的機構(gòu),我們部署了MD.ai (New York, New York),這是一個基于云的注釋系統(tǒng),可原生處理存儲在機構(gòu)批準的云存儲提供商(谷歌云存儲或亞馬遜 AWS)上的 DICOM 文件。替代品提供類似的功能,如ePadLite(Stanford, California),它可以免費使用;谠频淖⑨尫椒ǖ牧硪粋優(yōu)勢是,掃描可以保持原始的分辨率和質(zhì)量,實時協(xié)作模擬 "基于團隊 "的臨床決策,注釋和標簽可以很容易地導(dǎo)出用于下游分析。最重要的是,其中許多工具都可以用任何網(wǎng)絡(luò)瀏覽器遠程訪問,并且極易操作,極大地提高了用戶體驗并減輕了臨床合作者的技術(shù)負擔。

最后,較新的機器學(xué)習(xí)訓(xùn)練范式,如聯(lián)邦學(xué)習(xí),可能有助于規(guī)避許多與數(shù)據(jù)共享相關(guān)的障礙。Kaissis等人審查了聯(lián)邦學(xué)習(xí)的原則、安全風險和實施挑戰(zhàn)。這種方法的主要特點是在每個機構(gòu)都訓(xùn)練本地算法副本,唯一共享的信息是神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中學(xué)習(xí)到的特征。在預(yù)定的時間間隔內(nèi),從每個機構(gòu)的算法中學(xué)到的信息(訓(xùn)練的權(quán)重)被集中起來并重新分配,高效地從一個大型的多中心數(shù)據(jù)集中學(xué)習(xí),而不需要傳輸或分享任何醫(yī)學(xué)成像數(shù)據(jù)。這有助于快速訓(xùn)練算法,從胸部計算機斷層掃描中檢測COVID-19的特征。

盡管在醫(yī)學(xué)成像領(lǐng)域已經(jīng)有了聯(lián)合學(xué)習(xí)的成功示范,但在將這些方法用于常規(guī)臨床使用時,仍然存在大量技術(shù)挑戰(zhàn)。特別是在高維成像機器學(xué)習(xí)系統(tǒng)的背景下,從多個參與中心傳輸和更新訓(xùn)練的權(quán)重而引入的網(wǎng)絡(luò)延遲,成為訓(xùn)練更大神經(jīng)網(wǎng)絡(luò)的基本速率限制步驟。研究人員還必須確保訓(xùn)練后的權(quán)重在參與機構(gòu)之間的傳輸是安全和加密的,這進一步增加了網(wǎng)絡(luò)延遲。此外,在設(shè)計研究時,如果不能訪問源數(shù)據(jù),策劃數(shù)據(jù)集的質(zhì)量和一致性可能極具挑戰(zhàn)性。許多概念上類似的聯(lián)合學(xué)習(xí)框架仍然假定對源數(shù)據(jù)有一定程度的訪問。

3

計算架構(gòu)

現(xiàn)代臨床機器學(xué)習(xí)中使用的神經(jīng)網(wǎng)絡(luò)架構(gòu),主要來自于那些針對大型照片或視頻識別任務(wù)28進行優(yōu)化的架構(gòu)。即使在細粒度分類的其他挑戰(zhàn)性任務(wù)中,這些架構(gòu)也非常穩(wěn)健,其中類具有微妙的類內(nèi)差異(狗的品種),而不是具有高類間差異的明顯不同對象(飛機與狗)。通過對大型數(shù)據(jù)集(例如ImageNet)進行充分的預(yù)訓(xùn)練,這些 "現(xiàn)成 "架構(gòu)的性能優(yōu)于為其量身定做的細粒度分類器。其中許多架構(gòu)可用于流行的機器學(xué)習(xí)框架,如TensorFlow和Pytorch。最重要的是,這些框架通常為各種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)提供ImageNet預(yù)訓(xùn)練權(quán)重,使研究人員能夠迅速將它們重新用于專門的醫(yī)學(xué)成像任務(wù)。

不幸的是,絕大多數(shù)的臨床成像方式都不是簡單的靜態(tài) "圖像"。例如,超聲心動圖是一種心臟的二維(2D)超聲影像。這些 "視頻 "可以從多個不同的視角拍攝,從而可以對心臟進行更全面的評估。CT和MRI掃描可以被認為是一堆二維圖像,必須按圖像順序進行分析,否則醫(yī)生有可能錯過器官之間沿某一軸線的有價值的關(guān)系。

因此,這些 "成像 "模式更類似于視頻。將其作為圖像拆開分析,可能會導(dǎo)致空間或時間背景的丟失。例如,將視頻每一幀作為獨立的圖像進行分析處理,會導(dǎo)致每一幀視頻之間時間信息的丟失。在利用超聲心動圖、CT和MRI掃描的各種任務(wù)中,基于視頻的神經(jīng)網(wǎng)絡(luò)算法比其 2D 算法有相當大的改進,但集成多個不同的視圖平面帶來了額外的維度,很難將其納入當前框架。

與廣泛的基于圖像的預(yù)訓(xùn)練網(wǎng)絡(luò)庫不同,對視頻算法的支持仍然有限。對部署新架構(gòu)感興趣的研究人員可能需要自己在大型公開的視頻數(shù)據(jù)集(如Kinetics和UCF101(中佛羅里達大學(xué)101--動作識別數(shù)據(jù)集))上執(zhí)行預(yù)訓(xùn)練步驟。此外,視頻網(wǎng)絡(luò)的訓(xùn)練計算成本可能要高幾個數(shù)量級。雖然使用大型自然景物數(shù)據(jù)集進行預(yù)訓(xùn)練是開發(fā)臨床成像機器學(xué)習(xí)系統(tǒng)的一個公認的策略,但不能保證性能的提升。關(guān)于預(yù)訓(xùn)練的性能改進的報告很常見,特別是在使用較小的數(shù)據(jù)集時,但隨著訓(xùn)練數(shù)據(jù)集的增加,其優(yōu)勢會逐漸減少。

在2018年美國國家衛(wèi)生研究院的路線圖中,缺乏特定于醫(yī)學(xué)成像的架構(gòu)被認為是一項關(guān)鍵挑戰(zhàn)。我們進一步延伸,提出訓(xùn)練這些架構(gòu)的方法,對這些系統(tǒng)將轉(zhuǎn)化為現(xiàn)實方面發(fā)揮著重要作用。我們認為,下一代的高維醫(yī)學(xué)成像AI 將需要對更豐富、更有背景意義的目標進行訓(xùn)練,而不是簡單的分類標簽。

如今,大多數(shù)醫(yī)學(xué)成像 AI 系統(tǒng)專注于從正常背景下診斷少數(shù)疾玻典型的方法是在訓(xùn)練這些算法時分配一個數(shù)字標簽(疾病:1;正常:0)。這與臨床受訓(xùn)人員學(xué)習(xí)從成像掃描中診斷不同的疾病的方式有很大不同。為了提供更多的 "醫(yī)學(xué)知識",而不是簡單地對自然圖像或視頻進行預(yù)訓(xùn)練,Taleb等人提出了一系列使用大型無標簽醫(yī)學(xué)成像數(shù)據(jù)集的新型自我監(jiān)督預(yù)訓(xùn)練技術(shù),旨在協(xié)助開發(fā)基于3D醫(yī)學(xué)成像的人工智能系統(tǒng)。

神經(jīng)網(wǎng)絡(luò)首先通過執(zhí)行一組 "代理任務(wù) "來學(xué)習(xí) "描述 "作為輸入的成像掃描。例如,通過讓網(wǎng)絡(luò)像拼圖一樣 "重新組合 "輸入的掃描數(shù)據(jù),它們可以被訓(xùn)練成 "理解 "在各種病理和生理狀態(tài)下哪些解剖結(jié)構(gòu)是相互一致的。將成像掃描的數(shù)據(jù)與放射學(xué)報告配對是另一個有趣的策略,基于胸部X射線的人工智能系統(tǒng)取得了相當大的成功。

本著提供更細微的臨床背景并將更多的 "知識 "嵌入神經(jīng)網(wǎng)絡(luò)的精神,報告中的文本通過最先進的自然語言機器學(xué)習(xí)算法進行處理,隨后訓(xùn)練視覺網(wǎng)絡(luò),以更好地理解讓各種疾病 "不同"的原因。然而,最重要的是,他們表明使用這種方法可以將特定下游分類任務(wù)的標記數(shù)據(jù)量減少多達兩個數(shù)量級。因此,未標記的成像研究,無論是單獨的還是結(jié)合成對的文本報告,都可以作為有效預(yù)訓(xùn)練的基矗隨后,對較小的高質(zhì)量基礎(chǔ)實況數(shù)據(jù)樣本進行微調(diào),以完成特定的監(jiān)督學(xué)習(xí)任務(wù)。

盡管這些步驟有助于調(diào)整現(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu),使其適用于醫(yī)學(xué)成像,但為特定任務(wù)設(shè)計新的架構(gòu)需要專業(yè)知識。模型架構(gòu)類似于大腦,而訓(xùn)練后的權(quán)重(訓(xùn)練中優(yōu)化的數(shù)學(xué)函數(shù))類似于思維。進化搜索算法的進展利用機器學(xué)習(xí)方法來發(fā)現(xiàn)為特定任務(wù)定制的新架構(gòu),從而產(chǎn)生比人類構(gòu)建的架構(gòu)更高效和更高性能的架構(gòu)。這些都為成像模式特定架構(gòu)的發(fā)展提供了一個獨特的契機。

訓(xùn)練深度學(xué)習(xí)算法依靠圖形處理單元(GPU)來執(zhí)行大規(guī)模的并行矩陣乘法運算。云計算 "隨用隨付 "的GPU資源和具有高內(nèi)存容量的消費級GPU的可用性,都有助于降低對開發(fā)醫(yī)學(xué)成像機器學(xué)習(xí)系統(tǒng)感興趣的研究人員的準入門檻。盡管有了這些進展,但在大型視頻數(shù)據(jù)集上訓(xùn)練復(fù)雜的現(xiàn)代網(wǎng)絡(luò)架構(gòu)需要多個GPU連續(xù)運行數(shù)周。

臨床研究小組應(yīng)該注意,雖然在相對便宜的計算機上訓(xùn)練單一模型可能是可行的,但要找到最佳性能的正確設(shè)置組合,幾乎總是需要使用專門的硬件和計算集群來在合理的時間范圍內(nèi)返回結(jié)果。強大的抽象層(例如,Pytorch Lightning)還允許研究小組建立內(nèi)部標準,以模塊化的形式構(gòu)建其代碼。采用這樣的模塊化方法,神經(jīng)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)集可以很容易地被替換,有助于快速將過去為臨床成像模式設(shè)計的系統(tǒng)重新用于新的用例。這種方法也有助于通過以新的方式集成子組件來擴展這些系統(tǒng)的功能。

4

時間-事件分析和不確定性量化

隨著醫(yī)療人工智能系統(tǒng)從 "診斷 "轉(zhuǎn)向更多的 "預(yù)后 "應(yīng)用,時間到事件的預(yù)測(而不是簡單的二進制預(yù)測)將在臨床環(huán)境中發(fā)現(xiàn)更多的相關(guān)性。時間-事件分析的特點是能夠預(yù)測作為時間函數(shù)的事件概率,而二分類器只能提供一個預(yù)定時間的預(yù)測。與二元分類器不同的是,時間-事件分析考慮到了數(shù)據(jù)的刪減,以考慮到那些失去隨訪或在觀察時間范圍內(nèi)沒有經(jīng)歷相關(guān)事件的人。生存分析在臨床研究中很常見,也是制定循證實踐指南的核心。

用基于圖像和視頻的機器學(xué)習(xí)來擴展傳統(tǒng)的生存模型,可以對組織切片或醫(yī)學(xué)成像掃描中的特征的預(yù)后價值提供強有力的洞察力。例如,將Cox比例損失函數(shù)的擴展整合到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)架構(gòu)中,使得僅從組織病理學(xué)切片中預(yù)測癌癥結(jié)果成為可能。我們不主張使用此類視覺網(wǎng)絡(luò)來規(guī)定如何進行護理,而是主張將其用作標記臨床醫(yī)生遺漏晚期惡性腫瘤特征的病例的方法。

納入時間-事件分析在臨床上將越來越重要,因為在疾病不穩(wěn)定或早期階段具有的可檢測特征,在一定時間后可能會迅速發(fā)展。

例如,可診斷為黃斑變性的視網(wǎng)膜特征往往需要數(shù)年時間才能表現(xiàn)出來。具有初期疾病特征的患者可能會被標記為“正常”,這讓神經(jīng)網(wǎng)絡(luò)試圖預(yù)測未來發(fā)生黃斑變性并發(fā)癥的風險。納入生存和審查的概念可能有助于訓(xùn)練系統(tǒng)更好地將正常人與那些輕度、中度和正在快速發(fā)展中的疾病個體分開。同樣,訓(xùn)練視覺網(wǎng)絡(luò)進行時間-事件分析可能會在用于肺癌篩查,有助于根據(jù)預(yù)期的侵略性擴散潛力進行風險分層。這種轉(zhuǎn)化工作的關(guān)鍵是要有強大的、經(jīng)過充分驗證的Cox回歸的深度學(xué)習(xí)擴展。在過去的幾年里,已經(jīng)描述了大量Cox模型的深度學(xué)習(xí)實現(xiàn)。Kvamme等人提出了一系列的Cox模型的比例和非比例擴展,過去還描述了更多的生存方法的實現(xiàn),如DeepSurv和DeepHit46(圖2)。

圖 2:量化機器學(xué)習(xí)輸出中的不確定性。

正如 Sensoy 等人所描述的那樣,即使在不正確的情況下,使用標準方法訓(xùn)練的機器學(xué)習(xí)模型也可以非常自信。左圖:當一個數(shù)字被旋轉(zhuǎn)180°時,系統(tǒng)自信地分配了一個從 "1 "到 "7 "的標簽。右圖:然而,用考慮分類不確定性的方法,系統(tǒng)會分配一個不確定性分數(shù),可以幫助提醒臨床醫(yī)生潛在的錯誤預(yù)測。

然而,從可操作的角度來看,時間-事件預(yù)測可能存在問題。在肺癌篩查的假設(shè)示例中,胸部計算機斷層掃描中的可疑結(jié)節(jié)可能會產(chǎn)生一個預(yù)測,即在有或沒有適當?shù)闹委煾深A(yù)的情況下的中位生存率。對臨床醫(yī)生來說,了解機器學(xué)習(xí)系統(tǒng)對個體病人的預(yù)測的有多大的把握可能是很有意思的。當對一項任務(wù)沒有把握時,人類往往會謹慎行事。機器學(xué)習(xí)系統(tǒng)也反映了這一點,其中輸出是 0 到 1 范圍內(nèi)的“類別概率”或“正確的可能性”。然而,目前文獻中描述的大多數(shù)醫(yī)學(xué)影像機器學(xué)習(xí)系統(tǒng),當提供給模型的輸入數(shù)據(jù)超出分布范圍時,缺乏說 "我不知道 "的隱含能力。例如,即使輸入圖像是貓的圖像,訓(xùn)練用于從計算機斷層掃描(例如)預(yù)測肺炎的分類器在設(shè)計上也被強制提供輸出(肺炎或非肺炎)。

在他們關(guān)于深度學(xué)習(xí)中的不確定性量化的論文中,Sensoy等人用一系列的損失函數(shù)來解決這些問題,這些損失函數(shù)分配了一個 "不確定性分數(shù)",以此來避免錯誤的、但有把握的預(yù)測。在項目的轉(zhuǎn)化階段,當人工智能系統(tǒng)被部署在與人類用戶一起工作的環(huán)境中時,不確定性量化的好處就出現(xiàn)了。信心度量是AlphaFold2的一個關(guān)鍵因素,該蛋白質(zhì)折疊機器學(xué)習(xí)系統(tǒng)在第14屆蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(CASP14)挑戰(zhàn)中取得了無與倫比的準確性,給DeepMind研究團隊提供了一種方法來衡量他們應(yīng)該對正在生成的預(yù)測給予多大的信任。許多不確定性量化方法的實現(xiàn)都是在許可的情況下進行的,并且與常用的機器學(xué)習(xí)框架兼容。納入不確定性量化可能有助于提高高風險的醫(yī)學(xué)成像機器學(xué)習(xí)系統(tǒng)的可解釋性和可靠性,并減少自動化偏差的可能性。

5

可解釋性人工智能和傷害風險

除了量化某些機器學(xué)習(xí)系統(tǒng)的預(yù)測效果外,對于構(gòu)建這些系統(tǒng)的工程師和使用它們的臨床醫(yī)生來說,他們更感興趣的是了解這些機器學(xué)習(xí)系統(tǒng)是如何得出結(jié)論的。顯著性圖和類激活圖實際上仍然是解釋機器學(xué)習(xí)算法如何進行預(yù)測的標準。

Adebayo等人最近的研究表明,僅僅依靠顯著性圖的視覺外觀可能會產(chǎn)生誤導(dǎo),即使乍一看它們與背景相關(guān)。在一系列廣泛的測試中,他們發(fā)現(xiàn),許多流行的生成事后顯著性圖的方法并沒有從模型權(quán)重中獲得真正的意義,而是與 "邊緣檢測器"(簡單映射像素強度之間的尖銳過渡區(qū)域的算法)沒有區(qū)別。此外,即使這些可視化方法奏效,除了機器學(xué)習(xí)算法正在尋找的 "位置 "之外,也幾乎無法破譯。在很多示例中,無論是正確還是錯誤的顯著性圖看起來幾乎是一樣的。當 "患病 "狀態(tài)和 "正常 "狀態(tài)之間的差異需要關(guān)注圖像或視頻的同一區(qū)域時,這些缺點就更加明顯了。

圖3:事后模型解釋的誤導(dǎo)性。

a, Adebayo等人用MNIST數(shù)據(jù)集的真實標簽訓(xùn)練的模型(上)和隨機噪聲訓(xùn)練的模型(下)進行的實驗。當通過大多數(shù)可視化方法進行評估時,在隨機噪聲上訓(xùn)練的模型仍然產(chǎn)生圓形形狀。b,超聲心動圖視圖平面的檢測:錯誤的分類(左上)和正確的分類(右上)都產(chǎn)生類似的顯著性圖(下)。

臨床醫(yī)生應(yīng)該注意,僅靠熱圖不足以解釋 AI 系統(tǒng)的功能。在嘗試用如上圖所示的可視化方法來識別故障模式時,必須謹慎。一個更精細的方法可能涉及到連續(xù)遮擋測試,即在有意掩蓋臨床醫(yī)生用來進行診斷或預(yù)測的區(qū)域后,評估圖像的性能。這個想法非常直觀:在已知對診斷某種疾病很重要的區(qū)域被遮蔽的圖像上運行算法,例如,在試圖診斷心力衰竭時遮蔽左心室,應(yīng)該可以看到性能的急劇下降。

這有助于確認人工智能系統(tǒng)正在關(guān)注相關(guān)領(lǐng)域。特別是在高維醫(yī)學(xué)成像研究的背景下,激活圖可能為視頻類成像研究的某些時間階段的相對重要性提供獨特的見解。例如,某些疾病可能在心臟收縮時表現(xiàn)出病理特征,而對于其他疾病可能需要人們關(guān)注心臟放松時的情況。通常這樣的實驗可能表明,機器學(xué)習(xí)系統(tǒng)從臨床醫(yī)生傳統(tǒng)上不會使用的圖像區(qū)域中識別出潛在的信息特征。除了收集關(guān)于這些機器學(xué)習(xí)系統(tǒng)如何產(chǎn)生其輸出的信息外,嚴格的可視化實驗可能提供一個獨特的機會,可以從被評估的機器學(xué)習(xí)系統(tǒng)中學(xué)習(xí)生物學(xué)的見解。

另一方面,激活與臨床上已知的重要區(qū)域的偏差可能預(yù)示著網(wǎng)絡(luò)正在學(xué)習(xí)非特異性的特征,使它們不太可能很好地歸納到其他數(shù)據(jù)集。

機器學(xué)習(xí)系統(tǒng)學(xué)習(xí)的特征可能取決于架構(gòu)的設(shè)計。更重要的是,機器學(xué)習(xí)系統(tǒng)會根據(jù)提供給它的訓(xùn)練數(shù)據(jù)和目標來學(xué)習(xí)和延續(xù)系統(tǒng)性的不平等。隨著醫(yī)療保健人工智能系統(tǒng)不斷向未來的疾病預(yù)測發(fā)展,必須更加謹慎地考慮到這些群體在獲得醫(yī)療保健和結(jié)果方面的巨大差異。

在最近的評論中,Chen等人深入概述了從問題選擇到部署后階段的潛在偏差來源。在這里,我們重點討論機器學(xué)習(xí)系統(tǒng)開發(fā)早期的潛在解決方案。一些人主張用一些方法來解釋現(xiàn)代機器學(xué)習(xí)系統(tǒng)的其他 "黑箱 "預(yù)測,而其他人則主張一開始就限制使用更可解釋的模型。除了在訓(xùn)練整個 AI 系統(tǒng)時結(jié)合結(jié)構(gòu)化數(shù)據(jù)的輸入之外,中間方法還涉及使用黑盒模型訓(xùn)練醫(yī)學(xué)成像神經(jīng)網(wǎng)絡(luò)。

這可以通過建立 "融合網(wǎng)絡(luò) "來實現(xiàn),其中表格數(shù)據(jù)被合并到基于圖像或視頻的神經(jīng)網(wǎng)絡(luò)中,或其他具有相同基本目標的更先進的方法(生成組合數(shù)據(jù)的低維表示的自動編碼器)。即使沒有將人口統(tǒng)計學(xué)輸入納入高維視覺網(wǎng)絡(luò),研究小組通過比較不同性別、種族、地域和收入群體的表現(xiàn)來審核他們的模型也很重要。

機器學(xué)習(xí)系統(tǒng)可能會無意中學(xué)會進一步延續(xù)和歧視少數(shù)民族和有色人種,因此在模型開發(fā)過程的早期了解這種偏見是至關(guān)重要的。對機器學(xué)習(xí)系統(tǒng)的信任對于更廣泛的采用至關(guān)重要,正如探索特定的特征或變量如何以及為什么會導(dǎo)致預(yù)測一樣,通過結(jié)合顯著性圖和估計特征重要性的模型無關(guān)的方法。

另一種方法是在訓(xùn)練邏輯中限制機器學(xué)習(xí)算法,確保發(fā)生優(yōu)化步驟以控制感興趣的人口統(tǒng)計學(xué)變量。這類似于多變量回歸模型,其中感興趣的風險因素的影響可以獨立于基線人口統(tǒng)計學(xué)變量來研究。從技術(shù)角度看,這將涉及到在訓(xùn)練循環(huán)中插入一個額外的懲罰性損失,并牢記與稍低的模型性能的潛在權(quán)衡。例如,F(xiàn)airlearn 是用于評估傳統(tǒng)機器學(xué)習(xí)模型公平性的流行工具包,并且已經(jīng)開發(fā)了基于 Fairlearn 算法 (FairTorch) 的約束優(yōu)化,這是在訓(xùn)練過程中整合偏差調(diào)整的有希望的探索性嘗試。有許多開源工具包可以幫助研究人員確定不同變量和輸入流(圖像預(yù)測,以及諸如性別和種族等變量)的相對重要性。這些技術(shù)可能允許開發(fā)更公平的機器學(xué)習(xí)系統(tǒng),甚至可以發(fā)現(xiàn)沒有預(yù)料到的隱藏偏見。

6

總結(jié)

盡管計算架構(gòu)和獲取高質(zhì)量數(shù)據(jù)是構(gòu)建良好模型的關(guān)鍵,但為高維成像模式開發(fā)可轉(zhuǎn)換的機器學(xué)習(xí)系統(tǒng)方面還需要努力,以更好地代表數(shù)據(jù)的 "視頻 "性質(zhì)。此外還需要在模型開發(fā)的早期階段建立有助于解決偏見、不確定性和可解釋性的功能。對醫(yī)學(xué)成像和人工智能的質(zhì)疑是有益的,而且在大多數(shù)情況下具有一定道理。

我們希望,通過建立允許研究人員評估臨床表現(xiàn)、醫(yī)院工作流程中的整合、與臨床醫(yī)生的互動以及社會人口傷害的下游風險的功能,可以在改善人工智能的交付方面邁出有意義的步伐。我們希望研究人員會發(fā)現(xiàn)這個觀點很有用,因為它概述了在臨床部署方面等待他們的潛在挑戰(zhàn),并且在解決其中一些問題時可以發(fā)揮指導(dǎo)性意義。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港