展會(huì)信息港展會(huì)大全

如何解釋AI做出的決策?一文梳理算法應(yīng)用場(chǎng)景和可解釋性
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2022-04-15 08:18:55   瀏覽:10899次  

導(dǎo)讀:機(jī)器之心分析師網(wǎng)絡(luò) 作者:Jiying 編輯:H4O 本文結(jié)合《Explanation decisions made with AI》指南,重點(diǎn)對(duì)算法的應(yīng)用場(chǎng)景和可解釋性分析進(jìn)行了梳理總結(jié)。 英國(guó)的 Information Commissioners Office (ICO)和 The Alan-Turing Institute 聯(lián)合發(fā)布了《Explan...

機(jī)器之心分析師網(wǎng)絡(luò)

作者:Jiying

編輯:H4O

本文結(jié)合《Explanation decisions made with AI》指南,重點(diǎn)對(duì)算法的應(yīng)用場(chǎng)景和可解釋性分析進(jìn)行了梳理總結(jié)。

英國(guó)的 Information Commissioner’s Office (ICO)和 The Alan-Turing Institute 聯(lián)合發(fā)布了《Explanation decisions made with AI》指南。該指南旨在為機(jī)構(gòu)和組織提供實(shí)用建議,以幫助向受其影響的個(gè)人解釋由 AI 提供或協(xié)助的程序、服務(wù)和決定,同時(shí)幫助機(jī)構(gòu)和組織遵循歐盟 GDPR 等與個(gè)人信息保護(hù)相關(guān)的政策要求。該指南分為三個(gè)部分,第 1 部分:可解釋 AI 的基礎(chǔ)知識(shí);第 2 部分:可解釋 AI 的實(shí)踐;第 3 部分:可解釋 AI 對(duì)機(jī)構(gòu) / 組織的意義。指南最后給出了主流的 AI 算法 / 模型的適用場(chǎng)景,以及對(duì)這些算法 / 模型的可解釋性分析,可作為實(shí)踐任務(wù)中結(jié)合應(yīng)用場(chǎng)景特點(diǎn)選擇能夠滿足領(lǐng)域要求的可解釋性的 AI 算法 / 模型的參考。

本文結(jié)合《Explanation decisions made with AI》指南,重點(diǎn)對(duì)算法的應(yīng)用場(chǎng)景和可解釋性分析進(jìn)行了梳理總結(jié)。此外,我們還解讀了一篇醫(yī)學(xué)領(lǐng)域可解釋性方法的最新論文《評(píng)估藥物不良事件預(yù)測(cè)中基于注意和 SHAP 時(shí)間解釋的臨床有效性》,以了解關(guān)于可解釋性方法的最新研究進(jìn)展。

1、算法的應(yīng)用場(chǎng)景和可解釋性分析

《Explanation decisions made with AI》指南給出了主流的 AI 算法 / 模型的適用場(chǎng)景,以及對(duì)這些算法 / 模型的可解釋性分析,作者對(duì)主流模型的可解釋性情況進(jìn)行了梳理總結(jié)。

2、評(píng)估藥物不良事件預(yù)測(cè)中基于注意力機(jī)制和 SHAP 時(shí)間解釋的臨床有效性

可解釋的機(jī)器學(xué)習(xí)是一個(gè)新興的領(lǐng)域,它嘗試以更人性化的方式幫助我們理解黑盒分類器模型的決策。特別是對(duì)于醫(yī)療領(lǐng)域,可解釋性對(duì)于提供公開(kāi)透明的分析和合法的決策結(jié)果至關(guān)重要。具備可解釋性,一線醫(yī)療利益相關(guān)者就可以信任模型的決定并采取適當(dāng)?shù)男袆?dòng)。此外,全面的可解釋性能夠確保醫(yī)療實(shí)施的用戶可能獲取監(jiān)管權(quán)利,例如根據(jù)歐盟通用數(shù)據(jù)保護(hù)條例(GDPR):"獲得解釋的權(quán)利"。

在醫(yī)療領(lǐng)域,深度學(xué)習(xí)模型應(yīng)用于電子健康記錄(Electronic Health Record,EHR)數(shù)據(jù)獲得了很好的效果。例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠有效捕捉 EHR 中時(shí)間相關(guān)的和異質(zhì)的數(shù)據(jù)復(fù)雜性。然而,RNNs 的一個(gè)主要缺點(diǎn)是缺乏內(nèi)在的可解釋性。在過(guò)去的研究過(guò)程中,已經(jīng)產(chǎn)生了幾種使 RNNs 更具解釋性的方法,例如,通過(guò)引入注意力機(jī)制使模型本身更易解釋,如用 RETAIN;事后可解釋性框架(如 SHAP)可以應(yīng)用于概述 RNNs 的時(shí)間解釋等等。

RETAIN[2]:用于分析 EHR 數(shù)據(jù)以預(yù)測(cè)病人未來(lái)出現(xiàn)心力衰竭的風(fēng)險(xiǎn)。RETAIN 受注意力機(jī)制啟發(fā),通過(guò)使用一個(gè)兩層的神經(jīng)注意力模型,并對(duì) EHR 數(shù)據(jù)進(jìn)行逆序輸入系統(tǒng),模擬醫(yī)生滿足病人需求及分析病人記錄時(shí)專注于病人過(guò)去診療記錄中某些特殊臨床信息、風(fēng)險(xiǎn)因素的過(guò)程,在保證預(yù)測(cè)結(jié)果準(zhǔn)確性(Accuracy)的同時(shí)確保了結(jié)果的可解釋性(interpretability)。

SHAP[3]:來(lái)自于博弈論原理,SHAP(SHapley Additive exPlanations)為特征分配特定的預(yù)測(cè)重要性值,作為特征重要性的統(tǒng)一度量,能夠解釋現(xiàn)代機(jī)器學(xué)習(xí)中大多數(shù)的黑盒模型,為機(jī)器學(xué)習(xí)模型量化各個(gè)特征的貢獻(xiàn)度。給定當(dāng)前的一組特征值,特征值對(duì)實(shí)際預(yù)測(cè)值與平均預(yù)測(cè)值之差的貢獻(xiàn)就是估計(jì)的 Shapley 值。

然而,關(guān)于醫(yī)學(xué)預(yù)測(cè)領(lǐng)域 RNN 的可解釋技術(shù)所提供的時(shí)間解釋的質(zhì)量,還存在著研究空白。支持和反對(duì)使用注意力作為解釋方法的論點(diǎn)都存在,一些證據(jù)表明,使用注意力得分可以提供足夠的透明度來(lái)解釋單個(gè)特征如何影響預(yù)測(cè)結(jié)果。而還有一些證據(jù)則質(zhì)疑了注意力機(jī)制的有效性,因?yàn)樽⒁饬χ岛透庇^的特征重要性測(cè)量之間的相關(guān)性很弱。在實(shí)踐中,用于模型解釋的可視化平臺(tái)已經(jīng)成功地利用了注意力分?jǐn)?shù)來(lái)為醫(yī)學(xué)預(yù)測(cè)提供解釋。然而,使用注意力值的整體效用還需要更深入的驗(yàn)證,特別是與利用其他可解釋方法(如 SHAP)相比。

本文的主要目標(biāo)是探索具有內(nèi)在可解釋性的 RNN 通過(guò)注意力機(jī)制能夠在多大程度上提供與臨床兼容的時(shí)間解釋,并評(píng)估這種解釋應(yīng)該如何通過(guò)應(yīng)用事后方法來(lái)補(bǔ)充或取代,例如對(duì)黑盒 RNN 的 SHAP。本文具體在藥物不良事件(Adverse Drug Event,ADE)預(yù)測(cè)的醫(yī)學(xué)背景下探討這個(gè)問(wèn)題。結(jié)合我們所解讀的《Explanation decisions made with AI》指南,這篇文章所討論的是典型的必須應(yīng)用非線性統(tǒng)計(jì)技術(shù)的情況。在上一章節(jié)的梳理中,指南已經(jīng)明確“由于曲線(極端非線性)的傾向和輸入變量的高維度,導(dǎo)致 ANN 非常低的可解釋性。ANN 被認(rèn)為是 "黑盒" 技術(shù)的縮影。在適當(dāng)?shù)那闆r下,應(yīng)當(dāng)引入解釋工具輔助 ANN 的使用。”。因此,本文所做的工作就是為應(yīng)用于醫(yī)學(xué)領(lǐng)域的 ANN 方法引入適當(dāng)?shù)妮o助解釋工具(注意力機(jī)制和 SHAP 時(shí)間解釋)。當(dāng)然,正如我們?cè)谥暗慕庾x中分析的,在一些應(yīng)用場(chǎng)景中,簡(jiǎn)單的白盒模型 / 方法無(wú)法滿足應(yīng)用需要,為了保證較高的準(zhǔn)確度 / 預(yù)測(cè)率,有時(shí)必須采用黑盒算法 / 模型。而如何在這種情況下通過(guò)引入輔助解釋工具幫助模型 / 系統(tǒng)的用戶更好的理解解釋,就是下面這篇論文會(huì)詳細(xì)介紹的了。

2.1 方法介紹

令ε=表征 n 個(gè)病人的數(shù)據(jù)庫(kù)。Pj 表征 K 個(gè)病人就診數(shù)據(jù)記錄,Pj = ,其中,x_k 發(fā)生在時(shí)間點(diǎn) t_k,包含一組描述該次診療的醫(yī)療變量,考慮到第 j 個(gè)病人在時(shí)間點(diǎn) t-1 的病史數(shù)據(jù) Pj=,我們的任務(wù)是預(yù)測(cè)時(shí)間點(diǎn) t 的 ADE 的發(fā)生,并準(zhǔn)確地解釋為什么使用病人病史的整個(gè)時(shí)間結(jié)構(gòu)來(lái)預(yù)測(cè)這種 ADE。為了解決這個(gè)問(wèn)題,本文將 RNN 模型和可解釋性技術(shù)結(jié)合起來(lái),對(duì)全局和局部解釋的方法進(jìn)行了比較和臨床驗(yàn)證的分析。

SHAP 框架確定了加法特征重要性方法的類別,以提供模型無(wú)關(guān)的解釋。SHAP 已經(jīng)成為一種流行的模型可解釋性方法,因?yàn)樗鼡碛卸喾N理想的特性,即全局一致的解釋,這是其他事后方法所不能提供的,在這些方法中,局部定義的預(yù)測(cè)可能與全局模型的預(yù)測(cè)不一致。SHAP 建立在使用博弈論中的 Shapley 值的基礎(chǔ)上,在博弈論中,通過(guò)將不同的特征視為聯(lián)盟中的不同玩家來(lái)計(jì)算特定特征值對(duì)選定預(yù)測(cè)的影響。這些特征中的每一個(gè)都可以被看作是對(duì)預(yù)測(cè)的相對(duì)貢獻(xiàn),這些貢獻(xiàn)可以通過(guò)計(jì)算可能的聯(lián)盟中的邊際貢獻(xiàn)的平均值而被計(jì)算為 Shapley 值。

Shapley 值(表示為φ_ij),可以理解為每個(gè)特征值 x_ij 對(duì)每個(gè)樣本 i 和特征 j 的預(yù)測(cè)偏離數(shù)據(jù)集的平均預(yù)測(cè)的程度。在本研究中,每個(gè)醫(yī)療變量的 Shapley 值是針對(duì)病史中的每個(gè)時(shí)間點(diǎn)計(jì)算的,以解釋每個(gè)醫(yī)療變量對(duì)預(yù)測(cè)的影響是如何高于或低于基于背景數(shù)據(jù)集的預(yù)測(cè)平均值的。

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是前饋神經(jīng)網(wǎng)絡(luò)模型的概括,用于處理連續(xù)的數(shù)據(jù),擁有一個(gè)持續(xù)的內(nèi)部狀態(tài) h_t,由 j 個(gè)隱藏單元 h_j 組成,作為處理連續(xù)狀態(tài)之間的依賴關(guān)系的記憶機(jī)制,在本文案例中具體是指跨時(shí)間點(diǎn)的病人診療信息。

本文希望采用一個(gè)基本的 RNN architechure 與 SHAP 相結(jié)合,它應(yīng)該能夠達(dá)到與 RETAIN 相當(dāng)?shù)男阅芩剑詭椭苯颖容^有效性解釋方法,而不會(huì)因?yàn)檫^(guò)度追求可解釋性而影響了模型本身的性能。具體的,本文基本 RNN 模型的內(nèi)部狀態(tài)由門控遞歸單元(GRU)組成,通過(guò)迭代以下方程定義:

其中,r_j 為復(fù)位門,它決定了一個(gè)狀態(tài)中的每一個(gè)第 j 個(gè)隱藏單元的前一個(gè)狀態(tài)被忽略的程度;h_t-1 是上一個(gè)隱藏的內(nèi)部狀態(tài);W 和 U 是包含由網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)權(quán)重的矩陣;z_j 是一個(gè)更新門,決定了隱藏狀態(tài)應(yīng)該如何被更新為新的狀態(tài) h_new;(h_j)^t 表示隱藏單元 h_j 的激活函數(shù);sigm( )表示 sigmoid 函數(shù); 是 Hadamard 積。

本文采用與 SHAP 相結(jié)合的 GRU 架構(gòu),包括兩個(gè) 128 個(gè)單元的堆疊的 GRU 隱藏層,然后是 dropout 層,最后是一個(gè)全連接層,通過(guò)一個(gè) softmax 函數(shù)產(chǎn)生輸出分類概率 y。

為了收集基于注意力的時(shí)間解釋,本文采用了 RETAIN 的 RNN 架構(gòu),在預(yù)測(cè)階段,基于注意力的貢獻(xiàn)分?jǐn)?shù)可以在單個(gè)醫(yī)學(xué)變量層面上確定。這個(gè) RNN 首先由輸入向量 x_i 的線性嵌入組成:

v_i∈R^m 是二進(jìn)制輸入向量 x_i∈R^V 的嵌入,W_emb∈R^(m xV)是嵌入的權(quán)重向量,m 是 V 個(gè)醫(yī)療變量的嵌入維度。使用兩個(gè) RNNs,RNNa 和 RNNb 分別用于生成訪問(wèn)和可變水平的注意力向量α和β。注意力向量是通過(guò)在時(shí)間上向后運(yùn)行 RNN 來(lái)生成的,這意味著 RNNα和 RNNβ都以相反的順序考慮訪問(wèn)嵌入。最后,我們得到每個(gè)病人在第 i 次就診前的情況向量 c_i:

然后,最終預(yù)測(cè)結(jié)果的計(jì)算方法如下:

基于注意力的貢獻(xiàn)得分可以確定對(duì)某一預(yù)測(cè)貢獻(xiàn)最大的訪問(wèn)和醫(yī)療變量。分?jǐn)?shù)可以用下式計(jì)算:

在本文研究中,根據(jù) RNN-GRU 模型修改了 SHAP,使用的是原始 SHAP 實(shí)現(xiàn)的修改代碼庫(kù)。作者采用了深度學(xué)習(xí)模型的梯度解釋方法,該方法基于預(yù)期梯度,使用 1000 個(gè)隨機(jī)樣本的背景數(shù)據(jù),為每個(gè)預(yù)測(cè)提供 Shapley 值的近似值。作者表示,這種特殊的近似處理并不保證 SHAP 的每一個(gè)屬性,但對(duì)于本文的目標(biāo)來(lái)說(shuō)是合適的。

2.2 驗(yàn)證方法介紹

本研究使用的數(shù)據(jù)庫(kù)由 1,314,646 名患者的診斷、藥物和文本記錄組成,這些記錄來(lái)自斯德哥爾摩大學(xué)的瑞典健康記錄研究銀行(HealthBank);這是一個(gè)匿名的患者記錄數(shù)據(jù)庫(kù),最初來(lái)自瑞典斯德哥爾摩卡羅林斯卡大學(xué)醫(yī)院的 TakeCare CGM 患者記錄系統(tǒng)。診斷由《國(guó)際疾病和相關(guān)健康問(wèn)題統(tǒng)計(jì)分類》第十版(ICD-10)中的標(biāo)準(zhǔn)化代碼組成。藥物是根據(jù)解剖學(xué)治療化學(xué)分類系統(tǒng)(ATC)進(jìn)行編碼的。為了減少問(wèn)題的復(fù)雜性,并增加病人的匿名性,非 ADEICD-10 和 ATC 代碼被減少到其更高層次的等級(jí)類別,通過(guò)選擇每個(gè)代碼的前三個(gè)字符獲得。此外,就診是以月為單位定義的,這意味著在一個(gè)日歷月內(nèi)分配給病人的所有代碼和藥物的組合構(gòu)成了一次就診記錄;颊咝枰獡碛兄辽偃芜@樣的記錄,相當(dāng)于至少三個(gè)月的數(shù)據(jù)。與 ADE 相關(guān)的詞袋特征也被提取為二元醫(yī)學(xué)變量。本研究使用了 1813 個(gè)醫(yī)療變量,包括 1692 個(gè) ICD-10 編碼,109 個(gè) ATC 編碼和 12 個(gè)關(guān)鍵詞特征。

評(píng)估實(shí)驗(yàn)將數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,比例分別為 0.7、0.1 和 0.2。在驗(yàn)證集上呈現(xiàn)最佳 AUC 的訓(xùn)練 epoch 所對(duì)應(yīng)的模型配置部署在測(cè)試集上。為每位患者分配了一個(gè)二進(jìn)制標(biāo)簽,以表示在他們最后一次就診時(shí)是否有 ADE。每個(gè)病人樣本都是由包含醫(yī)療變量的就診序列組成的,刪除最后一次就診記錄。為了適應(yīng)因 ADE 相對(duì)罕見(jiàn)而導(dǎo)致的類別不平衡問(wèn)題,作者通過(guò)對(duì)多數(shù)類別的低度取樣創(chuàng)建了一個(gè)平衡的訓(xùn)練集,其中利用了整個(gè)訓(xùn)練集的一個(gè)隨機(jī)分區(qū)。為了說(shuō)明模型行為的可變性,作者使用 3 個(gè)隨機(jī)模型和數(shù)據(jù)分區(qū)配置的平均值生成最終結(jié)果。在直接性能比較中,RNN-GRU 被配置成與 RETAIN 相同的多對(duì)一格式,并使用跨熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。默認(rèn)情況下,模型輸出大于 0.5 就會(huì)映射出一個(gè)正向 ADE 預(yù)測(cè)結(jié)果。

為了建立一個(gè)用于評(píng)估所研究的可解釋方法的臨床基本事實(shí),本文實(shí)驗(yàn)過(guò)程中總共招募了 5 位醫(yī)學(xué)專家,他們擁有醫(yī)學(xué)學(xué)位和豐富的臨床藥理學(xué)經(jīng)驗(yàn)。在第一階段的結(jié)構(gòu)化調(diào)查中,這些專家被要求對(duì)通過(guò) SHAP 和注意力方法確定的全局醫(yī)學(xué)變量進(jìn)行打分,最終收錄了每種方法的前 20 個(gè)變量。評(píng)分包括從 - 5 到 5 的整數(shù),0 不包括在內(nèi),其中 - 5 代表該變量與不發(fā)生 ADE 的可能性有非常高的關(guān)聯(lián),而 5 代表變量與發(fā)生 ADE 的可能性有非常高的關(guān)聯(lián)。然后計(jì)算出臨床醫(yī)生變量得分的平均值。其次,實(shí)驗(yàn)要求醫(yī)學(xué)專家對(duì) 10 個(gè)有代表性的個(gè)體病人記錄中的醫(yī)療變量進(jìn)行同樣的評(píng)分,這些記錄包含了直接發(fā)生在兩個(gè) RNN 都正確預(yù)測(cè)的 ADE 之前的醫(yī)療變量的歷史。這是一個(gè)案例研究任務(wù),受試者對(duì)與過(guò)敏相關(guān)的 ADEs T78.4、T78.3 和 T78.2 的發(fā)生有關(guān)的變量進(jìn)行評(píng)分。此外,受試者還被要求考慮變量本身的重要性、與其他變量的相互作用,以及過(guò)敏性疾病發(fā)生前的時(shí)間段?紤]時(shí)間的方法是將相同醫(yī)療變量的歷史記錄作為月度窗口輸入 RNN 模型。臨床醫(yī)生提供的平均分?jǐn)?shù)被用作評(píng)估可解釋方法對(duì)同一批(10 份)病人記錄所提供的解釋的基本事實(shí)。

本文使用 Top-k Jaccard 指數(shù)比較兩種可解釋方法與臨床專家得分的相似性,該指數(shù)定義為交集大小除以原始集合中排名最高的前 k 個(gè)子集的聯(lián)合大校排名是根據(jù)從臨床專家反應(yīng)的平均值或從可解釋性方法返回的 Shapley 值或注意力貢獻(xiàn)分?jǐn)?shù)分別計(jì)算出的降序絕對(duì)分?jǐn)?shù)來(lái)定義的。最后,向醫(yī)學(xué)專家展示了如何將解釋方法可視化的示例,并要求他們思考這些解釋是否適用于現(xiàn)實(shí)生活中的臨床情況。

2.3 驗(yàn)證結(jié)果

表 1 給出了 RETAIN 與 RNN-GRU 配置在 AUC 和 F1-Score 方面的性能比較,由表 1 中的結(jié)果可看出,用于生成解釋的模型在兩個(gè)模型中的性能相似,RETAIN 的性能略勝一籌。

表 1. 在多對(duì)一預(yù)測(cè)配置中為所選架構(gòu)指定的 ADE 預(yù)測(cè)的 ROC 曲線下的經(jīng)驗(yàn)測(cè)試集面積和微型 F1 分?jǐn)?shù)

2.3.1 全局特征重要性

圖 1 和圖 2 是兩種方法對(duì)醫(yī)學(xué)變量的前 20 個(gè)全局重要性排名,顯示了平均絕對(duì) SHAP 值,以及數(shù)據(jù)測(cè)試集中頂級(jí)特征的平均絕對(duì)關(guān)注值。圖 3 顯示的是所述的利益相關(guān)者參與方法產(chǎn)生的臨床專家平均絕對(duì)分?jǐn)?shù),用于對(duì)醫(yī)學(xué)變量進(jìn)行評(píng)分。為清晰起見(jiàn),作者通過(guò)計(jì)算所有病人就診中出現(xiàn)特定醫(yī)療變量的每個(gè)例子的貢獻(xiàn)系數(shù)分?jǐn)?shù)的平均絕對(duì)值,來(lái)報(bào)告注意力貢獻(xiàn)分?jǐn)?shù)的全局重要性。

圖 1. 根據(jù) RETAIN 模型的平均注意力貢獻(xiàn)得分,排名最前的醫(yī)學(xué)變量。ATC 代碼前綴為 "M"

圖 2. 根據(jù)平均 SHAP 值對(duì) RNN-GRU 模型輸出的影響,排名靠前的醫(yī)療變量。ATC 代碼前綴為 "M"。標(biāo)記為 KWord * 的關(guān)鍵詞特征

圖 3. 根據(jù)臨床專家定義的分?jǐn)?shù),排名靠前的醫(yī)療變量。ATC 代碼前綴為'M'

表 2 給出了 SHAP 和注意力排名與醫(yī)學(xué)專家排名的 top-k Jaccard 指數(shù)比較結(jié)果,由表 2 可看出與注意力排名相比,SHAP 在每個(gè) k 值上都提供了與醫(yī)學(xué)專家更相似的總體解釋。

表 2. 可解釋性方法和臨床專家對(duì)最重要的醫(yī)療變量的排名之間的 Top-k Jaccard 相似性比較

2.3.2 過(guò)敏癥 ADEs 的個(gè)別解釋的案例研究

表 3 給出了過(guò)敏癥 ADEs 案例研究的結(jié)果,將 10 個(gè)有代表性的案例的平均臨床專家得分排名與注意力和 SHAP 提供的同等解釋得分排名進(jìn)行比較。對(duì)于每個(gè) Jaccard 指數(shù),所選的前 k% 基于注意力的得分與臨床得分最相似。

表 3. 可解釋性方法和臨床專家對(duì)單個(gè)病人記錄中最重要的醫(yī)療變量的平均 Top-k% Jaccard 相似度比較

2.3.3 對(duì)臨床遇到的問(wèn)題進(jìn)行可視化解釋的反饋

圖 4 展示了 SHAP 的時(shí)間解釋,表 4 給出了注意力機(jī)制的對(duì)應(yīng)時(shí)間解釋。SHAP 的解釋是通過(guò) SHAP 的特征相加的性質(zhì)來(lái)提供的,以便直觀地看到醫(yī)療特征的存在或不存在是如何通過(guò)它們?cè)诿總(gè)時(shí)間點(diǎn)的 Shapley 值的總和來(lái)定義預(yù)測(cè)的。對(duì)于注意力的解釋,這種可視化是不可能的,因?yàn)樨暙I(xiàn)值只反映相對(duì)重要性。

受試者得到了兩種方法的描述,并被要求回答:他們更喜歡哪種解釋,他們?cè)诶斫饨忉寱r(shí)面臨哪些挑戰(zhàn),以及對(duì)改進(jìn)解釋的建議。首先,5 位專家中的 4 位更喜歡 SHAP 提供的解釋,原因是它是一個(gè)更簡(jiǎn)單的解釋,能夠比注意力解釋更有效地理解 ADE 風(fēng)險(xiǎn)的完整觀點(diǎn)。其次,受試者的主要顧慮是,解釋中提供的信息太多,在大多數(shù)臨床上無(wú)法使用,而且解釋一個(gè)變量的缺失是如何導(dǎo)致風(fēng)險(xiǎn)的也不直觀。改進(jìn)的建議是,在可能的情況下顯示更少的醫(yī)療變量,以提高理解解釋的效率;其次,確保使用這種解釋的臨床醫(yī)生得到詳細(xì)的培訓(xùn)。

圖 4. 向臨床專家展示 SHAP 的解釋。ADE 真正陽(yáng)性預(yù)測(cè)的示例,顯示用 SHAP 評(píng)估的 7 個(gè)病人就診時(shí)間的 ADE 風(fēng)險(xiǎn)的發(fā)展,最后一次就診提示有 ADE。賦值 = 0 和 = 1 分別表示沒(méi)有或存在導(dǎo)致風(fēng)險(xiǎn)的變數(shù)

表 4. 與圖 4 相對(duì)應(yīng)的真陽(yáng)性 ADE 解釋的示例,使用 RETAIN 模型與藥物、診斷和文本數(shù)據(jù)。訪問(wèn)得分和預(yù)測(cè)得分指的是相應(yīng)的 ADE 代碼的 softmax 概率

2.4 文章討論

首先,本文實(shí)驗(yàn)表明 RETAIN 和 RNN-GRU 模型的預(yù)測(cè)性能結(jié)果相似。這一發(fā)現(xiàn)對(duì)于臨床有效性評(píng)估很重要,因?yàn)槲覀儾幌MT發(fā)一種偏見(jiàn),即某一方法產(chǎn)生的解釋在臨床上的有效性較差,這是由于模型的性能較差,而不是解釋方法本身的原因。此外,考察圖 1 和圖 2 中的全局特征解釋,根據(jù)與圖 3 中的臨床專家排名的比較,這兩個(gè)排名都是獨(dú)特的,在醫(yī)學(xué)上基本符合 ADE。

SHAP 為每個(gè) top-k Jaccard 指數(shù)提供了更多的臨床驗(yàn)證的全局解釋,這在很大程度上受到了它對(duì)沒(méi)有出現(xiàn)在注意力排名中的文本特征的高排名的影響。就單個(gè)解釋而言,注意力為每個(gè) top-k Jaccard 指數(shù)提供了最具有臨床有效性的解釋,這表明,由于注意力具有捕捉和利用相關(guān)領(lǐng)域知識(shí)的明顯能力,不應(yīng)該將其作為一種可解釋的方法加以否定。

最后,從圖 4 和表 4 中醫(yī)學(xué)專家對(duì)解釋的反饋中得到的重要啟示是,由于 SHAP 在可視化特征對(duì)預(yù)測(cè)的貢獻(xiàn)方面具有加法特性,因此它能提供更緊湊和高效的解釋。這種緊湊性對(duì)于效率優(yōu)先的實(shí)時(shí)臨床會(huì)診是至關(guān)重要的。另一方面,注意力機(jī)制不能提供同樣的緊湊性或加法性,因此對(duì)于詳細(xì)的離線解釋或不受時(shí)間限制的臨床會(huì)診可能更可齲

3、總結(jié)

由 ICO 和 The Alan-Turing Institute 共同發(fā)起的 "解釋用人工智能做出的決定(Explanation decisions made with AI)"(2020 年)是對(duì)使用人工智能系統(tǒng)的組織中的問(wèn)責(zé)制和透明度要求的實(shí)際轉(zhuǎn)化的一次廣泛探索。

在過(guò)去的十幾年中,AI 算法 / 模型獲得了巨大的發(fā)展,從 “白盒” 不斷改進(jìn)為“黑盒”,不管是產(chǎn)業(yè)界還是學(xué)術(shù)界,都可以看到大量追求 AI 決策性能提升的工作,將識(shí)別率提升 1%、將預(yù)測(cè)準(zhǔn)確度提升 0.5%、在復(fù)雜背景環(huán)境下提升輸出準(zhǔn)確度、提高推薦排序的準(zhǔn)確性等等。隨著數(shù)字經(jīng)濟(jì)的發(fā)展,國(guó)內(nèi)外都越來(lái)越重視算法 / 模型的公平性、透明性、可解釋性和問(wèn)責(zé)制。為了讓技術(shù)更好的服務(wù)于人類,而不是讓人類越來(lái)越被算法所奴役,解釋用 AI 做出的決策相信是未來(lái)大家都會(huì)越來(lái)越關(guān)注的問(wèn)題,我們也期待更多更有效、更可行的可解釋性方法、工具的出現(xiàn)。

本文參考引用的文獻(xiàn)

[1] Information Commissioner’s Office (ICO)& The Alan-Turing Institute,Explanation decisions made with AI,2020 May 2020 - 1.0.47

[2] E. Choi, M. T. Bahadori, J. Sun, J. Kulas, A. Schuetz, and W. Stewart, “Retain: An interpretable predictive model for healthcare using reverse time attention mechanism,” in Advances in Neural Information Processing Systems, 2016, pp. 35043512.

[3]S. M. Lundberg and S.-I. Lee, “A unified approach to interpreting model predictions,” in Advances in neural information processing systems, 2017, pp. 47654774.


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港