BiomedParse團(tuán)隊 投稿
量子位 | 公眾號 QbitAI
用AI大模型一鍵解析MRI、CT和病理學(xué)等九大生物醫(yī)學(xué)成像模式。
不僅復(fù)雜、不規(guī)則形狀對象能高精度識別:
而且通過對象識別閾值建模,模型能夠檢測無效的提示請求,并在圖像中不存在指定對象時拒絕分割。
用戶更是無需手動進(jìn)行標(biāo)注或邊界框操作
只需通過簡單的臨床語言提示指定目標(biāo)對象,例如“腫瘤邊界”或“免疫細(xì)胞”,便能讓AI準(zhǔn)確識別、檢測并分割圖像中的相關(guān)區(qū)域。
還可一次性同時分割和標(biāo)記所有感興趣的生物醫(yī)學(xué)對象:
這就是來自微軟、華盛頓大學(xué)等的研究團(tuán)隊最新發(fā)布的基礎(chǔ)模型BiomedParse,已登Nature Methods。
醫(yī)學(xué)圖像的成像模式差異巨大(如CT、MRI、病理切片、顯微鏡圖像等),傳統(tǒng)上需要訓(xùn)練專家模型進(jìn)行處理。
而BiomedParse,通過文本驅(qū)動圖像解析將九種醫(yī)學(xué)成像模式整合于一個統(tǒng)一的模型中,聯(lián)合預(yù)訓(xùn)練處理對象識別、檢測與分割任務(wù)。
無論是影像級別的器官掃描,還是細(xì)胞級別的顯微鏡圖像,BiomedParse都可以直接利用臨床術(shù)語進(jìn)行跨模式操作,為科學(xué)家和臨床醫(yī)生提供了更統(tǒng)一、更智能的多模式圖像解析方案。
在分割不規(guī)則形狀的生物醫(yī)學(xué)對象方面,BiomedParse相較傳統(tǒng)模型表現(xiàn)卓越。通過將圖像區(qū)域與臨床概念關(guān)聯(lián),相比手動框選分割精度提升39.6%,提高了在關(guān)鍵任務(wù)中的可靠性。
目前,研究團(tuán)隊已將BiomedParse開源并提供Apache 2.0許可,相關(guān)演示demo和Azure API均已上線。
只需文字提示,精度超越SOTA為支持BiomedParse的預(yù)訓(xùn)練,研究團(tuán)隊利用GPT-4從45個公開的醫(yī)學(xué)圖像分割數(shù)據(jù)集生成了首個覆蓋對象識別、檢測和分割任務(wù)的數(shù)據(jù)集BiomedParseData。
該數(shù)據(jù)集包含超過600萬個圖像、分割標(biāo)注與文字描述三元組,涵蓋64種主要生物醫(yī)學(xué)對象類型及82個細(xì)分類別,涉及CT、MRI、病理切片等九種成像模式。
通過GPT-4的自然語言生成能力,研究人員將散落在各種現(xiàn)有數(shù)據(jù)集中的分割任務(wù)用統(tǒng)一的醫(yī)學(xué)概念和語言描述整合起來,讓BiomedParse能在更大,更多樣的數(shù)據(jù)中融會貫通。
在測試集上,BiomedParse在Dice系數(shù)上顯著超越了當(dāng)前最優(yōu)方法MedSAM和SAM,并且無需對每個對象手動提供邊界框提示。
即使在給MedSAM和SAM提供精準(zhǔn)邊界框的情況下,BiomedParse的純文本提示分割性能仍能超越5-15個百分點。
此外,BiomedParse的性能還優(yōu)于SEEM、SegVol、SAT、CellViT、Swin UNETR等多個模型,尤其在復(fù)雜不規(guī)則的對象識別上表現(xiàn)突出。
生物醫(yī)學(xué)圖像中的不規(guī)則對象一直是傳統(tǒng)模型的難題,而BiomedParse通過聯(lián)合對象識別和檢測任務(wù),通過文本理解實現(xiàn)了對對象特定形狀的建模。對復(fù)雜對象的識別精度遠(yuǎn)超傳統(tǒng)模型,且在多模態(tài)數(shù)據(jù)集中進(jìn)一步凸顯了其優(yōu)勢。
展望未來,團(tuán)隊表示BiomedParse擁有廣闊的發(fā)展?jié)摿Γ蛇M(jìn)一步擴(kuò)展至更多成像模式和對象類型,并與LLaVA-Med等高級多模態(tài)框架集成,支持“對話式”圖像分析,實現(xiàn)數(shù)據(jù)交互式探索。
作者簡介論文共同一作及通訊作者均為華人學(xué)者,分別來自微軟和華盛頓大學(xué)。
趙正德(Theodore Zhao),論文一作,為該研究作出主要技術(shù)貢獻(xiàn)。
微軟高級應(yīng)用科學(xué)家,現(xiàn)主要研究方向包括多模態(tài)醫(yī)療AI模型,圖像分割與處理,大模型的安全性分析。
本科畢業(yè)于復(fù)旦大學(xué)物理系,博士畢業(yè)于華盛頓大學(xué)應(yīng)用數(shù)學(xué)系,期間研究希爾伯特-黃變換和分?jǐn)?shù)布朗運動的多尺度特征,以及隨機優(yōu)化在醫(yī)療領(lǐng)域的應(yīng)用。
顧禹(Aiden Gu),論文一作。
微軟高級應(yīng)用科學(xué)家。本科畢業(yè)于北京大學(xué)微電子與經(jīng)濟(jì)專業(yè)。
其研究方向?qū)W⒂卺t(yī)療健康、生物醫(yī)學(xué),以及機器人多模態(tài)模型。代表性工作包括創(chuàng)建首個醫(yī)學(xué)領(lǐng)域特定的大語言模型PubMedBERT,以及患者旅程模擬模型BiomedJourney。
潘海峰(Hoifung Poon),論文通訊作者。
微軟研究院健康未來(Health Futures)General Manager,華盛頓大學(xué)(西雅圖)計算機博士。研究方向為生成式AI基礎(chǔ)研究以及精準(zhǔn)醫(yī)療應(yīng)用。在多個頂級AI會議上獲得最佳論文獎,在HuggingFace上發(fā)布的生物醫(yī)學(xué)開源大模型總下載量已達(dá)數(shù)千萬次,在《自然》上發(fā)表首個全切片數(shù)字病理學(xué)模型GigaPath,部分研究成果開始在合作的醫(yī)療機構(gòu)和制藥公司中轉(zhuǎn)化為應(yīng)用。
王晟(Sheng Wang),論文通訊作者。
華盛頓大學(xué)計算機科學(xué)與工程系助理教授,微軟研究院訪問學(xué)者。
他專注于人工智能與醫(yī)學(xué)的交叉研究,利用生成式AI解決生物醫(yī)學(xué)問題。其科研成果已在《Nature》《Science》《Nature Biotechnology》《Nature Methods》和《The Lancet Oncology》等頂級期刊上發(fā)表十余篇論文,并被Mayo Clinic、Chan Zuckerberg Biohub、UW Medicine、Providence等多家知名醫(yī)療機構(gòu)廣泛應(yīng)用。
Mu Wei,論文通訊作者。
微軟Health and Life Sciences首席應(yīng)用科學(xué)家,擁有十余年醫(yī)療與金融領(lǐng)域的AI模型研發(fā)與部署經(jīng)驗。
他的團(tuán)隊聚焦于健康領(lǐng)域的多模態(tài)AI模型,研究成果涵蓋生物醫(yī)學(xué)圖像解析、數(shù)字病理學(xué)基礎(chǔ)模型、臨床文檔結(jié)構(gòu)化的大模型應(yīng)用以及大模型錯誤率估計等方向。
感興趣的童鞋可自行查閱~
論文地址:https://www.nature.com/articles/s41592-024-02499-w項目網(wǎng)頁:https://microsoft.github.io/BiomedParse/代碼:https://aka.ms/biomedparse-releaseAzure API網(wǎng)頁:https://ai.azure.com/explore/models/MedImageParse/version/3/registry/azureml?flight=ModelCatalogIndustryFilters&tid=72f988bf-86f1-41af-91ab-2d7cd011db47