圖片來源@視覺中國
文 | vb動脈網
千禧年后的第二個十年,移動醫(yī)療、人工智能等前沿技術的發(fā)展喚起醫(yī)療數(shù)據(jù)的需求。作為算法、算力、數(shù)據(jù)三要素中最常見但又最難獲取的要素,醫(yī)療數(shù)據(jù)彼時仍以碎片化、非標準化的形態(tài)分散于醫(yī)院各個系統(tǒng)中。為了尋找智能模型所需的養(yǎng)料,大量科技醫(yī)療創(chuàng)業(yè)公司找到三級醫(yī)院進行合作,在幫助醫(yī)院進行數(shù)據(jù)治理的同時,打造智慧化的臨床應用。
醫(yī)院科室的參與、政策對于信息化建設的強制要求,合力促使醫(yī)院圍繞互聯(lián)互通、智慧醫(yī)院等方向開啟規(guī);ㄔO。不少醫(yī)院開始打造醫(yī)院大數(shù)據(jù)中心、科研級大數(shù)據(jù)平臺,完成了醫(yī)療大數(shù)據(jù)基礎設施的構造,也與企業(yè)合作開發(fā)了不少智慧化的應用。
但在2019年中美貿易爭端開啟后,包含個人私密信息醫(yī)療數(shù)據(jù)成為關注重點之一。由于對此類數(shù)據(jù)進行治理、集成、應用存在一定泄露風險,醫(yī)院與企業(yè)的合作目的開始轉變。
為避免政策風險帶來的不確定性,不少醫(yī)院期望大數(shù)據(jù)及其研究結果以醫(yī)院范圍為界限展開,使得醫(yī)療大數(shù)據(jù)的研究重心轉向醫(yī)院科研需求。此趨勢下,醫(yī)療大數(shù)據(jù)產業(yè)轉化一定程度減少,醫(yī)療大數(shù)據(jù)行業(yè)發(fā)展整體放慢。
不過,政治因素并非鉗制醫(yī)療大數(shù)據(jù)發(fā)展的唯一因素,更需關注的是該類建設投資回報及參與度問題。
對于絕大多數(shù)而言醫(yī)院而言,院內外規(guī)范化的IT建設是一項難以計量回報的投資,在缺乏合適的工具估算大數(shù)據(jù)建設的產出時,醫(yī)院對于相關投資仍然持有保守態(tài)度。
此外,要讓該項建設發(fā)揮價值,醫(yī)院動用資金支持僅是一部分,更重要的是醫(yī)院深入了解醫(yī)療大數(shù)據(jù)建設內容,將系統(tǒng)與業(yè)務有效融合,才能構造行之有效的大數(shù)據(jù)體系。
從目前來看,院內已存在各類標準推動醫(yī)療數(shù)據(jù)的互通互認、治理應用,但還需完整做好每一類場景全流程數(shù)據(jù)的收集、清洗、歸納、存儲都一系列步驟,形成多模態(tài)、跨流程、可服務于應用的大數(shù)據(jù),真正將醫(yī)療數(shù)據(jù)沉淀下來。但就目前而言,醫(yī)院缺乏積極性,去實踐全流程、高參與度的數(shù)據(jù)治理。
將數(shù)據(jù)的“生產要素”屬性應用起來或是上述種種問題的解決之道。畢竟,只有將醫(yī)療大數(shù)據(jù)的被動應用轉變?yōu)橹鲃庸芾,才談得上用好醫(yī)療大數(shù)據(jù),才有幾乎觸及數(shù)據(jù)的“流通”。
挖掘數(shù)據(jù)的“生產要素”價值:
政策技術雙重助力
自2020年4月,中共中央、國務院印發(fā)《關于構建更加完善的要素市場化配置體制機制的意見》,將“數(shù)據(jù)”列為勞動力、土地、資本等之外的第五大生產要素后,幾乎每隔一段時間都會新增大數(shù)據(jù)的利好政策,推動這一行業(yè)的發(fā)展。
具體而言,2021年11月,《“十四五”大數(shù)據(jù)產業(yè)發(fā)展規(guī)劃》提出了一個精確的總體目標,要求“到2025年我國大數(shù)據(jù)產業(yè)測算規(guī)模突破3萬億元,年均復合增長率保持25%左右,創(chuàng)新力強、附加值高、自主可控的現(xiàn)代化大數(shù)據(jù)產業(yè)體系基本形成。”
2022年12月,《中共中央 國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(后簡稱:數(shù)據(jù)二十條)對外發(fā)布則以構建基礎制度為目標,從數(shù)據(jù)產權、流通交易、收益分配、安全治理等四個方面,對制定數(shù)據(jù)基礎制度進行了全面部署,最終構建公平與效率相統(tǒng)一的數(shù)據(jù)要素按貢獻參與分配的制度。
2023年3月,國家數(shù)據(jù)局組建完畢,中央網絡安全和信息化委員會辦公室、國家發(fā)展和改革委員會共同管理,兩大機構將在后續(xù)協(xié)調推進數(shù)據(jù)基礎制度建設,統(tǒng)籌數(shù)據(jù)資源整合共享和開發(fā)利用,統(tǒng)籌推進數(shù)字中國、數(shù)字經濟、數(shù)字社會規(guī)劃和建設等。
圖片來源:蛋殼研究院
技術方面的迭代同樣推動人們重新審視數(shù)據(jù)這一生產要素的價值。2022年末,大語言模型(LLM)ChatGPT的火熱帶動人們重新審視人工智能的價值,并聚焦于背后支撐應用的技術生成式AI(Generative AI)。2023年開始,不少醫(yī)療IT公司、醫(yī)療AI公司、互聯(lián)網醫(yī)療公司均已開發(fā)出自己的大語言模型,并嘗試在醫(yī)院場景之中開發(fā)各項新式AI應用。
拆解這一新興人工智能仍是算法、算力、數(shù)據(jù)、知識四要素,但對于國內企業(yè)而言,算法部分均用的開源模型,算力可以根據(jù)需求購置GPU實現(xiàn),知識可以通過向權威知識庫購買或達成戰(zhàn)略合作得到,唯獨數(shù)據(jù)需要企業(yè)與醫(yī)院達成合作,在脫敏、不出院的情況下訓練模型。
政策與技術雙向驅動,醫(yī)療大數(shù)據(jù)產業(yè)再度火熱。如今,更多醫(yī)院開始參與大數(shù)據(jù)基礎及應用建設,大企業(yè)們也嗅到風向,廣泛參與其中,為產業(yè)注入新的活力。
新一代醫(yī)院數(shù)據(jù)中心
拉開千億市場序幕
要將數(shù)據(jù)有效的利用起來,第一步總是收集數(shù)據(jù)。伴隨信息技術和網絡技術的跨越式發(fā)展,現(xiàn)代醫(yī)院的運營特征表現(xiàn)為醫(yī)療業(yè)務的智能化與應用部署的敏捷化,使得醫(yī)院業(yè)務產生的信息朝著復雜化、專業(yè)化、海量化的方向發(fā)展,并對各系統(tǒng)之間的互聯(lián)互通提出更高層級的要求。
此趨勢下,圍繞網絡帶寬、服務器性能、交換機處理能力等設備運行特征建設數(shù)據(jù)中心機房的思路無法應對新型數(shù)據(jù)結構下涌現(xiàn)的數(shù)據(jù)安全保障、線上業(yè)務支撐、數(shù)據(jù)資產管理等需求,亟需引入新的IT架構來應對新的業(yè)務對計算資源、存儲資源、網絡資源的新要求。
因此,部分醫(yī)院開始轉變信息化建設思路,借助云技術打造新一代醫(yī)院數(shù)據(jù)中心,綜合利用各類數(shù)據(jù)服務臨床、決策和科研過程,提高醫(yī)院管理的科學化、規(guī)范化、精細化水平。
新一代醫(yī)院數(shù)據(jù)中心架構 (數(shù)據(jù)來源:蛋殼研究院、《新一代醫(yī)院數(shù)據(jù)中心建設指導》)
傳統(tǒng)大數(shù)據(jù)中心分為兩類形式。一類是以業(yè)務支撐為主、整合電子病歷的臨床數(shù)據(jù)中心(CDR),其作用是支撐日常的醫(yī)療活動,收集與呈現(xiàn)醫(yī)療過程中的數(shù)據(jù),繪制常規(guī)報表統(tǒng)計等。另一類以管理和科研為主的大數(shù)據(jù)中心,其作用是面向臨床研究、醫(yī)院管理與智能產品開發(fā),滿足科研、管理活動中的數(shù)據(jù)批量處理的挖掘與分析需求。
目前國內大部分全院級CDR完成了醫(yī)院各業(yè)務數(shù)據(jù)的物理匯聚,但數(shù)據(jù)質量仍處于原始狀態(tài),對數(shù)據(jù)的深層架構與邏輯關系尚未進行梳理,針對現(xiàn)有CDR開展臨床相關的數(shù)據(jù)分析挖掘仍具有極大困難。
此外,由于不同科研數(shù)據(jù)庫一般采用自定義的數(shù)據(jù)模型,在建立多中心數(shù)據(jù)池、數(shù)據(jù)共享或數(shù)據(jù)合并時需要花費大量時間和資源進行數(shù)據(jù)映射和重新編碼,一旦出錯很容易導致計算機數(shù)據(jù)調用、分析過程和結果出現(xiàn)混亂。
要解決傳統(tǒng)大數(shù)據(jù)中心存在的問題,新一代大數(shù)據(jù)中心應具備以下能力。
1. 滿足醫(yī)院創(chuàng)新業(yè)務需求。提供多種大數(shù)據(jù)應用開發(fā)工具并支撐大數(shù)據(jù)應用部署,例如利用NLP從海量電子病歷數(shù)據(jù)中提取知識,輔助臨床科研;利用深度學習從海量的醫(yī)學影像中訓練人工智能模型,輔助醫(yī)生臨床診斷。
2. 滿足醫(yī)院管理發(fā)展的需求。支撐人工智能應用為醫(yī)院運營管理提供更深的洞察和更敏捷的反應;支撐實時流計算,能夠應用大數(shù)據(jù)分析技術并將分析結果實時反饋到臨床業(yè)務;支撐邊緣計算與物聯(lián)網技術實現(xiàn)智慧后勤。
3. 滿足醫(yī)院智慧應用配置需求。支持搭建安全、有彈性、可擴展的對外服務平臺;支撐區(qū)塊鏈等創(chuàng)新技術解決數(shù)據(jù)共享、流通、歸集和安全問題。
4. 滿足跨部門業(yè)務協(xié)同需求。支撐云網融合技術,能夠在保證內外網間數(shù)據(jù)交換的安全性的前提下以打通院內系統(tǒng)、外部系統(tǒng)及云上系統(tǒng),以實現(xiàn)醫(yī)院業(yè)務的連續(xù)性。
5. 滿足數(shù)據(jù)治理需求。可提供的全局數(shù)據(jù)服務需要覆蓋數(shù)據(jù)標準管理、基礎數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)匯聚、數(shù)據(jù)深度加工、數(shù)據(jù)資產管理、數(shù)據(jù)質量管理、數(shù)據(jù)安全管理等對數(shù)據(jù)的全生命周期治理服務。
6. 滿足數(shù)據(jù)服務需求。支撐醫(yī)院內部實現(xiàn)系統(tǒng)互聯(lián)互通和數(shù)據(jù)對接共享的需要;醫(yī)院提升海量數(shù)據(jù)資源質量的需要,數(shù)據(jù)驅動醫(yī)院進行科學決策的需要,面對數(shù)據(jù)安全風險的需要。
當然,除了建設新一代醫(yī)院數(shù)據(jù)中心外,醫(yī)院也需補全影像數(shù)據(jù)中心、臨床科研數(shù)據(jù)庫等基礎設施的建設,進一步做好數(shù)據(jù)的治理歸納,已在后續(xù)的應用之中更好地發(fā)揮價值。
大語言模型,
數(shù)據(jù)治理的新動力?
盡管NLP的發(fā)展有力推進了智慧醫(yī)院的建設,但落在具體場景中,如自動書寫病案、智能問診、智能隨訪等,該技術仍然沒有脫離關鍵詞映射數(shù)據(jù)庫的邏輯,沒有能夠真正做到智慧智能。
大語言模型(LLM)的出現(xiàn)能夠一定程度解決現(xiàn)有技術面臨的智能程度不夠問題。在分析文本類信息時,LLM不僅能夠從大量給定信息中找到任務需要的關鍵項,還能對未知信息進行預設,綜合上下文做出推理。
相較于千億級參數(shù)的通用大模型,醫(yī)療中文本類大模型的參數(shù)可控制于100萬以內,包含文本與多模態(tài)影像的大模型參數(shù)可控制于500萬內,因而非頭部互聯(lián)網公司也能參與醫(yī)療LLM的建設。
醫(yī)療大模型企業(yè)產業(yè)圖譜(截至2023年9月20日,數(shù)據(jù)來源:蛋殼研究院)
不過,從概念到落地,現(xiàn)階段的醫(yī)療LLM仍需解決兩個問題。
一是部署。當企業(yè)將大模型部署至醫(yī)院時,需要醫(yī)院購置相應GPU驅動模型運行。通常而言,服務一個科室的應用需要的GPU成本在數(shù)千元左右,但要負擔全院需求,醫(yī)院可能劃分百萬元級的成本購置芯片,因此,要推動LLM應用大規(guī)模落地,一方面需要推動醫(yī)院主動部署LLM運行環(huán)境,另一方面需要企業(yè)方優(yōu)化模型,盡可能降低醫(yī)院在基礎設施方面付出的成本。
二是應用。目前基于LLM構建的智能應用仍然沒有脫離傳統(tǒng)醫(yī)療IT應用的范疇,如病案質控、智能問診等,企業(yè)需要圍繞醫(yī)院需求構造“殺手級”應用,喚起醫(yī)院購置的LLM的需求,進而實現(xiàn)LLM 的規(guī)模落地。
構建LLM需要的成本不菲,且需大量醫(yī)療數(shù)據(jù),因而競爭仍存在于頭部醫(yī)療IT企業(yè)與互聯(lián)網企業(yè)間。由于LLM應用需置于醫(yī)療信息系統(tǒng)中,因而非醫(yī)療IT公司只能使用外掛的方式進入IT環(huán)境,操作流暢性受限,相較之下,擁有醫(yī)療信息管理系統(tǒng)的醫(yī)療IT公司占有優(yōu)勢。同時,LLM對于醫(yī)院的架構要求嚴苛,能夠支持AI應用的智能架構將比傳統(tǒng)EA企業(yè)架構更好展現(xiàn)LLM的能力界限。
此外,現(xiàn)有的垂直醫(yī)療大模型幾乎都是基于臨床外的醫(yī)療數(shù)據(jù)培育而來。伴隨行業(yè)競爭的不斷加劇,臨床數(shù)據(jù)這一要素或將重新回到LLM角逐的核心位置,進一步推動數(shù)據(jù)治理的進行。
應用級醫(yī)療大數(shù)據(jù)的交易可能
那么,從“生產要素”到“資產”,醫(yī)療數(shù)據(jù)還有多遠?
與勞動力、資本等生產要素相似,醫(yī)療數(shù)據(jù)的價值體現(xiàn)于應用與流通過程。但無論是在數(shù)據(jù)平臺間應用流轉,還是未來他通過交易所變更歸屬主體,只要存在流動,必然會數(shù)據(jù)泄露、數(shù)據(jù)濫用等問題。因此,只有保障醫(yī)療數(shù)據(jù)流動的安全,才能保障醫(yī)療大數(shù)據(jù)產業(yè)的良性發(fā)展。
此外,一個穩(wěn)定數(shù)據(jù)交易市場是保障數(shù)據(jù)流通效率的基礎所在。因而必須構建數(shù)據(jù)的需求方和數(shù)據(jù)的擁有方的有效對接機制,形成穩(wěn)定的上下游的關系,并為數(shù)據(jù)所有者提供獲得專利權和著作權有國家知識產權保護等法律保護。
雖然國內已有不少大數(shù)據(jù)交易所開始運營,但數(shù)據(jù)要素流通市場整體形式仍較為單一,通過交易所掛牌數(shù)據(jù)較少,從量和質上都無法滿足數(shù)據(jù)市場的需求。相較之下,大量的場外數(shù)據(jù)交易市場活躍,但缺乏有效監(jiān)管和安全保障。
醫(yī)療方面,已有不少交易所將為“醫(yī)療衛(wèi)生”數(shù)據(jù)設置交易品類,但絕大部分交易所該品類下并無供應商品,僅貴州大數(shù)據(jù)交易所上架了一款“兒童構音障礙早篩語音數(shù)據(jù)”的產品,售價25萬元,僅交易兩筆。
要實現(xiàn)從“生產要素”到“資產”的轉變,數(shù)據(jù)交易市場必須建立以政府為主導、市場化的數(shù)據(jù)要素交易機構和服務平臺組成的體系。數(shù)據(jù)供應方進行有效的數(shù)據(jù)歸集、加工;外部機構搭建平臺、輔助標準、提供安全;交易中心提供供需對接服務,實現(xiàn)數(shù)據(jù)升值、數(shù)據(jù)變現(xiàn);監(jiān)管機構保障市場監(jiān)管和質控,營造良好的流通環(huán)境。
理想狀態(tài)下的數(shù)據(jù)要素平臺閉環(huán)(數(shù)據(jù)來源:蛋殼研究院)
總的來說,我國數(shù)據(jù)要素流通市場仍處于發(fā)展的初級階段,在數(shù)據(jù)交易需求持續(xù)高漲的趨勢下,一方面需要國家主導完善數(shù)據(jù)要素服務相關制度,引導培育數(shù)據(jù)要素交易市場,另一方面也需培養(yǎng)更多供應商豐富數(shù)據(jù)供應體系,并加大數(shù)據(jù)交易所傳播力度,最終實現(xiàn)在有效市場支撐下的數(shù)據(jù)供需匹配,讓各類數(shù)據(jù)要素高效安全地流通起來。