厲希豪,目前是哈佛大學(xué)陳曾熙公共衛(wèi)生學(xué)院生物統(tǒng)計系研究員,師從美國國家醫(yī)學(xué)院院士、哈佛大學(xué)生物統(tǒng)計系林希虹教授。
圖丨厲希豪(來源厲希豪)
在該團隊中,他的研究方向主要是全基因組大數(shù)據(jù)整合分析的統(tǒng)計方法,通過對全基因組測序與功能注釋大數(shù)據(jù)的整合,探索罕見變異對疾病的影響。
2022 年 12 月 23 日,由厲希豪擔(dān)任一作的論文以《大型全基因組測序研究中罕見變異關(guān)聯(lián)的強大、可擴展和資源高效的薈萃分析方法》(Powerful, scalable and resource-efficient meta-analysis of rare variant associations in large whole genome sequencing studies)為題在 Nature Genetics 上發(fā)表 [1],美國印第安納大學(xué)醫(yī)學(xué)院助理教授李子林博士和林希虹教授為論文的共同通訊作者。
圖丨相關(guān)論文(來源:Nature Genetics)
據(jù)介紹,由于全基因組測序成本的逐步降低,包括美國國家心肺血液研究所 20 萬人的精準化醫(yī)學(xué)研究計劃(Trans-Omics Precision Medicine Program, TOPMed)、50 萬人的英國生物樣本庫(UK Biobank)等在內(nèi)的大規(guī)模全基因組測序研究,正在迅速開展。
將這些經(jīng)由測序得到的高通量基因組學(xué)數(shù)據(jù),與其他生物醫(yī)學(xué)大數(shù)據(jù)相結(jié)合,可以有效地定位致病基因與遺傳位點、預(yù)測個體或群體對特定疾病的遺傳風(fēng)險,進而在揭示各種復(fù)雜疾病的分子機制、開發(fā)新的藥物標靶,以及制定精準的個性化健康診療策略等方面發(fā)揮重要作用。
與此同時,由于遺傳信息具有高度敏感性,個體的全基因組測序數(shù)據(jù)是受到高度保護并被限制共享的。比如,UK Biobank 就要求所有研究人員,在其指定授權(quán)的研究分析云計算平臺上,進行全基因組測序數(shù)據(jù)的處理與分析。
因此,如何有效地整合并集中分析這些數(shù)據(jù),并使各自研究中的個體基因組數(shù)據(jù)得到保護,就成為了一個亟待解決的問題。
對此,該團隊將薈萃分析這種統(tǒng)計學(xué)方法,用于全基因組測序研究中,開發(fā)了大規(guī)模全基因組測序數(shù)據(jù)罕見變異薈萃分析方法 MetaSTAAR,實現(xiàn)了全基因組匯總統(tǒng)計數(shù)據(jù)的高效存儲共享和功能知情的薈萃分析,為整合這些大型測序研究中的基因組數(shù)據(jù)并保護個體數(shù)據(jù)隱私,提供了有效的解決方案。
具體而言,該方法的使用流程主要分為兩大步。
圖丨 MetaSTAAR 薈萃分析流程(來源:Nature Genetics)
第一步,參與薈萃分析的每項研究,通過使用 MetaSTAAR 的子工具 MetaSTAARWorker,對其全基因組測序數(shù)據(jù)生成匯總統(tǒng)計數(shù)據(jù),包括每個遺傳變異的得分統(tǒng)計量信息和遺傳變異之間的協(xié)方差矩陣信息,同時存儲并在不同的研究之間共享。
第二步,使用 MetaSTAAR 工具整合參與研究的匯總統(tǒng)計數(shù)據(jù),并進行功能知情的薈萃分析。
“需要特別指出的是,在第一步中,參與薈萃分析的每項研究所共享的匯總統(tǒng)計數(shù)據(jù)是可以保護個體數(shù)據(jù)隱私的,這也是 MetaSTAAR 作為一種罕見變異薈萃分析方法的意義所在。”厲希豪說。
那么,與現(xiàn)有用于遺傳關(guān)聯(lián)研究中罕見變異薈萃分析的方法相比,MetaSTAAR 又具備哪些方面的優(yōu)勢呢?
他表示:“我們這項研究為全基因組測序數(shù)據(jù)薈萃分析提供了高效和高性能的分析方法,突破了大規(guī)模全基因組測序研究匯總統(tǒng)計數(shù)據(jù)存儲瓶頸和薈萃分析運算瓶頸,填補了大規(guī)模全基因組測序數(shù)據(jù)中罕見變異薈萃分析方法的空白。”
據(jù)介紹,其和團隊在發(fā)展 MetaSTAAR 時,面臨了來自方法研究、數(shù)據(jù)分析等多方面的挑戰(zhàn)。
比如,其在分析 TOPMed 約 30000 人的全基因組測序數(shù)據(jù)中,發(fā)現(xiàn)遺傳變異的數(shù)量高達約 2.5 億個。這就要求所發(fā)展的統(tǒng)計方法和具體的算法,能夠在現(xiàn)有的計算能力下完成對海量數(shù)據(jù)的處理,并生成大小合理的匯總統(tǒng)計量,方便不同研究之間共享。
“在林希虹教授的指導(dǎo)和李子林博士的幫助下,我們在 MetaSTAAR 的研發(fā)早期,對方法和工具進行了大量的迭代,最終實現(xiàn)了比同類方法節(jié)省了數(shù)百倍的存儲空間。”厲希豪說。
后面,他和團隊希望基于 MetaSTAAR 做進一步的創(chuàng)新,不僅計劃發(fā)展適用于不同表型的薈萃分析方法,比如多表型聯(lián)合分析,生存數(shù)據(jù)表型分析等,還計劃將高通量全基因組測序數(shù)據(jù)與其他生物醫(yī)學(xué)大數(shù)據(jù)做進一步整合,發(fā)展出一套高效、開源、易使用、可擴展的方法。
課題組期待在為世界各地的科研人員提供必要且有效的分析方法與工具的同時,也為生物統(tǒng)計學(xué)、統(tǒng)計遺傳學(xué)和基因組學(xué)的發(fā)展,做出自己的一份貢獻。
參考資料:
1. Li, X., Quick, C., Zhou, H. et al. Powerful, scalable and resource-efficient meta-analysis of rare variant associations in large whole genome sequencing studies. Nature Genetics 55, 154164 (2023). https://doi.org/10.1038/s41588-022-01225-6
2. Li, X., Li, Z., Zhou, H. et al. Dynamic incorporation of multiple in silico functional annotations empowers rare variant association analysis of large whole-genome sequencing studies at scale. Nature Genetics 52, 969983 (2020). https://doi.org/10.1038/s41588-020-0676-4