IT之家 11 月 28 日消息,遺傳變異圖譜是研究人群演化史、醫(yī)學遺傳學、基因型-表型關聯(lián)的基矗此前,大多數(shù)全基因組測序相關研究主要集中在歐洲血統(tǒng)人群。已有研究表明,罕見和低頻的變異往往特定于人群或樣本,尤其是與疾病相關的變異。針對特定人群的基因組數(shù)據(jù)可以為全基因組關聯(lián)研究、區(qū)域適應性研究、用藥指導等提供更準確的參考。
據(jù)中科院生物物理所消息,單倍型參考面板可基于大型人群隊列中已知的單倍型信息,對來源于相對稀疏的基因變異芯片或低覆蓋率測序樣本中缺失的基因型進行推演,是促進全基因組關聯(lián)研究 (genome-wide association study, GWAS) 有意義且具有成本效益的方法。此前缺乏中國人群特異的參考面板,其他參考面板對中國人群特異的變異推演效果較差,從而導致 GWAS 中遺漏潛在的表型相關變異。
中國人群全基因組測序資源和單倍型參考面板的缺乏阻礙了世界上最大人群的遺傳學與精準醫(yī)學研究。為此,中國科學院院士、中科院生物物理研究所研究員徐濤團隊,研究員何順民團隊合作,在 Cell Reports 上在線發(fā)表了題為 NyuWa Genome Resource: A Deep Whole Genome Sequencing-Based Variation Profile and Reference Panel for the Chinese Population 的文章,介紹該團隊關于 "女媧"(NyuWa)中國人群基因組資源庫的工作,提供針對中國人群的遺傳變異圖譜與參考面板基因型推演服務,旨在促進中國人群的遺傳學與醫(yī)學研究。
研究團隊分析了 2,999 個中國人的全基因組深度測序數(shù)據(jù)(26.2X),并以“女媧(NyuWa)”命名; NyuWa 數(shù)據(jù)資源,研究構建了包含 7106 萬 SNPs 和 819 萬 InDels 的中國人群遺傳變異圖譜(圖 1),并對其進行全面注釋。
▲ 圖 1.NyuWa 全基因組測序資源的變異數(shù)量
相比其它人群隊列,NyuWa 數(shù)據(jù)集包含 2501 萬新變異,其中包括 14.9 萬非同義變異、10.1 萬有害變異、11493 個編碼和非編碼基因的功能喪失變異、636 個癌癥相關基因的蛋白截短變異。大量新變異表明,在以往遺傳研究中,中國人群的變異代表性不足,NyuWa 基因組資源則填補了這一空缺。此外,根據(jù)臨床相關數(shù)據(jù)庫的注釋,研究在 NyuWa 中發(fā)現(xiàn)了 1,140 個致病變異,以及藥物基因組學相關位點(圖 2A)和癌癥風險位點(圖 2B)上中國人群與世界其他人群的變異頻率差異。這些發(fā)現(xiàn)有助于中國人群精準醫(yī)學研究,可能促進新的遺傳學和醫(yī)學進展。
▲ 圖 2.NyuWa 中的藥物基因組學位點(A)與癌癥風險基因座(B)變異
為漢族人群構建一個完整的、大隊列的、高質量的參考面板,對漢族的遺傳學與醫(yī)學研究具有參考價值; NyuWa 數(shù)據(jù)資源,科研人員構建了包含 5804 個單倍型和 1926 萬變異的單倍型參考面板,其中 325 萬變異未包含在其它參考面板中,這些 NyuWa 參考面板特有變異可能會在未來關聯(lián)研究中帶來新發(fā)現(xiàn),是首個數(shù)千人級別公開可用的中國人群特異的單倍型參考面板。
為評估 NyuWa 參考面板的基因型推演性能,科研人員使用來自人類基因組多樣性計劃(the Human Genome Diversity Project, HGDP)的亞洲各個人群芯片基因分型數(shù)據(jù)和高覆蓋率 WGS 數(shù)據(jù)作為測試數(shù)據(jù)集。與其他參考面板相比,NyuWa 參考面板將漢族人群基因型推演的錯誤率降低了 30%-51%,在大多數(shù)其他東亞和東北亞人群中也有優(yōu)異表現(xiàn)(圖 3A-D)。研究進一步比較了不同等位基因頻率的推算結果和實際基因型之間的相關性,NyuWa 參考面板性能在漢族的所有等位基因頻率區(qū)間中均具有絕對優(yōu)勢(圖 3E)。
▲ 圖 3.NyuWa 參考面板對漢族基因型推演具有最佳性能
此外,NyuWa 參考面板與千人基因組 (1KGP3) 面板的結合進一步提高了亞洲人群的基因型推演效果?紤]到南北方漢族遺傳差異,科研人員將 NyuWa 參考面板中的樣本分為北方和南方子集,使用子集樣本分別構建北方和南方漢族的參考面板,通過基因型推演的模擬測試,證明以 NyuWa 的人群規(guī)模,一個南北整合的參考面板對中國北方人和南方人均適用(圖 4)。
▲ 圖 4.南北方漢族測試數(shù)據(jù)集的基因型推演錯誤率
綜上,基于中國人群的大型隊列深度 WGS 數(shù)據(jù),研究構建了中國人群的遺傳變異圖譜和首個數(shù)千人級別公開可用的中國人群單倍型參考面板,將所有結果整合為中國人群基因組資源庫 NyuWa(圖 5),有助于中國和亞洲人群的遺傳學和精準醫(yī)學研究。
▲ 圖 5.NyuWa 資源庫
IT之家了解到,當前有關醫(yī)學基因組學的知識和指南主要來自以歐洲人群為主的遺傳和基因組資源,可能遺漏有關非歐洲人群的遺傳信息。亞洲人群起源、遷徙和融合歷史悠久而復雜,使得其遺傳多樣性研究面臨挑戰(zhàn)和機遇。針對中國人群的全基因組測序工作,對于擴充世界人群遺傳資源多樣性、提高中國人群醫(yī)學研究準確性十分必要,有助于深入了解亞洲人群結構與人群歷史,并對尋找復雜疾病遺傳因素的研究設計以及人口健康指導具有參考價值。