【AI世代編者按】美國多個部門正啟動“用于癌癥的先進計算解決方案聯(lián)合設(shè)計”(JDACS4C)項目,試圖利用深度學(xué)習(xí)技術(shù)推動抗癌研究。國外媒體近期刊文,對這一項目進行了介紹。
里克史蒂芬斯(Rick Stevens)表示,到2017年第二季度,“用于癌癥的先進計算解決方案聯(lián)合設(shè)計”(JDACS4C)的首批成果將會公布。他負責(zé)了JDACS4C三大試點項目之一。這些項目獲得了美國能源部的資助,試圖利用深度學(xué)習(xí)技術(shù)去從事“抗癌戰(zhàn)爭”,不僅推動癌癥的研究和治療,還希望發(fā)展深度學(xué)習(xí)能力和基礎(chǔ)設(shè)施,推進百億億次級計算機的應(yīng)用。
從各個方面來看,美國的抗癌戰(zhàn)爭和精準(zhǔn)醫(yī)療計劃(PMI)都有著遠大目標(biāo)。以往的抗癌戰(zhàn)爭項目效果不是很好,但這并不意味著沒有取得任何成果。目前的前景看來更好。生物醫(yī)藥科學(xué)取得的進展,以及下一代先進計算機成為了強大的賦能設(shè)備。深度學(xué)習(xí)技術(shù)的興起推動了由數(shù)據(jù)驅(qū)動的科學(xué),這也是許多人感到樂觀的原因。
JDACS4C的3個試點項目涵蓋了從分子學(xué)到人口學(xué)的研究,也是對“癌癥分布式學(xué)習(xí)環(huán)境”(CANDLE)的支持。這些項目的目標(biāo)是“提供關(guān)于可擴展機器學(xué)習(xí)工具的研究信息;發(fā)展深度學(xué)習(xí)、模擬和分析技術(shù),減少解決問題的時間;為未來計算解決方案的設(shè)計提供參考”。最終希望是“有效利用不斷增長、逐漸多樣化的癌癥相關(guān)數(shù)據(jù),建立預(yù)測模型,提供對這種疾病更好的理解,為個人患者的治療結(jié)果提供指南,支持醫(yī)療決策,從而建立未來多年癌癥研究的新范式”。
這些目標(biāo)非常遠大。不過,JDACS4C的起源有些復(fù)雜。這可以歸入PMI項目、美國癌癥研究所(NCI)的“癌癥登月”項目,同時又與美國戰(zhàn)略計算項目(NSCI)相適應(yīng)。史蒂芬斯表示,關(guān)于啟動JDACS4C的討論從幾年前開始,第一輪資金于今年8月開始投入。
以下是3大試點項目的簡介:
1.RAS分子項目。這一項目計劃開發(fā)新的計算方法,支持當(dāng)前RAS行動中已開展的研究。最終目標(biāo)是增強對癌癥中RAS基因及相關(guān)信號通道的理解,在RAS蛋白膜信號復(fù)合體中找到新的治療目標(biāo)。
2.臨床前篩查。這一項目將基于試驗性的生物數(shù)據(jù)開發(fā)“機器學(xué)習(xí)、大規(guī)模數(shù)據(jù)和預(yù)測模型”。思路是創(chuàng)建反饋循環(huán),讓實驗?zāi)P椭笇?dǎo)計算模型的設(shè)計。這些預(yù)測模型可能指向癌癥中的新目標(biāo),協(xié)助找到新的治療方式。
3.人口模型。這一項目計劃開發(fā)可擴展的框架,有效地歸納、總結(jié)、分類癌癥病人的醫(yī)療記錄。這樣的引擎在醫(yī)療健康的多個方面,包括數(shù)據(jù)分發(fā)、成本控制和科研中,都非常強大。
JDACS4C需要多部門的參與。美國癌癥研究所的參與部門包括生物醫(yī)學(xué)信息和信息技術(shù)中心、癌癥治療和診斷部、癌癥控制和人群科學(xué)部,以及弗雷德里克癌癥研究國家實驗室。美國能源部的4所國家實驗室也參加了這一項目,包括阿爾貢國家實驗室、橡樹嶺國家實驗室、勞倫斯-利佛莫國家實驗室,以及洛斯-阿拉莫斯國家實驗室。
史蒂芬斯表示,當(dāng)項目聚集在一起之后,“我們意識到,每個項目都需要深度學(xué)習(xí)技術(shù),但有著不同的使用方法。因此這里的思路是,我們需要合作開發(fā)軟件環(huán)境和網(wǎng)絡(luò)拓撲結(jié)構(gòu),以及其他所需的一切,從而不會干重復(fù)勞動。”研究人員定義了關(guān)鍵指標(biāo),以“解決與癌癥不同子問題相關(guān)的深度學(xué)習(xí)問題”。
最初的第一步是吸引供應(yīng)商的參與。史蒂芬斯表示,這并不難,因為所有的HPC(高性能PC)供應(yīng)商都制定了積極的深度學(xué)習(xí)發(fā)展路線圖。大部分廠商都認(rèn)為,JDACS4C試點項目是個學(xué)習(xí)和改進的良機。目前,JDACS4C的合作方包括英特爾、Cray、英偉達和IBM等。
史蒂芬斯表示:“所有擁有DGX-1超級計算機,以及英偉達,都優(yōu)化了針對不同GPU的大部分通用框架。DGX-1就像是一種常見家電,我們開發(fā)并運行在DGX-1之上的所有一切都可以很容易地分發(fā)。英特爾自身也有龐大的計劃,但還沒有全部公布。我可以說,我們正在與英特爾所有合適的部門展開合作。”史蒂芬斯本人是阿爾貢國家實驗室的研究員,負責(zé)了臨床前篩查項目。
英特爾近期在深度學(xué)習(xí)領(lǐng)域的動作頻頻。英特爾收購了深度學(xué)習(xí)平臺Nervana,而近期還發(fā)布了進一步計劃。史蒂芬斯表示:“他們正在討論Knights X的新版本,這一版本針對機器學(xué)習(xí)進行了優(yōu)化。在他們的路線圖上,Knights Mill是首個這樣的版本。”在近期SC16超級計算大會上,英特爾還推出了深度學(xué)習(xí)推理加速卡,其硬件基于FPGA,而軟件則是神經(jīng)網(wǎng)絡(luò)加速解決方案。史蒂芬斯表示,與英偉達類似,英特爾應(yīng)當(dāng)制定通用設(shè)備戰(zhàn)略。
與此同時,谷歌、微軟和Facebook也在深度學(xué)習(xí)框架方面進行了大量工作。史蒂芬斯表示:“我們正在評估,哪一框架最適合解決我們的問題,我們正在與供應(yīng)商合作,從硬件上進行優(yōu)化。我們也在與利佛莫實驗室合作,他們的內(nèi)部項目包括開發(fā)可擴展的人工神經(jīng)網(wǎng)絡(luò)框架LBANN。”
JDACS4C的計劃是讓模型的發(fā)展獨立于深度學(xué)習(xí)框架。如果更換框架,JDACS4C也不必對模型進行調(diào)整。在深度學(xué)習(xí)領(lǐng)域,這是非常常見的方法,即設(shè)置用于模型表達的腳本層。史蒂芬斯表示:“我們正同時與學(xué)術(shù)界和英偉達合作,在頂層開發(fā)工作流引擎。我們開發(fā)了分層架構(gòu),這涉及到與深度學(xué)習(xí)領(lǐng)域各個不同組織的合作。”
“有趣的是,下一代平臺的供應(yīng)商正擁抱架構(gòu)概念和特性,從而加速機器學(xué)習(xí)的發(fā)展。”他指出,市場壓力,以及深度學(xué)習(xí)相對于傳統(tǒng)高性能PC的快速發(fā)展正推動供應(yīng)商向這一方向發(fā)展。
目前,JDACS4C試點項目仍處于啟動初期,但這一項目受到的期望很高。史蒂芬斯指出,美國癌癥研究院和美國能源部正在獲得尚不具備的能力。“美國癌癥研究院缺乏數(shù)學(xué)家和計算機科學(xué)家,而美國能源部有這樣的人才。此外他們也沒有高性能計算機。目前,我們能源部能獲得實驗數(shù)據(jù)、實驗設(shè)施和公共數(shù)據(jù)庫。”(編譯/陳樺)