何勇群,謝江安,萬 靈,楊嘯林,朱 彥,周 偉,李元放,陸偉勝,吳健民,劉開永,王海河0,劉清平,余 紅*
(1 University of Michigan Medical School,Ann Arbor,MI 48109,yongqunh@med.umich.edu; 2 重慶郵電大學(xué)生物信息學(xué)院,重慶 400065;3 南京昂吉網(wǎng)智網(wǎng)絡(luò)技術(shù)有限公司,江蘇 南京 211199; 4 中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所,北京 100005;5 中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700;6 國(guó)家人口健康科學(xué)數(shù)據(jù)中心,北京 100700;7 Faculty of Information Technology,Monash University,Clayton,Vic 3800;8 北京大學(xué)腫瘤醫(yī)院癌癥生物信息學(xué)中心,北京 100142;9 安徽醫(yī)科大學(xué)公共衛(wèi)生學(xué)院,安徽 合肥 230032; 10 哈爾濱醫(yī)科大學(xué)大慶分校,黑龍江 大慶 163319;11 廣州中醫(yī)藥大學(xué),廣東 廣州 510006; 12 貴州大學(xué)醫(yī)學(xué)院/貴州省人民醫(yī)院/國(guó)家衛(wèi)生健康委員會(huì)肺臟免疫性疾病診治重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550002)
2002年諾貝爾生理與醫(yī)學(xué)獎(jiǎng)獲得者Sydney Brenner教授曾說:“We are drowning in a sea of data and thirsting for knowledge.Most biology today is low input,high throughput,no output biology.”(我們渴望從數(shù)據(jù)中獲得知識(shí),但卻被淹沒在數(shù)據(jù)的海洋中。當(dāng)今大多數(shù)生物學(xué)領(lǐng)域能用很低的投入獲得高通量的數(shù)據(jù),卻無法得到有用的生物學(xué)知識(shí))。如何解決從海量數(shù)據(jù)中獲取高價(jià)知識(shí)仍然是當(dāng)前生物醫(yī)學(xué)大數(shù)據(jù)研究領(lǐng)域面臨的最大挑戰(zhàn)?;诖?,我們結(jié)合實(shí)際研究案例提出:在生物醫(yī)學(xué),尤其是在大數(shù)據(jù)支撐的精準(zhǔn)醫(yī)學(xué)研究中,具備異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化與智能分析功能的互操作性本體可以有效應(yīng)對(duì)上述挑戰(zhàn)。
2012年5月,聯(lián)合國(guó)發(fā)布了《大數(shù)據(jù)與人類發(fā)展:挑戰(zhàn)與機(jī)遇》白皮書,指出大數(shù)據(jù)對(duì)人類發(fā)展是一個(gè)歷史性機(jī)遇,我們可以使用極為豐富的數(shù)據(jù)資源對(duì)社會(huì)經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時(shí)分析,幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)運(yùn)行。其中,生物醫(yī)學(xué)大數(shù)據(jù)表現(xiàn)最為突出,其促成因素主要有:①生命的整體性和疾病的復(fù)雜性。例如,嚴(yán)重威脅人類健康的各種慢性疾病多為復(fù)雜性疾病,其發(fā)生發(fā)展的分子遺傳機(jī)制受到基因與環(huán)境交互作用的影響,因而其病因?qū)W研究將產(chǎn)生大量的數(shù)據(jù);②得益于高通量技術(shù)的發(fā)展,基因測(cè)序成本急速下降。當(dāng)前高通量技術(shù)可以完成數(shù)百萬個(gè)DNA的同時(shí)測(cè)序任務(wù),這使從物種的基因組和轉(zhuǎn)錄組水平進(jìn)行全面細(xì)致的分析成為可能。從一滴血中我們可以得到大量基因轉(zhuǎn)錄與翻譯的數(shù)據(jù)用于快速Omics分析;③醫(yī)療信息化和IT業(yè)的高速發(fā)展,越來越多的人體數(shù)據(jù)能夠獲得儲(chǔ)存和利用。如,僅在2015年,美國(guó)平均每家醫(yī)院需要管理665T的數(shù)據(jù)量,中國(guó)各大醫(yī)院的電子健康記錄也收錄了海量的個(gè)人健康數(shù)據(jù)(病歷、心電圖、醫(yī)療影像等)。
大數(shù)據(jù)不僅僅是數(shù)據(jù)量大,而現(xiàn)實(shí)中“大數(shù)據(jù)”的概念常被濫用且應(yīng)用成效很低。大數(shù)據(jù)“4V”模型指出其具有數(shù)據(jù)容量大(volume)、多樣化(variety)、高速(velocity)和真實(shí)性(veracity)的特點(diǎn)[1]。其中,數(shù)據(jù)真實(shí)性不僅指大數(shù)據(jù)本身的質(zhì)量,還包括數(shù)據(jù)源、數(shù)據(jù)類型及其處理的可信度。做好數(shù)據(jù)真實(shí)性,我們必須要消除偏差、異常或不一致,保證數(shù)據(jù)可重復(fù)利用。生物醫(yī)學(xué)的任何領(lǐng)域都極其復(fù)雜,無法融合共享的異構(gòu)數(shù)據(jù)是事實(shí)上的無效數(shù)據(jù)或數(shù)據(jù)“垃圾”,而未經(jīng)過標(biāo)準(zhǔn)化處理的生物醫(yī)學(xué)大數(shù)據(jù)即使再?gòu)?qiáng)的人工智能也都會(huì)無功而返?,F(xiàn)實(shí)中“大數(shù)據(jù)”除了各種BI(business intelligence,商業(yè)智能)可視化界面外,真正的大數(shù)據(jù)應(yīng)用成果寥若晨星。在數(shù)據(jù)可視化逐漸有點(diǎn)審美疲勞的當(dāng)下,如何打破“信息孤島”,實(shí)現(xiàn)優(yōu)質(zhì)數(shù)據(jù)的無歧義融合,保證各類科學(xué)研究和臨床實(shí)踐活動(dòng)所創(chuàng)建的數(shù)據(jù)內(nèi)容能被其創(chuàng)建者、維護(hù)者以及外部用戶群體同等有效地共享和使用成為生物醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域研究關(guān)注的焦點(diǎn)。
目前,大多數(shù)臨床數(shù)據(jù)缺乏系統(tǒng)的語義標(biāo)準(zhǔn)化整合。以缺鐵性貧血為例(見圖1):醫(yī)院1和醫(yī)院2采用了不同的疾病分類編碼體系,導(dǎo)致了同為缺鐵性貧血在醫(yī)院1的疾病代碼為d16758,疾病名稱為Iron-deficiency anemia(英文)或缺鐵性貧血(中文),而在醫(yī)院2中卻為1015674、Sideropenic anemia和缺鐵貧血癥。此類數(shù)據(jù)依靠臨床醫(yī)生或科研人員的經(jīng)驗(yàn)判斷可以得出正確結(jié)論。然而對(duì)于機(jī)器(如計(jì)算機(jī))來說,如果沒有事先定義或標(biāo)準(zhǔn)化映射,是無法準(zhǔn)確識(shí)別其中的有效信息的(如患者12和患者78均為缺鐵性貧血患者)。同時(shí),從圖1中我們也可以看到有5人患有貧血癥,但如果要問計(jì)算機(jī)哪些患者有貧血,這就是一個(gè)更為復(fù)雜的問題了。我們可以用自然語言處理的方法去查詢,但自然語言處理有它自身的缺陷,如可能不能識(shí)別“缺鐵”與“缺鐵性”“貧血”與“貧血癥”之間的區(qū)別;給同義詞不同的代碼也會(huì)造成混亂;單純的代碼也不能告訴計(jì)算機(jī)哪些貧血是缺鐵性的,哪些是惡性貧血,哪些是慢性病貧血。因此,自然語言處理對(duì)于基于計(jì)算機(jī)的智能查詢沒有太大幫助。此時(shí)數(shù)據(jù)的語義化顯得尤為重要,而不同來源的生物醫(yī)學(xué)大數(shù)據(jù)之間的共享、整合和再利用的基礎(chǔ)任務(wù)即為實(shí)現(xiàn)數(shù)據(jù)的語義標(biāo)準(zhǔn)化。
圖1 生物醫(yī)學(xué)大數(shù)據(jù)分析中的語義標(biāo)準(zhǔn)化問題——以缺鐵性貧血為例
人工智能(artificial intelligence,AI)的一個(gè)核心是讓機(jī)器理解語言,因而對(duì)語義的標(biāo)準(zhǔn)化也有著極高的要求。例如,我們與機(jī)器對(duì)話:“我是人,我得肺結(jié)核病,有什么藥可用?”(圖2A)。要回答這些問題,機(jī)器需要知道:什么是人?什么是肺結(jié)核?有哪些藥物可以用來治療肺結(jié)核?而患者(我)適合采用哪些藥物治療?在此過程中,讓機(jī)器知道這些術(shù)語詞匯的本質(zhì)及其相互之間的邏輯關(guān)系是關(guān)鍵性的環(huán)節(jié)。
(A)人工智能的例子 (B)基于本體方法的對(duì)這個(gè)問題的回答
針對(duì)圖2A舉的有關(guān)怎樣讓機(jī)器理解語言的人工智能問題,圖2B給出了一個(gè)基于本體學(xué)方法的答案。人是一種哺乳動(dòng)物,肺結(jié)核病是由肺結(jié)核桿菌(一種細(xì)菌)引起的;人與結(jié)核桿菌都是生物體;肺結(jié)核病發(fā)生部位在肺,肺是人的一部分;肺結(jié)核病可以用抗結(jié)核藥治療(如異煙肼、利福平、吡嗪酰胺等)治療;每個(gè)術(shù)語和關(guān)系都有唯一識(shí)別代碼表示,同一個(gè)代碼還可以表示不同的同義詞。當(dāng)機(jī)器理解這個(gè)本體所表述的內(nèi)容時(shí),就可以從本質(zhì)上掌握其詞匯術(shù)語之間的語義關(guān)系,并有針對(duì)性地回答相關(guān)問題了。當(dāng)然,治療方案的制定需要結(jié)合患者的實(shí)際情況,而這是一個(gè)精準(zhǔn)醫(yī)學(xué)層面的問題。圖2表明本體可以用來實(shí)現(xiàn)數(shù)據(jù)的語義標(biāo)準(zhǔn)化,進(jìn)而促進(jìn)醫(yī)學(xué)人工智能的發(fā)展。
本體論(ontology)原本是哲學(xué)的一門分支,且被亞里士多德認(rèn)為是第一哲學(xué)?!皁nto”表示being(是)和reality(存在),本體學(xué)是用來研究事物的本源和存在問題。在計(jì)算機(jī)與人工智能領(lǐng)域,本體是用人和計(jì)算機(jī)都可以理解的術(shù)語(terms)及關(guān)系(relations)來描述某一領(lǐng)域內(nèi)的實(shí)體(entity)及實(shí)體之間的相互關(guān)系,從而提供一個(gè)對(duì)此領(lǐng)域事物本質(zhì)的統(tǒng)一認(rèn)識(shí)。因此,本體可以描述概念和事物之間的關(guān)系以及事物的類別。筆者先前發(fā)表的論文給出了詳細(xì)的本體基本定義和分類的介紹[2]。以下從功能、發(fā)展史及語義復(fù)雜度方面給出關(guān)于本體更新的解讀。
基因本體(gene ontology,GO)[3]被認(rèn)為是第一個(gè)現(xiàn)象級(jí)的成功本體。GO最初于1998年被構(gòu)建用來注釋三種已經(jīng)完成的模式生物的基因組,即釀酒酵母(saccharomyces cerevisiae)、秀麗隱桿線蟲(caenorhabditis elegans)和黑腹果蠅(drosophila melanogaster)[3]。此后,許多生物如人和小家鼠的基因組項(xiàng)目也陸續(xù)加入了GO。GO逐步發(fā)展成一種系統(tǒng)的注釋物種基因組及其表達(dá)產(chǎn)物屬性的方法。目前,GO主要包括三個(gè)分支:細(xì)胞組件、分子功能和生物過程。除了用來注釋基因組,GO還被用來做各種應(yīng)用,如對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行基因富集組分分析[4]和文獻(xiàn)檢索[5]等。迄今,GO的原始文獻(xiàn)[3]被引用超過25,000次,GO已成為基因組及其相關(guān)表達(dá)產(chǎn)物分析研究的常規(guī)工具。
受GO啟發(fā),研究人員認(rèn)為可以開發(fā)出不同領(lǐng)域的本體發(fā)揮專業(yè)化、精細(xì)化的用途。圖3總結(jié)了一些常見的本體的應(yīng)用。首先,本體可以用來命名。例如,NCBITaxon物種分類本體(https://github.com/obophenotype/ncbitaxon)包含了約一百萬個(gè)詞條,命名了各種各樣的物種并給出了它們的分類。本體可以提供一個(gè)復(fù)雜的知識(shí)網(wǎng)絡(luò)體系用來表達(dá)各種知識(shí),如疫苗本體(vaccine ontology,VO)[6-7]涵蓋并分類了幾千種人和動(dòng)物用疫苗,同時(shí)給出了這些疫苗的組成成分及其接種的對(duì)象和抵抗的疾病。因此,GO和VO等本體被廣泛用來做自然語言處理[8-9](見圖3)。本體對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化、整合、共享和分析有著重要作用(見圖3)。BioPAX本體已經(jīng)被用來作為分子通路數(shù)據(jù)共享的標(biāo)準(zhǔn)[10]。除了上面提到的GO基因富集組分分析[4],本體可以用來做許多其他的數(shù)據(jù)分析工作[11-12]。
圖3 常見本體的應(yīng)用與舉例
本體也可作為語義網(wǎng)(semantic web)、鏈接數(shù)據(jù)(linked data)和知識(shí)圖譜(knowledge graph)的基礎(chǔ)。語義網(wǎng)的最終目的是使機(jī)器能夠理解互聯(lián)網(wǎng)上的數(shù)據(jù)并使來自各種資源的數(shù)據(jù)語義互聯(lián)互通。RDF(資源描述框架)和OWL(Web本體語言)技術(shù)可以對(duì)數(shù)據(jù)進(jìn)行語義編碼。鏈接數(shù)據(jù)是一種互聯(lián)網(wǎng)數(shù)據(jù)語義關(guān)聯(lián)的方法,由互聯(lián)網(wǎng)之父Tim Berners-Lee于2006年提出。鏈接數(shù)據(jù)建立在HTTP、RDF和URI等標(biāo)準(zhǔn)Web技術(shù)的基礎(chǔ)上,不僅為讀者提供網(wǎng)頁鏈接,而且使計(jì)算機(jī)能夠自動(dòng)讀取與鏈接有關(guān)的信息。因此,鏈接數(shù)據(jù)使得語義查詢變得更加便捷高效。鏈接數(shù)據(jù)一般以RDF三元組的圖數(shù)據(jù)庫模式存儲(chǔ),體現(xiàn)了數(shù)據(jù)治理、語義連接的思想,有利于大規(guī)模數(shù)據(jù)的整合與利用。本體主要表示的是類別層面的數(shù)據(jù)與關(guān)系,鏈接數(shù)據(jù)主要轉(zhuǎn)達(dá)的是個(gè)體之間的數(shù)據(jù),各自的鏈接數(shù)據(jù)系統(tǒng)也都需要本體在數(shù)據(jù)類別框架上去把不同的數(shù)據(jù)關(guān)系打通。Google的知識(shí)圖譜就是利用語義關(guān)系把各種實(shí)體關(guān)聯(lián)起來并以圖譜形式呈現(xiàn)出來的知識(shí)庫,其本質(zhì)是語義網(wǎng)和鏈接數(shù)據(jù)技術(shù)在Google知識(shí)體系中的一種應(yīng)用。
本體的建模方法和表達(dá)方式是基于已有方法演化而來,但較已有方法區(qū)別也很明顯(見圖4)。就建模方法而言,條目(glossary)或敘詞表(thesaurus)沒有權(quán)威認(rèn)定與賦予編碼的限制;然而,控制術(shù)語集(controlled terminology)、通用數(shù)據(jù)模型(common data models,CDM)、分類表(taxonomies)和本體等都有權(quán)威認(rèn)定與賦予編碼的限制。很多控制術(shù)語集,如MeSH (medical subject headings)和MedDRA (medical dictionary for regulatory activities)在醫(yī)學(xué)界廣泛應(yīng)用;OMOP (observational medical outcomes partnership)的CDM對(duì)于數(shù)據(jù)的標(biāo)準(zhǔn)化也有著廣泛的應(yīng)用。但是,就語義精確度而言,本體精確度最高。CDM一般是基于關(guān)系型數(shù)據(jù)庫,術(shù)語之間的語義關(guān)系較弱,分類表只有is_a關(guān)系,而本體還具有其他重要的關(guān)系,如part_of、occurs_in和has_participant等。此外,語義的表達(dá)方式區(qū)別顯著,包括Word/HTML、XML和XSLT、XML和UML、關(guān)系型數(shù)據(jù)庫、RDF和OWL(見圖4)。作為一種基本的標(biāo)記語言,XML定義了一組用于人機(jī)共識(shí)的格式文檔編碼規(guī)則。RDF和OWL可用XML的編寫,RDF是用于描述Web資源的框架,OWL是用于編寫本體的知識(shí)表達(dá)語言。XML、RDF和OWL都是W3C推薦的標(biāo)準(zhǔn)[13]。與其他方法比較,OWL和本體構(gòu)建的時(shí)間成本是最高的,但同時(shí)得到的語義精確度也是最高級(jí)的(見圖4)?;诒倔w的知識(shí)網(wǎng)絡(luò)體系可以自動(dòng)被計(jì)算機(jī)理解與應(yīng)用,有利于做復(fù)雜數(shù)據(jù)的儲(chǔ)存、查詢和知識(shí)推導(dǎo)。本體可以用SPARQL語言做查詢[14],很多基于本體的算法或軟件也已被開發(fā)出來。
圖4 語義復(fù)雜度(complexity of semantics)
人工智能(artificial intelligence,AI)是計(jì)算機(jī)科學(xué)中研究、設(shè)計(jì)和應(yīng)用智能機(jī)器的一個(gè)分支。某些方面像人類一樣,AI可以“看到”和“聽到”,并且作出判斷和行動(dòng),從而實(shí)現(xiàn)某種目標(biāo)。AI已經(jīng)被大量用作包括語音識(shí)別、圖像識(shí)別、自然語言處理、深度學(xué)習(xí)、人機(jī)交互系統(tǒng)的工作。目前,醫(yī)療領(lǐng)域人工智能主要應(yīng)用在醫(yī)學(xué)影像與診斷、醫(yī)學(xué)生物研究、醫(yī)療風(fēng)險(xiǎn)分析和藥物疫苗挖掘四個(gè)方面。
這里我們討論AI的兩個(gè)與知識(shí)處理有關(guān)的分支,即機(jī)器學(xué)習(xí)(machine learning,ML)與知識(shí)表達(dá)和推理(knowledge representation and reasoning,KRR)。近年來,ML方法已成為人工智能領(lǐng)域中最炙手可熱的研究方向,尤其以深度學(xué)習(xí)為代表,很多以往對(duì)計(jì)算機(jī)非常有挑戰(zhàn)性的問題都能夠被機(jī)器學(xué)習(xí)有效的解決。KRR是人工智能的一個(gè)傳統(tǒng)分支,是本體語言的理論基礎(chǔ)。KRR以邏輯方法為主,在此基礎(chǔ)上設(shè)計(jì)了很多不同的本體語言,開發(fā)了很多本體推理算法和推理機(jī)?,F(xiàn)代本體語言的一大特點(diǎn)是它語義信息的準(zhǔn)確性,這樣的語義信息可以被機(jī)器處理,用來判斷本體的正確性及推理出本體里隱含的知識(shí)。
雖然ML與KRR都屬于AI分支,然而二者卻有很多不同。ML以統(tǒng)計(jì)概率或神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),KRR以數(shù)理邏輯為基礎(chǔ),它們傳統(tǒng)上獨(dú)立發(fā)展,鮮有交叉。但怎樣讓這兩個(gè)分支共同促進(jìn)、協(xié)調(diào)發(fā)展已經(jīng)成為近年來的研究熱點(diǎn)。
用ML做數(shù)據(jù)整合與分析存在著很多缺陷和挑戰(zhàn)。ML非常依賴大量高質(zhì)量的標(biāo)注數(shù)據(jù)。但生物醫(yī)學(xué)和臨床的數(shù)據(jù)通常是復(fù)雜異構(gòu)而難以整合和處理的。生物醫(yī)學(xué)大數(shù)據(jù)標(biāo)準(zhǔn)化處理也需要進(jìn)行數(shù)據(jù)建模,使得計(jì)算機(jī)能夠模擬明確的推理過程,而深度學(xué)習(xí)無法做到。目前,訓(xùn)練AI的技術(shù)在模擬人腦思考過程上并沒有取得實(shí)質(zhì)性的突破,總體而言,只是停留在模擬大腦的階段,并不能進(jìn)行真正的語義推理。另外,在生物醫(yī)學(xué)領(lǐng)域存在大量的先驗(yàn)知識(shí)(研究文獻(xiàn)、成果數(shù)據(jù)庫等),但ML對(duì)先驗(yàn)知識(shí)仍然不能有效利用。深度學(xué)習(xí)能給出答案,但無法解釋背后的邏輯關(guān)系并將其結(jié)果整合到現(xiàn)有知識(shí)中去。換言之,深度學(xué)習(xí)并不是在真正的擴(kuò)展我們的知識(shí),而只是解決“黑匣子”問題。
基于本體的KRR技術(shù)有望幫助ML和深度學(xué)習(xí)。人工智能的核心是數(shù)據(jù),而大部分?jǐn)?shù)據(jù)是非結(jié)構(gòu)化的,要更好地實(shí)現(xiàn)人工智能,我們需要把數(shù)據(jù)做歸一化和結(jié)構(gòu)化。當(dāng)前,將所有先驗(yàn)集成數(shù)據(jù)進(jìn)行人工或計(jì)算機(jī)自動(dòng)標(biāo)注已經(jīng)具備現(xiàn)實(shí)可行性。本體技術(shù)的出現(xiàn)恰逢其時(shí),利用本體技術(shù)對(duì)數(shù)據(jù)語義標(biāo)準(zhǔn)化被越來越多的專業(yè)人士接受和使用?;诒倔w的生物醫(yī)學(xué)等相關(guān)領(lǐng)域的先驗(yàn)知識(shí)可以被計(jì)算機(jī)和AI自動(dòng)識(shí)別,這給ML的大范圍的自動(dòng)利用提供了基礎(chǔ)。此外,本體是基于計(jì)算機(jī)可以理解的邏輯規(guī)則產(chǎn)生的。我們可以把這個(gè)特點(diǎn)加到ML算法中并開發(fā)出更加強(qiáng)大的機(jī)器學(xué)習(xí)功能。可以預(yù)測(cè),基于本體的KRR將在人工智能上發(fā)揮越來越重要的作用。
ML也可對(duì)KRR和本體開發(fā)發(fā)揮正向促進(jìn)作用?,F(xiàn)階段本體的構(gòu)建基本是人工完成的,如何利用機(jī)器學(xué)習(xí)和自然語言處理等人工智能的方法自動(dòng)從文本等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)上自動(dòng)構(gòu)建、更新和融合復(fù)雜本體會(huì)對(duì)現(xiàn)代生物醫(yī)學(xué)大數(shù)據(jù)與精準(zhǔn)醫(yī)療帶來積極幫助。同時(shí),更好的ML和深度學(xué)習(xí)方法也可以推動(dòng)更好的本體知識(shí)的查詢和KRR方法的建立。
精準(zhǔn)醫(yī)學(xué)(precision medicine),又稱精準(zhǔn)醫(yī)療,是針對(duì)患者的個(gè)性化醫(yī)療保健、醫(yī)療決策與治療。精準(zhǔn)醫(yī)學(xué)模型通常會(huì)根據(jù)患者的遺傳成分、分子或細(xì)胞分析、病理影像及臨床健康數(shù)據(jù)進(jìn)行綜合分析,找出最佳的治療策略。精準(zhǔn)醫(yī)學(xué)研究自2015年美國(guó)政府率先啟動(dòng)以來,在全世界引發(fā)研究熱潮,國(guó)內(nèi)也是成為熱門課題。
精準(zhǔn)醫(yī)學(xué)起源于這樣一個(gè)科學(xué)認(rèn)知,即實(shí)驗(yàn)動(dòng)物做出來的結(jié)果經(jīng)常對(duì)人的醫(yī)療沒有指導(dǎo)作用。這是因?yàn)橐环矫鎸?shí)驗(yàn)動(dòng)物與人有著各種各樣的基因差別;另一方面,試驗(yàn)用老鼠一般是inbred老鼠且實(shí)驗(yàn)條件是特別控制的,所以需要關(guān)注的變量較少(圖5A)。然而人是更加復(fù)雜的動(dòng)物,而每個(gè)人又存在個(gè)體差異性(圖5B)。美國(guó)國(guó)立衛(wèi)生研究院(NIH)資助的GUDMAP項(xiàng)目專注于老鼠模型的腎研究,然而,多年研究卻發(fā)現(xiàn)基于老鼠模型得到臨床結(jié)果基本不適用于人類。因此,現(xiàn)在NIH資助的大型腎精準(zhǔn)醫(yī)學(xué)項(xiàng)目(kidney precision medicine project,KPMP)已經(jīng)用人作為直接對(duì)象研究了(詳情見后)。
(A)老鼠實(shí)驗(yàn)變量少 (B)人的臨床研究影響變量多
當(dāng)今醫(yī)學(xué)人工智能技術(shù)與互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)息息相關(guān)。物聯(lián)網(wǎng)醫(yī)學(xué)是將物聯(lián)網(wǎng)技術(shù)應(yīng)用于醫(yī)院信息化、健康辨識(shí)與管理、診斷和治療等人口健康領(lǐng)域而形成的一個(gè)交叉學(xué)科。近年來,興起的“智慧醫(yī)療”即是物聯(lián)網(wǎng)醫(yī)學(xué)應(yīng)用的典型案例。智慧醫(yī)療是通過建立一個(gè)有機(jī)的健康檔案信息平臺(tái),利用先進(jìn)的物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)患者與醫(yī)務(wù)人員、機(jī)構(gòu)及設(shè)備之間的互聯(lián)互動(dòng),以達(dá)到信息化智能化的醫(yī)療[15]。最新的5G技術(shù)對(duì)于智慧醫(yī)療的發(fā)展將會(huì)起到極大的推動(dòng)作用。
綜合以上各種模式,我們提出智能精準(zhǔn)醫(yī)學(xué)(intelligent precision medicine,IPM)的概念。在互聯(lián)網(wǎng)和更進(jìn)一步的物聯(lián)網(wǎng)的基礎(chǔ)上,智能精準(zhǔn)醫(yī)學(xué)的基本核心是把人工智能與精準(zhǔn)醫(yī)學(xué)相結(jié)合,更好地服務(wù)于精準(zhǔn)醫(yī)療。怎樣通過人工智能的手段來加強(qiáng)精準(zhǔn)醫(yī)療的應(yīng)用效果是個(gè)巨大挑戰(zhàn)。在此過程中,關(guān)鍵問題還是要精確處理好高速涌現(xiàn)的大量的異構(gòu)化數(shù)據(jù)。智能精準(zhǔn)醫(yī)學(xué)需要把這些大數(shù)據(jù)完整處理并發(fā)現(xiàn)它們之間的相互關(guān)系,這并不是一項(xiàng)容易完成的任務(wù)。下文我們將論證構(gòu)建具有互操作性的本體是完成智能精準(zhǔn)醫(yī)學(xué)挑戰(zhàn)的關(guān)鍵。
2016年ScientificData雜志發(fā)表了一篇題為“FAIRGuidingPrinciplesforscientificdatamanagementandstewardship”的文章,正式提出了FAIR原則,即數(shù)據(jù)可查找(findable)、可訪問(accessible)、可互操作(interoperable)和可重復(fù)使用(reusable)[16]?,F(xiàn)在FAIR原則已被國(guó)內(nèi)外廣泛采納。2018年6月發(fā)布的美國(guó)NIH數(shù)據(jù)科學(xué)戰(zhàn)略計(jì)劃明確承諾確保該機(jī)構(gòu)支持的所有數(shù)據(jù)科學(xué)活動(dòng)和產(chǎn)品遵守FAIR原則。
在FAIR原則中可互操作是個(gè)關(guān)鍵。可互操作原則要求數(shù)據(jù)之間高度集成,數(shù)據(jù)與應(yīng)用程序或工作流進(jìn)行互操作,以便進(jìn)行分析、存儲(chǔ)和處理??苫ゲ僮髟瓌t包括三個(gè)具體要求:①(元)數(shù)據(jù)使用正式的、可訪問的、共享的和廣泛適用的語言來表示知識(shí);②(元)數(shù)據(jù)使用符合FAIR原則的詞匯;③(元)數(shù)據(jù)包括對(duì)其他(元)數(shù)據(jù)的合理引用。本體內(nèi)容本身是一種特殊的數(shù)據(jù),所以本體之間也需要互操作。
可互操作本體可以支持?jǐn)?shù)據(jù)的可互操作性,同時(shí)支持其他三個(gè)FAIR原則。比如,可互操作本體代碼的應(yīng)用支持?jǐn)?shù)據(jù)的可查找、可訪問和可重復(fù)使用。因?yàn)楸倔w對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化與集成起到關(guān)鍵作用,我們把本體的互操作性做好就能夠把數(shù)據(jù)之間的互操作性做好。但是,一方面,很多生物醫(yī)學(xué)領(lǐng)域的詞匯沒有被構(gòu)建為本體,只有少量的數(shù)據(jù)資源采用本體指導(dǎo)的策略,這限制了數(shù)據(jù)的互操作性和分析能力;另一方面,當(dāng)前生物醫(yī)學(xué)領(lǐng)域已有數(shù)百種本體,但是它們的互操作性尚顯不足。已有本體之間的術(shù)語常常冗余且無法相互識(shí)別,導(dǎo)致數(shù)據(jù)無法互操作。隨著生物醫(yī)學(xué)本體的深入開發(fā),確保本體的互操作性以及使用可互操作的本體進(jìn)行標(biāo)準(zhǔn)化數(shù)據(jù)表示和集成變得至關(guān)重要。
這里,我們提出一個(gè)“河馬假設(shè)”(HIPPO hypothesis),或稱“智能精準(zhǔn)醫(yī)學(xué)-互操作性本體假設(shè)”?!昂玉R假設(shè)”可以表示為“Hypothesis of Intelligent Precision medicine and its Positive correlation with interoperable Ontologies”:未來智能精準(zhǔn)醫(yī)學(xué)的發(fā)展進(jìn)程與具有互操作性的本體體系構(gòu)建成正相關(guān)并相互影響。
“河馬假設(shè)”至少包括兩方面的內(nèi)容。首先,當(dāng)智能精準(zhǔn)醫(yī)學(xué)繼續(xù)發(fā)展時(shí),我們需要更加具有互操作性的本體體系。現(xiàn)在的精準(zhǔn)醫(yī)學(xué)使用的可以跨學(xué)科的互操作性本體數(shù)量和范圍遠(yuǎn)遠(yuǎn)不夠,這與人工智能在精準(zhǔn)醫(yī)學(xué)領(lǐng)域的低水平應(yīng)用相符合。但隨著人工智能在生物醫(yī)學(xué)領(lǐng)域各方面的擴(kuò)展及技術(shù)的提高,我們認(rèn)為互操作性本體的需求會(huì)更多;其次,更具有互操作性的本體體系也會(huì)對(duì)智能精準(zhǔn)醫(yī)學(xué)的發(fā)展起到促進(jìn)作用。我們認(rèn)為互操作性的本體數(shù)量、質(zhì)量及覆蓋面會(huì)越來越好,同時(shí)基于互操作性本體研發(fā)的優(yōu)秀算法與軟件會(huì)越來越多,這樣對(duì)智能精準(zhǔn)醫(yī)學(xué)的發(fā)展和應(yīng)用也會(huì)有極大的推動(dòng)作用。雖然現(xiàn)在剛剛開始,但是我們預(yù)計(jì)智能精準(zhǔn)醫(yī)學(xué)的應(yīng)用與具有互操作性的本體體系的開發(fā)使用這兩者之間有個(gè)正相關(guān)的關(guān)系并且相互影響,共同提高。
目前,互操作性本體的發(fā)展還處于初級(jí)階段。全世界生物醫(yī)學(xué)領(lǐng)域有數(shù)千種常用的數(shù)據(jù)庫和知識(shí)庫,但是它們大部分沒有本體化,更不用說互操作性的本體化?;ヂ?lián)網(wǎng)與物聯(lián)網(wǎng)的產(chǎn)生使得我們可以把各種各樣的事物聯(lián)系起來,但實(shí)際操作上我們無法把所有事物整合成單個(gè)數(shù)據(jù)庫或單個(gè)本體,這意味著我們需要許多本體,并且為了使所有本體相互理解,我們需要這些本體可互操作。
前面提到各種基于語義網(wǎng)的鏈接數(shù)據(jù)系統(tǒng)也是一個(gè)數(shù)據(jù)庫,也需要本體。盡管鏈接數(shù)據(jù)系統(tǒng)使用各種各樣的本體對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,但是鏈接數(shù)據(jù)所基于的本體通常是不可互操作的,從而使鏈接數(shù)據(jù)系統(tǒng)成為孤島并且難以集成。為了打通不同的鏈接數(shù)據(jù)系統(tǒng),我們需要使用具有互操作性的本體體系。當(dāng)前,互操作性本體體系構(gòu)建選擇開放性生物信息本體集(the open biomedical ontologies,OBO)。開放性生物醫(yī)學(xué)本體鑄造工廠(OBO Foundry)是眾多生物醫(yī)學(xué)本體開發(fā)者合作的一個(gè)具有重大影響的國(guó)際聯(lián)盟(http://obofoundry.org/)[17]。OBO Foundry共同開發(fā)了一系列原則,如開放、合作和使用通用格式[17],目的是開發(fā)一類具有互操作性并可以用于大數(shù)據(jù)標(biāo)準(zhǔn)化和應(yīng)用的本體體系。目前OBO本體庫已有180多個(gè)本體,如BFO[18]、 HPO[19]、GO[3]、OBI[20]等。
怎樣才能建立一個(gè)好的具有可互操作性的生物醫(yī)學(xué)本體呢?我們提出了一系列可擴(kuò)展的本體開發(fā)原則(eXtensible ontology development,XOD)[21]。XOD原則包括四項(xiàng)(圖6):XOD1-本體的再利用原則(term reuse);XOD2-本體的語義對(duì)齊原則(semantic alignment);XOD3-基于本體設(shè)計(jì)模式原則(ontology design pattern);XOD4-本體的社區(qū)合作開發(fā)原則(community extensibility)。其中,XOD1本質(zhì)上就是“拿來主義”,強(qiáng)調(diào)重用現(xiàn)有可靠本體中的術(shù)語;XOD2強(qiáng)調(diào)有機(jī)整合;XOD3側(cè)重于快速有效添加新術(shù)語與注釋;XOD4體現(xiàn)整體原則。
圖6 基于XOD原則開發(fā)互操作性本體
很多適用于構(gòu)建互操作性本體的工具已被開發(fā)。例如,ontoanimal(本體動(dòng)物)工具箱包括各種用于支持本體開發(fā)的在線工具,如ontofox(本體狐貍)[22]、ontodog(本體狗)[23]和ontorat(本體鼠)[24]。ontofox和ontodog可用于支持提取并再利用其他本體的術(shù)語。這兩個(gè)工具可以提取選定的類、屬性、注釋及其相關(guān)術(shù)語并以O(shè)WL格式保存結(jié)果,生成的OWL輸出文件可以使用owl:imports的功能導(dǎo)入到新開發(fā)的本體中。本體的語義對(duì)齊可以通過預(yù)先設(shè)計(jì)的方法加入到ontofox輸入程序中[22]?;谔囟ǖ谋倔w設(shè)計(jì)模式,我們可以設(shè)計(jì)Excel制表并用它來收集和儲(chǔ)存數(shù)據(jù),然后用ontorat自動(dòng)把Excel文件里的信息轉(zhuǎn)化為OWL本體格式文件。例如,我們用Ontorat自動(dòng)生成了超過1,000個(gè)日本RIKEN研究院收集的細(xì)胞系信息到細(xì)胞系本體(cell line ontology,CLO)[25]。這些Ontoanimal在線工具被廣泛應(yīng)用在生物醫(yī)學(xué)本體開發(fā)社區(qū)中,尤其是對(duì)于那些沒有或只有有限的軟件編程技能的本體開發(fā)者來說非常實(shí)用。ROBOT是一個(gè)命令性Java工具,支持多種XOD原則,可以用來提取本體術(shù)語和子集,并且還具有許多其他功能[26]。
近年來,基于社區(qū)的互操作性本體在國(guó)內(nèi)也在逐步展開。例如,劉清平等應(yīng)用XOD的方法開發(fā)了風(fēng)濕病中醫(yī)本體(ontology of chinese medicine for rheumatism,OCMR),并應(yīng)用OCMR系統(tǒng)分析了26種抗風(fēng)濕中藥。風(fēng)濕病代表任何以關(guān)節(jié)、肌肉或結(jié)締組織發(fā)炎和疼痛為特征的疾病。長(zhǎng)期以來,中藥已被用于治療風(fēng)濕病。已知抗炎和抗惡性增殖作用對(duì)于抗風(fēng)濕病藥物很重要。但是,具體的中藥抗風(fēng)濕病機(jī)制仍不清楚。這項(xiàng)研究首先系統(tǒng)地收集了有關(guān)26種傳統(tǒng)中藥飲片藥物的信息,基于ontofox軟件,采用NCBITaxon物種分類本體、不良反應(yīng)本體(ontology of adverse events,OAE)和ChEBI[27]化學(xué)成分本體分別表示這26種物種及其相關(guān)的184種不良反應(yīng)和555種化學(xué)成分以及與這些術(shù)語有關(guān)的上層結(jié)構(gòu)和關(guān)系,這些關(guān)系再被有機(jī)組合在一起形成OCMR(見圖7)。
圖7 抗風(fēng)濕中藥的互操作性本體的構(gòu)建過程與結(jié)果分析
通過OCMR本體的分析得出了一些新的科學(xué)認(rèn)知。例如,26種有抗風(fēng)濕藥效的物種中(3種動(dòng)物和23種植物)有16種(約2/3)植物是五瓣植物;對(duì)來自抗風(fēng)濕中藥中555種化學(xué)成分的ChEBI本體分析確定了18種抗炎的化學(xué)成分,33種抗腫瘤成分和9種同時(shí)具有抗炎和抗惡性增生作用的化學(xué)物質(zhì)(包括3種二萜成分和3種三萜成分);此外,22種二萜和23種三萜,包括16種可能對(duì)風(fēng)濕病具有生物活性的五環(huán)三萜,被預(yù)測(cè)為可能的新的抗風(fēng)濕病的化學(xué)藥物。驗(yàn)證這些預(yù)測(cè)的生化以及動(dòng)物模型實(shí)驗(yàn)正在設(shè)計(jì)與實(shí)施。
OCMR把從NCBITaxon、ChEBI和OAE等本體提取出來的術(shù)語及關(guān)系有機(jī)地整合在一起(XOD2原則)。這種整合并不只是簡(jiǎn)單的信息疊加,而且還包括新加入的術(shù)語之間的語義連接。例如,通過一個(gè)語義連接關(guān)系has_part,我們可以把一個(gè)抗風(fēng)濕中藥與它的化學(xué)成分連接起來。有了這樣的整合,我們能夠做更好的數(shù)據(jù)分析與查詢,如我們可以很快地找到哪些抗風(fēng)濕病中藥有五環(huán)三萜的化學(xué)成分。同時(shí),OCMR也是一個(gè)永久的抗風(fēng)濕病中醫(yī)本體,它可供以后拓展和進(jìn)一步研究,這種新穎的本體方法也可以應(yīng)用于其他中藥的系統(tǒng)表示和分析。
另一個(gè)例子是萬靈等[28]開發(fā)的ICDO (international classification of diseases ontology)本體。ICD是在全球范圍內(nèi)識(shí)別健康趨勢(shì)和相關(guān)健康問題統(tǒng)計(jì)的基礎(chǔ)。常用的包括ICD-9、ICD-10和目前國(guó)內(nèi)還沒普及的ICD-11,每個(gè)版本包含2萬多條目術(shù)語。很多國(guó)家已采用ICD標(biāo)準(zhǔn)并開發(fā)了自己的修改版本,如美國(guó)版的ICD-10-CM和德國(guó)版的ICD-10-GM。在國(guó)內(nèi)外醫(yī)療管理部門中,ICD被廣泛用作各類系統(tǒng)中疾病分類的受控術(shù)語,如HIS(健康信息系統(tǒng))、LIS(實(shí)驗(yàn)室信息系統(tǒng))、PACS(圖片存檔和通信系統(tǒng))和EMR(電子病歷)。ICD代碼和疾病診斷相關(guān)分組(DRG)是醫(yī)療保險(xiǎn)控制的主要方法,DRG依賴于ICD的正確性。
國(guó)內(nèi)的ICD系統(tǒng)有很多問題。臨床醫(yī)生給出的疾病名稱是使用中文自然語言的,使用現(xiàn)有的IT工具缺乏語義理解能力,無法獲得語義層面的一致性。同時(shí),更為嚴(yán)重的是疾病名稱存在多種地域性表達(dá)類型,在實(shí)踐中,我國(guó)在ICD10的標(biāo)準(zhǔn)應(yīng)用上存在多達(dá)10種以上的版本(包括國(guó)家標(biāo)準(zhǔn)V.1.1、GB/T14396-2016和國(guó)家臨床1.1版),衛(wèi)生行政管理部門逐級(jí)上報(bào)采集的數(shù)據(jù)由于各級(jí)信息平臺(tái)所采用的數(shù)據(jù)標(biāo)準(zhǔn)的版本差異,導(dǎo)致數(shù)據(jù)非標(biāo)準(zhǔn)化現(xiàn)象極為嚴(yán)重,語義上的錯(cuò)配使最終結(jié)果錯(cuò)誤率增加,數(shù)據(jù)有效利用率大減。不同版本之間的巨大差異可能會(huì)導(dǎo)致許多問題,例如,出現(xiàn)具有不同值但代碼相同,或具有不同代碼的相同值的大量數(shù)據(jù)。又如,DRG收付費(fèi)改革試點(diǎn)工作的開展,標(biāo)志著我國(guó)醫(yī)療服務(wù)機(jī)構(gòu)收費(fèi)制度改革首次上升到國(guó)家戰(zhàn)略層面。然而,DRG收費(fèi)模式的成功必須依賴于醫(yī)療服務(wù)相關(guān)信息的標(biāo)準(zhǔn)化,即治療效果必須采用統(tǒng)一的信息標(biāo)準(zhǔn)表示,如同一個(gè)病情應(yīng)該用統(tǒng)一的疾病編碼。這也會(huì)影響基于ICD的DRG分組的準(zhǔn)確性、Medicare支付的準(zhǔn)確性以及死亡原因的統(tǒng)計(jì)準(zhǔn)確性。
本體技術(shù)是解決不同ICD版本之間語義映射問題非常有效的工具。ICDO將每個(gè)疾病分解成不同的成分,并根據(jù)我們的疾病設(shè)計(jì)模式標(biāo)記成分(見圖8)。目前,OBO工場(chǎng)內(nèi)的DO[29]和MONDO疾病本體都把疾病描述為一種傾向(disposition),指的是還沒有發(fā)生的事。但是,ICD中的疾病應(yīng)該更好地表示為疾病過程(disease process,DP),因?yàn)樗傅氖且呀?jīng)發(fā)生的事。這個(gè)疾病過程實(shí)現(xiàn)(realizes)疾病的傾向。ICDO的疾病模式同時(shí)將每個(gè)疾病定義為:caused by某個(gè)病因,occurs in某個(gè)解剖部位,has quality某個(gè)性質(zhì),has disease output某個(gè)病理解剖體。比如,作為疾病過程的一個(gè)子類,急性中耳炎DP發(fā)生在中耳,有炎癥病灶產(chǎn)生,是一個(gè)急性的過程。ICDO開發(fā)的優(yōu)勢(shì)是多樣的。ICD只有疾病術(shù)語,但I(xiàn)CDO除了疾病術(shù)語還包括解剖體(anatomic entity)、性質(zhì)(quality)和病原(etiology)等,并通過語義關(guān)系把這些類型的術(shù)語串聯(lián)起來(見圖8)。這樣做首先使得語義明晰化(見圖2),可以讓人工智能和計(jì)算機(jī)真正理解每個(gè)疾病的內(nèi)涵和意義。據(jù)此我們也可以做各種應(yīng)用,如我們可以通過各種不同的解剖部位查詢所有在這些部位發(fā)生的相關(guān)疾病,我們也可以通過性質(zhì)給不同疾病精確分類,這些以前只能通過自然語言處理或機(jī)器學(xué)習(xí)來大概知道。ICDO也可以對(duì)不同的ICD版本有比映射更優(yōu)越的整合功能,這是因?yàn)镮CDO本質(zhì)上不是通過人為的規(guī)定產(chǎn)生的,而是通過對(duì)疾病過程的精確語義定義產(chǎn)生的。雖然代碼不同,但不同ICD版本的具體疾病在語義上應(yīng)該是一樣的。所以通過基于語義的定義我們可以把不同的ICD版本整合在一起。我們還可以使用本體推理器(reasoner)對(duì)不同疾病進(jìn)行有效的語義分析與工具開發(fā)。ICDO將會(huì)改善各種ICD系統(tǒng)之間的可用性和互操作性。ICDO還可用于數(shù)據(jù)標(biāo)準(zhǔn)化和分析不同國(guó)家不同語言之間的國(guó)際多中心臨床試驗(yàn)、DRG分組、數(shù)據(jù)標(biāo)準(zhǔn)化和醫(yī)院內(nèi)部信息系統(tǒng)的數(shù)據(jù)規(guī)范化處理,以及區(qū)域衛(wèi)生信息平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)化。
圖8 互操作性的ICDO本體的設(shè)計(jì)模型及其舉例虛線以上是頂層設(shè)計(jì),虛線以下是以急性中耳炎為例進(jìn)行的說明演示。
我們一般講的疾病過程是由自然因素引起的,而疫苗與藥物不良反應(yīng)是一種在疫苗或藥物使用之后發(fā)生的非預(yù)期的有害過程。藥物不良反應(yīng)是目前人口死亡的第四到第六大殺手[30]。不良反應(yīng)本體OAE是一個(gè)基于社區(qū)驅(qū)動(dòng)、針對(duì)醫(yī)療干預(yù)后發(fā)生的不良反應(yīng)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化和術(shù)語邏輯關(guān)系分類的生物醫(yī)學(xué)本體。在頂層設(shè)計(jì)上,OAE區(qū)別“不良反應(yīng)”(adverse event,AE)和“因果不良反應(yīng)”(causal adverse event,CAE)。AE與醫(yī)療干預(yù)之間有時(shí)間先后關(guān)系,但沒有因果關(guān)系;相反,CAE有這樣的因果關(guān)系。OAE這樣的定義與美國(guó)FDA的定義一致并有助于不良反應(yīng)的真實(shí)報(bào)道與因果關(guān)系的分析。OAE嚴(yán)格按照開放生物醫(yī)學(xué)本體OBO規(guī)定的開源、協(xié)作、使用通用寫作語法的構(gòu)建原則,邏輯化地定義了醫(yī)療干預(yù)與不良反應(yīng)之間的關(guān)系及個(gè)體差異對(duì)不良反應(yīng)后果的影響。
腎臟精確醫(yī)學(xué)項(xiàng)目(kidney precision medicine project,KPMP)是目前美國(guó)NIH資助的第一個(gè)大型的以患者為研究對(duì)象的精準(zhǔn)醫(yī)學(xué)合作項(xiàng)目,旨在尋找人類腎臟疾病的新療法[31-32]。KPMP主要關(guān)注的是AKI和CKD兩大類腎臟疾病。急性腎損傷(Acute Kidney injury,AKI)是急性的腎功能損害,可能發(fā)展為不可逆腎功能喪失。慢性腎臟病(chronical kidney diseases,CKD)表現(xiàn)為腎功能逐漸下降,并最終導(dǎo)致終末期腎病。AKI和CKD在人群中的患病率都很高,導(dǎo)致嚴(yán)重公共衛(wèi)生問題。這些腎臟疾病有復(fù)雜的致病機(jī)理和環(huán)境因素。腎臟的起源和發(fā)展尚未完全了解,妨礙了針對(duì)許多腎病的有效預(yù)防和的治療。美國(guó)NIH以前資助十多年的針對(duì)腎病的老鼠模型實(shí)驗(yàn),但轉(zhuǎn)化效果不好。KPMP聯(lián)盟一共包括20多個(gè)大學(xué)院所,涉及招募、臨床數(shù)據(jù)采集、腎組織活檢、病理檢查和Omics分析。所有數(shù)據(jù)最后匯總、處理、可視化并做系統(tǒng)分析,各種人工智能手段也正在被開發(fā)。
KPMP同時(shí)資助了兩個(gè)開源互操作性本體的開發(fā)[31]。精準(zhǔn)醫(yī)學(xué)及研究本體(ontology of precision medicine and investigation,OPMI)是一種針對(duì)精準(zhǔn)醫(yī)學(xué)領(lǐng)域的參考本體,它表示用于描述并整合精確醫(yī)學(xué)研究領(lǐng)域的各種數(shù)據(jù)與元數(shù)據(jù),幫助數(shù)據(jù)的標(biāo)準(zhǔn)化與語義分析。美國(guó)的KPMP項(xiàng)目包括大約30個(gè)臨床報(bào)告表格(clinical report forms,CRFs)。這些CRF包括超過2,000個(gè)的臨床問題和大量臨床術(shù)語。OPMI被用來對(duì)這些臨床元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,從而顯著改善了不同機(jī)構(gòu)之間基于本體的數(shù)據(jù)集成[33]。KPMP也啟動(dòng)了腎臟組織圖譜本體論(kidney tissue atlas ontology,KTAO),旨在用本體的方式表示和鏈接腎臟組織圖譜的各部分,包括腎臟組織結(jié)構(gòu)、細(xì)胞、基因標(biāo)記物、腎病表型及各部位的關(guān)系[34]。
OPMI的另一個(gè)用例是其對(duì)通用數(shù)據(jù)模型(CDM)的本體表示及應(yīng)用。CDM是臨床數(shù)據(jù)處理的一個(gè)常用手段。OMOP (observational medical outcomes partnership) CDM是由OHDSI(observational health data sciences and informatics)組織開發(fā)并在全世界廣泛應(yīng)用的CDM[35]。OMOP CDM本質(zhì)上是一個(gè)關(guān)系型數(shù)據(jù)庫的模式,但OMOP CDM在數(shù)據(jù)模型層面不能區(qū)分由于醫(yī)療干預(yù)(例如手術(shù)或藥物治療)造成的不良反應(yīng)或自然疾病造成的癥狀表型,而OPMI本體框架可提供了這種區(qū)分。在各種心臟手術(shù)后,經(jīng)常會(huì)觀察到符合急性腎損傷(acute kidney injury,AKI)癥狀的不良事件,其發(fā)生率高達(dá)30%~50%[36]。上述OPMI本體框架被用來分析一個(gè)大型的與OMOP CDM兼容的數(shù)據(jù)集,并發(fā)現(xiàn)了許多與心臟手術(shù)后急性腎損傷不良事件相關(guān)的特定模式[33]。
越來越多的基于本體的與精準(zhǔn)醫(yī)學(xué)有關(guān)的研究正在國(guó)內(nèi)外涌現(xiàn)。例如,中國(guó)自然基金項(xiàng)目資助了謝江安等開展的利用OAE研究中國(guó)上市甲乙肝疫苗相關(guān)的不良反應(yīng)分類圖譜。謝江安等利用美國(guó)公開的VAERS不良反應(yīng)數(shù)據(jù)庫的數(shù)據(jù)和基于OAE的研究方法,研究發(fā)現(xiàn)美國(guó)上市的甲肝疫苗和乙肝疫苗伴隨多種不良反應(yīng),并且甲肝疫苗和乙肝疫苗的同時(shí)注射會(huì)導(dǎo)致13種有協(xié)同增效作用的不良反應(yīng)[37]。密西根大學(xué)-北京大學(xué)醫(yī)學(xué)院聯(lián)合研究院最近資助了一個(gè)研究胃癌與微生態(tài)相互作用的項(xiàng)目。每年全球近一半的胃癌新發(fā)病例來自中國(guó),更是中國(guó)第二大癌癥死亡原因。慢性幽門螺旋桿菌感染是胃癌發(fā)生的首要危險(xiǎn)因素,但并非所有幽門螺旋桿菌感染者都會(huì)發(fā)生胃癌。胃癌的發(fā)生可能是宿主遺傳易感因素、環(huán)境、幽門螺旋桿菌以及其他腸道菌群之間復(fù)雜的相互作用導(dǎo)致的結(jié)果。本研究應(yīng)用系統(tǒng)生物學(xué)的方法,整合基因組測(cè)序、轉(zhuǎn)錄組測(cè)序、類器官建模和生物信息學(xué)的手段來深入研究這些相互作用。宿主-微生態(tài)本體(ontology of host-microbiome interactions,OHMI)[38]和其他本體將被用于這個(gè)項(xiàng)目中產(chǎn)生的臨床與組學(xué)數(shù)據(jù)的整合與分析并幫助產(chǎn)生可驗(yàn)證的科學(xué)假設(shè)。
互操作性本體的應(yīng)用也是剛剛起步。除了以上給出的實(shí)例,很多基于互操作性本體的算法與軟件已被開發(fā)和應(yīng)用。例如,Althubaiti等[39]開發(fā)了融合不同互操作性本體的識(shí)別癌癥驅(qū)動(dòng)基因的新方法;王麗偉等[40]開發(fā)了基于互操作性O(shè)AE本體計(jì)算藥物類效應(yīng)算法;Groza等[19]利用HPO和DO[29]對(duì)常見病和罕見病的語義統(tǒng)一等。2020年10月德勤(四大國(guó)際會(huì)計(jì)師事務(wù)所之一)的一份分析報(bào)告指出,真正具有互操作性的數(shù)據(jù)是實(shí)現(xiàn)以患者為中心,以預(yù)防為導(dǎo)向的醫(yī)療保健服務(wù)的核心;并且對(duì)具有可互操作性和安全性的數(shù)據(jù)進(jìn)行人工智能分析將成為洞察力和決策流程背后的關(guān)鍵引擎[41]。各種各樣的基于本體統(tǒng)計(jì)與ML相關(guān)算法也被開發(fā)出來[42-43]。
目前,我國(guó)已經(jīng)成為生物醫(yī)學(xué)科學(xué)原始數(shù)據(jù)的生產(chǎn)大國(guó),但是具有國(guó)際聲譽(yù)的數(shù)據(jù)產(chǎn)品甚少,在數(shù)據(jù)管理方面與國(guó)際先進(jìn)水平相比,始終處于追趕地位。主要表現(xiàn)在:生物醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化和規(guī)范化建設(shè)滯后,導(dǎo)致數(shù)據(jù)整合和再利用困難;數(shù)據(jù)孤島現(xiàn)象嚴(yán)重,技術(shù)、文化和管理等多方面原因?qū)е聰?shù)據(jù)公開共享程度不高,整合使用程度不高;數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)質(zhì)量管理從技術(shù)上難以落實(shí),原始數(shù)據(jù)的再加工程度低,影響后續(xù)的分析、整合與再利用;生物醫(yī)學(xué)和信息科學(xué)的復(fù)合型人才缺乏。
標(biāo)準(zhǔn)化數(shù)據(jù)及其語義化的智能處理是生物醫(yī)學(xué)大數(shù)據(jù)分析的前提,只有實(shí)現(xiàn)了原始數(shù)據(jù)的標(biāo)準(zhǔn)化和語義化才有可能達(dá)到有用數(shù)據(jù)的人機(jī)共識(shí),進(jìn)而為實(shí)施精準(zhǔn)醫(yī)療提供必要的數(shù)據(jù)支撐。我國(guó)現(xiàn)有的大數(shù)據(jù)標(biāo)準(zhǔn)化工作通常關(guān)注IT技術(shù)層面的數(shù)據(jù)歸一化,對(duì)于生物醫(yī)學(xué)大數(shù)據(jù)的語義標(biāo)準(zhǔn)化較少關(guān)注,既缺乏相關(guān)標(biāo)準(zhǔn)術(shù)語集,更缺乏語義標(biāo)準(zhǔn)化技術(shù)支撐系統(tǒng)。生物醫(yī)學(xué)大數(shù)據(jù)的語義標(biāo)準(zhǔn)化指的是在統(tǒng)一規(guī)范的標(biāo)準(zhǔn)術(shù)語集指導(dǎo)下,通過技術(shù)手段對(duì)現(xiàn)存儲(chǔ)于各類生物醫(yī)學(xué)數(shù)據(jù)庫中的海量信息點(diǎn)實(shí)現(xiàn)語義層面的內(nèi)涵一致性工作。我國(guó)現(xiàn)有的絕大部分的生物醫(yī)學(xué)數(shù)據(jù)庫(集)尚未達(dá)到“科研數(shù)據(jù)庫(集)”或“臨床試驗(yàn)數(shù)據(jù)庫(集)”的標(biāo)準(zhǔn),在未實(shí)現(xiàn)生物醫(yī)學(xué)數(shù)據(jù)語義標(biāo)準(zhǔn)化的狀態(tài)下,既缺乏相關(guān)標(biāo)準(zhǔn)術(shù)語集,更缺乏語義標(biāo)準(zhǔn)化技術(shù)支撐系統(tǒng),極大制約著生物大數(shù)據(jù)的研究、分析、發(fā)掘和利用。
語義標(biāo)準(zhǔn)化的核心是本體化。同時(shí),為了各種各樣的數(shù)據(jù)之間能夠打通,我們不只需要基于本體的語義標(biāo)準(zhǔn)化,而且需要具有互操作性的本體構(gòu)建及其基于互操作性本體的語義標(biāo)準(zhǔn)化。為了加速國(guó)內(nèi)生物醫(yī)學(xué)信息本體的研究,通過提高本體共享和應(yīng)用促進(jìn)產(chǎn)業(yè)健康發(fā)展,2017年國(guó)家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)(現(xiàn)改名為國(guó)家人口與健康科學(xué)數(shù)據(jù)中心)成立了“中國(guó)生物醫(yī)學(xué)信息本體聯(lián)合工作組”(China Biomedical Ontology Consortium),簡(jiǎn)稱本體中國(guó)或OntoChina(http://ontochina.org)[44-45]。本體中國(guó)宗旨是:致力于通過生物醫(yī)學(xué)領(lǐng)域的廣泛協(xié)作,引入先進(jìn)本體建設(shè)理念和模式,建設(shè)為國(guó)內(nèi)生物醫(yī)學(xué)信息系統(tǒng)和相關(guān)領(lǐng)域科學(xué)研究服務(wù)的本體資源;促進(jìn)生物醫(yī)學(xué)本體在信息化建設(shè)和科學(xué)研究中的使用。本體中國(guó)面對(duì)全社會(huì)的組織及個(gè)人開放。
在過去三年中,本體中國(guó)系統(tǒng)引入并翻譯basic formal ontology (BFO)[18]、OBI、relation ontology (RO)[46]、ontology for general medical science (OGMS)、human phenotype ontology (HPO)[19]和cell line ontology (CLO)[25]等OBO Foundry本體,并整合了LOINC、ICD-10和ICD-11等中文術(shù)語本體資源;利用NCBO BioPortal框架,建設(shè)了 MedPortal 本體資源庫,提供整合的本體服務(wù);此外,還在國(guó)內(nèi)建立了Ontobee和Ontofox的工具服務(wù)(http://ontoanimals.bmicc.cn/),為開發(fā)標(biāo)準(zhǔn)化、規(guī)范化的本體提供軟件支持。新冠肺炎疫情發(fā)生后,OntoChina成員也參與共同開發(fā)了coronavirus infectious disease ontology (CIDO)本體[47]。我們也正在開發(fā)基于互操作性本體的OntoChina本體元數(shù)據(jù)的體系。
基本形式化本體(basic formal ontology,BFO)[18]已經(jīng)被200多種本體用作上層本體。OBO工場(chǎng)現(xiàn)在有可與BFO頂層本體相切合的100多個(gè)生物醫(yī)學(xué)本體。BFO包含兩個(gè)分支,“常體”(continuant)和“行體”(occurrent)。常體表示與時(shí)間無關(guān)實(shí)體(如物質(zhì)實(shí)體),行體表示與時(shí)間相關(guān)的實(shí)體(如過程)。使用BFO作為上層本體,能實(shí)現(xiàn)與其他100多個(gè)符合BFO的本體的無縫集成。目前遵循BFO生物醫(yī)學(xué)本體大多側(cè)重于基礎(chǔ)醫(yī)學(xué)方面,臨床醫(yī)學(xué)有關(guān)的本體還較欠缺。
朱彥等專家也翻譯了MIT出版社出版的Barry Smith等撰寫的BFO本體著作“BuildingOntologieswithBasicFormalOntology”。本書已由人民衛(wèi)生出版社在2020年出版。本譯著將第一次系統(tǒng)性地向國(guó)內(nèi)讀者介紹BFO及基于BFO構(gòu)建本體的理論、方法和技術(shù),是一本不可多得的入門教程和參考書籍。
楊嘯林等把國(guó)內(nèi)的細(xì)胞系基于國(guó)際通用細(xì)胞系本體(cell line ontology,CLO)格式開發(fā)出CLO的中文版。該本體將中國(guó)國(guó)家實(shí)驗(yàn)細(xì)胞資源共享平臺(tái)(Chinese National Infrastructure of Cell Line,http://cellresource.cn/)中的2704種細(xì)胞系信息整合入國(guó)際版CLO細(xì)胞系本體中,建立了國(guó)內(nèi)細(xì)胞系與國(guó)際細(xì)胞系信息學(xué)上的對(duì)應(yīng),對(duì)國(guó)內(nèi)細(xì)胞特征的詳細(xì)描述設(shè)計(jì)了新的語義表達(dá)模式,并以符合OBO規(guī)范的雙語言表示呈現(xiàn)。該版本CLO的構(gòu)建,對(duì)于幫助實(shí)現(xiàn)國(guó)際范圍內(nèi)細(xì)胞系信息整合具有支撐作用。
中醫(yī)藥領(lǐng)域也正借鑒OBO Foundry原則理念和可擴(kuò)展互操作性本體開發(fā)的策略方法,使用BFO作為上層本體來構(gòu)建中醫(yī)藥領(lǐng)域本體,搭建與現(xiàn)代生物醫(yī)學(xué)知識(shí)體系互聯(lián)互通的橋梁,這將是中醫(yī)藥的現(xiàn)代化與國(guó)際化工作的一個(gè)重要環(huán)節(jié)。
本體中國(guó)將進(jìn)一步推進(jìn)本體在國(guó)內(nèi)的研究與規(guī)范化應(yīng)用,促進(jìn)國(guó)內(nèi)本體研究社群的發(fā)展與合作。第一,提供中英文本體資源服務(wù)平臺(tái),提供更多的中文特色服務(wù);第二,吸收國(guó)際經(jīng)驗(yàn),推進(jìn)規(guī)范化本體資源建設(shè),將國(guó)內(nèi)數(shù)據(jù)資源與本體相結(jié)合;第三,推進(jìn)本體在生物醫(yī)學(xué)數(shù)據(jù)管理和建設(shè)方面的應(yīng)用;第四,建立廣泛的交流合作平臺(tái),促進(jìn)國(guó)內(nèi)國(guó)際間關(guān)于本體的交流合作。
在健康醫(yī)療領(lǐng)域隨著信息技術(shù)與醫(yī)療的深度融合,大數(shù)據(jù)時(shí)代亦隨之到來。大數(shù)據(jù)標(biāo)準(zhǔn)體系框架尚處于頂層設(shè)計(jì)階段,缺乏實(shí)際應(yīng)用支撐。上述框架中,數(shù)據(jù)類標(biāo)準(zhǔn)指生物醫(yī)學(xué)大數(shù)據(jù)采集、表達(dá)、處理、傳輸和交換等過程中涉及的相關(guān)數(shù)據(jù)標(biāo)準(zhǔn),是保證語義層無歧義的重要基礎(chǔ)。包括數(shù)據(jù)元標(biāo)準(zhǔn)、分類與編碼標(biāo)準(zhǔn)、數(shù)據(jù)庫(集)標(biāo)準(zhǔn)和共享文檔規(guī)范等。本體可以在數(shù)據(jù)的結(jié)構(gòu)化、共享和智慧分析中起到關(guān)鍵作用。
在本體技術(shù)的使用方面我國(guó)與國(guó)際先進(jìn)水平有差距,但也在迎頭趕上。OntoChina的組織與推廣行動(dòng)也必將使本體技術(shù)在中國(guó)的推廣和應(yīng)用獲得更大的空間。為了更好地促進(jìn)中國(guó)的最廣泛的本體合作開發(fā)及其在生物大數(shù)據(jù)與精準(zhǔn)醫(yī)學(xué)上的應(yīng)用與推廣,我們?cè)诖颂岢鲆韵鲁h:
①鼓勵(lì)加入、共商共建、合作開發(fā),促進(jìn)互操作性本體的開發(fā)、應(yīng)用與推廣。
②輪值主持,開放、透明、公正、公平的運(yùn)行機(jī)制。
③參與國(guó)際本體領(lǐng)域的合作交流、優(yōu)秀本體的翻譯和引用。
④促進(jìn)有中國(guó)特色的互操作性本體(如與中醫(yī)藥有關(guān)的本體)的開發(fā)與推廣。
⑤基于互操作性本體的數(shù)據(jù)整合以及人工智能算法與軟件的研究與開發(fā)。
⑥產(chǎn)學(xué)研共同發(fā)展,積極響應(yīng)產(chǎn)業(yè)需求,形成產(chǎn)業(yè)與研究良性互動(dòng)。
我們鼓勵(lì)和歡迎商業(yè)應(yīng)用與投入。工業(yè)本體工場(chǎng)(industrial ontologies foundry,IOF)在歐美已經(jīng)成立(https://www.industrialontologies.org/),其進(jìn)展值得我們時(shí)刻關(guān)注。我們可以基于OBO和未來的IOF本體進(jìn)行算法與軟件開發(fā)并應(yīng)用于臨床實(shí)踐解決具體問題。在解決具體問題的過程中我們又會(huì)產(chǎn)生新的靈感開發(fā)更好的工具與功能。這些不只是在國(guó)家科學(xué)數(shù)據(jù)管理層面有所幫助,而且在醫(yī)療衛(wèi)生信息業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)化服務(wù)、公共衛(wèi)生數(shù)據(jù)標(biāo)準(zhǔn)化與分析定制化服務(wù)、文獻(xiàn)挖掘與數(shù)據(jù)分析、生物醫(yī)學(xué)知識(shí)本體化管理等方面都意義重大。我們也需要基礎(chǔ)生物醫(yī)學(xué)研究與臨床醫(yī)學(xué)數(shù)據(jù)融合及精準(zhǔn)醫(yī)學(xué)產(chǎn)品開發(fā)服務(wù),如前所述的ICDO與中醫(yī)藥本體的開發(fā)與應(yīng)用。
醫(yī)學(xué)人工智能的發(fā)展伴隨著更高的醫(yī)學(xué)倫理要求。醫(yī)學(xué)人工智能可以極大地提高我們的醫(yī)療服務(wù)質(zhì)量,但如果沒有事先預(yù)判其可能引發(fā)的醫(yī)學(xué)倫理問題將會(huì)帶來各種潛在危險(xiǎn)。例如,醫(yī)學(xué)人工智能實(shí)施過程中使用的數(shù)據(jù)標(biāo)準(zhǔn)、儲(chǔ)存、安全和共享,必然涉及個(gè)人隱私和知識(shí)產(chǎn)權(quán),進(jìn)而關(guān)聯(lián)其背后的倫理、法制等一系列問題。另外,當(dāng)前人工智能的不可解釋性在醫(yī)療領(lǐng)域可能面臨更大的倫理挑戰(zhàn)。例如,假設(shè)醫(yī)療AI在醫(yī)療活動(dòng)中犯了致命錯(cuò)誤,那么誰來承擔(dān)這個(gè)責(zé)任。是醫(yī)生嗎?是寫程序的程序員?這些涉及醫(yī)學(xué)人工智能的倫理問題必須仔細(xì)分析、廣泛探討,找出合理有效的解決方法。只有這樣,我們的醫(yī)學(xué)人工智能才有可能真正走向臨床實(shí)踐。
(致謝:感謝中國(guó)醫(yī)學(xué)科學(xué)院關(guān)健教授邀請(qǐng)何勇群參加在溫州舉行的“第四屆健康醫(yī)學(xué)〈大〉數(shù)據(jù)共享與合作高峰論壇”并作主題報(bào)告,本文基于該主題報(bào)告內(nèi)容展開。感謝關(guān)健教授對(duì)本論文在起草、撰寫、發(fā)表等過程中的指導(dǎo)和幫助。)