丁長松 瞿昊宇 吳世雯
摘要:針對傳統(tǒng)數(shù)據(jù)管理模式難以有效管理中醫(yī)藥信息的問題,本文從中醫(yī)藥信息資源本質(zhì)特性角度分析并歸納其原因在于中醫(yī)藥信息資源具有大數(shù)據(jù)的4V特征,提出了基于大數(shù)據(jù)技術(shù)管理中醫(yī)藥信息資源的策略,并對其可行性進行了闡述。
關(guān)鍵詞:中醫(yī)藥信息;大數(shù)據(jù);數(shù)據(jù)管理
DOI:10.3969/j.issn.1005-5304.2016.09.003
中圖分類號:R2-05 文獻標(biāo)識碼:A 文章編號:1005-5304(2016)09-0010-05
TCM Data Management Based on Object Characteristics under the Background of Big Data DING Chang-song, QU Hao-yu, WU Shi-wen (School of Management and Information Engineering, Hunan University of Chinese Medicine, Changsha 410208, China)
Abstract: Targeting the problem that it is difficult for traditional data management mode to effectively manage TCM information, this article analyzed from the aspect of object characteristics of TCM information resources and summarized that the reason lies in the TCM information resources with big data 4V features, proposed strategies for TCM information resource management based on big data technology, and expounded the feasibility.
Key words: TCM information; big data; data management
中醫(yī)藥信息作為中醫(yī)藥技術(shù)的主要載體,對其進行高效管理與利用,對促進中醫(yī)藥事業(yè)的發(fā)展起著關(guān)鍵作用。然而,中醫(yī)藥技術(shù)和信息技術(shù)發(fā)展不同步、傳統(tǒng)中醫(yī)學(xué)長期缺乏規(guī)范、缺少統(tǒng)一的術(shù)語定義標(biāo)準(zhǔn),以及海量中醫(yī)藥數(shù)據(jù)且與日俱增,使傳統(tǒng)的數(shù)據(jù)管理模式難以對其進行有效管理與利用。因此,分析中醫(yī)藥信息本質(zhì)特征并提出相應(yīng)的管理策略,已成為有效利用中醫(yī)藥信息資源亟需解決的核心問題。為此,筆者結(jié)合中醫(yī)藥信息特征,對傳統(tǒng)的中醫(yī)藥信息技術(shù)手段、成果及局限性進行分析和總結(jié),提出大數(shù)據(jù)背景下的中醫(yī)藥數(shù)據(jù)管理解決方案,并從中醫(yī)藥信息的個性特征角度分析論證借助大數(shù)據(jù)技術(shù)對其進行有效管理的可行性。
1 中醫(yī)藥信息特征分析
中醫(yī)藥是中華民族發(fā)展歷程中對人自身和自然認識了解過程的成果,具有明顯的自然屬性和社會屬
基金項目:國家自然科學(xué)基金(81573985);湖南省科技廳 項目(2011RS4025、2013GK3143);湖南省教育廳優(yōu)秀青年 基金(13B079)
性。其中,自然屬性體現(xiàn)在中藥與中醫(yī)知識的客觀存在特性,社會屬性源于人類活動對中醫(yī)藥自然屬性的影響,如藥物加工、藥種的人工干預(yù)、信息的再生產(chǎn)等方面。中醫(yī)藥信息是認識論層次的信息,具有明顯的主客觀融合特征,相對重視系統(tǒng)時間上的延續(xù)變化狀態(tài),是開放環(huán)境下獲取的包含本質(zhì)的現(xiàn)象信息[1]。從數(shù)據(jù)管理角度而言,中醫(yī)藥信息具有以下特性。
1.1 描述對象屬性模糊、抽象
中醫(yī)學(xué)理論體系受陰陽五行學(xué)說的影響以整體觀念為主導(dǎo),基于系統(tǒng)和經(jīng)驗而缺少客觀量化依據(jù),判別標(biāo)準(zhǔn)模糊,導(dǎo)致屬性描述模糊和抽象。一般對藥物的描述多采用諸如“溫”“辛”等詞,對其用法多采用“常”“宜于”等抽象詞,如對細辛的描述為“本品辛溫發(fā)散……長于解表散寒……宜于外感風(fēng)寒,頭身疼痛較甚者,常與羌活、防風(fēng)、白芷等祛風(fēng)止痛藥同用……”。又如脈象信息作為中醫(yī)獲取四診信息的手段之一,其收集僅靠醫(yī)生指腹的感覺,對其描述采用形象化的詞語,如滑脈“替替然如珠之應(yīng)指”、浮脈“舉之有余,按之不足”。
1.2 采集對象屬性不完備,古籍校本不一
中醫(yī)古籍文獻著作者在對中醫(yī)藥的屬性描述過程中多帶有主觀因素,且受限于其時代的認知水平,導(dǎo)致采集的對象屬性存在片面性和局限性。同時,由于古醫(yī)籍文獻數(shù)字化工作量巨大,導(dǎo)致現(xiàn)有的中藥數(shù)據(jù)庫大多僅提供題錄式或文摘式數(shù)據(jù)而全文數(shù)據(jù)庫少,使用戶難以獲取全面詳細的信息。
中醫(yī)藥古籍中一些比較重要的醫(yī)籍,由于多次再版,導(dǎo)致同一古籍存在多種校本,而且在古籍傳承過程中采用的金石、簡牘、帛書、抄本和印本等載體易導(dǎo)致出錯,使現(xiàn)存的中醫(yī)藥文獻中對象屬性不完備甚至存在錯誤。
1.3 名詞術(shù)語不規(guī)范,對象屬性描述多樣
中醫(yī)藥名詞術(shù)語不規(guī)范,一詞多義、同義多詞的現(xiàn)象十分普遍。如針灸學(xué)中任脈“關(guān)元”穴有多種別名,氣功學(xué)中稱“丹田”,《素文·氣穴論篇》稱“下紀(jì)”,《靈樞·寒熱病》稱“三結(jié)交”,《針灸甲乙經(jīng)》稱“次門”,《針灸資生經(jīng)》稱“大中極”。又如中藥“金銀花”,《植物名實圖考》稱“鷺鷥花”或“忍冬花”,在處方中有二寶花、二花、金花、銀花等別名,按產(chǎn)地區(qū)別又有蘇花(江蘇)、濟銀花(山東費縣)、密銀花(河南密縣)、杜銀花(甘肅)等名稱。另外,中醫(yī)方劑學(xué)也存在著不規(guī)范的中藥炮制名,以及劑量單位不統(tǒng)一、同方異名等問題,如粗略統(tǒng)計發(fā)現(xiàn)《中華名醫(yī)方劑大全》9031首方劑異名達1004個[2]。
對象屬性描述多樣主要是由于中醫(yī)藥自身復(fù)雜多樣特征所決定。如對藥材的描述中,產(chǎn)地多采用文字描述,用量采用數(shù)字描述,而形狀特征則采用圖文結(jié)合進行描述。
1.4 中醫(yī)藥文獻或數(shù)據(jù)庫之間關(guān)系復(fù)雜
以中醫(yī)藥數(shù)據(jù)為內(nèi)容構(gòu)建的數(shù)據(jù)庫之間關(guān)系復(fù)雜。同一藥物常出現(xiàn)在不同數(shù)據(jù)庫中,方劑中的藥與藥典中的藥之間關(guān)系、不同醫(yī)師對相同病癥用藥之間的內(nèi)在關(guān)系、同一醫(yī)師對不同病癥開具的處方之間的用藥關(guān)系等,由于傳統(tǒng)的中醫(yī)藥數(shù)據(jù)信息未共享,各自為“信息孤島”,導(dǎo)致在分析對象間關(guān)系,尤其是當(dāng)分析的數(shù)據(jù)海量時,采用傳統(tǒng)關(guān)系數(shù)據(jù)庫難以實現(xiàn)。
1.5 數(shù)據(jù)海量且增長快速
中醫(yī)藥在其發(fā)展過程中產(chǎn)生了海量數(shù)據(jù),如中國中醫(yī)科學(xué)院中醫(yī)藥數(shù)據(jù)中心數(shù)據(jù)存儲容量目前已達PB級[3]。隨著現(xiàn)代信息技術(shù)在中醫(yī)藥領(lǐng)域中的廣泛應(yīng)用,使中醫(yī)藥信息快速增長,尤其在臨床診斷、治療、檢測方面產(chǎn)生的臨床數(shù)據(jù),以及在現(xiàn)代實驗研究方面產(chǎn)生的相關(guān)數(shù)據(jù)方面更為突出,如中藥現(xiàn)代研究文獻數(shù)據(jù)庫,其數(shù)量約占現(xiàn)有中醫(yī)藥文獻數(shù)據(jù)庫總量的3/4[4]。
2 中醫(yī)藥信息管理現(xiàn)狀與困惑
目前,中醫(yī)藥信息管理主要集中在基礎(chǔ)數(shù)據(jù)庫、數(shù)字化圖書館建設(shè)、相關(guān)標(biāo)準(zhǔn)(規(guī)范)整理、文獻信息檢索和電子政務(wù)系統(tǒng)建設(shè)等方面,尤其在數(shù)字化方面取得了顯著成果。如“國家中醫(yī)古籍整理與數(shù)字化研究中心”累計已完成1690種中醫(yī)古籍的圖像掃描,實現(xiàn)了部分古籍資源圖文對照和全文檢索功能,建設(shè)了800種中醫(yī)古籍的影像數(shù)據(jù)庫和全文數(shù)據(jù),并形成了解決中醫(yī)古籍?dāng)?shù)據(jù)化問題的“基于知識元的中醫(yī)古籍計算機知識表示方法”,制定了《中醫(yī)古籍?dāng)?shù)字化文本??闭硪?guī)范》等系列指導(dǎo)古籍?dāng)?shù)字化建設(shè)的技術(shù)標(biāo)準(zhǔn)及系列古籍知識標(biāo)引手冊等[5],為中醫(yī)古籍大規(guī)模數(shù)字化、數(shù)據(jù)化建設(shè),以及面向臨床的知識服務(wù)提供了技術(shù)保障,解決了中醫(yī)古籍?dāng)?shù)字化及數(shù)據(jù)化的技術(shù)難題。
在數(shù)據(jù)庫建設(shè)方面,中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所自1984年開始進行中醫(yī)藥學(xué)大型數(shù)據(jù)庫的建設(shè),目前數(shù)據(jù)庫總數(shù)40余個、數(shù)據(jù)總量約110萬條,包括中醫(yī)藥期刊文獻數(shù)據(jù)庫、各類中藥數(shù)據(jù)庫、民族醫(yī)藥數(shù)據(jù)庫等相關(guān)數(shù)據(jù)庫,并在建設(shè)數(shù)據(jù)庫的過程中制定了中醫(yī)藥元數(shù)據(jù)標(biāo)準(zhǔn)、中醫(yī)藥一體化語言系統(tǒng)等相關(guān)標(biāo)準(zhǔn)。以中國中醫(yī)科學(xué)院為中心建立的中醫(yī)科技文獻共建平臺,創(chuàng)建了中醫(yī)、中藥、針灸、古籍文獻類數(shù)據(jù)庫100余個,同時為了充分利用這些科學(xué)數(shù)據(jù)資源還建立了數(shù)據(jù)挖掘方法的整合平臺與高性能運算的技術(shù)平臺[5]。
在綜合系統(tǒng)和平臺建設(shè)方面,國家啟動了旨在集成現(xiàn)有中醫(yī)藥科技數(shù)據(jù)庫群的“中國中醫(yī)藥科學(xué)數(shù)據(jù)網(wǎng)格服務(wù)應(yīng)用”項目,該項目已經(jīng)構(gòu)建了面向中醫(yī)領(lǐng)域的應(yīng)用網(wǎng)格框架,并在開發(fā)面向中醫(yī)藥領(lǐng)域的特定網(wǎng)格應(yīng)用軟件[6]??萍疾繂恿恕搬t(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)共享網(wǎng)”項目,該項目旨在建立一個物理上分布、邏輯上高度統(tǒng)一的醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)管理與共享服務(wù)系統(tǒng),以提供數(shù)據(jù)共享和信息服務(wù)[7]。中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所針對單一實體機構(gòu)受到自身發(fā)展規(guī)模、人員及設(shè)施等方面的限制,牽頭提出了“中醫(yī)藥信息數(shù)字化虛擬研究院”[8]的理念。
借助現(xiàn)代信息技術(shù)對中醫(yī)信息資源的綜合利用、挖掘也進行了一些嘗試。如湖南中醫(yī)藥大學(xué)從20世紀(jì)70年代的“中醫(yī)辨證論治電腦系統(tǒng)”到21世紀(jì)初的“WF-Ⅲ中醫(yī)(輔助)診療系統(tǒng)”,系統(tǒng)內(nèi)編制有病癥1000種,標(biāo)準(zhǔn)證候模式1800個,演繹證候模式5000余個,疾病病種 460種,辨證要素54項,常見證200個,常用方劑670首(驗方在外),常用中藥720種(含中成藥),能為中醫(yī)內(nèi)、婦、兒科全病域診療[9]。中國中醫(yī)科學(xué)院從2001年開始著手建立中醫(yī)臨床科研信息共享的技術(shù)體系,用以解決將臨床實際診療信息實時數(shù)據(jù)化及對復(fù)雜海量臨床數(shù)據(jù)的分析利用的問題,目前已建立了多個應(yīng)用系統(tǒng),其中中醫(yī)臨床數(shù)據(jù)倉庫中已經(jīng)存儲超過10余萬份的數(shù)據(jù)化病歷[5]。
當(dāng)然,中醫(yī)藥信息化建設(shè)相對于現(xiàn)代醫(yī)學(xué)或其他科學(xué)起步較晚,信息化水平遠落后于用戶對其實際使用的需求。如現(xiàn)存的中藥數(shù)據(jù)庫中大部分數(shù)據(jù)庫僅提供題錄式或文摘式數(shù)據(jù),難以滿足用戶希望獲得全面且詳細內(nèi)容的實際需求。另一方面,已有的中醫(yī)藥信息化建設(shè)主要集中在中醫(yī)藥信息數(shù)據(jù)資源的收集、整理,綜合利用或從數(shù)據(jù)服務(wù)的性能及質(zhì)量方面考慮較少。因此,隨著所采集數(shù)據(jù)量的增加和用戶對其服務(wù)質(zhì)量要求的提高,現(xiàn)有的中醫(yī)藥信息化水平將更加難以滿足用戶對其使用的客觀需求。
支持海量中醫(yī)藥數(shù)據(jù)的管理系統(tǒng)應(yīng)具有高可擴展性以滿足數(shù)據(jù)量的快速增長、高性能以滿足對數(shù)據(jù)的高性能查詢、良好的容錯性以及有效解決對象多樣性問題的措施,但目前中醫(yī)藥數(shù)據(jù)管理主要采用的關(guān)系型數(shù)據(jù)模型無法解決這些問題,主要體現(xiàn)在以下幾方面。
第一,關(guān)系型數(shù)據(jù)庫內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)與關(guān)系模型之間存在“阻抗失諧”,需將不同數(shù)據(jù)之間的關(guān)系進行轉(zhuǎn)換,雖然采用“模式匹配”能解決“阻抗失諧”,但降低了系統(tǒng)查詢性能,因而無法解決中醫(yī)藥信息中對象屬性項的不確定性問題。
第二,關(guān)系型數(shù)據(jù)庫雖然采用分割、非規(guī)范化、分布式緩存等技術(shù)能增強其存儲和管理能力,但無法解決諸如中醫(yī)藥數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)類型多樣的問題,而且一些半結(jié)構(gòu)化數(shù)據(jù)強行使用關(guān)系模型建模后在系統(tǒng)性能和擴展能力上沒有好的表現(xiàn)。
第三,在提高對數(shù)據(jù)的存儲與并行處理能力、保障強一致性及容錯性方面,關(guān)系型數(shù)據(jù)庫雖然發(fā)展了并行處理系統(tǒng)、采用NRW策略、兩階段提交協(xié)議、分布式鎖等諸多技術(shù),但根據(jù)CAP理論[10-11],一致性、可用性、分區(qū)耐受性在分布式系統(tǒng)中三者不可兼得,因而并行數(shù)據(jù)庫無法獲得良好的擴展性,這導(dǎo)致了擴展性受限的關(guān)系型數(shù)據(jù)庫無法對中醫(yī)藥大數(shù)據(jù)進行深度分析[12]。
第四,中醫(yī)藥數(shù)據(jù)海量且增加快速,需要與之相匹配的具有良好橫向擴展能力的數(shù)據(jù)庫,但傳統(tǒng)關(guān)系型數(shù)據(jù)庫對性能的擴展傾向于縱向擴展,該方式對性能的增加速度遠低于需處理數(shù)據(jù)的增長速度,且性能提升有限;傳統(tǒng)關(guān)系型數(shù)據(jù)庫處理多個數(shù)據(jù)源協(xié)同查詢操作時其效率低,而中醫(yī)藥信息中各數(shù)據(jù)對象間存在的關(guān)系尤為復(fù)雜,使關(guān)系模型數(shù)據(jù)庫在面向海量、多數(shù)據(jù)源進行讀寫或查詢操作時難以滿足用戶對性能的要求。
總之,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫難以有效管理中醫(yī)藥數(shù)據(jù),是由于中醫(yī)藥數(shù)據(jù)自身的固有特性和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫本身局限所致。因而要從本質(zhì)上解決中醫(yī)藥數(shù)據(jù)的管理問題,需打破傳統(tǒng)的數(shù)據(jù)管理模式,借助現(xiàn)代信息的發(fā)展成果尤其是數(shù)據(jù)管理方面的新技術(shù),從中醫(yī)藥信息本身的特征出發(fā),對其進行高效管理和利用。
3 中醫(yī)藥信息管理新趨勢
3.1 大數(shù)據(jù)技術(shù)
大數(shù)據(jù)最典型的特征為“數(shù)據(jù)量大(volume)”、“數(shù)據(jù)增長高速(velocity)”“數(shù)據(jù)類型多樣(variety)”和“數(shù)據(jù)價值密度低(value)”,即4V特征,該特征使用常規(guī)軟件工具難以對其進行獲取、管理和分析。
作為一種新的計算模式,云計算源于并行計算、分布式計算和網(wǎng)格計算,主要依靠分布式處理、云存儲、分布式數(shù)據(jù)庫及虛擬化技術(shù),實現(xiàn)“基礎(chǔ)設(shè)施及服務(wù)”“平臺及服務(wù)”和“軟件及服務(wù)”功能。大數(shù)據(jù)存儲、管理及數(shù)據(jù)分析往往借助云計算技術(shù),最為典型的應(yīng)用為云計算體系結(jié)構(gòu)底層文件系統(tǒng)用于管理大數(shù)據(jù)文件及運用分布計算框架如MapReduce、Spark進行數(shù)據(jù)處理和分析。MapReduce作為Google提出的分布式計算框架,提供了一種簡單的編程模型,讓用戶通過設(shè)定Map功能,將一組Key/value對轉(zhuǎn)換為一組中間Key/value對。Reduce功能將具有相同中間Key值的中間Value值進行整合,從而得到計算結(jié)果。MapReduce中的一個作業(yè)就是一組Map和Reduce函數(shù),它們被提交給調(diào)度系統(tǒng),然后被調(diào)度到可用的機器上去。為克服MapReduce的機器學(xué)習(xí)算法性能低下、不能很好地利用內(nèi)存資源、編程復(fù)雜度較高等不足,Matei Zaharia主導(dǎo)開發(fā)了新型計算框架Spark。不同于MapReduce,Spark的Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此,Spark能更好地適用于數(shù)據(jù)挖掘與機器學(xué)習(xí)等需要迭代的MapReduce算法。
目前諸多大型IT企業(yè)為解決自身所從事領(lǐng)域的數(shù)據(jù)管理,開展了相關(guān)研究并提出一些可行的解決方案或服務(wù),其中典型的成功實例有:為解決海量數(shù)據(jù)環(huán)境中面向全球用戶提供實時的搜索引擎服務(wù),Google提出了文件系統(tǒng)GFS、分布式計算編程模型MapReduce框架、分布式鎖Chubby、分布式存儲系統(tǒng)Megastore、分布式結(jié)構(gòu)化數(shù)據(jù)表Bigtable及分布式監(jiān)控系統(tǒng)Dapper等技術(shù)。Apache開源組織提出了一個開源的分布式計算框架Hadoop,其核心技術(shù)HDFS、MapReduce和HBase分別對應(yīng)Google的GFS、MapReduce、Bigtable的開源實現(xiàn)。Amazon提出了Dynamo平臺基礎(chǔ)存儲架構(gòu)以及彈性計算云EC2、簡單存儲服務(wù)S3、簡單數(shù)據(jù)庫服務(wù)Simple DB、簡單隊列服務(wù)SQS、彈性MapReduce服務(wù)等系列服務(wù),其中Dynamo作為Amazon的電子商務(wù)平臺基礎(chǔ)完全分布式、去中心化,已被Twitter和Facebook作為存儲架構(gòu)。另外,微軟推出了AZURE,IBM推出了藍云服務(wù)。
上述大數(shù)據(jù)較普遍采用了以下技術(shù):①對數(shù)據(jù)庫不事先定義結(jié)構(gòu)(schemaless)以解決“阻抗失諧”問題,即先有數(shù)據(jù)再確定模式,不需事先修改結(jié)構(gòu)定義從而可以自由添加字段;②采用弱一致性模型或最終一致性模型以適應(yīng)集群處理大數(shù)據(jù);③通過并行計算模型實現(xiàn)在可伸縮的大規(guī)模集群上執(zhí)行并行操作,以從系統(tǒng)層面解決擴展性及容錯性問題。
3.2 基于大數(shù)據(jù)技術(shù)的中醫(yī)藥信息管理措施
中醫(yī)藥數(shù)據(jù)難以管理和利用,可以歸結(jié)為對象屬性復(fù)雜、數(shù)據(jù)海量及對象間關(guān)系復(fù)雜,這些問題本質(zhì)上屬于大數(shù)據(jù)的4V特征,目前業(yè)界已有成熟且實踐中得到廣泛驗證的解決方案,因而可以借鑒大數(shù)據(jù)技術(shù)解決中醫(yī)藥信息的管理問題。
3.2.1 對象屬性多樣 中醫(yī)藥數(shù)據(jù)中操作對象的屬性描述多樣,即其數(shù)據(jù)類型存在著不確定性,傳統(tǒng)關(guān)系型數(shù)據(jù)庫需事先預(yù)定數(shù)據(jù)結(jié)構(gòu),導(dǎo)致無法存儲類型不統(tǒng)一的數(shù)據(jù),而大數(shù)據(jù)技術(shù)通常采用“無模式”數(shù)據(jù)庫,可解決大數(shù)據(jù)特征的“數(shù)據(jù)類型多樣(variety)”問題。如Dynamo存儲架構(gòu)對數(shù)據(jù)以位(bit)的形式存儲、不解析數(shù)據(jù)的具體內(nèi)容,對數(shù)據(jù)結(jié)構(gòu)不進行識別,從而可以處理不同的數(shù)據(jù)類型。
中醫(yī)藥信息存在大量非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如古醫(yī)籍、藥典、處方等,目前已有許多成熟的數(shù)據(jù)庫可以存儲非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),最為典型的為鍵值數(shù)據(jù)庫Riak、文檔數(shù)據(jù)庫、列族數(shù)據(jù)庫HBase。這些數(shù)據(jù)庫通過聚合構(gòu)建,每個聚合都有一個鍵或ID以獲取數(shù)據(jù)。其中,鍵值數(shù)據(jù)庫可以根據(jù)鍵值查出整個聚合,而文檔數(shù)據(jù)庫的聚合是透明的,因而文檔數(shù)據(jù)庫可用聚合中的字段查詢。列族數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫以行為單元存儲來滿足需要經(jīng)常寫入操作的場景最大不同之處在于,其將所有行的某一組列作為基本數(shù)據(jù)單元進行存儲以適應(yīng)經(jīng)常需要一次讀取若干行中多列的情況。這些數(shù)據(jù)存儲模型能較好地解決中醫(yī)藥信息中復(fù)雜的數(shù)據(jù)存儲對象,如處方可以用患者的ID作為鍵值采用鍵值數(shù)據(jù)庫進行存儲,便于查詢以該ID存儲的聚合內(nèi)容;而藥典中對藥的描述組織結(jié)構(gòu)大體相同,因而可采用文檔數(shù)據(jù),便于通過其中的字段進行查詢以提高查詢效率。
3.2.2 數(shù)據(jù)海量、增長迅速 中醫(yī)藥數(shù)據(jù)中操作對象的屬性模糊、不完備、古籍校本混亂,為獲取全面、準(zhǔn)確的信息,需綜合多個數(shù)據(jù)源進行綜合分析,即從大量數(shù)據(jù)價值相對低的中醫(yī)藥信息中進行抽取。該問題可歸結(jié)為“數(shù)據(jù)量大(volume)”和“數(shù)據(jù)價值密度低(value)”的大數(shù)據(jù)特征。
解決中醫(yī)藥數(shù)據(jù)的海量性需具有可擴展性的分布式文件系統(tǒng),而且文件的規(guī)模不同,則需采取的策略不同。在處理大文件方面,Google的分布式文件系統(tǒng)GFS可構(gòu)建在大量廉價服務(wù)器之上,主要適用于讀操作遠大于寫操作的應(yīng)用場景且具有可擴展性,如中醫(yī)藥文獻古籍存儲后主要進行讀操作一般不需進行再寫,因而可采用GFS文件系統(tǒng)。在存儲海量小文件如圖片存儲場景時,Haystack文件系統(tǒng)通過多個邏輯文件共享同一個物理文件、增加緩存層、加載部分元數(shù)據(jù)到內(nèi)存等方式,解決GFS在解決海量小文件由于頻繁讀取元數(shù)據(jù)導(dǎo)致效率低的問題。
3.2.3 各數(shù)據(jù)對象間復(fù)雜關(guān)系 中醫(yī)藥文獻記載或中醫(yī)藥數(shù)據(jù)庫中存儲的對象之間復(fù)雜關(guān)系實際上是客觀存在的聯(lián)系,圖作為表示事物之間聯(lián)系的有效手段,可以表示這種復(fù)雜關(guān)系。需要記載或存儲的對象即實體,對象間關(guān)系即為邊,實體和邊都有各自的屬性。關(guān)系型數(shù)據(jù)庫中存儲的圖結(jié)構(gòu)通常采用單一關(guān)系類型,如在增加一條關(guān)系往往需修改多個模式并轉(zhuǎn)移大批數(shù)據(jù),因而不適用于中醫(yī)藥數(shù)據(jù)分析的場景。圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫存儲圖結(jié)構(gòu)不同之處在于實體間的關(guān)系在創(chuàng)建時被持久化,因而對其進行遍歷的效率高。在大數(shù)據(jù)圖處理方面,Google提出了主要用于圖計算的Pregel模型,其核心思想源于BSP計算模型;微軟提出了Dryad數(shù)據(jù)處理模型,主要用來構(gòu)建支持有向無環(huán)圖類型數(shù)據(jù)的并行程序。Pregel模型和Dryad模型相結(jié)合,能較好地分析中醫(yī)藥信息中對象間存在的相互關(guān)系。
4 結(jié)語
如何有效管理和利用中醫(yī)藥信息資源是充分利用中醫(yī)藥技術(shù)服務(wù)社會的核心問題。本文在分析中醫(yī)藥信息資源的發(fā)展歷程和其本質(zhì)特征的基礎(chǔ)上,闡述了中醫(yī)藥信息資源具有大數(shù)據(jù)4V特征,從理論上分析了大數(shù)據(jù)技術(shù)解決中醫(yī)藥信息資源管理的可行性。今后研究將主要集中在具體存儲對象的存儲模型選取及其實現(xiàn)方面,以期最終實現(xiàn)一個有效管理中醫(yī)藥信息資源的綜合云平臺。
參考文獻:
[1] 于琦,崔蒙.中醫(yī)藥信息的特征研究[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志, 2012,18(10):1137-1139.
[2] 丁志平,王家輝,喬延江.中藥信息學(xué)研究淺釋[J].中國中醫(yī)藥信息雜志,2003,10(4):92-94.
[3] 羅朝淑.我首個國家級中醫(yī)藥數(shù)據(jù)中心成立[N].科技日報, 2015-01-08(10).
[4] 李湘君.中醫(yī)藥信息資源現(xiàn)狀分析[J].衛(wèi)生軟科學(xué),2007,21(3):227-228.
[5] 劉保延.大數(shù)據(jù)繪制當(dāng)代中醫(yī)航海圖[N].中國中醫(yī)藥報, 2013-06-05(3).
[6] 尹愛寧,崔蒙,范為宇,等.中醫(yī)藥虛擬研究院[J].國際中醫(yī)中藥雜志, 2006,28(3):141-143.
[7] 趙紅,尹嶺,王建國,等.國家醫(yī)藥衛(wèi)生領(lǐng)域科學(xué)數(shù)據(jù)共享網(wǎng)建設(shè)目的與現(xiàn)狀[J].中國中醫(yī)藥現(xiàn)代遠程教育,2008,6(6):570-572.
[8] 崔蒙,謝琪,尹愛寧,等.中醫(yī)藥信息數(shù)字化虛擬研究院建設(shè)模式研究[J].上海中醫(yī)藥大學(xué)學(xué)報,2008,23(3):5-8.
[9] 朱文鋒.WF文鋒-Ⅲ中醫(yī)(輔助)診療系統(tǒng)[J].醫(yī)學(xué)研究雜志,2007, 36(9):62.
[10] ERIC A BREWER. Towards robust distributed systems[EB/OL]. (2000-07-19)[2016-04-19].http://people.eecs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf.
[11] LYNCH N, GILBERT S. Brewer's conjecture and the feasibility of consistent, available, partition-tolerant Web services[J]. ACM SIGACT News,2002,33(2):51-59.
[12] 覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報,2012,23(1):32-45