張雷 王云光
摘要:
為了應對當今社會健康數(shù)據(jù)持續(xù)性爆炸增長的態(tài)勢,從健康大數(shù)據(jù)的概念及特點入手,針對其數(shù)據(jù)挖掘問題進行了研究,明晰了健康大數(shù)據(jù)挖掘的基本流程,重點分析比對了傳統(tǒng)與新興數(shù)據(jù)挖掘算法的異同及其應用范圍,并對健康大數(shù)據(jù)挖掘的意義及面臨的挑戰(zhàn)進行了闡述。最后得到結論,只有將現(xiàn)有的挖掘算法與新興技術結合起來,才是未來健康大數(shù)據(jù)挖掘的發(fā)展趨勢。
關鍵詞關鍵詞:健康大數(shù)據(jù);數(shù)據(jù)挖掘;健康醫(yī)療
DOIDOI:10.11907/rjdk.172481
中圖分類號:TP301
文獻標識碼:A文章編號文章編號:16727800(2018)003000103
英文摘要Abstract:In response to the continuing explosion of health data in today′s society,this paper firstly introduces the concept and characteristics of health big data,and then aiming at the problem of data mining, clearing the health the basic processes of data mining, analysis and compare the similarities and differences between traditional and emerging data mining algorithm and its application scope.Finally,we expounded the significance and challenges of health big data mining, concluded that the existing mining algorithms combined with the emerging technology will be the conclusion of the future trend of healthy big data mining.
英文關鍵詞Key Words:health big data; data mining; health care
0引言
隨著現(xiàn)代科技的進步,尤其是信息技術的高速發(fā)展,傳統(tǒng)數(shù)據(jù)模式已不足以滿足人們的需求,因此大數(shù)據(jù)引起了人們的廣泛關注。人工智能和數(shù)據(jù)挖掘技術的成熟也為健康大數(shù)據(jù)的發(fā)展帶來契機,人們身邊無時無刻不在流動著大量有關健康方面的信息,但是這些數(shù)據(jù)分散在不同的醫(yī)院、健康公司甚至個人醫(yī)療系統(tǒng)中,而這些系統(tǒng)由不同軟件公司開發(fā),它們之間缺乏聯(lián)系,數(shù)據(jù)結構也不盡相同,從而形成“信息孤島”。因此,需要對這些潛藏于大數(shù)據(jù)中有價值的健康信息進行分析與挖掘,以使其為健康醫(yī)療服務。
1健康大數(shù)據(jù)概念及特點
實際上,目前對健康大數(shù)據(jù)的定義尚未形成共識,不同學者對健康大數(shù)據(jù)的理解不同。本文采用黎建民教授[1]的說法,即健康大數(shù)據(jù)是指所有與醫(yī)療和生命健康相關的,包括患者在受到照護期間產(chǎn)生的所有數(shù)據(jù)的總合。
舍恩伯格[2]曾經(jīng)在《大數(shù)據(jù)時代》一書中講到大數(shù)據(jù)具有4V 特點:Volume(海量)、Velocity(快速)、Variety(多樣)、Value(價值)。健康大數(shù)據(jù)除了完全符合這4個特點外(見圖1),還具有健康領域特有的一些特征[3],如:①多態(tài)性,健康數(shù)據(jù)包括純數(shù)據(jù)、信號、圖像、文字等多種形態(tài);②時序性,患者的就診、疾病發(fā)病過程在時間上有一個進度;③隱私性,健康大數(shù)據(jù)的隱私性極高,如若泄漏將對患者造成嚴重后果;④冗余性,大批相同或相似的健康信息被記錄下來,如與病理特征無關的檢查信息或?qū)σ恍┏R娂膊〉拿枋鲂畔⒌取?/p>
2健康大數(shù)據(jù)挖掘流程
一個完整的數(shù)據(jù)挖掘流程包括數(shù)據(jù)收集、數(shù)據(jù)預處理、數(shù)據(jù)挖掘與結果理解4 個主要組成部分[4](見圖2),健康大數(shù)據(jù)的挖掘也不例外,只是在具體環(huán)節(jié)上采用的算法有所不同。
(1)數(shù)據(jù)收集:針對所選擇的目標進行數(shù)據(jù)挖掘,分析與其相關的所有數(shù)據(jù),也包括目標外部的數(shù)據(jù)信息(如天氣、空氣、環(huán)境等外部信息會對某些醫(yī)療行為產(chǎn)生影響),并選出適應于該挖掘目標的數(shù)據(jù)。
(2)數(shù)據(jù)預處理:通過收集得到的數(shù)據(jù)中通常存在噪聲、不完整和不一致的數(shù)據(jù),這是數(shù)據(jù)倉庫與大型數(shù)據(jù)庫的共同特點[5]。因此,需要在挖掘之前對這些數(shù)據(jù)進行預處理,以提高其質(zhì)量和分析能力。具體步驟有:數(shù)據(jù)清洗與加工(通過各種方式對所收集數(shù)據(jù)的準確性、合法性、完整性、一致性、時效性等各方面進行檢查,對質(zhì)量差的數(shù)據(jù)進行修正甚至刪除)、數(shù)據(jù)標準化(為收集的數(shù)據(jù)建立數(shù)據(jù)集標準,并按該標準進行數(shù)據(jù)格式的轉(zhuǎn)換、采集)、屬性選擇(采用相應算法對數(shù)據(jù)屬性值進行評估,選取與結果相關性高的屬性)。數(shù)據(jù)預處理過程十分繁瑣,往往占用整個工作流程一半甚至60%左右的時間。
(3)數(shù)據(jù)挖掘:又稱為建立模型,需要確定模型的算法和評價方法。對于健康大數(shù)據(jù)的挖掘主要有2種思路:一是根據(jù)之前的經(jīng)驗人為建立數(shù)學模型分析數(shù)據(jù),即傳統(tǒng)算法;二是通過近年來興起的人工智能系統(tǒng),利用大量樣本數(shù)據(jù)進行訓練,讓機器代替人工獲得從數(shù)據(jù)中提取知識的能力,即新興算法。模型構建之后需要對模型進行評估和優(yōu)化,若有必要還需返回上一流程進行參數(shù)調(diào)整。
(4)結果分析:即對模型的解釋,實際應用效果要反饋給建立的模型,而且要根據(jù)應用效果進行模型的相應調(diào)整。
3健康大數(shù)據(jù)挖掘算法
在健康大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生和收集是基礎,挖掘是關鍵,數(shù)據(jù)挖掘是健康大數(shù)據(jù)研究中最關鍵且最有價值的工作。傳統(tǒng)的挖掘算法有分類、聚類、預測、關聯(lián)規(guī)則等。這些算法在分析健康大數(shù)據(jù)時依然可以使用,但是由于大數(shù)據(jù)的超大規(guī)模性和快速增長性,傳統(tǒng)挖掘算法的效率有時跟不上用戶預期,而且在處理非結構和半結構化復雜數(shù)據(jù)時面臨一定困難。而新興的算法如網(wǎng)絡爬蟲、云計算等挖掘方式效率更高,應用范圍也更廣,處理實時且快速。
3.1傳統(tǒng)算法
3.1.1算法分類
通過找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點即分類標號,然后根據(jù)訓練數(shù)據(jù)集和類標號屬性構建模型,對現(xiàn)有數(shù)據(jù)及新數(shù)據(jù)進行分類 [6]。具體分類算法有決策樹、神經(jīng)網(wǎng)絡、支持向量機、貝葉斯分類等。
其中在健康醫(yī)療領域應用比較廣泛的有決策樹算法,決策樹是一種典型的分類算法,其在醫(yī)藥大數(shù)據(jù)的處理中十分常見。決策樹是一種類似于流程圖的樹結構,決策樹算法是通過測試每個屬性的信息增益,選擇具有最大信息增益的屬性作為當前節(jié)點的測試屬性,并自上而下對屬性進行遞歸劃分從而構建樹的算法。它可以提高處理多維且數(shù)量巨大的醫(yī)藥數(shù)據(jù)的速度,因此為數(shù)據(jù)量巨大的醫(yī)療大數(shù)據(jù)處理帶來了便利。 而且,此方法也可以用于一些需要長期觀察的慢性病研究,分析疾病的變化趨勢,對疾病作出預測。決策樹算法的最大優(yōu)點是它可以自學習,在學習過程中,并不需要使用者了解很多背景知識,只要訓練事例能夠用屬性-值的方式表達出來,就能使用該算法進行學習。此外,決策樹算法的健壯性較好,還能夠處理非線性關系。但是它也存在著缺乏伸縮性的缺點,即由于進行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難以處理大訓練集。
3.1.2聚類
聚類類似于分類,但與分類的目的不同。聚類是把不同的對象集合分成若干個不同類別的模型,每個模型具有相似的對象,有著基本相似的特征,又與其它類別中的對象不同[7]。聚類算法又分為劃分法(如K-MEANS、K-MEDOIDS算法)、層次法(如BRICH算法)與基于密度的方法(如DBSCAN算法)。通過聚類方法可以對醫(yī)療大數(shù)據(jù)進行分類處理,找出與其它病癥不同或類似的病癥,從而能夠分析出同一病種的微小差異, 做到精準治療。如Hastie等[8]通過對疼痛反應結果的聚類分析,完成了對熱性疼痛、壓力性疼痛、缺血性疼痛的誘因分析。聚類分析在醫(yī)療健康記錄的關鍵詞分類、生理信號分析中也發(fā)揮著重要作用。但是也要注意到目前的許多聚類算法都只是理論上的,經(jīng)常處于某種假設之下,比如聚類能很好地被分離,沒有突出的孤立點等,但現(xiàn)實中的數(shù)據(jù)尤其是醫(yī)療數(shù)據(jù)通常很復雜,噪聲也很大。因此,如何有效地消除噪聲影響,提高處理現(xiàn)實數(shù)據(jù)的能力還有待進一步研究。
3.1.3預測
預測是指基于歷史數(shù)據(jù)建立模型,運用數(shù)據(jù)對未來發(fā)展趨勢進行測算,以預先了解事情發(fā)展的結果。具體預測方法有回歸分析(簡單線性回歸、多元線性回歸、非線性回歸)和時間序列(時序平均數(shù)法、移動平均法等)。
其中,回歸分析方法在健康領域應用較多。回歸分析方法反映的是數(shù)據(jù)庫中屬性值在時間上的特征,其主要研究包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列預測以及數(shù)據(jù)間的關系等問題。例如對醫(yī)院信息系統(tǒng)中醫(yī)療風險因素的回歸分析,即分析各個影響因素與醫(yī)療風險之間的聯(lián)系及引起風險的概率變化,用于指導醫(yī)院的風險管理。但有時在回歸分析中,選用何種因子和該因子采用何種表達式只是一種推測,從而影響了因子的多樣性,使回歸分析在某些情況下受到限制。
3.1.4關聯(lián)規(guī)則
關聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的某種潛在關系的規(guī)則,也即可以從一個事務中某些項的出現(xiàn)推導出另一些項在同一事務中也將出現(xiàn)。該方法能夠發(fā)現(xiàn)醫(yī)療信息數(shù)據(jù)庫中滿足目的的最小支持度和最小可信度的所有關聯(lián)規(guī)則,從而揭示隱藏在健康大數(shù)據(jù)中的關聯(lián)關系[9]。在一些存在大量用戶醫(yī)療信息的數(shù)據(jù)庫中,比如個人健康信息、臨床治療信息、臨床診斷信息等,可以通過這一方法進行數(shù)據(jù)的挖掘處理,實現(xiàn)疾病的臨床決策和特殊疾病診斷[10]。關聯(lián)規(guī)則算法對患者所表現(xiàn)出的疾病特點及診療過程研究十分有效,但其也存在著在每一步產(chǎn)生侯選項目集時循環(huán)產(chǎn)生組合過多的缺點,且沒有排除不應該參與組合的元素,從而產(chǎn)生過多的候選項目集,導致I/O負載大。
3.2新興算法
3.2.1云計算
云計算作為一種高擴展、高彈性、虛擬化的計算模式,為健康大數(shù)據(jù)挖掘存儲能力及處理速度提升提供了動力支撐。基于云計算的數(shù)據(jù)挖掘是分布式并行數(shù)據(jù)挖掘與服務模式,一方面對于同一算法可以分布于多個節(jié)點上,另一方面多個算法之間是并行的,多個節(jié)點的計算資源可以按需分配?;谠朴嬎愕臄?shù)據(jù)挖掘可以將傳統(tǒng)算法,如關聯(lián)分析、決策樹、神經(jīng)網(wǎng)絡等算法結合使用。其主要有以下優(yōu)點:①減少費用。醫(yī)院或醫(yī)療機構之間不需要單獨建立一個計算中心,只需要在云平臺上購買所需的服務,從而節(jié)省了大量費用;②高可靠性。云計算使用數(shù)據(jù)多副本容錯、計算節(jié)點同構可互換等措施,從而保障了服務的高可靠性,使用云計算比使用本地計算機更加可靠;③移動化。相比于傳統(tǒng)基于本地的服務,云計算可以使人們隨時隨地進行移動辦公。目前,基于云計算的大數(shù)據(jù)挖掘在健康領域主要應用在醫(yī)學圖像診斷、臨床決策支持等方面[9]。
3.2.2網(wǎng)絡爬蟲
運用網(wǎng)絡爬蟲技術打破數(shù)據(jù)壁壘,對健康大數(shù)據(jù)進行整理融合,對數(shù)據(jù)挖掘具有十分重要的意義。而且先進的健康數(shù)據(jù)大都存在于網(wǎng)頁之中,而運用網(wǎng)絡爬蟲(Web crawler)技術可以快速、準確地獲取大量網(wǎng)頁信息,并實現(xiàn)數(shù)據(jù)的實時更新[11]。
網(wǎng)絡爬蟲的核心原理為: 通過統(tǒng)一資源定位符(URL)地址,利用超文本傳輸協(xié)議 (HTTP) 模擬瀏覽器請求訪問網(wǎng)站服務器的方式,封裝必要的請求參數(shù),獲取網(wǎng)站服務器端的許可,返回原始頁面并解析數(shù)據(jù),其一般工作流程如圖3所示。
卞偉瑋、王永超等[12]利用網(wǎng)絡爬蟲技術快速、準確地獲得公共衛(wèi)生服務系統(tǒng)的醫(yī)療數(shù)據(jù),并進行數(shù)據(jù)整理,為建立人群健康風險評估模型提供數(shù)據(jù)基礎。然而目前基于網(wǎng)絡爬蟲的數(shù)據(jù)挖掘算法在健康領域的應用還不太廣泛,有待進一步研究。
4健康大數(shù)據(jù)挖掘面臨的挑戰(zhàn)
目前健康醫(yī)療大數(shù)據(jù)技術還處于早期發(fā)展階段,許多專業(yè)醫(yī)療機構、研究機構、企業(yè)都參與其中,推出各種特色的應用方案,以期挖掘健康醫(yī)療大數(shù)據(jù)的價值, 促進健康醫(yī)療行業(yè)發(fā)展。因此,健康醫(yī)療大數(shù)據(jù)將在醫(yī)療行業(yè)發(fā)揮越來越重要的作用。盡管如此,在實際應用中還存在許多問題和挑戰(zhàn):
(1)數(shù)據(jù)共享困難?!靶畔⒐聧u”普遍存在,來自不同醫(yī)療機構的數(shù)據(jù)結構差異性大,比如各個醫(yī)院的電子病歷格式都不相同。在這種情況下進行挖掘,會延長挖掘周期,從而大大限制健康醫(yī)療數(shù)據(jù)的應用范圍。
(2)數(shù)據(jù)標準不統(tǒng)一。各醫(yī)療機構通常有自己的信息化系統(tǒng),且不同廠商的設備標準也不一樣,導致挖掘健康大數(shù)據(jù)時采用的原始數(shù)據(jù)質(zhì)量較差。
(3)隱私保護堪憂。這主要是由于健康大數(shù)據(jù)的高度隱私性決定的,不同于其它大數(shù)據(jù),健康大數(shù)據(jù)一旦發(fā)生泄漏,將損害患者的人格和尊嚴,特別是基因數(shù)據(jù)。由于每個人的基因數(shù)據(jù)都不相同,所以一旦泄漏后果不堪設想。如何在數(shù)據(jù)挖掘和分析過程中保護好患者隱私,是一項巨大的挑戰(zhàn)。
(4)復合型人才不足。醫(yī)療行業(yè)缺乏既精通醫(yī)療業(yè)務又擅長信息技術的新型健康管理人才,這已成為阻礙健康大數(shù)據(jù)挖掘技術應用的一大難題。
5結語
醫(yī)療健康與人類生活息息相關,如今正處在健康醫(yī)療行業(yè)大數(shù)據(jù)分析的一個重要轉(zhuǎn)折點,如何更好地利用身邊的大數(shù)據(jù),促進人們生活水平的提高,是一個亟待解決的問題。健康大數(shù)據(jù)的應用,不僅可以為人們帶來更好的醫(yī)療健康服務,更重要的是在應用中,利用大數(shù)據(jù)挖掘算法可以不斷發(fā)現(xiàn)新的知識內(nèi)容,從而促進醫(yī)學技術進步。而每一種數(shù)據(jù)挖掘算法都有其優(yōu)缺點,適用范圍也不相同,因此在以后的研究中需要比較每種算法的優(yōu)缺點,并將它們與新興技術結合起來,這將是未來健康大數(shù)據(jù)研究的重點。
參考文獻參考文獻:
[1]黎健民.大數(shù)據(jù)時代下的醫(yī)療康復與健康[J].中國醫(yī)藥導報,2016,13(33):178181.
[2]邁爾舍·恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[3]許培海,黃匡時.我國健康醫(yī)療大數(shù)據(jù)的現(xiàn)狀、問題及對策[J].中國數(shù)字醫(yī)學,2017,12(5):2426.
[4]李雨童,姚登舉,李哲,等.基于R的醫(yī)學大數(shù)據(jù)挖掘系統(tǒng)研究[J].哈爾濱理工大學學報,2016,21(2):3843.
[5]JIAWEI HAN,MICHELIN KAMBER.數(shù)據(jù)挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2008:3031.
[6]SCHAFFER,CULLEN.Selecting a classification method by cross validation[J].Machine Learning, 1993,13(1):135143.
[7]宋波,楊艷利,馮云霞.醫(yī)療大數(shù)據(jù)研究進展[J].轉(zhuǎn)化醫(yī)學雜志,2016,5(13):298300.
[8]HASTILE BA, ROBINSON ME,et al.Cluster analysis of multiple experimental pain modalities[J].Pain,2005,116(3):227237.
[9]孫艷秋,王甜宇,曹文聰.基于云計算的醫(yī)療大數(shù)據(jù)的挖掘研究[J].計算機光盤軟件與應用,2015(2):1113.
[10]FANG Z,F(xiàn)AN X,CHEN G.A study on specialist or special disease clinics based on big data[J].Front Med,2014,8(3):376381.
[11]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡爬蟲技術的研究[J].電腦知識與技術,2010,6(15):41124115.
[12]卞偉瑋,王永超,崔立真,等.基于網(wǎng)絡爬蟲技術的健康醫(yī)療大數(shù)據(jù)采集整理系統(tǒng)[J].山東大學學報:醫(yī)學版,2017,55(6):4755.
責任編輯(責任編輯:黃?。?