劉莉,姚京京,李俊,陳先來(lái),周宇葵
1.中南大學(xué)生命科學(xué)學(xué)院,湖南長(zhǎng)沙410013;2.中南大學(xué)湘雅口腔醫(yī)學(xué)院,湖南長(zhǎng)沙410008;3.中南大學(xué)信息安全與大數(shù)據(jù)研究院,湖南長(zhǎng)沙410083
高血壓是一種以體循環(huán)動(dòng)脈壓升高為主要特征,遺傳易感性和環(huán)境因素相互作用導(dǎo)致的全身性疾?。?]。已有大量研究表明有效控制高血壓發(fā)病情況,可降低心腦血管疾病的患病風(fēng)險(xiǎn)[2-3]。電子病歷(Electronic Medical Record,EMR)是病人的所有健康保健數(shù)據(jù)、病史及患病情況的存儲(chǔ)[4]。作為一種新穎而豐富的臨床研究資源,其研究?jī)r(jià)值不言而喻[5-6]。通過(guò)有效的數(shù)據(jù)可視化技術(shù),電子病歷數(shù)據(jù)中疾病診斷之間的關(guān)系可以以圖形網(wǎng)絡(luò)的形式清晰展示出來(lái),以便醫(yī)生探索其中的醫(yī)學(xué)規(guī)則,輔助其進(jìn)行疾病診斷,也可為患者提供直觀的疾病關(guān)系網(wǎng)絡(luò)。本研究以高血壓相關(guān)的電子病歷數(shù)據(jù)作為數(shù)據(jù)源,采用Gephi 復(fù)雜網(wǎng)絡(luò)分析軟件和共詞分析方法,從多角度、多層面分析展示病案首頁(yè)中高血壓相關(guān)診斷之間的關(guān)系,旨在揭示這些疾病診斷之間的聯(lián)系,為下一步建立更加完善的疾病圖譜奠定基礎(chǔ)。
高血壓及其相關(guān)疾病關(guān)系可以通過(guò)查閱文獻(xiàn)資料、詢問(wèn)醫(yī)療工作者和訪問(wèn)醫(yī)學(xué)網(wǎng)站等方式獲取,其中對(duì)電子病歷進(jìn)行分析是一種以患者為中心的研究方法,是了解患者患病情況的重要手段[7]。已有不少研究以電子病歷為研究對(duì)象,開(kāi)展自然語(yǔ)言處理、知識(shí)提取、可視化研究等方面的工作[8-10]。姚旭升等[11]以住院病案首頁(yè)數(shù)據(jù)為研究對(duì)象,采用基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)流,建立疾病間關(guān)聯(lián)規(guī)則模型?;陔娮硬v的分析可以發(fā)現(xiàn)患者最直接的信息,分析其中的規(guī)律,揭示各疾病之間的關(guān)系。
近年來(lái),大數(shù)據(jù)的興起和相關(guān)技術(shù)的迅速發(fā)展讓生物醫(yī)學(xué)成為發(fā)展最為迅速的領(lǐng)域之一[12]。在臨床、藥品、檢驗(yàn)、影像和醫(yī)學(xué)科研領(lǐng)域每天都產(chǎn)生著大量數(shù)據(jù),并近乎以指數(shù)方式增長(zhǎng)。因此,對(duì)這些醫(yī)學(xué)領(lǐng)域的信息進(jìn)行科學(xué)的收集、加工、分析、處理、展示,使其更好地為人類服務(wù)也就顯得更加重要?;诠苍~分析構(gòu)建共現(xiàn)網(wǎng)絡(luò)的可視化技術(shù)探索關(guān)鍵詞之間的關(guān)系并不是一項(xiàng)新的嘗試,在許多領(lǐng)域都被有效利用,如研究文本分類中詞的共現(xiàn)關(guān)系[13],學(xué)科知識(shí)結(jié)構(gòu)、研究熱點(diǎn)分析[14-15]。共詞分析用于確定各關(guān)鍵詞之間共同出現(xiàn)的頻次,使密切相關(guān)的關(guān)鍵詞聚類,其可發(fā)現(xiàn)研究對(duì)象之間的關(guān)系和揭示潛在的可能關(guān)系[16]。
在高血壓的研究領(lǐng)域中,多為臨床研究、基礎(chǔ)醫(yī)學(xué)研究和數(shù)據(jù)挖掘研究,其中數(shù)據(jù)挖掘研究多集中于高血壓識(shí)別模型和高血壓癥狀研究,鮮有共詞分析的可視化技術(shù)分析高血壓及其相關(guān)疾病關(guān)系的研究報(bào)道。本研究旨在采用共詞分析的可視化技術(shù)對(duì)病案首頁(yè)診斷數(shù)據(jù)進(jìn)行分析,構(gòu)建高血壓及其相關(guān)疾病的關(guān)系網(wǎng)絡(luò),分析與高血壓相關(guān)的主要疾病之間的關(guān)系,為提供直觀的高血壓疾病關(guān)聯(lián)圖譜、展示臨床已知的疾病關(guān)聯(lián)、揭示潛在的與高血壓相關(guān)疾病、輔助醫(yī)生診斷提供參考。
本研究選取湘雅三醫(yī)院2017年11月份出院患者的病案首頁(yè)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)源,共計(jì)記錄3 632條,字段232 個(gè)?;诨颊唠[私保護(hù),首先對(duì)記錄中的患者身份信息進(jìn)行剔除,僅為每條記錄隨機(jī)賦予唯一識(shí)別碼,以保證隱私信息的安全。以“高血壓”為檢索詞,選擇診斷字段中包含“高血壓”的記錄作為研究對(duì)象,共計(jì)808條記錄。對(duì)所選記錄和字段進(jìn)行評(píng)估、篩選、填充、刪除等預(yù)處理,最終獲得四類字段。同時(shí),以實(shí)驗(yàn)數(shù)據(jù)中的第一條記錄為例,展示各字段的內(nèi)容,其中門診診斷和主要診斷結(jié)果不一定相同。實(shí)驗(yàn)數(shù)據(jù)中平均每條記錄包含5.5 個(gè)非空診斷字段,所含字段數(shù)量范圍為3~17個(gè),各記錄非空字段數(shù)目分布整體呈偏態(tài)分布,記錄非空字段數(shù)主要集中于4~10。
在電子病歷數(shù)據(jù)中,病案首頁(yè)數(shù)據(jù)的結(jié)構(gòu)化程度相對(duì)較高,類似患者主訴等自然語(yǔ)言為主的字段較少,多為類似診斷信息等結(jié)構(gòu)化程度較高的字段,表達(dá)簡(jiǎn)潔準(zhǔn)確。但依舊存在因表達(dá)標(biāo)準(zhǔn)化不夠完善、錄入人員操作失誤等情況。
由于患者的“其它診斷”數(shù)量具有個(gè)體差異性,診斷字段數(shù)量不盡相同,所以在實(shí)驗(yàn)研究中對(duì)空字段不進(jìn)行填充處理。針對(duì)表達(dá)主題相同,但表達(dá)方式不同的字段內(nèi)容進(jìn)行轉(zhuǎn)換處理,以提高一定的數(shù)據(jù)標(biāo)準(zhǔn)化程度,如“高血壓Ⅲ”和“高血壓Ⅲ級(jí)”則將兩者統(tǒng)一以“高血壓Ⅲ”進(jìn)行表示。在本研究中“高血壓Ⅱ”、“高血壓Ⅲ”分別對(duì)應(yīng)Ⅱ級(jí)高血壓和Ⅲ級(jí)高血壓,而“高血壓”則是患者是否患有高血壓的判斷結(jié)果,可能為任意一級(jí)高血壓。此外,針對(duì)記錄中出現(xiàn)一些癥狀類診斷及診斷結(jié)果過(guò)于粗略的字段進(jìn)行了刪除處理。
在數(shù)據(jù)處理的過(guò)程中,未對(duì)診斷結(jié)果進(jìn)行主題詞、上下位詞的匹配和調(diào)整,因此,會(huì)出現(xiàn)“高血壓”、“高血壓Ⅱ”和“高血壓Ⅲ”等相似診斷名稱。這主要是考慮到雖然經(jīng)過(guò)主題詞的調(diào)整和上下位詞的縮放可以減少節(jié)點(diǎn)數(shù)量,使共現(xiàn)網(wǎng)絡(luò)更加清晰,但會(huì)損失原本的疾病診斷信息,降低共現(xiàn)圖譜的精度。
共詞分析研究的基礎(chǔ)是基于兩個(gè)假設(shè):(1)兩個(gè)關(guān)鍵詞在同一條記錄中同時(shí)出現(xiàn),表明其所代表的主題之間具有關(guān)聯(lián)性;(2)為探討關(guān)鍵詞之間相似度的聚類共現(xiàn)研究,需與研究的主題和目的保持一致[7]?;诠苍~分析的研究思想,把原始記錄轉(zhuǎn)換為原始矩陣,對(duì)原始矩陣進(jìn)行分析處理生成共現(xiàn)矩陣,為下一步研究提供數(shù)據(jù)支持。
以Python 語(yǔ)言編寫(xiě)處理程序,提取出原始矩陣中的共現(xiàn)關(guān)系,即獲取原始矩陣中每一行任意兩個(gè)元素的構(gòu)成的無(wú)序共現(xiàn)對(duì),并記錄各元素出現(xiàn)次數(shù)和無(wú)序共現(xiàn)對(duì)出現(xiàn)的次數(shù),其中元素出現(xiàn)次數(shù)以表格形式保存,共現(xiàn)關(guān)系以共現(xiàn)矩陣的形式表達(dá)出來(lái),共現(xiàn)矩陣如式(1)所示。
在式(1)中,ci代表第i個(gè)關(guān)鍵詞,vab代表第a個(gè)關(guān)鍵詞與第b個(gè)關(guān)鍵詞的共現(xiàn)值,即兩者同時(shí)出現(xiàn)在同一條記錄中的次數(shù)。其中同一關(guān)鍵詞之間不存在共現(xiàn)關(guān)系,其值為空,以0 表示。據(jù)此所生成共現(xiàn)矩陣包含了原始矩陣中的共現(xiàn)關(guān)系和各關(guān)鍵詞之間共現(xiàn)的強(qiáng)弱程度。
Gephi 是一款用于數(shù)據(jù)分析和復(fù)雜網(wǎng)絡(luò)展示的免費(fèi)開(kāi)源工具,與用戶有著良好的交互,可通過(guò)調(diào)整網(wǎng)絡(luò)的布局、形狀、顏色來(lái)顯示隱藏的關(guān)系。本研究以病案首頁(yè)診斷信息為節(jié)點(diǎn),診斷間的共現(xiàn)關(guān)系為邊,構(gòu)建基于病案首頁(yè)的高血壓診斷相關(guān)共現(xiàn)圖譜,借助Gephi軟件的數(shù)據(jù)分析工具,從模塊化、平均度、平均聚類系數(shù)等指標(biāo)角度分析共現(xiàn)圖譜,解讀高血壓診斷之間的相關(guān)關(guān)系。
在整個(gè)共現(xiàn)網(wǎng)絡(luò)中,連接較為緊密的節(jié)點(diǎn)群可以被看成是一個(gè)社區(qū),或劃分為一個(gè)社區(qū)。模塊度是評(píng)價(jià)社區(qū)劃分優(yōu)劣的重要指標(biāo),模塊度的值越大,社區(qū)劃分的效果越好,其簡(jiǎn)化公式如式(2)所示。
其中,∑in 表示社區(qū)c 內(nèi)部的權(quán)重,∑tot 表示與社區(qū)c內(nèi)節(jié)點(diǎn)連接的邊的權(quán)重,包括社區(qū)內(nèi)部的邊和社區(qū)外部的邊。Gephi 軟件中的模塊化計(jì)算采用Fast Unfolding 算法,這一算法是為了尋求最大模塊度值以達(dá)到最佳的社區(qū)劃分結(jié)果[17]。疾病診斷共現(xiàn)網(wǎng)絡(luò)通過(guò)模塊化計(jì)算可得到多個(gè)關(guān)系較為密切的社區(qū),便于進(jìn)一步分析其中的關(guān)系。
在宏觀層面上,主要以平均聚類系數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行分析[18]。平均聚類系數(shù)是整個(gè)網(wǎng)絡(luò)上節(jié)點(diǎn)傾向形成聚類程度的平均值,每個(gè)節(jié)點(diǎn)的聚類系數(shù)都在0~1的范圍。若任一節(jié)點(diǎn)的聚類系數(shù)為0,表明該節(jié)點(diǎn)為獨(dú)立節(jié)點(diǎn),即沒(méi)有其他節(jié)點(diǎn)與之相連,但本文僅提取了存在共現(xiàn)關(guān)系的疾病診斷信息進(jìn)行研究,所以并不存在聚類系數(shù)為零的獨(dú)立節(jié)點(diǎn)。若任一節(jié)點(diǎn)的聚類系數(shù)為1,則表明該節(jié)點(diǎn)與網(wǎng)絡(luò)中所有節(jié)點(diǎn)都有直接或間接的相連關(guān)系,即存在路徑連接任意節(jié)點(diǎn)。在疾病診斷共現(xiàn)網(wǎng)絡(luò)中,平均聚類系數(shù)代表各診斷節(jié)點(diǎn)傾向于與其他節(jié)點(diǎn)共同出現(xiàn)的強(qiáng)度。
在微觀層面上,主要以中介中心性(Betweenness Centrality)、接近中心性(Closeness Centrality)對(duì)網(wǎng)絡(luò)進(jìn)行分析[17]。中介中心性是指網(wǎng)絡(luò)中經(jīng)過(guò)某點(diǎn)并連接這兩點(diǎn)的最短路徑占這兩點(diǎn)之間的最短路徑線總數(shù)之比,強(qiáng)調(diào)該節(jié)點(diǎn)在其他節(jié)點(diǎn)之間的連接能力,可能是塊之間的銜接橋梁。接近中心性是指每個(gè)結(jié)點(diǎn)到其它結(jié)點(diǎn)的最短路徑之和的倒數(shù),節(jié)點(diǎn)接近中心性的值越高,代表其在該網(wǎng)絡(luò)中的中心位置,地位越重要。中介中心性和接近中心性相比,中介中心性強(qiáng)調(diào)的是節(jié)點(diǎn)在網(wǎng)絡(luò)中的銜接橋梁作用,為整個(gè)網(wǎng)絡(luò)的貢獻(xiàn)程度,接近中心性更加強(qiáng)調(diào)節(jié)點(diǎn)自身的中心位置。
本實(shí)驗(yàn)數(shù)據(jù)共計(jì)808條記錄,各記錄非空字段總計(jì)18 997 條,涉及疾病診斷結(jié)論1 029 個(gè),共現(xiàn)關(guān)系12 479條。其中,頻次前10的疾病診斷名稱如圖1所示,可見(jiàn)這10 個(gè)疾病診斷名稱都是臨床上普遍認(rèn)可的高血壓相關(guān)診斷,如2.2 所述,未對(duì)疾病診斷結(jié)果進(jìn)行主題詞、上下位詞的匹配和調(diào)整,導(dǎo)致出現(xiàn)“高血壓”、“高血壓Ⅲ”和“高血壓Ⅱ”等相似診斷名稱,以保證疾病診斷共現(xiàn)圖譜的精度。
圖1 頻次前10的疾病診斷名稱Fig.1 Top 10 disease diagnoses
將1 029 個(gè)診斷節(jié)點(diǎn)數(shù)據(jù)和12 479 條共現(xiàn)關(guān)系邊數(shù)據(jù)導(dǎo)入Gephi復(fù)雜網(wǎng)絡(luò)分析軟件,對(duì)其進(jìn)行模塊化分析,解析度設(shè)為默認(rèn)值1.0,尋求最佳的社區(qū)分組。對(duì)模塊化分析結(jié)果進(jìn)行統(tǒng)計(jì),共得社區(qū)分組11個(gè),社區(qū)分組內(nèi)節(jié)點(diǎn)占總節(jié)點(diǎn)數(shù)百分比較高的為社區(qū)分組1(36.73%),社區(qū)分組2(26.53%)和社區(qū)分組3(14.97%),該三大社區(qū)覆蓋共現(xiàn)網(wǎng)絡(luò)中78.23%的節(jié)點(diǎn)。其中所占比例超過(guò)10%的相對(duì)較大社區(qū)僅為3個(gè),在后續(xù)社區(qū)分析中,將以這3 個(gè)社區(qū)為研究對(duì)象。為全方面了解共現(xiàn)網(wǎng)絡(luò)中的相關(guān)信息,對(duì)整個(gè)網(wǎng)絡(luò)的信息進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表1所示。本節(jié)將從宏觀和微觀兩個(gè)層面,基于共現(xiàn)網(wǎng)絡(luò)指標(biāo)數(shù)據(jù)對(duì)共現(xiàn)網(wǎng)絡(luò)進(jìn)行分析解讀。
經(jīng)過(guò)Gephi軟件“模塊化運(yùn)算”后,并對(duì)同一社區(qū)設(shè)定唯一顏色。其中節(jié)點(diǎn)占比在1%以上的社區(qū)共有7個(gè),分別對(duì)應(yīng)的顏色為1(紅)、2(綠)、3(深藍(lán))、4(淡藍(lán))、5(棕)、6(粉)、7(橙)。在圖2中,展示了基于度和社區(qū)分組調(diào)整節(jié)點(diǎn)大小和顏色的疾病診斷共現(xiàn)圖譜。從圖2中可以清楚看出,其構(gòu)圖十分復(fù)雜,但仍可看到“高血壓Ⅲ”、“高血壓”、“高血壓Ⅱ”、“2型糖尿病”等疾病診斷名稱是關(guān)系圖譜中的核心連接樞紐,其節(jié)點(diǎn)度數(shù)相對(duì)較大,也就是高共現(xiàn)的疾病診斷。聚類系數(shù)是衡量網(wǎng)絡(luò)中節(jié)點(diǎn)傾向于形成聚類的程度,聚類系數(shù)的高低意味著該節(jié)點(diǎn)所代表的診斷結(jié)果傾向于與其它診斷結(jié)果同時(shí)出現(xiàn)的程度。疾病貢獻(xiàn)網(wǎng)絡(luò)中聚類系數(shù)為1.0的節(jié)點(diǎn)總數(shù)較多,達(dá)到了526 個(gè)節(jié)點(diǎn),占總節(jié)點(diǎn)數(shù)的51.12%,代表半數(shù)左右的診斷傾向于與其它診斷同時(shí)出現(xiàn)的程度較高,其與相鄰節(jié)點(diǎn)完全連接。不存在聚類系數(shù)為零的診斷節(jié)點(diǎn),即不存在完全獨(dú)立的診斷節(jié)點(diǎn)。其余部分疾病診斷節(jié)點(diǎn)聚類系數(shù)較為均勻的分布在0 到1 之間。因此,大部分診斷節(jié)點(diǎn)的聚類系數(shù)較高,平均聚類系數(shù)為0.789,表明大部分的疾病診斷都是傾向于與其它疾病診斷共同發(fā)生的。
表1 診斷共現(xiàn)網(wǎng)絡(luò)相關(guān)指標(biāo)Tab.1 Diagnosis co-occurrence network related indicators
圖2 高血壓相關(guān)診斷共現(xiàn)圖譜Fig.2 Co-occurrence map of hypertension-related diagnoses
為了揭示單個(gè)節(jié)點(diǎn)的屬性,需要從相對(duì)微觀的角度對(duì)疾病診斷共現(xiàn)網(wǎng)絡(luò)進(jìn)行分析。關(guān)于節(jié)點(diǎn)中間度測(cè)量的指標(biāo)較多,其中,中介中心性和接近中心性兩個(gè)指標(biāo)最為重要[18]。本節(jié)將從中介中心性和接近中心性兩個(gè)角度對(duì)疾病診斷共現(xiàn)網(wǎng)絡(luò)進(jìn)行分析。
中介中心性衡量了一個(gè)節(jié)點(diǎn)作為媒介者的能力,具有高中介性的節(jié)點(diǎn)被認(rèn)為是便于管理和重要的節(jié)點(diǎn)。因此,這些存在于多診斷最短路徑上的診斷信息可以認(rèn)為是銜接診斷社區(qū)分組的橋梁,導(dǎo)致多種疾病共同出現(xiàn)。各節(jié)點(diǎn)中介中心性如圖3所示??梢?jiàn)高中介中心性診斷節(jié)點(diǎn)分布稀疏,數(shù)量較少,而低中介中心性節(jié)點(diǎn)分布密集,集中于0~20 000。其中7 個(gè)疾病診斷節(jié)點(diǎn)具有高中介中心性,其值從21 944到106 490不等,對(duì)網(wǎng)絡(luò)的影響相對(duì)較大,值由高到低分別為高血壓Ⅲ、高血壓、高血壓Ⅱ、2型糖尿病、闌尾術(shù)后、冠狀動(dòng)脈粥樣硬化性心臟病、頸動(dòng)脈動(dòng)脈硬化。
圖3 診斷節(jié)點(diǎn)中介中心性分布Fig.3 Betweenness centrality distribution of diagnostic nodes
接近中心性是從網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn)到所有其他節(jié)點(diǎn)的平均最短路徑距離的度量。診斷節(jié)點(diǎn)的接近中心性越高,代表該節(jié)點(diǎn)處于網(wǎng)絡(luò)中更加中心的位置,與其他診斷距離較近,關(guān)聯(lián)性更強(qiáng)。高接近中心性的疾病診斷往往是臨床上與高血壓相關(guān)的常見(jiàn)病,可能是并發(fā)癥、合并癥等。診斷節(jié)點(diǎn)接近中心性分布圖如圖4所示,可見(jiàn)接近中心性分布較為均勻?!案哐獕孩蟆苯咏行男宰罡?,其后依次為高血壓、2型糖尿病、高血壓Ⅱ,與大部分節(jié)點(diǎn)接近中心性差距不大,節(jié)點(diǎn)整體分布較為連續(xù),未出現(xiàn)集群分布。因此,疾病診斷共現(xiàn)網(wǎng)絡(luò),眾多疾病診斷關(guān)系彼此之間相互交錯(cuò),并沒(méi)有疾病處于完全中心的地位。
圖4 診斷節(jié)點(diǎn)接近中心性分布Fig.4 Closeness centrality distribution of diagnostic nodes
如2.4 所述,中介中心性強(qiáng)調(diào)節(jié)點(diǎn)在其他節(jié)點(diǎn)之間調(diào)節(jié)能力,控制能力指數(shù),中介調(diào)節(jié)效應(yīng);而接近中心性強(qiáng)調(diào)節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中的價(jià)值,價(jià)值越大,節(jié)點(diǎn)越處于中心位置。將節(jié)點(diǎn)中介中心性降序排列,分別以中介中心性和接近中心性為縱坐標(biāo)構(gòu)建折線圖,以對(duì)比兩者趨勢(shì)變化,結(jié)果如圖5所示??梢?jiàn)兩者變化總體變化趨勢(shì)相同,但彼此之間沒(méi)有必然相關(guān)性,中介中心性越高,接近中心性不一定越高。
圖5 中介中心性和接近中心性對(duì)比折線圖Fig.5 Line chart of betweenness centrality and closeness centrality
結(jié)合3.2 和3.3 的分析可知,“高血壓Ⅲ”、“高血壓”、“高血壓Ⅱ”三者無(wú)論從平均度、平均聚類系數(shù)等宏觀指標(biāo),還是中介中心性、接近中心性等微觀指標(biāo)來(lái)看,都處于疾病診斷共現(xiàn)網(wǎng)絡(luò)中相對(duì)突出的的位置。同時(shí),除聚類系數(shù)外,三者的度、中介中心性、接近中心性的值依次遞減,“高血壓Ⅲ”患者屬于高危人群,合并癥或并發(fā)癥更多,危及生命的風(fēng)險(xiǎn)更大,所以,住院比例相對(duì)更高。而“高血壓”只是對(duì)患者是否患有高血壓疾病的界定,其所占比例更大程度上是由醫(yī)生選擇基于“患者是否患有高血壓”還是“患者所患高血壓級(jí)別”下診斷結(jié)論所決定的。相比于“高血壓Ⅲ”,“高血壓Ⅱ”人群病情稍好,因而住院比例略微低一些。
在3.1 對(duì)疾病診斷共現(xiàn)網(wǎng)絡(luò)模塊化分析中,得到社區(qū)分組11 個(gè),但未對(duì)社區(qū)內(nèi)節(jié)點(diǎn)內(nèi)容進(jìn)行分析研究,探討各社區(qū)疾病診斷節(jié)點(diǎn)內(nèi)容的關(guān)聯(lián)性。本節(jié)對(duì)社區(qū)節(jié)點(diǎn)數(shù)排名前3且所占比例大于10%的3個(gè)社區(qū)進(jìn)行研究。
圖6a~c分別是社區(qū)1、社區(qū)2、社區(qū)3疾病診斷節(jié)點(diǎn)的關(guān)系網(wǎng)絡(luò),分別占總節(jié)點(diǎn)數(shù)的36.73%、26.53%、14.97%。由于社區(qū)內(nèi)節(jié)點(diǎn)仍然較多,現(xiàn)過(guò)濾掉社區(qū)中度數(shù)相對(duì)較低的診斷節(jié)點(diǎn),使圖像更加清晰,便于展示分析。
在社區(qū)1 中,高血壓、肝囊腫、腎結(jié)石、先天性腎囊腫、惡性腫瘤維持性化學(xué)治療度數(shù)最高,且從邊的粗細(xì)可以看出彼此之間共現(xiàn)次數(shù)較高,在社區(qū)中無(wú)論是接近中心性還是中介中心性都相對(duì)較高,處于社區(qū)核心地位。可見(jiàn)高血壓、肝囊腫、腎結(jié)石、先天性腎囊腫之間共現(xiàn)關(guān)系較為密切,但目前臨床上僅認(rèn)為上述4種疾病處于合并癥的關(guān)系,彼此之間的作用機(jī)制尚未查閱到相關(guān)文獻(xiàn)資料,因此,上述四者的關(guān)系仍需進(jìn)一步探究。
在社區(qū)2 中,高血壓、2 型糖尿病、冠狀動(dòng)脈粥樣硬化性心臟病、頸動(dòng)脈動(dòng)脈硬化等診斷節(jié)點(diǎn)的度數(shù)、中介中心性和接近中心性都較高,處于社區(qū)1的中心地位。高血壓與動(dòng)脈粥樣硬化兩種疾病互為因果,相互作用,兩者常同時(shí)存在。高血壓和糖尿病均為常見(jiàn)病,兩者關(guān)系密切,患有其中一種疾病的患者會(huì)大大增加患有另一疾病的風(fēng)險(xiǎn),同時(shí)動(dòng)脈粥樣硬化與糖尿病關(guān)聯(lián)性也較強(qiáng),糖尿病患者動(dòng)脈粥樣硬化的發(fā)病率較無(wú)糖尿病者高兩倍。
圖6 社區(qū)內(nèi)診斷節(jié)點(diǎn)共現(xiàn)網(wǎng)絡(luò)Fig.6 Community-wide diagnostic node co-occurrence network
在社區(qū)3 中,節(jié)點(diǎn)數(shù)量雖然達(dá)到總節(jié)點(diǎn)數(shù)的14.97%,但其處于中心位置節(jié)點(diǎn)的度數(shù)比社區(qū)1和社區(qū)2 的要小,以心臟擴(kuò)大、腎性貧血、腎性高血壓、慢性腎功能不全尿毒癥期為代表。該社區(qū)主要包括心臟功能異常、高血壓、腎功能異常之間的關(guān)系。高血壓可導(dǎo)致心臟擴(kuò)大,造成心臟功能異常,與腎臟疾病更是互為因果,彼此都可引起或加重另一方的病情,腎臟調(diào)解水與鈉的能力會(huì)影響血壓,而高血壓和動(dòng)脈粥樣硬化會(huì)導(dǎo)致流入腎臟的血液也會(huì)減少,導(dǎo)致腎臟病變,或是加速既有的損傷。
常規(guī)的共現(xiàn)模型十分的直接和成熟,在文本挖掘等多領(lǐng)域均被有效利用,面對(duì)醫(yī)療領(lǐng)域的問(wèn)題,該方法表現(xiàn)得“預(yù)測(cè)”能力較弱,“提取整理”能力較強(qiáng)[19]。在共現(xiàn)圖譜中表現(xiàn)的關(guān)聯(lián)關(guān)系多為臨床上所熟知,其主要作用是對(duì)病案首頁(yè)數(shù)據(jù)的提取、整理、發(fā)現(xiàn),輔助挖掘未知或者未確認(rèn)關(guān)聯(lián)關(guān)系,而其自身的數(shù)據(jù)挖掘能力較弱。本研究采用Gephi 復(fù)雜網(wǎng)絡(luò)分析軟件對(duì)高血壓相關(guān)疾病診斷進(jìn)行提取整理分析,發(fā)現(xiàn)其與糖尿病、腎臟疾病、肝臟疾病、心臟疾病等共現(xiàn)關(guān)聯(lián)性較強(qiáng),可能與高血壓導(dǎo)致心臟負(fù)荷大、血液供給不足等有關(guān),其中一些疾病的發(fā)生存在集群現(xiàn)象,通過(guò)可視化圖譜展示疾病之間的內(nèi)部關(guān)系,有助于觀察多疾病間的聯(lián)系。
在本研究基礎(chǔ)上,可以引入新的共現(xiàn)邏輯、關(guān)聯(lián)邏輯和有效的電子病歷記錄相似度匹配算法,數(shù)據(jù)源更加多元化,包含基因、疾病、癥狀等多方面的研究數(shù)據(jù),可以有效提高圖譜的預(yù)測(cè)效果[20]。其中對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,通過(guò)專業(yè)的術(shù)語(yǔ)詞典過(guò)濾,提取出有效的命名實(shí)體,可極大豐富圖譜的內(nèi)容。