陳嬌花
(上海中醫(yī)藥大學(xué)附屬第七人民醫(yī)院,上海 200137)
近年來,隨著人口老齡化水平的提高,處于亞健康水平的人數(shù)逐漸增多,各種慢性病發(fā)病人數(shù)也在不斷激增。針對特殊人群研究的智能在線診斷平臺成為了熱點需求[1],而云平臺技術(shù)的飛速發(fā)展也為智能健康數(shù)據(jù)監(jiān)控提供了技術(shù)基礎(chǔ)[2]。
醫(yī)療領(lǐng)域中的大數(shù)據(jù)技術(shù)與云服務(wù),在近年來得到了廣泛關(guān)注。文獻[3]提出基于物聯(lián)網(wǎng)云計算大數(shù)據(jù)的智能健康生活成長系統(tǒng)。文獻[4]提出基于云計算的移動醫(yī)療監(jiān)控系統(tǒng)。在智能養(yǎng)老方面,大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)也得到了進一步的廣泛應(yīng)用[5-6]。為實現(xiàn)對用戶健康數(shù)據(jù)的智能監(jiān)測,文獻[7]提出基于健康云平臺利用大數(shù)據(jù)技術(shù)提供智能服務(wù)。文獻[8]提出利用數(shù)據(jù)挖掘技術(shù)分析網(wǎng)絡(luò)健康狀態(tài),實現(xiàn)對網(wǎng)絡(luò)情況的智能監(jiān)控。
利用大數(shù)據(jù)技術(shù)實現(xiàn)人體健康狀態(tài)的智能監(jiān)控,可以進一步結(jié)合學(xué)習(xí)類算法進行更優(yōu)的診斷。文獻[9-10]提出利用邏輯回歸和AdaBoost 方法對數(shù)據(jù)進行分析。文獻[11]提出利用隨機森林方法進行訓(xùn)練,可以對人體健康數(shù)據(jù)進行有效監(jiān)測。文獻[12]提出醫(yī)療SVM(Support Vector Machines)算法利用采集的健康數(shù)據(jù)進行學(xué)習(xí)與訓(xùn)練,完成健康狀態(tài)的分類。此外,深度學(xué)習(xí)算法可以有效地利用數(shù)據(jù)訓(xùn)練模型,從而應(yīng)用于口腔診斷及新冠病毒篩查[13-16]。但算法模型更針對于特定疾病,不具有普適性。
結(jié)合智能健康云數(shù)據(jù)監(jiān)控與應(yīng)用的實際需求,文中提出了一種基于深度學(xué)習(xí)的健康數(shù)據(jù)挖掘算法。該算法在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,對挖掘出的數(shù)據(jù)建立了數(shù)據(jù)集。然后結(jié)合疾病的多特征屬性,再建立深度學(xué)習(xí)網(wǎng)絡(luò)模型,并通過反向傳播算法進行網(wǎng)絡(luò)模型訓(xùn)練。利用梯度下降法不斷迭代最小化期望殘差,最終完成對深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練。與同類算法的數(shù)據(jù)分析對比結(jié)果表明,文中所提算法可以有效診斷各類疾病且具有較強的適用性。
為了滿足大數(shù)據(jù)背景下對于健康云數(shù)據(jù)的精準(zhǔn)分析處理需求,該文所設(shè)計的處理系統(tǒng)總體架構(gòu)如圖1 所示。
圖1 健康云數(shù)據(jù)處理系統(tǒng)架構(gòu)圖
感知層是健康云系統(tǒng)架構(gòu)的最底層,通過化學(xué)傳感器、生物傳感器、光敏傳感器和溫敏傳感器實現(xiàn)對人體指標(biāo)數(shù)據(jù)的采集。
傳輸層主要負責(zé)將感知層采集的人體數(shù)據(jù)通過移動通信終端設(shè)備,并利用藍牙、無線等技術(shù)上傳至健康云數(shù)據(jù)庫。
服務(wù)層指健康云數(shù)據(jù)存儲層,將傳輸層的數(shù)據(jù)傳輸在分布式數(shù)據(jù)庫并通過門戶網(wǎng)站等提供服務(wù)。
云應(yīng)用層是最外層,直接為用戶提供健康云數(shù)據(jù)監(jiān)控和分析服務(wù),服務(wù)對象包括個人、家庭、醫(yī)療機構(gòu)和養(yǎng)老院等。
健康云數(shù)據(jù)挖掘與深度學(xué)習(xí)數(shù)據(jù)分析架構(gòu)如圖2 所示,分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、模型訓(xùn)練及健康監(jiān)控。
圖2 健康云數(shù)據(jù)挖掘與分析架構(gòu)
該文使用深度學(xué)習(xí)網(wǎng)絡(luò)進行數(shù)據(jù)挖掘,模型設(shè)計如圖3 所示。
使用深度學(xué)習(xí)網(wǎng)絡(luò)進行數(shù)據(jù)挖掘,首先需要對測試數(shù)據(jù)集完成數(shù)據(jù)挖掘預(yù)處理,將所收集到的數(shù)據(jù)依次采用篩選、清洗、轉(zhuǎn)換、修正和歸一化等方法進行處理。
深度學(xué)習(xí)網(wǎng)絡(luò)模型如圖4 所示,主要包括輸入層、隱藏層和輸出層三部分。其中隱藏層可以不止一層,深度學(xué)習(xí)網(wǎng)絡(luò)模型的層數(shù)即為整個網(wǎng)絡(luò)的深度,該網(wǎng)絡(luò)由多個神經(jīng)元連接而成。
圖4 深度學(xué)習(xí)網(wǎng)絡(luò)模型
設(shè)輸入值集合為{xm},m為集合中數(shù)據(jù)的個數(shù),神經(jīng)元的個數(shù)與數(shù)據(jù)特征數(shù)量有關(guān),則神經(jīng)元的輸入可表示為:
式中,Wi表示第i個輸入值的權(quán)值,b表示偏置項。f(·)表示激活函數(shù),該文使用Sigmoid 函數(shù),其表達方式為:
則第l層的第i個神經(jīng)元的輸入值加權(quán)和可表示為:
式中,n表示神經(jīng)元數(shù)量;l表示層數(shù);表示第l-1 層第j個神經(jīng)元到第l層第i個神經(jīng)元之間的輸出權(quán)值;表示第l-1 層的第j個神經(jīng)元的輸出值;表示第l-1 層的第i個神經(jīng)元的偏置項。
對于該文所采用的深度網(wǎng)絡(luò)模型,其計算過程可以表示為:
因此在前向傳播計算中,l+1 層的輸出值計算方式為:
在深度學(xué)習(xí)模型建立完成之后,該文采用反向傳播的方法對模型進行訓(xùn)練。反向訓(xùn)練的具體步驟如圖5 所示。
圖5 深度學(xué)習(xí)反向訓(xùn)練流程
反向傳播訓(xùn)練實際是根據(jù)輸出殘差進行負反饋,殘差的計算方法會影響訓(xùn)練的精度。在該文的設(shè)計中,對于輸出層,可以直接計算輸出與期望之間的誤差;而對于隱藏層,則可根據(jù)神經(jīng)元殘差的加權(quán)平均值進行計算。
該文所使用深度學(xué)習(xí)網(wǎng)絡(luò)的各層輸出值可具體表示為:
則可根據(jù)式(7)計算各層神經(jīng)元的殘差:
式中,x表示輸入集合,y表示最后一層輸出數(shù)據(jù)集合。
對于神經(jīng)網(wǎng)絡(luò)隱藏層,殘差計算方法可表示為:
該文所使用的深度學(xué)習(xí)網(wǎng)絡(luò)的代價函數(shù)可表示為:
其中,λ表示代價函數(shù)矢量的特征值。
對深度學(xué)習(xí)網(wǎng)絡(luò)進行訓(xùn)練,使整個網(wǎng)絡(luò)代價函數(shù)最小。該文使用梯度下降迭代方法計算代價函數(shù)的偏導(dǎo)函數(shù),并進行迭代。代價函數(shù)的整體偏導(dǎo)函數(shù)的向量表示方法為:
式中,?WJ(W,b;x,y)與?bJ(W,b;x,y)分別表示代價函數(shù)對于網(wǎng)絡(luò)權(quán)值和偏置項的偏導(dǎo)數(shù),其可定義為:
則可根據(jù)偏導(dǎo)數(shù)進行迭代更新網(wǎng)絡(luò)權(quán)重和偏置項,如下:
式中,α表示調(diào)節(jié)系數(shù),*表示迭代更新值。
通過多次迭代,更新網(wǎng)絡(luò)連接權(quán)重和偏置項可以實現(xiàn)偏導(dǎo)數(shù)最小化,也即實現(xiàn)了訓(xùn)練值與期望值之間的最小化,從而完成深度學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練。
為了驗證該文所提基于數(shù)據(jù)挖掘與深度學(xué)習(xí)的健康云數(shù)據(jù)監(jiān)控分析算法的有效性,對比了所提算法與現(xiàn)有四種算法對于同一種疾病的數(shù)據(jù)分析正確率。另外,為了進一步驗證所提算法的魯棒性,針對多類型的健康疾病進行分析對比。
表1 是該文算法與四種現(xiàn)有算法對于同一組數(shù)據(jù)針對骨質(zhì)疏松問題進行的分析診斷結(jié)果。其中,邏輯回歸算法和AdaBoost 算法的誤診率及漏診率均較高,這與算法的訓(xùn)練精度有關(guān)。而隨機森林算法和SVM 算法的診斷率有一定的提升,其訓(xùn)練復(fù)雜度與所提算法相當(dāng)。但漏診率遠高于該文算法,說明所提算法的性能更加優(yōu)越。
表1 不同算法健康疾病診斷率對比
如表2 所示,根據(jù)不同的疾病,該文所提基于數(shù)據(jù)挖掘與深度學(xué)習(xí)的數(shù)據(jù)分析算法診斷率均大于94%,說明所提算法具有較高的魯棒性。同時還可以發(fā)現(xiàn),對于感冒發(fā)燒、鼻炎和骨質(zhì)疏松等癥狀和指標(biāo)比較明顯的疾病,該文算法的診斷率更高;而對于腫瘤等特征不明顯的疾病,算法性能則會有一定的下降。
表2 不同類型疾病的診斷率對比
針對在線智能健康診斷的需求,該文提出了一種基于數(shù)據(jù)挖掘和深度學(xué)習(xí)的健康云數(shù)據(jù)監(jiān)控分析算法。將深度學(xué)習(xí)網(wǎng)絡(luò)與數(shù)據(jù)挖掘技術(shù)相結(jié)合,對健康云數(shù)據(jù)進行數(shù)據(jù)挖掘預(yù)處理,建立深度學(xué)習(xí)網(wǎng)絡(luò)模型,并利用處理后的數(shù)據(jù)進行反向傳播算法訓(xùn)練。通過采用梯度下降法實現(xiàn)深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,從而完成智能診斷。數(shù)據(jù)分析結(jié)果說明,該文所提算法相對于現(xiàn)有算法具有更高的診斷率,且對于不同類型疾病的適用性良好。對于部分疾病特征不明顯導(dǎo)致的算法性能下降問題,則有待于后續(xù)的進一步研究。