国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CVD 預(yù)測模型精確度優(yōu)化措施探究

2022-05-05 02:26尹帥帥石更強(qiáng)孫旭陽
關(guān)鍵詞:精確度特征選擇間隔

尹帥帥, 石更強(qiáng), 孫旭陽

(上海理工大學(xué) 健康科學(xué)與工程學(xué)院,上海 200093)

根據(jù)最新統(tǒng)計(jì),全世界每年因心血管疾?。–VD)而死亡的人數(shù)約1 530 萬人,占總死亡人數(shù)的1/4,CVD 已成為全世界高發(fā)病率和高死亡率的主要疾病[1-2]。隨著大數(shù)據(jù)技術(shù)的發(fā)展,CVD 相關(guān)診斷數(shù)據(jù)也在持續(xù)增加,為今后疾病診斷和預(yù)防提供了很好的數(shù)據(jù)基礎(chǔ)[3-4]。CVD 是由遺傳、環(huán)境、行為、疲勞等多種因素共同作用導(dǎo)致的[5],風(fēng)險(xiǎn)預(yù)測模型可以整合這些因素,利用機(jī)器學(xué)習(xí)(ML)進(jìn)行疾病預(yù)測[6]。風(fēng)險(xiǎn)預(yù)測模型的精確度對于疾病風(fēng)險(xiǎn)分層和中危人群重分類具有重大意義,努力提高預(yù)測模型精確度,可以及時(shí)對高危人群進(jìn)行追蹤、防控和個(gè)體化干預(yù),減少疾病帶來的危險(xiǎn)。

目前國內(nèi)外關(guān)于風(fēng)險(xiǎn)預(yù)測模型的研究中,還沒有對如何提高CVD 風(fēng)險(xiǎn)預(yù)測模型精確度進(jìn)行系統(tǒng)性的論述。Bouwmeester 等[2]探究近期文獻(xiàn)中預(yù)測模型如果按照傳統(tǒng)方法學(xué)建議進(jìn)行建模,是否會(huì)導(dǎo)致較差的預(yù)測結(jié)果[7-9]。Wessler 等[10]通過對模型進(jìn)行總結(jié)和比較,指出現(xiàn)今預(yù)測模型存在的局限性。預(yù)測模型的分析不能僅僅局限于對預(yù)測結(jié)果的探討,而更應(yīng)該注重構(gòu)建模型的各個(gè)模塊對結(jié)果產(chǎn)生的影響。Damen 等[11]探討了預(yù)測模型的危險(xiǎn)因素、預(yù)測結(jié)果、預(yù)測性能、外部驗(yàn)證等。Siontis 等[12]收集了大量模型的區(qū)分、校準(zhǔn)、重分類等信息,對特定信息偏差是否會(huì)影響預(yù)測模型的結(jié)果進(jìn)行評估。Cooney 等[13]和Cui[14]探討了單因素和多因素對預(yù)測結(jié)果的影響。為了更好地改善預(yù)測模型的精確度,改善青年、中年、老年同一預(yù)測模型、不同預(yù)測結(jié)果而帶來的不同個(gè)體化、精確化干預(yù)措施,本文檢索了大量文獻(xiàn),對比了從數(shù)據(jù)選擇到最后模型評估的整個(gè)內(nèi)容,就如何提高風(fēng)險(xiǎn)預(yù)測模型精確度進(jìn)行綜合性探討。

1 文獻(xiàn)檢索與探究

1.1 文獻(xiàn)處理

文獻(xiàn)選擇:為了提高研究的價(jià)值和意義,手動(dòng)檢索了國內(nèi)外在醫(yī)學(xué)領(lǐng)域影響力較高的395 篇文獻(xiàn),通過對每篇文獻(xiàn)的題目和摘要進(jìn)行仔細(xì)審閱,得到95 篇與研究相關(guān)的文章,通過對整篇文章閱讀與分析,剔除了非科研論文和建模不完整文獻(xiàn),保留了余下的62 篇文獻(xiàn)。

入選原則:文獻(xiàn)必須是原創(chuàng)性研究型論文,本研究主要尋求改善預(yù)測模型精確度的方法,因此,文獻(xiàn)必須包含樣本選擇與處理、特征值選擇、預(yù)測模型搭建、預(yù)測性能探究、模型風(fēng)險(xiǎn)評估等一項(xiàng)或多項(xiàng)改善措施,文獻(xiàn)中必須包含針對某些人群的預(yù)測結(jié)果。最后對保留的62 篇文獻(xiàn)進(jìn)行交叉性和系統(tǒng)性研究,并根據(jù)項(xiàng)目的不同進(jìn)行文獻(xiàn)占比分類。整個(gè)流程如圖1 所示。

圖1 文獻(xiàn)入選流程圖Fig.1 Flowchart of literature inclusion

1.2 數(shù)據(jù)處理

制定列表:為了更加方便直觀地展示探究結(jié)果,本文制定了列表式對比評分機(jī)制。涉及項(xiàng)目包含預(yù)測目標(biāo)、模型種類、數(shù)據(jù)對象等[15-16],極大地提高了數(shù)據(jù)的可利用性。

數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是為了探究各預(yù)測模型之間的相同或不同之處,從中找到可以改善的方面。

精確度等級百分率:精確度作為研究的主體,根據(jù)探究目的創(chuàng)新地提出精確度等級百分率。每個(gè)模塊進(jìn)行分類后,得到的文獻(xiàn)數(shù)目各不相同,在進(jìn)行精確度對比時(shí),無法保證單一變量,無法消除文獻(xiàn)數(shù)目不同對結(jié)果的影響。因此,將精確度進(jìn)行等級劃分,將文獻(xiàn)各自精確度按等級歸類,然后將等級歸類后的文獻(xiàn)數(shù)量進(jìn)行百分率化得到聚集區(qū),最后進(jìn)行數(shù)據(jù)分析與比較,得出所需要的數(shù)據(jù)意義。

精確度等級百分率的意義在于消除了基數(shù)不同帶來的對比影響,將不同數(shù)據(jù)利用最大化,挖掘數(shù)據(jù)潛在價(jià)值,容易得出聚集區(qū)、眾數(shù)、中位數(shù)、平均數(shù)、最大值、最小值、數(shù)值走向和各數(shù)據(jù)的意義,這是對數(shù)據(jù)挖掘思想的體現(xiàn),對本研究至關(guān)重要。

1.3 探究內(nèi)容

一個(gè)完整的預(yù)測模型一般包括4 大模塊[17],為了尋求改善預(yù)測模型精確度的措施,本文對這4 個(gè)模塊進(jìn)行探究。

a. 樣本大小和時(shí)間間隔。對各類文獻(xiàn)的樣本大小、時(shí)間間隔、精確度進(jìn)行數(shù)據(jù)處理、相關(guān)性分析、描述統(tǒng)計(jì)分析、橫縱向?qū)Ρ龋L制相應(yīng)的評分表格和散點(diǎn)圖,經(jīng)數(shù)據(jù)挖掘得出最小樣本量和最小時(shí)間間隔[18]。

b. 數(shù)據(jù)來源。探究改進(jìn)電子健康記錄(EHRs)的優(yōu)勢,將不同數(shù)據(jù)來源進(jìn)行縱向精確度等量對比,得出最合適的數(shù)據(jù)來源,并對各數(shù)據(jù)來源的優(yōu)缺點(diǎn)和應(yīng)用范圍進(jìn)行分析[19]。

c. 特征。將改進(jìn)特征選擇方法的各算法進(jìn)行比較,得出最優(yōu)的特征選擇方法;比較納入新特征前后的精確度,判斷該特征是否改善了精確度;將不同特征選擇方法進(jìn)行縱向比較,判斷是否選擇更多相關(guān)的特征可以提高預(yù)測模型精確度。

d. 建模方法。對回歸分析進(jìn)行簡單的分類、對比,并對各自的適用范圍進(jìn)行敘述;對機(jī)器學(xué)習(xí)的不同算法采用統(tǒng)計(jì)、圖示的方法進(jìn)行橫向比較,得出精確度最高的最優(yōu)算法;并對以Framingham risk score(FRS)為代表的項(xiàng)目進(jìn)行簡單敘述[5]。

2 分析和結(jié)果

2.1 樣本大小和時(shí)間間隔

在保證其他條件不變的情況下,樣本大小和時(shí)間間隔決定了模型的擬合程度。研究人員無法確保所獲得的樣本大小是否影響模型的擬合效果,本文通過對各類文獻(xiàn)的研究,探究在保證一定精確度下的最小樣本量[18]。時(shí)間間隔同樣影響著擬合效果,尋找一個(gè)在不影響精確度情況下的最小時(shí)間間隔會(huì)更好地減少時(shí)間消耗[20]。

為了獲得最小樣本量和最小時(shí)間間隔,將此模塊入選的文獻(xiàn)n=43,根據(jù)風(fēng)險(xiǎn)預(yù)測評估[19]方法的不同分為3 類:機(jī)器學(xué)習(xí)項(xiàng)目[21-22]文獻(xiàn)n=18、回歸分析項(xiàng)目[23-24]文獻(xiàn)n=15、以FRS 為代表的風(fēng)險(xiǎn)預(yù)測項(xiàng)目[25-26]文獻(xiàn)n=10,針對不同項(xiàng)目采取不同的分析方法。分析樣本總量、時(shí)間間隔、精確度三者之間的相關(guān)性,得到的相關(guān)系數(shù)如表1 所示。然后對3 類項(xiàng)目分別進(jìn)行分析,繪制了各自的散點(diǎn)圖,如圖2~4 所示。刪除影響整體分析的數(shù)據(jù),建立剩余數(shù)據(jù)的散點(diǎn)圖,如圖2(c)、4(c)所示,并對散點(diǎn)圖進(jìn)行趨勢性分析。對3 類項(xiàng)目進(jìn)行描述統(tǒng)計(jì)分析,確定各值的意義,具體數(shù)據(jù)如表2 所示。

表1 相關(guān)系數(shù)表Tab.1 Correlation coefficients table

表1 列出了樣本大小、時(shí)間間隔、精確度三者的相關(guān)系數(shù)。由表1 可見:樣本大小與時(shí)間間隔相關(guān)系數(shù)較小,表明兩者數(shù)據(jù)幾乎平行,存在微弱相關(guān)性,符合通常認(rèn)定;樣本大小和時(shí)間間隔分別與精確度存在一定的因果關(guān)系,所以合適的樣本大小和時(shí)間間隔可以影響精確度。

在機(jī)器學(xué)習(xí)項(xiàng)目的樣本大小和精確度的散點(diǎn)圖2(a)中,點(diǎn)主要分布在精確度為0.8~0.9、樣本大小為0~5 000 的區(qū)間。進(jìn)一步分析點(diǎn)密集的地方,在圖2(c)中,點(diǎn)主要分布在5 000 左右。在表2 中,關(guān)于機(jī)器學(xué)習(xí)項(xiàng)目的樣本大小中,中位數(shù)為4 103,方差為2.55×108,表明這些數(shù)據(jù)整體比較離散,采取中位數(shù)對這16 個(gè)觀測數(shù)進(jìn)行統(tǒng)計(jì)具有一定的意義。由圖2(c)的上升趨勢可以得出,為了保證精確度在0.8~0.9 之間,最合適的最小樣本量在4 000~5 000 之間。在時(shí)間間隔與精確度圖2(b)中,點(diǎn)主要分布在精確度為0.8~1.0、時(shí)間間隔為5~7 a 的區(qū)間,散點(diǎn)圖的線性趨勢為下降趨勢,所以初步得出最合適的時(shí)間間隔為5 a。表2 機(jī)器學(xué)習(xí)項(xiàng)目的時(shí)間間隔中,方差為1.183,說明數(shù)據(jù)比較聚集,眾數(shù)和中位數(shù)都為5,綜上可得,最合適的最小時(shí)間間隔為5 a。

圖2 機(jī)器學(xué)習(xí)項(xiàng)目各類散點(diǎn)圖Fig.2 Scatter diagram of various types of machine learning projects

在回歸分析項(xiàng)目的樣本大小和精確度散點(diǎn)圖3(a)中,去掉樣本的最大值和最小值,點(diǎn)主要分布在精確度為0.75~0.80、樣本大小為0~10 000的區(qū)間。在表2 回歸分析項(xiàng)目的樣本大小中,中位數(shù)為6 894,方差為1.89×109,數(shù)據(jù)較分散,點(diǎn)主要分布在4 000~7 000 之間,結(jié)合散點(diǎn)圖下降趨勢,得出在保證精確度較高的情況下,最合適的最小樣本量在4 000~7 000 之間。在時(shí)間間隔與精確度圖3(b)中,精確度為0.75~0.85 之間,時(shí)間間隔對應(yīng)的點(diǎn)較分散,散點(diǎn)圖無法得出一個(gè)好的結(jié)論。表2回歸分析項(xiàng)目中,時(shí)間間隔平均數(shù)為7.267,中位數(shù)為6,眾數(shù)為5,結(jié)合這些數(shù)據(jù)的意義,點(diǎn)主要分布在5~7 a 之間,且最大精確度分布在這個(gè)區(qū)間。因此,為了提供一個(gè)較大的精確度上限,采取的最合適的最小時(shí)間間隔為5~7 a。

表2 樣本大小和時(shí)間間隔描述統(tǒng)計(jì)表Tab.2 Statistics of sample size and time interval

圖3 回歸分析項(xiàng)目各類散點(diǎn)圖Fig.3 Scatter diagram of each type of regression analysis project

在FRS 風(fēng)險(xiǎn)預(yù)測項(xiàng)目的樣本大小和精確度的散點(diǎn)圖4(a)中,點(diǎn)主要分布在精確度為0.70~0.85、樣本大小為0~50 000 的區(qū)間,但線性趨勢呈上升趨勢,意味著樣本越大精確度越高。在圖4(c)中,去掉影響較大的10 萬級數(shù)據(jù),點(diǎn)主要分布在5 000~10 000 之間,但總體來說精確度相對較小,為保證精確度在0.80 以上,對應(yīng)的圖4(b)中,時(shí)間間隔必須為10 a 以上。考慮到圖4(a)后半部分精確度較高,無法忽略,在樣本大小200 000~250 000、精確度0.80~0.85 之間,這些點(diǎn)對應(yīng)圖4(b)中時(shí)間間隔為5~7 a 之間的點(diǎn)。趨勢線呈正相關(guān),樣本容量越大,時(shí)間間隔越大,則精確度越高。所以為了保證精確度在0.80 以上,若采取較小樣本量在5 000~10 000 之間,最小時(shí)間間隔必須在10 a 以上。若采取大樣本量200 000 以上,最小時(shí)間間隔建議在5~7 a 之間。

圖4 FRS 風(fēng)險(xiǎn)預(yù)測項(xiàng)目各類散點(diǎn)圖Fig.4 Scatter diagram of various types of FRS risk prediction projects

2.2 數(shù)據(jù)來源

不同的數(shù)據(jù)來源提供的醫(yī)學(xué)信息準(zhǔn)確性和全面性各不相同,且導(dǎo)致對未來的預(yù)測各不相同[19],不同的數(shù)據(jù)來源獲取的困難程度也各不相同[27]。

本文將數(shù)據(jù)來源模塊檢索的文獻(xiàn)n=50,根據(jù)數(shù)據(jù)獲取途徑的不同分為4 類:改進(jìn)電子健康記錄(EHRs)[21,28],文獻(xiàn)n=10;普通隨訪調(diào)查[26,29],文獻(xiàn)n=20;醫(yī)院體檢數(shù)據(jù)[30-31],文獻(xiàn)n=10;UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫UCI[32-33],文獻(xiàn)n=10。為了保證等量對比且數(shù)據(jù)具有隨機(jī)性,利用Python 軟件的random 函數(shù),從普通隨訪調(diào)查的20 個(gè)樣本中隨機(jī)選取10 個(gè)樣本,將每個(gè)序號(hào)與列表中的精確度一一對應(yīng),形成等量樣本。為了探究EHRs 是否改善了精確度,將使用EHRs 與未使用的數(shù)據(jù)進(jìn)行對比,如圖5 所示。將上述4 類數(shù)據(jù)來源進(jìn)行等量對比,經(jīng)過列表升序和散點(diǎn)圖繪制,如圖6 所示,得出對精確度綜合效果最好的數(shù)據(jù)來源。

圖5 EHRs 使用前后精確度對比圖Fig.5 Comparison of accuracy before and after the use of EHRS

圖6 數(shù)據(jù)來源精確度對比圖Fig.6 Comparison of accuracy from different data sources

圖5 對比了模型開發(fā)過程中EHRs 使用與否的精確度,從圖中可以看出,使用EHRs 數(shù)據(jù)的模型精確度普遍高于未使用的精確度。在使用EHRs 的散點(diǎn)圖中,80% 的模型精確度高于0.8。因此,EHRs 的使用可以很好地改善模型的精確度,且保持在一個(gè)較高的精確度水平。

圖6 將不同數(shù)據(jù)來源的精確度進(jìn)行了對比,可以看到采用UCI 的模型其精確度普遍高于其他數(shù)據(jù)來源,精確度在0.8 以上的點(diǎn)為100%,在0.9 以上的點(diǎn)為50%;采用EHRs 數(shù)據(jù)和醫(yī)院體檢數(shù)據(jù)的模型,精確度很接近,在0.8 以上的點(diǎn)為80%;采用普通隨訪調(diào)查的數(shù)據(jù),精確度相對較低,在0.8 以上的點(diǎn)為50%,但都低于0.85,且下限值較低。EHRs 具有良好的時(shí)序特征,將EHRs應(yīng)用于機(jī)器學(xué)習(xí),利用EHRs 數(shù)據(jù)的高維性,挖掘數(shù)據(jù)內(nèi)部關(guān)系,可以極大地提高模型精確度[34]。并且,由于EHRs 數(shù)據(jù)的豐富性,可以在一定程度上減少樣本的使用量[4]。醫(yī)院體檢數(shù)據(jù)具有較高的準(zhǔn)確性,但是獲取困難,人工處理量大,增加了模型的開發(fā)時(shí)間。普通隨訪調(diào)查雖然數(shù)據(jù)獲取容易,且可以獲得更廣大的樣本量,但是數(shù)據(jù)的準(zhǔn)確度不高,數(shù)據(jù)之間的聯(lián)系較差,人工消耗量較大,針對性不強(qiáng)。所以建議采用EHRs 數(shù)據(jù),這樣既可以保證模型具有較高的精確度,而且數(shù)據(jù)獲取容易且全面。

2.3 特征

CVD 由多種危險(xiǎn)因素引起,更好的特征組合可以實(shí)現(xiàn)更加精確的預(yù)測效果[27]。不同特征選擇方法可以得到不同的特征組合,為了得到最好的特征選擇方法,本文將檢索的文獻(xiàn)n=38 分為3 類:改進(jìn)特征選擇方法項(xiàng)目[27,33]n=12、納入新特征項(xiàng)目[35-36]n=10、基礎(chǔ)特征項(xiàng)目[21]n=16?;A(chǔ)特征包括年齡、性別、血壓等目前預(yù)測模型中經(jīng)常采用的特征[24];納入新特征指在基礎(chǔ)特征上,添加了一些研究者認(rèn)為可能跟CVD 風(fēng)險(xiǎn)相關(guān)的危險(xiǎn)因素[36],本文將比較納入新特征前后的精確度,如圖7 所示。改進(jìn)特征選擇方法是利用新的算法從數(shù)據(jù)中挖掘與CVD 有關(guān)的特征[37-38],通過列表評分機(jī)制,如表3 所示,得出最佳特征選擇算法和特征個(gè)數(shù)。為了消除基數(shù)不同產(chǎn)生的影響,采用直方圖和精確度等級百分率進(jìn)行3 類項(xiàng)目對比,如圖8 所示,得到最有利于精確度的特征選擇方法。

圖7 新特征納入前后對比圖Fig.7 Comparison chart before and after the inclusion of new features

圖7 將納入新特征前后的精確度進(jìn)行了對比,納入新特征的趨勢線始終高于未納入特征的趨勢線,說明在模型中加入新特征可以很好地改善模型的精確度,并且使模型精確度高于0.8 的百分率從10%提高到了50%。

表3 列出了改進(jìn)特征選擇方法的各種算法、精確度以及特征個(gè)數(shù),由表3 可得,精確度在0.8 以上的占90% 以上,在0.9 以上的占40%以上,這說明改進(jìn)特征算法可以很好地提高精確度。在采取的算法中,頻數(shù)最多的是relief 法和DT 法,都為3,relief 法最大精確度為0.991,DT 法最大精確度為0.966,可以看出采用relief 法和DT 法具有很高的精確度上限,被廣泛使用。通過分析,特征個(gè)數(shù)建議為11~14 個(gè)。

表3 改進(jìn)特征選擇方法列表評分機(jī)制Tab.3 List scoring mechanism for improved feature selection methods

在圖8 中,直方圖顯示了各區(qū)間的精確度頻數(shù),改進(jìn)特征選擇方法項(xiàng)目精確度在0.8~1.0 的占91.67%,0.9~1.0 的占41.67%;納入新特征項(xiàng)目精確度在0.8~1.0 的占50%,0.9~1.0 的占比為0;基礎(chǔ)特征項(xiàng)目精確度在0.8~1.0 的占50%,0.9~1.0 的占比為0,說明改進(jìn)特征選擇算法相比于其他兩類項(xiàng)目具有較高的精確度。精確度等級百分率主要反映了各項(xiàng)目的未來潛質(zhì),基礎(chǔ)特征和納入新特征趨勢線較高的地方主要集中在0.75~0.85之間,在0.85 以上逐漸下降,而改進(jìn)特征選擇方法在0.9 以上仍為上升趨勢,具有較好的未來潛質(zhì)。

圖8 不同特征選擇方法的精確度對比圖Fig.8 Comparison of accuracy for different feature selection methods

2.4 建模方法

開發(fā)模型的目的決定了采用模型的類別,模型類別的選擇在一定程度上也決定了模型的精確度。

為了獲得精確度更高的建模算法,將n=58 篇文獻(xiàn)根據(jù)建模目的分為3 類:回歸分析項(xiàng)目[36,39]n=26、機(jī)器學(xué)習(xí)項(xiàng)目[33,40]n=28、FRS 風(fēng)險(xiǎn)預(yù)測項(xiàng)目[19,26]n=4?;貧w分析又分為:logistic 邏輯回歸,該類別不分析;Cox 比例回歸,n=17。采用精確度等級百分率的評分形式,如圖9 所示。機(jī)器學(xué)習(xí)項(xiàng)目又分為集成學(xué)習(xí)、比較多算法、單一算法[27]。集成學(xué)習(xí)因不同文獻(xiàn)之間具有等量類別的相同集成方法,所以采用精確度平均值,對不同集成方法進(jìn)行精確度比較,如圖10 所示。圖中:RFBM 表示隨機(jī)森林Bagging 法;GBBM 表示梯度法;KNNBM表示k近鄰Bagging 法;ABBM 表示AdaBoost 提升法;DTBM 表示決策樹Bagging法。比較多算法是將每篇文獻(xiàn)中最大精確度對應(yīng)的算法和在所有文獻(xiàn)中的使用頻數(shù)統(tǒng)計(jì)出來,如圖11 所示。圖中:XGBOOST 表示XGBoost 提升算法;DBN 表示動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)算法;SVM 表示支持向量機(jī)算法;LR 表示邏輯回歸算法;DL 表示深度學(xué)習(xí)算法;HTC 表示混合算法。單一算法采用精確度等級百分率進(jìn)行統(tǒng)計(jì)分析;最后采用列表評分機(jī)制,對機(jī)器學(xué)習(xí)的各種方法進(jìn)行精確度百分率比較,如表4 所示。

表4 不同算法精確度等級百分率Tab.4 Percentage of accuracy grade of different algorithms

圖9 Cox 比例回歸精確度等級直方圖Fig.9 Histogram of accuracy grade for Cox proportional regression

圖10 集成算法分布直方圖Fig.10 Distribution histogram of ensemble algorithm

圖11 比較多算法的最高精確度的頻數(shù)分布圖Fig.11 Frequency distribution chart of maximum accuracy of comparative multiple algorithms

從圖9 可以看出,頻數(shù)主要分布在精確度0.75~0.80 之間,且頻數(shù)百分率在此區(qū)間最大,之后迅速下降,說明采用Cox 比例風(fēng)險(xiǎn)模型精確度普遍較低,這是由于Cox 模型的本質(zhì)和建模的目的導(dǎo)致的。

集成學(xué)習(xí)指將Bagging 和Boosting 分類器和各種算法組合在一起的不同算法。圖10 展示了不同文獻(xiàn)的不同集成算法的精確度平均值分布,從圖中得到,精確度都超過了0.85,而采用RFBM 算法精確度高達(dá)0.991,接近于1,所以采用集成算法可以很大程度上改善精確度。

圖11 是比較多算法類別的直方圖和折線圖,n=11,將每篇文獻(xiàn)精確度最大的算法統(tǒng)計(jì)出來繪制了直方圖,其中RF 算法的精確度最高,所以采用RF 算法具有較高的精確度上限。SVM 使用次數(shù)最多,為4 次,占所統(tǒng)計(jì)的36.36%,說明SVM 算法不僅使模型精確度提高而且是廣為使用的算法。折線圖顯示了統(tǒng)計(jì)的精確度最高算法在每篇文獻(xiàn)中的使用頻數(shù),HTC 為1,將其去除,SVM 為10,使用最廣。圖中列出的這些算法在每篇文獻(xiàn)中的使用率達(dá)到了75%,甚至100%,除列出的算法外, DT,KNN 也是常用的算法。所以研究者如果采用比較多算法進(jìn)行建模,建議采用SVM,DBN,LR,DL,RF,DT,KNN 等精確度較高的算法進(jìn)行比較。

表4 進(jìn)行了不同算法之間的比較,集成學(xué)習(xí)類別精確度普遍高于其他兩類,而精確度在0.9~1.0 的百分率更高達(dá)80%;其他兩類算法,精確度在0.8~1.0 相差較小,但單一算法精確度在0.9~1.0 之間的百分率為22.22%,高于比較多算法。因此,從以上分析得出,為了使開發(fā)的模型具有較高的精確度,建議采用集成學(xué)習(xí)。

3 結(jié) 論

本研究對檢索文獻(xiàn)的各個(gè)模塊進(jìn)行了詳細(xì)的審閱和分析,根據(jù)探究目的將文獻(xiàn)進(jìn)行不同歸類,各類別之間文獻(xiàn)有交叉。由于數(shù)據(jù)的多樣性,對不同模塊采取不同的數(shù)據(jù)處理方式,為了消除基數(shù)差異影響,本研究創(chuàng)立精確度等級百分率數(shù)據(jù)評分機(jī)制,利用精確度平均法消除不同類別的復(fù)雜度,采用random 隨機(jī)函數(shù)保證了獲取數(shù)據(jù)的隨機(jī)性。最后得到了不同模塊對應(yīng)的建議性改善措施。

在模型中加入新的特征,不僅提高了模型的精確度,更重要是改善了疾病閾值問題,更加細(xì)化了高危人群治與不治的難題。利用Cox 比例風(fēng)險(xiǎn)模型,驗(yàn)證了新特征與CVD 的相關(guān)性,可以幫助科研人員探求CVD 分子發(fā)病機(jī)制和基因的靶向治療。

改進(jìn)特征選擇項(xiàng)目之所以具有較高的精確度,是因?yàn)椴捎锰卣鬟x擇算法能夠很好地挖掘樣本中的數(shù)據(jù),可以從幾百個(gè)特征中篩選出與CVD極度相關(guān)的11~14 個(gè)特征,保證了模型與數(shù)據(jù)的相容性和關(guān)聯(lián)性。而基礎(chǔ)特征項(xiàng)目建模前已經(jīng)確定了各標(biāo)簽,用數(shù)據(jù)向標(biāo)簽靠攏,發(fā)揮不了數(shù)據(jù)應(yīng)有的潛力,阻止了數(shù)據(jù)與模型之間的較好聯(lián)系,導(dǎo)致精確度往往偏低。納入新特征項(xiàng)目一般采用Cox 比例風(fēng)險(xiǎn)模型,為了驗(yàn)證新特征與預(yù)測結(jié)果的關(guān)聯(lián)性,精確度在0.8 左右滿足了預(yù)測效果。

總的來說,通過對文獻(xiàn)各個(gè)模塊進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)挖掘、圖標(biāo)分析,得到了對模型精確度比較理想的各種改善措施。但是由于時(shí)間和人力限制,檢索的文獻(xiàn)相對較少,即使針對某一模塊的文獻(xiàn)數(shù)量充足,但是將其進(jìn)行再分類后,各類別數(shù)量變得更少。雖然文獻(xiàn)數(shù)量不影響數(shù)據(jù)分析,但在一定程度上會(huì)影響圖形擬合,導(dǎo)致分析結(jié)果與事實(shí)存在一定誤差。綜合來看,本文得出的各種改善措施,都可以在一定程度上優(yōu)化模型,減少模型運(yùn)行量和時(shí)間消耗,對未來研究者開發(fā)模型具有重大指導(dǎo)性意義。

猜你喜歡
精確度特征選擇間隔
間隔之謎
放縮法在遞推數(shù)列中的再探究
數(shù)形結(jié)合
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
故障診斷中的數(shù)據(jù)建模與特征選擇
reliefF算法在數(shù)據(jù)發(fā)布隱私保護(hù)中的應(yīng)用研究
一種多特征融合的中文微博評價(jià)對象提取方法
上樓梯的學(xué)問
頭夾球接力
近似數(shù)1.8和1.80相同嗎