国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進關聯(lián)規(guī)則算法對乳腺癌擴散的預測研究

2020-08-10 16:32:32艾云昊楊超宇李慧宗
關鍵詞:挖掘出項集置信度

艾云昊,楊超宇,李慧宗

(安徽理工大學,安徽淮南232001)

0 引言

乳腺癌是發(fā)生在乳腺上皮組織的惡性腫瘤,原位的乳腺癌并不致命,但是由于乳腺癌細胞喪失了正常細胞的特性,細胞之間連接松散、容易脫落,一旦癌細胞脫落,游離的癌細胞就會隨著血液或淋巴液擴散至全身,形成轉移,危及患者的生命。根據(jù)2019年1月國家癌癥中心發(fā)布的全國癌癥統(tǒng)計數(shù)據(jù),乳腺癌是女性中發(fā)病率和死亡率最高的癌癥[1]。因此,尋找出關聯(lián)度高的因素,并利用這些因素對乳腺癌的擴散進行預測具有十分重要的意義。

關聯(lián)規(guī)則的概念最早由Agrawal[2]于1993年提出,目的是用來解決顧客交易數(shù)據(jù)庫中的關聯(lián)規(guī)則問題。由于當時用來進行關聯(lián)規(guī)則挖掘的AIS算法在運算過程中會產生過多的候選項集,在1994年Agrawal和Srikant根據(jù)AIS算法提出了Apriori算法[3],這種布爾型關聯(lián)規(guī)則挖掘頻繁項集的算法能大大提高數(shù)據(jù)挖掘的效率。但是算法在實際應用中存在一些缺點,其中之一就是此算法只能處理離散數(shù)值而無法處理連續(xù)數(shù)據(jù)。針對該問題,傳統(tǒng)的方法是通過直接劃分將連續(xù)數(shù)據(jù)轉換為若干離散區(qū)間。不過,這種離散化手段存在“尖銳邊界”問題。1995年,Cubero等[4]引入模糊集理論,提出“模糊關聯(lián)規(guī)則”,之后陸續(xù)有學者從隸屬度函數(shù)的確定[5]和模糊關聯(lián)規(guī)則模型的構建[6]等方面對模糊關聯(lián)規(guī)則進行了研究。

本文將從支持度的計算方法入手,提出根據(jù)模糊區(qū)域分別計算事務項支持度的計算方法,這項改進使得Apriori算法能夠處理的數(shù)據(jù)不僅僅只限于離散型數(shù)據(jù)。改進算法還引入了確定性因子(certainty factor,CF)[7-8]以完善傳統(tǒng)關聯(lián)規(guī)則采用的“支持度-置信度”評價體系。對比改進算法和Apriori算法挖掘出的關聯(lián)規(guī)則的數(shù)量和規(guī)則質量評價函數(shù)值[9],可知改進算法可以挖掘出更多的規(guī)則且挖掘出的規(guī)則質量更高,并且改進算法挖掘出的關聯(lián)規(guī)則對乳腺癌患者臨床治療有一定的參考意義。

1 Apriori算法

Apriori算法是經典的布爾型關聯(lián)規(guī)則挖掘算法,被廣泛應用于數(shù)據(jù)挖掘領域。Apriori算法采用逐層搜索的迭代方法,利用先驗知識進行候選項集剪枝,縮小搜索范圍,挖掘算法步驟如下:

1)設定最小支持度minSupp和最小置信度minConf的閾值;

2)對數(shù)據(jù)庫進行掃描,記錄各項及其出現(xiàn)的次數(shù)得到候選1-項集,選取大于minSupp的項,組成頻繁1-項集;

3)將頻繁1-項集中任意兩個項集彼此連接得到候選2-項集,對候選2-項集進行支持度的計算,然后保留滿足支持度值的項集,得到頻繁2-項集;

4)以此類推,將頻繁(k-1)-項集中任意兩個項集彼此連接得到候選k-項集,然后對候選k-項集進行支持度的計算,保留大于minSupp的項,組成頻繁k-項集。重復該步驟,直到候選N-項集的所有項的支持度都小于minSupp為止,此時頻繁(N-1)-項集就被稱為最大頻繁項集;

5)獲取最大頻繁項集的非空子集,計算各個非空子集之間的置信度,選出大于minConf的規(guī)則,這些規(guī)則就是強關聯(lián)規(guī)則。

2 引入模糊集理論的改進Apriori算法

2.1 連續(xù)型數(shù)據(jù)支持度的計算

本文考慮的情況是數(shù)據(jù)中只有一個屬性的數(shù)據(jù)是連續(xù)型數(shù)據(jù)的情況,運行Apriori算法時只需改變對連續(xù)型數(shù)據(jù)的支持度計算方法即可。具體步驟如下,假設數(shù)據(jù)中只有一個屬性的數(shù)據(jù)是連續(xù)型數(shù)據(jù),首先確定隸屬度函數(shù),根據(jù)隸屬度函數(shù)對原始數(shù)據(jù)進行模糊化,將模糊屬性分為N個模糊區(qū)域(X1,X2,…,XN),然后將數(shù)據(jù)庫內的每一個項Zi分為T=((Zi,Y1),(Zi,Y2),…,(Zi,YN))這N種情況。假設N為3,對候選項T進行計數(shù)時,先對數(shù)據(jù)庫進行掃描。假設一條事務內同時含 有Zi和 連 續(xù) 數(shù) 據(jù)Y,先 將Zi分 為(Zi,Y1)、(Zi,Y2)、(Zi,Y3)這3種 情 況,它 們 的 支 持 度 為S1、S2、S3。計 算 連 續(xù) 數(shù) 據(jù)Y在(X1,X2,X3)這3個 模 糊 區(qū) 域 上 面 的 隸 屬 度f1、f2、f3,然 后S1、S2、S3分別加上f1、f2、f3。若某一條事務中只含有Zi不含有連續(xù)數(shù)據(jù)Y,則對S1、S2、S3分別加上1/N(這里假設N為3,所以是分別加上1/3),以此類推。最后將S1、S2、S3分別除以總事務數(shù)D就得到了(Zi,Y1)、(Zi,Y2)、(Zi,Y3)的支持度。

2.2 引入新指標

本文引入兩個新的指標:①確定性因子(certainty factor,CF);②規(guī)則質量評價函數(shù)φ(r)。確定性因子CF(A→B)定義[7]為式中A→B為一條關聯(lián)規(guī)則,A為前件,B為后件,Conf(A→B)為前件為A后件為B的關聯(lián)規(guī)則的置信度,Supp(B)為關聯(lián)規(guī)則后件B的支持度。由(1)式可知,確定性因子會產生一個[-1,1]區(qū)間的值。當?shù)弥狝包含在某個事務中,確定性因子可以度量B在那個事務中的可信度是如何變化的。正值表示可信度增加,負值表示可信度下降,而0表示可信度沒有變化?!爸С侄?置信度”評價體系加入確定性因子,可以擁有更好的性能。

規(guī)則質量評價函數(shù)φ(r)的定義[9]為式中的r為關聯(lián)規(guī)則,minSupp、minConf、minCF分別是最小支持度、最小置信度、最小確定性因子。由(2)式可以看出,φ(r)的值越大,表明規(guī)則的質量越好。在此基礎上建立對規(guī)則質量評價的指標:

1)?5=maxr1,r2,...,r5φ(r),質量最高的5條規(guī)則的平均質量;

2)?10=maxr1,r2,...,r10φ(r),質量最高的10條規(guī)則的平均質量;

3)?n2=maxr1,r2,...,rn2φ(r),質量最高的n2條規(guī)則的平均質量,n為挖掘出的規(guī)則總數(shù)。

2.3 改進Apriori算法的挖掘步驟

根據(jù)2.1提出的新的支持度計算方法和2.2引入的確定性因子,結合傳統(tǒng)Apriori算法的挖掘步驟,最終改進關聯(lián)規(guī)則算法的計算步驟如下:

1)設定minSupp、minConf和minCF的閾值與隸屬度函數(shù);

2)對數(shù)據(jù)庫進行掃描,得到不包含連續(xù)數(shù)據(jù)的候選1-項集,然后在候選1-項集內的每個項后面加上表示連續(xù)數(shù)據(jù)的Y,使得候選1-項集變?yōu)門=((Zi,Y1),(Zi,Y2),…,(Zi,YN)),然后按照2.1提出的支持度計算方法計算T項集內各個數(shù)據(jù)項的支持度,然后與minSupp比較,選取大于minSupp的項,組成頻繁1-項集;

3)將頻繁1-項集中的任意兩個項集彼此連接得到候選2-項集,對候選2-項集進行支持度的計算,然后與minSupp進行比較,選取大于minSupp的項組成頻繁2-項集;

4)以此類推,將頻繁(k-1)-項集中的任意兩個項集彼此連接,得到候選k-項集,然后對候選k-項集進行支持度的計算,再將其與minSupp進行比較,選取大于minSupp的項,組成頻繁k-項集。重復該步驟,直到候選N-項集的所有項的支持度都小于minSupp為止,此時頻繁(N-1)項集就被稱為最大頻繁項集;

5)獲取最大頻繁項集的非空子集,計算各個非空子集之間的置信度和確定性因子,選出同時大于minConf和minCF的規(guī)則,這些規(guī)則就是強關聯(lián)規(guī)則。

算法流程圖見圖1。

圖1改進Apriori算法流程圖Fig.1 Improved Apriori algorithm flow chart

3 改進Apriori算法在乳腺癌患者就診數(shù)據(jù)中的應用

3.1 數(shù)據(jù)的來源與參數(shù)的選取

本文的原始數(shù)據(jù)來自于San Francisco-Oakl and SMSA、Connecticut、Metropolitan Detroit等18個參與SEER項目的注冊中心。原始數(shù)據(jù)包含有4 409 310位癌癥患者的就診記錄。本文使用的數(shù)據(jù)是從原始數(shù)據(jù)中抽取出的患有乳腺癌后癌癥發(fā)生擴散的患者數(shù)據(jù),擴散方向為結直腸癌、胃癌、女性生殖系統(tǒng)癌癥、淋巴癌、呼吸道系統(tǒng)癌癥、泌尿系統(tǒng)癌癥和其他。

目前的研究發(fā)現(xiàn),乳腺癌中絕大多數(shù)為浸潤性導管癌,而雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)和人表皮生長因子受體-2(HER2)是乳腺癌組織中重要的生物學標志物,因此ER、PR和它們相對應的預后指標(ERA、PRA)也成為乳腺癌重要的預測因子[10]。在乳腺癌發(fā)生、發(fā)展的過程中,細胞形態(tài)學變化的規(guī)律是“正常乳腺上皮細胞→乳腺一般增生→乳腺不典型性增生→乳腺癌”,其發(fā)生、發(fā)展、擴散都與腫瘤的組織學分級等密切相關[11]。原始數(shù) 據(jù)包含的 參數(shù)中,表示ER和PR的是erstatus和prstatus,表示ER和PR對應 的 乳腺癌預后指標的參數(shù)是TUMOR_1V和TUMOR_2V,表示腫瘤組織學分級的參數(shù)是T_VAL?UE、N_VALUE和M_VALUE(這3個參數(shù)都是根據(jù)AJCC第八版文獻來劃分[12])。由于年齡和雌孕激素受體有關聯(lián)[13],且本文探究的是乳腺癌擴散的預測,所以代表年齡的參數(shù)AGE_DX和代表乳腺癌擴散方向的參數(shù)DIRECTION也需要在實驗的時候被考慮。最終本文選取10個參數(shù) 進 行 實 驗,它 們 分 別 是erstatus、prstatus、her2、TUMOR_1V、TUMOR_2V、T_VALUE、N_VALUE、M_VALUE、AGE_DX、DIRECTION。

3.2 連續(xù)型數(shù)據(jù)的模糊化

由于3.1選取的10個指標中的年齡是連續(xù)型數(shù)據(jù),所以需要進行模糊化,使其能夠被關聯(lián)規(guī)則算法處理。模糊化的第一步是劃分模糊區(qū)域。數(shù)據(jù)中的年齡的值域為[14,107],所以此次討論的論域為[14,107]。利用模糊聚類方法對數(shù)據(jù)進行模糊聚類劃分,將年齡數(shù)據(jù)分為青年、中年、老年3個模糊區(qū)域。第二步是確定隸屬度函數(shù)。實踐中,隸屬度函數(shù)存在很多不同類型,例如三角波形、梯形波形、高斯波形、鐘形波形、S型波形和S曲線波形[14],本文參考Zadeh[15]對年齡屬性的劃分,選用梯形波形。結合本文使用的實際數(shù)據(jù)進行調整,最終得到的隸屬度函數(shù)為

3.3 改進算法對比分析

利用隸屬度函數(shù)將年齡數(shù)據(jù)模糊化之后,使用改進算法進行挖掘,并且將結果同使用傳統(tǒng)Apriori算法挖掘的結果進行對比,其中使用Apriori挖掘時為了解決Apriori算法無法處理連續(xù)型數(shù)據(jù)的問題,通過對連續(xù)型數(shù)據(jù)直接劃分來達到離散化的目的,為了保證論文的嚴謹性,沿用連續(xù)數(shù)據(jù)模糊化時的劃分標準,將年齡直接劃分成{[14,44),[44,69),[69,107]},這3段分別對應青年、中年、老年。設定最小置信度為0.8,最小確定性因子為0.7,通過比較最小支持度不同時這兩種方法的規(guī)則數(shù)量和規(guī)則質量,對這兩種方法進行評判。圖2和圖3表明,改進后的算法得到的規(guī)則數(shù)是持續(xù)大于改進前的算法的,也就是說改進后的算法可以得到更多的規(guī)則。

由圖3可以看出,若是只考慮包含有DIRECTION屬性的規(guī)則,在minSupp較低的時候改進后的算法挖掘出的規(guī)則數(shù)量相對原算法有顯著的增加,但是隨著minSupp的增加,改進算法的效果將會逐漸降低,這是因為當minSupp足夠大時,規(guī)則數(shù)量已經大大減少,規(guī)則基本已經具有高質量,所以調整就變得困難和不必要。例如,在圖3中,minSupp為0.062 5時,改進后的算法多得到了114條規(guī)則,但是,當minSupp上升到0.087 5時,改進算法只多得到了17條規(guī)則。

再使用規(guī)則質量評價指標φ5、φ10、φn2這3個度量來進一步驗證改進算法。表1中收集的是在最小置信度為0.8,最小確定性因子為0.7,最小支持度不同的情況下,分別使用兩種算法挖掘出的包含有DIRECTION屬性的規(guī)則的φ5、φ10、φn2這3個度量的值。從表1中可以看出,在最小支持度小于0.1時,改進后的算法得出的3個度量的值總是超過改進前算法的。

圖2不含擴散方向的規(guī)則數(shù)量Fig.2 Number of rules without diffusion direction

圖3包含有擴散方向的規(guī)則數(shù)量Fig.3 Number of rules with diffusion direction

表1規(guī)則質量Tab.1 Rule quality

3.4 實驗結果

從圖2和圖3可以看出,最小支持度小于0.075時,改進算法挖掘出的規(guī)則數(shù)量過多,規(guī)則中含有大量冗余規(guī)則,而最小支持度大于0.075時,規(guī)則數(shù)量過少,很多有價值的規(guī)則被刪除,會影響最終結論,所以取最小支持度設為0.075時挖掘出的規(guī)則進行研究最合適。部分挖掘出的規(guī)則如表2所示。根據(jù)挖掘出的關聯(lián)結果,得到以下結論。

1)由規(guī)則1可以看出,PR和PRA都為陰性的患者在樣本中的比例為7.72%,全部擴散成結直腸癌。

2)由規(guī)則2可以看出,T_VALUE的值為T1且處于老年(69歲以上)的患者在樣本中的比例為9.28%,其中80.02%的患者擴散成結直腸癌。

3)由規(guī)則3可以看出,ER、PRA和ERA的值都為陰性的患者在樣本中的比例為7.51%,其中84.29%的患者擴散成女性生殖系統(tǒng)癌。

4)由規(guī)則4可以看出,ER、PR為陰性且處于老年的患者在樣本中的比例為7.76%,其中82.08%的患者擴散成結直腸癌。

5)由規(guī)則5可以看出,ER、PR為陰性,ERA為陽性且T_VALUE的值為T1的患者在樣本中的比例為9.86%,其中95.76%的患者擴散成呼吸道系統(tǒng)癌。

6)由規(guī)則4、5可以看出,若患者ER和PR都為陰性,乳腺癌有較大概率發(fā)生擴散。醫(yī)院給患者制定治療方案時,可以根據(jù)這兩項指標的檢測值對治療方案進行調整。

7)由規(guī)則2、4可以看出,若患者處于老年,則乳腺癌有較大概率發(fā)生擴散,醫(yī)院在對老年乳腺癌患者進行治療時需注意。

表2關聯(lián)規(guī)則結果Tab.2 Results of association rules

4 結語

本文主要研究了改進關聯(lián)規(guī)則算法在乳腺癌擴散預測中的應用,引入模糊集理論對Apriori算法進行改進,使用Apriori和改進算法對乳腺癌患者就診記錄進行實驗處理,并比較了算法的性能。通過對乳腺癌患者就診數(shù)據(jù)進行挖掘,得到乳腺癌擴散和各個參數(shù)之間的內在聯(lián)系,挖掘出有效的規(guī)則,為乳腺癌患者的臨床治療提供幫助。

猜你喜歡
挖掘出項集置信度
硼鋁復合材料硼含量置信度臨界安全分析研究
從唱片里面挖掘出更多的細節(jié) Thorens多能士| TD 905黑膠唱盤
正負關聯(lián)規(guī)則兩級置信度閾值設置方法
計算機應用(2018年5期)2018-07-25 07:41:26
三次實地采訪,挖掘出暖新聞背后的超暖細節(jié)
傳媒評論(2018年5期)2018-07-09 06:05:20
感悟生活,拓展思維空間
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
關聯(lián)規(guī)則中經典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
神探小子 是誰挖掘出了贓物
多假設用于同一結論時綜合置信度計算的新方法?
電訊技術(2011年11期)2011-04-02 14:00:37
廊坊市| 丹凤县| 闵行区| 闻喜县| 通江县| 涟源市| 乐东| 顺义区| 岳池县| 北川| 外汇| 杭锦后旗| 万源市| 城口县| 东阳市| 北川| 富民县| 团风县| 仙桃市| 盘锦市| 维西| 黎平县| 高青县| 德昌县| 临猗县| 淅川县| 久治县| 姚安县| 南京市| 眉山市| 体育| 九台市| 永州市| 大新县| 丽江市| 石嘴山市| 专栏| 新竹县| 宝兴县| 都江堰市| 开封市|