国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機(jī)器學(xué)習(xí)方法在中醫(yī)證候分析中的應(yīng)用

2020-07-04 02:14張龍王國(guó)明
電腦知識(shí)與技術(shù) 2020年14期
關(guān)鍵詞:機(jī)器學(xué)習(xí)因子分析數(shù)據(jù)挖掘

張龍 王國(guó)明

摘要:傳統(tǒng)的中醫(yī)辨證診療主要基于“望、聞、問(wèn)、切”得到的四診信息,由于摻雜過(guò)多的醫(yī)師主觀因素,即使對(duì)同一個(gè)病人的辨證結(jié)果也可能不盡相同,因此如何建立一個(gè)科學(xué)而規(guī)范化的中醫(yī)證候的量化標(biāo)準(zhǔn)是一個(gè)值得研究的課題。本文將機(jī)器學(xué)習(xí)中的層次聚類和因子分析方法應(yīng)用于中醫(yī)證候量化分析,通過(guò)對(duì)采集到的1499例典型高血壓病例的處理與分析,實(shí)驗(yàn)結(jié)果表明,機(jī)器學(xué)習(xí)方法可以有效地挖掘中醫(yī)證候中隱藏的信息,為中醫(yī)輔助診療提供重要的途徑。

關(guān)鍵詞:機(jī)器學(xué)習(xí);因子分析;層次聚米;數(shù)據(jù)挖掘;證候扮析

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)14-0001 1-03

層次聚類算法出現(xiàn)于1963年,其指導(dǎo)思想是對(duì)給定的待聚類數(shù)據(jù)集合進(jìn)行層次化分解。因子分析最早出現(xiàn)于1904年英國(guó)統(tǒng)計(jì)學(xué)家斯皮爾曼(C.Spearman),最初應(yīng)用于心理學(xué)與教育學(xué)中,其主要目的是對(duì)顯在變量找出其潛在變量(因子),用少數(shù)的潛在變量來(lái)揭示相互之間有關(guān)系的顯在變量,將具有相同本質(zhì)的變量歸納為一個(gè)因子。

聚類分析在中醫(yī)領(lǐng)域有諸多的應(yīng)用,如阮雪萍等人將聚類分析應(yīng)用于探究阻塞性睡眠呼吸與血清SOD、MDA的相關(guān)性研究;鐘小雪等人提出基于聚類分析的中醫(yī)癥候的研究。因子分析同樣高頻率的出現(xiàn)在中醫(yī)的應(yīng)用中,如李亮亮等人基于因子分析對(duì)中醫(yī)證素辨證研究。而本文以高血壓病例為例,探索基于聚類分析和因子分析在中醫(yī)證候中的應(yīng)用。

1層次聚類算法

1.1數(shù)據(jù)來(lái)源

本文的數(shù)據(jù)是來(lái)源于全國(guó)五所醫(yī)院中提取的1499份高血壓患者的四診信息,將篩選過(guò)后符合標(biāo)準(zhǔn)的四診信息進(jìn)行編碼。

1.2基本思想與算法流程圖

1.2.1基本思想

層次聚類法是使用比較廣泛的一種方法,這種方法首先把多個(gè)變量各自看作為一個(gè)類簇,根據(jù)兩個(gè)類之間的相似性統(tǒng)計(jì)量,把兩個(gè)最接近的類簇合并成一個(gè)新的類簇,計(jì)算新的類簇和其他各類簇間的相似性統(tǒng)計(jì)量,再選擇最接近的兩個(gè)類簇合并成一個(gè)新的類簇,直到達(dá)到設(shè)定的分類數(shù)目為止。相似性統(tǒng)計(jì)量通常是以距離為相似性統(tǒng)計(jì)指標(biāo)常用的指標(biāo)有歐式距離、重心法、最長(zhǎng)距離法、離差平方和法(Ward法)。本文是基于離差平方和法進(jìn)行兩個(gè)類簇之間距離的計(jì)算,其主要是基于方差分析的思想,如果分類正確那么同類簇的樣品之間的離差平方和較小,類簇與類簇之間的離差平方和較大。

1.2.2算法流程圖

1.3實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)是將篩選過(guò)后的四診信息變量進(jìn)行聚類。使用R語(yǔ)言的hclustf)函數(shù)或者SPSS軟件都可以畫出聚類圖。聚類結(jié)果如下圖2所示。

1.4層次聚類實(shí)驗(yàn)結(jié)論

由于聚類分析是無(wú)監(jiān)督學(xué)習(xí),在分類過(guò)程中,它能自動(dòng)的將樣本進(jìn)行歸類處理,減少了主觀判斷造成的分析誤差,使得分類的結(jié)果更加具有客觀性和科學(xué)性。但同時(shí)我們也意識(shí)到對(duì)于中醫(yī)這種專業(yè)性比較強(qiáng)的領(lǐng)域,在部分聚類分析的結(jié)果中,可能會(huì)出現(xiàn)沒(méi)有臨床癥狀的四診信息會(huì)被聚為一類,也有可能出現(xiàn)并無(wú)關(guān)聯(lián)甚至相互矛盾的癥狀被聚為一類。而因子分析作為一類降維的相關(guān)分析技術(shù),其主要目的是從多個(gè)變量中找出因子,以少數(shù)幾個(gè)因子解釋一群具有相互關(guān)系的變量,因其能夠根據(jù)權(quán)重反映變量自身的重要程度,提高綜合評(píng)價(jià)的效率,近些年來(lái)被廣泛應(yīng)用于社會(huì)學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域中。

2因子分析

2.1基本思想

探索性因子分析(Exploratory Factor Analysis,EFA)可在許多變量中找出隱藏的具有代表性的因子,將相同本質(zhì)的變量歸入一個(gè)因子,從而減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。通常探索性因子分析是以協(xié)方差為基礎(chǔ)來(lái)估計(jì)其方程的參數(shù),這就要求數(shù)據(jù)是連續(xù)的并且服從正態(tài)分布。但是中醫(yī)中收集到的四診信息通常是等級(jí)資料,無(wú)法滿足因子分析的潛在變量和顯在變量均為連續(xù)變量的前提條件。因此利用基于協(xié)方差系數(shù)矩陣的因子分析方法對(duì)收集到的四診信息進(jìn)行分析,可能會(huì)出現(xiàn)錯(cuò)誤的結(jié)果。Muthen后來(lái)提出了將等級(jí)資料變換為潛在連續(xù)變量,求得連續(xù)變量間多項(xiàng)相關(guān)系數(shù),以多項(xiàng)相關(guān)系數(shù)進(jìn)行探索性因子分析。本文采用基于多項(xiàng)相關(guān)系數(shù)矩陣的探索性因子分析和基于協(xié)方差矩陣下的探索性因子分析進(jìn)行比較研究。

2.2數(shù)據(jù)建模

2.2.1協(xié)方差系數(shù)矩陣下的因子分析建模

2.3.1因子可行性分析

在對(duì)數(shù)據(jù)進(jìn)行因子分析時(shí),需要檢驗(yàn)數(shù)據(jù)間是否存在一定的相關(guān)性,如果不存在相關(guān)性,則對(duì)該數(shù)據(jù)進(jìn)行因子分析則毫無(wú)意義。進(jìn)行可行性分析常用的方法有KMO系數(shù)與Bartlett卡方檢驗(yàn)。

從表1的檢驗(yàn)結(jié)果來(lái)看,KMO值等于0.832,接近于1,說(shuō)明所有變量之間的簡(jiǎn)單相關(guān)系數(shù)平方和遠(yuǎn)大于偏相關(guān)系數(shù)平方和,因此適合于作因子分析;此外,從Bartlett球形檢驗(yàn)的結(jié)果也可以發(fā)現(xiàn),其相伴概率幾乎等于零,遠(yuǎn)小于顯著性水平,則拒絕原假設(shè),說(shuō)明原始相關(guān)系數(shù)矩陣不可能是單位陣,即原變量之間存在相關(guān)性,適宜作因子分析。

2.3.2確定公因子個(gè)數(shù)

通常情況下,探索性因子分析中所提取的因子數(shù)量主要由特征根、方差累計(jì)貢獻(xiàn)率以及碎石圖等來(lái)決定。其中所提取因子的特征根一般要求大于1,且累計(jì)方差貢獻(xiàn)率要達(dá)到80%以上才能保證因子具有較強(qiáng)的解釋力度,但由于本文中數(shù)據(jù)的變量個(gè)數(shù)過(guò)多,因此需要結(jié)合特征根及其差值(表2)以及碎石圖(圖4)來(lái)選取因子。

首先從特征根及其差值(表2)來(lái)看,基于協(xié)方差矩陣的因子分析法和基于多項(xiàng)相關(guān)系數(shù)矩陣的因子分析法所提取的前5個(gè)因子的特征根都是大于1的,并且其差值相對(duì)較大,從第6個(gè)因子開始,特征根的差值逐漸變小,因此我們可以考慮選取5個(gè)因子。此外,從圖4的兩種因子分析方法下的碎石圖來(lái)看,都是在第6個(gè)因子處具有一個(gè)明顯的拐點(diǎn),第6個(gè)因子開始趨于平滑曲線,這與特征根及其差值的結(jié)論相一致,即兩種方法對(duì)于所提取的因子數(shù)目沒(méi)有太大差別,都是提取5個(gè)因子較為適宜。

2.3.3結(jié)果(見表3)

2.4因子分析實(shí)驗(yàn)結(jié)論

從因子載荷系數(shù)矩陣整體來(lái)看,兩種方法所提取的五個(gè)因子都存在其相對(duì)應(yīng)的中醫(yī)證候。從每個(gè)因子所對(duì)應(yīng)的中醫(yī)證候的載荷系數(shù)大小來(lái)看,基于多項(xiàng)相關(guān)系數(shù)矩陣的因子分析法更為精確、細(xì)化,并且載荷系數(shù)普遍高于基于協(xié)方差矩陣的因子分析方法下的載荷系數(shù).這說(shuō)明,如果取載荷系數(shù)較大時(shí),基于協(xié)方差矩陣的因子分析方法極易忽略一部分變量,從而造成一定的分析誤差。綜上,使用基于多項(xiàng)相關(guān)系數(shù)矩陣的探索性因子分析方法所得到的結(jié)果更為合理可靠。

猜你喜歡
機(jī)器學(xué)習(xí)因子分析數(shù)據(jù)挖掘
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
贺州市| 北碚区| 兰坪| 斗六市| 武定县| 莒南县| 鄂伦春自治旗| 新安县| 金沙县| 高青县| 太保市| 通榆县| 玛多县| 鄂托克旗| 临沂市| 利川市| 昭平县| 桃源县| 襄城县| 郯城县| 澄迈县| 嘉禾县| 唐海县| 福贡县| 石城县| 徐水县| 丹巴县| 淮北市| 奎屯市| 连州市| 襄垣县| 宁陵县| 射洪县| 密山市| 泾阳县| 吴江市| 龙门县| 山丹县| 新巴尔虎右旗| 遂宁市| 慈利县|