徐瑋斐 顧巍杰 劉國萍 劉晏 顏建軍 鐘濤
摘要:目的 對(duì)慢性胃炎實(shí)證證候的特征癥狀進(jìn)行選擇,并建立證候模型,為慢性胃炎證候量化診斷的建立提供方法學(xué)參考。方法 運(yùn)用慢性胃炎中醫(yī)問診規(guī)范化量表采集臨床癥狀和體征,并運(yùn)用機(jī)器學(xué)習(xí)領(lǐng)域新提出的隨機(jī)森林和多標(biāo)記學(xué)習(xí)算法對(duì)慢性胃炎的實(shí)證癥狀進(jìn)行選擇和模型構(gòu)建。結(jié)果 運(yùn)用隨機(jī)森林和信息增益算法,結(jié)合多標(biāo)記學(xué)習(xí)算法對(duì)證候分別建模,隨機(jī)森林算法挑選出15個(gè)特征癥狀,信息增益方法挑選出20個(gè)特征癥狀,二者的模型最高準(zhǔn)確率分別為83%、82%。通過評(píng)價(jià),隨機(jī)森林算法選出的特征癥狀更加精簡,提高了診斷模型的識(shí)別率。結(jié)論 隨機(jī)森林結(jié)合多標(biāo)記學(xué)習(xí)算法可實(shí)現(xiàn)慢性胃炎實(shí)證證候特征癥狀的選擇,同時(shí)還可解決幾個(gè)證候相兼問題,彌補(bǔ)傳統(tǒng)學(xué)習(xí)算法的不足。
關(guān)鍵詞:隨機(jī)森林算法;多標(biāo)記學(xué)習(xí)算法;慢性胃炎;特征選擇;證候
DOI:10.3969/j.issn.1005-5304.2016.08.006
中圖分類號(hào):R259.733 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1005-5304(2016)08-0018-06
證候指人體生理病理的整體功能狀態(tài),臨床上常指對(duì)個(gè)體整體功能狀態(tài)的判斷結(jié)果[1]。證候分類是對(duì)不同個(gè)體生理病理整體功能狀態(tài)進(jìn)行分類的一種方法,主觀癥狀和體征(舌脈等)信息則是中醫(yī)證候分類的主要依據(jù)。此外,癥狀和體征的出現(xiàn)在不同證候中有不同的規(guī)律,這種規(guī)律可以利用現(xiàn)代方法去尋找和不斷完善,從而找到證候分類標(biāo)準(zhǔn)的制訂和完善方法。劉渡舟教授大力提倡“抓主癥”,并指出每一種病證都有其特異性的主癥,可以是一個(gè)癥狀,也可能由若干個(gè)癥狀組成[2]。隨著數(shù)理統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,如何找出患者的主癥,是提高臨床辨證準(zhǔn)確性的關(guān)鍵,也是中醫(yī)步入“數(shù)字中醫(yī)”時(shí)代的緊迫任務(wù)。特征選擇旨在去除不相關(guān)特征和冗余特征,力求以最少的特征來表達(dá)原始信息,并達(dá)到最優(yōu)的預(yù)測或分類精度。特征選擇與尋找“主癥”的目的相同。隨機(jī)森林算法(random forest algorithm)是一種嵌入式的特征選擇方法,充分利用了集成分類器構(gòu)建過程所產(chǎn)生的分類模型。隨機(jī)森林算法適合對(duì)高維、離散型數(shù)據(jù)進(jìn)行建模仿真,當(dāng)數(shù)據(jù)含噪聲時(shí)也表現(xiàn)出良好的性能。
本課題組前期研究顯示,臨床實(shí)際中慢性胃炎證候往往不會(huì)單一出現(xiàn)、時(shí)常交織在一起,2個(gè)以上證候兼雜的情況占30%以上[3]。這屬于典型的多標(biāo)記問題。因此,我們運(yùn)用課題組提出標(biāo)記相關(guān)特征的多標(biāo)記學(xué)習(xí)方法[4]和隨機(jī)森林算法相結(jié)合,進(jìn)行慢性胃炎癥狀和體征的選擇和實(shí)證證候分類識(shí)別,為慢性胃炎的中醫(yī)證候診斷規(guī)范化及客觀化研究提供參考。
1 資料與方法
1.1 研究對(duì)象
2008年9月-2010年10月于上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院、上海中醫(yī)藥大學(xué)附屬曙光醫(yī)院、上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院、上海市普陀區(qū)中心醫(yī)院及上海市中醫(yī)醫(yī)院消化內(nèi)科門診、住院部、胃鏡室進(jìn)行病例采集,去除信息不完整及不符合慢性胃炎診斷的量表,共采集有效樣本919例。其中男性354例(38.5%),平均年齡(44.61±14.54)歲;女性565例(61.5%),平均年齡(48.70±12.74)歲。本研究獲得上海市醫(yī)院倫理委員會(huì)批準(zhǔn),所有納入病例患者均簽署知情同意書。
1.2 診斷標(biāo)準(zhǔn)
1.2.1 西醫(yī)診斷標(biāo)準(zhǔn) 參考中華醫(yī)學(xué)會(huì)消化病學(xué)分會(huì)《中國慢性胃炎共識(shí)意見(2006年,上海)》[5],通過胃鏡與病理組織學(xué)結(jié)果結(jié)合臨床表現(xiàn)診斷篩選為慢性胃炎患者。
1.2.2 中醫(yī)證候診斷標(biāo)準(zhǔn) 參考《中藥新藥臨床研究指導(dǎo)原則(試行)》[6]及中華人民共和國國家標(biāo)準(zhǔn)《中醫(yī)臨床診療術(shù)語·證候部分》[7]制定脾胃濕熱、濕濁中阻、脾胃氣虛、脾胃虛寒、肝氣郁滯、肝胃郁熱、胃陰不足、胃絡(luò)瘀血8個(gè)證候的辨證標(biāo)準(zhǔn)。
1.3 納入標(biāo)準(zhǔn)
①符合慢性胃炎診斷標(biāo)準(zhǔn)和中醫(yī)證候診斷標(biāo)準(zhǔn);②對(duì)本調(diào)查知情同意者。
1.4 排除標(biāo)準(zhǔn)
①精神病患者及伴有其他系統(tǒng)重度疾病者;②語言表達(dá)能力較差,病情敘述有困難者;③未獲得知情同意,拒絕配合者。
1.5 采集量表的制作方法
由上海市資深中西醫(yī)結(jié)合消化系統(tǒng)臨床專家、臨床醫(yī)生及研究者組成研究小組。參考以往量表制作的經(jīng)驗(yàn)[8],通過文獻(xiàn)檢索,參考國內(nèi)慢性胃炎證型與證候有關(guān)的癥狀頻率的報(bào)道,初步制定出臨床流行病學(xué)調(diào)查表。并經(jīng)2輪專家咨詢及相關(guān)的統(tǒng)計(jì)學(xué)檢驗(yàn),完善修改量表。確定的中醫(yī)問診量表包括寒熱、汗、頭身胸腹、二便、飲食口味、睡眠、情緒、婦女共8個(gè)維度,及既往史、望診、切診等內(nèi)容,共113個(gè)變量。
1.6 調(diào)查方法
量表中對(duì)癥狀給以明確的定義,指出問診時(shí)的具體操作方法和順序。病例采集人員經(jīng)統(tǒng)一培訓(xùn)。為保證在調(diào)查過程中的統(tǒng)一,小組成員定期集中,對(duì)典型病例的資料進(jìn)行討論,以盡可能保證所采集資料的一致性。
1.7 診斷方法
邀請(qǐng)3位臨床經(jīng)驗(yàn)豐富的高年資主任醫(yī)師,參考課題組制定的辨證診斷標(biāo)準(zhǔn),對(duì)信息完整的病例進(jìn)行中醫(yī)辨證診斷。選取2位專家診斷結(jié)果一致的數(shù)據(jù)進(jìn)行錄入;對(duì)于診斷不一致的數(shù)據(jù),再與專家討論,診斷結(jié)果達(dá)成一致后再錄入。
1.8 數(shù)據(jù)輸入及處理
采用Epidata3.1軟件建立數(shù)據(jù)庫。獨(dú)立雙遍錄入,并對(duì)2份錄入數(shù)據(jù)進(jìn)行對(duì)比核查。再進(jìn)行邏輯檢查,修正調(diào)查表填寫錯(cuò)誤。
1.9 分析方法
1.9.1 癥狀(體征)特征選擇方法 前期研究顯示,信息學(xué)的特征提取方法中信息增益(information gain)的結(jié)果最優(yōu)[4],因此,本研究運(yùn)用隨機(jī)森林和信息增益2種算法進(jìn)行對(duì)照,分別對(duì)慢性胃炎臨床常見證候進(jìn)行特征選擇,并運(yùn)用REAL多標(biāo)記學(xué)習(xí)算法對(duì)證候進(jìn)行識(shí)別。采用matlab7.0進(jìn)行分析。
1.9.1.1 信息增益 信息增益在機(jī)器學(xué)習(xí)領(lǐng)域被廣泛應(yīng)用。在信息論中,樣本屬性的信息增益越大,其包含的信息量也越大。它是通過計(jì)算一個(gè)特征能帶來多少用于分類的信息,以衡量特征對(duì)應(yīng)分類的重要度。在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征能夠?yàn)榉诸愊到y(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。
1.9.1.2 隨機(jī)森林算法 本研究利用Abhishek Jaiantilal的R package randomForest工具包訓(xùn)練出中醫(yī)慢性胃炎數(shù)據(jù)的分類模型以確定特征重要度。在不增加原樣本集樣本的情況下通過自舉法(bootstrap)選擇樣本子集構(gòu)建一組分量分類器,然后利用投票(voting)機(jī)制綜合分量分類器的結(jié)果得到最終分類結(jié)果。在構(gòu)建分量分類器時(shí),未被選中的樣本組成袋外(out-of-bag,OOB)數(shù)據(jù)集,用袋外數(shù)據(jù)進(jìn)行測試得到袋外誤差(out-of-bag error,OOB Err)。在森林每一顆樹的構(gòu)建過程中,記下OOB事例集,并記下分類投票正確的個(gè)數(shù)。隨機(jī)改變OOB事例集中一個(gè)特征m,把這些事例訓(xùn)練成樹。然后用之前未受改變特征m影響情況下正確分類投票數(shù)減去改變OOB事例集中特征m后的正確分類票數(shù)得到票數(shù)差,這個(gè)票數(shù)差客觀反映了特征m對(duì)分類的影響程度。對(duì)每棵樹做相同處理,然后每棵樹結(jié)構(gòu)得到的票數(shù)差取平均值稱為特征m的重要度(raw importance)。取出重要度參向量importance=(ipt1,ipt2,…,iptn)。則權(quán)
1.9.2 多標(biāo)記學(xué)習(xí)方法 為了更好地體現(xiàn)標(biāo)記之間的關(guān)聯(lián)性,本研究運(yùn)用課題組提出的標(biāo)記相關(guān)特征的多標(biāo)記學(xué)習(xí)算法(REAL算法)進(jìn)行證候模型的建立。
輸入:訓(xùn)練特征集( 以及每個(gè)特征集對(duì)應(yīng)的類標(biāo)簽集 );測試特征集( 以及每個(gè)特征集對(duì)應(yīng)的類標(biāo)簽集 );近鄰數(shù)(k);參數(shù)(s)。
輸出:類向量( );真值向量( )。
算法流程如下:
Step1:通過特征選擇算法挑選各個(gè)標(biāo)記N個(gè)相關(guān)特征,將每個(gè)特征的標(biāo)號(hào)分別放在1個(gè)數(shù)組中。
Step2:對(duì)原始數(shù)據(jù)集進(jìn)行10倍交叉檢驗(yàn),劃分訓(xùn)練集和測試集。
Step3:根據(jù)每個(gè)標(biāo)記分別使用相關(guān)的特征子集進(jìn)行訓(xùn)練。所屬訓(xùn)練樣本之間的距離→每個(gè)類的先驗(yàn)概率→由每個(gè)樣本的距離選取最近的k個(gè)近鄰→近鄰的標(biāo)簽→累計(jì)每個(gè)樣本的近鄰確實(shí)是該類的個(gè)數(shù)→后驗(yàn)概率。
Step4:根據(jù)每個(gè)標(biāo)記分別使用測試集中相關(guān)的特征子集進(jìn)行測試,計(jì)算所屬訓(xùn)練樣本的特征子集和測試樣本的特征子集之間的距離→測試樣本的近鄰→近鄰的標(biāo)簽→通過先、后驗(yàn)概率得到每個(gè)值的最大后驗(yàn)概率值。
1.9.3 實(shí)驗(yàn)設(shè)置與評(píng)價(jià) 根據(jù)每個(gè)證型分別選取112、100、70、60、50、40、30、20、15、10、5個(gè)癥狀組成的證型相關(guān)的特征子集,再運(yùn)用多標(biāo)記學(xué)習(xí)方法對(duì)相應(yīng)的特征子集建模。實(shí)驗(yàn)結(jié)果的評(píng)價(jià)采用5種在多標(biāo)記學(xué)習(xí)用的比較常見的評(píng)價(jià)指標(biāo):漢明損失(Hamming loss)、首標(biāo)記錯(cuò)誤(One-error)、覆蓋距離(Coverage)、排序損失(Ranking loss)、平均精度(Average precision)。
1.9.3.1 平均精度 表示預(yù)測標(biāo)記集合中的標(biāo)記排序等級(jí)比實(shí)際中的某個(gè) 的特定標(biāo)記更高的統(tǒng)計(jì)概率。實(shí)際反映了預(yù)測標(biāo)記的平均準(zhǔn)確率,該值 越大分類性能越好。
1.9.3.2 覆蓋距離 代表覆蓋預(yù)測樣本標(biāo)記的平均距離,該值 越小分類性能越好。
1.9.3.3 漢明損失 評(píng)價(jià)示例-標(biāo)簽對(duì)錯(cuò)分的次數(shù),該值 越小越好。也就是不屬于某個(gè)事例的標(biāo)記被預(yù)測為該事例了,或者屬于某個(gè)事例的標(biāo)記卻沒有被預(yù)測出來。
式中 表示2個(gè)事例-標(biāo)記對(duì)相應(yīng)位置上數(shù)值的區(qū)別。
1.9.3.4 首標(biāo)記錯(cuò)誤 計(jì)算預(yù)測的最高等級(jí)標(biāo)記不在樣本標(biāo)記集合的次數(shù),該值 越小越好。在單標(biāo)記分類問題中,該評(píng)價(jià)準(zhǔn)則被視作普通的分類錯(cuò)誤。
1.9.3.5 排序損失 表示不相關(guān)標(biāo)記比相關(guān)標(biāo)記排序更高的次數(shù),該值 越小分類性能越好。
其中 代表Y中Yi的補(bǔ)集。
2 結(jié)果
2.1 基于隨機(jī)森林和信息增益的REAL算法不同特征數(shù)下平均準(zhǔn)確率的變化
由于前期的研究顯示,信息增益方法選取20個(gè)特征時(shí)的識(shí)別率最高,平均準(zhǔn)確率達(dá)到最大值為82%[6]。因此,本研究主要利用隨機(jī)森林算法分別選取不同的特征數(shù)運(yùn)用REAL算法進(jìn)行分析,分別選取112、100、70、60、50、40、30、20、15、10、5個(gè)癥狀組成的證型相關(guān)的特征子集,在這些癥狀(體征)子集上進(jìn)行證候診斷模型的建模,研究癥狀(體征)選擇對(duì)證候預(yù)測模型的影響。以挑選的特征數(shù)目為橫坐標(biāo)、預(yù)測的平均精度(最高為1)為縱坐標(biāo)作圖,具體結(jié)果見表1、圖1。
從圖1中可以看出,隨著特征數(shù)的變化,平均準(zhǔn)確率是不同的。在選擇的特征數(shù)為15時(shí),平均準(zhǔn)確率達(dá)到最大值83%,之后隨著特征數(shù)的增加,平均準(zhǔn)確率逐漸下降。
圖2是利用隨機(jī)森林算法特征選擇數(shù)目為15、信息增益特征選擇數(shù)目為20時(shí),REAL算法各項(xiàng)性能的對(duì)比。
從圖2中可以看出,利用隨機(jī)森林算法進(jìn)行特征選擇時(shí)平均精度、覆蓋距離、漢明損失、首標(biāo)記錯(cuò)誤和排序損失分別達(dá)到0.830、0.157、0.137、0.265和0.114。而利用信息增益進(jìn)行特征選擇時(shí),這5項(xiàng)指標(biāo)分別為0.820、0.160、0.142、0.283和0.117?;陔S機(jī)森林算法的REAL算法的各項(xiàng)性能要高于信息增益。
特征選擇方法下REAL算法各項(xiàng)性能比較
2.2 提取的最優(yōu)癥狀(體征)子集
隨機(jī)森林算法在選取15個(gè)癥狀特征時(shí)的識(shí)別率最高,平均準(zhǔn)確率達(dá)到最大值83%;而信息增益方法選取20個(gè)特征時(shí)的識(shí)別率最高,平均準(zhǔn)確率達(dá)到最大值82%??梢婋S進(jìn)森林算法的結(jié)果更好,因此,我們得到慢性胃炎4個(gè)實(shí)證證候脾胃濕熱、濕濁中阻、肝氣郁滯、肝胃郁熱的最優(yōu)癥狀(體征)子集,并按照權(quán)值進(jìn)行排序。
脾胃濕熱證提取的癥狀(體征)有苔黃、苔白、苔膩等15個(gè)癥狀體征,濕濁中阻證提取的癥狀(體征)有苔膩、苔厚、苔白等15個(gè)癥狀體征,肝氣郁滯證提取了因情緒而加重、脅肋脹或痛、苔膩等15個(gè)癥狀體征,肝胃郁熱證提取了舌色紅、苔膩、灼痛等15個(gè)癥狀體征,具體見表2。
3 討論
特征選擇不僅可以去除數(shù)據(jù)的冗余特征信息和無關(guān)特征信息從而提高原始數(shù)據(jù)的質(zhì)量,而且還可以大大降低數(shù)據(jù)挖掘的成本。
3.1 特征選擇
隨機(jī)森林算法是一種機(jī)器學(xué)習(xí)方法,適合對(duì)高維、離散型數(shù)據(jù)進(jìn)行建模仿真,當(dāng)數(shù)據(jù)含噪聲時(shí)也表現(xiàn)出良好的性能。它是Leo Breiman[9-10]于2001年提出的一個(gè)新的組合分類器算法,從而對(duì)數(shù)據(jù)進(jìn)行挖掘和模式識(shí)別。該方法在許多領(lǐng)域得到了應(yīng)用,例如天文學(xué)、微陣列、藥物發(fā)現(xiàn)、癌細(xì)胞分析等[11]。其主要優(yōu)點(diǎn)有:①較少的參數(shù)調(diào)整;②不必?fù)?dān)心過度擬合;③適用于數(shù)據(jù)集中存在大量未知特征;④能夠估計(jì)哪個(gè)特征在分類中更重要;⑤當(dāng)數(shù)據(jù)集中存在大量的噪音時(shí)同樣可以取得很好的預(yù)測性能。本研究充分考慮到中醫(yī)數(shù)據(jù)的多標(biāo)記特點(diǎn),將隨機(jī)森林算法和REAL多標(biāo)記學(xué)習(xí)算法結(jié)合,挑選出慢性胃炎4個(gè)實(shí)證證候的癥狀和體征大部分與中醫(yī)理論相符。如濕熱內(nèi)蘊(yùn),上泛舌面可見苔黃、苔膩、苔厚。根據(jù)中醫(yī)理論,舌中部多反映中焦脾胃的病變,脾胃運(yùn)化失常,多見舌中厚膩。寒濕困脾,濕濁上泛見舌苔白厚膩,苔滑、齒痕、胖大皆為寒濕停滯,脾失運(yùn)化的表現(xiàn)。肝氣郁滯可見脅肋脹痛,肝失條達(dá)則因情緒而加重,肝胃不和、胃氣上逆可見噯氣等。肝胃郁熱則見舌色紅,熱使脈道擴(kuò)張、血行加速,氣血沸涌,致使舌體脈絡(luò)充盈而舌色紅,灼痛、大便便質(zhì)偏干、苔黃也皆是熱證的典型表現(xiàn)。
但肝氣郁滯證候中同時(shí)出現(xiàn)“痛有定處”和“痛無定處”2個(gè)癥狀,脾胃濕熱證和濕濁中阻證中見脈弦,與中醫(yī)理論不完全相符??赡苡幸韵略颍孩倥R床上肝氣郁滯證多與血瘀等證候相兼出現(xiàn),單獨(dú)出現(xiàn)者較少,故而痛有定處和痛無定處同時(shí)出現(xiàn)。②弦脈臨床主痛,肝膽病、痰飲、脾胃濕熱及濕濁中阻證濕郁化飲也可見弦脈。雖然這幾個(gè)癥狀(體征)可以用中醫(yī)理論解釋,但并非該證候的特異性癥狀(體征),考慮在今后研究中擴(kuò)大樣本量,進(jìn)一步深入探討。
3.2 證候模型構(gòu)建
本研究是將隨機(jī)森林算法和信息增益方法進(jìn)行對(duì)比,前期研究顯示信息增益方法選取20個(gè)特征數(shù)目時(shí)的識(shí)別率最高,平均準(zhǔn)確率達(dá)到最大值。4個(gè)證候的特征子集分別為:脾胃濕熱證共提取苔黃、苔膩、胸骨后燒灼感等癥狀(體征)20個(gè);濕濁中阻證共提取苔白、舌胖大、苔膩等癥狀(體征)20個(gè);肝氣郁滯證共提取因情緒而加重、脅脹或痛、痛無定處等癥狀(體征)20個(gè);肝胃郁熱證共提取舌色紅、灼痛、喜冷等癥狀(體征)20個(gè)。
而隨機(jī)森林算法在選取15個(gè)癥狀特征時(shí)的識(shí)別率最高,平均準(zhǔn)確率達(dá)到最大值為83%。通過比較發(fā)現(xiàn),信息增益所得結(jié)果中包含的癥狀(體征)基本包含了隨機(jī)森林算法選出的15個(gè)癥狀(體征),可見隨機(jī)森林算法能夠達(dá)到精簡癥狀的目的,并且提高了證候的識(shí)別率。同時(shí),隨機(jī)森林算法能夠計(jì)算單個(gè)特征重要性,能衡量各個(gè)特征對(duì)分類問題的重要性和貢獻(xiàn)度,為證候診斷的客觀化提供了直接的參考和依據(jù),也為慢性胃炎證候的診斷標(biāo)準(zhǔn)建立提供了借鑒。
參考文獻(xiàn):
[1] 呂愛平,李梢,王永炎.從主觀癥狀的客觀規(guī)律探索中醫(yī)證候分類的科學(xué)基礎(chǔ)[J].中醫(yī)雜志,2005,46(1):4-6.
[2] 傅延齡,劉渡舟.抓主癥方法的認(rèn)識(shí)與運(yùn)用[J].中華中醫(yī)藥雜志, 1993,8(4):43-44.
[3] LIU G P, ZHEN R W, YAN S X. Association analysis and distribution of chronic Ggastritis syndromes based on associated density[C]// 2010 IEEE International Conference on Bioinformatics and Biomedicine Workshops(ITCM2010).Hong Kong,2010:790-794.
[4] LIU G P, YAN J J, WANG Y Q, Application of multi-label learning using the relevant feature for each label (REAL) algorithm in the diagnosis of chronic gastritis[J]. Evidence-Based Complementary and Alternative Medicine,2012 (2012),Article ID 135387.doi:10.1155/2012/135387.
[5] 中華醫(yī)學(xué)會(huì)消化病學(xué)分會(huì).中國慢性胃炎共識(shí)意見(2006年,上海)[J].中華消化內(nèi)鏡雜志,2007,24(1):58-63.
[6] 鄭筱萸.中藥新藥臨床研究指導(dǎo)原則(試行)[M].北京:中國醫(yī)藥科技出版社,2002:124-129.
[7] 國家技術(shù)監(jiān)督局.中醫(yī)臨床診療術(shù)語:證候部分[M].北京:中國標(biāo)準(zhǔn)出版社,1997:17-20.
[8] 劉國萍,王憶勤,董英,等.中醫(yī)心系問診量表的研制及評(píng)價(jià)[J].中西醫(yī)結(jié)合學(xué)報(bào),2009,7(1):1222-1225.
[9] BREIMAN L. Random forests[J]. Machine leaning,2001,45(1):5-32.
[10] BREIMAN L. Manual on setting up, using, and understanding random forests v4.0[EB/OL].[2014-05-10].http://oz.Berkeley.edu/users/ breiman/Using-random-forests-V4.0.pdf.
[11] REMLINGER K. Introduction and application of random forest on high though put screening data from drug discovery[EB/OL].[2014- 05-10].http://www4.ncsu.edu/ksremlin.