孫資金 吉靜 馬重陽 張風(fēng)君 趙宏躍 王雪茜 王慶國 程發(fā)峰
〔摘要〕 目的 建立基于人工智能的中風(fēng)中醫(yī)辨證模型,為中風(fēng)中醫(yī)智能辨證模型的構(gòu)建與應(yīng)用提供方法和依據(jù)。方法 檢索中國期刊全文數(shù)據(jù)庫,收集關(guān)于中風(fēng)的中醫(yī)病案五種證型各60例,建立中風(fēng)病案中醫(yī)信息數(shù)據(jù)庫,采用經(jīng)過超參數(shù)調(diào)優(yōu)的支持向量機(jī)(support vector machine, SVM)、K-近鄰(K-nearest neighbor, KNN)、隨機(jī)森林(random forest, RF)、極端隨機(jī)樹(extremely randomized trees, ExtraTrees)、XGBoost及LightGBM對(duì)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)建模。全部數(shù)據(jù)的70%作為訓(xùn)練集,30%作為測(cè)試集,采用五折交叉驗(yàn)證對(duì)模型進(jìn)行評(píng)價(jià),以Accuracy作為模型優(yōu)劣的評(píng)價(jià)指標(biāo),比較模型的準(zhǔn)確性。結(jié)果 中風(fēng)中醫(yī)四診信息為輸入變量共55項(xiàng),中風(fēng)中醫(yī)證型為輸出變量共5項(xiàng)。6種模型的擬合效果較好,Accuracy值均在0.85以上;其中SVM模型的準(zhǔn)確率最高,可達(dá)0.95。結(jié)論 基于SVM算法模型建立的中風(fēng)中醫(yī)辨證模型具有較好的診斷、預(yù)測(cè)能力,機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于中風(fēng)中醫(yī)辨證模型的構(gòu)建具有方法學(xué)上的可行性。
〔關(guān)鍵詞〕 人工智能;機(jī)器學(xué)習(xí);中風(fēng);中醫(yī)辨證模型;中醫(yī)藥現(xiàn)代化;證候;大數(shù)據(jù)
〔中圖分類號(hào)〕R241;TP18 ? ? ? 〔文獻(xiàn)標(biāo)志碼〕A ? ? ? ?〔文章編號(hào)〕doi:10.3969/j.issn.1674-070X.2023.04.019
Construction and application of stroke TCM pattern differentiation model
based on machine learning
SUN Zijin1, JI Jing1, MA Chongyang2, ZHANG Fengjun3, ZHAO Hongyue4, WANG Xuexi1, WANG Qingguo1, CHENG Fafeng1
1. School of Chinese Medicine, Beijing University of Chinese Medicine, Beijing 100029, China; 2. School of Chinese Medicine, Capital Medical University, Beijing 100069, China; 3. School of Acupuncture-Moxibustion and Tuina, Shandong University of Chinese Medicine, Jinan, Shandong 250355, China; 4. The First Hospital of Harbin Medical University, Harbin, Heilongjiang 150007, China
〔Abstract〕 Objective To establish a TCM pattern differentiation model of stroke based on artificial intelligence, and to provide methods and basis for the construction and application of TCM intelligent pattern differentiation model of stroke. Methods Chinese Journal Full-text Database (CJFD) was searched for the five pattern types of TCM medical records regarding stroke, with 60 cases in each type. Then a TCM information database of stroke medical records was established. Support vector machine (SVM), K-nearest neighbor (KNN), random forest (RF), extreme random trees (Extra Trees), XGBoost, and LightGBM after hyper-parameter optimization were used to construct machine learning models, and 70% of the total data was used as the training set and 30% as the test set. Meanwhile, five-fold cross-validation was used to evaluate each model, and Accuracy was the evaluation index to compare the models accuracy. Results There were 55 input variables (information of stroke obtained by four diagnostic methods of TCM), and 5 output variables (TCM patterns of stroke). The fitting effect of the six models was good, and the accuracy values were all above 0.85; among which, the accuracy of SVM model was the highest, up to 0.95. Conclusion The TCM pattern differentiation model of stroke based on the SVM algorithm can diagnose and predict well, therefore, it is methodologically feasible to apply machine learning technology for constructing TCM pattern differentiation model of stroke.
〔Keywords〕 artificial intelligence; machine learning; stroke; TCM pattern differentiation model; TCM modernization; pattern; big data
中風(fēng)是我國常見疾病之一,其出現(xiàn)多伴隨高血壓、糖尿病等多種基礎(chǔ)疾病,并存在著高發(fā)病率、高致殘率、高死亡率、高復(fù)發(fā)率、高經(jīng)濟(jì)負(fù)擔(dān)等特點(diǎn)[1]。中醫(yī)藥在治療中風(fēng)方面具有悠久的歷史,其病機(jī)于《黃帝內(nèi)經(jīng)》中即有相關(guān)記載,而方藥則在東漢張仲景《傷寒雜病論》中即有論述。辨證論治是中醫(yī)的特色和優(yōu)勢(shì)所在,其精髓之“辨”是后續(xù)臨床中醫(yī)選方用藥的基礎(chǔ)所在。但中醫(yī)辨證多受個(gè)人主觀因素影響,不確定性、不穩(wěn)定性較強(qiáng),常出現(xiàn)千人千方、辨證各不相同的情況。人工智能(artificial intelligence, AI)的興起,為中醫(yī)學(xué)的發(fā)展提供了新的思路。AI技術(shù)不但可以在海量的數(shù)據(jù)中找到癥狀、體征與證候的相關(guān)性,并能通過知識(shí)的學(xué)習(xí)與樣本數(shù)據(jù)量的擴(kuò)大,發(fā)現(xiàn)其辨證施方的內(nèi)部規(guī)律,從而深度挖掘其內(nèi)部關(guān)系,促進(jìn)中醫(yī)現(xiàn)代化發(fā)展。此外,機(jī)器學(xué)習(xí)算法的應(yīng)用,使得智能化、客觀化辨證成為可能[2]?;跈C(jī)器學(xué)習(xí)的AI將中醫(yī)四診信息定量化、客觀化,可提高辨證的準(zhǔn)確性和客觀性[3]。本研究基于文獻(xiàn)資料,采用支持向量機(jī)(support vector machine, SVM)、K-近鄰(K-nearest neighbor, KNN)、隨機(jī)森林(random forest, RF)、極端隨機(jī)樹(extremely randomizedtrees, ExtraTrees)、XGBoost、LightGBM分別構(gòu)建中風(fēng)的中醫(yī)AI辨證模型,為中風(fēng)的中醫(yī)證候客觀化研究提供一定依據(jù)。
1 資料與方法
1.1 ?資料來源
檢索2000年1月至2022年4月在中國知網(wǎng)(China national knowledge infrastructure, CNKI)中公開發(fā)表的有關(guān)中風(fēng)的中醫(yī)病案。檢索詞為“中風(fēng)+經(jīng)驗(yàn)”“中風(fēng)+驗(yàn)案”“中風(fēng)+醫(yī)案”“卒中+經(jīng)驗(yàn)”“卒中+驗(yàn)案”“卒中+醫(yī)案”,將檢索詞以主題方式進(jìn)行檢索。
1.2 ?診斷標(biāo)準(zhǔn)
參照《中醫(yī)內(nèi)科學(xué)》(中國中醫(yī)藥出版社,第十版,十三五規(guī)劃教材)關(guān)于中風(fēng)的診斷與辨證標(biāo)準(zhǔn)的相關(guān)內(nèi)容,確定中風(fēng)5個(gè)常見證型,即風(fēng)痰阻絡(luò)證、氣虛血瘀證、陰虛風(fēng)動(dòng)證、痰熱腑實(shí)證、風(fēng)陽上擾證,以及各證型的診斷標(biāo)準(zhǔn)。
1.3 ?納入標(biāo)準(zhǔn)
(1)符合中風(fēng)診斷標(biāo)準(zhǔn)的文獻(xiàn);(2)文獻(xiàn)中病案資料完整,包含臨床表現(xiàn)、辨證診斷、治療原則、治療手段等;(3)文獻(xiàn)發(fā)表年限為2000年1月至2022年4月;(4)對(duì)于重復(fù)發(fā)表的文獻(xiàn),納入較先發(fā)表的文獻(xiàn);(5)治療手段為中醫(yī)治療或中西醫(yī)結(jié)合治療;(6)文獻(xiàn)類型為學(xué)術(shù)期刊。
1.4 ?排除標(biāo)準(zhǔn)
(1)文獻(xiàn)中未標(biāo)明治療效果或治療效果不佳;(2)報(bào)道信息太少而無法使用的文獻(xiàn);(3)動(dòng)物實(shí)驗(yàn)或綜述類型的文獻(xiàn);(4)會(huì)議論文/報(bào)刊報(bào)道/學(xué)位論文等;(5)呃逆、不寧腿綜合征、卒中后抑郁等不是以中風(fēng)作為主證的病例;(6)治療手段與中醫(yī)無關(guān);(7)文獻(xiàn)記載為純理論論述。
1.5 ?分析指標(biāo)
將癥狀、體征等中醫(yī)四診信息條目作為AI學(xué)習(xí)特征,證型作為分類標(biāo)簽。四診信息條目共55項(xiàng),包括神志昏蒙、精神萎靡、肢體不遂、肢體麻木、肢體困重、肢體強(qiáng)直、口干口渴、耳鳴耳聾、視物干澀模糊、腰膝酸軟、心悸、氣短乏力、納差食少、口苦、舌紅、舌瘀點(diǎn)、舌淡嫩、舌裂紋、舌齒痕、舌暗、舌黯淡、舌下絡(luò)脈瘀滯、苔少苔剝、苔白、苔黃、苔膩、苔厚、脈沉、脈細(xì)、脈弱、脈緩、脈弦、脈澀、脈滑、脈大、脈數(shù)、汗出、大便溏、大便不行、大便干、小便黃、肢體抽搐、面赤、氣粗氣喘、喉中痰鳴、身熱、口舌歪斜、急躁易怒、頭沉、頭痛、痰多、嗜睡、眩暈、不寐少寐、煩躁不安。證型共5項(xiàng),包括風(fēng)痰阻絡(luò)證、氣虛血瘀證、陰虛風(fēng)動(dòng)證、痰熱腑實(shí)證、風(fēng)陽上擾證。
1.6 ?數(shù)據(jù)處理及數(shù)據(jù)庫建立
由兩名研究人員完成文獻(xiàn)篩選,并將病例整理錄入Microsoft Excel 2019,建立中風(fēng)病案中醫(yī)信息數(shù)據(jù)庫。對(duì)證候名稱進(jìn)行規(guī)范化處理,剔除出現(xiàn)次數(shù)較少的癥狀及體征(如脈結(jié)代、舌糙等),各證候要素進(jìn)行語言規(guī)范化處理,根據(jù)信息的有或無將病案中出現(xiàn)的癥狀或體征分別賦值1或0。賦值后的數(shù)據(jù)庫作為數(shù)據(jù)源導(dǎo)入Python 3.10.5,利用Pandas、Numpy等函數(shù)集合中的相關(guān)數(shù)據(jù)處理函數(shù)進(jìn)行數(shù)據(jù)處理,包括檢查與去除空值、進(jìn)行定義值賦值、隨機(jī)打亂病案順序,對(duì)證型診斷進(jìn)行獨(dú)立編碼等。為保證模型運(yùn)算不出現(xiàn)偏倚,對(duì)每種證型病案保留60例進(jìn)行模型構(gòu)建與評(píng)估。
1.7 ?指標(biāo)篩選
為增加模型實(shí)用性,提高計(jì)算效率,去除不相關(guān)噪聲。使用Spearman相關(guān)分析與Lasso回歸篩選,篩選去除類似或在判斷證型過程中相對(duì)不重要的指標(biāo),相關(guān)系數(shù)閾值設(shè)定為0.9,經(jīng)分析與篩選后保留得出的特征被應(yīng)用于模型訓(xùn)練與評(píng)定。
1.8 ?模型超參數(shù)設(shè)定
基于python3.10.5,使用scikit-learn庫進(jìn)行機(jī)器學(xué)習(xí)模型構(gòu)建,確保模型具有保證客觀性及可重復(fù)性。本研究對(duì)所有模型調(diào)參后,對(duì)其超參數(shù)固定。針對(duì)機(jī)器學(xué)習(xí)模型(SVM、KNN、RF、ExtraTrees、XGBoost、LightGBM),其訓(xùn)練集與驗(yàn)證集比例設(shè)置為7∶3,選擇Accuracy為主要評(píng)價(jià)指標(biāo),設(shè)定隨機(jī)種子,采用五折交叉進(jìn)行交叉驗(yàn)證,其交叉驗(yàn)證測(cè)試集比例劃分為30%。
1.9 ?模型評(píng)價(jià)
本研究采用五折交叉驗(yàn)證,對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,選取Accuracy作為主要評(píng)價(jià)指標(biāo)。
2 結(jié)果
2.1 ?文獻(xiàn)整理結(jié)果
根據(jù)“1.1”“1.2”“1.3”“1.4”項(xiàng)下的資料獲取規(guī)則,從“中風(fēng)+經(jīng)驗(yàn)”檢索獲得877篇文獻(xiàn),“中風(fēng)+驗(yàn)案”檢索獲得230篇文獻(xiàn),“中風(fēng)+醫(yī)案”檢索獲得388篇文獻(xiàn),“卒中+經(jīng)驗(yàn)”檢索獲得284篇文獻(xiàn),“卒中+驗(yàn)案”檢索獲得49篇文獻(xiàn),“卒中+醫(yī)案”檢索獲得62篇文獻(xiàn)。通過剔除重復(fù)文獻(xiàn),閱讀文獻(xiàn)題目、摘要,并進(jìn)一步通讀全文后篩選符合納入標(biāo)準(zhǔn)的文獻(xiàn),共333篇。最終每類證型病案保留60例用于計(jì)算。
2.2 ?指標(biāo)篩選結(jié)果
經(jīng)過Spearman相關(guān)分析與Lasso回歸篩選后,得到以下指標(biāo):神志昏蒙,精神萎靡,肢體麻木,肢體困重,肢體強(qiáng)直,耳鳴耳聾,心悸,氣短乏力,納差食少,舌紅,舌瘀點(diǎn),舌裂紋,舌齒痕,舌黯淡,舌下絡(luò)脈瘀滯,苔白,苔黃,脈沉,脈細(xì),脈弱,脈緩,脈弦,脈滑,脈大,大便溏,大便不行,小便黃,肢體抽搐,面赤,氣粗氣喘,急躁易怒,痰多,嗜睡,眩暈,不寐少寐,煩躁不安。這些指標(biāo)將用于接下來的模型訓(xùn)練,具體相關(guān)分析與Lasso回歸結(jié)果見圖1—3。
2.3 ?模型超參數(shù)設(shè)定結(jié)果
SVM選取其中的支持向量機(jī)分類模型(support vector classification, SVC),其中probability=True;KNN中algorithm='kd_tree';RF中,n_estimators=10;ExtraTrees中,n_estimators=10;XGBoost中base_score=None,booster=None,colsample_bylevel=None,colsample_bynode=None,colsample_bytree=None,enable_categorical=False,eval_metric='error',gamma=None,importance_type=None,interaction_constraints=None,learning_rate=None,max_delta_step=None,max_depth=None,min_child_weight=None,missing=nan,monotone_constraints=None,n_estimators=10,n_jobs=None,num_parallel_tree=None,predictor=None,random_state=None,reg_alpha=None,reg_lambda=None,scale_pos_
weight=None,subsample=None,tree_method=None,use_label_encoder=False,validate_parameters=None,verbosity=None;LightGBM中,n_estimators=10,objective='binary'。
2.4 ?模型評(píng)價(jià)結(jié)果
在驗(yàn)證集中得到模型驗(yàn)證結(jié)果如圖4所示,其中,SVM準(zhǔn)確率為0.95,KNN準(zhǔn)確率為0.9,RF準(zhǔn)確率為0.91,ExtraTrees準(zhǔn)確率為0.93,XGBoost準(zhǔn)確率為0.91,LightGBMin準(zhǔn)確率為0.85。SVM模型相較其他模型而言,其準(zhǔn)確率明顯更高。
3 討論
目前,AI已廣泛應(yīng)用于醫(yī)療領(lǐng)域的多個(gè)方面,促進(jìn)了醫(yī)學(xué)大數(shù)據(jù)時(shí)代的進(jìn)一步變革[4]。在醫(yī)學(xué)領(lǐng)域中,AI已為影像診斷、患者預(yù)后預(yù)測(cè)與指導(dǎo)臨床用藥提供了強(qiáng)有力的幫助[5-6]。
將傳統(tǒng)的中醫(yī)辨證與AI相結(jié)合構(gòu)建智能辨證模型,盡可能減少人為的主觀干預(yù),可輔助臨床診斷,是實(shí)現(xiàn)中醫(yī)辨證診斷客觀化、規(guī)范化與現(xiàn)代化發(fā)展的要求[7]。如應(yīng)用視覺注意機(jī)制的計(jì)算機(jī)視覺技術(shù)可為中醫(yī)舌診提供標(biāo)準(zhǔn)化和可重復(fù)化;基于中西醫(yī)結(jié)合的機(jī)器學(xué)習(xí)技術(shù)可為卒中后抑郁的發(fā)病提供預(yù)測(cè)等[8-10]。中醫(yī)辨證智能化的發(fā)展需要合理的算法模型,RF、SVM、KNN、ExtraTrees、XGBoost、LightGBM模型是目前主流應(yīng)用的算法模型。
其中,支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上,借助最優(yōu)化方法來解決機(jī)器學(xué)習(xí)問題的新工具。它將機(jī)器學(xué)習(xí)問題轉(zhuǎn)化為求解最優(yōu)化問題,并應(yīng)用最優(yōu)化理論來構(gòu)造算法。其通過尋求最小結(jié)構(gòu)化風(fēng)險(xiǎn)來提高機(jī)器學(xué)習(xí)的能力,多適用于小樣本模型的訓(xùn)練適用[11]。而SVC則是支持向量機(jī)中用于分類模型的優(yōu)化算法,包含C-SVC與V-SVC兩種不同的參數(shù)模型設(shè)置[12]。KNN算法與支持向量機(jī)算法在一定程度上存在相似性,其亦是利用訓(xùn)練數(shù)據(jù)對(duì)于特征向量之間表達(dá)出的不同關(guān)系來進(jìn)行劃分,并將劃分結(jié)果作為分類模型。但因其空間復(fù)雜度高、特征維度大,故可解釋性較差,且存在對(duì)于樣本數(shù)量過少的類別預(yù)測(cè)準(zhǔn)確率低等缺點(diǎn)[13]。RF是建立于決策樹算法基礎(chǔ)之上發(fā)展而來的算法,可用于機(jī)器學(xué)習(xí)的分類計(jì)算,常適用于監(jiān)督學(xué)習(xí),其利用多棵決策樹對(duì)模型進(jìn)行綜合訓(xùn)練[14]。其具有對(duì)離群值不敏感,不易對(duì)數(shù)據(jù)產(chǎn)生過度擬合的優(yōu)點(diǎn),但卻具有其算法傾向于觀測(cè)值較多的類別的缺點(diǎn)[15]。ExtraTrees算法與RF算法十分相似,都是由許多“樹”構(gòu)成,但該算法與RF的主要區(qū)別如下:(1)ExtraTrees是使用所有的訓(xùn)練樣本得到每棵決策樹的,也就是說,每棵決策樹應(yīng)用的是相同的全部訓(xùn)練樣本;(2)RF是在一個(gè)隨機(jī)子集內(nèi)得到的最佳分叉屬性,而ET是完全隨機(jī)地得到分叉值,從而實(shí)現(xiàn)對(duì)決策樹的分叉。XGBoost與LightGBM均屬于boosting算法系列。其中,XGBoost顯式地將樹模型的復(fù)雜度作為正則項(xiàng)加在優(yōu)化目標(biāo),并允許使用列抽樣來防止過擬合,借鑒了Random Forest的思想,同時(shí)對(duì)樹的葉子數(shù)和葉子分?jǐn)?shù)做懲罰,以確保了樹的簡(jiǎn)單性,實(shí)現(xiàn)了算力的節(jié)省[16]。與XGBoost相同,作為梯度提升決策樹(gradient boosting decision tree, GBDT)的一員,LightGBM同樣具有可解釋性高、準(zhǔn)確、可進(jìn)行多類分類運(yùn)算等優(yōu)點(diǎn),但其相較于XGBoost而言,其所具有的基于梯度的單邊采樣與互斥特征捆綁,使其具有更高的運(yùn)算速度與更小的內(nèi)存消耗,從而能夠在相同的時(shí)間內(nèi)對(duì)更大的樣本量與特征進(jìn)行運(yùn)算[17]。
本文中所使用的模型準(zhǔn)確率較高,但因文獻(xiàn)資料與臨床實(shí)際可能仍存在一定程度的偏差,且可能存在過擬合的情況,故后續(xù)仍需結(jié)合臨床實(shí)際病例,對(duì)該模型進(jìn)行調(diào)優(yōu)。
綜上所述,基于AI建立中風(fēng)辨證模型具有一定的可行性。但基于AI的中風(fēng)中醫(yī)辨證模型尚需跨學(xué)科合作,以期在算法與臨床方面得到多方位的兼顧,并在未來樣本量提升與臨床病例的驗(yàn)證后,可對(duì)其進(jìn)行進(jìn)一步的完善與優(yōu)化,有利于提高中醫(yī)辨證診斷的科學(xué)性,促進(jìn)中醫(yī)研究的現(xiàn)代化發(fā)展。
參考文獻(xiàn)
[1] 肖 ?爽,朱以誠.腦卒中的性別差異:流行病學(xué)、危險(xiǎn)因素、治療及預(yù)后[J].中國神經(jīng)免疫學(xué)和神經(jīng)病學(xué)雜志,2020,27(1):57-60.
[2] 李本岳,李偉榮,潘華峰,等.人工智能對(duì)中醫(yī)診斷的影響[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(5):1624-1628.
[3] 舒琛潔,梁 ?浩,劉淑明,等.機(jī)器學(xué)習(xí)算法對(duì)證候要素“氣虛”輔助診斷的性能評(píng)估[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2021,44(10):928-934.
[4] 陳 ?梅,呂曉娟,張 ?麟,等.人工智能助力醫(yī)療的機(jī)遇與挑戰(zhàn)[J].中國數(shù)字醫(yī)學(xué),2018,13(1):16-18.
[5] FARWELL M D, MANKOFF D A. Analysis of routine computed tomographic scans with radiomics and machine learning: One step closer to clinical practice[J]. JAMA Oncology, 2022, 8(3): 393-394.
[6] 王敬瀚.ROC曲線在臨床醫(yī)學(xué)診斷實(shí)驗(yàn)中的應(yīng)用[J].中華高血壓雜志,2008,16(2):175-177.
[7] 黃欣榮,鐘平玉,馬 ?綱.人工智能與中醫(yī)智能化[J].中醫(yī)雜志,2017,58(24):2076-2079,2106.
[8] 許家佗,周昌樂,方肇勤,等.舌像顏色特征的計(jì)算機(jī)分析與識(shí)別研究[J].上海中醫(yī)藥大學(xué)學(xué)報(bào),2004,18(3):43-47.
[9] 劉 ?哲,陳家旭,趙宇明,等.基于視覺注意和支持向量機(jī)的舌體自動(dòng)分割方法的探討[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2013,36(1):18-20.
[10] 羅曉舟,溫小鵬,何家揚(yáng),等.基于機(jī)器學(xué)習(xí)的卒中后抑郁影響因素分析[J].中醫(yī)雜志,2017,58(17):1478-1481.
[11] CRISTIANINTNELLO. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods[M]. Cambridge: Cambridge University Press, 2000: 93-124.
[12] 湯華麗. SVM中兩類常用分類方法的關(guān)系研究[D].重慶:重慶大學(xué),2005.
[13] ZHANG S C, LI X L, ZONG M, et al. Efficient kNN classification with different numbers of nearest neighbors[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(5): 1774-1785.
[14] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[15] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào),2013,50(4):1190-1197.
[16] 連克強(qiáng).基于Boosting的集成樹算法研究與分析[D].北京:中國地質(zhì)大學(xué),2018.
[17] KE G L, MENG Q, FINLEY T, et al. LightGBM: A highly efficient gradient boosting decision tree[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 3149-3157.
〔收稿日期〕2022-09-13
〔基金項(xiàng)目〕國家自然科學(xué)基金項(xiàng)目(U21A20400);燕京劉氏傷寒流派傳承工作室項(xiàng)目(1190062620029)。
〔第一作者〕孫資金,男,碩士研究生,研究方向:人工智能與大數(shù)據(jù)、生物信息學(xué)挖掘、經(jīng)典方劑的應(yīng)用基礎(chǔ)研究、經(jīng)方治療常見病疑難病。
〔通信作者〕*程發(fā)峰,男,博士,研究員,博士研究生導(dǎo)師,E-mail:fafengcheng@gmail.com。