王紅潔,王 科,余水祥,馬云桐
基于Group-Lasso天麻品質形成關鍵因子的分析
王紅潔1,王 科2,余水祥2,馬云桐3*
1. 桂林理工大學理學院,廣西 桂林 541000 2. 成都工業(yè)學院大數據與人工智能學院,四川 成都 611730 3. 成都中醫(yī)藥大學藥學院,四川 成都 610075
為提高人工種植天麻的質量,基于Group-Lasso變量篩選構建隨機森林回歸模型分析影響天麻品質形成的關鍵因子?;贕roup-Lasso法,對2007—2022年天麻質量研究文獻中天麻素含量及產地環(huán)境變量等數據進行變量篩選,并在篩選出的變量基礎上建立隨機森林回歸模型及計算變量重要性得分。最終選擇了產區(qū)、生長狀況、種質類型、產地氣候類型、產地土壤類型、最熱月均溫、產地年降水量、產地年日照時數和無霜期9個變量,基于被選變量與天麻素含量建立隨機森林回歸模型,模型的均方誤差(mean square error,MSE)和平均絕對百分誤差(mean absolute percentage error,MAPE)分別為0.103 2和14.08%,特征重要性排序顯示天麻素含量的最大影響因素是產地年降水量,其次是產地土壤類型、無霜期和產地年日照時數。隨機森林回歸模型有相對較低的誤差和較高的預估精度,更適合用于對天麻種植環(huán)境的分析和天麻素含量的估算,為人工種植天麻提供參考。
天麻;天麻素;Group-Lasso;變量篩選;隨機森林回歸;變量重要性評分
天麻Bl. 屬于蘭科非自養(yǎng)型的植物,沒有根和綠葉,種子結構簡單,沒有胚乳及其他營養(yǎng)貯備,僅由胚及種皮構成,其在種子萌發(fā)后主要通過分解侵入其體內的蜜環(huán)菌菌絲獲得營養(yǎng)以進行生長發(fā)育[1]。天麻主要生產于我國的部分省區(qū),國外的研究報道甚少。研究發(fā)現天麻具有健腦、抗腫瘤及增強免疫力等作用[2],其入藥已有悠久的歷史,在現代臨床上可以有效對抗頭痛、眩暈、肢體麻木、冠心病和高血壓等病癥[3-4]。天麻具有重要價值,而早期只有野生天麻,但經過長期研究后,成功實現了天麻的人工種植。隨著技術的深入,天麻的栽培方式也逐漸進步,其產量和質量得到提高。由于天麻的藥用價值,市場對天麻的需求量與日倶增、質量要求更高[5],但影響天麻品質的原因不止是栽培和加工方式,其生長的環(huán)境也有重要影響,天麻的生長過程主要有避光、向氣、向濕3個的特性,適合在偏酸性的生態(tài)環(huán)境中生長[6]。天麻中活性成分最高的成分是天麻素,天麻素含量的高低是衡量天麻質量優(yōu)劣的首要指標,被《中國藥典》2020年版定為天麻的質量標準控制成分[7-8]。探討天麻素含量與環(huán)境因子、土壤類型、產區(qū)和生長狀況之間的關系,能夠減少因人為培育不當而導致天麻數量和質量下降的問題,對促進該產業(yè)的健康發(fā)展具有現實意義。
機器學習在特征選擇和對模型的擬合上有著比淺層模型突出的優(yōu)點?;貧w是用于分析變量間關系的一種技術[9]。多元線性回歸是自變量有2個及以上的回歸分析,若自變量間存在多重共線性,那么普通線性回歸將失效[10]。共線性是指2個或多個自變量之間出現了相關關系,其會對回歸分析造成很大的影響[11]。Lasso算法在變量選擇、解決多重共線性問題上具有重要作用,它通過在回歸優(yōu)化函數中增加1個偏置項,用絕對值偏差作為正則化項,以減少共線性的影響,從而減少模型誤差[12]。但實際中常常出現分類型變量的情況,Lasso方法只能選擇單個啞變量,所以Lasso方法對于存在分類變量的情形通常不能得到滿意的結果。而對于含有多個分類變量的啞變量,Group-Lasso方法[13]很好地解決了這個問題。另外,隨機森林是多棵決策樹集成在一起的算法,多棵決策樹共同預測能夠提高模型的準確度[14]。隨機森林回歸可以有效避免模型過擬合,提高模型精確度。
本研究從改善天麻的人工種植環(huán)境入手,通過Group-Lasso算法篩選變量,并建立天麻素含量與被選變量間的隨機森林回歸模型,開展天麻種植環(huán)境的系統(tǒng)研究,實現對天麻品質形成關鍵因子的分析,為天麻藥材種植環(huán)境的選擇提供參考,同時為人工種植天麻奠定理論基礎。
Lasso回歸模型屬于線性回歸模型的一種,其在模型擬合過程中增加了回歸系數的絕對值之和,以殘差平方和及回歸系數的絕對值之和達到最小為目標來求解,這樣可以讓一些系數被壓縮為0,達到子集收縮的效果。Lasso估計定義[15]如下。
=(1,2,…,y)為因變量,=((1),(2),…,(d))為自變量,回歸系數為=(1,2,…,β),為調節(jié)參數
在線性回歸模型中,當自變量除連續(xù)變量還含有分類變量時,Lasso法通常不再適用。Lasso方法只能選擇單個的啞變量,不能將分類變量整個選擇,Group-Lasso能在Lasso法的基礎上解決這個問題。其估計定義[16]如下。
I指第組變量的下標集,β指第組變量的系數向量
Group-Lasso方法的懲罰項能夠看成是L1懲罰和L2懲罰的中間狀態(tài)[17],Group-Lasso方法是在組的水平上選擇變量,也就是成組地選擇變量。例如,有個水平的分類變量,在建模過程中,該分類變量被轉化為-1個0-1變量,并被看作是1個組。Group-Lasso可以對-1個啞變量同時進行選擇,但Lasso法只能篩選出這-1個啞變量中的一部分,沒有實際意義。
隨機森林是在bagging[18]和決策樹二者之上進行了提升。單棵決策樹在回歸預測時會有一定的精度,通過增加樹的數量來提高預測精度,整個森林中的每棵樹均會參與決策,這就是隨機森林的基本思想。隨機森林算法提供了檢驗特征交互的方法,且具有較強的泛化能力[19]。最優(yōu)的是,由于各個決策樹是獨立的,所以可以并行處理對隨機森林的訓練,進一步提高成模型的效率,有效抑制過擬合發(fā)生。
隨機森林回歸算法步驟[20]:(1)用bootstrap方法從個原始樣本中有放回地抽取個樣本集,用來構建棵回歸樹,未被抽到的樣本組成了個袋外數據集。(2)在每個節(jié)點處,從所有個解釋變量中隨機抽取個分割變量(<),根據分枝優(yōu)度準則選取最優(yōu)分枝。(3)每棵回歸樹開始自頂向下的遞歸分枝,直到滿足分割的終止條件。
根據數據已在期刊中公開發(fā)表,發(fā)表時間為2007—2022年,以天麻質量為研究主題的原則在中國知網數據庫中采集研究數據,環(huán)境因子來源于人地系統(tǒng)主題數據庫(http://www.data.ac.cn/index. asp)、中國科學院資源環(huán)境科學數據中心(http:// www.resdc.cn)和Wheat A農業(yè)氣象大數據(http:// www.wheata.cn/)[21]。最終數據項包括天麻素、省區(qū)、產地、生長狀況、種質類型、產地氣候類型、產地土壤類型及環(huán)境因子(年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時長、無霜期)。共收集810條數據,存在3條不完整數據,做刪除處理,有效數據807條。
2.2.1 分類變量分析 天麻的產地共包含四川、云南、貴州、陜西、重慶、湖北、安徽、湖南、吉林、西藏、河南、甘肅、遼寧、黑龍江、河北和廣西16個省份,將省份按照7大地區(qū)劃分,即四川、云南、貴州、重慶和西藏為西南地區(qū),陜西和甘肅為西北地區(qū),湖北、湖南和河南為華中地區(qū),安徽為華東地區(qū),吉林、遼寧和黑龍江為東北地區(qū),河北為華北地區(qū),廣西為華南地區(qū)。天麻的產地氣候類型包括亞熱帶濕潤季風氣候、大陸性季風氣候、高原山地氣候、低緯暖溫帶高原山地氣候、亞熱帶向暖溫帶過渡區(qū)等數十類氣候類型,為簡化模型復雜度,將其分為亞熱帶氣候、溫帶氣候和高原氣候3大類。
分析生長狀況、產區(qū)、種質類型、產地氣候類型和產地土壤類型5個分類變量與天麻素含量的關系,如圖1所示。本研究數據中天麻以野生為主,紅天麻的數量最多,約占74%,目前紅天麻和烏天麻的產量最高,但紅天麻仍是烏天麻產量的4~5倍,紅天麻產自黃河流域和長江流域諸省,其種子發(fā)芽率和產量均高,適應性和耐旱性強[22]。天麻主要分布在西南地區(qū),約占53%,我國是野生天麻的主要分布國家之一,主要分布在西南地區(qū)的云南、貴州和四川[23],云南昭通小草壩和四川平武產的野生天麻最為出名。同時,黃壤和黃棕壤生長的天麻最多,共占61%,黃壤和黃棕壤質地輕礫,土層厚,土壤成弱酸性,有機質含量高及天麻所需的微量元素含量高,是最有利于天麻生長的土壤類型[24]。亞熱帶氣候具有四季分明、季節(jié)分配均勻、降水量充足、熱量資源豐富等特點,更適合天麻的生長。
2.2.2 數值變量分析 圖2展示了天麻素含量與年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時長和無霜期的分布情況。天麻素含量和無霜期近似右偏分布;產地年均溫、最冷月均溫、產地年降水量近似雙峰分布;產地年日照時數和最熱月均溫的分布直方圖近似雙峰型與孤島型的結合,主要由于產地不同導致。此外,圖2還展示了天麻素含量與年均溫等數值變量的關系,天麻素含量集中在產地年均溫12.5~18℃、最冷月均溫在0~15℃、最熱月均溫在11~27℃、產地年降水量在750~1500 mm、產地年日照時數在1000~2000 h、無霜期在210~340 d。其中,天麻素含量與無霜期的線性變化趨勢最明顯,隨著無霜期增加天麻素含量呈上升趨勢。天麻生長的區(qū)域年降水量一般在900~1200 mm,李梁等[25]研究指出天麻的塊莖一般在3~4月能夠萌動發(fā)芽,此時溫度為14℃左右,5~9月適合天麻生長,此時地溫在20~25℃,天麻生長時溫度不能超過30℃。云南昭通所產天麻年平均氣溫為11~13.0℃,最冷月平均氣溫2.8~4.0℃,最熱月平均氣溫(18.0±0.4)℃,年均降雨量在900 mm左右[26]。四川省野生天麻產區(qū)年溫度變化較平緩,較少出現極冷、極熱現象,年降水量比較充足,為667~2033 mm,年均日照時數為947~2079 h,無霜期177~320 d。
圖1 天麻素含量在分類變量中的分布
圖2 生態(tài)因子與天麻素含量關系
2.2.3 相關性分析 分析年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時長和無霜期間的相關性,計算相關系數。如表1所示,無霜期與最冷月均溫、最熱月均溫之間,年降水量與最熱月均溫之間,有相對較高的正相關關系;產地年日照時數與產地年降水量、無霜期之間,有相對較高的負相關關系。說明變量間存在多重共線性問題,故采用Group-Lasso方法對變量進行篩選。
2.3.1 Group-Lasso變量篩選 以天麻素含量作為被解釋變量,產區(qū)、生長狀況、種質類型、產地氣候類型、產地土壤類型、產地年均溫、最冷月均溫、最熱月均溫、產地年降水量、產地年日照時數和無霜期作為解釋變量,將分類自變量進行One-Hot編碼,自變量由11維增至37維。
赤池信息量準則(Akaike infoemation criterion,AIC)[27]是用來衡量統(tǒng)計模型擬合優(yōu)良性的標準,建立在熵的概念基礎上,可以權衡所估計模型的復雜度和模型擬合數據的優(yōu)良性。利用R軟件的grpreg函數實現Group-Lasso變量篩選,以AIC作為篩選準則,變量選擇過程如圖3所示。結果顯示,最優(yōu)AIC值下的產地年均溫和最冷月均溫2個變量的系數為0,即保留產區(qū)等9個自變量。
2.3.2 交叉驗證 利用交叉驗證對Group-Lasso篩選結果進行驗證,結果如圖4所示。得到最優(yōu)的lambda參數值為0.004 500 724,交叉驗證結果與上述篩選結果一致。
表1 相關系數
圖3 變量篩選過程
2.4.1 模型建立 本研究共收集到天麻種植環(huán)境數據807條。以隨機的方式將數據集按照70%的訓練集和30%的測試集劃分為2組,564條天麻數據作為訓練集進行參數尋優(yōu)和建立模型,243條天麻數據作為測試集對模型進行檢驗。模型自變量為Group- Lasso篩選出來的產區(qū)、生長狀況、種質類型、產地氣候類型、產地土壤類型、最熱月均溫、產地年降水量、產地年日照時數和無霜期9個變量。然后進行回歸樹數量的選擇,誤差與回歸樹的關系見圖5。由圖5可知,回歸樹增大到一定量后,誤差就無太大變化,隨機森林回歸樹的數量達2000以后趨于穩(wěn)定。通過多次試驗,在綜合考慮均方誤差大小和運算速率的情況下使用2000作為回歸樹數量。
圖4 交叉驗證結果
圖5 誤差與回歸樹關系
2.4.2 模型評價 為了驗證隨機森林算法結果的準確性,本研究以均方誤差(mean square error,MSE)和平均絕對百分誤差(mean absolute percentage error,MAPE)[28]作為模型評價指標。MSE是用來衡量實際觀測值與模型預估值之間差異的指標,MAPE是用來衡量預測模型有無偏性,其可以準確反映實際預測誤差的大小。二者計算公式如下。
MSE越小,則模型效果越好,其預測的準確率就越高。MAPE值小于10%,表示模型預測精度較高;大于50%,則預測錯誤。
2.4.3 模型檢驗 本研究通過計算總體相對誤差()、絕對平均相對誤差()2個統(tǒng)計量來檢驗模型。
2.4.4 特征重要性排序 隨機森林可以在訓練時輸出變量的重要性,即哪個特征更有用。實現的方法有兩種:Gini法和置換法。置換法是改變特征觀察對結果的影響,如果特征重要,那么結果應對其敏感。特征重要性在預測建模中起著重要作用,可以幫助了解數據集和模型,進行特征選擇,甚至改進預測模型,從而提高預測模型的效率和有效性?;貧w問題的特征重要性公式[29]如下。
本研究將計算出各特征的相對得分,進而分析產區(qū)、生長狀況、種質類型、產地氣候類型、產地土壤類型、產地年降水量、產地年日照時數和無霜期對天麻素含量的影響程度,得出影響天麻有效成分的最關鍵因子。
基于Group-Lasso篩選變量后,選取了多元線性回歸和隨機森林回歸2種模型進行對比實驗。通過計算模型MSE和MAPE來對模型的擬合效果進行評價,2種模型的評價結果見表2。
表2 回歸模型的預測評價
從2種誤差結果可以看出,隨機森林回歸誤差明顯小于多元線性回歸誤差,即隨機森林的擬合效果較好,MSE為0.103 2,MAPE約在14%;多元線性回歸擬合效果較差,MSE為0.131 7,MAPE約在50%。多元線性回歸模型簡單易操作,但其非線性學習能力不好。隨機森林是多棵決策樹并行的集成模型,一般預測效果更好,且能夠處理非線性問題。
2.6.1 比較偏差統(tǒng)計量 2種模型的、結果見表3。檢驗結果顯示,隨機森林回歸的為0.02,為37.93%,二者均小于多元線性回歸。
2.6.2 評價模型預測能力 可視化多元回歸和隨機森林回歸模型的實際觀測值和預測估計值之間的差異,結果如圖6所示。由圖6可知,隨機森林回歸模型的預估精度優(yōu)于多元回歸模型。
量化隨機森林中各個變量對模型的貢獻,各變量的重要性大小見表4。結果顯示,對天麻素含量影響最大的因素是產地年降水量,影響較大的因素有產地土壤類型,其次是無霜期和產地年日照時數,而生長狀況對天麻素含量的影響相對較小。
表3 回歸模型的檢驗結果
表4 特征重要性
中藥的品質與環(huán)境具有密切的相關性,如虎杖在生長發(fā)育的過程中與生長環(huán)境密切相關[30]。天麻在現代臨床上具有重要的醫(yī)用價值,需求量日益增加,天麻的人工種植技術也越來越受到人們的關注。早期關于天麻質量與種植環(huán)境之間的研究主要是通過生態(tài)背景調查的方法,如對天麻質量較好的產地云南昭通、四川平武等的生態(tài)環(huán)境進行調查,而本研究是利用機器學習方法探討該問題。從天麻的種植環(huán)境出發(fā),為了提高人工栽培天麻的質量,對天麻素含量與產區(qū)、生長狀況、種質類型、氣候類型、土壤類型、年均溫、最冷月均溫、最熱月均溫、年降水量、年日照時數和無霜期之間的關系進行探究。由于存在分類變量,且變量間具有多重共線性問題,故利用Group-Lasso算法篩選變量,為了找出影響天麻品質形成的關鍵因子,構建隨機森林回歸模型計算特征重要性。
利用Group-Lasso算法對產區(qū)、生長狀況、種質類型、產地氣候類型、產地土壤類型、產地年均溫、最冷月均溫、最熱月均溫、產地年降水量、產地年日照時數和無霜期11個變量進行篩選,最后保留了產區(qū)、生長狀況、種質類型、產地氣候類型、產地土壤類型、最熱月均溫、產地年降水量、產地年日照時數和無霜期9個變量,能夠降低模型的復雜程度,提高效率。
以天麻素含量作為被解釋變量,產區(qū)、生長狀況、種質類型、產地氣候類型、產地土壤類型、最熱月均溫、產地年降水量、產地年日照時數和無霜期作為解釋變量,分別建立多元線性回歸和隨機森林回歸2種模型,通過結果的對比可知,隨機森林回歸模型有相對較低的誤差和較高的預估精度,更適合用于對天麻種植環(huán)境的分析和天麻素含量的估算,同時隨機森林回歸模型具有易于實現、計算開銷小,可以有效防止訓練模型過擬合的優(yōu)勢。
根據特征重要性計算結果表明,對天麻素含量影響最大的環(huán)境因子是產地年降水量,天麻的生長需要產區(qū)的年降水量在1000 mm左右,不同時期水分需求也有所不同。4月上旬塊莖開始萌發(fā),此時雨水滿足土壤處于潮濕狀態(tài)即可;7~9月是天麻塊莖生長的旺盛階段,此時土壤需要充足的雨水供給水分。其次是產地土壤類型、無霜期和產地年日照時數,3者特征重要性值接近。天麻和蜜環(huán)菌適合在比較疏松的沙質土壤中生長,若土壤黏重,則易積水,影響透氣性,容易導致塊莖死亡;若沙性過大,水分易流失,土壤缺水不利于天麻和蜜環(huán)菌的生長。無霜期主要與霜凍的時間有關,霜凍對光照產生影響。天麻具有避光性,塊莖的生長在地下進行,但天麻的花莖具有趨光性,地上莖出土后,若遇到強烈的直射陽光會發(fā)生日灼病,進而導致植株死亡。此外,光照也間接影響地溫和土壤水分,對蜜環(huán)菌和天麻的生長有一定影響。
環(huán)境因子是影響天麻藥材產量和質量的重要因素。在人工種植天麻時,應注意環(huán)境因子的作用,充分考慮影響天麻品質形成的關鍵因子的特性,注意降水量、日照時數等環(huán)境因子的變化,同時選擇具有合適土壤類型的區(qū)域作為天麻發(fā)展區(qū)進行人工種植。
利益沖突 所有作者均聲明不存在利益沖突
[1] 楊世林, 蘭進, 徐錦堂. 天麻的研究進展 [J]. 中草藥, 2000, 31(1): 66-69.
[2] 許廷生, 陸龍存, 黃子冬. 天麻有效成分的藥理作用分析與臨床應用研究進展 [J]. 中醫(yī)臨床研究, 2020, 12(21): 133-135.
[3] 鞠桂春. 天麻及其制劑的藥理作用和臨床應用研究進展 [J]. 中國藥業(yè), 2008, 17(1): 64-66.
[4] 于涵, 張俊, 陳碧清,等. 天麻化學成分分類及其藥理作用研究進展[J]. 中草藥, 2022, 53(17): 5553-5564.
[5] 張偉, 宋啟示. 貴州大方林下栽培天麻的化學成分研究 [J]. 中草藥, 2010, 41(11): 1782-1785.
[6] 王秋穎, 郭順星. 天麻生長特性及其在栽培中的應用 [J]. 中國中藥雜志, 2001, 26(5): 353.
[7] 胡國云, 姜月華, 趙海霞. 天麻素的含量測定、結構表征和藥理活性研究進展 [J]. 當代化工, 2022, 51(1): 169-173.
[8] 徐頂巧. 漢中地區(qū)天麻品質分析 [D]. 漢中: 陜西理工學院, 2014.
[9] 陳希孺王松桂. 近代回歸分析: 原理方法及應用 [M]. 合肥: 安徽教育出版社, 1987.
[10] 何秀麗. 多元線性模型與嶺回歸分析 [D]. 武漢: 華中科技大學, 2005.
[11] 趙東波. 線性回歸模型中多重共線性問題的研究 [D]. 錦州: 渤海大學, 2017.
[12] 方申奧. Lasso類變量選擇方法綜述 [D]. 武漢: 武漢大學, 2018.
[13] Friedman J, Hastie T, Tibshirani R. A note on the group lasso and a sparse group lasso [EB/OL]. arXiv [2010-01-05]. https://arxiv.org/abs/1001.0736.
[14] Breiman L. Random forests [J]., 2001, 45(1): 5-32.
[15] Tibshirani R. Regression shrinkage and selection via the lasso [J]., 1996, 58(1): 267-288.
[16] Meier L, Van De Geer S, Bühlmann P. The group lasso for logistic regression [J]., 2008, 70(1): 53-71.
[17] Zou H, Hastie T, Tibshirani R. On the “degrees of freedom” of the lasso [J]., 2007, doi: 10.1214/ 009053607000000127.
[18] Breiman L. Bagging predictors [J]., 1996, 24(2): 123-140.
[19] 董師師, 黃哲學. 隨機森林理論淺析 [J]. 集成技術, 2013, 2(1): 1-7.
[20] 曹正鳳. 隨機森林算法優(yōu)化研究 [D]. 北京: 首都經濟貿易大學, 2014.
[21] 周碧乾. 天麻產地加工與品質特征的研究 [D]. 成都: 成都中醫(yī)藥大學, 2018.
[22] 李慧, 錢潤, 田娜, 等. 紅天麻、烏天麻及其雜交天麻的PCR鑒別 [J]. 中國中藥雜志, 2020, 45(15): 3666-3671.
[23] 徐博, 吳翠, 李卓俊, 等. 天麻的資源分布及采后現狀調研 [J]. 中國中醫(yī)藥信息雜志, 2021, 28(7): 11-16.
[24] 李虎杰, 崔春龍, 李洪益. 四川平武野生天麻產區(qū)的土壤條件 [J]. 中國土壤與肥料, 2006(3): 59-61.
[25] 李梁, 張藝, 成群芝. 中藥天麻產區(qū)生態(tài)環(huán)境分析與評價 [J]. 中藥研究與信息, 2004, 6(6): 14-16.
[26] 石子為, 馬聰吉, 康傳志, 等. 基于空間分析的昭通天麻生態(tài)適宜性區(qū)劃研究 [J]. 中國中藥雜志, 2016, 41(17): 3155-3163.
[27] Akaike H. A new look at the statistical model identification [J]., 1974, 19(6): 716-723.
[28] 張倩. 基于隨機森林回歸模型的住房租金預測模型的研究 [D]. 長春: 東北師范大學, 2019.
[29] 雷明. 機器學習:原理、算法與應用 [J]. 自動化博覽, 2020(3): 7.
[30] 馬云桐. 虎杖的資源、品質與藥效的相關性研究 [D]. 成都: 成都中醫(yī)藥大學, 2006.
Analysis of key factors inquality formation based on Group-Lasso
WANG Hong-jie1, WANG Ke2, YU Shui-xiang2, MA Yun-tong3
1. College of Science, Guilin University of Technology, Guilin 541000, China 2.School of Big Data and Artificial Intelligence, Chengdu Technological University, Chengdu 611730, China 3. College of Pharmacy, Chengdu University of Traditional Chinese Medicine, Chengdu 610075, China
In order to improve the quality of artificially planted Tianma (), a random forest regression model based on Group-Lasso variable screening was constructed to analyze the key factors affecting the quality of.Based on the Group-Lasso method, the data of gastrodin content and environmental variables of origin in the literature ofquality research from 2007 to 2022 were screened, and the random forest regression model was then established on the selected variables, and importance score of the variables was calculated.Finally, nine variables including production area, growth status, species, production area climate type, production area soil type, average temperature in the hottest month, annual precipitation in the production area, annual sunshine hours in the production area, and frost-free period were selected. A random forest regression model was established based on the selected variables and gastrodin content. The mean square error (MSE) and mean absolute percentage error (MAPE) were 0.103 2 and 14.08%, respectively. The ranking of feature importance showed that the biggest influencing factor of gastrodin content was the annual precipitation in the production area, followed by the production area soil type, frost-free period, and annual sunshine hours in the production area.The random forest regression model had relatively low error and high prediction accuracy, and was more suitable for the analysis ofplanting environment and the estimation of gastrodin content.
Bl.; gastrodin; Group-Lasso; variable screening; random forest regression; variable importance measures
R282.2
A
0253 - 2670(2023)13 - 4278 - 08
10.7501/j.issn.0253-2670.2023.13.020
2023-02-23
四川省科技廳重點研發(fā)項目:川產地道藥材大品種精深加工關鍵技術及產品開發(fā)的研究與示范(2020YFN0152);川產道地藥材品質評價關鍵技術裝備研究(2021YFS0045)
王紅潔,女,在讀碩士,研究方向為機器學習和分布式優(yōu)化。E-mail: 1103623812@qq.com
通信作者:馬云桐,男,教授,從事中藥資源領域相關研究。E-mail: mayuntong06@163.com
[責任編輯 潘明佳]