劉恰恰
摘 要:大氣污染和氣象要素變化已成為自然環(huán)境中影響人體健康的兩個(gè)重要指標(biāo),在一定程度上也成為影響醫(yī)藥銷售的重要因素。本文主要以大氣污染和氣象要素作為醫(yī)藥銷售的影響因素,對其進(jìn)行特征化處理,基于隨機(jī)森林回歸對特征與銷量構(gòu)建醫(yī)藥銷售預(yù)測模型,并與典型模型進(jìn)行對比。實(shí)驗(yàn)表明,本文模型具有較好的預(yù)測效果。
關(guān)鍵詞:隨機(jī)森林回歸;醫(yī)藥銷售預(yù)測;大氣污染;氣象要素
中圖分類號:C931 文獻(xiàn)標(biāo)識碼:A
環(huán)境變化對人體健康的影響是不可忽視的,尤其對呼吸道疾病。[1]相關(guān)文獻(xiàn)研究[2,3]表明,大氣污染和氣象要素均可使人類疾病的發(fā)病危險(xiǎn)性增加?;卺t(yī)藥銷售領(lǐng)域現(xiàn)狀,本文以呼吸道疾病的藥物為例,應(yīng)用隨機(jī)森林回歸對特征與銷量構(gòu)建醫(yī)藥銷售預(yù)測模型。
1 數(shù)據(jù)預(yù)處理
本實(shí)驗(yàn)數(shù)據(jù)包括3部分,即醫(yī)藥銷售數(shù)據(jù)、大氣污染和氣象要素,分別來源于某醫(yī)藥企業(yè)2015.1—2018.6期間日銷售數(shù)據(jù)、全國天氣網(wǎng)和市環(huán)保局監(jiān)測站。
從醫(yī)藥數(shù)據(jù)特點(diǎn)來看,需檢查原始記錄中是否存在臟數(shù)據(jù)及不能直接進(jìn)行相關(guān)分析的數(shù)據(jù),如對缺失值進(jìn)行插補(bǔ);對異常值進(jìn)行判斷;對不同量綱的數(shù)據(jù)進(jìn)行變換等。
從環(huán)境數(shù)據(jù)分析,本文選取6個(gè)大氣污染指標(biāo),即SO2、NO2、CO、O3、PM10、PM2.5日濃度值,統(tǒng)計(jì)出各因子日最高、最低濃度;計(jì)算出各因子的日平均濃度;選取5個(gè)原始?xì)庀笾笜?biāo),即日最高溫(T_max)、日最低溫(T_min)、日平均溫(T_ave)、日風(fēng)速,基于原始數(shù)據(jù)計(jì)算出日溫差、最高溫、最低溫、平均溫、周變異系、平均風(fēng)速,分別用T_var、v_max、v_min、v_ave、v_T、W_pow表示。
2 特征選擇
針對不同人對環(huán)境變化的適應(yīng)性不同,考慮到發(fā)病前的潛伏期,對銷量與環(huán)境指標(biāo)進(jìn)行時(shí)滯期相關(guān)及顯著性分析,判斷出醫(yī)藥銷售的主要影響因素,進(jìn)而提取有效的特征指標(biāo)。
對銷量與環(huán)境因素進(jìn)行當(dāng)日及前幾日Spearman分析,顯示兩者存在緊密相關(guān)性,同時(shí)存在一定延滯效應(yīng)。其中,藥品銷量與NO2、O3、PM2.5、PM10呈顯著正相關(guān),與SO2呈顯著負(fù)相關(guān),與CO未達(dá)到顯著;與 T_ave、T_max、T_min、T_var呈顯著負(fù)相關(guān),延滯期可長達(dá)一周;與v_ave、v_max、v_min、v_T呈顯著正相關(guān),與v_T成顯著正相關(guān),與W_dir相關(guān)性較小且顯著性不太明顯。因此,通過對銷量與特征指標(biāo)綜合分析,剔除不具備統(tǒng)計(jì)學(xué)意義的特征,最終把存在顯著性的環(huán)境指標(biāo)作為模型輸入特征。
3 模型構(gòu)建
隨機(jī)森林模型構(gòu)建主要是對兩類參數(shù)的調(diào)參過程,主要包括:過程影響參數(shù)和子模型影響參數(shù),本文以O(shè)OB誤差最低為原則選取最優(yōu)參數(shù)。[4]
首先,對過程影響參數(shù)進(jìn)行調(diào)整,當(dāng)n_estimators取50時(shí),誤差呈明顯下降趨勢;取100時(shí),誤差仍有下降趨勢;直至取150時(shí),誤差逐漸接近收斂,考慮到訓(xùn)練的效率,最終選取200;然后固定n_estimators=200,再對子模型影響參數(shù)進(jìn)行分析。對max_feature設(shè)定1.50的范圍進(jìn)行調(diào)整,當(dāng)max_feature取1—10時(shí),隨特征數(shù)增加誤差急劇下降;當(dāng)取值在11.50之間,誤差總體趨于平穩(wěn),且取13時(shí)誤差最小,因此最終選擇max_feature=13;對min_samples_split設(shè)定2.10的范圍進(jìn)行調(diào)整,隨最小樣本數(shù)增加,模型誤差率呈上升趨勢,調(diào)參后最優(yōu)解仍保持為2;對min_samples_leaf設(shè)定范圍1.10進(jìn)行調(diào)整,隨葉子節(jié)點(diǎn)最小樣本數(shù)增加,誤差也呈上升趨勢,調(diào)參后最優(yōu)解為3。
4 實(shí)驗(yàn)結(jié)果
為了衡量模型的預(yù)測效果,實(shí)驗(yàn)分為兩個(gè)模塊,即針對不同特征、不同模型,分別對預(yù)測結(jié)果的影響進(jìn)行實(shí)驗(yàn)與分析。
4.1 特征比較
在醫(yī)藥銷售預(yù)測過程中,大氣環(huán)境指標(biāo)可變性較大,在實(shí)際應(yīng)用中不一定能同時(shí)收集到,需要判斷每個(gè)特征對模型的影響程度。首先,基于特征選擇的結(jié)果,進(jìn)行多次實(shí)驗(yàn),計(jì)算出平均準(zhǔn)確率(ACCU);其次,每次實(shí)驗(yàn)依次去掉一個(gè)特征,得到12組不同準(zhǔn)確率,且發(fā)現(xiàn)準(zhǔn)確率出現(xiàn)不同程度的降低,每個(gè)特征對模型影響程度排序?yàn)椋簐ar_tem > T_min > T_ave> T_max > NO2 = PM2.5 > T_var = PM10 > W_pow >O3 > SO2。所以,當(dāng)因素不全或不確定時(shí),W_pow、O3、SO2的影響力相對較小,可以取大概范圍進(jìn)行初步預(yù)測。
4.2 算法比較
本文模型與ANN、SVR及ARIMA模型進(jìn)行比較,發(fā)現(xiàn)不同模型預(yù)測誤差相差明顯,其中隨機(jī)森林?jǐn)M合效果最好,傳統(tǒng)的ARIMA模型擬合效果最差,ANN模型與SVR模型預(yù)測精度大致相同。各模型預(yù)測平均絕對百分誤差(MAPE)分別為:00508、0.0873、0.0981和0.187,即本文隨機(jī)森林模型預(yù)測效果最好。
5 結(jié)語
本文實(shí)驗(yàn)即證明對環(huán)境因子進(jìn)行特征提取的有效性,又證明隨機(jī)森林回歸模型在醫(yī)藥銷售預(yù)測領(lǐng)域應(yīng)用的優(yōu)越性,模型預(yù)測精度能為醫(yī)藥企業(yè)的銷售決策提供一定的參考價(jià)值,從而有效解決庫存壓力大、過期藥品多等問題。但由于實(shí)際醫(yī)藥銷售影響因素的復(fù)雜性,研究仍存在不足,有待進(jìn)一步改進(jìn),比如區(qū)域、經(jīng)濟(jì)條件、政策等因素沒有考慮進(jìn)去,在今后的研究中需要進(jìn)一步拓展,期待取得更好的預(yù)測結(jié)果。
參考文獻(xiàn):
[1]Agm B,Pmsb F.Prevalence of influenza vaccination in adults and elderly with chronic respiratory diseases[J].Cadernos De Saude Publica,2018,34(5):e00194717.
[2]盛魁.RBF神經(jīng)網(wǎng)絡(luò)在藥品銷售預(yù)測中的應(yīng)用[J].長江大學(xué)學(xué)報(bào),2013,10(19):65.67.
[3]劉德玲.大區(qū)域內(nèi)藥品銷售預(yù)測方法研究與仿真[J].計(jì)算機(jī)仿真,2012,29(7):227.230.
[4]Breiman L.Random Forests[J].Machine Learning,2001,45(1):199.228.