魏萊 王新民 長(zhǎng)春工業(yè)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院
近些年,空氣的污染對(duì)社會(huì)的危害愈發(fā)嚴(yán)重,它往往悄無(wú)聲息的存在于人們身邊并給人們的身體帶來(lái)傷害。多種有危害的氣體都能長(zhǎng)時(shí)間的存在于人們生活的世界中,其中最主要的就是一氧化碳。CO的濃度受很多生活方面的影響,它會(huì)因?yàn)槿祟惢蛘咦匀唤绲呐欧旁黾幼约旱臐舛?,想解決它的危害問(wèn)題就要明確的預(yù)測(cè)它不同時(shí)間階段的濃度規(guī)律,但是它的不規(guī)則性和不穩(wěn)定性讓了人們難于預(yù)測(cè)其濃度。想要精準(zhǔn)的預(yù)測(cè)其濃度是有難度的。本文想要尋求一種滿足人們要求的預(yù)測(cè)方法對(duì)CO的濃度進(jìn)行精準(zhǔn)的預(yù)測(cè)。
人們最近幾年對(duì)CO的治理和對(duì)空氣質(zhì)量的預(yù)測(cè)也進(jìn)行了很多研究。葉珊珊等人在2020年對(duì)一氧化碳中毒的流行病例特征進(jìn)行分析,同時(shí)提及急性CO中毒起與日均氣溫、平均氣壓和空氣相對(duì)濕度均存在相關(guān)性,同時(shí)也希望科普CO對(duì)社會(huì)的危害并正視它。蔡澤棟在2020年使用機(jī)器學(xué)習(xí)的算法對(duì)復(fù)雜的金融數(shù)據(jù)進(jìn)行了預(yù)測(cè),運(yùn)用幾種機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比,從其文章中可以了解到機(jī)器學(xué)習(xí)算法對(duì)于此類數(shù)據(jù)的預(yù)測(cè)精準(zhǔn)度有很大的提升。劉紅等人2020年運(yùn)用隨機(jī)森林算法對(duì)溫室氣溫進(jìn)行預(yù)測(cè),同時(shí)建立多種機(jī)器學(xué)習(xí)的方法與之進(jìn)行對(duì)比,通過(guò)實(shí)驗(yàn)驗(yàn)證了隨機(jī)森林在預(yù)測(cè)模型方面的優(yōu)越性。李畸勇等人2020年運(yùn)用SVR算法建立預(yù)測(cè)模型,在其數(shù)據(jù)預(yù)測(cè)中SVR模型為結(jié)果最優(yōu)模型,作者也表示文章中所提供的模型泛化性能很優(yōu)越。張順航等人2019年根據(jù)往年江蘇省的氣象數(shù)據(jù),探究氣象對(duì)小麥產(chǎn)量的影響,對(duì)小麥歷年的產(chǎn)量進(jìn)行預(yù)測(cè),結(jié)果表明Adaboost算法預(yù)測(cè)的最為精準(zhǔn)??梢钥吹綑C(jī)器學(xué)習(xí)的算法在各個(gè)領(lǐng)域都大放光彩,本文將機(jī)器學(xué)習(xí)應(yīng)用到空氣污染的成員之一的CO的濃度數(shù)據(jù)上進(jìn)行結(jié)合,并觀察各個(gè)不同的算法在預(yù)測(cè)精準(zhǔn)度上能達(dá)到怎樣的程度。
機(jī)器學(xué)習(xí)(Machine Learning)是一個(gè)多學(xué)科組成的專業(yè),它在人們的認(rèn)知內(nèi)已經(jīng)存在了很長(zhǎng)時(shí)間了。直到今日,它漸漸成為各行各業(yè)研究數(shù)據(jù)分類和回歸的熱點(diǎn),機(jī)器學(xué)習(xí)的目的是讓機(jī)器像人一樣思考學(xué)習(xí),傳統(tǒng)的機(jī)器學(xué)習(xí)主要包括決策樹(shù)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸機(jī)、Adaboost、迭代決策樹(shù)等。近些時(shí)間,機(jī)器學(xué)習(xí)對(duì)人來(lái)說(shuō)已經(jīng)不陌生了,人們生活的現(xiàn)代社會(huì)處處都有機(jī)器學(xué)習(xí)的體現(xiàn),機(jī)器學(xué)習(xí)的發(fā)展也讓人們的工作和生活有了良好的改變。
支持向量回歸機(jī)(SVR)是支持向量機(jī)(SVM)中的一個(gè)重要的組成部分,支持向量機(jī)是一種按照監(jiān)督學(xué)習(xí)的方法將數(shù)據(jù)分成兩類的分類器,SVM從被提出開(kāi)始就被廣泛地應(yīng)用于各個(gè)問(wèn)題的應(yīng)用,為人們解決了很多發(fā)展附帶的不利問(wèn)題。
Adaboost是一種迭代算法,其思想是將多個(gè)不同的分類器組合成一個(gè)更強(qiáng)的分類器,它應(yīng)用大多的分類問(wèn)題上,也出現(xiàn)了一些回歸問(wèn)題上的應(yīng)用,它具有較高的檢測(cè)速率,且不易出現(xiàn)過(guò)適應(yīng)現(xiàn)象
決策樹(shù)(Decision Tree)是以諸多情況的概率為基礎(chǔ),通過(guò)構(gòu)成決策樹(shù)并通過(guò)決策樹(shù)的求取概率,判斷哪種方法是可行的,是一種非常直觀的圖解法,其運(yùn)作并不復(fù)雜,在解決問(wèn)題方面也有自己良好的性能。由于這種方法像一棵樹(shù)的樹(shù)干,所以稱它為決策樹(shù)。
隨機(jī)森林(Random Decision Forests)本質(zhì)上就是一個(gè)包含多個(gè)決策樹(shù)的分類器,它具有很多優(yōu)點(diǎn)。首先針對(duì)于很多數(shù)據(jù)它可以產(chǎn)生很優(yōu)的分類器,其次它可以被延伸用在未被標(biāo)記的資料上,另外它的學(xué)習(xí)過(guò)程也是很快速的。構(gòu)建隨機(jī)森林需要兩個(gè)方面,首先從原數(shù)據(jù)中采取有放回的抽樣,構(gòu)造出一個(gè)和原數(shù)據(jù)集數(shù)據(jù)量相同的子數(shù)據(jù)集,它控制決策樹(shù)各不相同的方法就是控制最優(yōu)的特征,使其隨機(jī)選取。
迭代決策樹(shù)(GBDT/Gradient Boosting Decision Tree) 又叫MART(Multiple Additive Regression Tree),是一種迭代的決策樹(shù)算法,它與隨機(jī)森林一樣都是由多個(gè)決策樹(shù)組成,不同的是,它是由這些決策樹(shù)的結(jié)論加起來(lái)生成最終的答案并加以運(yùn)算的。它與SVM也有共同點(diǎn),它們的構(gòu)造讓它們的泛化能力很優(yōu)秀,GBDT更是因?yàn)闄C(jī)器學(xué)習(xí)的發(fā)展更加受大家的關(guān)注。
本文選擇UCI數(shù)據(jù)集上的空氣質(zhì)量數(shù)據(jù),從數(shù)據(jù)中挑選出CO濃度數(shù)據(jù)并對(duì)其進(jìn)行缺失值處理。本文選擇前70%的處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其他作為測(cè)試數(shù)據(jù),共7819條數(shù)據(jù)。其中使用均值填充和刪除缺失數(shù)據(jù)兩種方法處理數(shù)據(jù)。
為了對(duì)比出算法在本文數(shù)據(jù)上預(yù)測(cè)精準(zhǔn)度的優(yōu)劣,本文將Adaboost、SVR、隨機(jī)森林、GBDT進(jìn)行比較,用MSE和R2作為其評(píng)價(jià)指標(biāo),四種方法的 MSE 分別為:0.70、0.78、0.63、0.60,四種方法的 R2分別為:0.67、0.63、0.70、0.71。由實(shí)驗(yàn)結(jié)果可以看出無(wú)論評(píng)價(jià)指標(biāo)是MSE還是R2最優(yōu)的模型是GBDT模型算法,其MSE為0.60,R2為0.71。隨機(jī)森林的結(jié)果也不錯(cuò)但是跟GBDT還是有一部分差距。
本文出于運(yùn)用機(jī)器學(xué)習(xí)預(yù)測(cè)CO濃度的角度,對(duì)本數(shù)據(jù)進(jìn)行處理,并同時(shí)運(yùn)用Adaboost、SVR、隨機(jī)森林、GBDT進(jìn)行比較,對(duì)比它們結(jié)果,其中MSE的結(jié)果是:Adaboost為、SVR為、隨機(jī)森林為、GBDT為,MAPE的結(jié)果是:Adaboost為、SVR為、隨機(jī)森林為、GBDT為,可以看出在這四種機(jī)器學(xué)習(xí)算法中,結(jié)果最優(yōu),預(yù)測(cè)最精準(zhǔn)的是GBDT。未來(lái)的研究可以圍繞著各個(gè)空氣質(zhì)量指標(biāo)進(jìn)行深度的解剖研究,也可以引入更多的算法模型進(jìn)行預(yù)測(cè),對(duì)比各個(gè)模型的優(yōu)劣。