国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)流的作物蒸散量數(shù)據(jù)挖掘方法研究

2017-03-21 07:21:37魏正英張育斌蔚磊磊
中國(guó)農(nóng)村水利水電 2017年3期
關(guān)鍵詞:決策樹(shù)數(shù)據(jù)挖掘氣象

張 帥,魏正英,張育斌,蔚磊磊,簡(jiǎn) 寧

(西安交通大學(xué)機(jī)械制造系統(tǒng)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,西安 710054)

0 引 言

水資源是基礎(chǔ)性的自然資源和重要的戰(zhàn)略資源。我國(guó)是一個(gè)水資源嚴(yán)重短缺的國(guó)家,水資源供需矛盾突出仍然是可持續(xù)發(fā)展的主要瓶頸。農(nóng)業(yè)是用水大戶,但用水效率不高,節(jié)水潛力巨大。作物需水量是農(nóng)業(yè)生產(chǎn)中最重要的因素之一,而作物蒸散量是計(jì)算作物需水量的關(guān)鍵,因此尋找一種合理方法來(lái)預(yù)測(cè)作物蒸散量,用于指導(dǎo)作物的灌溉,對(duì)于促進(jìn)水資源可持續(xù)利用、保障國(guó)家糧食安全、加快轉(zhuǎn)變經(jīng)濟(jì)發(fā)展方式有著重要的意義。傳統(tǒng)的作物蒸散量計(jì)算利用經(jīng)驗(yàn)公式求得,但是由于公式所需參數(shù)較多,計(jì)算過(guò)程較復(fù)雜,ET0受氣象因素影響很大,對(duì)于ET0的計(jì)算可以看作是氣象因素非線性關(guān)系的回歸分析[1],氣象數(shù)據(jù)和農(nóng)業(yè)息息相關(guān),人工往往很難得到隱藏在數(shù)據(jù)背后的知識(shí),因此引入了數(shù)據(jù)挖掘技術(shù),結(jié)合近年來(lái)取代神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機(jī)器學(xué)習(xí)方法的新的算法—隨機(jī)森林,它的運(yùn)算速度很快,具有很高的預(yù)測(cè)準(zhǔn)確率,在處理氣象這樣的大數(shù)據(jù)時(shí)表現(xiàn)十分優(yōu)異。BP神經(jīng)網(wǎng)絡(luò)和SVM容易出現(xiàn)過(guò)擬合,很難全局最優(yōu)解,尤其是它們對(duì)缺失的數(shù)據(jù)很敏感,從而降低了精度,而隨機(jī)森林通過(guò)對(duì)許多弱學(xué)習(xí)器組合產(chǎn)生出強(qiáng)學(xué)習(xí)器,對(duì)于缺失的氣象參數(shù)仍然可以維持很高的準(zhǔn)確度。

本文利用西安市1992-2014年逐日氣象數(shù)據(jù)資料[2],以氣象參數(shù)作為模型的輸入?yún)?shù)進(jìn)行模擬訓(xùn)練,以FAO56 Penman - Montieth公式計(jì)算的ET0結(jié)果作為模型預(yù)期輸出值,通過(guò)不同氣象參數(shù)組合輸入方式,采用數(shù)據(jù)挖掘技術(shù)和隨機(jī)森林算法結(jié)合知識(shí)流建模方法構(gòu)建了模型,并將模擬結(jié)果同其他常用模型進(jìn)行對(duì)比研究,探索數(shù)據(jù)挖掘技術(shù)在作物蒸散量ET0模擬計(jì)算中的應(yīng)用。

1 原 理

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘,也稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟,一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中知識(shí)的過(guò)程,這些知識(shí)是隱含的、事先未知的潛在有用信息,提取的知識(shí)一般可表示為概念、規(guī)則、模式等形式。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)[3]。數(shù)據(jù)挖掘解決實(shí)際問(wèn)題過(guò)程如圖1所示,數(shù)據(jù)挖掘任務(wù)分為兩大類,其中一類就是預(yù)測(cè)任務(wù),它則是通過(guò)對(duì)樣本數(shù)據(jù)的輸入值和輸出值關(guān)聯(lián)性的學(xué)習(xí),得到預(yù)測(cè)模型,再利用該模型對(duì)未來(lái)的輸入值進(jìn)行輸出值預(yù)測(cè)。數(shù)據(jù)挖掘的技術(shù)基礎(chǔ)是人工智能(機(jī)器學(xué)習(xí)),一般地,可以通過(guò)人工智能中一些已經(jīng)成熟的算法和技術(shù)建立預(yù)測(cè)模型。典型的數(shù)據(jù)挖掘方法包括:決策樹(shù)方法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),其他常見(jiàn)的預(yù)測(cè)方法還有近鄰法、樸素貝葉斯等。

圖1 數(shù)據(jù)挖掘的基本流程Fig.1 Basic process of data mining

1.2 隨機(jī)森林原理

隨機(jī)森林模型[4]是由Breiman和Cutler 在2001年提出的一種基于分類樹(shù)的算法,是集成學(xué)習(xí)算法的一種,它通過(guò)對(duì)大量決策樹(shù)的匯總提高模型的預(yù)測(cè)精度。其中的裝袋算法是利用自助法的思路,對(duì)訓(xùn)練樣本進(jìn)行有放回抽樣,以建立多個(gè)樹(shù)模型,然后集成其預(yù)測(cè)結(jié)果來(lái)提高預(yù)測(cè)精度。

隨機(jī)森林在運(yùn)算量沒(méi)有顯著提高的前提下提高了預(yù)測(cè)精度。隨機(jī)森林對(duì)多元共線性不敏感,結(jié)果對(duì)缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,可以很好地預(yù)測(cè)多達(dá)幾千個(gè)解釋變量的作用[5]。

在隨機(jī)森林中,形成隨機(jī)森林的訓(xùn)練集各自獨(dú)立,生成很多的決策樹(shù),并不像在CART模型里一樣只生成唯一的樹(shù)。在回歸問(wèn)題中,預(yù)測(cè)結(jié)果為數(shù)值型變量,生成的隨機(jī)森林為多元非線性回歸分析模型,預(yù)測(cè)輸出結(jié)果是所有決策樹(shù)輸出的平均值。模型構(gòu)建過(guò)程如圖2所示,

圖2 隨機(jī)森林的基本流程Fig.2 Basic process of random forests

1.3 變量貢獻(xiàn)度

對(duì)于隨機(jī)森林回歸中的變量貢獻(xiàn)度分析,使用基于permutation隨機(jī)置換的殘差均方減小量進(jìn)行衡量,根據(jù)均方誤差度量值衡量變量貢獻(xiàn)程度,大致過(guò)程為隨機(jī)改變某輸入變量取值,然后利用生成的隨機(jī)森林模型進(jìn)行OOB擬合誤差計(jì)算[4]。

在生成每個(gè)子訓(xùn)練集過(guò)程中,Bootstrap方法抽樣只抽取原數(shù)據(jù)集的2/3,其余組成袋外數(shù)據(jù),OOB誤差增加越多,則該輸入變量貢獻(xiàn)度越大。OOB誤差可估計(jì)單棵決策樹(shù)強(qiáng)度和決策樹(shù)間的相關(guān)性,進(jìn)而估計(jì)模型泛化誤差,是模型預(yù)報(bào)誤差的無(wú)偏估計(jì)[6]。

1.4 算法流程

(1)利用Bootstrap方法從原始數(shù)據(jù)集中隨機(jī)抽出M個(gè)樣本數(shù)據(jù)集S1,S2,…,SM,每次未被抽中的數(shù)據(jù)組成袋外數(shù)據(jù)。

(2)利用每個(gè)樣本數(shù)據(jù)集,生成對(duì)應(yīng)的決策樹(shù)T1,T2,…,TM;在每棵樹(shù)的節(jié)點(diǎn)處,從原始數(shù)據(jù)n個(gè)變量中隨機(jī)選擇m個(gè)變量(m<

(3)每棵回歸樹(shù)開(kāi)始自頂向下的遞歸分枝,每棵決策樹(shù)都最大可能地進(jìn)行生長(zhǎng)而不進(jìn)行剪枝,直至滿足終止條件,所有決策樹(shù)組成隨機(jī)森林。

(4)將測(cè)試數(shù)據(jù)輸入隨機(jī)森林模型中,得到各決策樹(shù)的預(yù)測(cè)結(jié)果,取各決策樹(shù)預(yù)測(cè)結(jié)果的平均值為回歸值,即為預(yù)測(cè)值[7]。

1.5 知識(shí)流

在已有的對(duì)于知識(shí)流的定義中,Hai Zhuge定義知識(shí)流是指知識(shí)在人們之間流動(dòng)的過(guò)程或是知識(shí)處理的機(jī)制[8]。MaxH.Boisot認(rèn)為知識(shí)流是一個(gè)解決問(wèn)題、知識(shí)擴(kuò)散、知識(shí)吸收和知識(shí)掃描的過(guò)程[9]。李鳳云認(rèn)為知識(shí)流是一個(gè)動(dòng)態(tài)的概念,強(qiáng)調(diào)在知識(shí)的識(shí)別、獲取、開(kāi)發(fā)、分解、儲(chǔ)存、傳遞、共享以及運(yùn)用其產(chǎn)生價(jià)值的運(yùn)動(dòng)過(guò)程中應(yīng)該是無(wú)阻礙的[10]。

知識(shí)流的結(jié)構(gòu)包括知識(shí)流的知識(shí)節(jié)點(diǎn)、知識(shí)流的拓?fù)涮卣骱椭R(shí)流的內(nèi)容。其中: 知識(shí)節(jié)點(diǎn)是知識(shí)流的起始點(diǎn)和停止點(diǎn),節(jié)點(diǎn)在不同層次上有不同的表現(xiàn),代表了知識(shí)員工或知識(shí)庫(kù);知識(shí)流的拓?fù)涮卣鞣从沉酥R(shí)流的連接,即知識(shí)流網(wǎng)的拓?fù)浣Y(jié)構(gòu);知識(shí)流的內(nèi)容是一個(gè)四元組(KL、KT、KFx、KV),其中的 KL是知識(shí)的層次,反映了不同組織結(jié)構(gòu)水平上的知識(shí)流動(dòng),KT是知識(shí)的類型,KFx是知識(shí)的流量(flux),KV是知識(shí)的流速(velocity)。

知識(shí)流是一種流動(dòng),與傳統(tǒng)的物流、勞務(wù)流、資金流、信息流等一樣,都是在各個(gè)節(jié)點(diǎn)間的流動(dòng),不同的是知識(shí)流具有不減性、多變性、難以規(guī)劃性、潛力巨大等特殊的地方[11]。

2 模型建立

2.1 數(shù)據(jù)集和測(cè)試集

由于隨機(jī)森林對(duì)輸入樣本的單位和量綱不敏感,算法會(huì)處理噪聲和缺失值,一般不需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,但在進(jìn)行回歸時(shí)對(duì)數(shù)據(jù)的清理可以減少學(xué)習(xí)時(shí)的混亂,提高模型的準(zhǔn)確率。在數(shù)據(jù)準(zhǔn)備階段我們需要對(duì)數(shù)據(jù)作出選擇、清洗、重建、合并等工作。選出要進(jìn)行分析的數(shù)據(jù),并對(duì)不符合模型輸入要求的數(shù)據(jù)進(jìn)行規(guī)范化操作。

本文以西安市1992-2014年氣象數(shù)據(jù)資料為研究對(duì)象,選取6個(gè)變量運(yùn)用經(jīng)典彭曼公式計(jì)算出理論作物蒸散量,這6個(gè)變量分別為:平均氣溫(T)、實(shí)際日照時(shí)長(zhǎng)(n)、最低溫度(Tmin)、最高溫度(Tmax)、平均相對(duì)濕度(RH)、風(fēng)速(Uh),將1992-2012年作為訓(xùn)練數(shù)據(jù),2013-2014年作為測(cè)試數(shù)據(jù),通過(guò)組合不同參數(shù)建立作物蒸散量預(yù)測(cè)模型,利用氣象數(shù)據(jù)預(yù)測(cè)作物蒸散量。

數(shù)據(jù)通常存儲(chǔ)于電子數(shù)據(jù)表和數(shù)據(jù)庫(kù)中,本文將數(shù)據(jù)導(dǎo)入逗號(hào)分隔數(shù)值(CSV)格式文件中,該格式文件是由一組記錄組成,每項(xiàng)記錄中的每個(gè)條目由逗號(hào)分隔,便于Weka直接讀取CSV電子數(shù)據(jù)表,部分樣本數(shù)據(jù)列在表1中。

表1 部分輸入樣本數(shù)據(jù)Tab.1 Part of the sample data

2.2 Weka建模

本研究采用的軟件工具是開(kāi)源軟件Weka,其中的RadomForest工具包可以很快速地建立隨機(jī)森林模型。由于Weka具有很強(qiáng)的面向?qū)ο蠊δ?,有著豐富的擴(kuò)展庫(kù),可以輕易完成各種高級(jí)任務(wù),所以該軟件在國(guó)內(nèi)外被廣泛使用。

在如圖3所示的知識(shí)流建模界面中,用戶可以定制處理知識(shí)流的方式和順序,通過(guò)對(duì)知識(shí)流模型的監(jiān)控、測(cè)量知識(shí)的流通環(huán)節(jié),抓住建模關(guān)鍵環(huán)節(jié),更加準(zhǔn)確、高效地建立氣象數(shù)據(jù)挖掘模型。在知識(shí)流界面上任意拖曳代表學(xué)習(xí)算法和數(shù)據(jù)源的圖形構(gòu)件,按照一定順序?qū)⒋頂?shù)據(jù)源、預(yù)處理工具、學(xué)習(xí)算法、評(píng)估手段和可視化模塊的各構(gòu)件組合在一起,形成知識(shí)流。

圖3 知識(shí)流建模Fig.3 Knowledge flow modeling

在模型建立過(guò)程中主要調(diào)整numTrees和numFeatures2個(gè)參數(shù),以改善模型的預(yù)測(cè)能力。numTrees表示模型中的單棵決策樹(shù)總數(shù)量,樹(shù)太少會(huì)影響模型精度,樹(shù)太多并不會(huì)對(duì)模型造成影響,但會(huì)影響計(jì)算機(jī)處理速度,所以因合理選擇樹(shù)的數(shù)量。numFeatures的主要有兩個(gè)方法,分別是簡(jiǎn)單選取所有特征或總特征數(shù)的平方根,“l(fā)og2”是另外一種相似類型的選項(xiàng),這里選擇默認(rèn)設(shè)置“0”,“0”代表選擇特征數(shù)為log2(K),假設(shè)輸入變量有6個(gè),特征數(shù)則為log26,取整數(shù)3,執(zhí)行后得到隨機(jī)森林模型,然后運(yùn)用模型對(duì)作物蒸散量進(jìn)行預(yù)測(cè)。

2.3 模型評(píng)價(jià)指標(biāo)

并不是每一次建模都能與我們的目的吻合,評(píng)價(jià)階段旨在對(duì)建模結(jié)果進(jìn)行評(píng)估,對(duì)效果較差的結(jié)果我們需要分析原因,有時(shí)還需要返回前面的步驟對(duì)挖掘過(guò)程重新定義。

為了評(píng)價(jià)模型預(yù)測(cè)能力,模型精度評(píng)價(jià)指標(biāo)選擇平均相對(duì)誤差絕對(duì)(MRE)、均方根誤差(RMSE)、自相關(guān)性系數(shù)(R2)。MRE、RMSE越小,R2越大,則說(shuō)明模型的預(yù)測(cè)效果越好。采用Nash-Suttclife系數(shù)Ens系數(shù)來(lái)衡量模型預(yù)測(cè)值和計(jì)算值之間的擬合度,模型效率主要取決于Nash系數(shù)Ens值,Ens越接近1,表明模型效率越高[12]。公式如下:

(4)

3 結(jié)果分析

3.1 變量貢獻(xiàn)度分析

產(chǎn)生過(guò)擬合的一個(gè)原因是在模型中只使用相關(guān)特征,然而只使用相關(guān)特征并不總是事先準(zhǔn)備好的,使用特征選擇可以使其更簡(jiǎn)單。隨機(jī)森林輸出特征的重要性體現(xiàn)在作為模型訓(xùn)練的副產(chǎn)品,這對(duì)于特征選擇是非常有用的[13]。 利用隨機(jī)森林模型可以對(duì)輸入變量的重要性進(jìn)行排序,從圖中可以看出輸入變量的重要程度,從而可以得知哪些變量對(duì)作物需水量預(yù)測(cè)有重要的影響[14]。

圖4 特征權(quán)重Fig.4 Feature importances

根據(jù)圖4所示,可以看出氣象數(shù)據(jù)中6個(gè)變量中日最高溫度對(duì)作物蒸散量影響最高,其他依次是日照時(shí)常、風(fēng)速、平均相對(duì)濕度、平均溫度、最低溫度,其中2個(gè)變量重要度累加超過(guò)90%,這表明這些變量已對(duì)作物蒸散量計(jì)算起決定性作用。

3.2 結(jié)果和誤差分析

3.2.1 決策樹(shù)數(shù)量對(duì)模型的影響

首先繪制模型的誤差曲線圖,如圖5所示。

圖5 隨機(jī)森林中決策樹(shù)數(shù)量對(duì)性能的影響Fig.5 The impact on the performance of the number of random forest tree

從圖5中總體趨勢(shì)可以看出,隨著樹(shù)的數(shù)量增加,模型誤差在逐漸減低,當(dāng)達(dá)到一定數(shù)量時(shí),模型誤差平方和基本保持不變,說(shuō)明樹(shù)數(shù)量過(guò)多不會(huì)影響模型的精度,所以由此得出樹(shù)的總數(shù)量越大模型誤差越小,精度越高,但不宜過(guò)高,樹(shù)數(shù)量超出一定范圍后對(duì)精度基本無(wú)影響,應(yīng)合理選擇樹(shù)數(shù)量。

3.2.2 不同氣象參數(shù)組合模型分析

選取2013-2014年的氣象數(shù)據(jù),運(yùn)用FAO56 Penman-Monteith公式計(jì)算理論作物蒸散量,同隨機(jī)森林模型預(yù)測(cè)值進(jìn)行對(duì)比分析。

從圖6可以看出,利用5個(gè)或者6個(gè)氣象參數(shù)建模后所得的結(jié)果同彭曼公式計(jì)算結(jié)果的相關(guān)性較好,R2較高,隨機(jī)森林模型表現(xiàn)出很好的泛化性能,平均相對(duì)誤差、均方根誤差指標(biāo)均較小,與用經(jīng)驗(yàn)公式得出的結(jié)果基本吻合。由表2可以得知,在所有的氣象輸入組合參數(shù)中,溫度對(duì)于預(yù)測(cè)的精度有很大的影響,缺少了溫度的組合參數(shù)學(xué)習(xí)得到的模型精度和誤差指標(biāo)都較低,特別是缺少日最高溫度;溫度、風(fēng)速,日照時(shí)數(shù)和相對(duì)濕度4個(gè)參數(shù)進(jìn)行組合模擬計(jì)算時(shí),MSE、RMSE平均值分別為0.180 0、0.527 8,R2平均值為0.929 2,預(yù)測(cè)精度都比較高;選取2個(gè)和3個(gè)參數(shù)作為輸入構(gòu)建的模型精度明顯下降,尤其是RH和Uh這2個(gè)參數(shù)組合作為輸入構(gòu)建的模型Ens為負(fù)值,模型效率較差。

圖6 隨機(jī)森林模型相關(guān)性分析Fig.6 Correlation analysis of random forest model

變量MRERMSER2EnsTmax,n,Uh,RH,T,Tmin0.16030.46080.94140.9390Tmax,n,Uh,RH,T0.16010.46650.94110.9356n,Uh,RH,T,Tmin0.16570.48160.94040.9315Tmax,n,Uh,RH0.18420.48230.93530.9150n,Uh,RH,T0.17100.46240.94150.9366Uh,RH,T,Tmin0.18490.63860.91080.8818Tmax,n,Uh0.22850.57990.90470.9002n,Uh,RH0.99561.78510.43800.2919n,T,Tmin0.23610.90200.85240.7780Tmax,n0.25870.91600.80870.7640n,T0.24340.90950.83170.7711Uh,RH1.16032.14220.0700-0.1509

3.3 6參數(shù)模型與其他模型對(duì)比分析

為綜合評(píng)價(jià)模型性能,采用相同的數(shù)據(jù)樣本分別建立了基于BP神經(jīng)網(wǎng)絡(luò)(BP)[15]和基于支持向量機(jī)(SVM)的作物蒸散量預(yù)測(cè)模型,并且比較了3個(gè)模型預(yù)測(cè)的效果,其結(jié)果如表3所示。

表3 3種模型結(jié)果對(duì)比分析Tab.3 Comparative analysis results of three models

圖7 BP神經(jīng)網(wǎng)絡(luò)模型相關(guān)性分析Fig.7 Correlation analysis of BP neural network model

圖8 支持向量機(jī)模型相關(guān)性分析Fig.8 Correlation analysis of SVM model

通過(guò)對(duì)比發(fā)現(xiàn),3種模型均能較準(zhǔn)預(yù)測(cè)作物蒸散量,相關(guān)性都比較好,但BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率低、收斂速度慢、易得到局部極小值,易造成過(guò)擬合;SVM模型也存在過(guò)擬合問(wèn)題,且對(duì)缺失數(shù)據(jù)敏感,相比而言,RF模型在3種指標(biāo)上都為最小值,相對(duì)其他兩種建模方法預(yù)測(cè)誤差較小,而且RF模型結(jié)構(gòu)簡(jiǎn)單,學(xué)習(xí)效率高,很好地解決了其他兩種模型易出現(xiàn)的過(guò)擬合問(wèn)題,在對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),也能較好地保持精確性,保證了預(yù)測(cè)精度。隨機(jī)森林與其他算法相比具有更好的過(guò)擬合容錯(cuò)性,并且處理大量的變量也不會(huì)有太多的過(guò)擬合,因?yàn)檫^(guò)擬合可以通過(guò)更多的決策樹(shù)來(lái)削弱。

4 結(jié) 論

本文以數(shù)據(jù)挖掘的基本處理流程為主線,以作物蒸散量預(yù)測(cè)為具體實(shí)例,構(gòu)建了基于隨機(jī)森林的作物蒸散量預(yù)測(cè)模型,以西安市氣象數(shù)據(jù)對(duì)作物蒸散量進(jìn)行預(yù)測(cè)分析,結(jié)果表明模型預(yù)測(cè)精度高,泛化能力好,對(duì)缺失數(shù)據(jù)不敏感,能夠有效地預(yù)測(cè)作物蒸散量,對(duì)確定作物的需水量具有一定的參考意義。

(1)與BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型、SVM預(yù)測(cè)模型相比,隨機(jī)森林模型具有預(yù)測(cè)精度高,穩(wěn)定性好,不用進(jìn)行數(shù)據(jù)預(yù)處理,對(duì)復(fù)雜數(shù)據(jù)具有良好的適應(yīng)性,能夠有效地解決非線性數(shù)據(jù)。此外,該模型能夠輸出變量的重要性程度,這是一個(gè)非常便利的功能。在對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì)時(shí),隨機(jī)森林也是一個(gè)十分有效的方法,也能較好地保持精確性。

但當(dāng)進(jìn)行回歸時(shí),隨機(jī)森林不能夠作出超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測(cè),這可能導(dǎo)致在對(duì)某些還有特定噪聲的數(shù)據(jù)進(jìn)行建模時(shí)出現(xiàn)過(guò)度擬合。

(2)本文提出了基于知識(shí)流的數(shù)據(jù)挖掘模型,通過(guò)知識(shí)流模型的分層,可以從不同角度、不同層次觀察模型知識(shí)流的分布和流動(dòng)情況,可以通過(guò)對(duì)知識(shí)流模型的監(jiān)控測(cè)量知識(shí)的流通環(huán)節(jié),從而抓住建模關(guān)鍵環(huán)節(jié),更加準(zhǔn)確、高效地建立數(shù)據(jù)挖掘模型提供參考和依據(jù)。

(3)針對(duì)一個(gè)特定的氣象數(shù)據(jù)挖掘問(wèn)題,首先要明確問(wèn)題,目的是模擬作物蒸散量計(jì)算,然后就是數(shù)據(jù)預(yù)處理和特征工程階段,對(duì)冗余、缺失的氣象數(shù)據(jù)進(jìn)行處理,這實(shí)際往往是實(shí)際工程中最耗時(shí)、最麻煩的階段,經(jīng)過(guò)特征工程后,通過(guò)氣象參數(shù)組合方式作為輸入特征,選擇合適的模型進(jìn)行訓(xùn)練,并且根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)選擇最優(yōu)模型和最優(yōu)參數(shù),最后根據(jù)最優(yōu)模型對(duì)未知?dú)庀髷?shù)據(jù)進(jìn)行預(yù)測(cè),得出結(jié)果。

[1] 侯志強(qiáng),楊培嶺,蘇艷平,等.基于最小二乘支持向量機(jī)的ET0模擬計(jì)算[J].水利學(xué)報(bào),2011,42(6):743-749.

[2] 張育斌,魏正英,馬勝利,等.極端天氣下作物參照蒸散量計(jì)算方法研究[J],中國(guó)農(nóng)村水利水電,2014,(12):64-71.

[3] Jiawei Han,Micheline Kamber,Jian Pei 著.數(shù)據(jù)挖掘概念與技術(shù)[M].范 明,孟小峰 譯. 2012:1-22.

[4] Breiman L.Random Forests[J].Machine Learning.2001, 45(1):5- 32.

[5] 李新海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào),2013,50(4):1 190-1 197.

[6] 甄億位,郝 敏,陸寶宏,等.基于隨機(jī)森林的中長(zhǎng)期降水量預(yù)測(cè)模型研究[J].水電能源科學(xué),2015,33(6):6-10.

[7] 王小川,史 峰,郁 磊,等.MATLAB神經(jīng)網(wǎng)絡(luò)43個(gè)案例分析[M].2013:255-264.

[8] Hai Zhuge. A knowledge flow model for peer- to-peer team knowledge sharing and management[J]. Expert Systems with Applications, 2002,23:23-30.

[9] Max H.Boisot.Is your firm a creative destroyer? Competitive learning and know ledge flows in the technological strategies of firms[J]. Research Policy, 1995,24:489-506.

[10] 李鳳云. 基于新型企業(yè)觀的知識(shí)流管理[J]. 中國(guó)質(zhì)量, 2004,(2):6-8.

[11] 周 密,承 文,韓立巖,等.知識(shí)流模型及其在航天企業(yè)中的應(yīng)用[J].中國(guó)管理科學(xué), 2015,13(5):79-86.

[12] Andy L,Matthew Wiener.Classification and Regression by random forest[J].R News,2002,2(3):18-22.

[13] Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot. Variable selection using random forests[J]. Pattern Recognition Letters, Elsevier, 2010, 31 (14):2 225-2 236.

[14] 明均仁,肖 凱. 基于R語(yǔ)言的面向需水預(yù)測(cè)的隨機(jī)森林方法[J].統(tǒng)計(jì)與決策,2012,357(9):81-83.

[15] 李建軍,許 燕.基于 BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)和模糊控制的灌溉控制器設(shè)計(jì)[J].機(jī)械設(shè)計(jì)與研究,2015,(5):150-153.

猜你喜歡
決策樹(shù)數(shù)據(jù)挖掘氣象
氣象
氣象樹(shù)
《內(nèi)蒙古氣象》征稿簡(jiǎn)則
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
大國(guó)氣象
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
陆川县| 丁青县| 宕昌县| 盐源县| 常熟市| 饶平县| 土默特右旗| 扶绥县| 江山市| 衡山县| 大关县| 珠海市| 大渡口区| 门头沟区| 巴楚县| 曲松县| 西安市| 合江县| 滕州市| 沛县| 巴林右旗| 图们市| 秦皇岛市| 阿克| 荆州市| 额尔古纳市| 朝阳区| 福建省| 万山特区| 孝感市| 凤山市| 永嘉县| 平阴县| 大竹县| 抚远县| 大余县| 孟村| 庄浪县| 阜新| 新野县| 新沂市|