国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

應(yīng)用于物種分布模型的多種算法

2016-06-20 06:21楊若男盛炎平
大學(xué)教育 2016年5期

楊若男+盛炎平

[摘 要]回顧了物種分布比較了常用的11種模型,包括回歸模型、分類模型和復(fù)雜模型。給出了各模型的優(yōu)缺點(diǎn)、特性和適用范圍,并且提供模型應(yīng)用導(dǎo)向。模型應(yīng)用導(dǎo)向主要包括三個(gè)步驟:模型選擇、模型建立和參數(shù)評(píng)估。

[關(guān)鍵詞]模型建立;模型選擇;物種分布模型

[中圖分類號(hào)] G642.0 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 2095-3437(2016)05-0120-02

物種分布模型也稱為生態(tài)模型[1],用算法來預(yù)測(cè)特定地區(qū)內(nèi)的物種分布,依賴物種和環(huán)境變量之間的統(tǒng)計(jì)關(guān)系。衡量生態(tài)模型的3個(gè)目標(biāo)是:真實(shí)性、廣泛性和準(zhǔn)確性,一般情況下,只能達(dá)到期望目標(biāo)的三分之二。物種分布模型是靜態(tài)實(shí)證模型,而非機(jī)械模型。物種分布模型將觀測(cè)到的物種-環(huán)境的現(xiàn)象與指定區(qū)域的環(huán)境變量聯(lián)系起來。它們之間的關(guān)系非常復(fù)雜。[2]在過去的30年中,學(xué)者們已經(jīng)創(chuàng)建了很多模型去預(yù)測(cè)物種-環(huán)境之間的關(guān)系。但是,不同的模型做出的預(yù)測(cè)是不同的。[3]下面介紹比較常見的11種物種分布模型。

一、模型種類

基于物種和環(huán)境變量之間的聯(lián)系預(yù)測(cè)物種分布,有很多物種分布模型。下面介紹幾種常用的模型。

廣義線性模型是一般線性模型的擴(kuò)展,包括線性回歸、邏輯回歸和泊松回歸。廣義線性模型的自變量包括交互項(xiàng)和高階項(xiàng),所以該模型更適用于物種和環(huán)境變量之間的非線性關(guān)系,且所有的參數(shù)都有統(tǒng)計(jì)學(xué)意義。使用時(shí),應(yīng)注意精度問題,移除無關(guān)變量。

廣義可加模型是廣義線性模型的非參數(shù)推廣,適用性更強(qiáng)。其使用光滑函數(shù)建立物種-環(huán)境之間的非線性關(guān)系。光滑函數(shù)的自變量都是相互獨(dú)立的,并且構(gòu)建最終的模型。使用時(shí),應(yīng)適當(dāng)減少,以避免過擬合。

多元自適應(yīng)回歸樣條是線性回歸模型的推廣,能夠自動(dòng)模擬非線性和交互作用。使用時(shí),系數(shù)是可變的,并且不同級(jí)的變量,其參數(shù)有不同的最優(yōu)化值。當(dāng)自變量較多且交互項(xiàng)的階數(shù)較低時(shí),多元自適應(yīng)回歸樣條效果良好。

混合判別分析是線性判別分析的推廣,是基于混合模型的一種分類方法,具體是一個(gè)因變量可寫成一些自變量的線性組合。假設(shè)每一類環(huán)境變量均服從正態(tài)分布,用混合的正態(tài)分布獲取每個(gè)分類的密度估計(jì)。

廣義線性模型用一個(gè)簡(jiǎn)單的模型擬合物種和環(huán)境變量之間的關(guān)系,而廣義助推法是把很多簡(jiǎn)單模型的預(yù)測(cè)結(jié)果組合起來給出物種分布和環(huán)境變量之間的更為精確的估計(jì)。即使預(yù)測(cè)變量和因變量之間的關(guān)系比較復(fù)雜,廣義助推法最終也會(huì)產(chǎn)生與觀測(cè)值非常接近的估計(jì)值。

人工神經(jīng)網(wǎng)絡(luò)是由大量處理單元組成的一個(gè)復(fù)雜的模型系統(tǒng),能夠描述復(fù)雜的全局行為。人工神經(jīng)網(wǎng)絡(luò)的關(guān)鍵特性就是包含一個(gè)隱元。每一個(gè)隱元得到信息,輸入,求和,增加常量,然后通過一個(gè)固定函數(shù)轉(zhuǎn)換結(jié)果。

分類回歸樹使用遞歸分區(qū)把數(shù)據(jù)分割成越來越小的同質(zhì)的子集,直到達(dá)到終止條件。在決策樹中,每一類數(shù)據(jù)都可以表示成一個(gè)“節(jié)點(diǎn)”,只能被分成兩部分。相比于傳統(tǒng)的方法,分類回歸樹能夠揭示復(fù)雜的預(yù)測(cè)因子之間的相互作用。

隨機(jī)森林應(yīng)用Breimans的隨機(jī)森林算法,稱為預(yù)測(cè)物種分布最準(zhǔn)確的模型之一。它通過對(duì)大量的分類樹的計(jì)算來進(jìn)行分類和回歸,是一個(gè)包含多個(gè)決策樹的分類器。當(dāng)有新的樣本進(jìn)入的時(shí)候,就讓森林中的每一棵決策樹進(jìn)行判斷,觀察哪一類被選擇最多,就預(yù)測(cè)這個(gè)樣本為哪一類。

預(yù)測(cè)規(guī)則遺傳算法是基于遺傳算法,建立限制物種分布的規(guī)則集的一種物種分布模型。它是一組隨機(jī)的數(shù)學(xué)規(guī)則,每個(gè)規(guī)則被確定為一個(gè)基因,這些基因隨機(jī)的組合起來去形成可能的模型描述潛在的物種分布。

最大熵方法是預(yù)測(cè)物種地理分布的萬能機(jī)器學(xué)習(xí)方法,無需調(diào)整參數(shù),直接使用默認(rèn)值即可,得到比較精確的預(yù)測(cè)結(jié)果。它的基本原理是通過最大熵的概率分布預(yù)測(cè)目標(biāo)概率分布。

分層模型將不同的物種分布模型組合起來。分層模型已發(fā)展到環(huán)境科學(xué)研究領(lǐng)域,對(duì)觀測(cè)成分或過程成分進(jìn)行組合,適用于預(yù)測(cè)數(shù)據(jù)記錄和物種、環(huán)境之間的不確定性。

二、模型比較

物種和環(huán)境變量之間的關(guān)系是復(fù)雜多變的。物種分布模型可分成三大類,回歸模型、分類模型和復(fù)雜模型。

廣義線性模型用經(jīng)典的方法量化物種-環(huán)境變量之間的聯(lián)系。當(dāng)物種和環(huán)境變量是多元的關(guān)系時(shí),廣義相加型更適宜。物種選擇對(duì)廣義可加模型或者廣義線性模型影響較大。

多元自適應(yīng)回歸樣條函數(shù),與廣義可加模型很相似,這兩者性能優(yōu)于廣義線性模型。多元自適應(yīng)回歸樣條比廣義可加模型速度快。分層模型通常將2種或3種回歸進(jìn)程組合到一起。從本質(zhì)上來講,分層模型就是一系列的廣義線性模型?;旌吓袆e分析、分類回歸樹、廣義助推法都是分類模型,但是都嵌入了回歸算法。與回歸模型相比,分類模型在處理數(shù)據(jù)集的異常方面更精確。混合判別分析是改進(jìn)的判別分析。分類樹分析與傳統(tǒng)的判別分析、聚類分析很相似。同廣義可加模型相比,分類樹不需要依賴物種-環(huán)境變量之間的先驗(yàn)假設(shè)。廣義助推模型將很多簡(jiǎn)單樣本模型組合在一起,可以給出更精確的預(yù)測(cè)結(jié)果?;旌吓袆e分析、分類回歸樹和廣義助推法都是沒有參數(shù)的,所以比較適合相對(duì)復(fù)雜的物種與環(huán)境關(guān)系。

分類回歸樹和廣義助推法用遞歸分割完成模型預(yù)測(cè)。

人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、最大熵和預(yù)測(cè)規(guī)則遺傳算法都是復(fù)雜模型。分類回歸樹、廣義助推法、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、最大熵都做了遞歸參數(shù)優(yōu)化,所以這些模型都被稱為機(jī)器學(xué)習(xí)技術(shù)。復(fù)雜模型能準(zhǔn)確地提出輸入數(shù)據(jù)的隱藏特性,能捕捉到所給數(shù)據(jù)的細(xì)節(jié)部分,這樣通常會(huì)導(dǎo)致數(shù)據(jù)過擬合,一般會(huì)造成模型預(yù)測(cè)的偏差。在機(jī)器學(xué)習(xí)工具中,分類回歸樹比人工神經(jīng)網(wǎng)絡(luò)算法更有效。最大熵和預(yù)測(cè)規(guī)則遺傳算法將實(shí)際生態(tài)位細(xì)致劃分到每一個(gè)地理空間,同隨機(jī)森林、廣義助推法相比,最大熵和預(yù)測(cè)規(guī)則遺傳算法與當(dāng)前的分布適應(yīng)度更差。

一般而言,最大熵方法的預(yù)測(cè)精度優(yōu)于預(yù)測(cè)規(guī)則遺傳算法。

一些研究比較了回歸模型、分類模型和復(fù)雜模型的準(zhǔn)確度。所有的物種分布模型都使用數(shù)值型和分類型的環(huán)境變量。廣義線性模型和廣義可加模型的回歸特點(diǎn)決定了它們適用于數(shù)值型變量。多元自適應(yīng)回歸樣條比分類回歸樹更適合數(shù)值變量。而復(fù)雜模型對(duì)于數(shù)值變量和分類變量都能處理得很好。以分類樹為基礎(chǔ)的機(jī)器學(xué)習(xí)方法更適合那些無序的、非線性的、維數(shù)高的數(shù)據(jù)。預(yù)測(cè)鳥的分布,效果最好的是隨機(jī)森林,其次是分類回歸樹,最后是人工神經(jīng)網(wǎng)絡(luò)。

三、模型應(yīng)用

在應(yīng)用模型的時(shí)候要注意一些關(guān)鍵步驟,比如檢驗(yàn)、標(biāo)定、數(shù)據(jù)驗(yàn)證(數(shù)據(jù)評(píng)估)、可信度和資格評(píng)定。簡(jiǎn)單來講就是:模型選擇,模型建立,參數(shù)評(píng)估。研究人員需要根據(jù)他們的研究對(duì)象和研究目標(biāo)來選擇合適的模型。盡管復(fù)雜的模型有更高的預(yù)測(cè)精度,但是簡(jiǎn)單的模型也有自己獨(dú)特的優(yōu)勢(shì)。廣義線性模型淺顯易懂,所有變量的回歸系數(shù)都可以清楚的表達(dá)和解釋。相反,其他的模型有太多的參數(shù),以至于無法做出有實(shí)際意義的生態(tài)解讀。研究人員應(yīng)該熟悉每一種模型的特性。廣義可加模型適用于多峰連續(xù)變量的數(shù)據(jù);多元自適應(yīng)回歸樣條適合于高階交互作用的數(shù)據(jù);廣義助推法和分類回歸樹適用于伴隨有離群觀測(cè)的大量分類變量的情況;人工神經(jīng)網(wǎng)絡(luò)適合于較為復(fù)雜的物種與環(huán)境關(guān)系的情況。對(duì)于自變量和交互項(xiàng)項(xiàng)數(shù)較多時(shí),隨機(jī)森林是一種理想模型。

統(tǒng)計(jì)模型的建立是指為物種分布選擇一個(gè)合適的算法,定義具體的因變量類型并評(píng)估模型系數(shù),從而在建模環(huán)境下選擇最優(yōu)的統(tǒng)計(jì)路徑。在本文中,我們縮小了模型建立的范圍,重點(diǎn)在于模型結(jié)構(gòu)的確定。在此,模型建立包括自變量、模型參數(shù)、變量的交互項(xiàng)和多項(xiàng)式的選擇。模型參數(shù)的不同將會(huì)引起模型表現(xiàn)的巨大不同。模型參數(shù)的評(píng)估通常是由統(tǒng)計(jì)軟件自動(dòng)執(zhí)行的,這是模型發(fā)展的關(guān)鍵步驟。變量系數(shù)可以由最小二乘法、極大似然法、馬可夫鏈蒙特卡洛法、卡爾曼濾波器,引導(dǎo)程序以及機(jī)器學(xué)習(xí)技術(shù)中的算法來評(píng)估。變量的選擇也通過變量的“貢獻(xiàn)程度”來進(jìn)行,然后由信息準(zhǔn)則來測(cè)量。目前,大多數(shù)的物種分布模型為系數(shù)評(píng)估與模型評(píng)價(jià)提供了充足的工具。

四、討論

在這篇綜述中,比較了11種物種分布模型的特性以及這11種模型的適用范圍,并且說明了如何使用這些模型。本文旨在給出當(dāng)前用于預(yù)測(cè)物種分布的模型的技術(shù)指導(dǎo)。無論使用哪種模型,研究者們首先要做的就是仔細(xì)觀察數(shù)據(jù);之后,認(rèn)真構(gòu)造模型公式,應(yīng)當(dāng)慎重選擇自變量,檢查是否有必要加入多項(xiàng)式和交互項(xiàng);另外,也需要考慮模型參數(shù)。模型評(píng)估過程也很重要,但當(dāng)前模型并沒有提供足夠的數(shù)據(jù)來檢查模型的性能。為了提升結(jié)果的準(zhǔn)確性,一般對(duì)特定的數(shù)據(jù)集使用多種物種分布模型。

[ 注 釋 ]

[1] 張文駒,陳家寬.物種分布區(qū)研究進(jìn)展[J].生物多樣性, 2003(5).

[2] 李國慶,劉長(zhǎng)成,劉玉國,楊軍,張新時(shí),郭柯.物種分布模型理論研究進(jìn)展[J].生態(tài)學(xué)報(bào),2013(16).

[3] 劉芳,李晟,李迪強(qiáng).利用分布有/無數(shù)據(jù)預(yù)測(cè)物種空間分布的研究方法綜述[J].生態(tài)學(xué)報(bào),2013(22).

[責(zé)任編輯:鐘 嵐]