唐 琨 周 清 劉 靜
摘要:文章分析了數(shù)據(jù)挖掘技術(shù)在土壤有機(jī)質(zhì)含量高光譜遙感數(shù)據(jù)分析中的發(fā)展歷程以及目前所面臨的問題;探討了聚類、模糊集、粗集、神經(jīng)網(wǎng)絡(luò)、決策樹等數(shù)據(jù)挖掘算法在高光譜數(shù)據(jù)分析中的應(yīng)用;展望了數(shù)據(jù)挖掘技術(shù)的應(yīng)用前景。
關(guān)鍵詞:數(shù)據(jù)挖掘;高光譜遙感;算法
數(shù)據(jù)是客觀世界性質(zhì)、特征和狀態(tài)的描述,但由于客觀世界的復(fù)雜性和在數(shù)據(jù)產(chǎn)生過程中攜帶了一些和客觀無關(guān)的因素的干擾,使得數(shù)據(jù)產(chǎn)生了與客觀世界不一致的狀況,人們通常把這些干擾稱為“誤差”,在信息科學(xué)中則稱之為“噪聲”。根據(jù)信息理論,數(shù)據(jù)是由信息和噪聲共同組成的,只有當(dāng)數(shù)據(jù)中排除了“噪聲”之后,才能稱為信息:信息=(數(shù)據(jù))-(噪聲或誤差)。在日常應(yīng)用中,大量的數(shù)據(jù)未能充分利用這一現(xiàn)象常常被描述為“數(shù)據(jù)豐富,但信息貧乏”。為此,決策者迫切需要從海量數(shù)據(jù)庫中提取有價(jià)值知識的工具,數(shù)據(jù)挖掘技術(shù)正是為滿足上述要求而產(chǎn)生的。
土壤高光譜遙感數(shù)據(jù)就是這樣一種情況,在室內(nèi)土壤高光譜測試過程中,由于可控條件和不可控條件的變化,使得所得結(jié)果有一定的差異,如土壤的粒徑差異、測試土樣表面處理方法的不同、測試時(shí)幾何條件的差異等都會(huì)引起土壤光譜反射系數(shù)的不確定。同時(shí),高光譜遙感數(shù)據(jù)波段眾多,數(shù)據(jù)量龐大,這些給處理和解譯都帶來了很大困難,而數(shù)據(jù)挖掘技術(shù)能夠很好的解決這種情況。
一、數(shù)據(jù)挖掘技術(shù)的發(fā)展
(一)數(shù)據(jù)挖掘的產(chǎn)生發(fā)展
數(shù)據(jù)挖掘其實(shí)是一個(gè)逐漸演變的過程,其思想可以追溯到20世紀(jì)70年代。隨著數(shù)據(jù)庫存儲(chǔ)技術(shù)和計(jì)算速度提高,科學(xué)研究人員意識到,還可以利用機(jī)器學(xué)習(xí)的方式來分析數(shù)據(jù)。機(jī)器學(xué)習(xí)的過程就是將一些已知的并已被成功解決的問題作為范例輸入計(jì)算機(jī),機(jī)器通過學(xué)習(xí)這些范例總結(jié)并生成相應(yīng)的規(guī)則,這些規(guī)則具有通用性,使用它們可以解決某一類的問題。隨后,伴隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的形成和發(fā)展,人們的注意力轉(zhuǎn)向知識工程。知識工程不同于機(jī)器學(xué)習(xí)那樣給計(jì)算機(jī)輸入范例,讓它生成出規(guī)則,而是直接給計(jì)算機(jī)輸入已被代碼化的規(guī)則,而計(jì)算機(jī)是通過使用這些規(guī)則來解決某些問題。80年代末在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)KDD(Knowledge discovery in database)這個(gè)術(shù)語,人們接受了這個(gè)術(shù)語,并用KDD來描述整個(gè)數(shù)據(jù)發(fā)掘的過程。隨后的KDD國際學(xué)術(shù)大會(huì)研究重點(diǎn)逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。隨著支持?jǐn)?shù)據(jù)挖掘技術(shù)發(fā)展,數(shù)據(jù)挖掘漸漸成為成熟的技術(shù),并在實(shí)際應(yīng)用中取得了良好效果。
(二)數(shù)據(jù)挖掘所面臨的問題
由于數(shù)據(jù)挖掘時(shí)遇到的數(shù)據(jù)庫種類繁多,且各種數(shù)據(jù)挖掘方法作用范圍有限,因此采用單一方法難以得到?jīng)Q策所需的各種知識,多方法融合將成為數(shù)據(jù)挖掘的發(fā)展趨勢。而數(shù)據(jù)挖掘技術(shù)當(dāng)前所面臨的問題主要有:如何進(jìn)行降維操作、高維數(shù)據(jù)索引、典型特征提取等;挖掘算法的表達(dá)和改進(jìn)創(chuàng)新;如何對挖掘產(chǎn)生的規(guī)則和模式進(jìn)行解釋與表達(dá),使其與信息處理的要求相關(guān)聯(lián)以得到應(yīng)用,并對挖掘的知識進(jìn)行客觀、科學(xué)的評價(jià),控制知識可靠性和質(zhì)量,實(shí)施有效管理;針對高光譜遙感信息的特點(diǎn),對數(shù)據(jù)挖掘任務(wù)的描述、算法功能模塊組織都是其中的關(guān)鍵問題。
二、數(shù)據(jù)挖掘的主要算法
數(shù)據(jù)挖掘算法很多,結(jié)合不同的應(yīng)用領(lǐng)域又發(fā)展了一些新的方法,進(jìn)一步豐富和發(fā)展了數(shù)據(jù)挖掘的算法體系。數(shù)據(jù)挖掘可以采用的方法主要包括聚類、空間分析、模糊集、粗集、神經(jīng)網(wǎng)絡(luò)、決策樹等。這些方法都有局限性,但它們的有機(jī)組合具有互補(bǔ)性,多方法融合將成為數(shù)據(jù)挖掘的發(fā)展趨勢。目前一些具有較好應(yīng)用效果的方法主要包括:
(一)聚類
聚類是把一組個(gè)體按照相似性歸納成若干類別,即“物以類聚”。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能的小,而不同類別上的個(gè)體間的距離盡可能的大。在實(shí)現(xiàn)其他挖掘任務(wù)之前,應(yīng)用聚類方法可使挖掘精度與效率大大提高。聚類方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和面向數(shù)據(jù)庫的方法。由于高光譜遙感信息的海量特點(diǎn),聚類是一種有效的挖掘算法。通過將信息從光譜維和空間維進(jìn)行聚類,挖掘隱含在其中的規(guī)則和知識,對于解決波段選擇、特征提取、純凈象元識別等問題,具有明顯的優(yōu)越性。由于聚類僅是實(shí)現(xiàn)對目標(biāo)的集群分析,而對不同集群的屬性和特征進(jìn)行挖掘才能取得更好的效果,因此聚類一般要和其他算法結(jié)合進(jìn)行。
(二)人工神經(jīng)網(wǎng)絡(luò)(ANN)
神經(jīng)網(wǎng)絡(luò)是數(shù)據(jù)挖掘和知識發(fā)現(xiàn)非常重要的方法,包括前向神經(jīng)網(wǎng)絡(luò)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)等已都得到了重視和應(yīng)用。另一方面,人工神經(jīng)網(wǎng)絡(luò)也在高光譜遙感信息中得到了一些應(yīng)用。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。神經(jīng)網(wǎng)絡(luò)的參數(shù)可以比統(tǒng)計(jì)方法多很多。由于參數(shù)如此之多,參數(shù)通過各種各樣的組合方式來影響輸出結(jié)果,以至于很難對一個(gè)神經(jīng)網(wǎng)絡(luò)表示的模型做出直觀的解釋。實(shí)際上神經(jīng)網(wǎng)絡(luò)也正是當(dāng)作“黑盒”來用的,不用去管“盒子”里面是什么,只管用就行了。人工神經(jīng)網(wǎng)絡(luò)有望在高光譜遙感數(shù)據(jù)挖掘中得到廣泛應(yīng)用。
(三)粗集理論和模糊理論
在數(shù)據(jù)挖掘中,從實(shí)際系統(tǒng)采集到的數(shù)據(jù)可能包含各種噪聲,存在許多不確定因素和不完全信息有待處理。傳統(tǒng)的不確定信息處理方法因需要數(shù)據(jù)的附加信息或先驗(yàn)知識(難以得到),有時(shí)在處理大數(shù)據(jù)量的數(shù)據(jù)庫方面無能為力。粗集作為一種軟計(jì)算方法,可以克服傳統(tǒng)不確定處理方法的不足,并且和它們能有機(jī)結(jié)合,可望進(jìn)一步增強(qiáng)對不確定、不完全信息的處理能力。粗集理論中,知識被定義為對事物的分類能力。這種能力由上近似集、下近似集、等價(jià)關(guān)系等概念體現(xiàn)。因?yàn)榇旨幚淼膶ο笫穷愃贫S關(guān)系表的信息表(決策表)。目前成熟的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。
(四)決策樹
決策樹提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。決策樹的基本組成部分為決策節(jié)點(diǎn)、分支和葉子。決策樹中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個(gè)決策樹的開始。決策樹的每個(gè)節(jié)點(diǎn)子節(jié)點(diǎn)的個(gè)數(shù)與決策樹所用的算法有關(guān)。每個(gè)分支要么是一個(gè)新的決策節(jié)點(diǎn),要么是樹的結(jié)尾,稱為葉子。在沿著決策樹從上到下遍歷的過程中,在每個(gè)節(jié)點(diǎn)都會(huì)遇到一個(gè)問題,對每個(gè)節(jié)點(diǎn)上問題的不同回答導(dǎo)致不同的分支,最后會(huì)到達(dá)一個(gè)葉子節(jié)點(diǎn)。這個(gè)過程就是利用決策樹進(jìn)行分類的過程,利用幾個(gè)變量(每個(gè)變量對應(yīng)一個(gè)問題)來判斷所屬的類別(最后每個(gè)葉子會(huì)對應(yīng)一個(gè)類別)。數(shù)據(jù)挖掘中,決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。決策樹在高光譜遙感信息分類、典型信息提取等任務(wù)中都得到了應(yīng)用,在高光譜遙感數(shù)據(jù)挖掘中,決策樹學(xué)習(xí)可以建立對特定應(yīng)用敏感的知識集,以指導(dǎo)挖掘過程的進(jìn)行。
三、發(fā)展前景
從目前高光譜遙感信息處理與應(yīng)用情況來看,高光譜遙感數(shù)據(jù)挖掘?qū)⒃谥悄苄畔⑻幚砗透咚綉?yīng)用方面發(fā)揮重要作用,以下對其潛在應(yīng)用領(lǐng)域進(jìn)行分析。
(一)典型信息提取與識別
通過對標(biāo)準(zhǔn)地物波譜數(shù)據(jù)庫、典型高光譜信息源等的挖掘,建立和發(fā)現(xiàn)對特定信息、特征和現(xiàn)象提取有效的規(guī)則和知識,以直接應(yīng)用于目標(biāo)信息的提取與識別。
(二)定量遙感與遙感反演
高光譜遙感信息是定量遙感如成因礦物學(xué)、作物養(yǎng)分監(jiān)測、植被監(jiān)測、生態(tài)遙感等的基礎(chǔ),其中隱含的規(guī)則和知識也是遙感反演如地面組分反演、陸面溫度反演等的基礎(chǔ)。數(shù)據(jù)挖掘發(fā)現(xiàn)的知識可以建立相應(yīng)的決策規(guī)則和專題知識。
(三)高光譜分類與亞像元分解
分類是遙感應(yīng)用的重要環(huán)節(jié),基于知識的自動(dòng)分類目前是遙感分類的熱點(diǎn)?;谥R的高光譜遙感分類的基礎(chǔ)是領(lǐng)域知識,而這正是數(shù)據(jù)挖掘的優(yōu)勢所在。亞像元分解與混合像元分類是高光譜遙感信息處理的重要內(nèi)容,數(shù)據(jù)挖掘在純凈像元提取及分解知識與規(guī)則發(fā)現(xiàn)方面可以發(fā)揮作用。
(四)特征提取與最優(yōu)特征組合選擇
實(shí)現(xiàn)面向應(yīng)用的特征提取與最優(yōu)特征組合對于充分應(yīng)用高光譜信息、減少信息冗余、提高處理效率具有重要作用,也是目前高光譜應(yīng)用中的主要模式之一。隨著研究的深入,可以預(yù)言數(shù)據(jù)挖掘在高光譜遙感信息處理與應(yīng)用中將可以發(fā)揮更加深入和重要的作用,促進(jìn)高光譜遙感的快速發(fā)展和廣泛應(yīng)用。
參考文獻(xiàn):
1、Fu L M.Rule generation from neural networks[J].IEEE Trans onSystems,Man and Cybernetics,1994(8).
2、Towell G,Shavlik.The extraction of refined rules from knowledgebased neural networks[J].Maching Learning,1993(1).
3、袁曾任,盧振中.由神經(jīng)網(wǎng)絡(luò)提取規(guī)則的一種方法[J].信息與控制,1997(1).
4、劉振凱,貴忠華,蔡青.基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的知識求精方法[J].計(jì)算機(jī)研究與發(fā)展,1999(10).
5、張朝輝.利用神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)分類規(guī)則[J].計(jì)算機(jī)學(xué)報(bào),1999(1).
6、黃源,蕭嶸,張福炎.神經(jīng)網(wǎng)絡(luò)的規(guī)則提取研究[J].計(jì)算機(jī)研究與發(fā)展,1999(9).
7、Tu Peilei,Chung Jenyao.A new decision2tree classification algorithm for machine learning[C]. In Proceedings of the 1992 IEEE International Conference on Tools for Artificial Intelligence. Arlington , VA ,Quinlan J R. Induction of Decision Trees[M].Machine Learning,1986.
8、劉小虎,李生.決策樹的優(yōu)化算法[J].軟件學(xué)報(bào),1998(10).
9、洪家榮,丁明峰,李星原等.一種新的決策樹歸納學(xué)習(xí)算法[J].計(jì)算機(jī)學(xué)報(bào),1995(6).
10、Schlimmer J C, Fisher D. A case study of incremental concept induction [C].In Proceedings of AAAI286,1986.
11、苗奪謙,王玨.基于粗糙集的多變量決策樹構(gòu)造方法[J].軟件學(xué)報(bào),1997(6).
12、劉興華.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用研究[J].遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2002(2).
13、于金龍,李曉紅,孫立新.連續(xù)屬性的整體離散化[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2000(3).
14、李永敏,朱善君,陳湘暉等.根據(jù)粗糙集理論進(jìn)行BP網(wǎng)絡(luò)設(shè)計(jì)的研究[J].系統(tǒng)工程理論與實(shí)踐,1999(4).
(作者單位:湖南農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院土地資源利用與信息技術(shù)專業(yè))