国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在環(huán)境科研領(lǐng)域的應(yīng)用研究

2009-06-05 03:59李麗萍
新媒體研究 2009年9期
關(guān)鍵詞:數(shù)據(jù)挖掘環(huán)境應(yīng)用

姚 鵬 李麗萍

[摘要]隨著信息化時(shí)代的到來,如何在這些海量數(shù)據(jù)信息中找到用戶真正需要的內(nèi)容,對于科學(xué)研究的順利開展有著十分重要的意義,介紹數(shù)據(jù)挖掘的相關(guān)概念、數(shù)據(jù)挖掘基本原理,并對其在環(huán)境領(lǐng)域中的應(yīng)用進(jìn)行了研究。

[關(guān)鍵詞]數(shù)據(jù)挖掘 環(huán)境 應(yīng)用

中圖分類號:G31文獻(xiàn)標(biāo)識碼:A文章編號:1671-7597(2009)0510098-01

一、數(shù)據(jù)挖掘概述

(一)數(shù)據(jù)挖掘的概念。數(shù)據(jù)挖掘是近年來隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種多學(xué)科交叉的全新信息技術(shù),尤其是隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要研究的重要課題。數(shù)據(jù)挖掘是指從海量的數(shù)據(jù)中出潛在的、有價(jià)值的知識(模型或規(guī)則)的過程,他反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測數(shù)據(jù)中確定模式或合理模型。也就是根據(jù)預(yù)定義的目標(biāo),對大量的數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱含的規(guī)律,并進(jìn)一步將其模型化的先進(jìn)有效的技術(shù)過程。

數(shù)據(jù)挖掘主要做以下不同的事情:分類(classification)、估值(estimation)、預(yù)測(prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(affin

ity grouping or association rules)、聚類(clustering)、描述和可視化(description and visualization)。

1.分類。分類也就是區(qū)分?jǐn)?shù)據(jù)類別。首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘的分類技術(shù),建分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。

2.估值。估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出,同時(shí)分類的類別是確定數(shù)目的,估值的量是不確定的。

3.預(yù)測。通常,預(yù)測是通過分類或估值來產(chǎn)生作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。預(yù)測其目的是對未知變量的預(yù)測,這種預(yù)測是需要時(shí)間來驗(yàn)證的。

4.相關(guān)性分組或關(guān)聯(lián)規(guī)則。通過分析記錄或數(shù)據(jù)間的關(guān)系,決定哪些東西將同時(shí)發(fā)生。

5.聚類。聚類是對記錄進(jìn)行分組,把相似的記錄分在一個(gè)聚集里。聚類和分類的區(qū)別是聚類不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。

6.描述和可視化。即對數(shù)據(jù)進(jìn)行歸約、概化或圖形描述等。

(二)數(shù)據(jù)挖掘的基本原理。數(shù)據(jù)挖掘的基本原理的處理過程:1. 目標(biāo)數(shù)據(jù)集就是根據(jù)用戶要求,從各種資源中提取的相關(guān)有用數(shù)據(jù),數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進(jìn)行數(shù)據(jù)提取;2.預(yù)處理是整理目標(biāo)數(shù)據(jù),除去明顯錯(cuò)誤和冗余的數(shù)據(jù),進(jìn)一步精簡所選數(shù)據(jù)的有效部分,并將數(shù)據(jù)轉(zhuǎn)換成有效形式,以使數(shù)據(jù)通過算法和建模(包括選取合適的模型和參數(shù))構(gòu)造成模型,并用一定的方法表達(dá)成某種易于理解的形式;3.模式分析是對發(fā)現(xiàn)的模式進(jìn)行解釋和評估,必要時(shí)需返回前面處理中的某些步驟進(jìn)行反復(fù)提取,最后將發(fā)現(xiàn)的知識以能理解的方式提供給用戶。

二、數(shù)據(jù)挖掘在環(huán)境科學(xué)研究領(lǐng)域中的應(yīng)用

(一)環(huán)境科學(xué)領(lǐng)域信息化的現(xiàn)狀。隨著信息化的進(jìn)一步推廣,環(huán)境科學(xué)作為一個(gè)跟我們生活息息相關(guān)的領(lǐng)域,能快速、準(zhǔn)確獲取有用的信息,對于開展正常的科研工作有這非同一般的意義。當(dāng)前的查詢手段(主要指搜索引擎)一般只限于一些基本的數(shù)據(jù)查詢操作,只能對數(shù)據(jù)“粗加工”,不能從這些數(shù)據(jù)中歸納出隱含的有用的知識,使得這些知識不為人知和無法利用,這實(shí)際上是對網(wǎng)絡(luò)信息資源的一種浪費(fèi)。如何快速方便的獲取滿足需要的準(zhǔn)確信息一直是關(guān)注的熱點(diǎn)。

(二)通過數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)環(huán)境信息資源最大限度的共享。根據(jù)目前環(huán)境信息資源的現(xiàn)狀和對未來環(huán)境信息管理的需求,利用數(shù)據(jù)挖掘和元數(shù)據(jù)管理、XML數(shù)據(jù)交換等技術(shù)相結(jié)合,集中政務(wù)信息、業(yè)務(wù)數(shù)據(jù)、環(huán)境監(jiān)測、環(huán)境統(tǒng)計(jì)、排污收費(fèi)、排污申報(bào)、污染源監(jiān)控等和遙感地理信息、環(huán)境科研、環(huán)保產(chǎn)業(yè)以及相關(guān)基礎(chǔ)資料數(shù)據(jù)等信息資源,實(shí)現(xiàn)全省環(huán)境信息資源共享。基本實(shí)現(xiàn)對各個(gè)地區(qū)環(huán)境信息的統(tǒng)一管理和查詢,為各級環(huán)境管理部門提供環(huán)境信息共享支持和服務(wù)。

(三)通過數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)規(guī)范環(huán)境信息資源的科學(xué)規(guī)范管理。特別是對已有的基礎(chǔ)資料以及政務(wù)信息、環(huán)境質(zhì)量監(jiān)測和污染源管理重點(diǎn)業(yè)務(wù)應(yīng)用系統(tǒng)積累的數(shù)據(jù)進(jìn)行整理,轉(zhuǎn)化成可開發(fā)利用的環(huán)境信息資源;改造、整合和集成各種環(huán)境數(shù)據(jù),初步建成集中-分布式省級環(huán)境數(shù)據(jù)庫體系,其中包括環(huán)境法規(guī)與標(biāo)準(zhǔn)信息數(shù)據(jù)庫、環(huán)境政務(wù)信息數(shù)據(jù)庫、環(huán)境統(tǒng)計(jì)信息數(shù)據(jù)庫、環(huán)境質(zhì)量監(jiān)測信息數(shù)據(jù)庫、排污申報(bào)信息數(shù)據(jù)庫、輻射環(huán)境管理信息數(shù)據(jù)庫、環(huán)境科技情報(bào)信息數(shù)據(jù)庫、重點(diǎn)污染源數(shù)據(jù)庫、生態(tài)環(huán)境數(shù)據(jù)庫、自然保護(hù)和生物多樣性數(shù)據(jù)庫、重大污染事故數(shù)據(jù)庫、城市環(huán)境綜合整治數(shù)據(jù)庫、環(huán)境地理信息數(shù)據(jù)庫、環(huán)境遙感數(shù)據(jù)庫等等。采用數(shù)據(jù)挖掘技術(shù),通過神經(jīng)網(wǎng)絡(luò)和近似推理等手段,建立非線性預(yù)測、分類模型研究分析各種環(huán)境數(shù)據(jù)之間的聯(lián)系與規(guī)律,并且把通過分析得來的規(guī)律和環(huán)境管理決策結(jié)合起來,從而提高環(huán)境管理的科學(xué)性、客觀性和準(zhǔn)確性。

(四)通過數(shù)據(jù)挖掘技術(shù)提供科學(xué)的環(huán)境管理決策支持。通過數(shù)據(jù)挖掘分析、整合、加工各類環(huán)境信息資源,為環(huán)境信息管理工作和輔助決策提供所需的各類信息資源,對各級環(huán)境管理部門的管理者和決策者提供有效信息資源,建立可伸縮的知識分類引擎、實(shí)現(xiàn)智能的知識發(fā)現(xiàn)功能。以實(shí)現(xiàn)環(huán)境信息資源共享為出發(fā)點(diǎn),提高環(huán)境信息資源開發(fā)利用水平、為環(huán)境信息管理與決策提供支持和服務(wù)。數(shù)據(jù)挖掘是一個(gè)活躍的研究領(lǐng)域,也是人工智能、計(jì)算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展和普及所提出的迫切需要解決的重要課題。作為一項(xiàng)新技術(shù),大力開發(fā)使用數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)全省環(huán)境信息的統(tǒng)一收集、存儲(chǔ)、加工與發(fā)布。采取多種措施,有效利用環(huán)境信息資源,提高環(huán)境信息的資源價(jià)值,開發(fā)和利用水平,保證最大限度地為環(huán)境管理與決策提供環(huán)境信息支持和服務(wù)。

(五)有利于指導(dǎo)環(huán)境問題的解決。通過采集環(huán)境科研方面的各種信息數(shù)據(jù),經(jīng)過數(shù)據(jù)挖掘技術(shù)的處理和加工,可以發(fā)現(xiàn)環(huán)境的信息動(dòng)向,從而可以據(jù)此給出及時(shí)解決措施,調(diào)整環(huán)境布局,達(dá)到我們治理環(huán)境的目標(biāo)。

本文探討數(shù)據(jù)挖掘的相關(guān)知識,并對在環(huán)境科研決策領(lǐng)域中如何使用數(shù)據(jù)挖掘技術(shù)進(jìn)行了一些闡述。如何進(jìn)一步發(fā)展數(shù)據(jù)挖掘,充分利用各種信息資源,勢必需要進(jìn)行更加深入的研究,數(shù)據(jù)挖掘的研究將充滿挑戰(zhàn)又極富發(fā)展?jié)摿?。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,它將會(huì)更加廣泛的應(yīng)用在環(huán)境科學(xué)領(lǐng)域。

參考文獻(xiàn):

[1]劉富剛,環(huán)境問題的分析與對策[J]德州學(xué)院學(xué)報(bào),2001(04).

[2]黃添強(qiáng),基于空間數(shù)據(jù)挖掘的環(huán)境調(diào)控空間決策支持系統(tǒng)研究[D].中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫(碩士),2003(02).

作者簡介:

姚鵬,男,寧夏中寧人,寧夏化工技師學(xué)院助理講師,同濟(jì)大學(xué)軟件學(xué)院在讀研究生,研究方向:信息系統(tǒng)、環(huán)境工程;李麗萍,女,寧夏工商職業(yè)技術(shù)學(xué)院助教,同濟(jì)大學(xué)軟件學(xué)院在讀研究生,研究方向:數(shù)據(jù)庫及信息管理。

猜你喜歡
數(shù)據(jù)挖掘環(huán)境應(yīng)用
環(huán)境清潔工
數(shù)據(jù)挖掘綜述
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
會(huì)計(jì)與統(tǒng)計(jì)的比較研究
基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
漫觀環(huán)境
一本面向中高級讀者的數(shù)據(jù)挖掘好書