国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘的前期準(zhǔn)備

2013-04-29 00:44:03管軍偉
上海信息化 2013年8期
關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則領(lǐng)域

管軍偉

無線電管理各類數(shù)據(jù)庫標(biāo)準(zhǔn)的制訂,科學(xué)地定義了數(shù)據(jù)模型。網(wǎng)格化監(jiān)測等項(xiàng)目的推廣,加強(qiáng)了數(shù)據(jù)的時空關(guān)聯(lián)屬性,數(shù)據(jù)世界描述現(xiàn)實(shí)世界的能力明顯增強(qiáng)。然而,傳統(tǒng)的數(shù)據(jù)分析技術(shù)已無力應(yīng)對當(dāng)今的海量數(shù)據(jù)。令人慶幸的是,專用于破解此類難題的數(shù)據(jù)挖掘技術(shù)已枕戈待旦。在整個數(shù)據(jù)挖掘過程中,近80%的時間都是在準(zhǔn)備數(shù)據(jù),可見,前期準(zhǔn)備對數(shù)據(jù)挖掘具有重要意義。

數(shù)據(jù)挖掘(Data Mining,簡稱DM)是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、統(tǒng)計學(xué)、人工智能等學(xué)科的知識,能夠提供多種功能:概念描述——根據(jù)數(shù)據(jù)的微觀特征來表征數(shù)據(jù)集;關(guān)聯(lián)分析——揭示事物之間的依賴或者關(guān)聯(lián)關(guān)系;預(yù)測分析——根據(jù)歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),預(yù)測未來數(shù)據(jù);聚類分析——發(fā)現(xiàn)內(nèi)在的規(guī)則,識別出緊密相關(guān)的觀測值組群;異常檢測——識別出特征顯著不同于其他數(shù)據(jù)的觀測值。

嚴(yán)格地說,數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databases, 簡稱KDD)的一個步驟(如圖1所示),但在實(shí)際中,兩者通常被等同視之,筆者也循例統(tǒng)一使用“數(shù)據(jù)挖掘”一詞加以表述。

數(shù)據(jù)挖掘一開始就是面向應(yīng)用的,它封裝了相關(guān)學(xué)科中復(fù)雜高深的理論和技術(shù),大幅降低了應(yīng)用門檻。然而,成功的數(shù)據(jù)挖掘并非一蹴而就,需要從幾個方面著手準(zhǔn)備:

正確認(rèn)識數(shù)據(jù)挖掘

一般來說,數(shù)據(jù)挖掘處理的數(shù)據(jù)規(guī)模都很大,挖掘出來的結(jié)果是不確定的,只有結(jié)合領(lǐng)域知識才能判斷其價值。數(shù)據(jù)挖掘既要擔(dān)負(fù)發(fā)現(xiàn)潛在規(guī)則的任務(wù),還要應(yīng)對新數(shù)據(jù)的管理和規(guī)則維護(hù)。規(guī)則的發(fā)現(xiàn)基于大樣本的統(tǒng)計規(guī)律,當(dāng)置信度達(dá)到某一閾值時,就可以認(rèn)為規(guī)則成立。

顯而易見,數(shù)據(jù)挖掘不同于傳統(tǒng)的決策支持系統(tǒng)。傳統(tǒng)的決策支持系統(tǒng)通常是先建立一系列的假設(shè),然后通過數(shù)據(jù)查詢和分析來驗(yàn)證或否定假設(shè),最終得到自己的結(jié)論,它在本質(zhì)上是一個演繹推理的過程。而數(shù)據(jù)挖掘是按照給定的算法,自動地對數(shù)據(jù)進(jìn)行歸納、分析和推理,從中發(fā)掘出潛在的模式,它在本質(zhì)上是一個歸納的過程。

認(rèn)識數(shù)據(jù)挖掘應(yīng)避免走向兩個極端。有的人認(rèn)為數(shù)據(jù)挖掘一無是處。事實(shí)上,數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于金融、保險、通訊、商業(yè)、制造、體育、醫(yī)療衛(wèi)生等領(lǐng)域,且成效明顯;也有的人認(rèn)為數(shù)據(jù)挖掘無所不能。事實(shí)上,數(shù)據(jù)挖掘只是一個幫助人們從海量數(shù)據(jù)中去發(fā)現(xiàn)各種假設(shè)的工具,至于假設(shè)是否正確,還需放到實(shí)踐中去驗(yàn)證。

熟悉領(lǐng)域業(yè)務(wù)

普遍認(rèn)為,數(shù)據(jù)挖掘在某領(lǐng)域的成功不能期望于通用的輔助開發(fā)工具,而應(yīng)該是數(shù)據(jù)挖掘概念與特定領(lǐng)域業(yè)務(wù)邏輯相結(jié)合的縱向解決方案。也就是說,數(shù)據(jù)挖掘不可能在缺乏指導(dǎo)的情況下自動地發(fā)現(xiàn)規(guī)則,這也是數(shù)據(jù)挖掘?yàn)楹螞]有在特定領(lǐng)域被廣泛應(yīng)用的主要原因之一。

跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)(Cross-Industry Standard Process for Data Mining,簡稱CRISP-DM)是業(yè)界廣為認(rèn)可的數(shù)據(jù)挖掘方法論,它將數(shù)據(jù)挖掘過程分為六個階段(如圖2所示):“業(yè)務(wù)理解”是從業(yè)務(wù)的角度理解需求,定義問題;“數(shù)據(jù)理解”從現(xiàn)行的應(yīng)用系統(tǒng)入手,深入了解和認(rèn)識數(shù)據(jù);“數(shù)據(jù)準(zhǔn)備”選擇與要探索問題相關(guān)的數(shù)據(jù)子集并清洗數(shù)據(jù);“建?!奔唇Y(jié)合業(yè)務(wù)選擇算法、調(diào)整閾值,建立挖掘模型;“評估”在實(shí)際中檢驗(yàn)挖掘的結(jié)論,重點(diǎn)考慮是否符合目標(biāo);“部署”會獲得的知識以便于用戶使用的方式重新組織和展現(xiàn)。業(yè)務(wù)研究貫穿了整個數(shù)據(jù)挖掘過程,它也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問。

深入認(rèn)知數(shù)據(jù)

一直以來,人們給予數(shù)據(jù)研究的關(guān)注較少。然而,它是最基礎(chǔ)的工作,整個數(shù)據(jù)挖掘過程中有近80%的時間都是在準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)的價值在于正確的解讀,如果不能正確選用數(shù)據(jù),就無法保證挖掘的有效性。對數(shù)據(jù)的認(rèn)知應(yīng)當(dāng)結(jié)合具體業(yè)務(wù),包含兩部分內(nèi)容:

一是認(rèn)知數(shù)據(jù)的屬性。它關(guān)系到后續(xù)算法的選擇以及挖掘行動的成敗。數(shù)據(jù)屬性可細(xì)分為外部屬性和內(nèi)部屬性。外部屬性是指數(shù)據(jù)的來源、可獲取(訪問)性、可理解性以及對業(yè)務(wù)工作的體現(xiàn)程度;內(nèi)部屬性是指數(shù)據(jù)的結(jié)構(gòu)、屬性值類型以及屬性間的關(guān)聯(lián)等。

二是認(rèn)知數(shù)據(jù)的質(zhì)量。它關(guān)系到數(shù)據(jù)挖掘的效率以及挖掘結(jié)果的可靠性。一般來說,基于各種各樣的原因,數(shù)據(jù)的質(zhì)量大都不高,因此,數(shù)據(jù)挖掘的大部分精力都耗費(fèi)在如何提高數(shù)據(jù)的質(zhì)量上。數(shù)據(jù)質(zhì)量有多種考量方法,可以簡單地認(rèn)為它是反映數(shù)據(jù)對特定應(yīng)用的滿足程度,包括完整性、一致性、準(zhǔn)確性和及時性等指標(biāo)。

就無線電管理的數(shù)據(jù)而言,各類數(shù)據(jù)庫的標(biāo)準(zhǔn)對數(shù)據(jù)實(shí)體、實(shí)體屬性、實(shí)體間的關(guān)系都有完備的數(shù)學(xué)建模,因此,數(shù)據(jù)具有良好的屬性,總體上質(zhì)量較高,但也存在一些諸如數(shù)據(jù)拼寫錯誤、數(shù)據(jù)值無效、記錄重復(fù)等實(shí)例層面的缺陷,需要結(jié)合業(yè)務(wù)采取針對措施來加以清洗。

選擇適用的算法

算法(Algorithms)是數(shù)據(jù)挖掘的核心,也是業(yè)界學(xué)者研究和貢獻(xiàn)最多的領(lǐng)域。數(shù)據(jù)挖掘的算法較為齊全和成熟,同一問題可以用不同的方法解決,同一方法又可以用不同的算法來實(shí)現(xiàn),例如分類功能就可以有多種算法來實(shí)現(xiàn)(如下表所示),它們各有優(yōu)劣。

常用分類方法比較表

總之,算法的選擇必須謹(jǐn)慎,每種算法都有各自的適用場景,所以必須緊密結(jié)合業(yè)務(wù),根據(jù)挖掘的任務(wù)和數(shù)據(jù)的情況來加以選擇。算法并非越高深的越好,適用的才是最好的。它的評估標(biāo)準(zhǔn)包括挖掘的有效性、可靠性及運(yùn)行效率等指標(biāo)。同時,算法的使用應(yīng)當(dāng)靈活,成熟的算法多為普適設(shè)計,而特定領(lǐng)域的挖掘任務(wù)有其特定的約束條件,因此照搬算法未必能夠圓滿解決問題,往往需要根據(jù)實(shí)際情況調(diào)整或者改進(jìn)算法,必要時也可組合使用多種算法。

雖然數(shù)據(jù)挖掘的結(jié)果是不可預(yù)期的,但是基本的應(yīng)用方向是可以預(yù)想的。比如可以挖掘頻譜監(jiān)測數(shù)據(jù),嘗試應(yīng)用概念描述功能以探究頻譜的時間、空間和頻率特性;也可以嘗試應(yīng)用序列模式挖掘來幫助鑒別非法信號和查處干擾等等。數(shù)據(jù)挖掘的前景必將精彩紛呈。

猜你喜歡
數(shù)據(jù)挖掘規(guī)則領(lǐng)域
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
領(lǐng)域·對峙
青年生活(2019年23期)2019-09-10 12:55:43
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規(guī)則對我國的啟示
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
新常態(tài)下推動多層次多領(lǐng)域依法治理初探
基于GPGPU的離散數(shù)據(jù)挖掘研究
富顺县| 海宁市| 安远县| 沂水县| 竹溪县| 壶关县| 舟曲县| 衡东县| 鄂尔多斯市| 鹤峰县| 疏勒县| 密山市| 理塘县| 玛纳斯县| 泸溪县| 遵化市| 万全县| 固安县| 呼和浩特市| 德阳市| 达州市| 信丰县| 庆安县| 当阳市| 泰兴市| 成安县| 柳林县| 娱乐| 南岸区| 福鼎市| 米脂县| 蒙城县| 葵青区| 崇州市| 长治县| 庆安县| 鄂州市| 平昌县| 天门市| 通许县| 南宁市|