夏英明
摘要:數(shù)據(jù)挖掘自誕生之日起就成為信息產(chǎn)業(yè)的熱點(diǎn)研究領(lǐng)域,從大量數(shù)據(jù)中挖掘有潛在價值的信息對商務(wù)、生產(chǎn)、科學(xué)探索等活動具有現(xiàn)實價值和重要意義。隨著數(shù)據(jù)挖掘技術(shù)在不同領(lǐng)域的不斷深入應(yīng)用,獲取有用信息的過程越來越快速、高效、便捷。
關(guān)鍵詞:數(shù)據(jù)挖掘;技術(shù)方法;應(yīng)用
中圖分類號:TP311.13?? 文獻(xiàn)標(biāo)識碼:A?? 文章編號:1672-9129(2020)16-0081-01
1 數(shù)據(jù)挖掘
數(shù)據(jù)庫系統(tǒng)的成功使事務(wù)處理具備了更高效便捷的工具,然而人們更希望計算機(jī)能夠?qū)ωS富的數(shù)據(jù)進(jìn)行分析理解,為決策提供依據(jù),于是數(shù)據(jù)挖掘就成為了處理信息的更高需求。數(shù)據(jù)挖掘不同于簡單的數(shù)據(jù)搜索,從多種數(shù)據(jù)源中提取關(guān)鍵性數(shù)據(jù)只是挖掘的第一步,分析這些數(shù)據(jù)表達(dá)的規(guī)則、概念、內(nèi)在聯(lián)系等才是其核心目標(biāo)[1]。作為一門發(fā)展極快的邊緣性學(xué)科,數(shù)據(jù)挖掘從多門其他學(xué)科領(lǐng)域汲取營養(yǎng),借鑒經(jīng)驗,也促進(jìn)這些交叉學(xué)科的蓬勃發(fā)展。
2 數(shù)據(jù)挖掘技術(shù)方法
2.1統(tǒng)計學(xué)。統(tǒng)計學(xué)是利用統(tǒng)計模型完成數(shù)據(jù)的收集、分析、解釋和表示,一些成熟的統(tǒng)計學(xué)技術(shù),如主成成分分析、聚類等已經(jīng)被廣泛應(yīng)用到數(shù)學(xué)、物理等科學(xué)領(lǐng)域。數(shù)據(jù)挖掘過程也經(jīng)常利用統(tǒng)計學(xué)的相關(guān)理論,例如,描述統(tǒng)計學(xué)可以作為分析數(shù)據(jù)總體客觀規(guī)律的基礎(chǔ);而借助推斷統(tǒng)計學(xué)可以對已知的隨機(jī)樣本數(shù)據(jù)進(jìn)行建模,以樣本推斷總體,提取結(jié)論。
2.2機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是計算機(jī)向人工智能轉(zhuǎn)化的主要途徑,包含決策樹、神經(jīng)網(wǎng)絡(luò)等多種技術(shù)方法[2]。機(jī)器學(xué)習(xí)在實際應(yīng)用過程中限制較少且具備自動化、可自定義等優(yōu)點(diǎn),因此也受到數(shù)據(jù)挖掘的重視。例如,目前已有將神將網(wǎng)絡(luò)用在部分疾病特征分類、識別上的醫(yī)療數(shù)據(jù)挖掘和將支持向量機(jī)用于葡萄酒品質(zhì)分析的食品數(shù)據(jù)挖掘。
2.3信息檢索。信息檢索是搜索文本或多媒體信息的科學(xué),通常以關(guān)鍵字作為主要查詢目標(biāo),使用主題模型表達(dá)一個文本文檔集詞匯表的概率分布模型,方便對文本信息的理解分析。由于數(shù)字化應(yīng)用和網(wǎng)頁應(yīng)用的快速普及,針對文本和多媒體信息的有效搜索和分析也成為數(shù)據(jù)挖掘的主要任務(wù)之一,因此信息檢索技術(shù)的集成也變得尤為重要。
2.4數(shù)據(jù)庫。大部分?jǐn)?shù)據(jù)挖掘任務(wù)都涉及對大型數(shù)據(jù)集的處理,有些高要求任務(wù)更是需要挖掘能夠?qū)崟r處理。很多數(shù)據(jù)庫系統(tǒng)已經(jīng)集成了數(shù)據(jù)建模、查詢優(yōu)化、存儲索引等功能,在處理相對結(jié)構(gòu)化的大型數(shù)據(jù)集上有巨大優(yōu)勢。因此數(shù)據(jù)挖掘可以利用數(shù)據(jù)庫的優(yōu)點(diǎn)獲得處理大數(shù)據(jù)集的高效率和可伸縮性。
3 數(shù)據(jù)挖掘技術(shù)應(yīng)用
3.1市場營銷。對于市場營銷而言,如何更好的理解顧客、市場供求、市場資源和競爭對手等背景信息至關(guān)重要,由此數(shù)據(jù)挖掘是應(yīng)用在市場營銷分析層面的重要工具。舉例來說,分類挖掘可以為市場形勢、供應(yīng)等方面提供依據(jù);聚類挖掘可以劃分相似顧客,為顧客提供更優(yōu)質(zhì)的服務(wù);特征挖掘分析顧客喜好,選擇性推送更符合顧客喜好的資訊或產(chǎn)品。
3.2工業(yè)制造。工業(yè)4.0時代的核心是智能制造,而智能制造同樣離不開數(shù)據(jù)挖掘。工業(yè)制造過程會產(chǎn)生大量生產(chǎn)、測試數(shù)據(jù),利用數(shù)據(jù)挖掘?qū)?shù)據(jù)進(jìn)行科學(xué)分類、統(tǒng)計對比,得到產(chǎn)品的合格率、質(zhì)量特性等信息,不僅可以提升制造效率,也能保證產(chǎn)品優(yōu)質(zhì)程度,創(chuàng)造更大效益,推動智能制造的發(fā)展。
3.3科學(xué)研究??茖W(xué)研究的首要步驟就是從海量數(shù)據(jù)中獲取有效信息,其次要進(jìn)行不斷的實驗嘗試和改進(jìn),最后要?dú)w納、分析、總結(jié)實驗數(shù)據(jù),可以說數(shù)據(jù)是科研工作成敗的關(guān)鍵。數(shù)據(jù)挖掘可以快速篩選、甄別有效信息為科學(xué)研究提供基礎(chǔ)[3],還可以對實驗數(shù)據(jù)進(jìn)行不同形式的處理,剖析數(shù)據(jù)內(nèi)在聯(lián)系,為科學(xué)研究的決策提供重要參考。
3.4網(wǎng)絡(luò)安全。對互聯(lián)網(wǎng)安全問題的探討自互聯(lián)網(wǎng)技術(shù)應(yīng)用至今從未停止,而數(shù)據(jù)挖掘為非法入侵的檢測和預(yù)防提供了新的技術(shù)手段。防護(hù)過程主要針對攻擊特征和網(wǎng)絡(luò)異常進(jìn)行檢測,數(shù)據(jù)挖掘可以根據(jù)已知數(shù)據(jù)導(dǎo)出分類模型、正常行為模型檢測入侵和行為異常;可以構(gòu)建關(guān)聯(lián)模式挖掘網(wǎng)絡(luò)數(shù)據(jù)的內(nèi)在聯(lián)系,選擇更有利于檢測的屬性;還可以通過流數(shù)據(jù)分析、分布式挖掘等,提供更全面的預(yù)防手段。
4 數(shù)據(jù)挖掘技術(shù)發(fā)展
4.1定向應(yīng)用。最早應(yīng)用數(shù)據(jù)挖掘技術(shù)的就是各類購物網(wǎng)站,電商平臺收集用戶搜索、瀏覽、購買等數(shù)據(jù)信息,分析用戶的購買習(xí)慣、消費(fèi)水平、個人喜好,推送相關(guān)產(chǎn)品的廣告達(dá)到宣傳目的。隨著技術(shù)的不斷成熟,數(shù)據(jù)挖掘也會探索其他應(yīng)用領(lǐng)域,如金融、醫(yī)療、教育、電信等。由于特定應(yīng)用領(lǐng)域問題具有不同的特征和挖掘需求,因此數(shù)據(jù)挖掘也會針對不同應(yīng)用環(huán)境開發(fā)定向的系統(tǒng)和工具,降低傳統(tǒng)技術(shù)系統(tǒng)的局限性。
4.2完善技術(shù)。不同的挖掘需求對數(shù)據(jù)挖掘技術(shù)的發(fā)展提出了很多極具挑戰(zhàn)性的研究問題,比如針對不同類型數(shù)據(jù)(時間空間數(shù)據(jù)、多媒體數(shù)據(jù)、生物醫(yī)學(xué)數(shù)據(jù)等)要不斷完善、改進(jìn)挖掘技術(shù),完成高效挖掘。此外,為了防止利用數(shù)據(jù)挖掘技術(shù)惡意侵犯個人隱私數(shù)據(jù)的行為出現(xiàn),使用數(shù)據(jù)挖掘要遵循的技術(shù)規(guī)范和安全機(jī)制也需要更多關(guān)注。
4.3集成化。作為一種數(shù)據(jù)分析手段,數(shù)據(jù)挖掘還需與其他技術(shù)工具集成,提高可擴(kuò)展性和更豐富的功能。例如,數(shù)據(jù)挖掘可以和數(shù)據(jù)庫、搜索引擎、云服務(wù)等主流的信息存儲、處理、計算系統(tǒng)耦合成統(tǒng)一架構(gòu),也可以內(nèi)置高級用戶圖形界面等可視化工具對挖掘過程和挖掘結(jié)果進(jìn)行顯示。
5 結(jié)論
數(shù)據(jù)的爆炸式增長使有效信息的獲取不能再僅僅依靠傳統(tǒng)數(shù)據(jù)處理技術(shù),數(shù)據(jù)挖掘作為功能更強(qiáng)大的通用工具應(yīng)運(yùn)而生,也成功應(yīng)用在多個領(lǐng)域,成為信息化社會不可缺少的重要技術(shù)。本文簡要介紹了數(shù)據(jù)挖掘借鑒的部分技術(shù),列舉了數(shù)據(jù)挖掘的幾類應(yīng)用領(lǐng)域,并對數(shù)據(jù)挖掘未來的發(fā)展趨勢進(jìn)行了分析。
參考文獻(xiàn):
[1]胡佳宇.數(shù)據(jù)挖掘技術(shù)應(yīng)用與研究[J].信息通信,2020,(8):128-129.
[2]馬琳,董智鶴,夏嵩,等.數(shù)據(jù)挖掘技術(shù)綜述淺析[J].數(shù)字技術(shù)與應(yīng)用,2019,37(10):230-231.
[3]郭偉偉,吳文臣,隋亮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2020,38(8):103-105.