王赫楠 岳慧平 夏書劍
摘要:由于數(shù)據(jù)的格式、信息等十分復(fù)雜,不利于分析和決策,因此如何在海量數(shù)據(jù)的背景下挖掘出更為有效的信息,以幫助決策者分析和應(yīng)用數(shù)據(jù),成為亟待解決的問題?;诖?,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,其主要應(yīng)用于數(shù)據(jù)集。文章主要研究了如何從海量數(shù)據(jù)集中挖掘出有價值、有規(guī)律的信息。
關(guān)鍵詞:數(shù)據(jù)挖掘;系統(tǒng)開發(fā);存儲
中圖法分類號:TP311文獻(xiàn)標(biāo)識碼:A
Research on application of data mining technology underbackground of big data
WANG Henan, YUE Huiping,XIA Shujian
(Liaoning University of Traditional Chinese Mledicine,Shenyang 110000,China)
Abstract:Since the format and information of data are very complex, which is not conducive to analysis and decision-making, how to mine more effective information in the context of massive data to help decision-makers analyze and apply data has become an urgent problem to be solved. Based on this, data mining technology emerges as the times require. It is mainly used in data sets. How to mine valuable and regular information from massive data sets is the main content of data mining research.
Key words: data mining, system development,storage
1引言
各行業(yè)都會產(chǎn)生海量的數(shù)據(jù),這是由于信息技術(shù)(云計算技術(shù)、移動計算技術(shù)、機器學(xué)習(xí)技術(shù)等)的不斷進(jìn)步,以及硬件存儲能力、云平臺存儲能力的不斷提升所致。大量的數(shù)據(jù)背后蘊藏著有效的信息,這些信息將為教育、電商、醫(yī)療、科研等領(lǐng)域的發(fā)展提供參考依據(jù),研究者需要對其進(jìn)行分析和整理。如何從這些數(shù)據(jù)中提取有價值、有規(guī)律的信息,以便在分析和決策的過程中發(fā)揮更為有效的作用,是研究者急須解決的問題。
數(shù)據(jù)挖掘技術(shù)是指從海量的數(shù)據(jù)中挖掘出有用信息的一門技術(shù)。數(shù)據(jù)挖掘技術(shù)涉及統(tǒng)計學(xué)原理、知識工程技術(shù)、數(shù)據(jù)檢索技術(shù)、人工智能領(lǐng)域以及數(shù)據(jù)庫技術(shù)等[1~5],其應(yīng)用范圍較廣。當(dāng)下,教育、醫(yī)療、科學(xué)研究、傳統(tǒng)工業(yè)制造、金融分析等領(lǐng)域均可以利用數(shù)據(jù)挖掘技術(shù)挖掘和整理數(shù)據(jù)信息,對行業(yè)的發(fā)展產(chǎn)生了積極作用。
2概述
隨著技術(shù)不斷進(jìn)步,人們可以方便地獲取和存儲大量數(shù)據(jù),企業(yè)的關(guān)注點從獲取數(shù)據(jù)信息轉(zhuǎn)變?yōu)樘崛?shù)據(jù)中有價值的信息,使其能夠掌握行業(yè)發(fā)展規(guī)律,以獲得更大的經(jīng)濟(jì)效益,從而擴大市場份額。
數(shù)據(jù)挖掘技術(shù)的逐漸發(fā)展可以幫助各領(lǐng)域解決數(shù)據(jù)分析問題。數(shù)據(jù)挖掘技術(shù)涉及專業(yè)領(lǐng)域,如統(tǒng)計學(xué)知識、信息技術(shù)應(yīng)用、分類聚類、人工智能技術(shù)等。如何利用各種技術(shù)和方法輔助數(shù)據(jù)挖掘技術(shù)更好地分析數(shù)據(jù)信息,是數(shù)據(jù)挖掘研究的重要方面。數(shù)據(jù)挖掘技術(shù)的逐漸發(fā)展為各行各業(yè)帶來了一定的經(jīng)濟(jì)效益。因此,數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用受到了企業(yè)人士以及科研工作者的重點關(guān)注,成為研究的熱門領(lǐng)域[6]。
利用數(shù)據(jù)挖掘技術(shù)可以對數(shù)據(jù)信息進(jìn)行深度剖析,挖掘出有價值的內(nèi)容。其涉及范圍較廣,并且在逐漸發(fā)展和延續(xù)。目前,數(shù)據(jù)挖掘技術(shù)主要涉及以幾個方面,即分類和聚類、預(yù)測分析、關(guān)聯(lián)規(guī)則、序列發(fā)現(xiàn)等。為了實現(xiàn)數(shù)據(jù)挖掘功能,主要基于統(tǒng)計分析方法和其他方法。相關(guān)統(tǒng)計分析方法包括時間序列分析、聚類、判別因子和因子分析等。統(tǒng)計分析方法在數(shù)據(jù)挖掘領(lǐng)域的功能支持主要表現(xiàn)在高級多元統(tǒng)計方法。這些統(tǒng)計分析方法目前已經(jīng)較為常見,數(shù)據(jù)挖掘技術(shù)在統(tǒng)計分析方法的基礎(chǔ)上進(jìn)行了擴展和延伸;其他方法主要指模糊邏輯、神經(jīng)網(wǎng)絡(luò)、決策樹等,數(shù)據(jù)挖掘領(lǐng)域?qū)@些方法的應(yīng)用主要體現(xiàn)在工具研發(fā)和應(yīng)用研究等方面。隨著技術(shù)的不斷發(fā)展和成熟,數(shù)據(jù)挖掘技術(shù)也成為各領(lǐng)域數(shù)據(jù)分析的主要手段和研究方向。
近年來,大數(shù)據(jù)分析成為各領(lǐng)域研究的熱點。與此同時,不同的研究者給出的大數(shù)據(jù)定義也各不相同。目前,較為被公眾認(rèn)可的定義是由維基百科、IBM 公司、高德納大數(shù)據(jù)研究部門、國際數(shù)據(jù)中心等提出的。由以上機構(gòu)給出的有關(guān)大數(shù)據(jù)的定義主要考慮大數(shù)據(jù)不同的特征,包括數(shù)據(jù)量大、數(shù)據(jù)種類的繁多、價值密度低、速度快等,給出了有關(guān)大數(shù)據(jù)的定義的不同說明。不論大數(shù)據(jù)的定義如何,其最終目的都是希望從各領(lǐng)域海量的數(shù)據(jù)中提取出對相關(guān)領(lǐng)域發(fā)展有價值的數(shù)據(jù)信息,除卻一些無意義的干擾數(shù)據(jù)信息,能夠?qū)崟r更新的數(shù)據(jù)保持處理的時效性,且要實時處理流式數(shù)據(jù)。
3數(shù)據(jù)挖掘技術(shù)
海量數(shù)據(jù)的背后離不開計算機技術(shù)的發(fā)展,也離不開數(shù)據(jù)搜集能力的提升。目前,在金融、醫(yī)療、商業(yè)、企事業(yè)單位辦公、研發(fā)及開發(fā)等領(lǐng)域已經(jīng)有很多成型的數(shù)據(jù)庫。這些數(shù)據(jù)庫中存儲的數(shù)據(jù)除了數(shù)據(jù)量大的特點外,還有不完善、有噪聲數(shù)據(jù)干擾、模糊、格式不統(tǒng)一、隨機等特點。那么,對于數(shù)據(jù)分析人員來說,如何從這些大體量數(shù)據(jù)中提取出有價值、有規(guī)律的數(shù)據(jù)信息,挖掘人們很難分析出的潛在規(guī)律,是一項具有挑戰(zhàn)性的研究工作。分析數(shù)據(jù)之前,我們需要對時間序列進(jìn)行降維操作,這可以在保留較少數(shù)據(jù)的情況下,反應(yīng)時間序列的主要形態(tài)特征,為之后的數(shù)據(jù)挖掘打下基礎(chǔ)。圖1為原始時間序列及壓縮后的對比。
數(shù)據(jù)挖掘技術(shù)為實現(xiàn)數(shù)據(jù)信息的分類聚類、決策分析提供了依據(jù),數(shù)據(jù)挖掘方法如下。
3.1 Decision tree
Decision tree(決策樹)是數(shù)據(jù)挖掘技術(shù)的典型方法之一,其目的是對數(shù)據(jù)信息進(jìn)行分類處理,其基于信息論原理。首先,創(chuàng)建一個決策樹,依據(jù)是已經(jīng)確定的數(shù)據(jù)集。其次,預(yù)測分析,根據(jù)創(chuàng)建好的決策樹展開工作。創(chuàng)建決策樹是為了形成數(shù)據(jù)規(guī)則。在這個過程中,實現(xiàn)數(shù)據(jù)規(guī)則可視化,由其得出的結(jié)果也更容易理解。決策樹的優(yōu)點較多,如較易理解、處理效率高、較高精確度。目前,決策樹是一種較為常用的數(shù)據(jù)挖掘方法。
3.2 Neural network
Neural network(神經(jīng)網(wǎng)絡(luò))由若干個單元構(gòu)成,這些單元類似于人腦中的神經(jīng)元。我們將這些單元稱為節(jié)點,神經(jīng)網(wǎng)絡(luò)由這些節(jié)點在網(wǎng)絡(luò)中彼此連接構(gòu)成。一旦有數(shù)據(jù)輸入,節(jié)點彼此協(xié)同工作,以確定數(shù)據(jù)模式。輸入層、中間層、輸出層是組成神經(jīng)網(wǎng)絡(luò)的三個層次。
3.3 Genetic algorithm
Genetic algorithm 遺傳算法包含染色體的概念,這里的染色體不同于人體的染色體,其由問題可能的解按照一定的方式進(jìn)行編碼產(chǎn)生。創(chuàng)建初始種群,根據(jù)選取的若干染色體計算適應(yīng)值,根據(jù)預(yù)定的評價函數(shù)計算初始種群中染色體的適應(yīng)值。具有高適應(yīng)值的染色體代表其性能較好。對性能較好的染色體進(jìn)行 copy,利用遺傳算子,生成性能更好的染色體,進(jìn)而形成新的種群,直到最后形成一個性能最優(yōu)、最能適應(yīng)環(huán)境的個體,即可形成最優(yōu)解。
3.4數(shù)據(jù)可視化
大體量的數(shù)據(jù)有時不能直觀反應(yīng)其規(guī)律,很難直接觀察其規(guī)律,用于工作和科研。數(shù)據(jù)挖掘技術(shù)提供了可視化系統(tǒng)。利用多維數(shù)據(jù)中的關(guān)鍵點,可視化呈現(xiàn)數(shù)據(jù)的發(fā)展趨勢和形態(tài)特征??梢暬ぞ呔哂性鰪娫袌D形工具的效果,對于多維數(shù)據(jù)可進(jìn)行可視化操作。
3.5粗糙集法
針對不完善、不精確、模糊的處理問題,我們可以使用粗糙集理論的方法。粗糙集理論的優(yōu)缺點如下:優(yōu)點—無須一些擴充的數(shù)據(jù)信息以及預(yù)備信息,算法十分簡單;缺點—需要先分類屬性,對于連續(xù)屬性處理效果不好。在粗糙集理論應(yīng)用中,如何離散化連續(xù)的屬性是難點。粗糙集理論可以處理數(shù)據(jù)約簡、相關(guān)性挖掘、評估數(shù)據(jù)等問題,主要應(yīng)用于預(yù)測模型創(chuàng)建、數(shù)字邏輯分析以及近似推理等方面。
4大數(shù)據(jù)背景下的數(shù)據(jù)挖掘技術(shù)
大數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)種類繁多、數(shù)據(jù)量大,因此不同于以往的數(shù)據(jù)挖掘方法。大數(shù)據(jù)挖掘技術(shù)不再過多依賴傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的算法和模型。針對海量數(shù)據(jù),大數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以發(fā)揮較好的功效,幫助研究者提取出有用的數(shù)據(jù)信息,為研究提供有價值的參考。其挖掘方法如下:社會計算、數(shù)據(jù)演變分析、知識計算、深度學(xué)習(xí)等。并且,大數(shù)據(jù)挖掘技術(shù)針對不同領(lǐng)域的數(shù)據(jù)種類,可以利用不同的數(shù)據(jù)挖掘方法。流數(shù)據(jù)挖掘、Web 數(shù)據(jù)挖掘以及空間數(shù)據(jù)挖掘是大數(shù)據(jù)挖掘技術(shù)的三個分支。與傳統(tǒng)數(shù)據(jù)挖掘方法相比,大數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)處理流程上是有區(qū)別的。同時,大數(shù)據(jù)挖掘技術(shù)可以更加科學(xué)有效地處理數(shù)據(jù)挖掘問題。
4.1相關(guān)技術(shù)
針對流數(shù)據(jù)、空間數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù),大數(shù)據(jù)挖掘技術(shù)被分成流數(shù)據(jù)挖掘技術(shù)、空間數(shù)據(jù)挖掘技術(shù)以及 Web 數(shù)據(jù)挖掘技術(shù)。這三種數(shù)據(jù)挖掘技術(shù)應(yīng)用在不同的場景。例如,零售數(shù)據(jù)、股票數(shù)據(jù)、車輛監(jiān)控數(shù)據(jù)等屬于流數(shù)據(jù)挖掘技術(shù);互聯(lián)網(wǎng)領(lǐng)域的傳統(tǒng)數(shù)據(jù)挖掘?qū)儆?Web 數(shù)據(jù)挖掘技術(shù)領(lǐng)域;空間數(shù)據(jù)挖掘技術(shù)不同于流數(shù)據(jù)挖掘技術(shù)以及 Web 數(shù)據(jù)挖掘技術(shù),其具有明顯的空間性,基于空間分析法,使用綜合屬性數(shù)據(jù)分析方法處理空間數(shù)據(jù)挖掘的問題。
大數(shù)據(jù)挖掘技術(shù)同傳統(tǒng)數(shù)據(jù)挖掘技術(shù)一樣被應(yīng)用于各行各業(yè),如金融行業(yè)的數(shù)據(jù)處理問題、教育行業(yè)的數(shù)據(jù)處理問題、道路交通領(lǐng)域的數(shù)據(jù)處理問題、電子商務(wù)領(lǐng)域的數(shù)據(jù)處理問題、醫(yī)療行業(yè)的數(shù)據(jù)處理問題、生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)處理問題、郵政行業(yè)的數(shù)據(jù)處理問題等,應(yīng)用十分廣泛。
4.2發(fā)展趨勢
如今,越來越多的研究者參與數(shù)據(jù)挖掘研究,數(shù)據(jù)挖掘技術(shù)也逐漸走向成熟。統(tǒng)一化、標(biāo)準(zhǔn)化數(shù)據(jù)挖掘語言、可視化方法開發(fā)、數(shù)據(jù)存儲類型匹配問題、應(yīng)用研究、整合數(shù)據(jù)挖掘、數(shù)據(jù)庫以及 Web 數(shù)據(jù)庫系統(tǒng),是數(shù)據(jù)挖掘的主要研究方向。標(biāo)準(zhǔn)化是目前各個領(lǐng)域開發(fā)的基礎(chǔ),數(shù)據(jù)挖掘技術(shù)也不例外。數(shù)據(jù)挖掘所使用語言的標(biāo)準(zhǔn)化,將有利于數(shù)據(jù)挖掘系統(tǒng)的開發(fā)和應(yīng)用;可視化操作能夠使用戶更加直觀地了解數(shù)據(jù)變化的規(guī)律,更加容易理解。因此,可視化技術(shù)是數(shù)據(jù)挖掘技術(shù)的未來發(fā)展趨勢,能夠更友好的支持人機交互操作;數(shù)據(jù)類型多種多樣,其存儲類型也呈現(xiàn)出多樣化特征。研究與各種數(shù)據(jù)存儲類型匹配的問題,將成為研究的熱點之一;數(shù)據(jù)挖掘方法對于各領(lǐng)域的支持效果不盡相同。而目前,各行業(yè)對數(shù)據(jù)挖掘技術(shù)的依賴度逐年上升,都希望通過數(shù)據(jù)挖掘技術(shù)有效提取信息。所以,針對于某一領(lǐng)域的數(shù)據(jù)挖掘系統(tǒng)開發(fā)尤為重要。數(shù)據(jù)庫系統(tǒng)以及 Web 數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)挖掘領(lǐng)域不能忽視的兩個系統(tǒng),如何整合相關(guān)系統(tǒng),實現(xiàn)緊耦合[7],是數(shù)據(jù)挖掘技術(shù)需要解決的問題。
5總結(jié)
數(shù)據(jù)的來源渠道越來越多,其結(jié)構(gòu)越來越復(fù)雜,數(shù)據(jù)量越來越大、種類越來越豐富,并且其隱含的經(jīng)濟(jì)及科研價值也越來越大,這對數(shù)據(jù)挖掘技術(shù)提出了更高的要求。從各行業(yè)產(chǎn)生的海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)信息,可以指導(dǎo)行業(yè)發(fā)展以及為科研提供數(shù)據(jù)支撐。這需要越來越多的研究者投身其中,真正開發(fā)出一些實用、有效的軟件平臺來支撐數(shù)據(jù)分析、可視化、提取等。大數(shù)據(jù)挖掘技術(shù)是未來各領(lǐng)域必不可少的技術(shù)支撐,將吸引更多的研究者投身其中。
參考文獻(xiàn):
[1]趙剛,蔣文麗.數(shù)據(jù)庫技術(shù)發(fā)展綜述[ J].黑龍江科學(xué),2021,12(16):48?49.
[2]黃心依.機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究[J].信息記錄材料,2021,22(8):121?123.
[3]韓明.數(shù)據(jù)挖掘及其對統(tǒng)計學(xué)的挑戰(zhàn)[ J].統(tǒng)計研究,2001(8):55?57.
[4]呂鳴劍.數(shù)據(jù)挖掘在知識工程中的應(yīng)用研究[J].電腦知識與技術(shù),2011,7(23):5550?5551.
[5]王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)挖掘[J].計算機研究與發(fā)展,2015,52(2):456?474.
[6]吳昉,宋培義.數(shù)據(jù)挖掘的應(yīng)用[ J].貴州科學(xué),2012,30(3):54?56.
[7]陶翠霞.淺談數(shù)據(jù)挖掘及其發(fā)展?fàn)顩r[ J].科技信息(科學(xué)教研),2008(4):72+98.
作者簡介:
王赫楠(1986—),碩士,講師,研究方向:數(shù)據(jù)挖掘,計算機應(yīng)用。
岳慧平(1980—),碩士,副教授,研究方向:計算機應(yīng)用。夏書劍(1984—),碩士,講師,研究方向:計算機應(yīng)用。