甘小梅
摘 要:隨著互聯(lián)網(wǎng)高科技的飛速發(fā)展,數(shù)字化的時代已經(jīng)來臨,我們的生活和工作甚至是娛樂都離不開數(shù)據(jù)信息的支撐。大數(shù)據(jù)以其無以比擬的挖掘力、分析總結(jié)能力和優(yōu)化能力成為我們的良師益友。而數(shù)據(jù)挖掘是大數(shù)據(jù)技術(shù)的重要構(gòu)成,可以為我們在浩渺的數(shù)據(jù)海洋里找到各種計算方法,而且這些計算方法的科學(xué)性、簡便性適合任何復(fù)雜的數(shù)據(jù)環(huán)境。本文將通過對對大數(shù)據(jù)特點的總結(jié),對數(shù)據(jù)挖掘技術(shù)進(jìn)行有效的分析。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘技術(shù);算法探析
高科技的發(fā)展讓我們目不暇接,尤其是數(shù)據(jù)信息的飛速發(fā)展,讓我們的生活和科技融合得更緊密。在大數(shù)據(jù)滲透各行各業(yè)的同時,一些傳統(tǒng)科學(xué)領(lǐng)域也借助數(shù)據(jù)平臺有了新的發(fā)展,與此同時,許多新的技術(shù)又雨后春筍一般誕生,把互聯(lián)網(wǎng)行業(yè)推向信息時代的巔峰。但新技術(shù)的應(yīng)用過程中也存在著諸多問題,比如現(xiàn)有的數(shù)據(jù)處理技術(shù)已經(jīng)跟不上大數(shù)據(jù)迅速發(fā)展的腳步,因此發(fā)展數(shù)據(jù)挖據(jù)技術(shù)是我們要面對的課題。
一 大數(shù)據(jù)技術(shù)的概況和發(fā)展趨勢
(一)大數(shù)據(jù)的概況
大數(shù)據(jù)技術(shù)顧名思義就是對數(shù)據(jù)的海乃百川,其強大功能是在龐雜的數(shù)據(jù)里獲得有實用價值的信息,具體技術(shù)包括是采集數(shù)據(jù)、數(shù)據(jù)的輸入輸出、數(shù)據(jù)模型、數(shù)據(jù)處理、分析匯總、數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測和結(jié)論的產(chǎn)生等。在大數(shù)據(jù)技術(shù)的運行中,采集數(shù)據(jù)是第一個階段,其中管理信息系統(tǒng)和Web 信息系統(tǒng)是主要的信息來源地。數(shù)據(jù)類型的不同,儲存和輸出的方式也不同,主要有三種存儲和輸出的方式:文件存儲體系 GFS、 MapReduce 計算模型和滿足更多需求的 MapReduce 。
(二)大數(shù)據(jù)的發(fā)展趨勢
大數(shù)據(jù)時代,新科技像井噴一般的出現(xiàn),如云計算、人工智能等。大數(shù)據(jù)技術(shù)是高科技卻是服務(wù)廣泛的技術(shù),已經(jīng)應(yīng)用到國民經(jīng)濟的各行各業(yè)當(dāng)中去,例如最新誕生的機器學(xué)習(xí)又受到民眾的歡迎,機器學(xué)習(xí)是人工智能的分支,發(fā)展的宗旨是計算機在沒有明確代碼的情況下能夠自主學(xué)習(xí),支撐它的技術(shù)原理就是大數(shù)據(jù)技術(shù)。在當(dāng)今的科學(xué)世界里,大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)是支撐起總體優(yōu)勢的重要部分,大數(shù)據(jù)的計算功能是無比強大的,有很多不同的計算方法,對解決科學(xué)研究中的很多難題做出了巨大貢獻(xiàn)。雖然大數(shù)據(jù)具備強大的數(shù)據(jù)優(yōu)勢,但在發(fā)展過程中也面臨著挑戰(zhàn),龐大數(shù)據(jù)是無以比擬的優(yōu)勢,但在儲存保護(hù)方面需要克服種種困難。尤其是信息泄露的難題得不到有效的解決,讓企業(yè)和一些個人受到很大的損失。只有從根本上堵住漏洞才可以減少信息泄露的機會。
二 大數(shù)據(jù)下的數(shù)據(jù)挖掘技術(shù)
(一)數(shù)據(jù)挖掘技術(shù)和云計算
在信息化的時代,全球使用計算機和其他電子設(shè)備的人已經(jīng)達(dá)到數(shù)十億人,海量數(shù)據(jù)在互聯(lián)網(wǎng)里儲存,各行各業(yè)的生產(chǎn)生活都已經(jīng)離不開數(shù)據(jù),在這樣的大背景下,數(shù)據(jù)挖掘技術(shù)越來越受到重視和應(yīng)用。數(shù)據(jù)挖掘的手段有很多種,其中包括數(shù)據(jù)統(tǒng)計、線上分析、檢索情報、機器學(xué)習(xí)、專家系統(tǒng)和模式辨別等手段。作為分布計算之一的云計算,其計算功能是異常強大的,最基本運算模式是通過互聯(lián)網(wǎng)采集共享計算資源通過處理得出結(jié)果,云計算最大的優(yōu)勢就是以最低的管理成本獲得精準(zhǔn)的計算結(jié)果。云計算的運算流程是將繁雜龐大的數(shù)據(jù)處理程序拆分成N個小程序,然后利用多個服務(wù)器分頭運算、處理和分析,最后把精準(zhǔn)的結(jié)果反饋給用戶。云計算的神奇之處就在于短時間內(nèi)處理龐大的數(shù)據(jù)而且異常精準(zhǔn)。
(二) 數(shù)據(jù)挖掘技術(shù)的發(fā)展現(xiàn)狀
數(shù)據(jù)挖掘技術(shù)作為大數(shù)據(jù)的一個環(huán)節(jié),是從最初級的數(shù)據(jù)庫轉(zhuǎn)化而來的,當(dāng)下已經(jīng)是非常嫻熟的大數(shù)據(jù)技術(shù)的核心部分了,數(shù)據(jù)挖掘技術(shù)的要點就是實現(xiàn)信息數(shù)據(jù)的高效管理和有效利用。數(shù)據(jù)已經(jīng)滲透到我們生活工作的每個環(huán)節(jié),從而怎樣采集數(shù)據(jù)已經(jīng)不是難題,我們通常需要的是數(shù)據(jù)背后或者深處我們需要的信息,對深層次信息的挖掘才是數(shù)據(jù)挖掘的最大價值。在新的形勢下,數(shù)據(jù)挖掘技術(shù)已經(jīng)有了更深度的功能:首先是經(jīng)過數(shù)據(jù)源采集數(shù)據(jù),再把需要處理的數(shù)據(jù)整合為適用的模式,在特定的模式中分析整理出這些數(shù)據(jù)隱藏的有價值的信息。
(三)數(shù)據(jù)挖掘中的經(jīng)典算法
第一種,C4.5 算法。這是對決策樹算法進(jìn)行改進(jìn)后的一種新模式,其分類規(guī)則是依照目標(biāo)變量產(chǎn)生效果的差異性解決措施,其原理是依照所選擇的特征和分裂點進(jìn)行目前節(jié)點的分類依據(jù)。C4.5算法完全具備決策樹算法的所有優(yōu)勢,運算的過程清晰,操作淺顯易懂,精準(zhǔn)度極高,是目前最廣泛應(yīng)用的計算法。
第二種,K-Means 算法即 K 均值聚類算法。K 均值聚類算法從字面上理解也是一種聚類算法,將 n 個目標(biāo)依照屬性進(jìn)行 k 個分割,計算出每個目標(biāo)與不同種子聚類間的距離,然后最近的聚類中心接收各類目標(biāo),之后每個聚類中心反復(fù)進(jìn)行以上的流程,直到滿足某個可以終止的條件。這種運算法的優(yōu)點是目標(biāo)容易實現(xiàn);缺點是在海量的數(shù)據(jù)運算里效率不高,這種算法適合數(shù)值型數(shù)據(jù)的運算。
三 數(shù)據(jù)挖掘技術(shù)的更新及其有效應(yīng)用
(一)數(shù)據(jù)挖掘技術(shù)在金融行業(yè)的應(yīng)用
在經(jīng)濟體量迅猛壯大的今天,金融行業(yè)的發(fā)展也是突飛猛進(jìn)的,大數(shù)據(jù)的應(yīng)用在金融領(lǐng)域是最為典型。隨著互聯(lián)網(wǎng)金融蓬勃發(fā)展,給傳統(tǒng)的金融行業(yè)帶來巨大的挑戰(zhàn)。其中網(wǎng)絡(luò)支付、P2P 模式的網(wǎng)貸,以至于股票期貨也開始投身互聯(lián)網(wǎng)金融的模式。大數(shù)據(jù)時代雖然給傳統(tǒng)金融帶來挑戰(zhàn),但也給金融行業(yè)帶來了發(fā)展的新契機,例如,可以為金融用戶對分類、風(fēng)險評估等提供更高層次的參考價值。
(二)數(shù)據(jù)挖掘技術(shù)在教育行業(yè)的有效應(yīng)用
教育也是大數(shù)據(jù)應(yīng)用最廣泛的領(lǐng)域,教育數(shù)據(jù)挖掘和多個大數(shù)據(jù)進(jìn)行融合,其中與數(shù)理統(tǒng)計、機器學(xué)習(xí)、人工智能和數(shù)據(jù)挖掘等技術(shù)的結(jié)合最為典型。對教育行業(yè)的傳統(tǒng)數(shù)據(jù)進(jìn)行分析和整合,進(jìn)行模型的構(gòu)建,從而真正實現(xiàn)了對學(xué)習(xí)者學(xué)習(xí)趨勢的有效預(yù)測。也為互聯(lián)網(wǎng)教育提供發(fā)展的依據(jù),實現(xiàn)互聯(lián)網(wǎng)教育系統(tǒng)的普及和廣泛應(yīng)用。
結(jié)束語
總而言之,在信息技術(shù)日新月異的發(fā)展中,給我們生活帶來翻天覆地的變化,其中都得益于大數(shù)據(jù)的應(yīng)用。從最初的只是對大數(shù)據(jù)進(jìn)行的單純的分析,到現(xiàn)在的大數(shù)據(jù)的深度應(yīng)用,成為包羅萬象的世界數(shù)據(jù)庫,大數(shù)據(jù)的優(yōu)勢已經(jīng)成為世界科技的主流力量。但任何事情都尤其兩面性,新技術(shù)也一樣存在這一些問題,尤其是數(shù)據(jù)挖掘技術(shù)還不成熟,需要我們在應(yīng)用的過程中探索解決的辦法,讓大數(shù)據(jù)更高效、更優(yōu)質(zhì)地為人類服務(wù)。
參考文獻(xiàn):
[1] 張珍 . 云計算環(huán)境下的數(shù)據(jù)挖掘算法探究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 ,2019(05):58-59.
[2] 夏春梅 . 大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)在銀行中的應(yīng)用 [J]. 電子技術(shù)與軟件工程 ,2019(10):174.
[3] 胡 水 星 . 大 數(shù) 據(jù) 及 其 關(guān) 鍵 技 術(shù) 的 教育 應(yīng) 用 實 證 分 析 [J]. 遠(yuǎn) 程 教 育 雜志 ,2015,33(05):46-53.