嵇俊杰 雷霓
摘要:當(dāng)今社會,人們無論在生活中,還是在學(xué)習(xí)中,都在不斷地處理信息。如何從海量的數(shù)據(jù)信息中有效地提取出高質(zhì)量的數(shù)據(jù),一直是眾多專家學(xué)者關(guān)心的問題。大數(shù)據(jù)挖掘不可能沒有先進(jìn)的數(shù)學(xué)知識和方法,在大數(shù)據(jù)挖掘與處理分析中有效地利用數(shù)學(xué)知識,可以有效地提高數(shù)據(jù)處理與分析的效率,幫助人們在最短的時(shí)間內(nèi)獲取有價(jià)值的數(shù)據(jù)信息。
關(guān)鍵詞:大數(shù)據(jù)挖掘技術(shù);數(shù)學(xué);學(xué)科;應(yīng)用
引言:
大數(shù)據(jù)是網(wǎng)絡(luò)信息技術(shù)發(fā)展的一項(xiàng)重要科技成果。針對不同區(qū)域的海量數(shù)據(jù),通過統(tǒng)計(jì),進(jìn)行數(shù)據(jù)整合,形成數(shù)據(jù)分析。本文首先從大數(shù)據(jù)挖掘中的數(shù)學(xué)知識及其處理入手,闡述了數(shù)學(xué)在大數(shù)據(jù)挖掘中的應(yīng)用。大規(guī)模的數(shù)據(jù)挖掘技術(shù)能夠有效地促進(jìn)人們的研究與開發(fā)。數(shù)學(xué)知識與方法的應(yīng)用是大數(shù)據(jù)挖掘的關(guān)鍵。數(shù)理統(tǒng)計(jì)是大量資料分析處理的基礎(chǔ),是從大量資料中提取有用資料的關(guān)鍵。為此,研究者應(yīng)將數(shù)學(xué)專業(yè)知識納入大數(shù)據(jù)的挖掘和處理之中,不斷提高數(shù)據(jù)處理和分析的水平。
1大數(shù)據(jù)挖掘技術(shù)分析
伴隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的普及與應(yīng)用,產(chǎn)生于社會生活各個(gè)領(lǐng)域的海量數(shù)據(jù)越來越多。大量的數(shù)據(jù)在不同的領(lǐng)域有著不同的價(jià)值,需要人們?nèi)パ芯亢屠?,為社會企業(yè)做出科學(xué)的決策。"歐洲大數(shù)據(jù)"是指傳統(tǒng)軟件工具收集的數(shù)據(jù),這些數(shù)據(jù)不能進(jìn)行計(jì)算、處理、管理和使用。大數(shù)據(jù)要求高級處理,以提高決策、洞察和發(fā)現(xiàn)能力,以及流程優(yōu)化。與傳統(tǒng)數(shù)據(jù)倉庫應(yīng)用分析相比,大數(shù)據(jù)應(yīng)用分析的最大特點(diǎn)是:數(shù)據(jù)量大、變化多、查詢困難復(fù)雜。當(dāng)前,在通信、制造、營銷、網(wǎng)絡(luò)信息等領(lǐng)域都有大量數(shù)據(jù)挖掘的工作。怎樣利用數(shù)據(jù)挖掘來幫助人們解決實(shí)際問題已經(jīng)成為人們關(guān)注的焦點(diǎn)。
2數(shù)據(jù)挖掘的概念和特征
2.1大數(shù)據(jù)概念
21世紀(jì)以來,由于傳統(tǒng)的數(shù)據(jù)分析和分類工具不能對數(shù)據(jù)進(jìn)行及時(shí)、全面、全面的分析和分類,信息資源的快速發(fā)展促進(jìn)了信息技術(shù)的進(jìn)步和大數(shù)據(jù)時(shí)代的到來。研究結(jié)果表明:大數(shù)據(jù)領(lǐng)域包括天文學(xué)、生物學(xué)、計(jì)算機(jī)、電子技術(shù)、自動化、信息管理等;它能根據(jù)用戶瀏覽的內(nèi)容和查找的信息,為用戶提供準(zhǔn)確、滿意的服務(wù),節(jié)省大量的人力、財(cái)力、物力。在互聯(lián)網(wǎng)壓力下,傳統(tǒng)企業(yè)可以通過分析和整理大量數(shù)據(jù),確保產(chǎn)品與時(shí)俱進(jìn)。
2.2數(shù)據(jù)挖掘概念
數(shù)據(jù)采掘是大數(shù)據(jù)的核心領(lǐng)域,是時(shí)代發(fā)展的必然產(chǎn)物,也是獨(dú)立發(fā)展的主題。研究發(fā)現(xiàn),數(shù)據(jù)采掘與商業(yè)計(jì)劃緊密相關(guān)。目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)在教育、科研、機(jī)械自動化、市場營銷、互聯(lián)網(wǎng)等諸多領(lǐng)域得到了廣泛的應(yīng)用,能夠?qū)崿F(xiàn)復(fù)雜的、大規(guī)模的數(shù)據(jù)采集和排序,推動了數(shù)據(jù)挖掘技術(shù)的發(fā)展和創(chuàng)新。獲得巨大的經(jīng)濟(jì)效益,帶動了很多行業(yè)的快速發(fā)展。
2.3數(shù)據(jù)挖掘的特征及方法
數(shù)據(jù)挖掘就是根據(jù)大量數(shù)據(jù)之間特定的關(guān)系,自動發(fā)現(xiàn)隱藏的信息。有價(jià)值的信息可以通過統(tǒng)計(jì)、聯(lián)機(jī)分析、智能探索、機(jī)器學(xué)習(xí)和專家系統(tǒng)等方法來收集和分類。在人工智能知識發(fā)現(xiàn)過程中,數(shù)據(jù)獲取是一個(gè)重要環(huán)節(jié),知識獲取包括準(zhǔn)備、挖掘、執(zhí)行和解釋。在數(shù)據(jù)分析方面,計(jì)算機(jī)技術(shù)尋求大量數(shù)據(jù)規(guī)律,并將相關(guān)數(shù)據(jù)整合為新的數(shù)據(jù)源;包括關(guān)聯(lián)分析、聚類、異常分析、特殊群體分析和進(jìn)化分析。資料的獲取和編輯不夠全面。未來世界的發(fā)展屬于大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘?qū)⒃谖磥砩鐣l(fā)揮重要作用。深入研究信息采集方法、規(guī)范數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)領(lǐng)域中的應(yīng)用、引入新的技術(shù)體系以適應(yīng)社會發(fā)展是數(shù)據(jù)挖掘的主要趨勢。
3數(shù)學(xué)學(xué)科在大數(shù)據(jù)挖掘中的應(yīng)用
3.1數(shù)學(xué)在數(shù)據(jù)處理分析中的應(yīng)用
對于資料處理與分析,數(shù)學(xué)家可采用多種分析方法。把回歸分析和相關(guān)分析有機(jī)的結(jié)合起來。基于關(guān)聯(lián)分析,通過對兩個(gè)或多個(gè)相關(guān)變量間的定量相互作用進(jìn)行有效觀測。同時(shí),研究人員還必須了解運(yùn)用大量的數(shù)學(xué)理論來處理和分析數(shù)據(jù),如數(shù)學(xué)測量學(xué)知識,即通過兩種或多種單調(diào)測度的操作,來產(chǎn)生新的單調(diào)測度。研究者可以合理使用數(shù)據(jù)而減少數(shù)據(jù)維度。與傳統(tǒng)的因素分析方法相比,定量的理論分析方法既能保證數(shù)據(jù)處理和分析的完整性,又能提高數(shù)據(jù)的科學(xué)準(zhǔn)確性。
3.2目標(biāo)函數(shù)模糊聚類法
目標(biāo)函數(shù)模糊聚類方法在大數(shù)據(jù)挖掘中的數(shù)據(jù)分析和圖像處理中得到了廣泛的應(yīng)用,而配置函數(shù)模糊聚類是大數(shù)據(jù)挖掘中的主流方法。利用模糊關(guān)系,客觀事物的聯(lián)系與相似,綜合各因素,建立數(shù)據(jù)庫,進(jìn)行分析與研究。利用模糊聚類算法對所需數(shù)據(jù)進(jìn)行聚類分析,再利用模糊聚類算法進(jìn)行聚類分析,最后利用模糊聚類算法進(jìn)行聚類分析,并結(jié)合網(wǎng)絡(luò)編譯法和極大值法對聚類結(jié)果進(jìn)行排序。
3.3區(qū)間算法
區(qū)間算法是一種用數(shù)學(xué)方法分析、整理數(shù)據(jù)間關(guān)系,并利用中值鎖定數(shù)據(jù)獲得重要信息的聚類方法。大規(guī)模數(shù)據(jù)挖掘過程中,不完整的系統(tǒng)信息可以被整合、分解,大型數(shù)據(jù)挖掘技術(shù)人員通過區(qū)間算法將挖掘得到的數(shù)據(jù)轉(zhuǎn)化為可比較的數(shù)據(jù),并應(yīng)用科學(xué)的方法對數(shù)據(jù)進(jìn)行分類和分析。經(jīng)過實(shí)證研究,研究者們提出的區(qū)間聚類算法主要有三種:矩陣和區(qū)間聚類、數(shù)和區(qū)間聚類。其中應(yīng)用最多的是數(shù)值方法和區(qū)間聚類法,它可以幫助工作人員根據(jù)科學(xué)的算法快速、高效、準(zhǔn)確地提取不完整的系統(tǒng)信息。運(yùn)用最新的統(tǒng)計(jì)手段和方法,以一定的時(shí)間間隔進(jìn)行科學(xué)檢驗(yàn)。每一個(gè)環(huán)節(jié)都能進(jìn)行一系列的分析整合工作,通過實(shí)際積累對評價(jià)信息進(jìn)行分析。
3.4灰色關(guān)聯(lián)分析法
本文以系統(tǒng)中各因素發(fā)展趨勢的相似性和差異性為基礎(chǔ),以灰色關(guān)聯(lián)分析為數(shù)學(xué)方法,對系統(tǒng)中各因素之間的相關(guān)性進(jìn)行了度量。這種方法適用于動態(tài)開發(fā)過程中的數(shù)據(jù)分析。其具體形式為s=(x,R),其中x表示影響因子集合,而R點(diǎn)表示各因子之間的趨勢相關(guān)性集合?;叶葦?shù)字化是數(shù)據(jù)挖掘中常用的方法之一。通過對不同幾何曲線幾何形態(tài)的科學(xué)分析和比較,實(shí)現(xiàn)了數(shù)據(jù)分析和處理。在兩個(gè)幾何圖形之間的幾何曲線越靠近,表明數(shù)據(jù)鏈越大;相反,兩個(gè)圖形越窄表明數(shù)據(jù)鏈越小。在數(shù)據(jù)挖掘過程中運(yùn)用數(shù)字灰色關(guān)聯(lián)分析方法,可對數(shù)據(jù)不完整或數(shù)據(jù)量較少的樣本數(shù)據(jù)進(jìn)行分析和處理,以提取有價(jià)值的數(shù)據(jù)。
結(jié)語
數(shù)據(jù)處理技術(shù)是隨著信息時(shí)代的到來而不斷發(fā)展的。信息資源是任何生產(chǎn)和生活所必需的,隨著國家對數(shù)據(jù)挖掘的重視,數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘技術(shù)的一大創(chuàng)新,越來越多的人開始有效地利用生產(chǎn)和生活中的數(shù)學(xué)知識,以支持大數(shù)據(jù)挖掘技術(shù)的發(fā)展,提高數(shù)據(jù)的處理和分析能力,更好地推動人們對大數(shù)據(jù)挖掘技術(shù)的深入研究。
參考文獻(xiàn)
[1]盧秋羽,蔣薇,解文琦,等.大數(shù)據(jù)挖掘技術(shù)支持下抽油機(jī)井系統(tǒng)效率影響因素分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2020,50(19):246-252.
[2]李思辰,張公社,紀(jì)國法.基于大數(shù)據(jù)挖掘技術(shù)的頁巖氣井壓裂液產(chǎn)出規(guī)律分析[J].科學(xué)技術(shù)與工程,2019,19(25):130-134.
[3]楊媛.大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].科技傳播,2019,11(21):83-84.
[4]劉佳祿.大數(shù)據(jù)挖掘技術(shù)及數(shù)學(xué)學(xué)科的應(yīng)用[J].黑龍江科學(xué),2019,10(8):124-125.
(上海市立信會計(jì)金融學(xué)院?上海?200120)