国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下機器學習在數(shù)據(jù)挖掘中的應(yīng)用

2022-06-09 12:40上海警備區(qū)殷倩倩申鑫欣夏祎
關(guān)鍵詞:數(shù)據(jù)處理數(shù)據(jù)挖掘機器

上海警備區(qū) 殷倩倩 申鑫欣 夏祎

在互聯(lián)網(wǎng)信息技術(shù)飛速發(fā)展的今天,互聯(lián)網(wǎng)信息化技術(shù)已經(jīng)滲透在人們工作、學習與生活的方方面面,促進了社會生產(chǎn)力水平的顯著提升。在信息技術(shù)應(yīng)用過程中,會形成海量的數(shù)據(jù)信息,為加強對各項數(shù)據(jù)信息的管理與利用,需要采用科學、高效的數(shù)據(jù)處理技術(shù)對其價值進行全面發(fā)掘。故此,本文針對現(xiàn)階段大數(shù)據(jù)背景下機器學習在數(shù)據(jù)挖掘中的應(yīng)用情況展開分析,首先介紹了大數(shù)據(jù)應(yīng)用背景,然后對機器學習與數(shù)據(jù)挖掘技術(shù)進行簡要介紹,最后就大數(shù)據(jù)背景下機器學習在數(shù)據(jù)挖掘中的應(yīng)用展開一系列分析,希望對于大數(shù)據(jù)技術(shù)的發(fā)展有所助力。

數(shù)據(jù)挖掘技術(shù)的應(yīng)用和大數(shù)據(jù)的發(fā)展是相輔相成的,在發(fā)展過程中,通過對數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用可以逐步提高系統(tǒng)對各種數(shù)據(jù)信息的處理能力,同時還能夠進一步降低數(shù)據(jù)信息管理成本的投入。但是,隨著各行業(yè)的發(fā)展與數(shù)據(jù)規(guī)模的暴增,對于數(shù)據(jù)挖掘技術(shù)的應(yīng)用也提出了更為嚴格的要求。機器學習作為一門交叉學科,應(yīng)用計算機處理技術(shù)對人類行為進行智能化模擬,以此進行知識和技能的獲取,同時還能夠不斷進行知識結(jié)構(gòu)的調(diào)整和優(yōu)化,將機器學習應(yīng)用在數(shù)據(jù)挖掘中可以進一步提高大數(shù)據(jù)處理效率,因此得到廣泛應(yīng)用。為了能夠在數(shù)據(jù)挖掘中充分發(fā)揮機器學習的應(yīng)用價值,相關(guān)從業(yè)人員還需對機器學習的應(yīng)用問題展開深入分析,使其更好地助力社會的進步與發(fā)展。

1 關(guān)于大數(shù)據(jù)背景的介紹

近年來,隨著互聯(lián)網(wǎng)信息化技術(shù)的應(yīng)用和發(fā)展,每天所生成的海量數(shù)據(jù)需要采用更加高效的管理措施進行處理,提高數(shù)據(jù)信息的管理質(zhì)量。但是,隨著信息化技術(shù)應(yīng)用的加深,生成的各種數(shù)據(jù)類型更為豐富,信息數(shù)據(jù)也更加龐大,顯然采用傳統(tǒng)的處理方式已經(jīng)無法適應(yīng)當前的數(shù)據(jù)處理需求。在這種情況下,需要采用更為先進的數(shù)據(jù)處理方式以滿足各行業(yè)的數(shù)據(jù)信息處理工作需求,大數(shù)據(jù)技術(shù)則應(yīng)運而生。與傳統(tǒng)的數(shù)據(jù)處理技術(shù)相比,大數(shù)據(jù)技術(shù)下的信息儲存、分析等方式發(fā)生了明顯變化,在數(shù)據(jù)的運算方面也采用了更為先進的處理方式,為數(shù)據(jù)處理和決策系統(tǒng)提供了更大的助力。大數(shù)據(jù)的主要特點在于其數(shù)據(jù)信息內(nèi)容豐富及種類繁多等,同時還有著更為快速的信息傳輸速率,因此得到了更為廣泛的應(yīng)用與深入的發(fā)展。

2 數(shù)據(jù)挖掘與機器學習概述

2.1 數(shù)據(jù)挖掘

在數(shù)據(jù)挖掘技術(shù)中,機器學習和統(tǒng)計算法均為重要組成內(nèi)容,其中機器學習屬于人工智能技術(shù)的一種,能夠在樣本集訓練與學習中快速地明確其中各項參數(shù)與運算模式[1]。而統(tǒng)計算法則為通過對概率等數(shù)據(jù)的分析以及數(shù)據(jù)相關(guān)性等進行運算,對于不同的研究領(lǐng)域需要應(yīng)用不同的算法也不盡相同,在實際應(yīng)用中還可以結(jié)合其計算目標選擇各種算法的單獨應(yīng)用或者結(jié)合應(yīng)用。對于機器學習而言,其中的人工神經(jīng)網(wǎng)絡(luò)技術(shù)得到了廣泛的應(yīng)用,其具有高效的自主學習能力與數(shù)據(jù)處理能力,同時,其對于各類型的數(shù)據(jù)能夠進行快速、精準的識別。通過對數(shù)據(jù)挖掘的應(yīng)用能夠結(jié)合具體情況進行科學建模,且模型具有精度高及描述能力強等特點。但是在訓練數(shù)據(jù)時需要花費較多時間,對數(shù)據(jù)進行理解時也不是很智能,伸縮性和開放性仍存在一定的提升空間。

2.2 機器學習

2.2.1 主要任務(wù)分析

作為現(xiàn)代信息化技術(shù)體系當中的重要內(nèi)容,機器學習的重要任務(wù)主要體現(xiàn)在以下幾點:(1)數(shù)據(jù)的快速分類。在系統(tǒng)運行中,可根據(jù)數(shù)據(jù)信息的處理要求進行數(shù)據(jù)建模,在此過程中實現(xiàn)對數(shù)據(jù)的快速、高效分類處理。(2)數(shù)據(jù)的回歸分析。通過技術(shù)手段對各種類型的數(shù)據(jù)變量及其相互間的關(guān)系進行全面性的護理與總結(jié),在此基礎(chǔ)上獲得表現(xiàn)數(shù)據(jù)關(guān)系的公式。在數(shù)據(jù)處理工作當中,通常需要對統(tǒng)計學相關(guān)知識加以應(yīng)用,借此進行數(shù)據(jù)的估測等,繼而實現(xiàn)數(shù)據(jù)挖掘效率的提升。(3)數(shù)據(jù)的關(guān)聯(lián)規(guī)則。無論是在任何一種行業(yè)領(lǐng)域當中,都會面臨對于事務(wù)型數(shù)據(jù)信息的處理需求,在此方面,可以通過機器學習實現(xiàn)數(shù)據(jù)樣本空間的建立,便于對將來某些事件的發(fā)生情況進行科學預(yù)測。(4)數(shù)據(jù)的聚類。這里我們所說的聚類主要指將數(shù)據(jù)按需聚集到各自的數(shù)據(jù)簇中。

2.2.2 大數(shù)據(jù)中對于機器學習的應(yīng)用優(yōu)勢

傳統(tǒng)機器學習算法的應(yīng)用需依賴內(nèi)存容量,在存儲數(shù)據(jù)信息時,計算機無法對PB與TB級別的數(shù)據(jù)信息予以存儲,所以,部分算法是無法滿足大數(shù)據(jù)背景下的數(shù)據(jù)挖掘需求的,在這種情況下,就需要加強實踐并逐步進行算法的優(yōu)化,進一步滿足數(shù)據(jù)處理要求。人工神經(jīng)網(wǎng)絡(luò)為大數(shù)據(jù)背景下機器學習計算方法中的一種,能夠通過人工神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建而體現(xiàn)出多元化的描述能力,并且其數(shù)據(jù)處理精度較高。在當今時代對大數(shù)據(jù)技術(shù)應(yīng)用日益深入的環(huán)境下,對于機器學習的應(yīng)用也提出了更加個性化的要求。一方面,隨著各行業(yè)的發(fā)展,所生成的數(shù)據(jù)信息更為海量,數(shù)據(jù)類型也更為繁復(fù);另一方面,在系統(tǒng)運行過程中,各類型數(shù)據(jù)的分布情況較為復(fù)雜,若是始終應(yīng)用傳統(tǒng)的機器學習方式根本無法全面滿足數(shù)據(jù)信息的獨立與分布需求。通過對機器學習的有效應(yīng)用能夠使得大數(shù)據(jù)的功能性顯著強化,且將數(shù)據(jù)分類器設(shè)置在數(shù)據(jù)樣本分布較為密集的區(qū)域可以進一步提高數(shù)據(jù)分類處理工作質(zhì)量[2]。在當前大數(shù)據(jù)背景之下,機器學習顯然已與傳統(tǒng)的概念發(fā)生脫離,且不斷向知識學習及處理的復(fù)雜化方向演變,成為數(shù)據(jù)挖掘技術(shù)不斷優(yōu)化的重要途徑。

2.3 機器學習的算法

2.3.1 樸素貝葉斯算法

常規(guī)條件下,該算法可細化分為以下幾個步驟:(1)按照特定的操作指令去采集數(shù)據(jù)信息的樣本,并且標記好集合中的不同元素,為后續(xù)操作中元素的提取做好鋪墊。(2)進行數(shù)據(jù)信息樣本的統(tǒng)計,借此明確數(shù)據(jù)集合中各類別所出現(xiàn)的概率,便于后續(xù)進行分類器的獲取。(3)將待處理的樣本置入分類器內(nèi),借此獲取樣本處理結(jié)果。該算法雖然目前得到了廣泛的應(yīng)用,但其在應(yīng)用過程中也體現(xiàn)出一定的缺陷,例如,該算法認為分類的樣本特征本身與其他特征值不相關(guān),所以無法進行樣本各個特征間的相關(guān)性計算。而該算法在計算應(yīng)用中具有顯著的便捷性特點,可有效提升計算速度。

2.3.2 K-Means法

在機器學習算法當中,該算法具有較高的普及度。與其他算法相比,該算法的應(yīng)用較為方便,K-Means法需以對距離度量算法的應(yīng)用作為基礎(chǔ),因此,在數(shù)據(jù)聚類的條件之下,若數(shù)據(jù)樣本數(shù)量越多,那么該算法應(yīng)用的錯誤率則會降低,若數(shù)據(jù)聚類的訓練集越大,該算法也就會顯示出更為明顯的分類性特點。

設(shè)k是K-Means聚類算法的輸入?yún)?shù),表明算法在數(shù)據(jù)集中進行k個聚類簇目,并且輸出計算結(jié)果的聚類簇目。數(shù)據(jù)集合是由n個模式組成,模式也代表數(shù)據(jù)點的意思。在K-Means聚類算法數(shù)據(jù)初始化時,依據(jù)輸入?yún)?shù)k隨機地從n個模式{i1,i2,…in}中找出k個原型{W1,W2,…Wk}。因此Wj=it,j∈{1,2,…,k},t∈{1,2…,n}。Cj是第jth個聚類,Cj的值是輸入模式即數(shù)據(jù)點之間互不相交的子集,而想要對其結(jié)果展開質(zhì)量評價則需以下述函數(shù)進行:

在該函數(shù)中,E即為各數(shù)據(jù)點和簇的質(zhì)心距離和,因此,若E的數(shù)值較小,那么簇的緊湊性就越大,所以,在機器算法的應(yīng)用中需通過E這一數(shù)值的優(yōu)化以獲取更優(yōu)的數(shù)據(jù)類聚方案,直至E的數(shù)值極小,其所獲得的方案可行性則為最佳。

2.3.3 決策樹算法

該算法在應(yīng)用中實則為對于數(shù)據(jù)輸入空間的分割,通過分割獲得若干區(qū)域,而各個區(qū)域都具有各自相對獨立的參數(shù)。在算法的實際應(yīng)用中,通常是以數(shù)據(jù)的樹形模型為基礎(chǔ)而展開相應(yīng)的分析,其中全部的數(shù)據(jù)葉子節(jié)點以及根節(jié)點均為分類化的路徑規(guī)則,并且其中所有的葉子階均為一種判斷類別。在該算法的應(yīng)用中,通常是先對數(shù)據(jù)樣本實施分割處理,使其劃分為樣本的子集,隨即再進行分割的遞推,從而使得所有的子集均可以得到同類數(shù)據(jù)樣本并進行其類別的預(yù)測。與其他類型的算法相比,該算法的突出特點在于其結(jié)構(gòu)相對簡單,對于數(shù)據(jù)信息的處理速率較高。

3 數(shù)據(jù)挖掘中對于機器學習的應(yīng)用原理分析

機器學習的類型具有一定的豐富性,其涉及的內(nèi)容也比較廣泛,結(jié)合以下幾方面領(lǐng)域的應(yīng)用情況對數(shù)據(jù)挖掘的應(yīng)用原理展開分析:

3.1 人工神經(jīng)網(wǎng)絡(luò)

機器學習的主要應(yīng)用原理為通過特定的算法展開數(shù)據(jù)建模,借此來模擬人類的大腦系統(tǒng),并對其中所有神經(jīng)系統(tǒng)的作用進行分析,同時明確各神經(jīng)所處位置,從而明確各個神經(jīng)系統(tǒng)在大腦中的運行過程。在進行建模的過程中,機器學習通過對不同的神經(jīng)單元進行處理而形成相應(yīng)的數(shù)據(jù)信息層級序列[3]。在上述過程當中,其應(yīng)用的邏輯原理主要為:通過對特定算法的應(yīng)用進行模擬刺激,在系統(tǒng)接收到刺激信號之后,對數(shù)據(jù)信息進行篩選和處理而得到的最終結(jié)果。

3.2 向量機

向量機也是數(shù)據(jù)挖掘技術(shù)中的重要組成部分,在進行向量機的應(yīng)用中,對各項數(shù)據(jù)的處理均需用到數(shù)學思維,利用回歸算法來處理各種數(shù)據(jù)信息問題,借此推測相應(yīng)的未知結(jié)果。利用算法的有機結(jié)合與三維空間的數(shù)據(jù)多維分析來進行特定算法的推演。

3.3 推薦算法

在數(shù)據(jù)挖掘的機器學習當中還存在一種被廣泛應(yīng)用于商務(wù)領(lǐng)域的算法,也就是推薦算法。該算法可以將系統(tǒng)用戶的瀏覽信息為條件對其感興趣的信息進行分析,例如淘寶,在淘寶用戶進行各種商品的瀏覽時,即可通過推薦算法的運行對用戶在平臺中的商品瀏覽頻率等對其商品購買偏好等信息進行分析,確定用戶喜歡的商品種類。

4 數(shù)據(jù)挖掘中對于機器學習的應(yīng)用

4.1 對于向量機的應(yīng)用

在進行向量機的應(yīng)用中,主要是通過其定位理論原則對待處理數(shù)據(jù)信息加以分類,完成待處理數(shù)據(jù)的區(qū)域化選擇,該部分的大體流程為:(1)對鎖定區(qū)域的經(jīng)緯度實施首次定位,明確具體位置后再對其進行劃分,實現(xiàn)該位置的柵格化。(2)完成位置的劃分后,還需將其根據(jù)具體的位置信息細化為兩部分,并對二者展開精確計算。但是,這兩部分的數(shù)據(jù)信息計算方式存在一定差異,其中一部分在計算中需對待測數(shù)據(jù)樣本實施向量計算,而另一部分則應(yīng)以回歸函數(shù)計算方式對數(shù)據(jù)樣本進行計算分析。借助對差異算法的應(yīng)用得到個性化的定位方案。但是需要注意的問題是,在對向量機進行應(yīng)用時應(yīng)嚴格遵循最小化原則。除此之外,在通過向量機來采集數(shù)據(jù)樣本的時候,一定要做好多維度的點積計算,只有這樣才能夠充分保證其中非線性問題的妥善解決。在人們的日常生活方面,向量機多被用在各行業(yè)領(lǐng)域的人臉識別系統(tǒng)以及汽車發(fā)動機的故障問題檢測等方面。

4.2 對于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)可以利用算法學習對海量的數(shù)據(jù)進行特定的處理,并且可以展開高效的自我學習。卷積神經(jīng)網(wǎng)絡(luò)的主體結(jié)構(gòu)和常規(guī)性的神經(jīng)元大致相同,具體而言,卷積神經(jīng)網(wǎng)絡(luò)在計算層級上先是通過對數(shù)據(jù)輸入的求和,然后再利用函數(shù)計算來展開神經(jīng)網(wǎng)絡(luò)系統(tǒng)建模。在對卷積神經(jīng)網(wǎng)絡(luò)進行實際應(yīng)用中一定要注意其中的三個重要參數(shù),即數(shù)據(jù)區(qū)域大小、神經(jīng)元之間的聯(lián)系以及神經(jīng)元的數(shù)量?,F(xiàn)階段卷積神經(jīng)元多用于計算機自然語言數(shù)據(jù)信息的處理方面以及計算機視覺語言的處理方面,在計算機識別過程中,通過對該網(wǎng)絡(luò)系統(tǒng)的應(yīng)用可以實現(xiàn)光譜特征以及光譜建模的可視化。前饋神經(jīng)網(wǎng)絡(luò)CNN作為一種深度學習方法,可以使用沒有經(jīng)過光譜預(yù)處理的原始光譜進行建模,改進了光譜分析的流程,比如卷積神經(jīng)網(wǎng)絡(luò)可用于分析實驗室中山羊角水解過程中的拉曼光譜。

5 結(jié)語

隨著時代的進步與科技的迅速發(fā)展,大數(shù)據(jù)時代悄然而至,在大數(shù)據(jù)技術(shù)在各行業(yè)領(lǐng)域的應(yīng)用逐步深入的背景之下,想要充分發(fā)揮大數(shù)據(jù)技術(shù)的應(yīng)用優(yōu)勢,對于數(shù)據(jù)挖掘技術(shù)的掌握、研究與應(yīng)用是必不可少的。機器學習作為當前數(shù)據(jù)挖掘中的重要內(nèi)容,通過對其應(yīng)用能夠更加準確、快速地處理各種復(fù)雜性問題。對此,相關(guān)人員還需加強對機器學習的應(yīng)用實踐與深入研究,加強技術(shù)應(yīng)用與優(yōu)化,進一步發(fā)揮機器學習在數(shù)據(jù)挖掘中的應(yīng)用優(yōu)勢,為社會的進步與發(fā)展提供更大的助力。

引用

[1] 黃心依.機器學習在數(shù)據(jù)挖掘中的應(yīng)用研究[J].信息記錄材料,2021,22(8):121-123.

[2] 譚成兵,周湘貞,朱云飛.基于Weka和協(xié)同機器學習技術(shù)的數(shù)據(jù)挖掘方法研究[J].長春大學學報(自然科學版),2020,30(6):5-9.

[3] 戴惠麗.大數(shù)據(jù)背景下機器學習在數(shù)據(jù)挖掘中的應(yīng)用研究[J].呂梁教育學院學報,2019,36(3):20-21.

猜你喜歡
數(shù)據(jù)處理數(shù)據(jù)挖掘機器
機器狗
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
機器狗
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
未來機器城
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
基于POS AV610與PPP的車輛導航數(shù)據(jù)處理
徐汇区| 潮安县| 察雅县| 天气| 卓尼县| 浦江县| 拉孜县| 罗山县| 安平县| 云浮市| 彝良县| 佛教| 遵化市| 本溪市| 吉首市| 凭祥市| 蓝田县| 平利县| 拉孜县| 盐边县| 武冈市| 孝昌县| 淮南市| 开鲁县| 六枝特区| 宁南县| 南阳市| 当涂县| 太保市| 渝北区| 白山市| 蓬溪县| 宁夏| 诏安县| 高邑县| 原阳县| 天水市| 徐水县| 陈巴尔虎旗| 天峨县| 瓮安县|