機(jī)器學(xué)習(xí)的分類、聚類研究

2020-04-14 04:54李玥

電腦知識(shí)與技術(shù) 2020年4期

李玥

摘要：大數(shù)據(jù)時(shí)代帶來的數(shù)據(jù)爆炸，是機(jī)器學(xué)習(xí)發(fā)展的新機(jī)遇。本文將介紹機(jī)器學(xué)習(xí)的學(xué)習(xí)方式，機(jī)器學(xué)習(xí)的分類、聚類算法的異同和應(yīng)用，并介紹樸素貝葉斯分類算法和k-means聚類算法兩種常用算法。同時(shí)思考機(jī)器學(xué)習(xí)為人們生活帶來便利的同時(shí)所產(chǎn)生的負(fù)面影響。

關(guān)鍵詞：機(jī)器學(xué)習(xí);監(jiān)督學(xué)習(xí);無監(jiān)督學(xué)習(xí);樸素貝葉斯算法;k-means算法

中圖分類號(hào)：TP181

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2020）04-0161-02

收稿日期：2019-10-15

1 概述

大數(shù)據(jù)時(shí)代的來臨使得數(shù)據(jù)量迅速膨脹，也為機(jī)器學(xué)習(xí)提供了更廣闊的舞臺(tái)。本文將對(duì)機(jī)器學(xué)習(xí)中分類和聚類及其常見算法進(jìn)行論述。相信機(jī)器學(xué)習(xí)未來必將大放異彩。

2 機(jī)器學(xué)習(xí)

2.1 機(jī)器學(xué)習(xí)的定義，

相較于依托專業(yè)公式進(jìn)行純粹計(jì)算，機(jī)器學(xué)習(xí)通過模仿人類學(xué)習(xí)的過程，使計(jì)算機(jī)通過算法分析數(shù)據(jù)、從中學(xué)習(xí)、生成并優(yōu)化模型，以此得到識(shí)別新數(shù)據(jù)、預(yù)測、自主決策等能力。

2.2 特征

特征是一類對(duì)象的某種本質(zhì)特性的抽象表示，通常會(huì)使用特征的集合即特征向量來指代對(duì)象本身。機(jī)器學(xué)習(xí)中用于訓(xùn)練和測試的數(shù)據(jù)通常源自各種系統(tǒng)，其格式、質(zhì)量各不相同。為了方便算法使用這些數(shù)據(jù)訓(xùn)練模型，需要根據(jù)要研究的問題選擇特征并將這些數(shù)據(jù)轉(zhuǎn)為特征向量的集合。因此，原始數(shù)據(jù)的質(zhì)量，特征的選擇等對(duì)生成模型的好壞甚至比算法本身更重要。

2.3 機(jī)器學(xué)習(xí)的學(xué)習(xí)方式

機(jī)器學(xué)習(xí)有多種學(xué)習(xí)方式，而監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是最常見的。監(jiān)督學(xué)習(xí)要求每個(gè)樣本除了特征值外還應(yīng)包含特殊的標(biāo)記，其通過特征值預(yù)測標(biāo)記，再對(duì)比真實(shí)的標(biāo)記計(jì)算誤差，根據(jù)誤差使用遞歸算法修正模型。監(jiān)督學(xué)習(xí)最常見的任務(wù)便是分類與回歸。無監(jiān)督學(xué)習(xí)則不需要標(biāo)記，其按照特定的指標(biāo)和方法探索實(shí)例之間的相似程度，或是研究特征之間的取值關(guān)系等。無監(jiān)督學(xué)習(xí)最為重要的研究問題包括聚類、關(guān)聯(lián)分析、降維等。

其他的學(xué)習(xí)方式還包括通過在迭代過程中對(duì)不同選擇進(jìn)行不同反饋來優(yōu)化模型得到最優(yōu)決策的強(qiáng)化學(xué)習(xí)。混合了監(jiān)督和無監(jiān)督學(xué)習(xí)的半監(jiān)督學(xué)習(xí)。把模型作為經(jīng)驗(yàn)訓(xùn)練的遷移學(xué)習(xí)等。

3 機(jī)器學(xué)習(xí)的分類和聚類

3.1 分類和聚類的異同

分類算法是根據(jù)一些事物的特征，將事物劃分至其對(duì)應(yīng)類別。因此分類要滿足所有的類別都是已知的前提。分類在機(jī)器學(xué)習(xí)中要使用監(jiān)督學(xué)習(xí)，讓標(biāo)記為實(shí)例的類別。要評(píng)價(jià)分類模型的好壞時(shí)，可基于預(yù)測類別和正確類別進(jìn)行比較來分析。而聚類算法最重要的是選擇合適的度量機(jī)制，用以度量任意兩個(gè)對(duì)象的相似程度，亦可以說是他們之間的距離。因?yàn)榫垲惖闹髦急闶钦J(rèn)為事物越是相似，兩者越可能是同類。聚類屬于無監(jiān)督學(xué)習(xí)，而因其不包含標(biāo)記，類型本身是未知的。所以聚類的結(jié)果常會(huì)稱若干實(shí)例聚為一簇，而不是稱聚為一類。評(píng)價(jià)聚.類模型比較復(fù)雜，但通?；谌缦略瓌t：盡可能讓每個(gè)簇包含的樣本更加相似，同時(shí)保證不同簇之間的距離盡可能大。

3.2 樸素貝葉斯算法

樸素貝葉斯分類算法源自古典數(shù)學(xué)，依賴于條件獨(dú)立假設(shè)，其指的便是不同特征的取值相互獨(dú)立，對(duì)應(yīng)公式為：

P（X;=x1，X，=x2）=P（X，=x）P（X，=x2）

另外還依賴于條件概率公式：

P（X，=x|C =c]）= P（X，=x，C =c|）

P（C1 =c]）

但實(shí)際情況中不同特征取值常常相互影響，存在依賴關(guān)系。且模型效果極為依賴于數(shù)據(jù)的好壞，一旦數(shù)據(jù)存在過大偏差，生成的模型將失去使用價(jià)值。因此樸素貝葉斯算法改進(jìn)常集中于解決特征值之間的依賴關(guān)系，使用平滑技術(shù)等減少數(shù)據(jù)對(duì)模型的影響。

3.3 k-means算法

k-means的核心是為每個(gè)簇假定了簇中心。首先通過隨機(jī)指定k個(gè)簇中心點(diǎn)，計(jì)算每個(gè)樣本點(diǎn)至各中心點(diǎn)的距離，取距離最近的作為其所屬簇，以此進(jìn)行一次聚類。這時(shí)可以根據(jù)聚類結(jié)果重新計(jì)算簇中心點(diǎn)，與之前的簇中心點(diǎn)進(jìn)行比較，將新的中心帶入算法繼續(xù)迭代以之修正模型直到兩者誤差小于某-常量。初期簇中心點(diǎn)的選取對(duì)算法的效果至關(guān)重要，它決定了迭代次數(shù)和最終聚類效果的好壞。算法的整個(gè)過程類似于最優(yōu)化求解，初期中心點(diǎn)的隨機(jī)性使得結(jié)果常為局部最優(yōu)解。因此k-means算法的改進(jìn)通常集中于如何選取初期的簇中心點(diǎn)，使中心點(diǎn)之間距離盡可能遠(yuǎn)，使中心點(diǎn)分布更加平均，或者使其更接近數(shù)據(jù)分布的疏密情況，這些措施都可以改進(jìn)算法的執(zhí)行速度和最終聚類的效果。

3.4 應(yīng)用方向

分類算法在垃圾郵件識(shí)別等相關(guān)識(shí)別領(lǐng)域多有建樹。例如人們在使用銀行卡、支付寶消費(fèi)的同時(shí)也產(chǎn)生了大量數(shù)據(jù)，銀行等金融機(jī)構(gòu)可以對(duì)用戶的操作數(shù)據(jù)使用分類算法甄別出是否為本人行為，保護(hù)賬戶安全。也可以根據(jù)用戶的行為數(shù)據(jù)找出風(fēng)險(xiǎn)用戶，減小自身經(jīng)營風(fēng)險(xiǎn)。同樣分類算法也在天氣預(yù)報(bào)產(chǎn)量預(yù)測和生產(chǎn)風(fēng)險(xiǎn)評(píng)估等領(lǐng)域得到廣泛應(yīng)用。同樣在進(jìn)行用戶畫像時(shí)，聚類算法也必不可少。而基于相似的人可能有相同的愛好，這樣推薦算法中協(xié)同過濾的核心思想，聚類算法得以在協(xié)同過濾中大展拳腳。

4 總結(jié)與反思

機(jī)器學(xué)習(xí)的前景廣闊，分類和聚類等算法各有千秋。分類和聚類結(jié)合使用可以互相驗(yàn)證，互相完善，這也是一種半監(jiān)督學(xué)習(xí)的思路。同時(shí)現(xiàn)階段最火的基于深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)進(jìn)行的模式識(shí)別，也可歸屬于監(jiān)督學(xué)習(xí)的分類算法。但機(jī)器學(xué)習(xí)為我們的生活帶來便利的同時(shí)也存在一些負(fù)面影響。近期新聞提到，，部分酒店等商業(yè)機(jī)構(gòu)利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)等技術(shù)，甄別出對(duì)數(shù)字不敏感的用戶，悄悄提高對(duì)其服務(wù)的價(jià)格牟利。有關(guān)部門應(yīng)加強(qiáng)查處力度，保障用戶信息安全，使技術(shù)不被濫用。參考文獻(xiàn)：

[1]李清霞，魏文紅，蔡昭權(quán).混合用戶和項(xiàng)目協(xié)同過濾的電子商務(wù)個(gè)性化推薦算法[J].中山大學(xué)學(xué)報(bào)：自然科學(xué)版，2016，55（5）：37-42.

[2]朱軍，胡文波.貝葉斯機(jī)器學(xué)習(xí)前沿進(jìn)展綜述[J].計(jì)算機(jī)研究與發(fā)展，2015，52（1）：16-26.

[3]何清，李寧，羅文娟，等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能，2014，27（4）：327-336.

[4]陳凱，朱鈺.機(jī)器學(xué)習(xí)及其相關(guān)算法綜述[J].統(tǒng)計(jì)與信息論壇，2007，22（5）：105-112.

[通聯(lián)編輯：唐一東]

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

機(jī)器學(xué)習(xí)的分類、聚類研究

機(jī)器學(xué)習(xí)的分類、聚類研究