李玥
摘要:大數(shù)據(jù)時(shí)代帶來的數(shù)據(jù)爆炸,是機(jī)器學(xué)習(xí)發(fā)展的新機(jī)遇。本文將介紹機(jī)器學(xué)習(xí)的學(xué)習(xí)方式,機(jī)器學(xué)習(xí)的分類、聚類算法的異同和應(yīng)用,并介紹樸素貝葉斯分類算法和k-means聚類算法兩種常用算法。同時(shí)思考機(jī)器學(xué)習(xí)為人們生活帶來便利的同時(shí)所產(chǎn)生的負(fù)面影響。
關(guān)鍵詞:機(jī)器學(xué)習(xí);監(jiān)督學(xué)習(xí);無監(jiān)督學(xué)習(xí);樸素貝葉斯算法;k-means算法
中圖分類號(hào):TP181
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)04-0161-02
收稿日期:2019-10-15
1 概述
大數(shù)據(jù)時(shí)代的來臨使得數(shù)據(jù)量迅速膨脹,也為機(jī)器學(xué)習(xí)提供了更廣闊的舞臺(tái)。本文將對(duì)機(jī)器學(xué)習(xí)中分類和聚類及其常見算法進(jìn)行論述。相信機(jī)器學(xué)習(xí)未來必將大放異彩。
2 機(jī)器學(xué)習(xí)
2.1 機(jī)器學(xué)習(xí)的定義,
相較于依托專業(yè)公式進(jìn)行純粹計(jì)算,機(jī)器學(xué)習(xí)通過模仿人類學(xué)習(xí)的過程,使計(jì)算機(jī)通過算法分析數(shù)據(jù)、從中學(xué)習(xí)、生成并優(yōu)化模型,以此得到識(shí)別新數(shù)據(jù)、預(yù)測、自主決策等能力。
2.2 特征
特征是一類對(duì)象的某種本質(zhì)特性的抽象表示,通常會(huì)使用特征的集合即特征向量來指代對(duì)象本身。機(jī)器學(xué)習(xí)中用于訓(xùn)練和測試的數(shù)據(jù)通常源自各種系統(tǒng),其格式、質(zhì)量各不相同。為了方便算法使用這些數(shù)據(jù)訓(xùn)練模型,需要根據(jù)要研究的問題選擇特征并將這些數(shù)據(jù)轉(zhuǎn)為特征向量的集合。因此,原始數(shù)據(jù)的質(zhì)量,特征的選擇等對(duì)生成模型的好壞甚至比算法本身更重要。
2.3 機(jī)器學(xué)習(xí)的學(xué)習(xí)方式
機(jī)器學(xué)習(xí)有多種學(xué)習(xí)方式,而監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是最常見的。監(jiān)督學(xué)習(xí)要求每個(gè)樣本除了特征值外還應(yīng)包含特殊的標(biāo)記,其通過特征值預(yù)測標(biāo)記,再對(duì)比真實(shí)的標(biāo)記計(jì)算誤差,根據(jù)誤差使用遞歸算法修正模型。監(jiān)督學(xué)習(xí)最常見的任務(wù)便是分類與回歸。無監(jiān)督學(xué)習(xí)則不需要標(biāo)記,其按照特定的指標(biāo)和方法探索實(shí)例之間的相似程度,或是研究特征之間的取值關(guān)系等。無監(jiān)督學(xué)習(xí)最為重要的研究問題包括聚類、關(guān)聯(lián)分析、降維等。
其他的學(xué)習(xí)方式還包括通過在迭代過程中對(duì)不同選擇進(jìn)行不同反饋來優(yōu)化模型得到最優(yōu)決策的強(qiáng)化學(xué)習(xí)。混合了監(jiān)督和無監(jiān)督學(xué)習(xí)的半監(jiān)督學(xué)習(xí)。把模型作為經(jīng)驗(yàn)訓(xùn)練的遷移學(xué)習(xí)等。
3 機(jī)器學(xué)習(xí)的分類和聚類
3.1 分類和聚類的異同
分類算法是根據(jù)一些事物的特征,將事物劃分至其對(duì)應(yīng)類別。因此分類要滿足所有的類別都是已知的前提。分類在機(jī)器學(xué)習(xí)中要使用監(jiān)督學(xué)習(xí),讓標(biāo)記為實(shí)例的類別。要評(píng)價(jià)分類模型的好壞時(shí),可基于預(yù)測類別和正確類別進(jìn)行比較來分析。而聚類算法最重要的是選擇合適的度量機(jī)制,用以度量任意兩個(gè)對(duì)象的相似程度,亦可以說是他們之間的距離。因?yàn)榫垲惖闹髦急闶钦J(rèn)為事物越是相似,兩者越可能是同類。聚類屬于無監(jiān)督學(xué)習(xí),而因其不包含標(biāo)記,類型本身是未知的。所以聚類的結(jié)果常會(huì)稱若干實(shí)例聚為一簇,而不是稱聚為一類。評(píng)價(jià)聚.類模型比較復(fù)雜,但通?;谌缦略瓌t:盡可能讓每個(gè)簇包含的樣本更加相似,同時(shí)保證不同簇之間的距離盡可能大。
3.2 樸素貝葉斯算法
樸素貝葉斯分類算法源自古典數(shù)學(xué),依賴于條件獨(dú)立假設(shè),其指的便是不同特征的取值相互獨(dú)立,對(duì)應(yīng)公式為:
P(X;=x1,X,=x2)=P(X,=x)P(X,=x2)
另外還依賴于條件概率公式:
P(X,=x|C =c])= P(X,=x,C =c|)
P(C1 =c])
但實(shí)際情況中不同特征取值常常相互影響,存在依賴關(guān)系。且模型效果極為依賴于數(shù)據(jù)的好壞,一旦數(shù)據(jù)存在過大偏差,生成的模型將失去使用價(jià)值。因此樸素貝葉斯算法改進(jìn)常集中于解決特征值之間的依賴關(guān)系,使用平滑技術(shù)等減少數(shù)據(jù)對(duì)模型的影響。
3.3 k-means算法
k-means的核心是為每個(gè)簇假定了 簇中心。首先通過隨機(jī)指定k個(gè)簇中心點(diǎn),計(jì)算每個(gè)樣本點(diǎn)至各中心點(diǎn)的距離,取距離最近的作為其所屬簇,以此進(jìn)行一次聚類。這時(shí)可以根據(jù)聚類結(jié)果重新計(jì)算簇中心點(diǎn),與之前的簇中心點(diǎn)進(jìn)行比較,將新的中心帶入算法繼續(xù)迭代以之修正模型直到兩者誤差小于某-常量。初期簇中心點(diǎn)的選取對(duì)算法的效果至關(guān)重要,它決定了迭代次數(shù)和最終聚類效果的好壞。算法的整個(gè)過程類似于最優(yōu)化求解,初期中心點(diǎn)的隨機(jī)性使得結(jié)果常為局部最優(yōu)解。因此k-means算法的改進(jìn)通常集中于如何選取初期的簇中心點(diǎn),使中心點(diǎn)之間距離盡可能遠(yuǎn),使中心點(diǎn)分布更加平均,或者使其更接近數(shù)據(jù)分布的疏密情況,這些措施都可以改進(jìn)算法的執(zhí)行速度和最終聚類的效果。
3.4 應(yīng)用方向
分類算法在垃圾郵件識(shí)別等相關(guān)識(shí)別領(lǐng)域多有建樹。例如人們在使用銀行卡、支付寶消費(fèi)的同時(shí)也產(chǎn)生了大量數(shù)據(jù),銀行等金融機(jī)構(gòu)可以對(duì)用戶的操作數(shù)據(jù)使用分類算法甄別出是否為本人行為,保護(hù)賬戶安全。也可以根據(jù)用戶的行為數(shù)據(jù)找出風(fēng)險(xiǎn)用戶,減小自身經(jīng)營風(fēng)險(xiǎn)。同樣分類算法也在天氣預(yù)報(bào)產(chǎn)量預(yù)測和生產(chǎn)風(fēng)險(xiǎn)評(píng)估等領(lǐng)域得到廣泛應(yīng)用。同樣在進(jìn)行用戶畫像時(shí),聚類算法也必不可少。而基于相似的人可能有相同的愛好,這樣推薦算法中協(xié)同過濾的核心思想,聚類算法得以在協(xié)同過濾中大展拳腳。
4 總結(jié)與反思
機(jī)器學(xué)習(xí)的前景廣闊,分類和聚類等算法各有千秋。分類和聚類結(jié)合使用可以互相驗(yàn)證,互相完善,這也是一種半監(jiān)督學(xué)習(xí)的思路。同時(shí)現(xiàn)階段最火的基于深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)進(jìn)行的模式識(shí)別,也可歸屬于監(jiān)督學(xué)習(xí)的分類算法。但機(jī)器學(xué)習(xí)為我們的生活帶來便利的同時(shí)也存在一些負(fù)面影響。近期新聞提到,,部分酒店等商業(yè)機(jī)構(gòu)利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)等技術(shù),甄別出對(duì)數(shù)字不敏感的用戶,悄悄提高對(duì)其服務(wù)的價(jià)格牟利。有關(guān)部門應(yīng)加強(qiáng)查處力度,保障用戶信息安全,使技術(shù)不被濫用。參考文獻(xiàn):
[1]李清霞,魏文紅,蔡昭權(quán).混合用戶和項(xiàng)目協(xié)同過濾的電子商務(wù)個(gè)性化推薦算法[J].中山大學(xué)學(xué)報(bào):自然科學(xué)版,2016,55(5):37-42.
[2]朱軍,胡文波.貝葉斯機(jī)器學(xué)習(xí)前沿進(jìn)展綜述[J].計(jì)算機(jī)研究與發(fā)展,2015,52(1):16-26.
[3]何清,李寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327-336.
[4]陳凱,朱鈺.機(jī)器學(xué)習(xí)及其相關(guān)算法綜述[J].統(tǒng)計(jì)與信息論壇,2007,22(5):105-112.
[通聯(lián)編輯:唐一東]