雷國(guó)平 肖科 羅秀英 楊森 姚佳佳
【摘要】機(jī)器學(xué)習(xí)就是通過(guò)對(duì)機(jī)器輸入數(shù)據(jù),然后讓電腦對(duì)數(shù)據(jù)分析得到一定的信息,并從這些信息中總結(jié)出規(guī)律,使得這些規(guī)律能夠在類(lèi)似的事件中發(fā)揮作用,而在這個(gè)過(guò)程中,機(jī)器學(xué)習(xí)算法起到了關(guān)鍵性作用,本文將對(duì)機(jī)器學(xué)習(xí)幾種經(jīng)典的算法做出介紹和相關(guān)探討,這將對(duì)未來(lái)關(guān)于機(jī)器學(xué)習(xí)算法的研究和改進(jìn)具有極大的價(jià)值。
【關(guān)鍵詞】機(jī)器學(xué)習(xí);數(shù)據(jù)分析;算法
機(jī)器學(xué)習(xí)是人工智能中解決現(xiàn)實(shí)問(wèn)題的主要方法,經(jīng)過(guò)百來(lái)年的發(fā)展,誕生出了大量經(jīng)典的方法。闡述了基于機(jī)器學(xué)習(xí)的幾種基礎(chǔ)算法,著重介紹算法所應(yīng)用的背景以及解決了什么問(wèn)題,不同算法的優(yōu)缺點(diǎn),在應(yīng)用中達(dá)到了什么效果等,對(duì)這些機(jī)器學(xué)習(xí)算法在日常應(yīng)用中所起到的作用做出深度的思考。
1. 何為機(jī)器學(xué)習(xí)?
簡(jiǎn)而言之,機(jī)器學(xué)習(xí)是從獲取的數(shù)據(jù)中提取,獲得,解析,理解知識(shí)資訊的一連串過(guò)程然后為了對(duì)新的,沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)進(jìn)行判斷以及預(yù)測(cè)。機(jī)器學(xué)習(xí)過(guò)程中通過(guò)數(shù)據(jù)準(zhǔn)備和特征工程這個(gè)兩個(gè)過(guò)程,找到已知數(shù)據(jù)集中的模式,然后使用這些模式對(duì)新數(shù)據(jù)進(jìn)行判斷或者預(yù)測(cè),而這個(gè)過(guò)程的核心就是機(jī)器學(xué)習(xí)算法。
2. 幾種常見(jiàn)的算法
2.1 線(xiàn)性回歸(Linear Regression)
線(xiàn)性回歸分為一元線(xiàn)性回歸以及多元線(xiàn)性回歸。在回歸分析中,若只有一個(gè)自變量以及一個(gè)因變量,并且兩個(gè)變量之間能夠用直線(xiàn)表示,這就稱(chēng)為一元線(xiàn)性回歸分析,其數(shù)學(xué)模型為y=w1x+b。同理,因變量受多個(gè)自變量影響,這時(shí)一元線(xiàn)性回歸就不能滿(mǎn)足條件了,需要建立多元回歸模型,其數(shù)學(xué)模型為y=w1x1+w2x2+w3x3+b,線(xiàn)性回歸是使用權(quán)重參數(shù)來(lái)擬合出線(xiàn)性模型的一種方法。從實(shí)現(xiàn)的角度來(lái)看,這只是包裝了為預(yù)測(cè)對(duì)象的普通最小二乘。
2.2 梯度下降法(Gradient Descent)
梯度下降是一種優(yōu)化算法,它是是大多數(shù)機(jī)器學(xué)習(xí)算法的核心和靈魂,其作用是在梯度的負(fù)值所定義的最陡下降方向上不斷的移動(dòng)(迭代)從而達(dá)到最小化某些函數(shù)的作用。在機(jī)器學(xué)習(xí)過(guò)程中,可以使用梯度下降法來(lái)學(xué)習(xí)線(xiàn)性回歸或者神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元的權(quán)重,達(dá)到更新參數(shù)的目的。
通過(guò)梯度下降法,在訓(xùn)練模型的時(shí)候能夠降低模型的損失,它在機(jī)器學(xué)習(xí)中是一種廣泛用于減少損失的方法,像在上坡走路一樣找到一種最快最省力的方法。
2.3 邏輯回歸(Logistic Regression)
統(tǒng)計(jì)學(xué)中,邏輯模型用于對(duì)特定類(lèi)別或事件(例如通過(guò)/失?。┑母怕蔬M(jìn)行建模。邏輯回歸是使用邏輯函數(shù)來(lái)估計(jì)概率,用來(lái)測(cè)量因變量與一個(gè)或幾個(gè)自變量之間的關(guān)系。因此邏輯回歸一般用來(lái)分析二元分類(lèi)以及多元分類(lèi)。邏輯回歸與線(xiàn)性回歸的區(qū)別在于,線(xiàn)性回歸更多的是得到一種較為準(zhǔn)確的結(jié)果,可能某個(gè)數(shù)字;而邏輯回歸得到的是一種概率,基于0到1之間,是一種非常有效計(jì)算概率的機(jī)制。邏輯回歸可以用于尋找導(dǎo)致某一事件的因素,例如找到某一疾病發(fā)生的因素。
2.4 決策樹(shù)演算法(Decision Tree)
決策樹(shù)是一個(gè)樹(shù)結(jié)構(gòu)(二叉樹(shù)或非二叉樹(shù))。決策樹(shù)每個(gè)決策點(diǎn)表示的是一個(gè)特征屬性上的測(cè)試,而其每個(gè)分支代表的是這個(gè)特征屬性在它的某個(gè)值域上的輸出結(jié)果,決策樹(shù)的每個(gè)葉節(jié)點(diǎn)都可以存放一個(gè)類(lèi)別。使用決策樹(shù)來(lái)進(jìn)行決策的過(guò)程是從根節(jié)點(diǎn)開(kāi)始的,然后測(cè)試待分類(lèi)項(xiàng)中相應(yīng)的特征屬性,并按照其值來(lái)選擇所要輸出的分支,直到到達(dá)最終的葉子節(jié)點(diǎn),并將葉子節(jié)點(diǎn)存放的類(lèi)別來(lái)作為決策結(jié)果輸出。
決策樹(shù)演算法背后的基本思想是使用屬性選擇度量(ASM)選擇最佳屬性以拆分記錄,使得該屬性成為決策節(jié)點(diǎn),并將數(shù)據(jù)集分為更小的子集。通過(guò)遞歸,可以為每個(gè)子項(xiàng)不斷重復(fù)這個(gè)過(guò)程,從而來(lái)啟動(dòng)樹(shù)的構(gòu)建,直到其中一個(gè)條件匹配為止。屬性選擇度量用于將數(shù)據(jù)劃分為最佳可能方式的拆分標(biāo)準(zhǔn)的啟發(fā)式算法,也可以稱(chēng)為拆分規(guī)則,因?yàn)橛兄诖_定給定節(jié)點(diǎn)上元組的斷點(diǎn)。
2.5 支持向量機(jī)(Support Vector Machines)
支持向量機(jī)(SVM)可能是目前最流行、被討論地最多的機(jī)器學(xué)習(xí)算法之一。一般來(lái)說(shuō),支持向量機(jī)被當(dāng)作是一種分類(lèi)的方法,其實(shí)它可以應(yīng)用于分類(lèi)和回歸。SVM的核心技巧是處理非線(xiàn)性輸入空間,關(guān)于它的應(yīng)用有面部檢測(cè)等等。
SVM的主要目標(biāo)是以最佳方式來(lái)對(duì)所給定的數(shù)據(jù)集進(jìn)行隔離,這需要從給定數(shù)據(jù)集中找出支持向量機(jī)之間具有最大可能邊界的超平面。 在用來(lái)處理非線(xiàn)性以及不可分離平面問(wèn)題時(shí),使用線(xiàn)性超平面無(wú)法解決,但可以通過(guò)SVM使用內(nèi)核技巧將輸入空間轉(zhuǎn)換為更高維度的空間來(lái)解決,換句話(huà)說(shuō),可以通過(guò)向其添加更多維度將不可分離的問(wèn)題轉(zhuǎn)化維可以分離的問(wèn)題。
2.6 K最近鄰算法(K-Nearest Neighbor)
K最近鄰算法(KNN)是比較成熟的算法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一,該方法的思路是:在特征空間中,如果一個(gè)樣本附近的K個(gè)最近(即特征空間中最鄰近)樣本的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。KNN在解決實(shí)際問(wèn)題中也得到了廣泛的運(yùn)用,例如信用評(píng)級(jí)等。它用于分類(lèi)和回歸問(wèn)題,基于特征相似的分類(lèi)演算法。
在KNN中,K是指最近鄰居的數(shù)量,這是核心決定因素。這里如何選擇最佳鄰居數(shù)是關(guān)鍵,可以將K視為預(yù)測(cè)模型的控制變量。研究表明,沒(méi)有最優(yōu)數(shù)量的鄰居數(shù)適合所有類(lèi)型的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集都有自己的要求,在少數(shù)鄰居的情況下,噪聲將對(duì)結(jié)果具有更高的影響,在大量鄰居情況下,計(jì)算成本將較高。研究還表明少數(shù)鄰居具有低偏差,高方差的特點(diǎn),大量鄰居就有更平滑的決策邊界,即更低的方差,更高的偏差,因此可以通過(guò)在不同的K值上生成模型來(lái)檢查其性能。
2.7 隨機(jī)森林分類(lèi)法(Random forests Classifiers)
隨機(jī)森林演算法主要用于分類(lèi)和回歸。森林是由樹(shù)木(特征)組成,擁有的樹(shù)越多,森林(特征)越堅(jiān)固。隨機(jī)森林分類(lèi)法就是從隨機(jī)選擇的數(shù)據(jù)樣本上創(chuàng)建決策樹(shù),從每棵樹(shù)上獲得預(yù)測(cè)并提供投票,來(lái)選擇最佳的解決方案。隨機(jī)森林應(yīng)用也非常多,例如推薦引擎等。
在分類(lèi)問(wèn)題過(guò)程中,每棵樹(shù)進(jìn)行投票后,最受歡迎的類(lèi)會(huì)被當(dāng)作最終結(jié)果;在回歸問(wèn)題過(guò)程中,所有樹(shù)輸出的平均值會(huì)被當(dāng)作最終結(jié)果。隨機(jī)森林演算法的過(guò)程是從給定數(shù)據(jù)集中選擇隨機(jī)樣本,然后為每個(gè)樣本構(gòu)建決策樹(shù),并從每棵決策樹(shù)上獲得預(yù)測(cè)的結(jié)果,再對(duì)每個(gè)預(yù)測(cè)的結(jié)果來(lái)進(jìn)行投票,最終選擇所投票最多的預(yù)測(cè)結(jié)果作為最終的預(yù)測(cè)結(jié)果。
隨機(jī)森林由于參與該過(guò)程的決策樹(shù)數(shù)量被認(rèn)為是高度準(zhǔn)確和穩(wěn)健的方法,不會(huì)受到過(guò)度擬合問(wèn)題的影響,因?yàn)樗∠怂蓄A(yù)測(cè)的平均值,從而抵消了偏差。與其他算法相比,隨機(jī)森林生成預(yù)測(cè)的速度很慢,因?yàn)樗卸鄠€(gè)決策樹(shù),每當(dāng)在進(jìn)行預(yù)測(cè)的過(guò)程時(shí),森林中所有的樹(shù)都會(huì)對(duì)相同的給定輸入做出預(yù)測(cè),然后再對(duì)其進(jìn)行投票,過(guò)程較耗時(shí)。
2.8 聚類(lèi)演算法(Clustering Algorithms)
在機(jī)器學(xué)習(xí)中,無(wú)監(jiān)督學(xué)習(xí)方法一直是我們追的方向而其中的聚類(lèi)算法更是發(fā)現(xiàn)隱藏?cái)?shù)據(jù)結(jié)構(gòu)與知識(shí)的有效手段。聚類(lèi)是將樣本進(jìn)行分類(lèi),然后將樣本收集到相類(lèi)似的組中,根據(jù)某些預(yù)定義的相似性或距離(不相似性),來(lái)進(jìn)行采樣測(cè)量。它的應(yīng)用包括使用案例包括細(xì)分客戶(hù)等。
Kmeans聚類(lèi)法是聚類(lèi)算法中最為原始的一類(lèi),它可以隨機(jī)將每個(gè)觀(guān)察樣本分配到 k 類(lèi)中的某一類(lèi),然后來(lái)計(jì)算每個(gè)類(lèi)的平均值,再然后它重新將每個(gè)觀(guān)察的樣本分配到與其最為接近的均值所在的類(lèi)別,最后再重新計(jì)算其均值。這一步需要不停的重復(fù),直到不再需要出現(xiàn)新的分配為止。其是在未標(biāo)記的多維數(shù)據(jù)集中搜索預(yù)定數(shù)量的聚類(lèi),聚集中心是屬于聚類(lèi)所有點(diǎn)的算術(shù)平均值,每個(gè)點(diǎn)都靠近自己的集群中心,而不是靠近其他集群的中心。
聚類(lèi)算法對(duì)大數(shù)據(jù)集處理具有相對(duì)可伸縮和高效率的特性,它會(huì)嘗試找出到使平方誤差函數(shù)值最小的k個(gè)劃分。聚類(lèi)算法是使用最簡(jiǎn)單的聚類(lèi)算法之一,其他類(lèi)似的聚類(lèi)算法(例如分層聚類(lèi)等)都是在其基礎(chǔ)上深化得來(lái)的。
3. 結(jié)束語(yǔ)
機(jī)器學(xué)習(xí)近些年來(lái)發(fā)展得越來(lái)越迅速,在深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)以及語(yǔ)音識(shí)別方面得到了廣泛得使用并且衍生出大量的實(shí)用產(chǎn)品,展現(xiàn)出它向前推進(jìn)的無(wú)限動(dòng)力,但是要做好機(jī)器學(xué)習(xí)算法方面的研究并不是一件容易的事,因?yàn)闆](méi)有那一個(gè)算法能解決所有的實(shí)際問(wèn)題,需要我們后續(xù)不斷地更新和拓展,將不同場(chǎng)景和不同的算法結(jié)合,達(dá)到最佳效果的目的,用實(shí)際問(wèn)題來(lái)匹配算法,靈活運(yùn)用。
參考文獻(xiàn):
[1]周志華,機(jī)器學(xué)習(xí),清華大學(xué)出版社,2016.
[2]Nick T G , Campbell K M . Logistic Regression[J]. Methods in Molecular Biology, 2007, 404(404):273.
[3]劉穎超, 張紀(jì)元. 梯度下降法[J]. 南京理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 1993.
[4]None. Applied Logistic Regression Analysis[J]. Technometrics, 1996, 38(2):192-192.
[5]唐華松, 姚耀文. 數(shù)據(jù)挖掘中決策樹(shù)算法的探討[J]. 計(jì)算機(jī)應(yīng)用研究, 2001(08):21-22+25.
[6]關(guān)曉薔. 基于決策樹(shù)的分類(lèi)算法研究[D]. 山西大學(xué).
[7]范昕煒. 支持向量機(jī)算法的研究及其應(yīng)用[D]. 浙江大學(xué), 2003.
[8]Zhang ML, Zhou Z H . ML-KNN: A lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7):2038-2048.
[9]Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[10]Rasmussen E. Clustering algorithms[M]// Information retrieval. Prentice-Hall, Inc. 1992.