基于機(jī)器學(xué)習(xí)的基礎(chǔ)算法研究綜述

2020-06-15 16:06雷國(guó)平肖科羅秀英楊森姚佳佳

衛(wèi)星電視與寬帶多媒體 2020年8期

關(guān)鍵詞：機(jī)器學(xué)習(xí)數(shù)據(jù)分析算法

雷國(guó)平肖科羅秀英楊森姚佳佳

【摘要】機(jī)器學(xué)習(xí)就是通過(guò)對(duì)機(jī)器輸入數(shù)據(jù)，然后讓電腦對(duì)數(shù)據(jù)分析得到一定的信息，并從這些信息中總結(jié)出規(guī)律，使得這些規(guī)律能夠在類(lèi)似的事件中發(fā)揮作用，而在這個(gè)過(guò)程中，機(jī)器學(xué)習(xí)算法起到了關(guān)鍵性作用，本文將對(duì)機(jī)器學(xué)習(xí)幾種經(jīng)典的算法做出介紹和相關(guān)探討，這將對(duì)未來(lái)關(guān)于機(jī)器學(xué)習(xí)算法的研究和改進(jìn)具有極大的價(jià)值。

【關(guān)鍵詞】機(jī)器學(xué)習(xí);數(shù)據(jù)分析;算法

機(jī)器學(xué)習(xí)是人工智能中解決現(xiàn)實(shí)問(wèn)題的主要方法，經(jīng)過(guò)百來(lái)年的發(fā)展，誕生出了大量經(jīng)典的方法。闡述了基于機(jī)器學(xué)習(xí)的幾種基礎(chǔ)算法，著重介紹算法所應(yīng)用的背景以及解決了什么問(wèn)題，不同算法的優(yōu)缺點(diǎn)，在應(yīng)用中達(dá)到了什么效果等，對(duì)這些機(jī)器學(xué)習(xí)算法在日常應(yīng)用中所起到的作用做出深度的思考。

1. 何為機(jī)器學(xué)習(xí)？

簡(jiǎn)而言之，機(jī)器學(xué)習(xí)是從獲取的數(shù)據(jù)中提取，獲得，解析，理解知識(shí)資訊的一連串過(guò)程然后為了對(duì)新的，沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)進(jìn)行判斷以及預(yù)測(cè)。機(jī)器學(xué)習(xí)過(guò)程中通過(guò)數(shù)據(jù)準(zhǔn)備和特征工程這個(gè)兩個(gè)過(guò)程，找到已知數(shù)據(jù)集中的模式，然后使用這些模式對(duì)新數(shù)據(jù)進(jìn)行判斷或者預(yù)測(cè)，而這個(gè)過(guò)程的核心就是機(jī)器學(xué)習(xí)算法。

2. 幾種常見(jiàn)的算法

2.1 線(xiàn)性回歸（Linear Regression）

線(xiàn)性回歸分為一元線(xiàn)性回歸以及多元線(xiàn)性回歸。在回歸分析中，若只有一個(gè)自變量以及一個(gè)因變量，并且兩個(gè)變量之間能夠用直線(xiàn)表示，這就稱(chēng)為一元線(xiàn)性回歸分析，其數(shù)學(xué)模型為y=w1x+b。同理，因變量受多個(gè)自變量影響，這時(shí)一元線(xiàn)性回歸就不能滿(mǎn)足條件了，需要建立多元回歸模型，其數(shù)學(xué)模型為y=w1x1+w2x2+w3x3+b，線(xiàn)性回歸是使用權(quán)重參數(shù)來(lái)擬合出線(xiàn)性模型的一種方法。從實(shí)現(xiàn)的角度來(lái)看，這只是包裝了為預(yù)測(cè)對(duì)象的普通最小二乘。

2.2 梯度下降法（Gradient Descent）

梯度下降是一種優(yōu)化算法，它是是大多數(shù)機(jī)器學(xué)習(xí)算法的核心和靈魂，其作用是在梯度的負(fù)值所定義的最陡下降方向上不斷的移動(dòng)（迭代）從而達(dá)到最小化某些函數(shù)的作用。在機(jī)器學(xué)習(xí)過(guò)程中，可以使用梯度下降法來(lái)學(xué)習(xí)線(xiàn)性回歸或者神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)元的權(quán)重，達(dá)到更新參數(shù)的目的。

通過(guò)梯度下降法，在訓(xùn)練模型的時(shí)候能夠降低模型的損失，它在機(jī)器學(xué)習(xí)中是一種廣泛用于減少損失的方法，像在上坡走路一樣找到一種最快最省力的方法。

2.3 邏輯回歸（Logistic Regression）

統(tǒng)計(jì)學(xué)中，邏輯模型用于對(duì)特定類(lèi)別或事件（例如通過(guò)/失?。┑母怕蔬M(jìn)行建模。邏輯回歸是使用邏輯函數(shù)來(lái)估計(jì)概率，用來(lái)測(cè)量因變量與一個(gè)或幾個(gè)自變量之間的關(guān)系。因此邏輯回歸一般用來(lái)分析二元分類(lèi)以及多元分類(lèi)。邏輯回歸與線(xiàn)性回歸的區(qū)別在于，線(xiàn)性回歸更多的是得到一種較為準(zhǔn)確的結(jié)果，可能某個(gè)數(shù)字;而邏輯回歸得到的是一種概率，基于0到1之間，是一種非常有效計(jì)算概率的機(jī)制。邏輯回歸可以用于尋找導(dǎo)致某一事件的因素，例如找到某一疾病發(fā)生的因素。

2.4 決策樹(shù)演算法（Decision Tree）

決策樹(shù)是一個(gè)樹(shù)結(jié)構(gòu)（二叉樹(shù)或非二叉樹(shù)）。決策樹(shù)每個(gè)決策點(diǎn)表示的是一個(gè)特征屬性上的測(cè)試，而其每個(gè)分支代表的是這個(gè)特征屬性在它的某個(gè)值域上的輸出結(jié)果，決策樹(shù)的每個(gè)葉節(jié)點(diǎn)都可以存放一個(gè)類(lèi)別。使用決策樹(shù)來(lái)進(jìn)行決策的過(guò)程是從根節(jié)點(diǎn)開(kāi)始的，然后測(cè)試待分類(lèi)項(xiàng)中相應(yīng)的特征屬性，并按照其值來(lái)選擇所要輸出的分支，直到到達(dá)最終的葉子節(jié)點(diǎn)，并將葉子節(jié)點(diǎn)存放的類(lèi)別來(lái)作為決策結(jié)果輸出。

決策樹(shù)演算法背后的基本思想是使用屬性選擇度量（ASM）選擇最佳屬性以拆分記錄，使得該屬性成為決策節(jié)點(diǎn)，并將數(shù)據(jù)集分為更小的子集。通過(guò)遞歸，可以為每個(gè)子項(xiàng)不斷重復(fù)這個(gè)過(guò)程，從而來(lái)啟動(dòng)樹(shù)的構(gòu)建，直到其中一個(gè)條件匹配為止。屬性選擇度量用于將數(shù)據(jù)劃分為最佳可能方式的拆分標(biāo)準(zhǔn)的啟發(fā)式算法，也可以稱(chēng)為拆分規(guī)則，因?yàn)橛兄诖_定給定節(jié)點(diǎn)上元組的斷點(diǎn)。

2.5 支持向量機(jī)（Support Vector Machines）

支持向量機(jī)（SVM）可能是目前最流行、被討論地最多的機(jī)器學(xué)習(xí)算法之一。一般來(lái)說(shuō)，支持向量機(jī)被當(dāng)作是一種分類(lèi)的方法，其實(shí)它可以應(yīng)用于分類(lèi)和回歸。SVM的核心技巧是處理非線(xiàn)性輸入空間，關(guān)于它的應(yīng)用有面部檢測(cè)等等。

SVM的主要目標(biāo)是以最佳方式來(lái)對(duì)所給定的數(shù)據(jù)集進(jìn)行隔離，這需要從給定數(shù)據(jù)集中找出支持向量機(jī)之間具有最大可能邊界的超平面。在用來(lái)處理非線(xiàn)性以及不可分離平面問(wèn)題時(shí)，使用線(xiàn)性超平面無(wú)法解決，但可以通過(guò)SVM使用內(nèi)核技巧將輸入空間轉(zhuǎn)換為更高維度的空間來(lái)解決，換句話(huà)說(shuō)，可以通過(guò)向其添加更多維度將不可分離的問(wèn)題轉(zhuǎn)化維可以分離的問(wèn)題。

2.6 K最近鄰算法（K-Nearest Neighbor）

K最近鄰算法（KNN）是比較成熟的算法，也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一，該方法的思路是：在特征空間中，如果一個(gè)樣本附近的K個(gè)最近（即特征空間中最鄰近）樣本的大多數(shù)屬于某一個(gè)類(lèi)別，則該樣本也屬于這個(gè)類(lèi)別。KNN在解決實(shí)際問(wèn)題中也得到了廣泛的運(yùn)用，例如信用評(píng)級(jí)等。它用于分類(lèi)和回歸問(wèn)題，基于特征相似的分類(lèi)演算法。

在KNN中，K是指最近鄰居的數(shù)量，這是核心決定因素。這里如何選擇最佳鄰居數(shù)是關(guān)鍵，可以將K視為預(yù)測(cè)模型的控制變量。研究表明，沒(méi)有最優(yōu)數(shù)量的鄰居數(shù)適合所有類(lèi)型的數(shù)據(jù)集，每個(gè)數(shù)據(jù)集都有自己的要求，在少數(shù)鄰居的情況下，噪聲將對(duì)結(jié)果具有更高的影響，在大量鄰居情況下，計(jì)算成本將較高。研究還表明少數(shù)鄰居具有低偏差，高方差的特點(diǎn)，大量鄰居就有更平滑的決策邊界，即更低的方差，更高的偏差，因此可以通過(guò)在不同的K值上生成模型來(lái)檢查其性能。

2.7 隨機(jī)森林分類(lèi)法（Random forests Classifiers）

隨機(jī)森林演算法主要用于分類(lèi)和回歸。森林是由樹(shù)木（特征）組成，擁有的樹(shù)越多，森林（特征）越堅(jiān)固。隨機(jī)森林分類(lèi)法就是從隨機(jī)選擇的數(shù)據(jù)樣本上創(chuàng)建決策樹(shù)，從每棵樹(shù)上獲得預(yù)測(cè)并提供投票，來(lái)選擇最佳的解決方案。隨機(jī)森林應(yīng)用也非常多，例如推薦引擎等。

在分類(lèi)問(wèn)題過(guò)程中，每棵樹(shù)進(jìn)行投票后，最受歡迎的類(lèi)會(huì)被當(dāng)作最終結(jié)果;在回歸問(wèn)題過(guò)程中，所有樹(shù)輸出的平均值會(huì)被當(dāng)作最終結(jié)果。隨機(jī)森林演算法的過(guò)程是從給定數(shù)據(jù)集中選擇隨機(jī)樣本，然后為每個(gè)樣本構(gòu)建決策樹(shù)，并從每棵決策樹(shù)上獲得預(yù)測(cè)的結(jié)果，再對(duì)每個(gè)預(yù)測(cè)的結(jié)果來(lái)進(jìn)行投票，最終選擇所投票最多的預(yù)測(cè)結(jié)果作為最終的預(yù)測(cè)結(jié)果。

隨機(jī)森林由于參與該過(guò)程的決策樹(shù)數(shù)量被認(rèn)為是高度準(zhǔn)確和穩(wěn)健的方法，不會(huì)受到過(guò)度擬合問(wèn)題的影響，因?yàn)樗∠怂蓄A(yù)測(cè)的平均值，從而抵消了偏差。與其他算法相比，隨機(jī)森林生成預(yù)測(cè)的速度很慢，因?yàn)樗卸鄠€(gè)決策樹(shù)，每當(dāng)在進(jìn)行預(yù)測(cè)的過(guò)程時(shí)，森林中所有的樹(shù)都會(huì)對(duì)相同的給定輸入做出預(yù)測(cè)，然后再對(duì)其進(jìn)行投票，過(guò)程較耗時(shí)。

2.8 聚類(lèi)演算法（Clustering Algorithms）

在機(jī)器學(xué)習(xí)中，無(wú)監(jiān)督學(xué)習(xí)方法一直是我們追的方向而其中的聚類(lèi)算法更是發(fā)現(xiàn)隱藏?cái)?shù)據(jù)結(jié)構(gòu)與知識(shí)的有效手段。聚類(lèi)是將樣本進(jìn)行分類(lèi)，然后將樣本收集到相類(lèi)似的組中，根據(jù)某些預(yù)定義的相似性或距離（不相似性），來(lái)進(jìn)行采樣測(cè)量。它的應(yīng)用包括使用案例包括細(xì)分客戶(hù)等。

Kmeans聚類(lèi)法是聚類(lèi)算法中最為原始的一類(lèi)，它可以隨機(jī)將每個(gè)觀(guān)察樣本分配到 k 類(lèi)中的某一類(lèi)，然后來(lái)計(jì)算每個(gè)類(lèi)的平均值，再然后它重新將每個(gè)觀(guān)察的樣本分配到與其最為接近的均值所在的類(lèi)別，最后再重新計(jì)算其均值。這一步需要不停的重復(fù)，直到不再需要出現(xiàn)新的分配為止。其是在未標(biāo)記的多維數(shù)據(jù)集中搜索預(yù)定數(shù)量的聚類(lèi)，聚集中心是屬于聚類(lèi)所有點(diǎn)的算術(shù)平均值，每個(gè)點(diǎn)都靠近自己的集群中心，而不是靠近其他集群的中心。

聚類(lèi)算法對(duì)大數(shù)據(jù)集處理具有相對(duì)可伸縮和高效率的特性，它會(huì)嘗試找出到使平方誤差函數(shù)值最小的k個(gè)劃分。聚類(lèi)算法是使用最簡(jiǎn)單的聚類(lèi)算法之一，其他類(lèi)似的聚類(lèi)算法（例如分層聚類(lèi)等）都是在其基礎(chǔ)上深化得來(lái)的。

3. 結(jié)束語(yǔ)

機(jī)器學(xué)習(xí)近些年來(lái)發(fā)展得越來(lái)越迅速，在深度學(xué)習(xí)，計(jì)算機(jī)視覺(jué)以及語(yǔ)音識(shí)別方面得到了廣泛得使用并且衍生出大量的實(shí)用產(chǎn)品，展現(xiàn)出它向前推進(jìn)的無(wú)限動(dòng)力，但是要做好機(jī)器學(xué)習(xí)算法方面的研究并不是一件容易的事，因?yàn)闆](méi)有那一個(gè)算法能解決所有的實(shí)際問(wèn)題，需要我們后續(xù)不斷地更新和拓展，將不同場(chǎng)景和不同的算法結(jié)合，達(dá)到最佳效果的目的，用實(shí)際問(wèn)題來(lái)匹配算法，靈活運(yùn)用。

參考文獻(xiàn)：

[1]周志華，機(jī)器學(xué)習(xí)，清華大學(xué)出版社，2016.

[2]Nick T G ， Campbell K M . Logistic Regression[J]. Methods in Molecular Biology， 2007， 404（404）：273.

[3]劉穎超，張紀(jì)元. 梯度下降法[J]. 南京理工大學(xué)學(xué)報(bào)（自然科學(xué)版）， 1993.

[4]None. Applied Logistic Regression Analysis[J]. Technometrics， 1996， 38（2）：192-192.

[5]唐華松，姚耀文. 數(shù)據(jù)挖掘中決策樹(shù)算法的探討[J]. 計(jì)算機(jī)應(yīng)用研究， 2001（08）：21-22+25.

[6]關(guān)曉薔. 基于決策樹(shù)的分類(lèi)算法研究[D]. 山西大學(xué).

[7]范昕煒. 支持向量機(jī)算法的研究及其應(yīng)用[D]. 浙江大學(xué)， 2003.

[8]Zhang ML， Zhou Z H . ML-KNN： A lazy learning approach to multi-label learning[J]. Pattern Recognition， 2007， 40（7）：2038-2048.

[9]Breiman L. Random Forests[J]. Machine Learning， 2001， 45（1）：5-32.

[10]Rasmussen E. Clustering algorithms[M]// Information retrieval. Prentice-Hall， Inc. 1992.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機(jī)器學(xué)習(xí)的基礎(chǔ)算法研究綜述