周昀鍇
摘 要 機(jī)器學(xué)習(xí)的內(nèi)容涉及很多領(lǐng)域,如人工智能研究、統(tǒng)計(jì)與概率計(jì)算、哲學(xué)邏輯以及神經(jīng)生物學(xué)等。文章介紹了機(jī)器學(xué)習(xí)的概念、發(fā)展簡(jiǎn)史、分類以及八種常見(jiàn)算法,最后探討了機(jī)器學(xué)習(xí)的應(yīng)用與影響。
關(guān)鍵詞 機(jī)械學(xué)系;機(jī)械學(xué)習(xí)分類;經(jīng)典算法
中圖分類號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2019)231-0153-02
計(jì)算機(jī)科學(xué)在最近半個(gè)世紀(jì)一直在大力發(fā)展模擬并實(shí)現(xiàn)人類的行為,這就是機(jī)器學(xué)習(xí)的核心內(nèi)容。其主要途徑是重組知識(shí)結(jié)構(gòu)來(lái)掌握新的知識(shí)技能,改善各種工具的性能。機(jī)器學(xué)習(xí)的辯證邏輯方法是歸納、綜合,而不采用演繹[1]。
目前,機(jī)器學(xué)習(xí)歷經(jīng)70年的曲折發(fā)展,以深度學(xué)習(xí)為代表借鑒人腦的多分層結(jié)構(gòu)、神經(jīng)元的連接交互信息的逐層分析處理機(jī)制,自適應(yīng)、自學(xué)習(xí)的強(qiáng)大并行信息處理能力,在很多方面收獲了突破性進(jìn)展,其中最有代表性的是圖像識(shí)別領(lǐng)域[2]。本文就機(jī)器學(xué)習(xí)介紹及其相關(guān)算法簡(jiǎn)介做一介紹。
1 機(jī)器學(xué)習(xí)的歷史
機(jī)器學(xué)習(xí)的發(fā)展大體可分為4個(gè)階段。
第一階段在1950年至1960年,人們?cè)谶@個(gè)初始階段對(duì)自適應(yīng)系統(tǒng)進(jìn)行大反復(fù)試驗(yàn),雖然整體提高了系統(tǒng)的效率和執(zhí)行能力,但并不能滿足社會(huì)的?期望[3]。第二階段在1960年至1970年,是機(jī)器學(xué)習(xí)發(fā)展的冷靜時(shí)期。試圖采用圖結(jié)構(gòu)或邏輯結(jié)構(gòu)模擬人類的概念學(xué)習(xí)過(guò)程。代表性工作是Winston的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)。但結(jié)構(gòu)單一、缺乏實(shí)用性。第三階段在1970年至1980年,是機(jī)器學(xué)習(xí)發(fā)展的復(fù)興時(shí)期。較多的學(xué)習(xí)概念理論進(jìn)入成形階段,很多人將學(xué)習(xí)系統(tǒng)與各種其它應(yīng)用結(jié)合研究新型問(wèn)題從而取得各領(lǐng)域成功。示例歸約學(xué)習(xí)和自動(dòng)知識(shí)獲取成為了機(jī)器學(xué)習(xí)研究的主流。第四階段從1986年開(kāi)始,是機(jī)器學(xué)習(xí)發(fā)展的高潮時(shí)期。各種研究方法大量涌現(xiàn),如人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、符號(hào)學(xué)習(xí)、集成學(xué)習(xí),其中集成學(xué)習(xí)有效地提高模型的推廣能力,如:Bagging算法、Boosting算法等。
2 機(jī)器學(xué)習(xí)的分類
2.1 基于學(xué)習(xí)方式的分類
1)監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是指在機(jī)器學(xué)習(xí)過(guò)程中給出對(duì)錯(cuò)指示,通過(guò)已有的訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,獲得最優(yōu)模型,借助模型把輸入的所有數(shù)據(jù)向輸出完全映射,再較為簡(jiǎn)單地判斷輸出,以此實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行分類的目的,也就是獲得了對(duì)未知數(shù)據(jù)進(jìn)行分類的能力。訓(xùn)練集包含輸入、輸出,并需要人為標(biāo)注目標(biāo)特征。監(jiān)督學(xué)習(xí)大體包括兩種:一種出自回歸問(wèn)題、另一種出自分類問(wèn)題,它們主要被用作分類和預(yù)測(cè)問(wèn)題的重點(diǎn)學(xué)習(xí)方式。最常用的監(jiān)督學(xué)習(xí)算法有兩種,包括支持向量機(jī)算法和鄰近算法。
2)無(wú)監(jiān)督學(xué)習(xí)。它的另一個(gè)名字是歸納性學(xué)習(xí),其思想核心是根據(jù)K學(xué)習(xí)方式來(lái)搭建中心,再利用反復(fù)遞減運(yùn)算來(lái)縮減誤差[4]。無(wú)監(jiān)督學(xué)習(xí)和前面提及的學(xué)習(xí)方法相比,它在之前無(wú)訓(xùn)練樣本,需要將非已知的數(shù)據(jù)建模處理。其中最常見(jiàn)的是聚類算法。
3)強(qiáng)化學(xué)習(xí)。又叫增強(qiáng)學(xué)習(xí),基于統(tǒng)計(jì)和動(dòng)態(tài)規(guī)劃技術(shù)方法,輸入通過(guò)反饋過(guò)程中計(jì)算得到的數(shù)據(jù)信息,與之相關(guān)有Q-learning等[5]。
2.2 基本模型
在機(jī)器學(xué)習(xí)過(guò)程中,一是對(duì)于外部信息源提供給系統(tǒng)的知識(shí),這其實(shí)是一種學(xué)習(xí)過(guò)程,即從外界環(huán)境獲取信息,然后將獲得的信息加工成知識(shí),并將知識(shí)放入知識(shí)庫(kù)[6]。環(huán)境向?qū)W習(xí)系統(tǒng)提供的信息質(zhì)量?jī)?yōu)劣,直接影響學(xué)習(xí)部分實(shí)現(xiàn)的難易。二是知識(shí)庫(kù)。因?yàn)橹R(shí)庫(kù)中存放了指導(dǎo)執(zhí)行動(dòng)作的原則,需要注意的是對(duì)于不同的知識(shí)庫(kù)其有不同的表示特征。備選的表示方式的基本要求是要具備好的表示效果、也要有很好的邏輯性,并易于完善[7]。機(jī)器學(xué)習(xí)模型中的執(zhí)行環(huán)節(jié)是使用庫(kù)知識(shí)完成特定任務(wù)的過(guò)程,并把信息反饋給學(xué)習(xí)環(huán)節(jié)。
3 機(jī)器學(xué)習(xí)八種常見(jiàn)算法
3.1 決策樹(shù)算法
決策樹(shù)及其變種是一類將輸入空間分成不同的區(qū)域,每個(gè)區(qū)域有獨(dú)立參數(shù)的算法。決策樹(shù)算法充分利用了樹(shù)形模型,根節(jié)點(diǎn)到一個(gè)葉子節(jié)點(diǎn)是一條分類的路徑規(guī)則,每個(gè)葉子節(jié)點(diǎn)象征一個(gè)判斷類別。先將樣本分成不同的子集,再進(jìn)行分割遞推,直至每個(gè)子集得到同類型的樣本,從根節(jié)點(diǎn)開(kāi)始測(cè)試,到子樹(shù)再到葉子節(jié)點(diǎn),即可得出預(yù)測(cè)類別。此方法的特點(diǎn)是結(jié)構(gòu)簡(jiǎn)單、處理數(shù)據(jù)效率較高。
3.2 樸素貝葉斯算法
樸素貝葉斯算法是一種分類算法。它不是單一算法,而是一系列算法,它們都有一個(gè)共同的原則,即被分類的每個(gè)特征都與任何其他特征的值無(wú)關(guān)。樸素貝葉斯分類器認(rèn)為這些“特征”中的每一個(gè)都獨(dú)立地貢獻(xiàn)概率,而不管特征之間的任何相關(guān)性。然而,特征并不總是獨(dú)立的,這通常被視為樸素貝葉斯算法的缺點(diǎn)。簡(jiǎn)而言之,樸素貝葉斯算法允許我們使用概率給出一組特征來(lái)預(yù)測(cè)一個(gè)類。與其他常見(jiàn)的分類方法相比,樸素貝葉斯算法需要的訓(xùn)練很少。在進(jìn)行預(yù)測(cè)之前必須完成的唯一工作是找到特征的個(gè)體概率分布的參數(shù),這通??梢钥焖偾掖_定地完成。這意味著即使對(duì)于高維數(shù)據(jù)點(diǎn)或大量數(shù)據(jù)點(diǎn),樸素貝葉斯分類器也可以表現(xiàn)良好。
3.3 支持向量機(jī)算法
基本思想可概括如下:首先,要利用一種變換將空間高維化,當(dāng)然這種變換是非線性的,然后,在新的復(fù)雜空間取最優(yōu)線性分類表面[8]。由此種方式獲得的分類函數(shù)在形式上類似于神經(jīng)網(wǎng)絡(luò)算法[9]。支持向量機(jī)是統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域中一個(gè)代表性算法,但它與傳統(tǒng)方式的思維方法很不同,輸入空間、提高維度從而將問(wèn)題簡(jiǎn)短化,使問(wèn)題歸結(jié)為線性可分的經(jīng)典解問(wèn)題。支持向量機(jī)應(yīng)用于垃圾郵件識(shí)別,人臉識(shí)別等多種分類問(wèn)題。
3.4 隨機(jī)森林算法
控制數(shù)據(jù)樹(shù)生成的方式有多種,根據(jù)前人的經(jīng)驗(yàn),大多數(shù)時(shí)候更傾向選擇分裂屬性和剪枝,但這并不能解決所有問(wèn)題,偶爾會(huì)遇到噪聲或分裂屬性過(guò)多的問(wèn)題[10]?;谶@種情況,總結(jié)每次的結(jié)果可以得到袋外數(shù)據(jù)的估計(jì)誤差,將它和測(cè)試樣本的估計(jì)誤差相結(jié)合可以評(píng)估組合樹(shù)學(xué)習(xí)器的擬合及預(yù)測(cè)精度[11]。此方法的優(yōu)點(diǎn)有很多,可以產(chǎn)生高精度的分類器,并能夠處理大量的變數(shù),也可以平衡分類資料集之間的誤差。
3.5 人工神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)與神經(jīng)元組成的異常復(fù)雜的網(wǎng)絡(luò)此大體相似,是個(gè)體單元互相連接而成,每個(gè)單元有數(shù)值量的輸入和輸出,形式可以為實(shí)數(shù)或線性組合函數(shù)。它先要以一種學(xué)習(xí)準(zhǔn)則去學(xué)習(xí),然后才能進(jìn)行工作。當(dāng)網(wǎng)絡(luò)判斷錯(cuò)誤時(shí),通過(guò)學(xué)習(xí)使其減少犯同樣錯(cuò)誤的可能性。此方法有很強(qiáng)的泛化能力和非線性映射能力,可以對(duì)信息量少的系統(tǒng)進(jìn)行模型處理。從功能模擬角度看具有并行性,且傳遞信息速度極快。
3.6 Boosting與Bagging算法
Boosting是種通用的增強(qiáng)基礎(chǔ)算法性能的回歸分析算法。不需構(gòu)造一個(gè)高精度的回歸分析,只需一個(gè)粗糙的基礎(chǔ)算法即可,再反復(fù)調(diào)整基礎(chǔ)算法就可以得到較好的組合回歸模型。它可以將弱學(xué)習(xí)算法提高為強(qiáng)學(xué)習(xí)算法,可以應(yīng)用到其它基礎(chǔ)回歸算法,如線性回歸、神經(jīng)網(wǎng)絡(luò)等,來(lái)提高精度。Bagging和前一種算法大體相似但又略有差別,主要想法是給出已知的弱學(xué)習(xí)算法[12]和訓(xùn)練集,它需要經(jīng)過(guò)多輪的計(jì)算,才可以得到預(yù)測(cè)函數(shù)列,最后采用投票方式對(duì)示例進(jìn)行判別。
3.7 關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則是用規(guī)則去描述兩個(gè)變量或多個(gè)變量之間的關(guān)系,是客觀反映數(shù)據(jù)本身性質(zhì)的方法。它是機(jī)器學(xué)習(xí)的一大類任務(wù),可分為兩個(gè)階段,先從資料集中找到高頻項(xiàng)目組,再去研究它們的關(guān)聯(lián)規(guī)則。其得到的分析結(jié)果即是對(duì)變量間規(guī)律的總結(jié)。
3.8 EM算法
在進(jìn)行機(jī)器學(xué)習(xí)的過(guò)程中需要用到極大似然估計(jì)等參數(shù)估計(jì)方法,在有潛在變量的情況下,通常選擇EM算法,不是直接對(duì)函數(shù)對(duì)象進(jìn)行極大估計(jì),而是添加一些數(shù)據(jù)進(jìn)行簡(jiǎn)化計(jì)算,再進(jìn)行極大化模擬。它是對(duì)本身受限制或比較難直接處理的數(shù)據(jù)的極大似然估計(jì)算法。
4 機(jī)器學(xué)習(xí)的應(yīng)用與影響
4.1 應(yīng)用
1)虛擬助手。Siri,Alexa,Google?Now都是虛擬助手。顧名思義,當(dāng)使用語(yǔ)音發(fā)出指令后,它們會(huì)協(xié)助查找信息。對(duì)于回答,虛擬助手會(huì)查找信息,回憶我們的相關(guān)查詢,或向其他資源(如電話應(yīng)用程序)發(fā)送命令以收集信息。我們甚至可以指導(dǎo)助手執(zhí)行某些任務(wù),例如“設(shè)置7點(diǎn)的鬧鐘”等。
2)交通預(yù)測(cè)。生活中我們經(jīng)常使用GPS導(dǎo)航服務(wù)。當(dāng)我們這樣做時(shí),我們當(dāng)前的位置和速度被保存在中央服務(wù)器上來(lái)進(jìn)行流量管理。之后使用這些數(shù)據(jù)用于構(gòu)建當(dāng)前流量的映射。通過(guò)機(jī)器學(xué)習(xí)可以解決配備GPS的汽車數(shù)量較少的問(wèn)題,在這種情況下的機(jī)器學(xué)習(xí)有助于根據(jù)估計(jì)找到擁擠的區(qū)域。
3)過(guò)濾垃圾郵件和惡意軟件。電子郵件客戶端使用了許多垃圾郵件過(guò)濾方法。為了確保這些垃圾郵件過(guò)濾器能夠不斷更新,它們使用了機(jī)器學(xué)習(xí)技術(shù)。多層感知器和決策樹(shù)歸納等是由機(jī)器學(xué)習(xí)提供支持的一些垃圾郵件過(guò)濾技術(shù)。每天檢測(cè)到超過(guò)325?000個(gè)惡意軟件,每個(gè)代碼與之前版本的90%~98%相似。由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的系統(tǒng)安全程序理解編碼模式。因此,他們可以輕松檢測(cè)到2%~10%變異的新惡意軟件,并提供針對(duì)它們的保護(hù)。
4.2 影響
1)積極影響。機(jī)器學(xué)習(xí)會(huì)在未來(lái)的發(fā)展時(shí)間進(jìn)一步提高智能性,會(huì)提升學(xué)習(xí)認(rèn)知與理解思考的能力,體現(xiàn)出更好的優(yōu)化結(jié)構(gòu)與高效性。它將在今后醫(yī)療、教育及金融等領(lǐng)域?yàn)樯鐣?huì)提供智能的個(gè)性化服務(wù)。作為統(tǒng)計(jì)方法的延伸,機(jī)器學(xué)習(xí)將進(jìn)一步提高計(jì)算能力,嘗試采用新的更優(yōu)化算法。
到現(xiàn)在集成學(xué)習(xí)已是機(jī)器學(xué)習(xí)最熱門的分?支[13],此領(lǐng)域研究人數(shù)多且成果豐厚,現(xiàn)已有很多集成學(xué)習(xí)算法,如Bagging、Boosting、Arcing等。
2)消極影響。大多數(shù)集成算法包括Bagging算法都是為指導(dǎo)學(xué)習(xí)而設(shè)計(jì),一旦集成學(xué)習(xí)算法要是用于無(wú)指導(dǎo)學(xué)習(xí),它和那些用于有指導(dǎo)學(xué)習(xí)的算法設(shè)計(jì)相比,就會(huì)特別艱難。
5 結(jié)論
本文依次介紹了機(jī)器學(xué)習(xí)相關(guān)的概念、發(fā)展歷史、分類與機(jī)器學(xué)習(xí)的經(jīng)典算法,并提及了機(jī)器學(xué)習(xí)的進(jìn)展成果和應(yīng)用。根據(jù)目前的情況來(lái)看,機(jī)器學(xué)習(xí)目前還沒(méi)有走出弱人工智能階段,其依賴的人腦知識(shí)研究需要新的進(jìn)展與突破,計(jì)算機(jī)科學(xué)技術(shù)以及相關(guān)領(lǐng)域也有待于進(jìn)一步加強(qiáng)。對(duì)機(jī)器學(xué)習(xí)的研究可以借鑒新的學(xué)習(xí)算法來(lái)提高機(jī)器學(xué)習(xí)的效率,從而推動(dòng)人類社會(huì)的文明進(jìn)步。
參考文獻(xiàn)
[1]林全智.基于多目標(biāo)優(yōu)化的人工神經(jīng)網(wǎng)絡(luò)自適應(yīng)設(shè)計(jì)[D].廈門:廈門大學(xué),2013.
[2]張潤(rùn),王永濱.機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J].中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,23(2):10-18.
[3]張澤.機(jī)器學(xué)習(xí)算法及其工程應(yīng)用研究[D].天津:天津大學(xué),2012.
[4]岑瑤.基于梯度方向直方圖特征的掌紋識(shí)別關(guān)鍵技術(shù)的研究[D].呼和浩特:內(nèi)蒙古農(nóng)業(yè)大學(xué),2017.
[5]張肅.基于機(jī)器學(xué)習(xí)的高速光信號(hào)光性能監(jiān)測(cè)[D].北京:北京交通大學(xué),2018.
[6]安增波,張彥.機(jī)器學(xué)習(xí)方法的應(yīng)用研究[J].長(zhǎng)治學(xué)院學(xué)報(bào),2007,24(2):21-24.
[7]安增波,張彥.機(jī)器學(xué)習(xí)方法的應(yīng)用研究[J].長(zhǎng)治學(xué)院學(xué)報(bào),2007,24(2):21-24.
[8]曾瑩,劉波.一種基于關(guān)節(jié)角度的步態(tài)識(shí)別新方法[J].現(xiàn)代電子技術(shù),2010,33(10):86-89.
[9]謝清新.基于小波分解和Teager能量算子的P300特征提取及分類算法研究[D].廣州:廣東工業(yè)大學(xué),2016.
[10]沈晨.基于特征子空間的高精度圖像分類器實(shí)現(xiàn)[D].吉林:吉林大學(xué),2009.
[11]陳凱,朱鈺.機(jī)器學(xué)習(xí)及其相關(guān)算法綜述[J].統(tǒng)計(jì)與信息論壇,2007,22(5):105-112.
[12]肖靜.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司客戶關(guān)系管理中的應(yīng)用研究[D].長(zhǎng)沙:湖南大學(xué),2013.
[13]趙楠.基于機(jī)器學(xué)習(xí)的供應(yīng)鏈績(jī)效智能分析方法研究[D].天津:天津大學(xué),2010.