人工智能中無(wú)監(jiān)督學(xué)習(xí)算法綜述

2019-12-19 15:39:44甘井中楊秀蘭黃恒杰

海峽科技與產(chǎn)業(yè) 2019年1期

甘井中楊秀蘭呂潔黃恒杰肖磊

玉林師范學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院, 廣西玉林 537000

1 無(wú)監(jiān)督學(xué)習(xí)概況

無(wú)監(jiān)督學(xué)習(xí)是指無(wú)教師監(jiān)督的學(xué)習(xí)過(guò)程，即其神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣例是不帶類別標(biāo)號(hào)。它在廣義上可分成兩個(gè)子類，一個(gè)是強(qiáng)化學(xué)習(xí)，一個(gè)是自組織學(xué)習(xí)。計(jì)算機(jī)的出現(xiàn)解決了人腦的邏輯思維問(wèn)題，而且功能遠(yuǎn)超人類，但在當(dāng)前計(jì)算機(jī)很難代替人腦獨(dú)特的形象思維和智能。計(jì)算機(jī)與人在物體識(shí)別方面，花費(fèi)時(shí)間和正確率有很大的差距。這種差距引起了科學(xué)家的關(guān)注，他們研究用工程方法來(lái)實(shí)現(xiàn)或近似模擬人類智能，從而出現(xiàn)了人工智能及神經(jīng)網(wǎng)絡(luò)，但這些都有一定的缺陷。然后，一種結(jié)合人對(duì)智能和對(duì)世界的理解的，模擬人眼視覺(jué)和人類智能的新的智能處理方法—無(wú)監(jiān)督學(xué)習(xí)出現(xiàn)了。

人工神經(jīng)網(wǎng)絡(luò)是由許多人工神經(jīng)單元組成的，每個(gè)單元能依照“映射”并行計(jì)算，同時(shí)可通過(guò)樣例學(xué)習(xí)。樣例的輸出是已知的，又稱有監(jiān)督學(xué)習(xí)。反之，有一種方法是根據(jù)神經(jīng)元自己所處的狀態(tài)學(xué)習(xí)的。假設(shè)兩個(gè)神經(jīng)元輸出分別為xi、yi，wij（=xiyi）為它們之間的連接權(quán)，如果兩個(gè)神經(jīng)元都處于興奮的狀態(tài)，則wij值高；若都處于抑制狀態(tài)，即wij＝0；這種方法稱為無(wú)監(jiān)督的學(xué)習(xí)[1]。

無(wú)監(jiān)督學(xué)習(xí)也是自組織學(xué)習(xí)系統(tǒng)，學(xué)習(xí)沒(méi)有外部監(jiān)督。自組織學(xué)習(xí)的訓(xùn)練目標(biāo)不是產(chǎn)生一個(gè)分類系統(tǒng)，而是對(duì)那些正確或錯(cuò)誤的行為做出激勵(lì)或處罰。所以必須網(wǎng)絡(luò)表達(dá)質(zhì)量的任務(wù)度量，讓學(xué)習(xí)根據(jù)這個(gè)度量來(lái)最優(yōu)化網(wǎng)絡(luò)。為了完成自組織學(xué)習(xí)，我們可以使用競(jìng)爭(zhēng)性學(xué)習(xí)規(guī)則[2]。

所謂強(qiáng)化學(xué)習(xí)是指在此過(guò)程中，并不直接告訴機(jī)器要做什么或采取哪些行動(dòng)，而是機(jī)器通過(guò)一些已有的不確定的信息來(lái)進(jìn)行學(xué)習(xí)，做出最優(yōu)的策略，得到最多的獎(jiǎng)勵(lì)來(lái)自己發(fā)現(xiàn)。機(jī)器所響應(yīng)的動(dòng)作的影響不僅是即刻得到的獎(jiǎng)勵(lì)，還影響接下來(lái)的動(dòng)作和一連串的獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)的目標(biāo)是將代價(jià)函數(shù)最小化。

2 自組織學(xué)習(xí)的相關(guān)形式

2.1 自組織映射

自組織映射（SOM）是基于競(jìng)爭(zhēng)學(xué)習(xí)的，在SOM里，神經(jīng)元被放置在網(wǎng)格節(jié)點(diǎn)上，這個(gè)網(wǎng)絡(luò)通常是一維或者是二維的，更高維的映射不常見(jiàn)。在競(jìng)爭(zhēng)學(xué)習(xí)過(guò)程中，用不同輸入模式刺激，網(wǎng)絡(luò)選擇性地調(diào)整，形成對(duì)不同輸入特征的機(jī)系。

2.2 信息論學(xué)習(xí)模型

自組織目標(biāo)函數(shù)的互信息：在輸入和輸出隨機(jī)過(guò)程之間的香農(nóng)互信息具有一些唯一的性質(zhì)，這些性質(zhì)使其可作為自組織學(xué)習(xí)的目標(biāo)函數(shù)，從而被優(yōu)化。

有以下4種自組織原則[3]：

（1）Infomax原則，其包含了最大化神經(jīng)網(wǎng)絡(luò)的多維輸入和輸出向量之間的互信息，這一原則制定了自組織模型和特征映射的開(kāi)發(fā)框架。

（2）最小冗余原則，這基本上是另一種最大化網(wǎng)絡(luò)的輸入和輸出之間的互信息導(dǎo)致冗余最小化的方法。

（3）Imax原則，這是最大化一對(duì)神經(jīng)網(wǎng)絡(luò)的單一輸出之間的互信息，這對(duì)神經(jīng)網(wǎng)絡(luò)是由兩個(gè)空間位移多維輸入向量所驅(qū)動(dòng)的。該原則非常適合于圖像處理，目標(biāo)是發(fā)現(xiàn)帶噪聲傳感的輸入在空間和事件上表現(xiàn)的相干性。

（4）Imin原則，這是最小化一對(duì)神經(jīng)網(wǎng)絡(luò)的單一輸出之間互信息，這對(duì)神經(jīng)網(wǎng)絡(luò)是由兩個(gè)空間位移多維輸入向量所驅(qū)動(dòng)的。該原則在圖像處理中的應(yīng)用目標(biāo)在于最小化同一環(huán)境中兩幅相關(guān)圖像之間的空間時(shí)間相干，圖像是由具有正交性質(zhì)的一對(duì)傳感器獲得的。

2.3 統(tǒng)計(jì)力學(xué)

自組織學(xué)習(xí)的另一個(gè)類別是統(tǒng)計(jì)力學(xué)。統(tǒng)計(jì)力學(xué)作為優(yōu)化技術(shù)表示和機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)。有以下3種模擬算法[4]：

（1）Metropolis算法，這是MCMC（Markov chain Monte Carlo）針對(duì)未知概率分布上的模擬。

（2）模擬退火，這是一個(gè)動(dòng)態(tài)的過(guò)程，利用“高溫時(shí)觀察到系統(tǒng)的總特點(diǎn)，低溫時(shí)出現(xiàn)細(xì)節(jié)特征” 來(lái)避免局部極小值的一種優(yōu)化算法。

（3）Gibbs抽樣，它產(chǎn)生一個(gè)帶Gibbs分布作為平衡分布的馬爾科夫鏈。與Metropolis算法不同，與Gibbs抽樣器相關(guān)的轉(zhuǎn)移概率不是靜態(tài)的。

3 強(qiáng)化學(xué)習(xí)與動(dòng)態(tài)規(guī)劃的關(guān)聯(lián)

3.1 馬爾可夫決策過(guò)程（MDP）

很多強(qiáng)化學(xué)習(xí)問(wèn)題被看成一個(gè)馬爾可夫決策過(guò)程（MDP），主要是圍繞馬爾可夫決策過(guò)程來(lái)建立模型的。給定動(dòng)態(tài)系統(tǒng)的初始狀態(tài)，馬爾可夫決策過(guò)程為選擇決策序列提供數(shù)學(xué)基礎(chǔ)，這將最大化N-階段決策過(guò)程的返回值。

3.2 瞬時(shí)差分學(xué)習(xí)算法（TD）

TD 方法是用于解決時(shí)間信度分配問(wèn)題的方法。能夠有效地解決強(qiáng)化學(xué)習(xí)問(wèn)題中的暫態(tài)信用分配問(wèn)題，可被用于評(píng)價(jià)值函數(shù)的預(yù)測(cè)。幾乎所有強(qiáng)化學(xué)習(xí)算法中評(píng)價(jià)值的預(yù)測(cè)法均可看作TD 方法的特例，以至于通常所指的強(qiáng)化學(xué)習(xí)實(shí)際上就是TD 類強(qiáng)化學(xué)習(xí)。時(shí)序差分學(xué)習(xí)是一種增量式學(xué)習(xí)算法，也是MC和DP方法的結(jié)合，沒(méi)有環(huán)境模型，而是根據(jù)經(jīng)驗(yàn)學(xué)習(xí)[5]。

3.3 Q-學(xué)習(xí)算法

Q-學(xué)習(xí)是一種增量式的動(dòng)態(tài)規(guī)劃過(guò)程，用逐步方式來(lái)決定最優(yōu)策略。它非常適合于求解沒(méi)有明顯的轉(zhuǎn)移概率知識(shí)的馬爾可夫決策問(wèn)題。但是和TD相似，成功應(yīng)用Q-學(xué)習(xí)的關(guān)鍵在于假設(shè)環(huán)境狀態(tài)是完全可觀察的，這就意味著環(huán)境的完全可觀察的馬爾可夫鏈。

3.4 R-學(xué)習(xí)算法

第一個(gè)基于平均報(bào)酬模型的強(qiáng)化學(xué)習(xí)算法是由Schwartz 提出的R-學(xué)習(xí)算法，它是一個(gè)無(wú)模型平均報(bào)酬強(qiáng)化學(xué)習(xí)算法。類似于Q-學(xué)習(xí)算法，用動(dòng)作評(píng)價(jià)函數(shù)Rπ（s，a）表達(dá)在狀態(tài)s下執(zhí)行以動(dòng)作a為起點(diǎn)的策略π的平均校準(zhǔn)值。

4 無(wú)監(jiān)督學(xué)習(xí)的應(yīng)用

乳腺癌早期診斷是很困難的，一般攝影只能觀察幾個(gè)病變像素，易被作為雜躁而忽視。利用兩個(gè)不同的波段紅外感應(yīng)相機(jī)同時(shí)拍攝兩幅圖像，腫瘤在不同的生長(zhǎng)階段，血管血液成分有不同的比例，從而呈現(xiàn)不同的紅外特征。

不同波長(zhǎng)的紅外圖像從兩個(gè)通道輸入神經(jīng)網(wǎng)絡(luò)，用S1，S2表示兩幅紅外圖像中單像素的值，A和B表示混合傳遞函數(shù)的矢量，讓二維向量X=S1A+S2B，如何尋找兩個(gè)W1和W2，獲得S1和S2。一個(gè)方法是讓W(xué)1與A正交、W2與 B 正交，即 S′2=W1·X=S2W1·B，S′1=W2·X=S1W2·B，這樣得到S′2只與S2有關(guān)，而S′1只與S1有關(guān)。這樣對(duì)兩幅乳房的圖像進(jìn)行逐個(gè)像素的處理，很快就可得到確診。這種采用正交向量對(duì)消元的無(wú)監(jiān)督學(xué)習(xí)的方法，稱獨(dú)立元分析法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡