甘井中 楊秀蘭 呂 潔 黃恒杰 肖 磊
玉林師范學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院, 廣西 玉林 537000
無(wú)監(jiān)督學(xué)習(xí)是指無(wú)教師監(jiān)督的學(xué)習(xí)過(guò)程, 即其神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)樣例是不帶類別標(biāo)號(hào)。它在廣義上可分成兩個(gè)子類,一個(gè)是強(qiáng)化學(xué)習(xí),一個(gè)是自組織學(xué)習(xí)。計(jì)算機(jī)的出現(xiàn)解決了人腦的邏輯思維問(wèn)題,而且功能遠(yuǎn)超人類,但在當(dāng)前計(jì)算機(jī)很難代替人腦獨(dú)特的形象思維和智能。計(jì)算機(jī)與人在物體識(shí)別方面,花費(fèi)時(shí)間和正確率有很大的差距。這種差距引起了科學(xué)家的關(guān)注,他們研究用工程方法來(lái)實(shí)現(xiàn)或近似模擬人類智能,從而出現(xiàn)了人工智能及神經(jīng)網(wǎng)絡(luò),但這些都有一定的缺陷。然后,一種結(jié)合人對(duì)智能和對(duì)世界的理解的,模擬人眼視覺(jué)和人類智能的新的智能處理方法—無(wú)監(jiān)督學(xué)習(xí)出現(xiàn)了。
人工神經(jīng)網(wǎng)絡(luò)是由許多人工神經(jīng)單元組成的,每個(gè)單元能依照“映射”并行計(jì)算,同時(shí)可通過(guò)樣例學(xué)習(xí)。樣例的輸出是已知的,又稱有監(jiān)督學(xué)習(xí)。反之,有一種方法是根據(jù)神經(jīng)元自己所處的狀態(tài)學(xué)習(xí)的。假設(shè)兩個(gè)神經(jīng)元輸出分別為xi、yi,wij(=xiyi)為它們之間的連接權(quán),如果兩個(gè)神經(jīng)元都處于興奮的狀態(tài),則wij值高;若都處于抑制狀態(tài),即wij=0;這種方法稱為無(wú)監(jiān)督的學(xué)習(xí)[1]。
無(wú)監(jiān)督學(xué)習(xí)也是自組織學(xué)習(xí)系統(tǒng),學(xué)習(xí)沒(méi)有外部監(jiān)督。自組織學(xué)習(xí)的訓(xùn)練目標(biāo)不是產(chǎn)生一個(gè)分類系統(tǒng),而是對(duì)那些正確或錯(cuò)誤的行為做出激勵(lì)或處罰。所以必須網(wǎng)絡(luò)表達(dá)質(zhì)量的任務(wù)度量,讓學(xué)習(xí)根據(jù)這個(gè)度量來(lái)最優(yōu)化網(wǎng)絡(luò)。為了完成自組織學(xué)習(xí),我們可以使用競(jìng)爭(zhēng)性學(xué)習(xí)規(guī)則[2]。
所謂強(qiáng)化學(xué)習(xí)是指在此過(guò)程中,并不直接告訴機(jī)器要做什么或采取哪些行動(dòng),而是機(jī)器通過(guò)一些已有的不確定的信息來(lái)進(jìn)行學(xué)習(xí),做出最優(yōu)的策略,得到最多的獎(jiǎng)勵(lì)來(lái)自己發(fā)現(xiàn)。機(jī)器所響應(yīng)的動(dòng)作的影響不僅是即刻得到的獎(jiǎng)勵(lì),還影響接下來(lái)的動(dòng)作和一連串的獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)的目標(biāo)是將代價(jià)函數(shù)最小化。
自組織映射(SOM)是基于競(jìng)爭(zhēng)學(xué)習(xí)的,在SOM里,神經(jīng)元被放置在網(wǎng)格節(jié)點(diǎn)上,這個(gè)網(wǎng)絡(luò)通常是一維或者是二維的,更高維的映射不常見(jiàn)。在競(jìng)爭(zhēng)學(xué)習(xí)過(guò)程中,用不同輸入模式刺激,網(wǎng)絡(luò)選擇性地調(diào)整,形成對(duì)不同輸入特征的機(jī)系。
自組織目標(biāo)函數(shù)的互信息:在輸入和輸出隨機(jī)過(guò)程之間的香農(nóng)互信息具有一些唯一的性質(zhì),這些性質(zhì)使其可作為自組織學(xué)習(xí)的目標(biāo)函數(shù),從而被優(yōu)化。
有以下4種自組織原則[3]:
(1)Infomax原則,其包含了最大化神經(jīng)網(wǎng)絡(luò)的多維輸入和輸出向量之間的互信息,這一原則制定了自組織模型和特征映射的開(kāi)發(fā)框架。
(2)最小冗余原則,這基本上是另一種最大化網(wǎng)絡(luò)的輸入和輸出之間的互信息導(dǎo)致冗余最小化的方法。
(3)Imax原則,這是最大化一對(duì)神經(jīng)網(wǎng)絡(luò)的單一輸出之間的互信息,這對(duì)神經(jīng)網(wǎng)絡(luò)是由兩個(gè)空間位移多維輸入向量所驅(qū)動(dòng)的。該原則非常適合于圖像處理,目標(biāo)是發(fā)現(xiàn)帶噪聲傳感的輸入在空間和事件上表現(xiàn)的相干性。
(4)Imin原則,這是最小化一對(duì)神經(jīng)網(wǎng)絡(luò)的單一輸出之間互信息,這對(duì)神經(jīng)網(wǎng)絡(luò)是由兩個(gè)空間位移多維輸入向量所驅(qū)動(dòng)的。該原則在圖像處理中的應(yīng)用目標(biāo)在于最小化同一環(huán)境中兩幅相關(guān)圖像之間的空間時(shí)間相干,圖像是由具有正交性質(zhì)的一對(duì)傳感器獲得的。
自組織學(xué)習(xí)的另一個(gè)類別是統(tǒng)計(jì)力學(xué)。統(tǒng)計(jì)力學(xué)作為優(yōu)化技術(shù)表示和機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)。有以下3種模擬算法[4]:
(1)Metropolis算法,這是MCMC(Markov chain Monte Carlo)針對(duì)未知概率分布上的模擬。
(2)模擬退火,這是一個(gè)動(dòng)態(tài)的過(guò)程,利用“高溫時(shí)觀察到系統(tǒng)的總特點(diǎn),低溫時(shí)出現(xiàn)細(xì)節(jié)特征” 來(lái)避免局部極小值的一種優(yōu)化算法。
(3)Gibbs抽樣,它產(chǎn)生一個(gè)帶Gibbs分布作為平衡分布的馬爾科夫鏈。與Metropolis算法不同,與Gibbs抽樣器相關(guān)的轉(zhuǎn)移概率不是靜態(tài)的。
很多強(qiáng)化學(xué)習(xí)問(wèn)題被看成一個(gè)馬爾可夫決策過(guò)程(MDP),主要是圍繞馬爾可夫決策過(guò)程來(lái)建立模型的。給定動(dòng)態(tài)系統(tǒng)的初始狀態(tài),馬爾可夫決策過(guò)程為選擇決策序列提供數(shù)學(xué)基礎(chǔ),這將最大化N-階段決策過(guò)程的返回值。
TD 方法是用于解決時(shí)間信度分配問(wèn)題的方法。能夠有效地解決強(qiáng)化學(xué)習(xí)問(wèn)題中的暫態(tài)信用分配問(wèn)題,可被用于評(píng)價(jià)值函數(shù)的預(yù)測(cè)。幾乎所有強(qiáng)化學(xué)習(xí)算法中評(píng)價(jià)值的預(yù)測(cè)法均可看作TD 方法的特例,以至于通常所指的強(qiáng)化學(xué)習(xí)實(shí)際上就是TD 類強(qiáng)化學(xué)習(xí)。時(shí)序差分學(xué)習(xí)是一種增量式學(xué)習(xí)算法,也是MC和DP方法的結(jié)合,沒(méi)有環(huán)境模型,而是根據(jù)經(jīng)驗(yàn)學(xué)習(xí)[5]。
Q-學(xué)習(xí)是一種增量式的動(dòng)態(tài)規(guī)劃過(guò)程,用逐步方式來(lái)決定最優(yōu)策略。它非常適合于求解沒(méi)有明顯的轉(zhuǎn)移概率知識(shí)的馬爾可夫決策問(wèn)題。但是和TD相似,成功應(yīng)用Q-學(xué)習(xí)的關(guān)鍵在于假設(shè)環(huán)境狀態(tài)是完全可觀察的,這就意味著環(huán)境的完全可觀察的馬爾可夫鏈。
第一個(gè)基于平均報(bào)酬模型的強(qiáng)化學(xué)習(xí)算法是由Schwartz 提出的R-學(xué)習(xí)算法,它是一個(gè)無(wú)模型平均報(bào)酬強(qiáng)化學(xué)習(xí)算法。類似于Q-學(xué)習(xí)算法,用動(dòng)作評(píng)價(jià)函數(shù)Rπ(s,a) 表達(dá)在狀態(tài)s下執(zhí)行以動(dòng)作a為起點(diǎn)的策略π的平均校準(zhǔn)值。
乳腺癌早期診斷是很困難的,一般攝影只能觀察幾個(gè)病變像素,易被作為雜躁而忽視。利用兩個(gè)不同的波段紅外感應(yīng)相機(jī)同時(shí)拍攝兩幅圖像,腫瘤在不同的生長(zhǎng)階段,血管血液成分有不同的比例,從而呈現(xiàn)不同的紅外特征。
不同波長(zhǎng)的紅外圖像從兩個(gè)通道輸入神經(jīng)網(wǎng)絡(luò),用S1,S2表示兩幅紅外圖像中單像素的值,A和B表示混合傳遞函數(shù)的矢量,讓二維向量X=S1A+S2B,如何尋找兩個(gè)W1和W2,獲得S1和S2。一個(gè)方法是讓W(xué)1與A正交、W2與 B 正交,即 S′2=W1·X=S2W1·B,S′1=W2·X=S1W2·B,這樣得到S′2只與S2有關(guān),而S′1只與S1有關(guān)。這樣對(duì)兩幅乳房的圖像進(jìn)行逐個(gè)像素的處理,很快就可得到確診。這種采用正交向量對(duì)消元的無(wú)監(jiān)督學(xué)習(xí)的方法,稱獨(dú)立元分析法。