王 鑫
(中北大學(xué) 理學(xué)院,山西 太原 030051)
自組織特征映射神經(jīng)網(wǎng)絡(luò)(self-organizing feature map neural network),簡稱自組織神經(jīng)網(wǎng)絡(luò)或SOM網(wǎng)絡(luò),由芬蘭Helsinki 大學(xué)的Kohonen 教授在1981年首先提出[1].該網(wǎng)絡(luò)是一個由全連接的神經(jīng)元陣列組成的無教師自組織、自學(xué)習(xí)網(wǎng)絡(luò).Kohonen 認為,處于空間中不同的反應(yīng)區(qū)域的神經(jīng)元有不同的分工,當一個神經(jīng)網(wǎng)絡(luò)接受外界輸入模式時,將會為不同的反應(yīng)區(qū)域的輸入模式具有不同的響應(yīng)特性.由于該網(wǎng)絡(luò)的功能強大,多年來,在數(shù)據(jù)分類、知識獲取、過程監(jiān)控、障礙識別等領(lǐng)域中都得到了廣泛應(yīng)用[2,3].
人口分類是人口統(tǒng)計中的一個重要指標.由于各方面的原因,我國人口的出生率在性別上的差異比較大,具體表現(xiàn)在同一個時期出生的人口中,一般男的占多數(shù),大大超過了正常的比例.因此,正確地進行人口分類是制定合理的人口政策的基礎(chǔ).人口性別比反映人口中男、女之間的比例.通常以人口中每有100名女性,有多少男性來表示.即除總?cè)丝谛员韧?,還有不同年齡的性別比[4].
因此,本文利用SOM 網(wǎng)絡(luò)強大的非線性映射能力,對我國2009年30個地區(qū)的性別比例進行分類,然后預(yù)測2009年新疆自治區(qū)的性別比例.
SOM 網(wǎng)絡(luò)由單層神經(jīng)元網(wǎng)絡(luò)組成,其輸入節(jié)點與輸出節(jié)點之間為雙向權(quán)連接.因為網(wǎng)絡(luò)在學(xué)習(xí)中的競爭特性也表現(xiàn)在輸出層上,所以輸出層又可稱為競爭層.而與輸入節(jié)點相連的權(quán)值及其輸入合稱為輸入層.競爭層可以由一維或二維網(wǎng)絡(luò)矩陣方式組成.
SOM 網(wǎng)絡(luò)的工作原理:當網(wǎng)絡(luò)接受外界輸入模式時,將會分為不同的區(qū)域,各區(qū)域?qū)斎肽J骄哂胁煌捻憫?yīng)特征,相近的輸入模式距離較近,否則相反.在各神經(jīng)元調(diào)整的過程中,最鄰近的神經(jīng)元相互刺激,而較遠的神經(jīng)元則相互抑制,競爭中獲勝的神經(jīng)元稱為樣本的最佳匹配單元(best matching unit,BMU).
(1)初始化.對權(quán)值向量wij(0)賦予[-1,1]區(qū)間內(nèi)的隨機值,其中(i,j)為輸出層神經(jīng)元的坐標.
(2)取樣.樣本空間為
式中:t 為當前訓(xùn)練次數(shù);k 為輸入樣本序數(shù).
(3)相似性匹配.計算輸入模式與每個輸出神經(jīng)元節(jié)點連接權(quán)矢量的距離dij.
式中:M 為樣本向量維數(shù).選擇具有最小距離的輸出節(jié)點(i*,j*)作為獲勝節(jié)點,如式(3).
(4)更新.以獲勝神經(jīng)元(i*,j*)為中心,利用式(4)更新權(quán)值.
式中:η(t)為學(xué)習(xí)率參數(shù);δ(t)為獲勝神經(jīng)元(i*,j*)周圍的鄰域半徑調(diào)整函數(shù),如式(5)
式中:T 為訓(xùn)練總次數(shù);t 為當前訓(xùn)練次數(shù);δ0是鄰域半徑初始值.在此過程中,η(t)一般有以下規(guī)律:在初始階段,權(quán)值會形成某種排序,稱為排序階段,此后的階段是手鏈階段,一般比較長,在此階段η(t)應(yīng)較小.
(5)繼續(xù).當訓(xùn)練樣本集X 中每個樣本都經(jīng)過一次訓(xùn)練之后,返回步驟(2),知道t >T[5].
在中國統(tǒng)計年鑒中,找到我國2009年30個地區(qū)的人口性別比例情況(請參閱參考文獻[6]).
在matlab 中建立新變量ratio,使用命令load ratio 將變量ratio 從磁盤文件讀入matlab的工作空間中,令P=ratio',得到一個關(guān)于我國2009年人口性別比例的二維數(shù)組,第一行為男性比例,第二行為女性比例.接著使用下列命令查看二維輸入數(shù)組的分布情況.
圖1 我國2009年人口性別比例的分布圖
圖2 網(wǎng)絡(luò)初始權(quán)值的分布
利用30個神經(jīng)元的SOM 網(wǎng)絡(luò)對輸入向量P 進行分類.該網(wǎng)絡(luò)競爭層神經(jīng)元的組織結(jié)構(gòu)采用默認結(jié)構(gòu),通過距離函數(shù)linkdist 來計算距離.網(wǎng)絡(luò)創(chuàng)建代碼為:
對于該網(wǎng)絡(luò),查看它的初始權(quán)值:
其運行結(jié)果如圖2所示,圖中每一點表示一個神經(jīng)元,由于網(wǎng)絡(luò)的初始權(quán)值都被設(shè)置為0.5,所以這些點在圖中是重合的,看起來就像一個點,實際上是30個點.
接下來利用訓(xùn)練函數(shù)train 對網(wǎng)絡(luò)進行訓(xùn)練,設(shè)想經(jīng)過訓(xùn)練的網(wǎng)絡(luò)可對輸入向量進行正確的分類.網(wǎng)絡(luò)訓(xùn)練步數(shù)對于網(wǎng)絡(luò)性能的影響比較大,所以這里將步數(shù)設(shè)置為100,300,500
并分別觀察其權(quán)值分布.
圖3 訓(xùn)練步數(shù)為100 時的權(quán)值分布
圖4 訓(xùn)練步數(shù)為300 時的權(quán)值分布
從圖3、4、5 可以看出,訓(xùn)練了100 步以后,神經(jīng)元就開始自組織地分布了,每個神經(jīng)元可以區(qū)分不同的樣本.隨著訓(xùn)練步數(shù)的增多,神經(jīng)元的分布更加合理,但是,當訓(xùn)練次數(shù)達到一定值后,權(quán)值分布的改變就不很明顯了.比如訓(xùn)練300 步和500 步后權(quán)值分布就比較相似.
圖5 訓(xùn)練步數(shù)為500 時的權(quán)值分布
其分類結(jié)果為:
對結(jié)果進行分析,如表1所示.
表1 聚類結(jié)果
續(xù)表1
現(xiàn)在輸入新疆自治區(qū)的出生性別比例,檢驗它屬于哪一類.
結(jié)果為
由此可見,此時激發(fā)了網(wǎng)絡(luò)的第10個神經(jīng)元,所以p 屬于第23類.通過與實際性別比例相比,發(fā)現(xiàn)該結(jié)果是相當吻合的.
本文提出了將SOM 網(wǎng)絡(luò)用于人口分類問題中,相比以往的分類方法,該方法結(jié)合自身優(yōu)勢,避免了人為的因素的影響.從實驗可說明該方法具有一定的可行性.
[1]Kohonen T.Self-Organized formation of topologically correct feature maps[J].Biological Cybernetics,1982,43(1):59-69.
[2]Kohonen T,OJa E,Simula O ,et al.Engineering application of the self-organizing map[J].Proceeding of IEEE,1996,84 (10):1358-1383.
[3]郭捷.特征映射模型及項目風(fēng)險分析應(yīng)用[J].山東建筑大學(xué)學(xué)報,2007,22(2):154-157,162.
[4]http://www.czs.gov.cn/rkjs/rktj/content_135005.html[EB/OL].
[5]飛思科技產(chǎn)品研發(fā)中心.神經(jīng)網(wǎng)絡(luò)理論與MATLAB7 實現(xiàn)[J].北京:電子工業(yè)出版社,2005.
[6]http://www.stats.gov.cn/tjsj/ndsj/2010/indexch.htm[EB/OL].