魏 超,羅森林,張 競(jìng),潘麗敏
(北京理工大學(xué) 信息與電子學(xué)院,北京100081)
近年來(lái),微博、微信等新傳媒的快速發(fā)展使得短文本信息比例急速增長(zhǎng),因此對(duì)人們有效獲取信息具有積極意義的短文本分類(lèi)技術(shù)正受到越來(lái)越多的關(guān)注.而短文本長(zhǎng)度較短,包含字詞信息較少,因此基于向量空間模型的短文本表示方法存在嚴(yán)重的特征稀疏和高維的問(wèn)題.這些問(wèn)題不僅會(huì)增加相似性計(jì)算成本、降低分類(lèi)器的效率,而且容易引起過(guò)擬合現(xiàn)象[1],所以解決短文本表示存在的特征稀疏和高維性的問(wèn)題對(duì)于短文本分類(lèi)具有十分重要意義.
針對(duì)短文本表示存在的高維稀疏問(wèn)題,目前研究方案主要有2種.
1)在不改變短文本語(yǔ)義的前提下,引入外源知識(shí)擴(kuò)展短文本內(nèi)容使近似為普通長(zhǎng)文本,進(jìn)而利用常規(guī)方法表示.基于知識(shí)庫(kù)(wordNet、wiki、open directory project、WebKB)來(lái)擴(kuò)展短文本信息是比較常見(jiàn)的方法[2-4].但是,在微博等實(shí)際應(yīng)用中短文本信息更新快,詞義豐富,而知識(shí)庫(kù)構(gòu)建和擴(kuò)展的成本往往較高,因此該方法并不能很好地解決實(shí)際應(yīng)用中同義,多義問(wèn)題.此外,王蒙等[5]利用搜索引擎查詢短文本,將返回的相關(guān)網(wǎng)頁(yè)結(jié)果用于擴(kuò)展短文本來(lái)彌補(bǔ)特征稀疏問(wèn)題;Rudi等[6]提出Google Similarity Distance的概念,根據(jù)Google關(guān)于2 篇短文本檢索結(jié)果中共現(xiàn)網(wǎng)頁(yè)進(jìn)行擴(kuò)展.上述2種方法雖然在語(yǔ)義消歧等方面取得了不錯(cuò)效果,但實(shí)際應(yīng)用中依賴搜索引擎的效果,仍存在一定局限性.
2)通過(guò)分析短文本特征項(xiàng)間內(nèi)在關(guān)聯(lián)性,挖掘短文本的本質(zhì)特征,在避免信息損失的基礎(chǔ)上實(shí)現(xiàn)特征空間維數(shù)約減.楊杰明等[7]在研究垃圾郵件過(guò)濾系統(tǒng)中特征的統(tǒng)計(jì)特性的基礎(chǔ)上提出基于二項(xiàng)分布假設(shè)檢驗(yàn)的特征選擇方法,同時(shí),他還研究了類(lèi)內(nèi)、類(lèi)間特征的聯(lián)合統(tǒng)計(jì)特性并提出了一種綜合度量類(lèi)內(nèi)及類(lèi)間特征重要度的特征選擇方法[8].Dumais等[9]從分析文本中詞語(yǔ)間潛在語(yǔ)義關(guān)系的角度出發(fā),提出潛在語(yǔ)義索引模型(latent semantic index,LSI),借助奇異值分解抽取隱藏在文本中的語(yǔ)義結(jié)構(gòu),并將文檔和詞語(yǔ)投影到低維語(yǔ)義空間以向量的形式進(jìn)行表示.然而該方法無(wú)法解決多義詞的問(wèn)題,另外還存在維數(shù)災(zāi)難的問(wèn)題.Blei等[10]提出主題概率模型(latent dirichlet allocation,LDA),通過(guò)假設(shè)詞匯屬于一定主題,將文本由高維詞匯空間映射到低維主題空間來(lái)描述,從而以主題特征詞來(lái)表示文本.在文本表示領(lǐng)域,LDA 是常用降維方法.實(shí)際上,LDA 是對(duì)詞匯的軟聚類(lèi)過(guò)程,屬于無(wú)監(jiān)督降維,在文本分類(lèi)等監(jiān)督學(xué)習(xí)環(huán)境下的效果并不理想[11].另外,由于忽略了現(xiàn)實(shí)文本數(shù)據(jù)存在非線性結(jié)構(gòu)的特性,這使得LDA 也存在一定局限性[12].
針對(duì)短文本表示存在的高維稀疏問(wèn)題,本文假設(shè)文本數(shù)據(jù)分布于某低維流形結(jié)構(gòu)上,在自編碼網(wǎng)絡(luò)無(wú)監(jiān)督流形學(xué)習(xí)方法的基礎(chǔ)上利用外部標(biāo)簽擴(kuò)充短文本信息,通過(guò)監(jiān)督學(xué)習(xí)過(guò)程挖掘短文本與標(biāo)簽的內(nèi)在聯(lián)系并存儲(chǔ)在網(wǎng)絡(luò)連接權(quán)中.最后利用連接權(quán)構(gòu)造高維空間到低維流形空間的映射函數(shù),得到短文本的流形表示模型.
在拓?fù)湔撝?,設(shè)M 是一個(gè)Hausdoff拓?fù)淇臻g,若任意點(diǎn)p∈M 都有一個(gè)開(kāi)鄰域U?M,使U 同胚于d 維歐氏空間Rd的一個(gè)開(kāi)子集V,則稱(chēng)M 是d維拓?fù)淞餍?,?jiǎn)稱(chēng)流形(Manifold).簡(jiǎn)言之,流形是局部歐式、第2可數(shù)的Hausdoff空間.在物理世界中,一般被觀察對(duì)象都是以低維流形為其存在和演化的背景空間,如地球球面、相對(duì)論中的背景物理時(shí)空、以及人類(lèi)感知[13]等.為了研究這類(lèi)數(shù)據(jù)的內(nèi)蘊(yùn)特征,Silva等[14]提出流形學(xué)習(xí)的概念:通過(guò)找到嵌入在高維采樣數(shù)據(jù)中的低維流形結(jié)構(gòu),并構(gòu)造二者映射關(guān)系,實(shí)現(xiàn)對(duì)非線性數(shù)據(jù)的有效降維.整個(gè)流形學(xué)習(xí)過(guò)程可以通過(guò)如圖1表示.
圖1 流形學(xué)習(xí)示意圖Fig.1 Manifold learning processing
給定數(shù)據(jù)集X={xi,i=1,…,N}?Rm,假定X中的樣本是由低維流形空間中的數(shù)據(jù)集Y 通過(guò)某個(gè)未知的非線性變換f 所生成,即:xi=f(yi)+εi,其中εi表示噪聲,yi∈Y?Rd,d?m,f:Rd→Rm是C∞的嵌入映射.那么流形學(xué)習(xí)的任務(wù)是基于給定的觀測(cè)數(shù)據(jù)集X:
1)獲 取 低 維 流 形 表 示Y ={yi,i=1,…,N}?Rd;
2)構(gòu)造非線性映射:f-1:Rm→Rd.
因此,只要構(gòu)造出由高維空間到低維空間的非線性映射f-1,就可以獲取觀測(cè)數(shù)據(jù)X 的流形表示,即,yi=f-1(xi).
自編碼網(wǎng)絡(luò)(auto encoder,AE)是Bengio等[15]在2006年提出的一種無(wú)監(jiān)督流形學(xué)習(xí)方法.相比于等距離映射(isometric mapping,ISOMAP)、局部線性嵌入(local linear embedding,LLE)等經(jīng)典流形學(xué)習(xí)方法,AE 通過(guò)對(duì)觀測(cè)數(shù)據(jù)的重構(gòu)能夠給出高維特征空間和低維流形空間的雙向確定映射,并保持高維數(shù)據(jù)在低維空間近鄰關(guān)系,從而揭示流形真實(shí)結(jié)構(gòu).AE網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)示,它是一個(gè)3層神經(jīng)網(wǎng)絡(luò),輸入輸出層神經(jīng)元數(shù)目相同,包括編碼(Encoder)和解碼(Decoder)2個(gè)網(wǎng)絡(luò).網(wǎng)絡(luò)中神經(jīng)元根據(jù)輸入X,通過(guò)非線性函數(shù)Y=[1+exp-(WX+b)]-1得到輸出Y,輸出值域?yàn)椋?,1.0).圖2(b)描述了訓(xùn)練AE 網(wǎng)絡(luò)的過(guò)程,設(shè)輸入輸出層神經(jīng)元數(shù)目為m,中間層神經(jīng)元數(shù)目為d.首先采用前向傳播激勵(lì)的方式,對(duì)于輸入Xm×1,經(jīng)過(guò)Encoder網(wǎng)絡(luò)的非線性映射得到中間層表示C(X)d×1,再由Decoder網(wǎng)絡(luò)得到最終輸出層的表示X′m×1.然后以輸入層數(shù)據(jù)Xm×1作為目標(biāo)輸出,構(gòu)造Xm×1與X′m×1的誤差函數(shù),并利用梯度下降算法訓(xùn)練網(wǎng)絡(luò)參數(shù)Wd×m和bd×1從而使得誤差最小.一旦網(wǎng)絡(luò)參數(shù)Wd×m和bd×1確定,利用Encoder網(wǎng)絡(luò)就可以得到由高維空間到低維流形空間非線性映射:f-1:Rm→Rd,其具體形式如下:
圖2 自編碼網(wǎng)絡(luò)及訓(xùn)練過(guò)程Fig.2 AutoEncode network and training process
式中:Xm×1為Rm空間 向量,C(X)d×1為Rd空間向量,Wd×m為 編 碼 網(wǎng) 絡(luò) 的 連 接 權(quán) 值 矩 陣,bd×1為偏移量.
本方法包括學(xué)習(xí)、表示2個(gè)過(guò)程,其中學(xué)習(xí)過(guò)程得到流形表示模型,表示過(guò)程是利用模型直接生成表示向量,原理如圖3所示.在對(duì)標(biāo)簽及短文本進(jìn)行分詞處理之后,首先以詞匯作為特征項(xiàng),構(gòu)建標(biāo)簽和短文本的布爾編碼向量;然后以短文本布爾向量為輸入,對(duì)自編碼網(wǎng)絡(luò)進(jìn)行無(wú)監(jiān)督的訓(xùn)練過(guò)程,提取流形特征;再基于特征提取階段得到的Encoder網(wǎng)絡(luò)重新構(gòu)造AE網(wǎng)絡(luò),并以少部分標(biāo)簽的布爾編碼作為目標(biāo)輸出,對(duì)新建AE網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,從而得到融合標(biāo)簽信息的Encoder網(wǎng)絡(luò),最后利用該網(wǎng)絡(luò)權(quán)值構(gòu)造非線性映射f-1得到短文本的流形表示模型,具體形式如式(1).本節(jié)主要介紹學(xué)習(xí)過(guò)程的3個(gè)步驟:預(yù)處理,特征提取,特征融合.
圖3 短文本表示原理圖Fig.3 Short text representation schematic diagram
預(yù)處理模塊主要完成2步工作,分別是分詞、構(gòu)建布爾向量.首先,對(duì)輸入數(shù)據(jù)進(jìn)行分詞,然后,去除停用詞并構(gòu)建特征詞表,并據(jù)此匹配每篇短文本及標(biāo)簽數(shù)據(jù)中詞匯出現(xiàn)情況,最終構(gòu)造出布爾編碼向量.輸入數(shù)據(jù)包括原始短文本及標(biāo)簽數(shù)據(jù),標(biāo)簽數(shù)據(jù)作用等同于分類(lèi)標(biāo)簽,是對(duì)短文本內(nèi)容進(jìn)行概括描述的關(guān)鍵詞匯、短語(yǔ)、句子等.然后根據(jù)輸入數(shù)據(jù)中所包含詞匯構(gòu)建特征詞表,最終得到標(biāo)簽布爾向量編碼,向量維度等于詞匯表的大小.比如標(biāo)簽“電子產(chǎn)品”,分詞得到“電子”、“產(chǎn)品”,最后經(jīng)過(guò)預(yù)處理后得到如圖4所示結(jié)構(gòu)形式,其中只有2個(gè)維度為1分別對(duì)應(yīng)詞匯表中“電子”、“產(chǎn)品”.
圖4 預(yù)處理結(jié)果與輸入對(duì)應(yīng)關(guān)系Fig.4 Relationship between input and result
特征提取模塊是利用AE無(wú)監(jiān)督流形學(xué)習(xí)方法對(duì)預(yù)處理模塊生成的文本的布爾編碼向量進(jìn)行重構(gòu),并通過(guò)訓(xùn)練AE 網(wǎng)絡(luò)使重構(gòu)誤差最小來(lái)構(gòu)造低維流形映射,最終抽取流形特征的過(guò)程.流形特征是流形在局部范圍內(nèi)映射到低維歐式空間上的坐標(biāo)描述.對(duì)于AE網(wǎng)絡(luò),如果限制網(wǎng)絡(luò)的中間層神經(jīng)元數(shù)量使其少于輸入輸出層的數(shù)目,那么經(jīng)過(guò)Encoder網(wǎng)絡(luò)非線性映射過(guò)程得到的中間層表示C(X)就是嵌入在高維數(shù)據(jù)中的低維流形表示,其中每個(gè)神經(jīng)元輸出代表一維流形特征.
對(duì)于流形學(xué)習(xí)而言,最有效的流形特征應(yīng)該是能夠更好恢復(fù)高維數(shù)據(jù)中嵌入的流形結(jié)構(gòu)的坐標(biāo)描述.根據(jù)流形局部歐式的性質(zhì),為了更有效地提取流形特征,需要確定觀測(cè)數(shù)據(jù)點(diǎn)的合理鄰域范圍,使得觀測(cè)數(shù)據(jù)經(jīng)過(guò)構(gòu)造的非線性函數(shù)f 和f-1更好的重構(gòu)原始數(shù)據(jù),即找到合理的鄰域度量方法進(jìn)而構(gòu)造觀測(cè)空間到低維空間的映射函數(shù).為此,首先給出鄰域定義:
在觀測(cè)空間Rm中,如果存在以p 為中心和半徑為r 的開(kāi)球,Br(p)={x∈X|d(x,p)<r},它被包含在集合U 中,稱(chēng)集合U 是點(diǎn)p 的鄰域,其中r是Rm中距離.
式中:xi′為重構(gòu)數(shù)據(jù)在Rm中的第i維坐標(biāo)表示,對(duì)應(yīng)AE輸出層中第i個(gè)神經(jīng)元輸出,xi為輸入數(shù)據(jù)第i維坐標(biāo),再根據(jù)r構(gòu)造AE網(wǎng)絡(luò)的重構(gòu)誤差函數(shù),
然后通過(guò)梯度下降算法來(lái)最小化AE 網(wǎng)絡(luò)的重構(gòu)誤差,即找到最小的鄰域半徑r.這樣確定的鄰域更加精細(xì),利于描述流形的真實(shí)結(jié)構(gòu).如圖5所示,對(duì)于曲率較大的部分應(yīng)使鄰域的半徑盡量小,以保證流形在該鄰域內(nèi)可以近似表示為直線,從而在局部鄰域內(nèi)更好的擬合流形的真實(shí)結(jié)構(gòu).這樣基于數(shù)據(jù)重構(gòu)誤差最小策略訓(xùn)練的AE網(wǎng)絡(luò)就保留了觀測(cè)數(shù)據(jù)集中核心的特征信息并存儲(chǔ)在Encoder和Decoder網(wǎng)絡(luò)的權(quán)值中,經(jīng)過(guò)Encoder網(wǎng)絡(luò)得到的中間層表示C(X)能有效發(fā)現(xiàn)揭示數(shù)據(jù)本質(zhì)的特征.
圖5 鄰域半徑大小對(duì)描述流形結(jié)構(gòu)的差異影響Fig.5 Influence of different rfor manifold representation
最后利用SGD 算法[16]反向傳播誤差使AE 網(wǎng)絡(luò)自主學(xué)習(xí)最佳參數(shù),確保error取得最小值.選擇sigmoid函數(shù)作為神經(jīng)元的激勵(lì)函數(shù),W 是神經(jīng)元的權(quán)值矩陣,其中b=W-l,l,表示神經(jīng)元的偏移量,m 是該神經(jīng)元具有的突觸數(shù)目,公式如下所示.
在SGD 算法中,對(duì)網(wǎng)絡(luò)第l層參數(shù)W、b按照式(5)更新.
式中:ΔWl代表更新量,式(6)給出了第l層中與第j個(gè)神經(jīng)元連接的計(jì)算方法.
式中:lr為學(xué)習(xí)率,用來(lái)控制梯度下降幅度,yi(n)表示j單元輸入信號(hào)中的第i 維特征,δj(n)表示j神經(jīng)元的殘差,它是根據(jù)式(3)采用鏈?zhǔn)角髮?dǎo)法則計(jì)算得到,(a)式對(duì)應(yīng)輸出層,(b)對(duì)應(yīng)中間隱層,形式如式(7).其中,φ′是激勵(lì)函數(shù)的導(dǎo)數(shù)形式.z(n)表示神經(jīng)元輸入信號(hào).
根據(jù)式(5~7),AE網(wǎng)絡(luò)具體訓(xùn)練過(guò)程如下:
在特征提取階段,AE 網(wǎng)絡(luò)通過(guò)收縮鄰域半徑,使得重構(gòu)數(shù)據(jù)盡可能的逼近原始觀測(cè)數(shù)據(jù),并利用Encoder權(quán)值W 構(gòu)造高維數(shù)據(jù)到低維流形的確定映射,從而精確描述觀測(cè)數(shù)據(jù)的流形結(jié)構(gòu).這樣做顯然可以很好地恢復(fù)嵌入在觀測(cè)數(shù)據(jù)中的低維流形結(jié)構(gòu),并且獲取數(shù)據(jù)集中的流形特征信息.然而由于AE 網(wǎng)絡(luò)本質(zhì)上屬于無(wú)監(jiān)督的學(xué)習(xí)方法,不考慮數(shù)據(jù)的類(lèi)別內(nèi)容,因而對(duì)于數(shù)據(jù)質(zhì)量較為敏感.如果短文本數(shù)據(jù)中存在噪聲、特征稀疏或采樣過(guò)程中導(dǎo)致的數(shù)據(jù)局部性缺失等問(wèn)題時(shí),容易導(dǎo)致AE 網(wǎng)絡(luò)對(duì)這些數(shù)據(jù)點(diǎn)所處局部鄰域范圍內(nèi)的流形結(jié)構(gòu)描述出現(xiàn)偏差甚至錯(cuò)誤,進(jìn)而影響全局的流形結(jié)構(gòu)重構(gòu),所以特征提取階段訓(xùn)練的AE網(wǎng)絡(luò)有時(shí)并不能給出最佳的流形映射.
特征融合過(guò)程是基于特征提取階段已經(jīng)得到的非線性映射f-1:Rm→Rd(Encoder網(wǎng)絡(luò))構(gòu)建新的AE網(wǎng)絡(luò),并利用文本數(shù)據(jù)的標(biāo)簽信息進(jìn)行監(jiān)督學(xué)習(xí)的過(guò)程.標(biāo)簽是文本內(nèi)容高度概括抽象的描述,二者之間存在著深層次的語(yǔ)義聯(lián)系.通過(guò)將標(biāo)簽作為短文本進(jìn)行布爾編碼,從而將他們之間的語(yǔ)義聯(lián)系轉(zhuǎn)化為高維觀測(cè)空間數(shù)據(jù)點(diǎn)間的關(guān)聯(lián)關(guān)系.根據(jù)這種關(guān)聯(lián)關(guān)系建立AE 網(wǎng)絡(luò)的輸入輸出映射,再利用誤差后向傳播方式促使同類(lèi)型文本逼近真實(shí)標(biāo)簽,進(jìn)而挖掘他們之間存在的固有聯(lián)系.由于保留了特征提取階段的Encoder網(wǎng)絡(luò),因此新建AE 網(wǎng)絡(luò)能夠維持觀測(cè)數(shù)據(jù)的局部流形結(jié)構(gòu)信息.同時(shí),由于標(biāo)簽的監(jiān)督指導(dǎo)作用,使網(wǎng)絡(luò)在對(duì)整體流形進(jìn)行全局性重構(gòu)的過(guò)程中更加突出文本的標(biāo)簽屬性信息,不僅能夠豐富文本內(nèi)容,增加同類(lèi)數(shù)據(jù)的內(nèi)聚性,還能進(jìn)一步挖掘出數(shù)據(jù)蘊(yùn)含的本質(zhì)特征,逼近最佳低維流形結(jié)構(gòu),找到高維空間和流形空間的有效映射,最終得到短文本的最佳流形表示.
與特征提取階段的AE網(wǎng)絡(luò)不同的是,新的AE網(wǎng)絡(luò)是以特征提取階段訓(xùn)練得到Encoder網(wǎng)絡(luò)為基礎(chǔ)構(gòu)造的,即保留訓(xùn)練得到的Encoder網(wǎng)絡(luò)的權(quán)值矩陣用以初始化新網(wǎng)絡(luò)中Encoder網(wǎng)絡(luò)權(quán)值,而Decoder網(wǎng)絡(luò)權(quán)值則采用隨機(jī)初始化的方式.網(wǎng)絡(luò)輸入端是短文本的布爾編碼向量,而目標(biāo)輸出則是每條短文本對(duì)應(yīng)的標(biāo)簽數(shù)據(jù)的布爾編碼向量.為了利用誤差后向傳播算法訓(xùn)練網(wǎng)絡(luò),以Rm空間的歐氏距離作為誤差函數(shù),其形式如下:
式中:yi是重構(gòu)數(shù)據(jù)在Rm的第i 維坐標(biāo)表示,對(duì)應(yīng)AE輸出層中第i個(gè)神經(jīng)元輸出.式(8)與式(3)本質(zhì)上是一致的,表示重構(gòu)數(shù)據(jù)與期望數(shù)據(jù)間的鄰域半徑.然后通過(guò)梯度下降方法求取使得誤差最小的參數(shù),即使網(wǎng)絡(luò)能將輸入信號(hào)盡可能的逼近目標(biāo)輸出.與提取階段希望重構(gòu)數(shù)據(jù)逼近其自身不同的是,融合階段希望重構(gòu)數(shù)據(jù)逼近其標(biāo)簽數(shù)據(jù),這就使得類(lèi)內(nèi)數(shù)據(jù)之間分布更加緊湊,類(lèi)間數(shù)據(jù)則相對(duì)疏遠(yuǎn),因此對(duì)嵌入在數(shù)據(jù)中的流形結(jié)構(gòu)產(chǎn)生全局性的影響.
最后,利用SGD 算法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,此過(guò)程與特征提取階段相同,按照式(5)、(6)、(7)更新參數(shù)W.特征融合階段網(wǎng)絡(luò)訓(xùn)練具體過(guò)程如下:
最后通過(guò)短文本分類(lèi)實(shí)驗(yàn)來(lái)驗(yàn)證本文方法的表示效果.為此設(shè)計(jì)了短文本分類(lèi)實(shí)驗(yàn)系統(tǒng),系統(tǒng)包括短文本表示模塊、分類(lèi)模塊以及結(jié)果評(píng)價(jià)模塊,文本表示模塊分別是VSM、LDA[10]、LSI、AE、本文方法,LDA 使用GibbsLDA++工具集.預(yù)處理模塊的分詞選用中科院的ICTCLAS2011.分類(lèi)模塊選用K 最近鄰(KNN)、樸 素 貝 葉 斯(Na?ve-Bayes)、支 持 向 量 機(jī)(SVM)3種常見(jiàn)分類(lèi)方法.選用weka提供的分類(lèi)實(shí)驗(yàn)環(huán)境,其中KNN、Na?ve-Bayes均為weka提供的算法包,SVM 則使用的林智仁開(kāi)發(fā)的LIBSVM 工具包[17].評(píng)價(jià)模塊選用Macro_P、Macro_R、Macro_F1作為評(píng)價(jià)指標(biāo),其計(jì)算方法如下:
式 中:C 為 類(lèi) 別 總 數(shù),Pi為 某 類(lèi) 別 的 準(zhǔn) 確 率,Ri為 某類(lèi)別召回率.
共進(jìn)行3組實(shí)驗(yàn):實(shí)驗(yàn)一是流形表示模型的參數(shù)實(shí)驗(yàn),目的是選擇最佳的參數(shù)組合.實(shí)驗(yàn)二是流形表示特征選擇實(shí)驗(yàn),目的是選擇最佳流形表示特征.實(shí)驗(yàn)三是對(duì)比實(shí)驗(yàn),目的是與VSM、LDA、LSI表示模型對(duì)比說(shuō)明本文方法有效性,同時(shí),為了驗(yàn)證融合標(biāo)簽特征對(duì)短文本表示效果的提升作用,又與特征提取階段的AE表示模型進(jìn)行了對(duì)比.
選用的2組公開(kāi)數(shù)據(jù)源作為實(shí)驗(yàn)數(shù)據(jù).實(shí)驗(yàn)數(shù)據(jù)1是譚松波中文評(píng)論情感分析語(yǔ)料庫(kù),數(shù)據(jù)采集自互聯(lián)網(wǎng)真實(shí)評(píng)論.其中評(píng)論主題包括3類(lèi),每個(gè)類(lèi)別4 000篇文本,預(yù)處理后得到特征詞匯總數(shù)為25 830.實(shí)驗(yàn)數(shù)據(jù)2是NLP&CC 2013中文微博觀點(diǎn)語(yǔ)料庫(kù),共10個(gè)類(lèi)別觀點(diǎn),類(lèi)別樣本不平衡,每個(gè)類(lèi)別最少的有940篇文本,最多2 470,預(yù)處理后得到特征詞匯總數(shù)為21 318.
如表1、2所示分別是2組數(shù)據(jù)的統(tǒng)計(jì)指標(biāo),其中,文本有效長(zhǎng)度是指經(jīng)過(guò)分詞去除停用詞后,每篇文本包含詞匯數(shù),布爾向量有效長(zhǎng)度是向量非0維數(shù),其與特征詞匯總數(shù)的比值反映了每篇文本的稀疏程度.Max,Min,Mean,SD分別表示長(zhǎng)度的最大值,最小值,平均值和標(biāo)準(zhǔn)差.通過(guò)表中各項(xiàng)統(tǒng)計(jì)指標(biāo)比較可以看出數(shù)據(jù)2文本和布爾向量平均長(zhǎng)度都比數(shù)據(jù)1更少,但是數(shù)據(jù)變化范圍小于數(shù)據(jù)集1,這表現(xiàn)出了2類(lèi)數(shù)據(jù)的差異性.
表1 實(shí)驗(yàn)數(shù)據(jù)1Tab.1 Experimental data 1
表2 實(shí)驗(yàn)數(shù)據(jù)2Tab.2 Experimental data2
為了評(píng)價(jià)分類(lèi)結(jié)果,需要將以上2組數(shù)據(jù)拆分為訓(xùn)練集和測(cè)試集.同時(shí)為了更全面客觀評(píng)價(jià)實(shí)驗(yàn)結(jié)果,避免數(shù)據(jù)拆分過(guò)程中由于數(shù)據(jù)的特殊性因素影響實(shí)驗(yàn)結(jié)果的評(píng)判,本文將2組實(shí)驗(yàn)數(shù)據(jù)按1∶1的比例隨機(jī)取樣得到5份訓(xùn)練集和測(cè)試集.最終通過(guò)在10組不同數(shù)據(jù)上重復(fù)進(jìn)行實(shí)驗(yàn),并以所有實(shí)驗(yàn)結(jié)果的平均值進(jìn)行評(píng)價(jià).
3.3.1 參數(shù)實(shí)驗(yàn) 利用3.2節(jié)2組數(shù)據(jù)的分組1進(jìn)行參數(shù)實(shí)驗(yàn).首先對(duì)特征提取過(guò)程的參數(shù)(迭代次數(shù)epoch,學(xué)習(xí)率lr)進(jìn)行選擇實(shí)驗(yàn).網(wǎng)絡(luò)中間層神經(jīng)元數(shù)目設(shè)為500,并以測(cè)試集上的重構(gòu)誤差作為實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn),分別對(duì)參數(shù)epoch按步進(jìn)1從10調(diào)整到15,學(xué)習(xí)率lr按步進(jìn)0.1從0.1調(diào)整到1,結(jié)果如圖6所示.
從圖6(a)可以看出,對(duì)于數(shù)據(jù)集1,特征提取階段的最佳的參數(shù)組合是lr=0.6,epoch=11;從圖6(b)可以看出,對(duì)于數(shù)據(jù)集2,在特征提取階段的最佳參數(shù)組合為lr=0.5,epoch=12.
圖6 AE網(wǎng)絡(luò)參數(shù)實(shí)驗(yàn)結(jié)果Fig.6 Parameter result of AutoEncoder
在提取過(guò)程的基礎(chǔ)上構(gòu)建新AE 網(wǎng)絡(luò),再對(duì)特征融合進(jìn)行參數(shù)實(shí)驗(yàn).以測(cè)試集上標(biāo)簽與輸出的歐氏距離作為實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn),分別對(duì)參數(shù)epoch按步進(jìn)1從10調(diào)整到15,學(xué)習(xí)率lr按步進(jìn)0.1 從0.1調(diào)整到1.結(jié)果如圖7所示.
圖7 融合階段參數(shù)實(shí)驗(yàn)結(jié)果Fig.7 Parameter result of fusion stage
從圖7(a)中可以看出,對(duì)于數(shù)據(jù)集1最佳的參數(shù)組合是lr=0.7,epoch=11;對(duì)于(b)數(shù)據(jù)集2,最佳參數(shù)組合為lr=0.5,epoch=12.
3.3.2 流形表示特征實(shí)驗(yàn) 實(shí)驗(yàn)具體過(guò)程如下:在參數(shù)實(shí)驗(yàn)基礎(chǔ)上,以100為步進(jìn)對(duì)中間層神經(jīng)元數(shù)目d 由100調(diào)整到1 000,另外以20%為步進(jìn)對(duì)訓(xùn)練集上帶標(biāo)簽數(shù)據(jù)占比p 有20%調(diào)整到100%訓(xùn)練短文本流形表示模型,最后結(jié)合KNN 進(jìn)行分類(lèi),以Macro_P、Marco_R、Marco_F1評(píng)價(jià)分類(lèi)結(jié)果.
如圖8所示為實(shí)驗(yàn)數(shù)據(jù)1驗(yàn)證實(shí)驗(yàn),從圖8中可以看出,當(dāng)中間層數(shù)目為300時(shí),即流形空間特征維度為300,Macro_F1可以達(dá)到99%,而隨著特征維度的增加,Macro_F1趨于穩(wěn)定.另外,隨著標(biāo)簽數(shù)據(jù)占比的降低,Macro_F1有所下降,當(dāng)占比為20%時(shí),分類(lèi)效果最差但仍達(dá)到98.6%,而當(dāng)標(biāo)簽數(shù)據(jù)占比為40%,流形特征維度為300時(shí),Macro_F1可以達(dá)到99.1%,繼續(xù)增加標(biāo)簽數(shù)據(jù)占比Macro_F1變化不大,這表明,使用部分標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練就可以獲得較好的表示向量.
如圖9所示為實(shí)驗(yàn)數(shù)據(jù)2驗(yàn)證實(shí)驗(yàn),從圖9可以得到與上面相似結(jié)論.當(dāng)標(biāo)簽數(shù)據(jù)占比大于40%時(shí),流形特征為200 維時(shí),Macro_F1可以達(dá)到99.1%,而后隨著特征維度的增加,Macro_F1趨于穩(wěn)定.當(dāng)標(biāo)簽數(shù)據(jù)占比等于20%,特征維度等于300時(shí),Macro_F1達(dá)到99.1%之后趨于穩(wěn)定.
圖8 實(shí)驗(yàn)數(shù)據(jù)1驗(yàn)證實(shí)驗(yàn)Fig.8 Confirmatory experiment of experimental data1
圖9 實(shí)驗(yàn)數(shù)據(jù)2驗(yàn)證實(shí)驗(yàn)Fig.9 Confirmatory experiment of experimental data2
綜合來(lái)看,標(biāo)簽數(shù)據(jù)數(shù)量與流形表示特征維度之間呈反比關(guān)系,即如果標(biāo)簽數(shù)據(jù)數(shù)量充足可以在更低維度流形空間得到較好的表示效果,否則,需要較高維度特征才能得到較好表示效果.這說(shuō)明標(biāo)簽對(duì)于流形全局性重構(gòu)具有積極作用,如果標(biāo)簽數(shù)量充分,即所有觀測(cè)數(shù)據(jù)都與其自身標(biāo)簽建立了聯(lián)系,那么通過(guò)標(biāo)簽就可以對(duì)流形整體進(jìn)行重構(gòu),獲得夠好的流形表示效果;如果只有一部分的觀測(cè)數(shù)據(jù)與標(biāo)簽建立了聯(lián)系,那么標(biāo)簽對(duì)流形全局的重構(gòu)作用就會(huì)受到限制,為了獲取更好的流形表示效果就需要通過(guò)更高維度的流形空間對(duì)局部進(jìn)行重構(gòu),這是因?yàn)楦呔S流形空間可以保留更多信息.
3.3.3 對(duì)比試驗(yàn) 首先利用表示模塊生成表示向量.最后結(jié)合KNN、Na?ve-Bayes、SVM 進(jìn)行分類(lèi)實(shí)驗(yàn).對(duì)于VSM 以詞為特征項(xiàng),使用TF-IDF 為每個(gè)詞量化得到文本表示向量;對(duì)于LDA 首先使用GibbsLDA++訓(xùn)練主題模型并對(duì)主要參數(shù)ntopics(主題數(shù))和niters(迭代數(shù))進(jìn)行參數(shù)實(shí)驗(yàn)得到最優(yōu)參數(shù)為ntopics=1 000,niters=2 000,然后以每個(gè)詞所屬主題作為特征項(xiàng),利用TF-IDF 量化得到文本表示向量;對(duì)于LSI通過(guò)對(duì)訓(xùn)練集進(jìn)行SVD 分解,再根據(jù)分類(lèi)結(jié)果選取最佳奇異值λ=150來(lái)創(chuàng)建潛在語(yǔ)義空間,進(jìn)而得到文本表示向量;對(duì)于AE 方法利用訓(xùn)練得到的Encoder網(wǎng)絡(luò)生成表示向量;對(duì)于本文方法使用300維流形特征及40%標(biāo)簽數(shù)據(jù)訓(xùn)練得到流形表示模型生成表示向量.
其中3種分類(lèi)方法使用參數(shù),均是利用2組數(shù)據(jù)分組1 上進(jìn)行參數(shù)實(shí)驗(yàn)確定的,具體參數(shù)已在表3、4注明.如表3、4所示為數(shù)據(jù)1和2上的5組數(shù)據(jù)上Macro_P、Macro_R、Macro_F1的平均值.
表3 實(shí)驗(yàn)數(shù)據(jù)1分類(lèi)結(jié)果平均值Tab.3 Mean classification results of experimental data 1 %
表4 實(shí)驗(yàn)數(shù)據(jù)2分類(lèi)結(jié)果平均值Tab.4 Mean classification results of experimental data 2 %
從表3,4中可以看出:將本文提出的流形表示方法用于分類(lèi)實(shí)驗(yàn),Macro_P、Macro_R、Macro_F1平均表現(xiàn)最佳.相比于VSM、LDA、LSI等全局線性的表示方法,在同樣實(shí)驗(yàn)條件下使用流形表示方法在KNN 和SVM 分類(lèi)效果更好.這表明假設(shè)文本數(shù)據(jù)分布在流形結(jié)構(gòu)上是合理的.與AE相比,本方法通過(guò)監(jiān)督學(xué)習(xí)過(guò)程融合少部分分類(lèi)標(biāo)簽信息提升了分類(lèi)效果.這主要是因?yàn)橐胪獠繕?biāo)簽信息不僅豐富了數(shù)據(jù)集特征信息,有效彌補(bǔ)了特征稀疏問(wèn)題,而且通過(guò)標(biāo)簽的指導(dǎo)作用對(duì)流形進(jìn)行整體重構(gòu),使得同類(lèi)數(shù)據(jù)內(nèi)聚性增強(qiáng),有效降低了噪聲及稀疏數(shù)據(jù)對(duì)流形整體結(jié)構(gòu)的影響.另外,對(duì)比5種表示模型,本文方法在KNN 上的分類(lèi)效果提升顯著.這是由于KNN 是把每條表示向量看作d 維特征空間中的數(shù)據(jù)點(diǎn),再根據(jù)樣本點(diǎn)在特征空間最近鄰的樣本類(lèi)別進(jìn)行判定,因此,從KNN 原理上分析可以說(shuō)明本文方法構(gòu)造的流形表示更好地刻畫(huà)了同類(lèi)文本在特征空間上的近鄰關(guān)系,更利于表示文本的相似性.同時(shí),從不同分類(lèi)算法結(jié)果來(lái)看,VSM,LDA,LSI表現(xiàn)差異較大,而本文方法在3種分類(lèi)方法上表現(xiàn)穩(wěn)定,獲得了全面的提升,這說(shuō)明本文方法具有出色的泛化能力.
提出短文本流形表示方法通過(guò)學(xué)習(xí)高維數(shù)據(jù)與低維流形的確定性映射,進(jìn)而實(shí)現(xiàn)高維稀疏數(shù)據(jù)在低維流形空間的重構(gòu)表示.具體來(lái)講,首先通過(guò)AE 網(wǎng)絡(luò)自組織重構(gòu)過(guò)程從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),提取流形特征,實(shí)現(xiàn)數(shù)據(jù)的非線性降維.然后利用標(biāo)簽擴(kuò)充文本信息,通過(guò)學(xué)習(xí)標(biāo)簽與文本間的內(nèi)在聯(lián)系找到最佳低維流形映射.經(jīng)過(guò)實(shí)驗(yàn)表明,基于少部分標(biāo)簽訓(xùn)練得到的流形映射不僅能將高維數(shù)據(jù)映射到低維流形空間以非稀疏形式表示,而且相比于其他表示模型,將這種流形表示用于短文本分類(lèi)能有效提升分類(lèi)效果.特別的,結(jié)合KNN 的分類(lèi)實(shí)驗(yàn)充分說(shuō)明流形表示能準(zhǔn)確表示文本相似性.此外,將流形表示用于多種分類(lèi)方法表現(xiàn)同樣有效,這也表明了本文方法作為短文本表示方法具有一定的適用性.
由于本方法在特征融合過(guò)程需要利用標(biāo)簽進(jìn)行監(jiān)督學(xué)習(xí),所以下一步研究重點(diǎn)是在保證表示效果的前提下,利用盡量少的標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí).
(
):
[1]楊杰明.文本分類(lèi)中文本表示模型和特征選擇算法研究[D].長(zhǎng)春:吉林大學(xué),2013.YANG Jie-ming.The research of text representation and feature selection in text categorization[D].Changchun:Jilin University,2013.
[2]王錦,王會(huì)珍,張俐.基于維基百科類(lèi)別的文本特征表示[J].中文信息學(xué)報(bào),2011,25(2):27-31.WANG Jin,WANG Hui-zhen,ZHANG Li.Text Representation by the Wikipedia Category[J].Journal of Chinese Information Processing,2011,25(2):370-383.
[3]BANERJEE S,RAMANTHAN K,GUPTA A.Clustering short text using Wikipedia[C]∥Proceedings of the 30th International ACM SIGIR Conference on Research and Development in Information Retrieval.Amsterdam:ACM,2007:787-788.
[4]HU X,SUN N,ZHANG C,et al.Exploiting internal and external semantics for the cluster of short texts using word knowledge[C]∥Proceedings of the 18th ACM Conference on Information and Knowledge Management.Hong Kong:ACM,2009:919-928.
[5]王蒙,林蘭芬,王峰.基于偽相關(guān)反饋的短文本擴(kuò)展與分類(lèi)[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2014,48(10):1835-1842.WANG Meng,LIN Lan-fen,WANG Feng.Short text expansion and classification based on pseudo-relevance feedback[J].Journal of Zhejiang University:Engineering Science,2014,48(10):1835-1842.
[6]RUDI L C,PAUL M B.The google similarity distance[J].IEEE Transactions on Knowledge and Data Engineering,2007.19(3):370-383.
[7]YANG Jie-ming,LIU Yuan-ning,LIU Zhen,et al.A new feature selection algorithm based on binomial hypothesis testing for spam filtering[J].Knowledge-Based Systems,2011,24(6):904-914.
[8]YANG Jieming,LIU Yuan-ning,ZHU Xiao-dong,et-sal.A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization[J].Information Processing and Management,2012,48(4):741-754.
[9]DEERWESTER S,DUMAIS S T,HARSHMAN R,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
[10]BLEI D M,ANDREW Y N,JORDAN Y M.Latent dirichlet allocation[J].Journal of Machine Learning Research,J2003,3:993-102.
[11]KRISHNAN V,Shortcomings of latent models in supervised settings[C].∥Proceedings of the SIGIR.Salvador:ACM,2005:625-626.
[12]HUH S,F(xiàn)IENBERG S E.Discriminative topic modeling based on manifold learning[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2012,5(4):653-661.
[13]SEUNG H S,LEE D D.The manifold ways of perception[J].Science.2000,290(5500):2268-2269.
[14]SILVA V D,TEBEBBAUM J B.Global versus local methods in nonlinear dimensionality reduction[C]∥Neural Information Processing Systems 15 (NIPS′2002).Vancouver:MIT,2003,705-712.
[15]BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy layerwise training of deep networks[C]∥Advances in Neural Information Processing Systems 19(NIPS′2006).Vancouver:MIT,2007:153-160.
[16]LECUN,Y,BOTTOU L,MULLER K R.,et al.“Efficient backprop.”Neural networks:Tricks of the trade[J].Springer Berlin Heidelberg,2012,7700:9-48.
[17]CHANG C C,LIN C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27.