聶維 劉小豫
摘 ?要:文本表示不僅是自然語言處理的基礎(chǔ)工作,還是信息檢索、文本分類、問答系統(tǒng)的關(guān)鍵。就傳統(tǒng)文本而言,主要采取計(jì)數(shù)表示形式,此方法設(shè)定詞和詞之間是相互獨(dú)立的,直接忽視了文本語義信息,而且在選擇特征時(shí),引進(jìn)了一些人為影響因素,從而獲取了高緯度與高稀疏文本特征,無法充分表示文本。這就需要進(jìn)一步創(chuàng)新設(shè)計(jì)文本表示方法,據(jù)此,該文主要對(duì)深度學(xué)習(xí)視域下的文本表示方法進(jìn)行了詳細(xì)分析。
關(guān)鍵詞:深度學(xué)習(xí) ?文本表示 ?方法
中圖分類號(hào):TP18;TP391 ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? 文章編號(hào):1672-3791(2019)06(c)-0030-02
1 ?文本表示方法分析
1.1 布爾邏輯橫型
所謂布爾邏輯模型實(shí)際上就是二元邏輯,假設(shè)文本特征的兩種情況,即出現(xiàn)與不出現(xiàn)。布爾檢索法即通過布爾運(yùn)算符進(jìn)行檢索詞連接,并基于計(jì)算機(jī)進(jìn)行邏輯運(yùn)算,尋找信息的方法。此文本表示方法符合人們的思維習(xí)慣,表達(dá)直觀且清楚,易于通過計(jì)算機(jī)加以實(shí)現(xiàn)。但是,卻難以切實(shí)反映概念間內(nèi)在語義聯(lián)系,其所有關(guān)系都是被簡單匹配替代的,經(jīng)常無法把用戶信息需要轉(zhuǎn)變?yōu)闇?zhǔn)確的布爾表達(dá)式,還經(jīng)常出現(xiàn)漏檢現(xiàn)象。
1.2 One-hot
One-hot把單詞和實(shí)數(shù)向量相關(guān)聯(lián)加以表示。具體而言,假設(shè)字典維度為V,其中單詞有且只有一個(gè)編號(hào),在n個(gè)單詞出現(xiàn)時(shí),其所相應(yīng)向量只在第n個(gè)位置顯示數(shù)值為1,這就表示字典的n。在文檔中含有大量單詞,其組合成的向量就是文章表示。One-hot累加對(duì)應(yīng)向量代表則稱之為詞袋表示(BOW)。此方法簡單,但計(jì)算中容易出現(xiàn)兩種問題,其一,向量維度為字典大小,詞典單詞量過大,在計(jì)算時(shí)很容易出現(xiàn)維數(shù)災(zāi)難問題;其二,此表示只包括單詞在詞典中的索引與詞頻信息,無法為后續(xù)文本處理提供有價(jià)值的信息。
1.3 向量空間模型
向量空間模型(VSM)將文本內(nèi)容處理簡化,轉(zhuǎn)變?yōu)橄蛄靠臻g的運(yùn)算,通過相似度表示文本語義相似性。VSM屬于經(jīng)典文本表示方式,在信息檢索中的應(yīng)用非常廣泛,其與詞袋模型維度類似,是以統(tǒng)計(jì)規(guī)則為基礎(chǔ)進(jìn)行文檔單詞權(quán)重信息計(jì)算的。然而,詞典模型維度是以字典長度為載體的,VSM卻可以表示就自身模型需求,選擇單詞或詞組,再為term賦予權(quán)重。
1.4 LDA
LDA與LSI等主題模型尋求潛藏語義單元,主要是通過無指導(dǎo)學(xué)習(xí)方式基于文本找出隱含語義維度,也就是Topic。LDA文本表示方法視域下,文檔代表主題組成的概率分布,各主題代表很多單詞構(gòu)成的概率分布。由于可能兩個(gè)文檔之間是相互關(guān)聯(lián)的,所以在進(jìn)行文檔相關(guān)性判斷時(shí),應(yīng)對(duì)文檔語義進(jìn)行充分考慮,但是主題模型是充分挖掘語義的重要工具,LDA則是其中最有效的主題模型。在主題模型中,主題代表概念與方面,表示為相關(guān)單詞,利用單詞條件概率進(jìn)行其與主題相關(guān)性的衡量。
1.5 Word embedding
One-hot文本表示方法所面臨的維度災(zāi)難問題,通過稀疏方式進(jìn)行存儲(chǔ),會(huì)更加簡捷,也就是為各單詞分配相應(yīng)ID。這種簡潔的表示方式與最大熵、SVM、CRF算法相結(jié)合,能夠更好地完成主流NLP任務(wù)。但是此表示方法默認(rèn)了單詞間的孤立性,進(jìn)而忽視了語義關(guān)聯(lián)。
2 ?深度學(xué)習(xí)視域下的多類文本表示方法
2.1 問題描述
文本分類與檢索在關(guān)鍵就在于文本表示,其決定了語義索引的正確性。語義鎖頻就是把文檔反映到相同特征空間,計(jì)算其相似度,因此文本表示與文本分類精確度密切相關(guān)。獲取良好文本表示的重要基礎(chǔ)是特征提取,現(xiàn)階段主要的特征表示方法有很多,主要是以BOW為基礎(chǔ),通過LDA、LSI、PLSI等方法,基于SVD進(jìn)行文檔矩陣分解,促使其映射到小于原始空間的空間,以此獲得文本表示。但是,其打破了文本原始結(jié)構(gòu),缺失語義,而且只能夠獲得單詞有限的信息,無法深層次挖掘文本特征表示,使得訓(xùn)練的分類器無法辨別待分類測試樣本。
Hinton和Salakhutdinov根據(jù)前人研究提出了雙層RSM模型,即深度學(xué)習(xí)視域下探索文本表示,實(shí)驗(yàn)結(jié)果證明方法效果良好。但是其是以權(quán)重共享為基礎(chǔ)的,并且只有兩層,在降維時(shí),文檔確實(shí)信息過多,無法獲取充足學(xué)習(xí)文檔表示,造成模型最后所學(xué)不同文檔表示并不存在顯著性差異。
以傳統(tǒng)文本表示方法的高維度、高稀疏、語義缺失等不足為前提,根據(jù)深度學(xué)習(xí)提取特征優(yōu)勢,提出了以深度信念網(wǎng)絡(luò)(DBN)為載體的融合DBN的優(yōu)化模型,即HDBN。在模型底層通過DBN初始降維,有效保存文檔信息,然后與DBN再結(jié)合降維,獲得更好的高層文本特征。HDBN模型遵守標(biāo)準(zhǔn)DBN模型訓(xùn)練方法,即無監(jiān)督訓(xùn)練和有監(jiān)督調(diào)整,引進(jìn)DBN初始降維,HDBN模型可以準(zhǔn)確獲得文檔向量表示。
2.2 HDBN模型
2.2.1 模型設(shè)計(jì)
由于訓(xùn)練復(fù)雜度與模型效率,選取雙層DBN模型。以DBN模型為載體,既能夠自動(dòng)化提取文檔特征,又能夠?qū)ξ臋n輸入降維,還能夠去除輸入引發(fā)的噪聲,最后以DBN模型為基礎(chǔ)獲取文檔特征表示。DBN主要是由雙層RBN構(gòu)成的無向圖連接模型,各層節(jié)點(diǎn)采樣值都是通過雙層連接節(jié)點(diǎn)共同計(jì)算獲得的。DBN是由雙層RBN構(gòu)成的有向圖連接模型,在進(jìn)行預(yù)習(xí)訓(xùn)練時(shí),上層輸出,下層輸入。在所有層訓(xùn)練完成以后,從上層漸漸向下層進(jìn)行有監(jiān)督調(diào)整。
HDBN模型選擇雙層DBN主要是由于在DBN層數(shù)超出兩層之后,模型效果相對(duì)不足,盡管DBN在初始訓(xùn)練時(shí),極易發(fā)生過擬合現(xiàn)象,但在高層的時(shí)候,卻能夠保持較好的特性。而且DBN模型訓(xùn)練太過復(fù)雜,所以,在HDBN模型選擇雙層DBN進(jìn)行文本初始降維,再基于DBN模型后續(xù)訓(xùn)練,以此確保提取文本特征可以減少訓(xùn)練時(shí)間,大大降低復(fù)雜度與難度。
2.2.2 語義特征表示
BOW特征表示默認(rèn)單詞的文本地位一致,忽視了單詞連接性。以HDBN模型為基礎(chǔ),探索更有效的形式文本輸入表示,以此獲得最佳特征提取,詞向量是表示單詞信息的方式,將此嵌入文本表示,有助于為提取高層文本表示引進(jìn)有效特征。所以,探索以HDBN模型為基礎(chǔ)的嵌入詞向量文本表示。
首先,以詞向量為基礎(chǔ)嵌入的高緯度特征表示。以詞向量為載體進(jìn)行嵌入,使用單詞對(duì)應(yīng)詞向量代替BOW相應(yīng)單詞。原始BOW屬于固定長度行向量,轉(zhuǎn)變一個(gè)向量。通過BOW文本表示形式,各元素代表當(dāng)前單詞出現(xiàn)在文本中的次數(shù),在以詞向量嵌入為基礎(chǔ)的文本表示中,通過加權(quán)系數(shù),表示單詞在文本中的重要性。其次,以詞向量為載體嵌入的關(guān)鍵詞特征表示。此表示方式既能夠降低文本輸入向量維度,又能夠提高訓(xùn)練效率與水平。在實(shí)驗(yàn)時(shí),以TF-IDF為載體選擇文檔關(guān)鍵詞,引進(jìn)文檔標(biāo)簽,設(shè)計(jì)標(biāo)簽權(quán)重計(jì)算,即:
文檔個(gè)數(shù)為N,當(dāng)前類別且包含單詞文檔個(gè)數(shù)為n,當(dāng)前類別文檔個(gè)數(shù)為m,不屬于當(dāng)前類別但是包含單詞文檔個(gè)數(shù)為k。通過公式進(jìn)行文檔單詞TF-IDF計(jì)算,通過數(shù)值排序,選擇一定量單詞作為關(guān)鍵。與高維詞向量表示相比,其稱之為以關(guān)鍵詞為基礎(chǔ)的低維度詞向量表示。
3 ?結(jié)語
總之,以DBN為基礎(chǔ)并融合DBN的深度學(xué)習(xí)模型(HDBN)包含無監(jiān)督預(yù)訓(xùn)練與有監(jiān)督微調(diào)兩大部分。此模型與其他方法不同,其具有其自身的獨(dú)特優(yōu)勢,值得大力推廣與應(yīng)用,而且,基于關(guān)鍵詞與嵌入詞向量的文本輸入表示更加有助于模型提取高層文本表示。
參考文獻(xiàn)
[1] 任浩,羅森林,潘麗敏,等.基于圖結(jié)構(gòu)的文本表示方法研究[J].信息網(wǎng)絡(luò)安全,2017(3):46-52.
[2] 劉婷婷,朱文東,劉廣一.基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J].電力信息與通信技術(shù),2018(3):1-7.