摘? 要:文本表示是自然語言處理中的基礎(chǔ)任務(wù),以向量空間模型的文本表示模型在文本挖掘、信息檢索領(lǐng)域得到了廣泛的應(yīng)用,本文列舉現(xiàn)有的文本表示模型,通過對比,歸納總結(jié)每個文本表示模型的特點,文本表示的好壞會在很大程度上影響到整個文本分類任務(wù)的性能,深入了解文本表示模型,為后繼文本分類打好基礎(chǔ)。
關(guān)鍵詞:文本表示;文本挖掘;向量空間
中圖分類號:TP391.1? ? ? 文獻標(biāo)識碼:A 文章編號:2096-4706(2019)07-0024-02
Abstract:Text representation is the basic task in natural language processing. The text representation model of vector space model has been widely used in text mining and information retrieval. This paper lists the existing text representation models,and summarizes each text representation through comparison. The characteristics of the model,the quality of the text representation can greatly affect the performance of the entire text classification task,and a deep understanding of the text representation model to lay a good foundation for subsequent text classification.
Keywords:text representation;text mining;vector space
0? 引? 言
大數(shù)據(jù)時代的到來,使得互聯(lián)網(wǎng)上的信息資源呈幾何指數(shù)遞增,如何使用計算機有效地處理網(wǎng)絡(luò)信息資源受到了學(xué)術(shù)界的學(xué)者的廣泛關(guān)注,文本表示是文本信息處理的基礎(chǔ)問題,是文本挖掘技術(shù)的重要環(huán)節(jié)之一,也是各種文本挖掘算法的基礎(chǔ),優(yōu)秀的文本表示模型能高效、真實地反映文本的內(nèi)容,提高文本挖掘的處理效果。有專家認(rèn)為:所謂文本表示模型是指利用形式化表示方法將實際文本內(nèi)容轉(zhuǎn)化所得的計算機內(nèi)部表示結(jié)構(gòu),使計算機得以存儲文本表示模型并在此基礎(chǔ)上進行數(shù)值計算[1]。經(jīng)過多年多位專家學(xué)者的不斷努力,發(fā)現(xiàn)在文本挖掘技術(shù)應(yīng)用中存在著多種文本表示模型,這些模型一般使用詞、短語或者概念等作為特征來表示文本[2]。
文本表示模型也可理解為將結(jié)構(gòu)化或者非結(jié)構(gòu)化文本數(shù)據(jù)通過一定模型轉(zhuǎn)化為文本的形式化表示方法,如數(shù)值向量或者符號向量,同時盡可能保留文本的原有語義信息。目前常見的文本表示模型有:詞袋模型,主題模型和詞嵌入模型(神經(jīng)網(wǎng)絡(luò)模型)等。
1? 詞袋模型
如何表示文本這種非結(jié)構(gòu)化的數(shù)據(jù)是自然語言處理的一個研究重要方向,在文本挖掘、信息檢索等相關(guān)領(lǐng)域的研究中,詞袋模型是最簡單、最典型的傳統(tǒng)文本表標(biāo)模型,所謂的詞袋(Bag-of-words)模型是一種用機器學(xué)習(xí)算法對文本進行建模時表示文本數(shù)據(jù)的方法,它把每一篇文章看作一袋子的詞,而且忽略其中的順序。具體來說就是將整段文本以詞為單位切分開,然后每篇文章可以用一個長向量表示,向量中每個維度代表一個單詞,該維度對應(yīng)的權(quán)重則反映了這個詞在文中的重要性。目前較經(jīng)典的詞袋模型有:布爾模型、向量空間模型、概率模型、N元語法模型。
1.1? 布爾模型
布爾模型是最簡單的信息檢索模型,在標(biāo)準(zhǔn)的布爾模型中,一個文本由二值變量集合標(biāo)識,這些變量對應(yīng)文本中特征項,當(dāng)特征變量取值為True或1時,表示對應(yīng)的特征項存在文本中,反之,如果特征變量取值為False或0時,則不存在文本中。此種模型的優(yōu)點是簡單、速度快,但是不夠精確,對文本的表示能力差。
1.2? 向量空間模型
向量空間模型,簡稱為VSM,是目前應(yīng)用最為廣泛的文本表示模型,該模型將文本看作由一組正交詞條構(gòu)成的矢量空間,將文本的語義單元看作高維空間的維度,文本將特征空間的向量,稱為文本的特征向量,每個特征項在文本中占的權(quán)重用特征權(quán)重來表示,通過文本向量的夾角余弦來確定兩篇文本的相似度。
在VSM中,每個文本都被形式化為一個N維向量,在選定特征項以后,其中一個文本向量di表示為:di=((ti1,wi1),(ti2,wi2),……,(tin,win)),tin為特征詞條,win為權(quán)重。但是向量空間模型有優(yōu)點也有缺點,優(yōu)點是在經(jīng)過簡單的頻數(shù)統(tǒng)計,其在一定程度上能表達(dá)出詞的語義信息,但是忽略了詞與詞之間的關(guān)系,然而實際詞與詞之間存在一詞多義、同義詞等現(xiàn)象。在處理海量的文本信息時,也會存在文本特征向量維度過高和向量稀疏等問題,會給實際語義帶來影響。
1.3? 概率模型
概率模型是用數(shù)學(xué)方法推斷特征項之間,以及與文本之間的相關(guān)聯(lián)性,使用基于特征的概率表示文本數(shù)據(jù),同時也考慮特征項之間的其他概率關(guān)系度量方法。還可以根據(jù)相關(guān)度對文本進行排序,不同的應(yīng)用可以基于特定假設(shè)得到不同的概率模型,例如二元獨立概率模型、二元一階相關(guān)概率模型、雙柏松分布概率模型以及概率網(wǎng)絡(luò)信息模型等。在概率模型中需要事先確定相關(guān)參數(shù)概率閾值,對相關(guān)參數(shù)的學(xué)習(xí)需要大量標(biāo)注樣本,參數(shù)難度估計較大,因此未得到廣泛應(yīng)用。
1.4? N元語法模型
N元語法模型是一種考慮了序關(guān)系的文本表示模型,能夠在一定程度上保留文本之間的語序結(jié)構(gòu)信息,此模型作為文本特征可以避免龐大的詞典和復(fù)雜的分詞程序[3]。但是N元語法表達(dá)的詞義并沒有詞明顯,實際應(yīng)用過程的應(yīng)用效果也非常不理想,只能作一種權(quán)宜之計。
2? 主題模型
主題模型用戶從文本庫中發(fā)現(xiàn)有代表性的主題,并能夠計算出每篇文章的主題分布,主題模型主要有LDA和pLSA。
2.1? 主題模型LDA(隱狄利克雷模型)
主題模型是一種基于概率圖模型的生成式模型。當(dāng)兩個詞有相同的主題時,更容易出現(xiàn)在同一篇文檔中。也就是說,給定某一個主題,這兩個詞出現(xiàn)的概率都很高,而其他詞出現(xiàn)的概率就比較小。
2.2? 概率潛在語義分析模型PLSA
假設(shè)有K個主題,M篇文章,對于人意文章d,假設(shè)文章有N個單詞,對于每個詞,選擇一個主題Z,在Z的基礎(chǔ)上生成一個單詞w則生成概率為:P(w,d)=∑ p(w|z)p(z|d)。其缺點是隨著文檔以及特征詞數(shù)量的增多,模型參數(shù)也在遞增,減少了文本表示的可讀取性。
3? 詞嵌入模型
詞嵌入是文本的學(xué)習(xí)表示,其中意義相同的單詞具有相似的表示形式。其核心思想是為每個單詞使用密集的分布式表示,將每個詞都映射成低維空間(一般K在50-300維)上的一個稠密向量。K為空間的每一維也可以看作隱含的主題,但不像主題模型中的那樣直觀。
實際上,詞嵌入是一類技術(shù),這種技術(shù)將單獨的詞在預(yù)定義的向量空間中表示為實值向量。其中每個單詞映射到一個向量上,向量值是以類似于神經(jīng)網(wǎng)絡(luò)的方式學(xué)習(xí)得來,該技術(shù)因此常被歸類于深度學(xué)習(xí)領(lǐng)域。
在過去的幾年中,不少學(xué)者提出大量可能的詞嵌入方法。最常用的模型是Word2vec和GloVe,它們都是基于分布假設(shè)的無監(jiān)督學(xué)習(xí)方法,Word2vec是一種統(tǒng)計學(xué)方法,它可以從文本語料庫中高效地學(xué)習(xí)獨立的詞嵌入,該研究還涉及對學(xué)習(xí)到的向量的分析,以及在單詞表示方面對向量數(shù)學(xué)的探索。GloVe是對于Word2vec方法的一個擴展,它可以高效地學(xué)習(xí)到詞向量。雖然通過結(jié)合語義或句法知識的有監(jiān)督來增強這些無監(jiān)督的方法,但2017-2018中發(fā)展純粹的無監(jiān)督方法,最著名的是FastText(Word2vec的擴展)和ELMo(最先進的上下文詞向量)。FastText向量訓(xùn)練速度超快,可在157種語言的Wikipedia和Crawl訓(xùn)練中使用,這是一個很好的基線模型。ELMo大幅提高了詞嵌入的頂級水平,在ELMo中,每個單詞被賦予一個表示,它是它們所屬的整個語料庫句子的函數(shù)。
4? 文本圖表示模型
為了提高文本表達(dá)的效果,有學(xué)者將復(fù)雜網(wǎng)絡(luò)、社會網(wǎng)絡(luò)研究方法引入到文本挖掘領(lǐng)域中,提出了文本圖表示模型,此模型是在圖論基礎(chǔ)上構(gòu)建起來的,利用文本內(nèi)容特征項及特征項間的關(guān)聯(lián)關(guān)系構(gòu)建圖模型,以圖模型表示文本[4]。在圖表示模型中,文本表達(dá)可以用:Graph={N,E,W},其中N代表著節(jié)點集合{n1,n2,…,nk},E代表著邊集合{e12,…eij},(1
雖然文本圖表示模型展開研究取得了一定的成績,但是整體研究還不夠深入,如在復(fù)雜網(wǎng)絡(luò)研究大背景下,利用網(wǎng)絡(luò)性質(zhì)進行文本挖掘的可行性、適用性等方面深入探索,現(xiàn)有的研究中的節(jié)點關(guān)系較為單一,對于節(jié)點之間的語義關(guān)系、整合節(jié)點間的多維關(guān)系等方面的研究也處于理論階段,還需繼續(xù)深入研究。
不斷地創(chuàng)新文本表示模型,給自然語言處理及其他文本挖掘帶來新思路,其關(guān)鍵點在于如何利用文本特征詞間的關(guān)系為文本挖掘服務(wù)。
參考文獻:
[1] 廖濤,劉宗田,王先傳.基于事件的文本表示方法研究 [J].計算機科學(xué),2012,39(12):188-191.
[2] 廖濤.面向事件的文本表示及其應(yīng)用研究 [D].上海:上海大學(xué),2014.
[3] 劉小榮.基于聚類分析的圖模型文本分類 [D].內(nèi)蒙古:內(nèi)蒙古師范大學(xué),2011.
[4] 李綱,毛進.文本圖表示模型及其在文本挖掘中的應(yīng)用 [J].情報學(xué)報,2013,32(12):1257-1264.
作者簡介:駱梅柳(1982-),女,漢族,江蘇連云港人,講師,研究方向:大數(shù)據(jù)技術(shù)、復(fù)雜網(wǎng)絡(luò)。