国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本關(guān)鍵詞抽取方法及在幾種民族語言上的應用

2021-03-31 12:02白曙光李艷玲張樹鈞
關(guān)鍵詞:藏文文檔語義

白曙光, 林 民, 李艷玲, 張樹鈞

(內(nèi)蒙古師范大學 計算機科學技術(shù)學院,內(nèi)蒙古 呼和浩特 010022)

自然語言處理是人工智能的重要組成部分,在學術(shù)研究和實際應用等各個方面都有重要地位,關(guān)鍵詞抽取技術(shù)作為自然語言處理的基礎(chǔ)技術(shù)之一,其結(jié)果的優(yōu)劣直接影響后續(xù)任務的性能。

關(guān)鍵詞抽取能夠幫助讀者獲取文章的中心思想,迅速了解一篇文章,或者從海量語料中快速獲得文章主題。在文本檢索、文本摘要等領(lǐng)域,關(guān)鍵詞抽取的準確程度對其他下游任務具有重要意義[1]。有效提取文本中關(guān)鍵詞有助于讀者快速、及時、高效、準確地獲取信息。文本關(guān)鍵詞可以提高文檔管理和檢索效率,還可為文本的分類、聚類、檢索、分析和主題搜索等文本挖掘任務提供豐富的語義信息。因此,關(guān)鍵詞抽取與其他下游任務是密切相關(guān)的。

1 文本關(guān)鍵詞抽取研究難點

關(guān)鍵詞抽取是自然語言處理領(lǐng)域的研究熱點,目前存在以下六個研究難點,嚴重制約了關(guān)鍵詞抽取技術(shù)的發(fā)展。

(1) 文本預處理不夠準確。近幾年文本表示學習、預訓練等技術(shù)的發(fā)展有了一定提升,但是在精度和深度上仍不能滿足研究需要,直接影響上層應用效果和智能水平。不能從語義上準確理解文本是關(guān)鍵詞抽取技術(shù)的一大難點。

(2) 效率低,復雜度高,尤其是融合方法的復雜度更高。目前許多自然語言處理任務為了達到較好效果,需要利用大量標注數(shù)據(jù)進行訓練,但是常會出現(xiàn)訓練語料不足的問題,而且標注數(shù)據(jù)費時費力[2],所以,當數(shù)據(jù)資源有限時,如何增強資源啟動和多語種場景的應用成為亟待解決的問題。

(3) 語義關(guān)聯(lián)關(guān)系的去重、歧義消解等問題。深度學習的應用雖然使眾多自然語言處理的任務性能得到提升,但是如何設(shè)計更好的語義表達方式仍未解決,而且中文存在語義歧義現(xiàn)象,如“郭德綱的粉絲想吃粉絲”這句話中,兩個“粉絲”代表不同的語義,但向量表示形式一致,所以語義歧義現(xiàn)象在一定程度上制約了關(guān)鍵詞抽取技術(shù)的發(fā)展,解決語義歧義問題可在一定程度上提高文本關(guān)鍵詞抽取任務的性能。

(4) 抽取得到的關(guān)鍵詞對文檔主題覆蓋性不高。在一個文檔中,經(jīng)常有多個主題,現(xiàn)有方法沒有有效機制對主題進行較好的覆蓋[3]。

(5) 文檔與關(guān)鍵詞之間存在一定的差異性。很多關(guān)鍵詞在文檔中的頻率低,導致文檔和關(guān)鍵詞之間存在差異[4]。

(6) 少數(shù)民族語言文本的關(guān)鍵詞抽取存在自身的難點。如因文本自身的特征,預處理操作較為困難。

2 文本關(guān)鍵詞抽取技術(shù)和方法

關(guān)鍵詞抽取方法目前有三種: 有監(jiān)督、半監(jiān)督和無監(jiān)督。其中,無監(jiān)督方法包含基于統(tǒng)計特征、主題模型及圖網(wǎng)絡,其中被廣泛應用的有詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)算法[5]、LDA (latent dirichlet allocation)主題模型[6]和TextRank等算法[7-10]。

2.1 有監(jiān)督方法

有監(jiān)督關(guān)鍵詞抽取方法的主要思想一般是先建立一個大規(guī)模標注好的關(guān)鍵詞訓練語料,然后利用訓練語料對關(guān)鍵詞抽取模型進行訓練。有監(jiān)督的關(guān)鍵詞抽取方法常用的模型有樸素貝葉斯(naive bayesian,NB)[11]、決策樹(decision tree,DT)[12]、最大熵(maximum entropy,ME)[13]、支持向量機(support vector machine,SVM)[14]等。

有監(jiān)督的方法中關(guān)鍵詞抽取問題被轉(zhuǎn)化為分類問題或標注問題,即判斷每個文檔與已構(gòu)建好的詞表中每個詞的匹配程度,然后把文檔中的詞作為候選關(guān)鍵詞,通過分類學習方法或序列標注方法判斷這些候選詞是否為關(guān)鍵詞,進而實現(xiàn)關(guān)鍵詞抽取的效果。當將關(guān)鍵詞抽取任務看作是一個二分類任務時,需要在一個有標注的數(shù)據(jù)集上訓練分類器。當將關(guān)鍵詞抽取任務看作是標注問題時,研究人員需要從訓練集中建立一個語言模型,并選出符合關(guān)鍵詞特征的模型,再利用人工標注信息作為特征進行關(guān)鍵詞抽取。

有監(jiān)督學習的關(guān)鍵詞抽取方法通常需要建立大規(guī)模訓練集合即語料庫(corpus),是由大量實際使用的語言信息組成,并需要針對通用或特定需求進行人工標注。訓練語料的質(zhì)量對模型的準確性至關(guān)重要,直接影響模型的性能,從而影響關(guān)鍵詞抽取的結(jié)果。目前,已經(jīng)標注好關(guān)鍵詞的語料有限,訓練集又需要大規(guī)模的語料,所以需要人工標注,帶有一定主觀性,易造成實驗數(shù)據(jù)的不真實[15]。因此,高質(zhì)量的訓練集合對有監(jiān)督學習方法的性能是至關(guān)重要的。有監(jiān)督的學習方法具有較高的準確性和較強的穩(wěn)定性,更加科學、有效,但存在人工標注工作量大、數(shù)據(jù)量激增、內(nèi)容實時性強、耗時耗力等問題。如果將關(guān)鍵詞抽取問題視為一個二分類問題,那么對每個單詞的獨立處理忽略了文本的結(jié)構(gòu)信息[16],對模型性能有一定影響。

2.2 無監(jiān)督方法

無監(jiān)督關(guān)鍵詞抽取方法無需人工標注語料,該方法根據(jù)詞匯的重要程度進行排序,抽取排名靠前的作為關(guān)鍵詞。無監(jiān)督方法是近年來研究和應用的重點,常見的無監(jiān)督關(guān)鍵詞抽取方法有三種: 基于統(tǒng)計特征[17]、基于主題模型[18]和基于網(wǎng)絡圖模型[19]的關(guān)鍵詞抽取。無監(jiān)督的文本關(guān)鍵詞抽取流程如圖1所示。

圖1 無監(jiān)督文本關(guān)鍵詞抽取方法流程圖Fig.1 Unsupervised keyword extraction method in text

2.2.1 基于統(tǒng)計特征的方法 基于統(tǒng)計特征的關(guān)鍵詞抽取方法是一種傳統(tǒng)機器學習方法,主要是利用文檔的統(tǒng)計學特征抽取關(guān)鍵詞。首先對文本進行預處理操作,去除不規(guī)范內(nèi)容,獲得候選詞集,然后計算候選詞集中詞匯的統(tǒng)計學特征,根據(jù)特征值對詞匯進行排序,根據(jù)排序從候選集中抽取關(guān)鍵詞。常用的統(tǒng)計特征包括詞權(quán)重、詞位置、詞的關(guān)聯(lián)信息等[20]。

詞權(quán)重特征主要包括詞長度、詞性、詞頻、TF-IDF等。詞性是通過分詞、語法分析后得到的結(jié)果,一般為名詞或動詞,更能表達一篇文本的中心思想。詞頻一般可以認為文本中出現(xiàn)頻率越高的詞越有可能成為關(guān)鍵詞。但僅依靠詞頻得到的關(guān)鍵詞對長文本的不確定性很高,會有較大噪音; 而且,語句的位置也反映了其在文章中的重要性,文章標題、引言、段首句、段尾句均對文章有重要意義,這些詞作為關(guān)鍵詞可以表達整個文本的主題[21]。標題和摘要更能概括文本的中心思想,具有一定代表性,因受到作者寫作方式的影響,具有不確定性。基于詞的關(guān)聯(lián)信息的特征量化信息一般包含詞和詞、詞和文本之間的關(guān)聯(lián)程度,關(guān)聯(lián)信息通常包括互信息、HITS(hyperlink-induced topic search)值、貢獻度、依存度、TF-IDF值等。

TF-IDF算法是關(guān)鍵詞抽取方法中的一種基礎(chǔ)算法,因其簡單有效而被廣泛應用。TF-IDF值是指如果某個詞語在一篇文本中出現(xiàn)的頻率(term frequency,TF)高,而其他文本中較少出現(xiàn),即逆文檔頻率(inverse document frequency,IDF)低,則認為該詞語能較好地代表當前文本的含義。TF-IDF算法主要用于評價一個詞對于一個文檔的重要程度。在TF-IDF算法中,字詞的重要性隨著該字詞在文檔中出現(xiàn)的次數(shù)呈正比,但同時也會隨著它在該文檔出現(xiàn)的頻率呈反比。TF-IDF算法的計算如公式(1)-公式(3),詞頻即一個詞在文檔中出現(xiàn)的頻率,一個詞的IDF表示這個詞在整個語料數(shù)據(jù)庫中出現(xiàn)的頻率。

(1)

(2)

It(i,j)=Iω(i,j)×Id(i,j),

(3)

其中:It(i,j)是指詞i相對于文檔j的重要性值;Iω(i,j)是指某一個字詞在該文檔中出現(xiàn)的次數(shù)占比,即給定的詞語在該文檔中出現(xiàn)的頻率,計算公式如(4);Id(i,j)是指詞i的逆文檔頻率,是用總文檔數(shù)目除以包含指定詞語的文檔數(shù)目,再將得到的商取對數(shù),計算公式如(5)。

(4)

其中:ni,j表示詞i在文檔j中出現(xiàn)的次數(shù);nk,j表示文檔j字詞出現(xiàn)的次數(shù)。

(5)

其中:D表示語料庫中文檔的總數(shù); {j:ti∈dj}表示包含詞語ti的文檔數(shù)目。

TF-IDF算法存在如下不足: 一是對語料庫的質(zhì)量要求較高,而且在跨領(lǐng)域語料上表現(xiàn)較差; 二是對一些在文本中出現(xiàn)頻率高并具有代表性的詞語不能很好表示; 三是精度不高,由于IDF有一種試圖抑制噪聲的加權(quán),本身會傾向于文本中出現(xiàn)頻率較小的詞,從而導致TF-IDF算法精度不高; 四是對詞匯位置不敏感,沒有考慮不同位置上詞匯的不同重要性,例如在標題、句首和句尾等位置出現(xiàn)的字詞往往含有較重要的信息,應該賦予較高的權(quán)重[22]??梢酝ㄟ^將多個短文本歸并為一個文本的方法來改進TF-IDF算法,不僅可以增加TF值,而且可以增加IDF值,但同時也會增加模型的計算成本。此外,TF-IDF僅能考慮到詞自身的頻度,無法將其與語義語法相結(jié)合,影響了關(guān)鍵詞抽取的性能。

基于統(tǒng)計特征的關(guān)鍵詞抽取方法主要是通過詞權(quán)重、詞的文檔位置、詞的關(guān)聯(lián)信息等特征量化指標對關(guān)鍵詞按照其重要程度從高到低排序,獲取Top K個詞作為關(guān)鍵詞。

2.2.2 基于主題模型的方法 關(guān)鍵詞抽取與內(nèi)容的主題相關(guān),因此提取文本內(nèi)容的主題至關(guān)重要。主題模型又稱文檔生成模型,它認為文檔是主題的概率分布,而主題是詞匯的概率分布[23]。LDA利用隱含主題模型發(fā)現(xiàn)文檔主題,然后再選取主題中具有代表性的詞作為該文檔的關(guān)鍵詞。

基于主題的關(guān)鍵詞抽取方法主要是利用主題模型中關(guān)于主題的分布性質(zhì)進行關(guān)鍵詞抽取。首先從文本中獲取候選關(guān)鍵詞,然后利用有關(guān)鍵詞的語料訓練出一個主題模型,并得到主題分布和詞匯分布[24],最后在主題空間上計算候選關(guān)鍵詞和文本的相似度,根據(jù)相似度從大到小排序,選取前n個詞作為關(guān)鍵詞。具有代表性的是pLSA (probability latent semantic analysis)[25]模型、LDA模型等。pLSA將概率引入主題模型中,文檔主題之間、主題詞匯之間的隱含語義空間不再是一個抽象的概念空間,而是一個特定的概率分布空間,計算公式為

(6)

其中w表示詞語,D表示文檔,T表示主題。

圖2 LDA模型圖Fig.2 LDA model

2003年D.M.Blei提出了LDA主題模型[6],與pLSA相似,LDA也從文檔、主題、詞三個層面進行分析,并認為文檔有其主題概率分布,主題有其詞匯概率分布文檔可以在主題空間上進行表示,并根據(jù)主題的相似性進行文本聚類或者文本分類。LDA模型如圖2所示。LDA通過采用詞袋模型(bag-of-words,BOW)的方法簡化了問題的復雜性,認為一篇文檔是由一些詞組成的集合,詞與詞之間沒有先后關(guān)系。與pLSA分布不同的是,主題概率分布和詞匯概率分布的參數(shù)不是唯一的,這兩個分布的參數(shù)都符合Dirichlet分布。

在LDA模型中,包含詞、主題、文檔三層結(jié)構(gòu)。該模型認為一篇文檔的生成過程是:先為一篇文檔選擇若干主題,然后為每個主題挑選若干詞語,最后將這些詞語組成一篇文章。所以主題對于文章以及單詞對于主題都服從多項分布。由此可以得到: 如果一個單詞w對于主題t很重要,而主題t對于文章d又很重要,那么可以推出單詞w對于文章d就非常重要,并在同主題的詞wi(i=1,2,3,…)中,詞w的權(quán)重也會較大。

根據(jù)上述,需計算以下概率。主題Tk下各個詞wi的權(quán)重計算公式為

(7)

文檔Dm下各個主題Tk的權(quán)重計算公式為

(8)

指定文檔下某個主題出現(xiàn)的概率,以及指定主題下某個單詞出現(xiàn)的概率計算公式為

(9)

由公式(9)可以得到單詞i對于文檔m主題的重要性。在LDA主題模型中,由于所有的詞都會以一定的概率出現(xiàn)在每個主題中,因此會導致最終計算的單詞對于文檔的主題重要性區(qū)分度受到影響。為避免該情況的出現(xiàn),一般將單詞相對于主題低于一定閾值的概率設(shè)置為0?;贚DA的關(guān)鍵詞抽取方法,在主題層面上對文檔關(guān)鍵詞進行分析。這種方法不僅挖掘了文本的深層語義即文本的主題,而且可以將文檔集中的每篇文檔按照概率分布的形式表示,文檔的主題維度一般遠小于文檔的詞匯個數(shù),所以也有研究者根據(jù)主題對文本進行分類。但基于主題模型提取到的關(guān)鍵詞比較寬泛,不能很好地表示文檔主題; LDA模型同樣耗時耗力; 在LDA中,主題的數(shù)目沒有固定的最優(yōu)解[26]。模型訓練時,需事先設(shè)置主題數(shù),訓練人員需要根據(jù)訓練出來的結(jié)果,手動調(diào)參,通過優(yōu)化主題數(shù)目,進而優(yōu)化文本分類結(jié)果。對此,可以借助知網(wǎng)、同義詞林等外部資源獲得更加準確的單詞語義關(guān)系。

在pLSA模型中,主題分布和詞分布的參數(shù)都是唯一確定的。而在LDA中,主題分布和詞分布的參數(shù)是變化的,LDA的研究人員采用貝葉斯派的思想,認為參數(shù)應服從某個分布。主題分布和詞分布呈多項式分布,因為多項式分布的共軛先驗分布是狄利克雷分布(Dirichlet distribution),所以在LDA中主題分布和詞分布的參數(shù)應服從Dirichlet分布??梢哉fLDA就是無監(jiān)督的pLSA的貝葉斯化版本。

2.2.3 基于網(wǎng)絡圖的方法 TextRank是一種基于圖排序的算法。TF-IDF對于多段文本的關(guān)鍵詞抽取非常有效,但對單篇或者篇幅較長的文本效果一般。TF-IDF僅考慮詞語自身的頻度,而TextRank考慮了文檔內(nèi)詞間語義關(guān)系,可以有效提取文本的關(guān)鍵詞。

TextRank基本思想來源于Google的PageRank[27]算法,通過把文本切分為若干組成單元(單詞、短語或者句子)建立圖模型。首先將文本中的詞作為節(jié)點,詞之間的關(guān)系作為邊,建立文本詞匯網(wǎng)絡圖,然后根據(jù)圖結(jié)構(gòu)挖掘詞匯之間的關(guān)聯(lián)關(guān)系,找到整個網(wǎng)絡中具有重要地位的詞或短語,作為關(guān)鍵詞[28]。顧亦然[29]提出基于PageRank算法,利用詞頻特性,結(jié)合語言習慣特性定義位置權(quán)重系數(shù),在新浪新聞語料上進行實驗,有效提升了新聞類文本關(guān)鍵詞提取的結(jié)果。隨機游走算法中具有代表性的是PageRank算法,它通過網(wǎng)頁之間的超鏈接來計算網(wǎng)頁重要性[30]。TextRank算法借鑒了這種重要性可傳遞的思想。

李航[31]為克服傳統(tǒng)TextRank的局限性,提出對詞語的平均信息熵、詞性、位置的特征進行自動優(yōu)化的神經(jīng)網(wǎng)絡算法,通過優(yōu)化詞匯節(jié)點的初始權(quán)重以及概率轉(zhuǎn)移矩陣,進而提高關(guān)鍵詞抽取準確度。柳青林[32]通過引入馬爾可夫狀態(tài)轉(zhuǎn)移模型,對TextRank算法本身進行了完善,得到的單文本關(guān)鍵詞提取結(jié)果與人工提取結(jié)果更加一致。

TextRank算法對一段文本多次出現(xiàn)的詞賦予更大的權(quán)重,因為詞的共現(xiàn)關(guān)系即為邊,一個詞的共現(xiàn)詞越多,網(wǎng)絡中與這個詞相連的節(jié)點就越多,這樣會使類似于“的”“這”“那”等沒有特別含義的停用詞的權(quán)重增大[33]。對于這種情況,可在對文本進行切分時,去掉停用詞或其他符合一定規(guī)則的詞語?;趫D的算法,計算詞與詞之間的共現(xiàn)關(guān)系,結(jié)合其他特征為每個詞打分,從而找到關(guān)鍵詞。近年來,基于圖算法的模型有Top-icRank[34]、SalienceRank[35]、PositionRank[36]。

2.3 TF-IDF和TextRank融合方法

TF-IDF和TextRank算法各有不足。TextRank算法為每個節(jié)點賦予相等的初始權(quán)重,沒有考慮到節(jié)點本身不同的重要性,在計算過程中節(jié)點的分數(shù)也是平均分配到周圍節(jié)點,沒有考慮到被分配節(jié)點與分配節(jié)點的相關(guān)程度[37]。為解決這些問題,通常將多種方法進行組合來彌補單一算法的缺點。例如將TF-IDF和TextRank算法相結(jié)合,將其作為詞節(jié)點之間的特征權(quán)重,調(diào)整詞節(jié)點間的影響力,或者綜合TF-IDF與詞性得到關(guān)鍵詞等。

圖3 改進TextRank算法的關(guān)鍵詞抽取流程圖Fig.3 The keyword extraction flowchart of the improved TextRank algorithm

尤苡名等[38]提出融合TF-IDF與TextRank 算法的關(guān)鍵詞抽取方法,通過引入用戶瀏覽評論后的反饋,提高重要詞語的權(quán)重,對TF-IDF算法進行改進。將改進后的詞頻逆文檔頻率作為詞節(jié)點特征權(quán)重加入TextRank 算法中,提高有效評論中關(guān)鍵詞的權(quán)重。陳志泊[39]等通過改進TextRank算法,將計算的綜合權(quán)值作為詞語特征值,得到高品質(zhì)的詞語集合,判定信息類型,然后將關(guān)鍵詞和信息類型相結(jié)合,實現(xiàn)對文本關(guān)鍵信息的抽取,最終形成的信息類型集合在緊密性、間隔性、綜合評價指標上均表現(xiàn)良好。改進的TextRank 算法關(guān)鍵詞抽取流程如圖3所示。

劉嘯劍等[23]提出一種結(jié)合LDA與TextRank 的關(guān)鍵詞抽取模型,并在Huth200和DUC2001數(shù)據(jù)集上驗證了該方法的有效性。張瑾[40]將特征詞位置及詞跨度權(quán)值引入到TF-IDF中,并在提取新聞情報關(guān)鍵詞實驗中證明了算法的有效性。謝瑋等[41]利用TF-IDF對詞語的位置進行加權(quán),并采用TextRank實現(xiàn)關(guān)鍵詞抽取任務。

2.4 基于深度學習的文本關(guān)鍵詞抽取方法

隨著人工智能的不斷發(fā)展,深度學習方法被廣泛應用于文本關(guān)鍵詞抽取方法中。成彬等[42]利用條件隨機場(conditional random field,CRF)模型[43]處理序列標注問題的優(yōu)勢,通過將詞性信息和CRF模型融入雙向長短時記憶(bidirectional long short term memory,BiLSTM)網(wǎng)絡[44],實現(xiàn)期刊關(guān)鍵詞的自動抽取。融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型如圖4。首先需要對文本進行預處理操作,包括分詞、詞性標注和依存句法分析,然后使用word2vec[45]向量化表示文本,最后使用BiLSTM-CRF模型進行關(guān)鍵詞的自動抽取?;谌诤显~性特征的BiLSTM-CRF期刊關(guān)鍵詞抽取方法,不僅實現(xiàn)了數(shù)據(jù)時序和語義信息挖掘,而且保證了單詞與單詞之間的關(guān)聯(lián)性。

圖4 融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型Fig.4 Keyword extraction model for journals based on part-of-speech and BiLSTM-CRF

圖5 基于注意力機制的關(guān)鍵詞抽取結(jié)構(gòu)圖Fig.5 Structure of keyword extraction based on attention mechanism

楊丹浩等[46]提出基于序列標注的關(guān)鍵詞抽取模型,該模型將BiLSTM與注意力機制相結(jié)合用于論文關(guān)鍵詞的提取。在實驗過程中,將字的向量表示與詞的向量表示作為模型的輸入,將不同顆粒度的向量表示相融合,相比于傳統(tǒng)的無監(jiān)督模型TextRank,TF-IDF性能有明顯提升。該模型的結(jié)構(gòu)框如圖5所示。

雖然基于序列標注的關(guān)鍵詞抽取模型有效利用了BiLSTM和注意力模型,但實驗仍存在兩點不足:一是該實驗僅將論文中的關(guān)鍵詞進行標注并訓練,沒有考慮該關(guān)鍵詞與文章內(nèi)容的相關(guān)性; 二是沒有考慮論文標題與關(guān)鍵詞的關(guān)系,將論文標題有效結(jié)合提取關(guān)鍵詞有待進一步的研究。

考慮到詞向量的優(yōu)勢,寧建飛等[47]使用Word2vec算法計算文本集詞向量,并構(gòu)建文本層面的詞匯相似矩陣,同時改進TextRank 算法的初始權(quán)重分配方式和迭代計算過程中的概率轉(zhuǎn)移矩陣。周錦章等[48]針對單詞語義的差異性對TextRank算法的影響這一問題,提出一種基于詞向量與TextRank的關(guān)鍵詞抽取方法。同時利用FastText將文本集進行詞向量表示,基于隱含主題分布思想和利用單詞間語義的不同,構(gòu)建TextRank轉(zhuǎn)移概率矩陣,最后進行詞圖的迭代計算和關(guān)鍵詞抽取。實驗結(jié)果表明,該方法的抽取效果優(yōu)于傳統(tǒng)方法,同時證明了詞向量可以簡單有效地改善TextRank 算法性能。

2.5 幾種民族語言的文本關(guān)鍵詞抽取方法

多民族是我國的重要特征之一,結(jié)合現(xiàn)代技術(shù)研究少數(shù)民族語言對各民族歷史文化的傳承,增加我國社會人文內(nèi)涵,具有重要作用。同時,利用現(xiàn)代信息技術(shù)結(jié)合大數(shù)據(jù)的優(yōu)勢,可以更加深入挖掘分析民族語言文字中隱含的規(guī)律,提高民族語言文字數(shù)據(jù)的處理效率,為少數(shù)民族語言文字的研究提供有效幫助。目前研究中主要涉及的少數(shù)民族語言文字有藏文、維吾爾文、蒙古文、哈薩克文等,并采用例如LDA模型、深度神經(jīng)網(wǎng)絡等方法進行研究。我國少數(shù)民族中,藏族、維吾爾族和蒙古族具有相對完整的民族語言文字,形成了相對成熟的民族教育體系,相關(guān)領(lǐng)域擁有相對較多的民族科學研究人員,因此本文主要研究藏文、維吾爾文和蒙古文三種少數(shù)民族語言文字。

2.5.1 蒙古語 蒙古文作為蒙古族通用語言文字,是目前世界上極少數(shù)豎向排列的文字之一,從上到下連寫,從左到右移行?;佞X式蒙古文是有記載以來最早的蒙古族文字,回鶻式蒙古文文獻對蒙古族歷史文化和蒙古語發(fā)展變化及蒙古文詞法、詞匯的研究具有重要學術(shù)價值。但由于蒙古文文字編碼不統(tǒng)一,導致難以制定蒙古文通用規(guī)則,而且相對于其他語言的研究相對起步較晚,所以目前蒙古文的研究還處于初級階段。

斯日古楞等[49]基于LDA模型建立蒙古文文本主題模型,分析隱藏在文檔內(nèi)不同主題和詞之間的關(guān)系,通過實驗計算文本的主題分布和查詢語句主題之間的相似度,較好地實現(xiàn)了蒙古文文本主題語義的檢索效果。Hongxiwei等[50]通過在檢索時合成分詞后的蒙古文歷史文獻圖像序列,提取基于輪廓特征表示的文字圖像并進行固定長度的特征向量在線匹配,從而得到降序后的相似度排序結(jié)果,以此定位蒙古文歷史文獻圖像中的關(guān)鍵詞。白淑霞等[51]考慮到詞袋模型(Bag-of-words model)可能忽略單詞間的空間關(guān)系和語義信息問題,提出一種基于LDA的主題模型,用以解決蒙古文古籍的關(guān)鍵詞檢索。該方法的性能優(yōu)于視覺詞袋模型(bag of visual word model)[52]。王玉榮等[53]設(shè)計并實現(xiàn)了一個基于云架構(gòu)的分布式蒙古文碩士論文檢索系統(tǒng),設(shè)計完成了滿足分布式要求的蒙古文分析器,作為系統(tǒng)核心模塊在分布式多節(jié)點上實現(xiàn)了蒙古文的索引和檢索功能; 使用BM25概率模型可對蒙古文論文檢索和排序,并具有關(guān)鍵詞或摘要的中文檢索功能。

2.5.2 藏語 藏語的主要表現(xiàn)形式是藏文,藏文分為輔音字母、元音符號和標點符號3個部分。其中有30個輔音字母,4個元音符號,以及5個反寫字母用以拼寫外來語。藏文采用上下疊寫的方法自左向右橫寫。目前藏文的關(guān)鍵詞研究大多基于藏文新聞網(wǎng)頁,為后續(xù)藏文古籍翻譯、藏文情感識別以及藏文輿情分析工作奠定了基礎(chǔ)。雖然藏文文字排序方面的研究取得一定進展,但藏文文字中的幾種特殊音節(jié)字母到目前還沒有標準處理方法。

通過對中文關(guān)鍵詞抽取方法的學習,對網(wǎng)頁模塊中智能識別后的藏文文本進行自動分詞,采用以此為基礎(chǔ)改進后的TF-IDF算法得到基礎(chǔ)詞集,根據(jù)詞向量特征擴展構(gòu)建候選關(guān)鍵詞集,分析利用其語義相關(guān)度值并在一定程度上更高效率的提取藏文網(wǎng)頁關(guān)鍵詞[54]。艾金勇[55]為提升藏文文本關(guān)鍵詞的抽取效果,針對藏文文本特點,將藏文文本的多種特征和TextRank相結(jié)合,同時根據(jù)詞語之間的語法關(guān)系給出了候選關(guān)鍵詞的量化權(quán)值。與傳統(tǒng)方法相比,關(guān)鍵詞抽取效果明顯提升。洛桑嘎登等[56]結(jié)合藏文分詞標注研究并實現(xiàn)了一種基TextRank算法的藏文關(guān)鍵詞提取技術(shù),該文在1 500句的藏文問句上進行了實驗研究,總體效果較好。才讓卓瑪?shù)萚57]通過借鑒中文關(guān)鍵詞抽取方法,提出一種基于語料庫的藏語高頻詞抽取算法,并提出對藏語文本的預處理方法,實驗結(jié)果表明,該算法的準確率達86.22%。徐濤等[58]針對藏文新聞網(wǎng)頁提出卡方統(tǒng)計量結(jié)合詞與詞推薦相結(jié)合的方法,并通過實驗得出該方法效果優(yōu)于融入位置的TF-IDF算法。

2.5.3 維吾爾語 維吾爾文是新疆大多數(shù)人互相交流的語種之一。我國維吾爾族使用的是以阿拉伯字母為基礎(chǔ)的拼音文字。相對于通用語言文字的識別,維吾爾文的識別研究起步相對較晚,電子化維吾爾文本數(shù)據(jù)較少,語料規(guī)模較小,質(zhì)量不高,為維吾爾文的研究帶來了困難。研究者們通過直接識別維吾爾文圖片、借鑒中文關(guān)鍵詞的語義分析等技術(shù),試圖克服上述問題。

李靜靜等[59]提出并實現(xiàn)一種基于由粗到細層級匹配的關(guān)鍵詞文檔圖像檢索方法,通過支持向量機(SVM)分類器學習,從單詞圖像提取方向梯度直方圖(HOG)的特征向量,可以有效實現(xiàn)維吾爾文關(guān)鍵詞圖像檢索。阿力甫·阿不都克里木等[60]提出一種基于TextRank算法的維吾爾文關(guān)鍵詞提取方法,首先對輸入文本進行預處理,濾除非維吾爾語的字符和停用詞,然后利用詞語語義相似度、詞語位置和詞頻重要性加權(quán)的TextRank算法提取文本關(guān)鍵詞集合。實驗結(jié)果表明,該方法能夠提取出具有較高識別度的關(guān)鍵詞。熱依萊木·帕爾哈提[61]通過實驗對維吾爾文文本基于TextRank、TF-IDF、SDA(system display architecture)、SparseSVM四種方法分別進行關(guān)鍵詞提取和文本文本分類,實驗效果可滿足需求。買買提阿依甫等[62]通過對維吾爾文語言特殊性的分析,提出一種結(jié)合word2vec和LDA模型生成主題特征矩陣,獲取語義粒度層面特征信息,通過豐富卷積網(wǎng)絡池化層特征來提高情感分類的準確率,取得了比傳統(tǒng)機器學習方法更好的情感分類性能。

2.6 關(guān)鍵詞抽取技術(shù)總結(jié)

本文通過對各種關(guān)鍵詞抽取方法進行闡述,分別分析了無監(jiān)督方法和有監(jiān)督方法的技術(shù)特點、代表性模型及其優(yōu)缺點,結(jié)果見表1。

表1 文本關(guān)鍵詞抽取技術(shù)總結(jié)Tab.1 Summary of text keyword extraction technologies

3 關(guān)鍵詞抽取的評價方法

關(guān)鍵詞抽取質(zhì)量優(yōu)劣的評價標準是其符合文本的實際語義,高質(zhì)量的關(guān)鍵詞應具備可讀性、相關(guān)性、覆蓋性和簡潔性等特質(zhì),即關(guān)鍵詞不僅具有實際意義,而且關(guān)鍵詞和文本主題保持一致,更能夠覆蓋文本的各個主題。此外,關(guān)鍵詞還應簡潔明了,各個關(guān)鍵詞之間也應相關(guān)聯(lián)。目前對關(guān)鍵詞抽取任務一般有兩種方法,一種是由領(lǐng)域?qū)<疫M行人工評價,這種方式可操作性強但缺點也明顯,比如認識分歧、詞或短語的組合歧義等問題。另一種常用的評價指標是: 準確率P(precision)、召回率R(recall)和F值(F-measure)。

(10)

其中KP表示抽取出的正確關(guān)鍵詞條數(shù),K表示抽取出的關(guān)鍵詞條數(shù)。

(11)

其中DK表示文檔中的關(guān)鍵詞條數(shù)。

(12)

其中: 準確率和召回率的取值范圍為[0,1],取值越接近1,分別表示抽取出的關(guān)鍵詞正確率越高和越多的關(guān)鍵詞被正確抽取;F值為準確率和召回率的調(diào)和平均值,能夠綜合準確率和召回率; ?為調(diào)節(jié)參數(shù),當?=1時,表示為F1值,即

(13)

4 總結(jié)與展望

通過總結(jié)文本關(guān)鍵詞抽取的各種方法,考慮到應用環(huán)境復雜性的影響,對于不同類型的文本,例如長文本和短文本,通用語言文本和少數(shù)民族語言文本,采用同一種文本關(guān)鍵詞抽取方法得到的性能結(jié)果會有所不相同。所以,針對不同類型、不同民族語言的文本應采取不同的算法。針對目前文本關(guān)鍵詞抽取技術(shù)面臨的研究難點,提出以下需進一步研究內(nèi)容:

(1) 多種方法的有效融合。使用傳統(tǒng)方法和基于深度學習的方法,或者其他的多種方法相融合的方式改進中文或少數(shù)民族語言文本關(guān)鍵詞抽取的性能。

(2) 結(jié)合語義的方法。隨著深度學習的發(fā)展,相較于傳統(tǒng)機器學習時代,自然語言處理技術(shù)發(fā)生了翻天覆地的變化。從word2vec模型,到Elmo模型,再到后來Google提出的BERT語言模型,大幅度提升了自然語言處理多種任務的性能,BERT能動態(tài)調(diào)整語義信息有效解決一詞多義的問題,將文本理解和語義表示推向了新高度。

(3) 借助外部知識庫改善關(guān)鍵詞抽取技術(shù)。神經(jīng)網(wǎng)絡在大規(guī)模語料訓練過程中,并沒有顯式的將知識進行合理的結(jié)構(gòu)化組織,從而導致模型領(lǐng)域泛化能力較弱。利用知識圖譜等形式進行組織并實現(xiàn)知識融合,可以幫助模型提高泛化能力,是未來值得探索的重要方向。

猜你喜歡
藏文文檔語義
真實場景水下語義分割方法及數(shù)據(jù)集
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
敦煌本藏文算書九九表再探
淺談小學藏文教學的高效化策略
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
信息技術(shù)藏文編碼字符集擴充集A
Word文檔 高效分合有高招
“吃+NP”的語義生成機制研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat