沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉
(新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
關(guān)鍵詞提取是對(duì)一組最能概括文本中討論內(nèi)容的詞或術(shù)語(yǔ)的自動(dòng)識(shí)別方法[1]。關(guān)鍵詞提取在文本挖掘[2]、信息檢索[3]和文本分類(lèi)[4]等領(lǐng)域具有極其重要的意義。在搜索過(guò)程中,關(guān)鍵詞被廣泛用于對(duì)搜索結(jié)果進(jìn)行分類(lèi),幫助用戶(hù)快速查找特定數(shù)據(jù)。文本關(guān)鍵詞提取任務(wù)中的一個(gè)重要問(wèn)題是如何表示文本中的詞語(yǔ),使計(jì)算機(jī)能夠有效地讀取最有代表性和起決定性作用的關(guān)鍵詞。
維吾爾語(yǔ)和哈薩克語(yǔ)(以下稱(chēng)維-哈語(yǔ))是粘著性語(yǔ)言,維-哈語(yǔ)的語(yǔ)法和詞法結(jié)構(gòu)是基本一致的。維-哈語(yǔ)的句子由自然分開(kāi)的詞組成,詞由詞干追加詞綴來(lái)派生,因此維-哈語(yǔ)中詞匯量巨大。其中,詞干是具有實(shí)際意義的詞匯單元,詞綴提供語(yǔ)義及語(yǔ)法功能,因而詞素切分和詞干提取能夠使我們獲取有效的、有意義的特征,并減少特征的重復(fù)出現(xiàn)率和特征位數(shù),如以下例子所示:
(維語(yǔ)原型)musabiqidA musabiqiniN vaHirqi musabiqA numurini velip,tallanma musabiqidin GAlbilik vOtti.
(維語(yǔ)詞素切分后)musabiqA+dAmusabiqA+niN vaHir+qimusabiqAnumur+i+ni val+ip,talla+an+mamusabiqA+din GAlbA+lik vOt+ty.
(哈語(yǔ)原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan jENespEn votte.
(哈語(yǔ)詞素切分后)jares+tajares+neN soNGejaresnomer+en al+ep,taNdawjares+tan jENespEn vot+te.
以上句子中文意思是:在比賽中取得比賽的[比賽]終局分?jǐn)?shù),勝利地通過(guò)了選賽。在中文中,中括號(hào)[ ]里的‘比賽’這個(gè)詞一般不會(huì)出現(xiàn),但在維-哈語(yǔ)句子中對(duì)應(yīng)于這個(gè)詞的第4個(gè)詞musabiqA和jares,是必不可少的。
以上每個(gè)維-哈語(yǔ)句子中有10個(gè)詞,其中4個(gè)詞的詞干(被加粗部分)都是musabiqA(比賽)或jares(比賽),將以上句子經(jīng)過(guò)詞素切分和詞干提取后,1個(gè)詞干能夠表示4個(gè)詞的主要意思,并獲取4個(gè)詞特征,特征位數(shù)會(huì)大幅減少,如表1所示。
Table 1 Uyghur-Kazakh word variants表1 維-哈詞語(yǔ)變體
維-哈語(yǔ)自然語(yǔ)言處理NLP(Natural Language Processing)的主要問(wèn)題是資源缺乏和語(yǔ)言形態(tài)結(jié)構(gòu)多變,從互聯(lián)網(wǎng)上收集的數(shù)據(jù)在拼寫(xiě)和編碼等方面具有噪聲和不確定性等特點(diǎn)[5]。方言以及在拼寫(xiě)和編碼等方面的不確定性對(duì)提取和分類(lèi)帶噪聲文本數(shù)據(jù)的可靠性帶來(lái)了巨大挑戰(zhàn)[6]。然而,提取和分類(lèi)有噪聲的文本數(shù)據(jù)是維-哈語(yǔ)NLP中不可避免的重要步驟。
以往的維-哈語(yǔ)詞干提取相關(guān)的研究大多基于以后綴為基礎(chǔ)的詞干方法和一些人工收集的規(guī)則[7,8],因此存在歧義。維-哈語(yǔ)詞干提取任務(wù)中1個(gè)特殊的問(wèn)題是聲音的和諧與不和諧,這個(gè)問(wèn)題導(dǎo)致詞形的變化,這需要通過(guò)句子層面的語(yǔ)境分析來(lái)解決。基于句子或長(zhǎng)上下文的可靠詞干提取方法可以正確預(yù)測(cè)噪聲文本中的詞干和詞條,有利于維-哈語(yǔ)等少數(shù)民族語(yǔ)言NLP的其他許多方面的研究?;谏鲜龇椒ǖ亩嗾Z(yǔ)言處理工具[6]可以為整個(gè)句子提供形態(tài)分析,并減少噪聲文本中的歧義。
常用的關(guān)鍵詞提取方法有4種:(1)基于統(tǒng)計(jì)的方法,包括詞頻TF(Term Frequency)[9]和詞頻-逆文檔頻率TF-IFD(Term Frequency-Inverse Document Frequency)[10]。TF是統(tǒng)計(jì)1個(gè)文本中每個(gè)詞的出現(xiàn)頻率,把出現(xiàn)頻率高于某個(gè)閾值的詞選為關(guān)鍵詞。這種方法簡(jiǎn)單快捷,但它將所有高頻詞視為關(guān)鍵詞,并排除所有低頻詞,這就降低了它的準(zhǔn)確率。TF-IDF通過(guò)降低出現(xiàn)頻率高但可分類(lèi)性低的詞語(yǔ)的權(quán)重來(lái)避免所有高頻詞被選為關(guān)鍵詞。因?yàn)門(mén)F-IDF算法需要考慮整個(gè)語(yǔ)料庫(kù)來(lái)計(jì)算給定詞的IDF值,所以語(yǔ)料庫(kù)較大時(shí),這種算法才能更正確地提取關(guān)鍵詞。(2)基于語(yǔ)義的方法[11]。該方法利用詞之間的語(yǔ)義特征來(lái)提取關(guān)鍵詞。(3)基于機(jī)器學(xué)習(xí)的方法,包括樸素貝葉斯NB(Naive Bayes)分類(lèi)器[12]、支持向量機(jī)SVM(Support Vector Machine)分類(lèi)器[13]等。該類(lèi)方法將關(guān)鍵詞提取問(wèn)題轉(zhuǎn)化為二元分類(lèi)問(wèn)題,即確定候選詞是否為關(guān)鍵詞。(4)基于文檔網(wǎng)絡(luò)的方法。在這類(lèi)方法中,將文本映射到以詞語(yǔ)為頂點(diǎn)和以詞語(yǔ)之間的關(guān)系為邊的網(wǎng)絡(luò),如TextRank算法[14]。TextRank算法認(rèn)為1個(gè)詞的重要性由與此詞有關(guān)的其他詞來(lái)投票確定,投票的重要性是由詞的權(quán)重來(lái)確定。
目前,部分學(xué)者對(duì)維-哈語(yǔ)文本關(guān)鍵詞提取做了一些研究[15 - 17]。文獻(xiàn)[15]用特征加權(quán)的方法計(jì)算詞的出現(xiàn)頻率,加以考慮詞的位置信息,通過(guò)設(shè)定特征項(xiàng)權(quán)重因子得到詞的最后權(quán)重,以此提取維吾爾語(yǔ)文本的關(guān)鍵詞。文獻(xiàn)[16]用詞的位置信息、語(yǔ)義相似度以及詞頻等特征來(lái)加權(quán)的TextRank算法提取維吾爾語(yǔ)文本中的關(guān)鍵詞。文獻(xiàn)[17]利用改進(jìn)的 TF-IDF算法以及詞的位置和出現(xiàn)頻率等信息進(jìn)行哈薩克語(yǔ)文本關(guān)鍵詞提取實(shí)驗(yàn)。
以上研究中用到的關(guān)鍵詞提取方法雖然利用了文本中的信息,但是并沒(méi)有對(duì)文本的表示形式進(jìn)行改變,其中把詞性和詞頻等特征作為詞語(yǔ)的特征,這樣就忽略了文本上下文詞語(yǔ)之間的語(yǔ)義聯(lián)系,因此這些特征在聚類(lèi)和分類(lèi)等過(guò)程中不能提供語(yǔ)義有關(guān)的充分信息,就導(dǎo)致所提取到的關(guān)鍵詞準(zhǔn)確率偏低。
本文提出了基于穩(wěn)健的詞素切分及詞干提取和word2vec_TFIDF融合特征表示的維-哈語(yǔ)文本關(guān)鍵詞提取方法。首先,用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從政府網(wǎng)站下載維-哈語(yǔ)文本,并用多語(yǔ)言詞素切分工具[6]對(duì)其進(jìn)行詞素切分及詞干提取,以構(gòu)建詞干序列文本語(yǔ)料庫(kù)。然后,用word2vec將語(yǔ)料庫(kù)的詞干向量化,并用TF-IDF算法對(duì)詞干向量進(jìn)行加權(quán)處理之后,進(jìn)行了基于詞干的自動(dòng)關(guān)鍵詞提取實(shí)驗(yàn)。
跨語(yǔ)言和跨文化交流所引起的書(shū)寫(xiě)形式上的不確定性在給維-哈語(yǔ)文本帶來(lái)噪聲的同時(shí),也會(huì)導(dǎo)致新詞、新概念和新表達(dá)的出現(xiàn)。這些新詞大多是借用新進(jìn)的外來(lái)詞或詞干,以及由于拼寫(xiě)習(xí)慣的不同和方言的變形而引起的噪聲整合而成。引起書(shū)寫(xiě)形式上不確定性的另一個(gè)原因是書(shū)寫(xiě)系統(tǒng)的歷史變化。例如,維-哈語(yǔ)目前使用阿拉伯字母,但30年前使用了羅馬字母。在更古老的時(shí)代,有更多的書(shū)寫(xiě)形式被使用。這些不同的書(shū)寫(xiě)系統(tǒng)在現(xiàn)代社會(huì)留下了它們的遺產(chǎn),雖然不太可能在官方媒體上出現(xiàn),卻廣泛存在于網(wǎng)上論壇和聊天工具中。
多語(yǔ)言處理工具[6]提供多種預(yù)處理功能,它將粘著性語(yǔ)言文字切分成詞和詞素序列。該工具在功能和語(yǔ)言上都是可擴(kuò)展的。
該工具根據(jù)詞素和語(yǔ)音規(guī)則,從對(duì)齊的詞-詞素平行訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)粘著性語(yǔ)言詞語(yǔ)的各種表面形式和聲學(xué)變化。詞素邊界上的音素根據(jù)語(yǔ)音和諧規(guī)則改變其表面形式。當(dāng)發(fā)音準(zhǔn)確時(shí),可以在文本中清楚地觀察到語(yǔ)音和諧。該工具基于維-哈語(yǔ)的詞素規(guī)則所準(zhǔn)備的詞干、詞綴表、語(yǔ)音和諧與不和諧等語(yǔ)音規(guī)則的搜索算法,通過(guò)匹配方法依次切分候選詞,并根據(jù)切分結(jié)果分別與詞干、詞綴表和維-哈語(yǔ)詞的各種表面形式進(jìn)行匹配,來(lái)導(dǎo)出每個(gè)候選詞的所有可能的詞素切分形式。將這些詞素送入1個(gè)獨(dú)立的統(tǒng)計(jì)模型,從前N個(gè)最好的詞素中選擇最佳詞素。該工具為詞干提取提供了可靠的依據(jù),極大地改進(jìn)了少數(shù)民族語(yǔ)言文本處理效果,詞素切分流程如圖1所示。
Figure 1 Morpheme segmentation process圖1 詞素切分流程
本文用該工具在包括10 025個(gè)維吾爾語(yǔ)句子和5 000個(gè)哈薩克語(yǔ)句子的詞-詞素平行訓(xùn)練語(yǔ)料庫(kù)上訓(xùn)練統(tǒng)計(jì)模型,選擇其中80%的句子作為訓(xùn)練語(yǔ)料,其余部分作為測(cè)試語(yǔ)料,進(jìn)行詞素切分和詞干提取實(shí)驗(yàn),其詞干提取準(zhǔn)確率最高分別達(dá)到97.66%和95.87%,所有自動(dòng)切分的詞素與人工切分的詞素完全匹配的百分比如表2所示。
Table 2 Morpheme segmentation based on rule表2 基于規(guī)則的詞素切分
近期,深度神經(jīng)網(wǎng)絡(luò)和表示學(xué)習(xí)[18,19]提供了更好的文本表示和緩解數(shù)據(jù)稀疏問(wèn)題的方法。Mikolov等人[20]提出了word2vec文本表示方法,并利用深度學(xué)習(xí)和向量運(yùn)算的思想,通過(guò)訓(xùn)練把文本內(nèi)容的處理簡(jiǎn)化到Q維向量空間,以尋求文本數(shù)據(jù)更深層次的特征表示,并使用向量空間中的相似度來(lái)表示文本的語(yǔ)義相似度。
2.2.1 詞向量學(xué)習(xí)方法
詞(詞干)向量是1個(gè)真數(shù)向量[21],利用word2vec可以快速有效地訓(xùn)練詞干向量。通過(guò)計(jì)算任意2個(gè)給定的詞干向量之間的距離,可以容易地找到它們的相似度。word2vec包括2個(gè)重要的子模型:連續(xù)詞袋CBOW(Continues Bag Of Words)模型[22]和Skip-gram模型[23]。
CBOW是1個(gè)在給定上下文詞干Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c的條件下預(yù)測(cè)特定詞干Wt發(fā)生的概率P(Wt|Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c)的模型。在這個(gè)模型中,1個(gè)詞干由在這個(gè)詞干前后的c個(gè)詞干表示,c是預(yù)選窗口的大小,輸出是這個(gè)特征詞干Wt的詞干向量,如圖2所示。本文使用CBOW模型訓(xùn)練詞干向量。
Figure 2 CBOW model圖2 CBOW模型
Skip-gram模型的思想與CBOW模型相反,它在給定特定詞干Wt的條件下,預(yù)測(cè)上下文詞干Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c的發(fā)生概率P(Wt-c,W(t-c)-1,…,Wt-1,Wt+1,Wt+2,…,Wt+c|Wt),如圖3所示。
Figure 3 Skip-gram model圖3 Skip-gram模型
通過(guò)word2vec訓(xùn)練得到的詞干向量可以通過(guò)其余弦距離來(lái)判斷語(yǔ)義相似度。計(jì)算得到的余弦值越大,語(yǔ)義越相近;反之,語(yǔ)義相差越遠(yuǎn),如表3所示。
Table 3 Semantic similarity of stem vector 表3 詞干向量語(yǔ)義相似度
從表3可以看出分別輸入維吾爾語(yǔ)詞muzika(音樂(lè))和哈薩克語(yǔ)詞vaqxa(人民幣),并通過(guò)計(jì)算詞干向量之間的余弦距離來(lái)得到的與這2個(gè)輸入詞語(yǔ)義最相近的5個(gè)詞干。
2.2.2 TF-IDF權(quán)重
對(duì)于包含M個(gè)文本的集合D,其中Di∈D,i=1,2,…,M,通過(guò)CBOW模型得到詞干向量。對(duì)于文本中的每個(gè)詞干,通過(guò)TF-IDF算法計(jì)算其權(quán)重值tfidf(Wt,Di),它是指詞干Wt在文本Di(i=1,2,…,M)中的權(quán)重值。TF-IDF考慮單個(gè)文本中的詞干頻率tf和整個(gè)文本集的詞干頻率idf。TF-IDF的計(jì)算公式如式(1)所示:
(1)
其中,tf(Wt,Di)是詞干Wt在第i個(gè)文本中的出現(xiàn)頻率,分母是歸一化因子。idf(Wt)是詞干Wt的逆文檔頻率,計(jì)算公式如式(2)所示:
idf(Wt)=log(M/nt)
(2)
其中,M是訓(xùn)練集中的文本總數(shù),nt是詞干Wt在訓(xùn)練集中的出現(xiàn)次數(shù)。
每個(gè)詞干的詞干向量被tfidf值加權(quán)來(lái)表示1個(gè)文本,如式(3)所示:
(3)
其中,vec(Di)指的是每個(gè)文本Di的詞干向量,wt表示詞干Wt的N維詞干向量,tfidf(Wt,Di)表示詞干Wt在文本Di中的TF-IDF權(quán)重值。
對(duì)實(shí)驗(yàn)文本進(jìn)行處理,通過(guò)多語(yǔ)言處理工具[6]進(jìn)行詞素切分和詞干提取之后,建立詞干序列文本語(yǔ)料庫(kù),并把語(yǔ)料庫(kù)分為訓(xùn)練語(yǔ)料庫(kù)和測(cè)試語(yǔ)料庫(kù)2個(gè)部分,為每個(gè)文本人工選擇若干個(gè)關(guān)鍵詞干,并進(jìn)行標(biāo)注;然后用word2vec生成所有訓(xùn)練文本的詞干向量,并用TF-IDF算法計(jì)算出每個(gè)詞干的權(quán)值,以此值加權(quán),生成加權(quán)的詞干向量集;然后對(duì)測(cè)試文本進(jìn)行向量化和加權(quán),以生成加權(quán)的詞干向量集,算出訓(xùn)練文本集中的每個(gè)關(guān)鍵詞干向量到待測(cè)試文本集中所有詞干向量之間的余弦距離,排序后,選取排在前面的K個(gè)關(guān)鍵詞干作為最終提取的關(guān)鍵詞。
目前,維-哈語(yǔ)文本關(guān)鍵詞提取研究還處于起步階段,尚無(wú)公開(kāi)可用的文本語(yǔ)料庫(kù)。因此,須通過(guò)下載網(wǎng)上文本來(lái)構(gòu)建維-哈語(yǔ)文本語(yǔ)料庫(kù),并用此進(jìn)行實(shí)驗(yàn)。
本文使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從官方的維-哈文網(wǎng),如人民網(wǎng)等,下載文本構(gòu)建文本語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)包括法律、財(cái)經(jīng)、體育、文化、衛(wèi)生、旅游、教育、科技和娛樂(lè)等9大類(lèi)維吾爾文新聞,每類(lèi)包含500篇,共4 500篇,和包括法律、財(cái)經(jīng)、體育、文化、旅游、教育、科技和娛樂(lè)等8大類(lèi)哈薩克文新聞,每類(lèi)包含500篇,共4 000篇。本文實(shí)驗(yàn)中,從語(yǔ)料庫(kù)中隨機(jī)選擇維吾爾文新聞和哈薩克文新聞各1 000篇,并使用其中80%的新聞作為訓(xùn)練集,其余部分作為測(cè)試集。
針對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)中的文本易出現(xiàn)拼寫(xiě)錯(cuò)誤的情況,本文開(kāi)發(fā)了維-哈文字拼寫(xiě)檢查工具。該工具通過(guò)分析維-哈語(yǔ)音節(jié)的結(jié)構(gòu)形式和規(guī)則,可以發(fā)現(xiàn)大部分有拼寫(xiě)錯(cuò)誤的維-哈語(yǔ)詞匯,從而能夠指導(dǎo)我們更正給定詞匯中的拼寫(xiě)錯(cuò)誤。拼寫(xiě)檢查程序流程如圖4所示。
Figure 4 Flowchart of Uyghur-Kazakh spell checking program圖4 維-哈語(yǔ)拼寫(xiě)檢查程序流程
本文將所有文本從各種編碼形式規(guī)范化成統(tǒng)一的羅馬字母編碼形式,并送入詞素切分工具包,轉(zhuǎn)換成詞素序列,提取其詞干。基于詞素和語(yǔ)音規(guī)則的詞干提取方法能夠很好地降低待選擇關(guān)鍵詞干的維數(shù),其中,除去詞綴和停用詞后(停用詞數(shù)為1 085),詞干詞匯的數(shù)量顯著地下降到詞詞匯數(shù)量的30%以下,如表4所示。
Table 4 Reduction in vocabulary number by stem extraction表4 詞干提取引起的詞匯數(shù)量的減少
在穩(wěn)健的詞素切分和詞干提取之后,用基于Hierarchical Softmax 算法的CBOW模型訓(xùn)練所有語(yǔ)料庫(kù)的詞干向量。在訓(xùn)練時(shí),向量的維度設(shè)置為100,訓(xùn)練窗口設(shè)置為5,學(xué)習(xí)速率設(shè)置為0.025。取得詞干向量之后,用TF-IDF算法分別對(duì)所取得的詞干向量集進(jìn)行加權(quán)。
本文使用準(zhǔn)確率P、召回率R和F1評(píng)分對(duì)本文方法性能進(jìn)行評(píng)價(jià)。其中準(zhǔn)確率P、召回率R和F1評(píng)分計(jì)算公式如下所示:
P=正確提取關(guān)鍵詞個(gè)數(shù)/全部提取關(guān)鍵詞數(shù)
R=正確提取關(guān)鍵詞個(gè)數(shù)/人工標(biāo)注的關(guān)鍵詞個(gè)數(shù)
F1=2×P×R/(P+R)
為了驗(yàn)證本文方法關(guān)鍵詞提取性能,將本文方法與TF、TF-IDF[18]和TextRank[17]等方法進(jìn)行對(duì)比。本實(shí)驗(yàn)中為每篇文本人工標(biāo)注3個(gè)關(guān)鍵詞干,然后用本文提出的方法為測(cè)試集的每篇文本分別選擇訓(xùn)練集中已標(biāo)注關(guān)鍵詞干的詞干向量與測(cè)試集中詞干向量之間余弦距離最大的3個(gè)、4個(gè)和5個(gè)詞干作為方法提取的關(guān)鍵詞,對(duì)比實(shí)驗(yàn)結(jié)果如表5~表7所示。
Table 5 Results comparison of extracting three keywords表5 提取3個(gè)關(guān)鍵詞的結(jié)果比較 %
Table 6 Results comparison of extracting four keywords表6 提取4個(gè)關(guān)鍵詞的結(jié)果比較 %
Table 7 Results comparison of extracting five keywords表7 提取5個(gè)關(guān)鍵詞的結(jié)果比較 %
從表5~表7可以看出,基于本文提出的word2vec_TFIDF融合特征表示的方法的準(zhǔn)確率隨著被提取關(guān)鍵詞數(shù)的增加而逐漸提高,在關(guān)鍵詞數(shù)為5時(shí),召回率和F1值分別達(dá)到44%和42%以上。傳統(tǒng)的TF算法的準(zhǔn)確率隨著關(guān)鍵詞數(shù)的增加而下降;傳統(tǒng)的TF-IDF算法在關(guān)鍵詞數(shù)增加時(shí)準(zhǔn)確率逐步提升,但是提取效果比較一般,準(zhǔn)確率比本文方法低約8%;TextRank方法的準(zhǔn)確率比較穩(wěn)定,但是比本文方法低,并且關(guān)鍵詞數(shù)增加時(shí),本文方法與TextRank方法準(zhǔn)確率之間的差值逐步增加。
本文為了驗(yàn)證詞干單元在粘著性語(yǔ)言關(guān)鍵詞提取任務(wù)中的優(yōu)越性,用本文提出的融合體征表示方法對(duì)原始文本中的詞特征進(jìn)行表示,同時(shí)對(duì)原始文本進(jìn)行詞素切分和詞干提取,然后再用此方法表示文本中的詞干特征,以此分別進(jìn)行基于詞和詞干單元的關(guān)鍵詞提取實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,結(jié)果如表8所示。
Table 8 Comparison of extraction results based on word and stem units表8 基于詞與詞干單元的提取結(jié)果比較 %
從表8可以看出,隨著關(guān)鍵詞數(shù)的增加,基于詞與詞干單元的準(zhǔn)確率,召回率和F1值都開(kāi)始增加,這就證明詞與詞干向量數(shù)增加時(shí),能夠參加距離計(jì)算的矩陣參數(shù)就越多,也就能更準(zhǔn)確地找到相似度更接近的關(guān)鍵詞;在所有的關(guān)鍵詞數(shù)水平上,基于詞干單元的準(zhǔn)確率都比基于詞單元的大。隨著關(guān)鍵詞數(shù)的增加,本文方法基于詞干單元提取關(guān)鍵詞的準(zhǔn)確率與基于詞單元的準(zhǔn)確率的差值開(kāi)始增大,當(dāng)關(guān)鍵詞數(shù)為5時(shí),本文方法基于詞干單元提取關(guān)鍵詞的準(zhǔn)確率和F1值比基于詞單元的準(zhǔn)確率和F1值高出約4%。由此可見(jiàn),對(duì)于維-哈語(yǔ)等粘著性派生語(yǔ)言而言,詞干單元在關(guān)鍵詞提取任務(wù)中比詞等其他詞匯單元有著更優(yōu)異的效果,能夠提高關(guān)鍵詞提取的準(zhǔn)確率。
關(guān)鍵詞提取是從海量數(shù)據(jù)中快速取得用戶(hù)需要信息的重要手段之一。維-哈語(yǔ)是一種形態(tài)豐富的粘著性語(yǔ)言,詞是由多個(gè)后綴所附的詞干構(gòu)成,因此,維-哈語(yǔ)的詞匯量巨大,后綴提供語(yǔ)義和語(yǔ)法功能。因此,詞干提取和形態(tài)分析是關(guān)鍵詞提取的有效途徑。谷歌開(kāi)發(fā)的word2vec詞向量技術(shù)可以將語(yǔ)言單元映射成基于上下文的順序向量空間。本文討論了一種基于詞-詞素平行訓(xùn)練數(shù)據(jù)的穩(wěn)健詞素切分及詞干提取方法,以及一種基于word2vec和TF-IDF融合特征表示的維-哈語(yǔ)文本關(guān)鍵詞提取方法。本文分別用不同的關(guān)鍵詞提取方法和不同的詞匯單元進(jìn)行維-哈語(yǔ)文本關(guān)鍵詞提取實(shí)驗(yàn)。本文提出的基于詞干單元和word2vec_TFIDF融合特征表示方法,相較其他方法,能更有效地提高維-哈語(yǔ)等粘著性語(yǔ)言文本關(guān)鍵詞提取的性能。