国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶短文本無關(guān)語自動識別方法研究?

2019-07-31 09:54劉亮亮張再躍
計算機與數(shù)字工程 2019年7期
關(guān)鍵詞:馬爾科夫二階語料

陳 國 劉亮亮 張再躍

(1.江蘇科技大學計算機科學與工程學院 鎮(zhèn)江 212003)(2.上海對外經(jīng)貿(mào)大學統(tǒng)計與信息學院 上海 201620)

1 引言

在電子形式的文本信息數(shù)量飛速增長的背景下,文本挖掘[1~2]成為信息領(lǐng)域獲取知識的重要手段。目前,文本挖掘的主要方法有關(guān)聯(lián)分析[3]、總結(jié)[4]、分類[5]、聚類[6~7]等,其中較為常用的方法是文本聚類。在文本聚類過程中發(fā)現(xiàn),文本中存有大量無關(guān)信息,這些無關(guān)信息對計算句子的相似程度有很大的影響。因此,就需要對文本中的無關(guān)信息做處理,其中就包含對所謂“無關(guān)語”的識別與清理。從結(jié)果看,通過無關(guān)語的自動獲取處理,可以成功提升文本聚類效果。在無關(guān)語獲取獲取方法一般可采用基于規(guī)則的,或基于統(tǒng)計的,或基于機器學習的等。姜仁會等[8]利用微博評論和轉(zhuǎn)發(fā)進行詞頻統(tǒng)計,通過規(guī)則篩選,實現(xiàn)了面向微博文本的命名實體識別;袁璐等[9]同樣利用統(tǒng)計與規(guī)則相結(jié)合的方法,提出了一種依存分析和隱馬爾科夫相結(jié)合的文本信息抽取算法實現(xiàn)自由文本的信息抽取。R.Speck等[10]通過機器學習中的集成學習來提高命名實體識別工具的性能,利用多種識別方法、驗證方法在多個數(shù)據(jù)集上進行測試,證明了集成學習可以將命名實體識別系統(tǒng)的錯誤率大幅度降低。目前在中文無關(guān)語研究方面,周峰等[11]通過種子無關(guān)語推導出強無關(guān)語,結(jié)合強無關(guān)語和語料特征對種子集的無關(guān)語進行擴充,該方法能有效獲取固定位置內(nèi)的無關(guān)語,但當語句較長時識別率卻不很理想。

隱馬爾科夫模型[12]是可用于標注問題的統(tǒng)計學習模型,屬于生成模型,隱馬爾科夫模型在自然語言處理領(lǐng)域中被廣泛的應用。綜合上述思想方法,本文在用戶短文本預處理過程中采取標注法對短文本無關(guān)語狀態(tài)進行預測,通過加入詞性特征與相對位置特征標注對預測結(jié)果進行優(yōu)化,并將符合一定規(guī)則的狀態(tài)值序列視為無關(guān)語隱狀態(tài)的預測序列值;擴展隱馬爾科夫模型,用最大似然估計法進行模型參數(shù)訓練,結(jié)合訓練的模型,利用改進的維特比算法[13]求最優(yōu)狀態(tài)序列,以達到最終獲取短文本無關(guān)語的目的。

2 基本概念與方法簡介

2.1 無關(guān)語特點

一般而言,短文中的無關(guān)語具有以下幾個方面的特點:

1)主體無關(guān)性。主體無關(guān)性體現(xiàn)在其存在與否不影響句子的語義。

2)領(lǐng)域無關(guān)性。短文本具有一定的領(lǐng)域性,如咨詢文本、網(wǎng)絡評論、即時通信聊天記錄等。無關(guān)語的領(lǐng)域無關(guān)性體現(xiàn)在其在任何領(lǐng)域均為無關(guān)語。

3)位置特殊性。通過對大量的短文本中無關(guān)語進行手工識別,對其在短文本中出現(xiàn)的位置進行記錄,發(fā)現(xiàn)絕大多數(shù)無關(guān)語出現(xiàn)的位置較為特殊,如在短文本的句首或句尾等。

4)詞性特殊性。無關(guān)語的詞性相對較為有限,通常不會包含一些名詞信息,如地名、人名和專業(yè)名詞等。

2.2 隱馬爾科夫模型

隱馬爾科夫模型屬于生成模型,可用于標注問題的統(tǒng)計學習模型,通??梢酝ㄟ^三元符號表示隱馬爾科夫模型λ 為

其中,A 是狀態(tài)轉(zhuǎn)移概率矩陣,B 是觀測概率矩陣,π 是初始概率向量。在無關(guān)語識別過程中,本文中主要利用隱馬模型求解隱狀態(tài)序列的思路進行語料的隱狀態(tài)預測標注,也就是將句子中的每個詞標注為一個隱狀態(tài)預測,符合一定規(guī)則的隱狀態(tài)序列構(gòu)成一個無關(guān)語。句子中的詞,詞性,相對位置均可視為可見狀態(tài),通過狀態(tài)轉(zhuǎn)移概率矩陣A與初始狀態(tài)概率向量π 確定了隱藏的馬爾科夫鏈,生成的即為隱狀態(tài)的狀態(tài)序列。觀測概率矩陣B確定了如何從狀態(tài)生成觀測。

隱馬爾科夫模型具有齊次馬爾科夫性[14],即在當前狀態(tài)進行狀態(tài)轉(zhuǎn)移時只考慮前一個位置的狀態(tài),這樣的假設(shè)條件與自然語言出現(xiàn)的規(guī)律不符。相比較傳統(tǒng)的隱馬爾科夫模型,二階隱馬爾科夫模型[15]具有一定的優(yōu)勢,主要體現(xiàn)在其考慮了更多的歷史狀態(tài),從而提升了預測效果。

2.3 二階隱馬爾科夫模型

隱馬爾科夫模型的變量可分為兩組。第一組為狀態(tài)變量 S={s1,…,st},其中 si?S 表示第i 個位置系統(tǒng)的狀態(tài),也稱為隱變量。第二組為觀測變量O={o1,…,ot},其中oi?O 能表示第i 個位置的觀測值。在隱馬爾科夫模型中,系統(tǒng)通常在多個狀態(tài){q1,…,qN}之間轉(zhuǎn)換。觀測變量oi的取值范圍為V={v1,…,vM},也就是每個隱狀態(tài)對應的觀測值有M 個。

二階隱馬爾科夫模型λ 可以通過五元組表示為λ=(A,A',B,B',π)。其中各參數(shù)如下。

狀態(tài)轉(zhuǎn)移概率矩陣記為 A'=[aij]N×N,A=[aijk]N×N×N,對任意 i,j,k=1,2,…,N ,有

aij表示當前狀態(tài)為qi下一個狀態(tài)為qj的概率。aijk為表示狀態(tài)qi狀態(tài)qj依次出現(xiàn)時下一個狀態(tài)為qk的概率。 count(qi,qj)表示狀態(tài)qi到狀態(tài) qj的轉(zhuǎn)移次數(shù)表示狀態(tài)qi到任意狀態(tài)的轉(zhuǎn)移次數(shù)之和;count(qi,qj,qk)表示狀態(tài)qi、狀 態(tài) qj轉(zhuǎn) 移 到狀 態(tài) qk的總 次 數(shù);表示狀態(tài)qi、狀態(tài)qj轉(zhuǎn)移到任意狀態(tài)的總次數(shù)。

觀測概率矩陣記為 B'=[bil]N×M,B=[bijl]N×N×M,對任意的i,j=1,2,…,N ,l=1,2,…,M ,有

bil表示狀態(tài)為qi的條件下,觀測值為vl的概率,bijl表示狀態(tài)依次為qi、qj的前提下,狀態(tài)qj對應的觀測值為vl的概率。count(vl,qi)表示狀態(tài)為qi的前提下觀測值為vl的次數(shù);表示狀態(tài)為qi的前提下觀測值任意的總數(shù);count(vl,qi,qj)表示狀態(tài)qi、狀態(tài)qj出現(xiàn)的前提下觀測值為vl的總次數(shù);表示狀態(tài)qi、狀態(tài)qj和出現(xiàn)的前提下觀測值任意的總次數(shù)。

初始狀態(tài)概率向量通常記為π=(π1,π1,…,πN),對任意的i=1,2,…,N ,有

πi表示模型的初始狀態(tài)為 qi的概率。count(qi)表示狀態(tài)qi的作為初始狀態(tài)的總次數(shù);表示任意狀態(tài)作為開始狀態(tài)的次數(shù)和。

3 多特征預處理無關(guān)語自動識別方法

本文用戶短文本無關(guān)語獲取方法采取四個基本步驟:首先對實驗語料進行分詞;其次,進行詞性與相對位置標注;第三,進行隱狀態(tài)標注;第四,用擴展二階隱馬爾科夫模型來建立訓練模型,通過最大似然估計法進行模型參數(shù)訓練,確定模型參數(shù);第五,結(jié)合訓練的模型,利用改進維特比算法求最優(yōu)狀態(tài)序列;最后輸出標記好的無關(guān)語。

3.1 語料預處理

語料預處理的過程包括語料分詞、隱狀態(tài)標注和相對位置標注。首先從文本中手工篩選出一批用戶咨詢短文本,利用ICTCLAS對其進行分詞并進行詞性標注,手工對分詞后的語料中的每個詞語進行BMEOS標注[16]。其中:

B表示該詞位于一條無關(guān)語的起始位置;

M表示該詞位于一條無關(guān)語的中間位置;

E表示該詞位于一條無關(guān)語的結(jié)束位置;

O 表示該詞位于一條無關(guān)語外部,不屬于無關(guān)語成分;

S表示該詞為一條無關(guān)語。

然后對標注后的語料進行相對位置標注,此處的相對位置表示的是一條咨詢短文本中的一個詞相對于這一條短文本的相對位置。取短文本句子的平均長度L 作為相對位置的最大取值,對于一個長度l 的句子中的第i 個詞wi,i 的取值范圍為[1,l]。其相對位置ri的計算方法為

通過式(7)可以對一個句子中所有的詞進行相對位置標注,至此文本預處理階段結(jié)束。

3.2 擴展二階隱馬爾科夫模型參數(shù)訓練

通過式(2)和(3)可以計算確定矩陣 A 和 A',通過式(4)和(5)可計算確定矩陣 B 和 B',通過式(5)計算確定π。由此可以確定二階隱馬爾科夫模型 λ=(A,A',B,B',π)中的各個參數(shù)。為了獲取的結(jié)果更好,在此加入詞性的觀測概率矩陣C=[cijl]N×N×M和 C'=[cil]N×M以及相對位置的觀測概率矩陣 D=[dijl]N×N×M和 D'=[dil]N×M,分別記錄在某一狀態(tài)下觀測到某個詞性的概率以及在某一狀態(tài)下觀測到某一相對位置的概率。其中詞性觀測概率矩陣C 和C'中各元素計算公式為

相對位置觀測概率矩陣D 和D'中各元素計算公式為

對所有矩陣歸一化,最終求出擴展的二階隱馬模型 λ=(A,A',B,B',C,C',D,D',π)。

3.3 基于融合多特征的維特比算法的標記預測

輸入:λ=(A,A',B,B',C,C',D,D',π)和觀測詞序列O=o1,o2,…,oT、對應的詞性序列 O'=,…,、對應的位置序列O''=,…,。輸出:最優(yōu)路徑S*=,,…,

1) 初 始 化 :δ2(i,j)= πi?[bi1?ci1?di1]?aij?[bij2?cij2?dij2],ψ2(i,j)=0 。 1 ≤ i,j ≤ N

4)狀態(tài)回退序列:對于t=T-1,T-2,…,2

4 實驗結(jié)果和分析

4.1 實驗語料與實驗參數(shù)

在先前的相關(guān)工作中積累了大量的用戶咨詢短文本,將這些用戶咨詢文本作為實驗語料。首先從語料中隨機提取6000 行不重復的咨詢語料進行手工標注,并從這手工標注的6000 行咨詢中隨機抽取4000 行做模型訓練,剩余2000 條作為測試集。以此方法執(zhí)行五次,取五次實驗結(jié)果的均值為本次實驗的衡量標準。實驗采用精確度(precision)、召回率(recall)和F1 度量值來評價當前模型的計算效果。

4.2 實驗結(jié)果對比分析

實驗分兩組進行:第一組只考慮詞語單一特征的情況下,分別采用一階和二階隱馬爾科夫模型獲取無關(guān)語效果對比分析;第二組實驗則是在第一組實驗基礎(chǔ)上,綜合考慮詞語多種特征,包括詞性特征以及相對位置特征等,采用擴展隱馬爾科夫模型進行的無關(guān)語獲取實驗,并與文獻[11]的方法進行了對比分析。結(jié)果如下。

1)通常一階二階隱馬爾科夫模型結(jié)果對比分析。

表1 通常一階二階隱馬爾科夫結(jié)果對比

從中可以看出,在僅考慮詞語本身時,一階隱馬爾科夫模型的實驗結(jié)果并不理想,而采取二階隱馬爾科夫模型則得到了相對一階而言較好的結(jié)果,這是因為二階隱馬爾科夫考慮到了更多的情況,因此獲得了更好的實驗結(jié)果。

2)采取擴展一階二階隱馬爾科夫模型結(jié)果對比分析。

在考慮詞語詞性特征以及相對位置特征的情況下,對比一階隱馬爾科夫模型、擴展二階隱馬爾科夫模型和文獻11 的方法的結(jié)果進行對比。結(jié)果如表2所示。

表2 擴展一階二階隱馬爾科夫結(jié)果對比

從實驗結(jié)果可看出,在加入了詞性、位置特征后無關(guān)語的獲取結(jié)果有了明顯的提高。對比文獻[11]的方法獲取到的結(jié)果,本文的方法有更好的精度和召回率。這是因為參考文獻[11]的方法僅考慮了在特定位置出現(xiàn)的無關(guān)語,而在此識別過程中,特定位置的選取較為重要,在一些文本長度稍長時就會出現(xiàn)識別不完整的情況,而本文的方法將位置作為其中的一個考量因素同時還考慮了其他因素,因此取得了更好的結(jié)果。

5 結(jié)語

本文討論了用戶短文本無關(guān)語自動識別的問題。通過對無關(guān)語特性的分析,采用二階隱馬爾科夫模型建模。在標注過程中融合了無關(guān)語的詞性特征和位置特征,使用改進的維特比算法進行標注工作。為了進行驗證,本文通過真實的咨詢語料進行實驗,實驗結(jié)果證明本方法是能有效識別出短文本中存在的無關(guān)語。在對實驗結(jié)果的分析中發(fā)現(xiàn)雖然本文的方法提升了獲取無關(guān)語的精度,但是本方法尚存在的一些問題,如對于分詞結(jié)果、錯別字較為敏感,在處理長度較長的文本時表現(xiàn)不佳等。針對分詞結(jié)果敏感、錯字敏感等問題,在自然語言處理領(lǐng)域可采用非詞錯誤校正、分詞時導入手工整理的詞典等方法實現(xiàn)優(yōu)化,相關(guān)問題在后續(xù)的無關(guān)語識別工作中需要進行改進。

猜你喜歡
馬爾科夫二階語料
基于三維馬爾科夫模型的5G物聯(lián)網(wǎng)數(shù)據(jù)傳輸協(xié)議研究
馬爾科夫鏈驅(qū)動的帶停時的超前倒向隨機微分方程的適應解
二階整線性遞歸數(shù)列的性質(zhì)及應用
基于疊加馬爾科夫鏈的邊坡位移預測研究
面向低資源神經(jīng)機器翻譯的回譯方法
可比語料庫構(gòu)建與可比度計算研究綜述
馬爾科夫鏈在企業(yè)沙盤模擬教學質(zhì)量評價中的應用
馬爾科夫鏈在企業(yè)沙盤模擬教學質(zhì)量評價中的應用
二階矩陣、二階行列式和向量的關(guān)系分析
二次函數(shù)圖像與二階等差數(shù)列