国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種結(jié)合Bigram語義擴(kuò)充的事件摘要方法

2019-07-09 11:43吳佳偉
關(guān)鍵詞:詞庫詞頻短文

吳佳偉,曹 斌,范 菁,黃 驊

1(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310023) 2(中國電信股份有限公司浙江分公司,杭州 310014)

1 引 言

近年來,以UGC(User Generated Content)為代表的短文本在各類社交媒體中成井噴式增長,同時,這一類短文本還出現(xiàn)在一些企業(yè)的客服系統(tǒng)中,這些客服系統(tǒng)與專業(yè)領(lǐng)域緊密結(jié)合,分析這些短文本,從中檢測出一些用戶投訴的熱點(diǎn)事件,可以幫助企業(yè)有效改進(jìn)他們的服務(wù).而對熱點(diǎn)事件進(jìn)行事件摘要可以進(jìn)一步幫助企業(yè)理解事件的主要內(nèi)容,以便企業(yè)可以及時針對用戶投訴的熱點(diǎn)事件做出及時決策與相應(yīng)的調(diào)整.在本文中,我們主要集中于從描述同一事件的短文本集合中提取一組關(guān)鍵詞并擴(kuò)展,從而達(dá)到提取出的事件摘要可讀性強(qiáng),能夠幫助人理解的目的.在這里,我們假定描述同一事件的短文本集合已經(jīng)事先知道,而在實(shí)際中,這一集合可以通過無監(jiān)督的聚類方法或有監(jiān)督的分類方法獲得,這取決于實(shí)際的應(yīng)用場景.

然而,傳統(tǒng)的文本摘要方法并不能直接使用在我們的問題中.因?yàn)閭鹘y(tǒng)的方法一般應(yīng)用于長文檔,且大多數(shù)方法是基于句子做的[1,2],這種方法對文章中每個句子計(jì)算一個得分,最后選擇得分較高的句子作為文本摘要反饋給用戶.雖然這種方法提取出來的句子可讀性較強(qiáng),但是往往一個句子中不會包含許多的關(guān)鍵詞,不能很好的概括整個事件;其次,一些基于關(guān)鍵詞提取的事件摘要算法[3,4]雖然可以從事件短文本集合中提取出較多的關(guān)鍵詞,但是這些關(guān)鍵詞之間由于不存在詞序,且關(guān)鍵詞之間相對獨(dú)立,因此借由這種方法提取的事件摘要的可讀性并不是很好.

綜上考慮,在本文中,我們提出了一種基于Bigram關(guān)鍵詞語義擴(kuò)充的文本摘要方法.我們的方法首先通過一種基于Single-Pass的IDF計(jì)算方法在短文本集合中提取關(guān)鍵詞詞組,然后根據(jù)事件短文本集合中每個關(guān)鍵詞詞對出現(xiàn)的頻率對提取出來的關(guān)鍵詞詞組進(jìn)行了排序,最后我們引入了Bigram語言模型對得到的關(guān)鍵詞詞組進(jìn)行了語義擴(kuò)充.實(shí)驗(yàn)證明,相較于一些現(xiàn)有方法,我們的方法在中文數(shù)據(jù)集的表現(xiàn)上具有較高的召回率與較好的用戶可讀性.

2 預(yù)備知識

為了能夠幫助讀者更容易理解我們的方法,在本章中,我們介紹了一些預(yù)備知識,具體分為如下幾點(diǎn).

2.1 TF-IDF

當(dāng)我們需要抽取一篇文檔或者多篇文檔的關(guān)鍵詞時,一個直觀的想法就是直接統(tǒng)計(jì)所有詞在文檔中出現(xiàn)的次數(shù),即詞頻.但是在實(shí)際操作中,通過上述方法得到的關(guān)鍵詞往往都是一些類似“的”、“我”這樣的噪聲詞.這些噪聲詞雖然具有很高的詞頻,但是它們并不能成為一篇或者多篇文檔的關(guān)鍵詞.因此,TF-IDF[5](Term Frequency-Inverse Document Frequency)的思想就應(yīng)運(yùn)而生了.

TF-IDF是一種用于衡量一個關(guān)鍵詞在一篇或多篇文檔中的重要性程度的一種指標(biāo).這種方法在現(xiàn)今的數(shù)據(jù)挖掘、文本處理、自然語言處理等領(lǐng)域都得到了較為廣泛的應(yīng)用.TF-IDF算法的主要思想是:如果一個詞或者短語在一篇文章或者一個句子中出現(xiàn)的次數(shù)很高,但是這個詞在其他文章或者句子中出現(xiàn)的次數(shù)很少,那么就認(rèn)為這個詞對于這篇文章或者這個句子來說就是一個關(guān)鍵詞.TF-IDF實(shí)際上就是 TF*IDF,其中TF(Term Frequency),表示一個詞在文檔中出現(xiàn)的總次數(shù),一般來說,因?yàn)椴煌奈臋n包含的詞個數(shù)也不同,為了避免不同文檔的長度對這個指標(biāo)的影響,因此在最終計(jì)算中,會對這個指標(biāo)進(jìn)行歸一化處理;IDF(Inverse Document Frequency),其主要作用是降低類似于“我”、“的”這種噪聲詞的權(quán)重,提高關(guān)鍵詞的權(quán)重,從而達(dá)到突出關(guān)鍵詞重要性的作用.IDF的計(jì)算公式如公式(1)所示:

(1)

其中,Textnumber代表語料庫中文檔的總條數(shù),wtextTF代表包含詞w的文本數(shù).分母之所以要加1,是為了要避免分母為0的情況.TF-IDF值就是在此基礎(chǔ)上將每個詞的IDF值與其詞頻相乘得到的結(jié)果.

2.2 N-Gram語言模型

統(tǒng)計(jì)語言模型[6](Statistical Language Model)它是今天所有自然語言處理的基礎(chǔ),并且廣泛應(yīng)用于機(jī)器翻譯、語音識別、拼寫糾錯等方面.換句話說,統(tǒng)計(jì)語言模型中包含了訓(xùn)練語料庫中所有文本單元可能的排列組合情況對應(yīng)的出現(xiàn)概率.一個句子的出現(xiàn)概率就是通過幾個條件概率相乘得到的.而如何去計(jì)算這些條件概率,就是統(tǒng)計(jì)語言模型所做的工作.舉個例子,假設(shè)句子S是由詞序列w1,w2,w3…wn組成:

S=w1w2w3…wn

則根據(jù)條件概率公式,S出現(xiàn)的概率可以表示為:

(2)

其中,p(wk|w1w2…wk-1)表示第1個詞到第k-1個詞出現(xiàn)的前提下,第k個詞出現(xiàn)的概率.

但是,在實(shí)際應(yīng)用中,當(dāng)k越變越大時,統(tǒng)計(jì)w1w2…wk-1出現(xiàn)的條件下wk出現(xiàn)的概率往往不太符合實(shí)際情況.因此,N-Gram模型被提出.

N-Gram模型[7]也被稱為n-1階馬爾科夫模型,它是統(tǒng)計(jì)語言模型的一種簡化方式,它建立在如下的假設(shè)上:第n個詞的出現(xiàn)概率僅僅與其前面的n-1個詞相關(guān).

因此,根據(jù)N-Gram的假設(shè),則公式(1)可以表示成:

(3)

特別地,當(dāng)N = 2時,即每個詞僅與其前一個詞有關(guān),則更改公式(3)成:

p(S)=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1)

(4)

根據(jù)條件概率的定義,為了計(jì)算p(wn|wn-1),模型需要從大量的訓(xùn)練語料庫中統(tǒng)計(jì)wn-1,wn這一詞對前后相鄰出現(xiàn)的次數(shù)以及wn-1這個詞在同一語料庫中單獨(dú)出現(xiàn)的次數(shù).即有:

(5)

其中,f(wn-1,wn)代表詞對wn-1,wn在語料庫中前后相鄰出現(xiàn)的次數(shù),f(wn-1)代表詞wn-1在同一語料庫中出現(xiàn)的次數(shù).

另外,對于N-Gram模型,N可以取任意數(shù)字.特別地,當(dāng)N分別取1、2、3時,得到的N-Gram模型分別稱為Unigram、Bigram和Trigram.當(dāng)然,N越大,可以刻畫語言結(jié)構(gòu)越準(zhǔn)確,但是越大的N取值會造成更大的計(jì)算量與更稀疏的模型等問題,這將對算法的存儲效率帶來巨大的挑戰(zhàn)[8].在實(shí)際應(yīng)用中,一般取N=2或者N=3就可以達(dá)到較好的實(shí)際使用效果,且訓(xùn)練Bigram或者Trigram模型不需要消耗大量的時間.在本文的算法中,N取2,即,本文使用Bigram模型對關(guān)鍵詞進(jìn)行語義擴(kuò)充.

3 相關(guān)工作

面向事件的自動摘要是指從短文本集合中抽取事件相關(guān)的信息并進(jìn)行有效地組織[9].通過事件摘要,人們可以及時了解事件的大致信息.在本文中,每個事件由一定數(shù)量的短文本組成,因此對事件進(jìn)行摘要的任務(wù)就轉(zhuǎn)換成為對文本進(jìn)行自動摘要的任務(wù).

現(xiàn)有的自動文本摘要大致可以分為兩類:抽取式(extractive)和生成式(abstractive).抽取式方法抽取原文本中的部分信息,但并不對其進(jìn)行修改.生成式方法則需要系統(tǒng)去理解文章的內(nèi)容,應(yīng)用一系列自然語言處理的方法,生成與原文語義相近的摘要.顯然,我們的方法屬于前者,因此接下來我們將在本章簡單介紹在自動文本摘要領(lǐng)域的相關(guān)工作.

做自動文本摘要的最簡單易懂方法是基于統(tǒng)計(jì)的方法.除了基于詞頻的方法[10]與基于TF-IDF的方法[11]以外,基于詞匯鏈(lexical chains)的自動摘要方法[12,13]也是一種比較簡單可行的方法,該方法不再以單個詞作為分析單元,而是利用WordNet、維基百科等對詞匯的語義進(jìn)行分析,把原文中與某個主題相關(guān)的詞集合起來,構(gòu)成詞匯鏈.這一類方法雖然簡單易用,但是提取出來的文本摘要的可讀性并不是很好,通常僅憑少數(shù)且無序的關(guān)鍵詞,人們往往不能很好的了解所發(fā)生的事件的真實(shí)情況.

還有一種比較常見的方法是基于圖排序的自動摘要方法.Ricard等人[14]指出,在基于圖排序的自動摘要方法中,構(gòu)成結(jié)點(diǎn)的往往是詞、句子等文本單元,結(jié)點(diǎn)之間以句子相似性、詞共現(xiàn)關(guān)系、語義相似性、句法關(guān)系等相連接以構(gòu)成文本關(guān)系圖,接下來再應(yīng)用圖排序算法來計(jì)算每個節(jié)點(diǎn)的重要性得分,最后再在此基礎(chǔ)上生成文本摘要.TextRank[15]和LexRank[16]是這類方法的代表方法.在上述兩種方法中,他們把每個句子作為圖的頂點(diǎn),句子之間的相似度作為邊的權(quán)值.耿煥同等人[17]則是利用句子之間共有的一些詞,提出了一種基于詞共現(xiàn)圖的文檔自動摘要算法這類方法.但是在計(jì)算的時候需要得知全部的文本單元與每個文本單元之間的關(guān)系,這對算法的空間復(fù)雜性提出了較大的挑戰(zhàn).同時,上述方法并沒有考慮關(guān)鍵詞之間的順序?qū)ξ谋菊勺x性的影響.

還有一種方法是基于主題模型的方法來進(jìn)行自動摘要.這一類方法首先需要確定文檔中有幾個主題,然后選擇對主題描述較好的詞匯,之后按照一些語法規(guī)則組成句子、段落、篇章等[18].Hofmann[19]提出的PLSA模型認(rèn)為:一篇文檔可以由多個主題混合而成,而每個主題都是由一些詞的概率分布組成.而LDA[20]在PLSA的基礎(chǔ)上加入了Dirichlet先驗(yàn)分布,是PLSA的突破性的延伸.但是,直接使用傳統(tǒng)的LDA或PLSA可能不能很好地用于短文本的主題建模.當(dāng)然,之后也有許多學(xué)者在LDA主題模型上進(jìn)行改進(jìn),例如Labeled-LDA[21],Twitter-LDA[22],MB-LDA[23]等.這些模型均是在社交媒體的大背景下被提出,應(yīng)用于事件摘要,但是采用這類方法提取出的事件摘要不具備很好的可讀性,在實(shí)際操作中往往效果不會很好.

4 基于Bigram關(guān)鍵詞擴(kuò)展的事件摘要技術(shù)

在本章中,我們將主要介紹我們的事件摘要方法.其主要流程如圖1所示.可以看到,短文本流數(shù)據(jù)在經(jīng)過數(shù)據(jù)預(yù)處理與事件檢測步驟后,每個事件由一定數(shù)量的短文本組成.其次,為了生成可讀性較強(qiáng)的事件摘要,每個事件需要經(jīng)過如下兩個組件:關(guān)鍵詞提取與Bigram語義擴(kuò)展.關(guān)鍵詞提取組件通過計(jì)算每個事件中每個詞的IDF值來從每個事件中提取出關(guān)鍵詞;然而,僅僅只用幾個關(guān)鍵詞來做事件摘要是不夠的,因?yàn)橹煌ㄟ^少數(shù)且無序的關(guān)鍵詞,人們往往無法明白事件的真正內(nèi)容.因此通過Bigram語義擴(kuò)充組件,我們將上述提取出的關(guān)鍵詞進(jìn)行排序和語義擴(kuò)充,使每個事件摘要的可讀性更強(qiáng),包含的語義信息更多.接下來我們將詳細(xì)介紹我們算法的每個組件.

圖1 事件摘要方法整體架構(gòu)圖Fig.1 Framework of event summarization algorithm

4.1 關(guān)鍵詞提取組件

度量一個詞對一個事件是否重要的一個簡單方法是看這個詞在這個事件對應(yīng)的文本集合中的詞頻高低.從理論上來說,這是一種很直觀的方法,如果在事件檢測中檢測到的事件大多描述同一件事,那么事件核心詞的出現(xiàn)頻率應(yīng)該很高.然而在實(shí)際操作中,這種方法并不適用于短文本的關(guān)鍵詞提取.在短文本集合構(gòu)成的事件中,由于短文本本身短且噪聲多的特點(diǎn),許多事件的文本經(jīng)詞頻統(tǒng)計(jì)后排在前幾位的往往是一些噪聲詞而非事件的核心關(guān)鍵詞.因此,在本組件中,我們使用IDF來對每個事件進(jìn)行關(guān)鍵詞的抽取.

傳統(tǒng)的IDF計(jì)算方法是針對每個詞來說的,即針對每一個詞w,統(tǒng)計(jì)這個詞在當(dāng)前文本集合中出現(xiàn)的文本條數(shù)Textw.可以注意到的是,Textw并不一定和w的詞頻是完全相等的,因?yàn)槲覀儾慌懦粭l文本內(nèi)可能出現(xiàn)多次詞w的情況.這種方法雖然在計(jì)算上比較直觀,但是在集合中文本數(shù)量較大的情況下,這種方法是極其耗時的.因此在本文中,我們提出了一種基于Single-Pass的IDF計(jì)算算法.其偽代碼如算法1所示.

該算法的主要步驟介紹如下:

1)按順序遍歷輸入的文本分詞列表Lists,針對每條文本分詞s,對其進(jìn)行詞去重.(line 2-3)例如現(xiàn)有一條文本分詞s為:w1,w2,w1,w3,則去完重復(fù)的詞后s為:w1,w2,w3.這么做的原因是,根據(jù)公式(1)中IDF值的計(jì)算方法,為了計(jì)算一個詞的IDF值,我們需要計(jì)算在當(dāng)前語料庫中包含該詞的文檔數(shù).因此在去完重復(fù)的詞后,再對剩下的詞進(jìn)行詞頻統(tǒng)計(jì),得到的結(jié)果即為語料庫中包含各個詞的文檔數(shù).

2)完成單條文本去重后,統(tǒng)計(jì)剩下的文本分詞結(jié)果中每個詞的詞頻.(line 4)

3)接下去針對每個詞,我們得到包含該詞的文本條數(shù)以及當(dāng)前語料庫中總文本條數(shù),再應(yīng)用公式(1)計(jì)算每個詞的IDF值后存入Mapidf.(line 6-10)

4)當(dāng)所有詞的IDF值都計(jì)算完畢后,返回Mapidf.(line 11)

最后,關(guān)鍵詞提取組件將從上述列表中提取IDF值最高的top-K個詞作為事件關(guān)鍵詞.

算法1.基于Single-Pass的IDF計(jì)算算法

輸入:一個事件對應(yīng)的文本分詞列表Lists

輸出:該事件中對應(yīng)的每個詞的IDF值列表Mapidf

1. 初始化Map:MapTextTF用于存放詞w在當(dāng)前文本集合中出現(xiàn)的文本條數(shù)Textw.

2. FOR EACHs∈ListsDO

3. s = Distinct(s);

4. 統(tǒng)計(jì)s中每個詞的出現(xiàn)次數(shù)存入MapTextTF

5. END FOR

6. FOR EACHw∈MapTextTFDO

7.wTextTF=MapTextTF.get(w);

8.wIDF=Cal_idf(wTextTF,Lists.size());

9. Mapidf.put(w,wIDF);

10. END FOR

11. RETURN Mapidf

4.2 基于Bigram的關(guān)鍵詞擴(kuò)展組件

在關(guān)鍵詞提取組件獲得一個事件的關(guān)鍵詞后,為了讓提取出的關(guān)鍵詞具備更強(qiáng)的可讀性,在本小節(jié)中,我們提出了一種基于Bigram的關(guān)鍵詞擴(kuò)展方法.算法流程圖如圖2所示.

從流程圖中我們可以得知,本組件的輸入是需要進(jìn)行事件摘要的文本集合、關(guān)鍵詞提取組件提取的關(guān)鍵詞詞組和事件特征詞列表.

首先,組件需要加載Bigram模型.這個模型是事先通過大量語料進(jìn)行訓(xùn)練的,根據(jù)Bigram的定義,這個模型中存儲的是在大量語料庫中每個詞與其他詞前后相鄰出現(xiàn)的次數(shù)以及每個詞單獨(dú)出現(xiàn)的次數(shù)的統(tǒng)計(jì)值.之所以采用這種方式進(jìn)行存儲,目的是當(dāng)新的語料到來時,我們可以方便的進(jìn)行增量訓(xùn)練.若模型文件中存儲的是每個詞對出現(xiàn)的概率,當(dāng)新的語料到來時,這種方法必須將新語料和舊語料進(jìn)行合并再次進(jìn)行模型訓(xùn)練,這是相當(dāng)費(fèi)時的.因此我們采用了直接存儲詞頻的方式.當(dāng)新的語料到來時,我們只需要將新語料中每個詞對和詞出現(xiàn)的頻率統(tǒng)計(jì)出來累加到模型中,這樣既減小了訓(xùn)練時間,又實(shí)現(xiàn)了模型的增量訓(xùn)練.

圖2 基于Bigram的關(guān)鍵詞擴(kuò)展組件流程圖Fig.2 Flow chart of Bigram-based keyword expansion component

其次,組件會在事件特征詞列表中選擇排名前k%的詞.由于事件特征詞列表是根據(jù)每個詞的TF-IDF值進(jìn)行排序的,因此排名越是靠后的詞對事件的貢獻(xiàn)程度越不突出.為了避免這些詞對算法的干擾,我們在這里僅選擇事件特征詞列表中選擇排名前k%的詞,其中,k為一個可調(diào)整的參數(shù).

由于關(guān)鍵詞之間不同的順序會造成完全不同的含義,例如“計(jì)算機(jī) 學(xué)會”和“學(xué)會 計(jì)算機(jī)”.這兩種情況所表達(dá)的意思完全不同.前者可能表示的是一個組織,而后者則是表示某人學(xué)會使用計(jì)算機(jī)的某種程序.因此,為了還原關(guān)鍵詞之間本來的順序,消除歧義,我們需要對輸入的關(guān)鍵詞詞組進(jìn)行排序.首先,為了確定兩個關(guān)鍵詞w1,w2之間的前后關(guān)系,我們引入了事件原文本作為排序依據(jù),分別在事件原文本中統(tǒng)計(jì)詞對和詞對出現(xiàn)的次數(shù),最后采用詞對頻率較大的來確定兩個關(guān)鍵詞之間的順序.需要補(bǔ)充的是,若兩個詞對出現(xiàn)的頻次相同,則說明w1,w2不管哪個關(guān)鍵詞先出現(xiàn)都不影響他們所要表達(dá)的語義,所以我們就維持輸入順序不變.其次,為了加快我們的算法效率,我們采用了快速排序[24]的思想,例如現(xiàn)有3個關(guān)鍵詞w1,w2,w3需要進(jìn)行關(guān)鍵詞排序,算法首先隨機(jī)選擇其中某個關(guān)鍵詞(假定為w2)作為基準(zhǔn)點(diǎn),隨后,采用上述判斷兩個關(guān)鍵詞先后順序的方法,將所有排在w2前面的關(guān)鍵詞放在w2的左邊,排在w2后面的關(guān)鍵詞放在w2的右邊,至此,算法完成一次快速排序.最后,利用快速排序本身分治的特點(diǎn),算法持續(xù)迭代,直到完成排序.

當(dāng)所有的關(guān)鍵詞詞組依據(jù)事件文本排好序后,下一步就是對每個關(guān)鍵詞進(jìn)行Bigram語義擴(kuò)展.針對每一個關(guān)鍵詞,本文需要將其進(jìn)行前后擴(kuò)充,直到擴(kuò)充后的詞個數(shù)為m.在本文中,m取3,即把一個關(guān)鍵詞擴(kuò)充為3個詞的組合.根據(jù)Bigram的定義,我們需要將關(guān)鍵詞與特征詞集合中的每個詞組合計(jì)算概率,最后選擇出現(xiàn)概率最高的詞作為該關(guān)鍵詞的擴(kuò)展詞.可以注意到的是,在這一過程中我們設(shè)定了一個概率閾值τ,當(dāng)最后選擇的出現(xiàn)概率最高的詞的概率都不大于該閾值時,我們就放棄該詞的擴(kuò)展.

最后,當(dāng)我們把所有詞進(jìn)行擴(kuò)展后,假設(shè)關(guān)鍵詞w1,w2,w3已經(jīng)被擴(kuò)展為waw1wb,wbw2wC,w3,可以觀察到,w1,w2擴(kuò)展后的詞對間wb是相同的.根據(jù)Bigram的定義,若將wb繼續(xù)向后擴(kuò)展,得到的詞一定是w2.因此,我們在最后一步中將兩個擴(kuò)展后的詞合并,即當(dāng)?shù)谝粋€詞向后擴(kuò)充的詞與第二個詞向前擴(kuò)充的詞相同時,通過刪除重復(fù)的詞將這兩個擴(kuò)展結(jié)果合并,因此就能得到最后結(jié)果waw1wbw2wC,w3.

5 實(shí) 驗(yàn)

5.1 數(shù)據(jù)集與數(shù)據(jù)標(biāo)注

本文實(shí)驗(yàn)中采用的數(shù)據(jù)集是來自某電信公司業(yè)務(wù)部門提供的 2017 年 11月的投訴工單,一共包含2256條文本數(shù)據(jù),其中囊括了該電信公司真實(shí)發(fā)生的24個事件,而且投訴工單的平均文本長度大約在140個字符左右.

在數(shù)據(jù)標(biāo)注方面,我們請?jiān)撾娦殴镜臉I(yè)務(wù)人員逐一看過每個事件的文本后,再根據(jù)他們平日的業(yè)務(wù)經(jīng)驗(yàn)對每個事件進(jìn)行歸類、標(biāo)注.

對于Bigram模型的訓(xùn)練,本文同樣采用了該電信公司業(yè)務(wù)部門提供的投訴工單,共300000條文本記錄.另外,電信公司的業(yè)務(wù)人員還提供了一個適用于電信領(lǐng)域的專業(yè)名詞詞庫,通過該詞庫我們可以降低在關(guān)鍵詞提取的過程中噪聲的影響.

當(dāng)然,在數(shù)據(jù)集選擇上,本文亦可采用英文數(shù)據(jù)集,在使用時僅需提供相應(yīng)語料即可.

5.2 評估方法

針對本文提出的算法得到的摘要結(jié)果,我們采用了幾個廣泛使用的評價指標(biāo)來評估我們的算法的有效性.例如準(zhǔn)確率、召回率、F值等.準(zhǔn)確率和召回率是信息檢索領(lǐng)域中兩個較為重要的指標(biāo),準(zhǔn)確率反映算法對不同主題的區(qū)分能力,準(zhǔn)確率越高,每個類中的內(nèi)容就越集中;召回率主要用來衡量算法結(jié)果與人工標(biāo)注的吻合程度,召回率越高,則算法結(jié)果越符合實(shí)際情況;F值是綜合準(zhǔn)確率和召回率的評價指標(biāo),其值介于 0 到 1 之間,反映了算法的綜合性能.本文采用的準(zhǔn)確率與召回率的公式如下:

5.3 IDF與專有名詞詞庫的有效性

在本節(jié)中,我們將通過實(shí)驗(yàn)證明IDF與專有名詞詞庫在短文本關(guān)鍵詞選擇中的有效性.由于在短文本數(shù)據(jù)集中,TF-IDF是公認(rèn)的效果較好的方法,因此在本節(jié)中,我們選擇TF-IDF作為我們的對比方法.相關(guān)實(shí)驗(yàn)結(jié)果如表1所示.

表1 采用TF-IDF、IDF與專有名詞詞庫進(jìn)行關(guān)鍵詞提取的效果對比
Table 1 Comparisons of keyword extraction results using TF-IDF 、IDF and jargon dictionary

方法召回率(%)準(zhǔn)確率(%)F值(%)TF-IDF43.402834.166737.6172IDF52.847241.666745.9043TF-IDF+專有名詞詞庫68.263953.333358.7762IDF+專有名詞詞庫83.055664.166771.1373

從表1中我們可以看出,使用TF-IDF值做關(guān)鍵詞提取與僅使用IDF值做關(guān)鍵詞提取的結(jié)果大不相同.僅使用IDF做關(guān)鍵詞提取的結(jié)果在召回率、準(zhǔn)確率與F值上均高于使用TF-IDF值做關(guān)鍵詞提取的結(jié)果.而且,通過在分詞過程中加入專有名詞詞庫過濾后再采用兩種特征值進(jìn)行關(guān)鍵詞提取,其結(jié)果也是明顯高于不使用專業(yè)名詞詞庫進(jìn)行關(guān)鍵詞提取的結(jié)果.這是因?yàn)橥ㄟ^專業(yè)名詞詞庫對分詞結(jié)果進(jìn)行過濾,可以減少噪音的影響,從而提升了效果.

5.4 算法參數(shù)選擇

在上一小節(jié)中,我們可以得出,在進(jìn)行關(guān)鍵詞提取中使用IDF值作為特征值以及使用專業(yè)名詞詞庫對實(shí)驗(yàn)結(jié)果的有效性.在本節(jié)中,我們將具體討論在算法中的兩個參數(shù)“k”(選擇前k%的關(guān)鍵詞進(jìn)行語義擴(kuò)展)與“τ”(低于該閾值將不再擴(kuò)展)對我們算法準(zhǔn)確率、召回率以及F值的影響.實(shí)驗(yàn)結(jié)果如圖3所示.

圖3 不同的k值與τ值對算法召回率、準(zhǔn)確率與F值的影響Fig.3 Influence of different k values and τ values on algorithm recall,precision and F value

其中,橫坐標(biāo)表示不同的τ值,不同的折線代表不同的k值,縱坐標(biāo)表示在不同的τ值和k值影響下的算法召回率、準(zhǔn)確率和F值的結(jié)果.從圖中可以看出,當(dāng)k值與τ值在不斷變化的時候,算法的召回率在下降,而準(zhǔn)確率和F值在提升,最后趨于平穩(wěn).這是因?yàn)楫?dāng)τ值不斷變大時,Bigram不再在當(dāng)前關(guān)鍵詞的基礎(chǔ)上再加以擴(kuò)展,因此結(jié)果也就接近于僅使用IDF與專業(yè)名詞詞庫提取出的關(guān)鍵詞摘要的結(jié)果.此外,k值則影響著算法選擇多少候選詞匯對關(guān)鍵詞進(jìn)行擴(kuò)展,當(dāng)k值過大時,候選詞匯過多,帶來的噪聲也會較大,但會提升摘要的可讀性(準(zhǔn)確率),反之亦然.

5.5 方法對比與實(shí)驗(yàn)分析

為了展示本文方法的有效性,我們將本文的方法與如下的一些現(xiàn)有方法進(jìn)行對比:

·選擇事件特征詞列表中詞頻最高的top-K個詞.

·選擇事件特征詞列表中TF-IDF值最高的top-K個詞.

·TextRank是一種基于圖排序的文本摘要方法,我們選取由TextRank計(jì)算后得到的top-K個詞作為事件摘要.

表2 現(xiàn)有方法與本文方法的對比
Table 2 Comparisons of the state-of-art algorithms

方法召回率(%)準(zhǔn)確率(%)F值(%)詞頻74.097271.87571.8287TF-IDF68.263953.333358.7762TextRank43.958340.62541.379本文算法86.736111121.900143834.3678262

針對上述所有方法,我們采用了同一份數(shù)據(jù)集,進(jìn)行相同的數(shù)據(jù)預(yù)處理以及人工標(biāo)注進(jìn)行實(shí)驗(yàn).因?yàn)樯鲜鏊姆N方法中均采用了選取top-K個詞進(jìn)行文本摘要,在我們的實(shí)驗(yàn)中,考慮到人工標(biāo)注的詞長度均在4個詞左右,因此我們選擇K=4.實(shí)驗(yàn)結(jié)果如表2和表3所示.

表3 現(xiàn)有方法與本文方法的結(jié)果對比(關(guān)鍵詞間有順序)
Table 3 Examples of the state-of-art algorithms and our algorithm(Orders between keywords are contained)

人工標(biāo)注本文算法詞頻(top-4)TF-IDF(top-4)TextRank(top-4)手機(jī) 無法主被叫 信號不穩(wěn)定 要求核實(shí)手機(jī) 無法主被叫 信號 不穩(wěn)定 提示故障 信號 手機(jī) 不穩(wěn)定信號 手機(jī) 無法被主叫 提示故障 手機(jī) 信號 提示寬帶 包年到期轉(zhuǎn)包月收費(fèi) 不認(rèn)可寬帶 包年到期 轉(zhuǎn)包月 收費(fèi)不認(rèn)可 金額 費(fèi)用不認(rèn)可 收費(fèi) 包年到期 寬帶費(fèi)寬帶 認(rèn)可 到期 金額包年到期 不認(rèn)可 收費(fèi) 金額積分商城 積分兌換地址 錯誤省內(nèi) 積分商城 積分 客戶 兌換 地址 客服地址 積分商城 兌換 積分地址 兌換 積分商城 省內(nèi)積分 地址 兌換 商城增值業(yè)務(wù) 計(jì)費(fèi) 訂購愛游戲 費(fèi)用 退費(fèi)增值業(yè)務(wù) 計(jì)費(fèi) 訂購 愛游戲 費(fèi)用訂購 增值業(yè)務(wù) 計(jì)費(fèi) 費(fèi)用增值業(yè)務(wù) 費(fèi)用 愛游戲 計(jì)費(fèi)增值業(yè)務(wù) 訂購 計(jì)費(fèi)

從表中我們可以看出,基于詞頻的方法得到了較高的準(zhǔn)確率與F值,而我們的方法得到了較高的召回率.因?yàn)樵谖谋痉衷~結(jié)果經(jīng)過專業(yè)名詞詞庫過濾后,分詞結(jié)果中僅剩下專業(yè)名詞.而在電信公司的投訴工單中發(fā)生的相關(guān)事件經(jīng)業(yè)務(wù)人員標(biāo)注后,人工標(biāo)注的摘要中大多為電信領(lǐng)域的專有詞.所以僅通過統(tǒng)計(jì)詞頻的方法獲得了較高的準(zhǔn)確率.而本文算法則獲得了較低的準(zhǔn)確率,這是因?yàn)楸疚乃惴ㄊ腔贗DF關(guān)鍵詞提取的基礎(chǔ)上將關(guān)鍵詞進(jìn)行擴(kuò)展,因此得到的事件摘要包含的詞個數(shù)較多,因此準(zhǔn)確率較低.但是經(jīng)過了關(guān)鍵詞排序與Bigram語義擴(kuò)充后的事件摘要可讀性更強(qiáng),用戶可以更清楚的明白事件的主要內(nèi)容.

6 總 結(jié)

在本文中,我們提出了一種基于Bigram關(guān)鍵詞語義擴(kuò)充的事件摘要方法.實(shí)驗(yàn)結(jié)果表明,本文算法在召回率與用戶可讀性方面取得了較好的結(jié)果.如何提升算法效率和算法的準(zhǔn)確率,使之能夠采用更精煉的關(guān)鍵詞個數(shù)來描述事件,是我們的下一步工作.實(shí)際上,本文的事件摘要算法已經(jīng)應(yīng)用于一個真實(shí)的客服數(shù)據(jù)分析系統(tǒng)中,其有效性得到了該系統(tǒng)的服務(wù)對象的認(rèn)可.

猜你喜歡
詞庫詞頻短文
一“吃”多用
輸入法詞庫取證比較研究
KEYS
詞匯習(xí)得中的詞頻效應(yīng)研究
Keys
漢語閱讀中詞頻與注視時間、跳讀的關(guān)系
輸入法詞庫乾坤大挪移
詞頻,一部隱秘的歷史
漢語音節(jié)累積詞頻對同音字聽覺詞匯表征的激活作用*
短文改錯
奉节县| 罗城| 平塘县| 曲阳县| 云梦县| 天柱县| 浠水县| 丰原市| 来凤县| 延庆县| 衡山县| 资中县| 玛多县| 奉新县| 卢龙县| 洪洞县| 扎兰屯市| 集贤县| 苏尼特右旗| 峨边| 泾川县| 汉阴县| 蒲城县| 盐津县| 宝兴县| 许昌县| 穆棱市| 融水| 兴宁市| 交口县| 宝兴县| 海兴县| 永兴县| 轮台县| 临沭县| 成安县| 平度市| 库车县| 曲麻莱县| 手游| 甘泉县|