国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

微博中的開(kāi)放域事件抽取

2016-09-08 10:30陳簫簫
關(guān)鍵詞:博文命名類別

陳簫簫 劉 波

(北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 北京 100124)

?

微博中的開(kāi)放域事件抽取

陳簫簫劉波

(北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院北京 100124)

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息的事件抽取已然成為研究熱點(diǎn)。針對(duì)微博中的開(kāi)放域事件抽取問(wèn)題進(jìn)行深入研究,實(shí)現(xiàn)一個(gè)事件抽取和分類系統(tǒng)。主要通過(guò)序列標(biāo)記方法提取微博語(yǔ)句中的命名實(shí)體和事件短語(yǔ)表征相應(yīng)事件,利用非監(jiān)督分類方法對(duì)事件進(jìn)行分類,將每個(gè)日期下各類別的事件根據(jù)重要性排序之后,以日歷的形式展現(xiàn)出來(lái)。其中,運(yùn)用條件隨機(jī)場(chǎng)模型完成事件抽取中的序列標(biāo)記任務(wù),非監(jiān)督分類方法選用了LDA主題模型。實(shí)驗(yàn)證明方法有效可行,命名實(shí)體識(shí)別和事件短語(yǔ)抽取均取得較高的準(zhǔn)確率和召回率。

事件抽取條件隨機(jī)場(chǎng)文本分類LDA模型

0 引 言

隨著互聯(lián)網(wǎng)和通信產(chǎn)業(yè)的快速發(fā)展,微博、微信等以短文本為主的網(wǎng)絡(luò)平臺(tái)已成為實(shí)時(shí)信息的重要來(lái)源。以微博為例,它是一個(gè)基于關(guān)系的信息分享、傳播以及獲取的平臺(tái),用戶可以隨時(shí)隨地發(fā)布信息,實(shí)現(xiàn)即時(shí)分享。近年來(lái),微博平臺(tái)發(fā)展迅猛,在熱點(diǎn)事件的報(bào)導(dǎo)和傳播方面占據(jù)主導(dǎo)地位,針對(duì)微博文本的事件抽取研究受到越來(lái)越多的關(guān)注。

早期對(duì)于事件抽取的研究[1]主要側(cè)重于在新聞文本中提取結(jié)構(gòu)化的事件。新聞文本用詞較為規(guī)范,具有清晰的語(yǔ)法結(jié)構(gòu),針對(duì)這類文本的事件抽取具有較高的準(zhǔn)確率。微博與新聞等正式文體相比,語(yǔ)言趨于口語(yǔ)化、文本內(nèi)容多而雜,含于其中的事件涉及生活的各個(gè)領(lǐng)域。傳統(tǒng)的事件抽取研究大多集中在某一特定領(lǐng)域,對(duì)于領(lǐng)域多樣化、事件類別不可預(yù)先定義的微博文本來(lái)說(shuō)是不夠完備的。上述原因?qū)е聦?duì)微博進(jìn)行事件抽取時(shí),采用針對(duì)普通文本的方法難以奏效。

近年來(lái),針對(duì)微博的開(kāi)放域事件抽取吸引了國(guó)內(nèi)外學(xué)者的目光。Benson[2]使用遠(yuǎn)程監(jiān)督的方法訓(xùn)練了一個(gè)關(guān)系提取器,可根據(jù)微博用戶發(fā)布的信息檢測(cè)出公眾人物舉辦的活動(dòng)和場(chǎng)地。Morgan等人[3]提出了一種基于最大熵的主題分類方法用于跟蹤、檢測(cè)微博中的話題信息。路榮等人[1]針對(duì)中文微博,通過(guò)主題模型和文本聚類的方法檢測(cè)出微博中的新聞話題。

本文根據(jù)微博文本的特點(diǎn),對(duì)中文微博中的事件抽取問(wèn)題進(jìn)行了深入研究,并實(shí)現(xiàn)了一個(gè)開(kāi)放域事件抽取和分類系統(tǒng),即微博-日歷系統(tǒng)。該系統(tǒng)可在海量微博數(shù)據(jù)中提取出每個(gè)日期下具有新聞價(jià)值的熱點(diǎn)事件,并以日歷的形式展示出來(lái)。本文主要工作是提取表征事件的四元組(命名實(shí)體,事件短語(yǔ),時(shí)間,事件類型),工作流程如圖1所示,大致如下:首先獲取微博文本進(jìn)行預(yù)處理,用序列標(biāo)記方法抽取出微博中的命名實(shí)體、事件短語(yǔ),同時(shí)基于微博的發(fā)布時(shí)間計(jì)算出事件的發(fā)生時(shí)間,然后利用非監(jiān)督學(xué)習(xí)方法對(duì)事件進(jìn)行分類,最后量化命名實(shí)體和日期之間的關(guān)聯(lián)程度,將每個(gè)日期下的事件按照重要性排序。本文針對(duì)開(kāi)放域的事件抽取和分類方法突破了傳統(tǒng)方法只能針對(duì)特定領(lǐng)域的局限性。運(yùn)用序列標(biāo)記方法對(duì)微博這類新興文本進(jìn)行熱點(diǎn)事件抽取的研究具有一定創(chuàng)新性和參考性。通過(guò)對(duì)微博文本的時(shí)間處理,將熱點(diǎn)事件按照它們的發(fā)生時(shí)間以日歷形式展現(xiàn)具有創(chuàng)新性。此外,本文實(shí)現(xiàn)的微博-日歷系統(tǒng)具有一定實(shí)用價(jià)值。

圖1 微博-日歷系統(tǒng)流程圖

1 事件抽取

事件抽取之前需要對(duì)獲取的微博文本進(jìn)行簡(jiǎn)單的預(yù)處理工作。文本預(yù)處理主要包括兩個(gè)方面:過(guò)濾無(wú)效信息、分詞及詞性標(biāo)注。其中,過(guò)濾無(wú)效信息是指去除微博中無(wú)意義的文字內(nèi)容或符號(hào),例如字?jǐn)?shù)極少的微博和一些URL、特殊字符、表情符號(hào)等。這些內(nèi)容通常不涉及熱點(diǎn)事件,且會(huì)增加文本噪聲,因此,在預(yù)處理過(guò)程中先將這部分信息去除。由于中文文本沒(méi)有空格之類的字符來(lái)標(biāo)志一個(gè)詞語(yǔ)的結(jié)束,所以需要進(jìn)行分詞和詞性標(biāo)注工作,便于下一步的語(yǔ)義分析。本文借用了ICTCLAS系統(tǒng)[5]實(shí)現(xiàn)分詞,該系統(tǒng)是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制出的漢語(yǔ)詞法分析系統(tǒng),具有良好的分詞效果且支持詞性標(biāo)注。

本文中事件抽取是指在微博文本中提取結(jié)構(gòu)化的事件信息。根據(jù)漢語(yǔ)的語(yǔ)言特點(diǎn),許多詞語(yǔ)往往不涉及事件相關(guān)信息,我們可以用幾個(gè)比較關(guān)鍵的詞語(yǔ)來(lái)概括相應(yīng)事件,即對(duì)任意一條微博文本,提取出語(yǔ)句中的命名實(shí)體和事件短語(yǔ)來(lái)表征所述事件。為此,我們需要進(jìn)行命名實(shí)體識(shí)別和事件短語(yǔ)抽取兩個(gè)步驟。

1.1命名實(shí)體識(shí)別

命名實(shí)體識(shí)別是指識(shí)別出文本中具有特定意義的專有名詞,在本文的研究中,識(shí)別范圍主要包括人名、地名和機(jī)構(gòu)名。目前,英文微博的命名實(shí)體識(shí)別研究[6]已取得一定成果,與英文相比,中文命名實(shí)體識(shí)別更加繁瑣復(fù)雜。主要體現(xiàn)在以下幾個(gè)方面:

(1)缺乏區(qū)別于非命名實(shí)體的特征標(biāo)志。單詞首字母大寫是識(shí)別英文命名實(shí)體的一個(gè)重要依據(jù),而中文命名實(shí)體不具有類似特征。(2)命名實(shí)體之間可能存在相互包含的現(xiàn)象。某些社會(huì)機(jī)構(gòu)名稱中可能含有人名、地名,這種現(xiàn)象也會(huì)降低識(shí)別效果。(3)英語(yǔ)單詞之間存在空格將其分開(kāi),而中文詞語(yǔ)并沒(méi)有類似的邊界標(biāo)志,所以中文命名實(shí)體識(shí)別還會(huì)受到分詞效果的影響。即中文分詞系統(tǒng)的分詞結(jié)果是否可靠,會(huì)直接影響系統(tǒng)識(shí)別的準(zhǔn)確率。(4)在中文命名實(shí)體識(shí)別中,有些詞語(yǔ)首次出現(xiàn)后會(huì)采用縮寫形式,例如“中國(guó)科學(xué)院”的縮寫形式為“中科院”??s寫中大多省略了指示實(shí)體詞類型的關(guān)鍵信息,這給中文命名實(shí)體識(shí)別工作帶來(lái)了較大困難。

雖然具有一定難度,但在中文命名實(shí)體識(shí)別領(lǐng)域也找到了較為有效的方法。目前常用的識(shí)別方法包括基于規(guī)則的識(shí)別方法和基于統(tǒng)計(jì)的識(shí)別方法?;谝?guī)則的命名實(shí)體識(shí)別方法,主要是將詞法規(guī)則、語(yǔ)法規(guī)則甚至語(yǔ)義規(guī)則通過(guò)人工添加的方式加入到識(shí)別過(guò)程中以提高命名實(shí)體識(shí)別的質(zhì)量。一般來(lái)說(shuō),基于規(guī)則的方法實(shí)現(xiàn)比較簡(jiǎn)單,能夠達(dá)到一個(gè)比較高的準(zhǔn)確率。但是這種方法的識(shí)別效果在很大程度上取決于規(guī)則的完備性和合理性,對(duì)規(guī)則制定者的要求比較高,通常需要經(jīng)驗(yàn)豐富的專家才能完成,而且設(shè)計(jì)規(guī)則需要耗費(fèi)大量的人力和物力。

隨著語(yǔ)料庫(kù)內(nèi)容的不斷豐富,基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法受到更多的關(guān)注。該方法可以通過(guò)訓(xùn)練標(biāo)注語(yǔ)料獲取對(duì)命名實(shí)體識(shí)別有幫助的相關(guān)知識(shí),利用這些知識(shí)對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行結(jié)果預(yù)測(cè),識(shí)別出其中的人名、地名和機(jī)構(gòu)名。與基于規(guī)則的方法相比,基于統(tǒng)計(jì)的方法需要對(duì)語(yǔ)料進(jìn)行標(biāo)注訓(xùn)練,這個(gè)過(guò)程不要求精深的語(yǔ)言學(xué)知識(shí),并且可以在較短時(shí)間內(nèi)完成,因而得到廣泛應(yīng)用?;谏鲜鲈?,本文采用了基于統(tǒng)計(jì)的方法來(lái)完成命名實(shí)體識(shí)別任務(wù)。

1.2提取事件短語(yǔ)

微博語(yǔ)句中的關(guān)鍵性詞語(yǔ)可以高度概括所述事件的主要內(nèi)容,搭起了事件框架。命名實(shí)體可以充當(dāng)事件的主語(yǔ)部分,除此之外還需要提取補(bǔ)充事件具體內(nèi)容的詞語(yǔ),這類詞語(yǔ)就是本文所述的事件短語(yǔ)。現(xiàn)有事件短語(yǔ)的提取方法同樣包括基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。在命名實(shí)體識(shí)別部分,我們已就這兩種方法進(jìn)行了比較,再加上微博文本往往包含一些網(wǎng)絡(luò)用語(yǔ),詞語(yǔ)具有非正式性,已有的基于規(guī)則方法難以奏效,因此,我們統(tǒng)一使用基于統(tǒng)計(jì)的方法進(jìn)行事件短語(yǔ)提取和命名實(shí)體識(shí)別的工作。

目前,基于統(tǒng)計(jì)方法的模型主要包括支持向量機(jī)、隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場(chǎng)模型等。支持向量機(jī)主要針對(duì)兩類分類問(wèn)題,在高維空間中尋找一個(gè)超平面把類別分割開(kāi)來(lái),以保證最小的分類錯(cuò)誤率。隱馬爾可夫模型是一種產(chǎn)生式模型,常被應(yīng)用于序列標(biāo)記任務(wù)中。但該模型假設(shè)觀察值之間是嚴(yán)格獨(dú)立的,這一假設(shè)前提使得模型無(wú)法使用較為復(fù)雜的特征,在事件抽取問(wèn)題上是不夠完善的。最大熵馬爾可夫模型克服了隱馬爾可夫模型嚴(yán)格的獨(dú)立假設(shè),允許狀態(tài)轉(zhuǎn)移概率依賴于序列中非獨(dú)立的特征,從而將上下文信息引入到模型的學(xué)習(xí)和識(shí)別過(guò)程中,提高了識(shí)別效果。不過(guò),由于該模型是在每個(gè)觀察結(jié)點(diǎn)上判斷輸出標(biāo)記,有可能陷入局部最優(yōu),易導(dǎo)致標(biāo)記偏置問(wèn)題。

相比之下,條件隨機(jī)場(chǎng)模型同樣不需要隱馬爾可夫模型所要求的嚴(yán)格獨(dú)立假設(shè),且該模型對(duì)狀態(tài)序列進(jìn)行全局計(jì)算的特點(diǎn)避免了最大熵馬爾可夫模型的標(biāo)記偏置問(wèn)題,在信息抽取領(lǐng)域表現(xiàn)出較好性能。提取命名實(shí)體和事件短語(yǔ)本身是比較典型的序列標(biāo)記問(wèn)題,再加上微博文本的特殊性,綜合考慮,本文采取了序列標(biāo)記的方法[7]提取命名實(shí)體和事件短語(yǔ),使用的訓(xùn)練和推理模型為條件隨機(jī)場(chǎng)模型。

1.3條件隨機(jī)場(chǎng)

條件隨機(jī)場(chǎng)CRFs(Conditional Random Fields)模型是由Lafferty等人在最大熵模型和隱馬爾可夫模型的基礎(chǔ)上提出的一種判別式模型。該模型在給定觀察序列的情況下,對(duì)整個(gè)序列的聯(lián)合概率統(tǒng)一建模,重點(diǎn)解決序列化標(biāo)記的問(wèn)題。

如圖2所示,隨機(jī)變量X代表數(shù)據(jù)序列,變量Y是與之對(duì)應(yīng)的標(biāo)記序列,p(Y|X)表示在給定數(shù)據(jù)序列X的條件下,標(biāo)記序列為Y的條件概率。設(shè)G=(V,E)是一個(gè)無(wú)向圖,Y={Yv|v∈V}是以G中節(jié)點(diǎn)v為索引的隨機(jī)變量構(gòu)成的集合。在給定X的條件下,如果每個(gè)隨機(jī)變量Yv服從馬爾可夫?qū)傩裕丛诮o定X和Yv以外的所有隨機(jī)變量Yw的條件下,隨機(jī)變量Yv滿足條件概率p(Yv|X,Yw,w≠v)=p(Yv|X,Yw,w~v),(w~v表示w和v是圖G中的相鄰節(jié)點(diǎn)),則(X,Y)構(gòu)成一個(gè)條件隨機(jī)場(chǎng)[8]。CRFs是無(wú)向圖模型,其最簡(jiǎn)單的形式是鏈?zhǔn)紺RFs,即模型中各個(gè)節(jié)點(diǎn)之間構(gòu)成線性結(jié)構(gòu)。

圖2 鏈?zhǔn)紺RFs模型圖

對(duì)于本文的事件抽取問(wèn)題,可以用鏈?zhǔn)綏l件隨機(jī)場(chǎng)進(jìn)行訓(xùn)練和推理,標(biāo)記出屬于命名實(shí)體和事件短語(yǔ)的詞語(yǔ)來(lái)表征文本事件。假設(shè)X={X1,X2,…,Xn}是微博文本詞語(yǔ)構(gòu)成的觀察序列,設(shè)與之對(duì)應(yīng)的標(biāo)記序列為Y={Y1,Y2,…,Yn}。集合Y中的元素為實(shí)體類型的標(biāo)注符號(hào)。根據(jù)條件隨機(jī)場(chǎng)的基本理論,標(biāo)記序列的條件概率與模型的勢(shì)函數(shù)成正比,即:

p(Y|X,λ)∝

(1)

其中,tj(Yi-1,Yi,X)是觀察序列和標(biāo)記序列在i-1到i時(shí)刻的特征轉(zhuǎn)移函數(shù);Sk(Yi,X)是整個(gè)觀察序列和標(biāo)記序列在i時(shí)刻的狀態(tài)特征函數(shù)。兩個(gè)特征函數(shù)可以統(tǒng)一為二值函數(shù)fj(Yi-1,Yi,X),函數(shù)值可以通過(guò)i時(shí)刻所有觀察值的特征結(jié)合其對(duì)應(yīng)的標(biāo)記結(jié)果來(lái)獲得。統(tǒng)一特征函數(shù)并將勢(shì)函數(shù)的乘積歸一化,可得標(biāo)記序列Y的條件概率:

(2)

其中Z(X)為歸一化因子;參數(shù)λ的取值可在模型訓(xùn)練中采用極大似然估計(jì)獲得。

本文中,鏈?zhǔn)綏l件隨機(jī)場(chǎng)的推理過(guò)程就是對(duì)于微博語(yǔ)料庫(kù)中各微博文本組成的觀測(cè)序列X和訓(xùn)練產(chǎn)生的模型參數(shù)λ,找到一個(gè)與之對(duì)應(yīng)的最優(yōu)標(biāo)記序列Y,使得Y能夠準(zhǔn)確標(biāo)注其中的命名實(shí)體和事件短語(yǔ)。求得最優(yōu)標(biāo)記序列的過(guò)程可以轉(zhuǎn)化為求取概率函數(shù)p(Y|X,λ)的最大值問(wèn)題。我們可以利用維特比算法遞歸求得Y*=argmaxp(Y|X),此時(shí)Y*即為后驗(yàn)概率最大的序列標(biāo)記Y。至此,可以得出微博文本中的命名實(shí)體和事件短語(yǔ),完成事件抽取任務(wù)。

1.4特征選擇

確定模型的訓(xùn)練和推理過(guò)程之后,我們需要選擇與之對(duì)應(yīng)的文本特征。特征的選取具有至關(guān)重要的作用,它們決定著模型的特征函數(shù),對(duì)結(jié)果的正確率和召回率都有很大影響。如果選取的特征集過(guò)大,不僅會(huì)影響模型訓(xùn)練和預(yù)測(cè)的效率,還可能發(fā)生過(guò)擬合現(xiàn)象;如果選取的特征集過(guò)小,會(huì)降低模型識(shí)別的準(zhǔn)確率和召回率。本文利用條件隨機(jī)場(chǎng)的特點(diǎn),在進(jìn)行事件抽取時(shí)不僅利用當(dāng)前詞的特征,還充分利用了上下文的統(tǒng)計(jì)信息作為特征,達(dá)到了良好的效果。

當(dāng)前詞的特征包括詞形特征、詞性特征和所處的位置特征等。詞形特征主要是指構(gòu)成該詞的字符串及其長(zhǎng)度,是詞的基本特征。例如,命名實(shí)體大多包含兩個(gè)以上字符,很少出現(xiàn)一個(gè)字的人名、地名和機(jī)構(gòu)名,顯然,字符串的長(zhǎng)度在一定程度上影響實(shí)體和短語(yǔ)的識(shí)別。詞性是信息抽取中一個(gè)常用且有效的特征信息。命名實(shí)體和事件短語(yǔ)大多為名詞和動(dòng)詞,極少含有形容詞、量詞和代詞等其他詞性的詞語(yǔ),這在很大程度上縮小了標(biāo)記任務(wù)的求解空間。同時(shí)詞性特征也能夠涵蓋一定的語(yǔ)法信息,有助于提高實(shí)體和短語(yǔ)識(shí)別的準(zhǔn)確度。位置特征是指該詞相對(duì)句子而言所處的位置,一般來(lái)說(shuō),命名實(shí)體位于句首的概率大于在句中或句尾的概率,這一特征對(duì)于命名實(shí)體識(shí)別也具有極為重要的作用。

僅憑當(dāng)前詞自身的特征不足以準(zhǔn)確識(shí)別命名實(shí)體和事件短語(yǔ),還需加入詞語(yǔ)的上下文特征。該特征指的是包括當(dāng)前詞和其前后若干個(gè)詞在內(nèi)的一個(gè)觀察窗口(W-n,…,W0,…,Wn)。理論上來(lái)說(shuō),窗口范圍越大,可利用的上下文信息越多。但如果窗口過(guò)大,除了嚴(yán)重降低運(yùn)行效率、浪費(fèi)大量資源之外,還會(huì)產(chǎn)生過(guò)擬合現(xiàn)象;而如果窗口過(guò)小,就不能獲取足夠多的有用信息。本文將觀察窗口的大小設(shè)置為5,實(shí)驗(yàn)證明該值對(duì)于實(shí)體詞識(shí)別任務(wù)能夠獲得較好效果。

為利于條件隨機(jī)場(chǎng)模型的訓(xùn)練和推理,本文為當(dāng)前詞特征和上下文特征定義了一個(gè)的特征模板,具體含義如表1所示。

表1 CRFs模型特征模板

考慮到分詞的原因,人名、地名、機(jī)構(gòu)名和事件短語(yǔ)這四類實(shí)體詞可能被切分為多個(gè)部分,例如當(dāng)前詞可能位于實(shí)體的開(kāi)始(B)、內(nèi)部(I)和實(shí)體外(O)三個(gè)位置。所以本文定義了一個(gè)基于實(shí)體位置的標(biāo)記集合來(lái)標(biāo)識(shí)當(dāng)前詞的實(shí)體類型,具體標(biāo)記及其含義如表2所示。

表2 實(shí)體類型標(biāo)注集合

條件隨機(jī)場(chǎng)模型可對(duì)文本特征進(jìn)行線性組合,構(gòu)成較為復(fù)雜的特征來(lái)表示非線性的上下文信息。同時(shí),問(wèn)題的特征空間會(huì)隨之增大,但并非所有的特征都是有用的,選擇出冗余少、代表性高的特征對(duì)模型的訓(xùn)練和應(yīng)用來(lái)說(shuō)是非常有必要的。本文使用了基于計(jì)數(shù)的特征選擇方法,即在樣本訓(xùn)練的過(guò)程中統(tǒng)計(jì)各個(gè)特征的出現(xiàn)次數(shù),選擇次數(shù)較高的特征作為模型特征集。

2 事件分類

傳統(tǒng)的文本分類方法主要是利用向量空間模型表示文本,根據(jù)相似性計(jì)算的量化結(jié)果決定文本類別。但由于微博這類短文本包含的詞語(yǔ)較少,具有嚴(yán)重的數(shù)據(jù)稀疏性問(wèn)題,使得對(duì)微博文本進(jìn)行分類學(xué)習(xí)的復(fù)雜性加大。此外,對(duì)于微博中的事件分類來(lái)說(shuō),有監(jiān)督的或半監(jiān)督的分類方法存在很多問(wèn)題:微博是包含多個(gè)領(lǐng)域的開(kāi)放性文本,對(duì)于涉及的事件類別是很難明確界定的;監(jiān)督或半監(jiān)督的分類方法,大多需要人工標(biāo)注事件類別,這會(huì)帶來(lái)較大的工作量,再加上某些類別出現(xiàn)的頻率較低,即使標(biāo)注了很大的數(shù)據(jù)集也不可能把所有的類別都包含進(jìn)來(lái);對(duì)于一篇新聞文本來(lái)說(shuō),它的內(nèi)容大多是圍繞一個(gè)主題敘述的,但微博文本較之更為隨意,往往融合多個(gè)事件類別。基于上述原因,本文采用了一種針對(duì)開(kāi)放域文本的無(wú)監(jiān)督分類方法,即基于潛在狄利克雷分布的LDA(Latent Dirichlet Allocation)主題模型,通過(guò)聚類的方法實(shí)現(xiàn)微博文本中主要事件的類別劃分。下面簡(jiǎn)單介紹一下LDA主題模型的原理以及本文中的微博文本聚類算法。

2.1LDA模型

LDA模型是由Blei等人在概率潛在語(yǔ)義分析模型(PLSA)的基礎(chǔ)上,運(yùn)用超參數(shù)和隱變量來(lái)模擬文檔生成過(guò)程的產(chǎn)生式模型[9]。PLSA模型在較大程度上依賴于模型訓(xùn)練時(shí)所使用的數(shù)據(jù)集,特別是模型在文檔層面上沒(méi)有描述概率,先驗(yàn)概率的求解只建立在已有訓(xùn)練集,易導(dǎo)致過(guò)擬合現(xiàn)象。相比之下,LDA模型采用了一個(gè)服從狄利克雷分布的K維隱含隨機(jī)變量來(lái)描述文檔的主題概率,模擬文檔集的產(chǎn)生過(guò)程,克服了PLSA模型的缺點(diǎn),在文本分類、情感分析等方面具有廣泛應(yīng)用。

圖3 LDA主題模型

根據(jù)LDA主題模型的原理,我們把包含于微博語(yǔ)句中的事件信息看作是若干類別的混合分布,每一個(gè)事件類別對(duì)應(yīng)事件實(shí)體詞的概率分布。例如“加油”一詞可能出現(xiàn)在體育類別的文本中,也可能出現(xiàn)在“汶川加油”這樣的社會(huì)事件中。我們把兩個(gè)類別type看作潛變量,有type~Mult(θ),相應(yīng)的詞語(yǔ)word也對(duì)應(yīng)一個(gè)多項(xiàng)分布,即word~Mult(φ)。對(duì)于一個(gè)由M篇微博文本組成的語(yǔ)料庫(kù),假設(shè)它所包含的事件類別個(gè)數(shù)為K,LDA模型假設(shè)該語(yǔ)料庫(kù)的生成過(guò)程概括為以下步驟:

(2) 對(duì)于第m篇微博文本,確定它所包含的詞語(yǔ)個(gè)數(shù),即文本的長(zhǎng)度N,N~Poiss(ζ);

(4) 對(duì)第m篇微博文本中的第n個(gè)詞語(yǔ):

(5) 將步驟(4)重復(fù)N次,就生成微博文本m;

(6) 對(duì)于語(yǔ)料庫(kù)中的每一篇微博文本,重復(fù)步驟(2)-(5),完成整個(gè)微博語(yǔ)料庫(kù)的生成。

(3)

(4)

(5)

2.2微博文本聚類

由LDA模型的原理和產(chǎn)生過(guò)程可看出,該模型完全適用于本文針對(duì)開(kāi)放域的微博文本分類任務(wù)。利用LDA模型對(duì)微博語(yǔ)料庫(kù)進(jìn)行訓(xùn)練和推理,可完成事件類別的劃分。模型的訓(xùn)練過(guò)程主要是求解模型參數(shù)θ和φ的取值。對(duì)于本文的微博語(yǔ)料庫(kù),LDA模型的訓(xùn)練流程如下:

(1) 隨機(jī)初始化:對(duì)每條微博語(yǔ)句中的每個(gè)詞語(yǔ)word,隨機(jī)賦予一個(gè)類別編號(hào)type;

(2) 重新掃描語(yǔ)料庫(kù),對(duì)每個(gè)詞語(yǔ)word重新采樣它的類別,在語(yǔ)料中進(jìn)行更新;

(3) 重復(fù)步驟(2)直到吉布斯采樣收斂;

(4) 統(tǒng)計(jì)語(yǔ)料庫(kù)信息,得到type-word共現(xiàn)頻率矩陣。根據(jù)該矩陣,可得出參數(shù)θ和φ的值。

(1) 隨機(jī)初始化:對(duì)當(dāng)前文本中的每個(gè)詞語(yǔ)word,隨機(jī)賦予一個(gè)類別編號(hào)type;

(2) 重新掃描當(dāng)前文本,對(duì)每個(gè)詞語(yǔ)word重新采樣它的類別;

(3) 重復(fù)步驟(2)直到吉布斯采樣收斂;

3 時(shí)間處理和事件排序

通常,微博中許多關(guān)于時(shí)間的描述均指向同一日期[10],比如對(duì)于同一時(shí)間的描述有“下周二”“2月3日”等表達(dá)方式,基于微博的發(fā)布時(shí)間,它們可能都是指2015年2月3日這一天。為了解決時(shí)間表達(dá)式的一致性,本文采用了構(gòu)建正則表達(dá)式的方法匹配字符串中的時(shí)間信息。識(shí)別文本中的時(shí)間表達(dá)式之后,再將它們?cè)诨鶞?zhǔn)時(shí)間的基礎(chǔ)上轉(zhuǎn)化為標(biāo)準(zhǔn)日期格式。例如對(duì)于在2014年12月15日發(fā)布的微博信息“后天下午我們將要召開(kāi)會(huì)議”,處理之后的形式為:2014年12月17日下午,我們將要召開(kāi)會(huì)議。這樣就把微博中的事件更加準(zhǔn)確的劃分到具體的時(shí)間下,避免了將其他日期下的熱點(diǎn)事件誤認(rèn)為是今天發(fā)生主要事件。

事件抽取和時(shí)間處理之后,需要根據(jù)事件的重要性進(jìn)行排序。在之前的事件排序研究中,通常根據(jù)詞頻來(lái)量化事件的重要程度,但是微博中的高頻詞匯往往是涉及人們?nèi)粘I畹脑~語(yǔ),與之相對(duì)應(yīng)的事件大多不是我們想要的。針對(duì)此問(wèn)題,我們采用的方法是量化類別下命名實(shí)體和日期之間的關(guān)聯(lián)強(qiáng)度來(lái)決定事件的排名順序[12]。本文認(rèn)為,每天都發(fā)生的、涉及人們?nèi)粘I畹氖录匾暂^低,比如事件信息“北京市晚間晴”,可能每天都會(huì)出現(xiàn)在微博中,但它不屬于熱點(diǎn)事件;相反,其他日期下很少或沒(méi)有出現(xiàn)過(guò)的事件重要性較高,例如“昌都發(fā)生地震”,這是比較罕見(jiàn)、突發(fā)性高的事件,相比之下具有更高的重要性。根據(jù)以上原則,本文使用了基于似然比統(tǒng)計(jì)量的函數(shù)來(lái)量化事件的重要程度。對(duì)于任一給定的命名實(shí)體e和日期d,統(tǒng)計(jì)函數(shù)值的計(jì)算公式如下:

(6)

其中,Oe,d表示命名實(shí)體為e且發(fā)生日期為d的事件總數(shù);Oe,d表示命名實(shí)體為e,但發(fā)生日期不為d的事件總數(shù)。相似的,Ee,d表示在e和d相互獨(dú)立的條件下,包含命名實(shí)體e或發(fā)生日期為d的事件總數(shù),以此類推其他符號(hào)的含義。值得注意的是,在統(tǒng)計(jì)包含同一命名實(shí)體的事件數(shù)量時(shí),本文加入了類別信息的判斷,即對(duì)于同一命名實(shí)體,如果聚類產(chǎn)生的類別標(biāo)簽相同,則該實(shí)體的統(tǒng)計(jì)比重會(huì)增大,標(biāo)志著與之相對(duì)應(yīng)的事件具有更高的重要性。例如對(duì)于兩條微博文本:a)北京市于今天召開(kāi)國(guó)際會(huì)議,多位領(lǐng)導(dǎo)人出席;b)北京市天氣多云,晚間會(huì)有雷陣雨。以上兩個(gè)語(yǔ)句的命名實(shí)體均為“北京市”,但是事件所屬的類別大不相同,由此可見(jiàn),事件類別對(duì)于事件重要程度的判斷具有極大影響。

4 實(shí)驗(yàn)與評(píng)估

本文所用的文本數(shù)據(jù)主要來(lái)源于新浪微博,通過(guò)該平臺(tái)提供的開(kāi)放接口分時(shí)段獲取了2013年8月11日至2013年8月13日的公共微博。由于微博開(kāi)放平臺(tái)規(guī)定了每次獲取微博的條數(shù)和抓取頻率,本文數(shù)據(jù)集的大小受到了一定程度的限制。去除數(shù)據(jù)集中的無(wú)效微博之后,保留了24 257條微博文本作為本文實(shí)驗(yàn)的語(yǔ)料庫(kù)。

在時(shí)間抽取階段,筆者在語(yǔ)料庫(kù)中選取了800條微博文本作為條件隨機(jī)場(chǎng)模型的訓(xùn)練集。首先根據(jù)本文1.4節(jié)所述的特征選擇方法,統(tǒng)計(jì)訓(xùn)練集的各類文本特征,然后手工標(biāo)記每個(gè)微博詞語(yǔ)的實(shí)體類型,具體標(biāo)記符號(hào)參照表2所列的標(biāo)記集合。利用上述統(tǒng)計(jì)信息和標(biāo)記數(shù)據(jù)完成條件隨機(jī)場(chǎng)的訓(xùn)練,然后推理得出所有文本的事件信息。筆者在模型訓(xùn)練集之外的數(shù)據(jù)中,隨機(jī)選用了500條微博文本作為模型的測(cè)試集。對(duì)于測(cè)試集中的數(shù)據(jù)同樣進(jìn)行了手工標(biāo)注命名實(shí)體和事件短語(yǔ)的工作,然后將系統(tǒng)的處理結(jié)果與手工標(biāo)注集合相比較得到事件抽取的準(zhǔn)確率和召回率,具體數(shù)據(jù)如表3所示。實(shí)驗(yàn)證明,本文所用方法對(duì)于命名實(shí)體識(shí)別和事件短語(yǔ)抽取均取得較好效果。

表3 事件抽取的準(zhǔn)確率和召回率

在對(duì)微博文本進(jìn)行事件聚類的過(guò)程中, LDA主題模型的訓(xùn)練和推理過(guò)程是在一個(gè)假設(shè)條件下完成的,即假定事件類別個(gè)數(shù)K及Dirichlet先驗(yàn)分布參數(shù)α和β這三個(gè)變量值已知。實(shí)際上,上述參數(shù)值是需要人為設(shè)定的。經(jīng)交叉驗(yàn)證發(fā)現(xiàn),當(dāng)K=50、α=1、β=0.1時(shí),模型能夠達(dá)到較好的聚類效果。一般意義上,事件的類別標(biāo)簽應(yīng)該是諸如運(yùn)動(dòng)、政治、經(jīng)濟(jì)等類型的文本詞語(yǔ),但是通過(guò)LDA主題模型得出的是類別的數(shù)字化表示。實(shí)際上,我們可根據(jù)主題模型的統(tǒng)計(jì)結(jié)果把類別編號(hào)轉(zhuǎn)化為系統(tǒng)所需的文本類別標(biāo)簽。即通過(guò)觀察每個(gè)類別下的高頻詞匯判斷它的所屬領(lǐng)域。通過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)的觀察,本文賦予數(shù)據(jù)集的文本類別有科技、體育、政治、教育等15個(gè)類別標(biāo)簽。對(duì)于不易區(qū)分所屬領(lǐng)域的類別,統(tǒng)一劃至“其他”類別中。

表4 微博-日歷系統(tǒng)結(jié)果展示

注:日歷中事件的展示次序?yàn)槊麑?shí)體:事件短語(yǔ);事件類別;受分詞影響,事件短語(yǔ)包含多個(gè)詞語(yǔ)

表4為本文微博-日歷系統(tǒng)基于現(xiàn)有語(yǔ)料庫(kù)的部分處理結(jié)果,主要展示了2013年8月11日、12日的主要事件及其類別信息。每個(gè)日期下,我們根據(jù)式(6)所定義的統(tǒng)計(jì)函數(shù)來(lái)對(duì)事件進(jìn)行排序,選取函數(shù)值最高的事件以日歷的形式展示,展示內(nèi)容包括事件的命名實(shí)體、事件短語(yǔ)和事件類別。對(duì)于每條微博文本,它的處理過(guò)程如下:假設(shè)某微博用戶在2013年8月12日發(fā)布了一條微博:昨晚林丹贏了,他又一次奪取了世錦賽冠軍!該文本經(jīng)條件隨機(jī)場(chǎng)訓(xùn)練和推理之后,得出的命名實(shí)體為“林丹”,事件短語(yǔ)為“奪取,冠軍”。因?yàn)槲⒉┲邪瑫r(shí)間相關(guān)的詞語(yǔ)“昨晚”,基于時(shí)間處理規(guī)則,在微博發(fā)布時(shí)間的基礎(chǔ)上對(duì)日期減1,得出事件的發(fā)生時(shí)間為2013年8月11日。通過(guò)LDA模型聚類發(fā)現(xiàn)其所屬類別下主題詞大多涉及體育,因此將其劃分為“體育”類別。最后用統(tǒng)計(jì)函數(shù)計(jì)算該事件的重要性并排序。雖然本系統(tǒng)存在數(shù)據(jù)集較小、時(shí)間處理有誤差等缺陷,但處理結(jié)果大體呈現(xiàn)出各個(gè)日期下的主要事件,證明了本文所述方法的可行性。此外,本系統(tǒng)也可應(yīng)用于大規(guī)模微博數(shù)據(jù)集的事件提取工作,具有一定的實(shí)用價(jià)值。

5 結(jié) 語(yǔ)

本文主要通過(guò)序列標(biāo)記的方法提取出微博文本中的主要事件,并采用針對(duì)開(kāi)放域文本的非監(jiān)督機(jī)器學(xué)習(xí)方法進(jìn)行了事件分類,實(shí)驗(yàn)結(jié)果基本令人滿意。在識(shí)別命名實(shí)體和抽取事件短語(yǔ)的過(guò)程中,雖然處理結(jié)果達(dá)到了較高的準(zhǔn)確率和召回率,但是對(duì)于某些地名和部分機(jī)構(gòu)名稱的識(shí)別效果不太理想,在進(jìn)一步研究中會(huì)對(duì)該部分進(jìn)行改進(jìn)工作。此外,在使用主題模型進(jìn)行文本聚類工作之后,本實(shí)驗(yàn)得出的最終事件類別標(biāo)簽是在人工干預(yù)的情況下完成的,這一方法同樣具有不足之處。在未來(lái)的研究工作中會(huì)對(duì)此問(wèn)題進(jìn)行更加深入的研究,希望能找到一種自動(dòng)標(biāo)注文本類別標(biāo)簽的機(jī)器學(xué)習(xí)方法來(lái)改善系統(tǒng)。

[1] Allan J, Papka R, Lavrenko V. On-line new event detection and tracking[C]//Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1998:37-45.

[2] Benson E, Haghighi A, Barzilay R. Event discovery in social media feeds[C]//Annual Meeting of the Association for Computational Linguistics, 2011:389-398.

[3] Lin J, Snow R, Morgan W. Smoothing Techniques for Adaptive Online Language Models: Topic Tracking in Tweet Streams[C]//Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, 2011:422-429.

[4] 路榮,項(xiàng)亮,劉明榮.基于隱主題分析和文本聚類的微博客新聞話題發(fā)現(xiàn)[J].模式識(shí)別與人工智能, 2012, 25(3): 382-387.

[5] Zhang Huaping, Yu Hongkui,Xiong Deyi, et al. HMM-based Chinese Lexical Analyzer ICTCLAS[C]//Proceeding 2nd SIGHAN workshop affiliated with 41th ACL, Sapporo Japan, July 2003:184-187.

[6] Ritter A, Clark S, Etzioni O, Named entity recognition in tweets: An experimental study[C]//Conference on Empirical Methods in Natural Language Processing,2011:45-51.

[7] Gimpel K, Schneider N,O’Connor B,et al.Part-of-speech tagging for twitter: Annotation, features, and experiments[C]//Annual Meeting of the Association for Computational Linguistics,2011:42-47.

[8] Lafferty J D, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//International Conference on Machine Learning, 2001:282-289.

[9] Blei D, Ng A, Jordan M. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003: 3,993-1022.

[10] Finkel J R, Grenager T, Manning C. Incorporating non-local information into information extraction systems by gibbs sampling[C]//Annual Meeting of the Association for Computational Linguistics, 2005.

[11] Mani I, Wilson G. Robust temporal processing of news[C]//Annual Meeting of the Association for Computational Linguistics, 2000.

[12] Ritter A, Mausam, Etzioni O, et al. Open domain event extraction from twitter[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining,2012:1104-1112.

EXTRACTING OPEN DOMAIN EVENTS IN MICROBLOGS

Chen XiaoxiaoLiu Bo

(CollegeofComputerScience,BeijingUniversityofTechnology,Beijing100124,China)

With the rapid development of Internet, the extraction of network information events has been the focus of the study. We thoroughly studied the extraction issue of open domain events in microblogs, and implemented a system of event extraction and categorisation. We characterised the corresponding events by the named entities and event-referring phrases in microblogging sentences mainly extracted with sequence-labelling method, and used the unsupervised categorisation method to classify events. After sorting the events of various categories in every date according to their significances, we displayed them in the form of calendar. In it, we used the conditional random fields to complete the sequence labelling tasks of the event extraction, for unsupervised method we chose the LDA topic model. Experiments prove that the method is effective and feasible. Both the named entity recognition and event-referring phrases extraction achieve high accuracy and recall rates.

Event extractionConditional random fieldsText categorisationLatent Dirichlet allocation (LDA) model

2015-03-26。國(guó)家自然科學(xué)基金項(xiàng)目(61005001)。陳簫簫,碩士生,主研領(lǐng)域:自然語(yǔ)言處理,機(jī)器學(xué)習(xí)。劉波,副教授。

TP3

A

10.3969/j.issn.1000-386x.2016.08.004

猜你喜歡
博文命名類別
第一次掙錢
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
壯字喃字同形字的三種類別及簡(jiǎn)要分析
有一種男人以“暖”命名
誰(shuí)和誰(shuí)好
為一條河命名——在白河源
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
服務(wù)類別
多類別復(fù)合資源的空間匹配
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討