国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于種子詞匯的話題標(biāo)簽抽取研究

2013-10-15 01:37:48寇宛秋
中文信息學(xué)報 2013年5期
關(guān)鍵詞:語料文檔短語

寇宛秋,李 芳

(上海交通大學(xué) 計算機(jī)科學(xué)與工程系,上海200240)

1 引言

當(dāng)今社會已經(jīng)進(jìn)入信息大爆炸的時代,信息量以幾何級別速度不斷增加。據(jù)調(diào)查顯示,《紐約時報》一周的信息量相當(dāng)于17世紀(jì)學(xué)者畢生所能接觸到的信息量的總和。伴隨著信息爆炸的是信息匱乏,海量的信息魚龍混雜,收集信息所花費的成本已經(jīng)超過了信息本身的價值。如何獲取有價值的信息,已經(jīng)成為信息爆炸時代極為重要的議題。

話題模型被普遍用來解決這個問題。話題通常被表示成詞項的概率分布,話題模型通過對文檔集進(jìn)行降維,將詞項空間中的文檔變換到話題空間,模擬文檔的生成過程。在話題模型中,一個話題用一組關(guān)鍵詞來表示,有些話題有一個明確的語義信息,例如,“房價”、“住房”、“土地”、“市場、“上漲”,有些話題沒有,例如,“網(wǎng)友”、“創(chuàng)意”、“得意”、“廣電總局”、“影像”。因此,在實際應(yīng)用中,需要一個標(biāo)簽來表示話題的語義信息。相對于單個詞項,短語能夠表示較完整的語義信息,如何從話題模型中得到更具解釋性的短語描述,作為話題的標(biāo)簽是本文研究的目的。

本文的組織結(jié)構(gòu)如下:第2節(jié)主要介紹相關(guān)工作,第3節(jié)是話題標(biāo)簽抽取方法的描述,第4節(jié)是實驗結(jié)果和分析,第5節(jié)是結(jié)論和展望。

2 相關(guān)工作

話題模型應(yīng)用最廣的是LDA模型,是DAVID BLEI在2003年提出的[1]。之后很多研究者基于文檔特點對LDA做了很多拓展,例如,Blei在2004年提出的Hierarchical LDA[2],將話題間的結(jié)構(gòu)描述為樹;Hidden Topic Markov Model(HTMM)[2]用句子的分布來表示話題;Author Topic Model(ATM)[3]在話題模型中引入作者信息,用以處理科技文獻(xiàn)。

話題標(biāo)簽抽取研究可以分為四種方法,第一種是調(diào)整話題模型結(jié)果的權(quán)重,例如,Weighted Latent Dirichlet Allocation(WLDA)模型[4],在 LDA模型中,每個單詞都被等同看待,而WLDA為每個單詞賦予一個不同的權(quán)重。很多特征權(quán)重被用在該模 型 中,例 如,Pointwise Mutual Information(PMI),CHI測試,信息增益等。本文方法采用了WLDA的思路,利用權(quán)重公式對LDA建模結(jié)果進(jìn)行權(quán)重調(diào)整處理。

第二種方法是采用短語為單元描述話題,傳統(tǒng)話題模型采用單個詞語作為話題關(guān)鍵詞,而一些研究者用短語取代單個詞語。例如,Multiword-Enhanced Author Topic Model[5],該模型根據(jù)詞性標(biāo)注信息抽取符合特定短語模式的短語,然后基于這些短語和單詞構(gòu)建話題模型。本文方法采用這一思想,用短語取代單詞表示話題。

第三種方法是在話題結(jié)果中引入語義信息,例如,POSLDA 模 型[6],該 模 型 是 LDA 模 型 和HMMLDA模型[7]的擴(kuò)展,該模型將文檔中的詞項分為三個類別,形容詞、動詞和名詞,可以表示話題涉及的事物、動作和描述信息。

第四種方法是對LDA生成的話題結(jié)果進(jìn)行組合處理,例如,Turbo Topic[8],該方法基于 LDA 的結(jié)果抽取可能的短語。算法步驟如下:

(1)對文檔進(jìn)行LDA建模,得到文檔-話題分布,詞項-話題分布和每個單詞所屬話題的詞對:

(2)對每一個單詞,判斷該單詞周圍的單詞是否和該單詞屬于同樣的話題,如果屬于,則這兩個單詞可能組成一個短語,再根據(jù)似然估計,判斷它們是否可以組成短語,如果可以,則加入到短語集合中;

(3)重復(fù)步驟(2),直到找不出新的短語。

本文綜合了以上幾種方法,引入了特征權(quán)重、詞性分析、短語表示等因素,產(chǎn)生話題的標(biāo)簽,有效提高了話題模型結(jié)果的可解釋性。

3 方法介紹

話題標(biāo)簽信息是話題內(nèi)容的概括與總結(jié),能夠綜合地反映話題內(nèi)容,增強(qiáng)話題的可解釋性。表1展示了LDA建模生成的話題信息和采用本文方法抽取的話題標(biāo)簽信息。

表1 話題信息與對應(yīng)的話題標(biāo)簽

表2為本文使用到的主要符號和定義。

表2 話題標(biāo)簽抽取研究涉及的符號

話題標(biāo)簽抽取方法主要包括四個步驟:話題建模,種子詞抽取,關(guān)鍵短語抽取和話題標(biāo)簽選擇。話題建模是利用LDA模型對輸入的文本集合進(jìn)行建模,種子詞抽取是對LDA話題結(jié)果進(jìn)行重排序,選擇權(quán)重最大的前三個詞作為種子詞,關(guān)鍵短語生成是根據(jù)種子詞和其他詞匯出現(xiàn)次數(shù)等信息生成短語,話題標(biāo)簽選擇是從這些短語中選擇最終話題標(biāo)簽。

3.1 種子詞抽取

根據(jù)文獻(xiàn)[9]提出的LDA結(jié)果重排序方法,根據(jù)下面公式對LDA結(jié)果,調(diào)整話題詞項的權(quán)重,進(jìn)行重排序。

TF-IDF被廣泛用于評估詞項在文檔中的重要性。詞項在文檔中出現(xiàn)的次數(shù)越多,包含該詞項的文檔數(shù)目越少,就越重要。wi在話題zj中的重要性權(quán)重計算如式(1)所示。

(b)話題覆蓋度

用于計算一個話題在文檔集合上的覆蓋程度,覆蓋度高的話題中詞項的權(quán)重更大。話題覆蓋度用一個話題在所有文檔中的概率之和除以總文檔數(shù)來表示(如式(2)所示)。

(c)PMI

PMI統(tǒng)計概率分布中兩個變量的相關(guān)性,公式如式(3)所示。

詞匯wi與同一話題(top-10)中其他9個詞匯越相關(guān),則該詞匯的權(quán)重越高,某一詞匯的關(guān)聯(lián)度計算用PMI的平均值。

因此,結(jié)合 TF-IDF,覆蓋度以及和PMI,權(quán)重計算公式如式(4)所示。

根據(jù)式(4),對每個話題前十個單詞進(jìn)行權(quán)重重排序,選出前三個單詞作為關(guān)鍵短語抽取的種子詞。

3.2 關(guān)鍵短語集合生成

初始關(guān)鍵短語集合等于種子詞集合,運用bootstrapping算法迭代生成短語,當(dāng)短語的權(quán)重大于閾值,則加入到關(guān)鍵短語集合中。用Wseed表示種子詞集合,用P表示關(guān)鍵短語集合(初始階段等于Wseed),用 WLDA表示LDA話題前十個詞。短語(p1,p2)同時滿足下述條件,則為關(guān)鍵短語:

(1)p1,p2是屬于P∪WLDA中的任意短語或單詞

(2)p1,p2中至少有一個屬于P

(3)(p1,p2)的權(quán)重大于閾值

算法1描述了關(guān)鍵短語生成的過程。

算法1 話題關(guān)鍵短語生成算法

3.3 話題標(biāo)簽選擇

在抽取出關(guān)鍵短語后,需要從關(guān)鍵短語集合中最終選出解釋性強(qiáng)的短語作為話題標(biāo)簽。本文提出兩種標(biāo)準(zhǔn)選擇話題標(biāo)簽:短語的完整性和泛化度。

3.3.1 短語完整性標(biāo)準(zhǔn)

湖州市推動綠色礦業(yè)發(fā)展的實踐與展望(龔西征) ........................................................................................9-13

根據(jù)實驗結(jié)果,有些權(quán)重最高的關(guān)鍵短語缺乏關(guān)鍵信息,例如,關(guān)鍵短語“卡恩涉嫌”、“同比增長”、“中方支持”。這些短語在語義上并不完整,“卡恩涉嫌”缺少賓語,“同比增長”缺少主語,“中方支持”缺少賓語。大部分不完整的短語均是動詞性短語。因此,短語完整性規(guī)則如下:如果關(guān)鍵短語集合中權(quán)重最高的短語是動詞詞組,而且缺少主語或賓語,則按照完整性規(guī)則,在關(guān)鍵短語集合中重新選擇。

判斷以及選擇方法如下:

假設(shè)關(guān)鍵短語集合P中權(quán)重最高的短語為pmax,那么有以下兩種情況。

(1)如果該短語第一個詞為動詞,或者第一個動詞前沒有名詞,則判定短語pmax缺乏主語;

(2)如果該短語最后一個詞為動詞或者最后一個動詞后面沒有名詞,則判定pmax缺乏賓語。

對于判定缺乏主語或賓語的短語pmax,在關(guān)鍵短語集合P中,按權(quán)重從高到低的順序搜索滿足如下條件的短語p,作為最后的標(biāo)簽:

(1)p包含短語pmax;

(2)p中含有主語(動詞前的名詞)或賓語(動詞后的名詞)。

實驗發(fā)現(xiàn)了另一種現(xiàn)象,即權(quán)重最高的關(guān)鍵短語只是描述話題特定的方面,例如,“治理北京大氣污染”,而其他的關(guān)鍵短語為“大氣污染”“大氣污染防治”,更好的描述短語是“大氣污染”。這類短語一般是名詞性短語,為了解決這種問題,本文引入概念泛化規(guī)則:關(guān)鍵短語集合中權(quán)重最高的短語,如果是名詞短語,則根據(jù)該集合中其他詞匯進(jìn)行泛化,選擇關(guān)鍵短語最大的公共子串作為該話題的標(biāo)簽。

具體步驟如下:

計算關(guān)鍵短語集合P中短語p的泛化度。

(a)對于同時滿足條件i和條件ii的短語p,按照式(5)計算泛化度

i.短語p屬于P中權(quán)重最高的三個短語或者權(quán)重前三的短語包含p;

ii.P中至少存在兩個包含p的短語

(b)對于不滿足(a)中條件的短語p,按照式(6)計算泛化度。話題標(biāo)簽根據(jù)如下規(guī)則得出:

4 實驗結(jié)果分析

4.1 實驗語料

實驗共選取了兩個語料集進(jìn)行測試:2013年兩會新聞數(shù)據(jù)集和在2009至2013年發(fā)生的新聞事件集合。先預(yù)處理,分詞并抽取名詞動詞形容詞,去掉單個字以及高頻低頻詞,然后用LDA對其進(jìn)行建模。實驗設(shè)置參數(shù)α==0.01,其中K為話題數(shù)目。我們采取了一套自適應(yīng)的話題數(shù)目計算方法,根據(jù)新聞文本數(shù)目以及信息量隨時間的變化趨勢確定話題數(shù)目[9]。表3是不同事件對應(yīng)的新聞數(shù)目、詞匯數(shù)目、話題數(shù)目等信息,按照話題數(shù)目從小到大的順序展示。

4.2 實驗結(jié)果展示

話題標(biāo)簽抽取方法對新聞?wù)Z料進(jìn)行處理,主要包括三個步驟:種子詞抽?。魂P(guān)鍵短語集合生成;話題標(biāo)簽選擇。表4和表5分別展示了事件語料話題標(biāo)簽抽取實驗和兩會語料話題標(biāo)簽抽取實驗各步驟的結(jié)果。

實驗結(jié)果顯示,種子詞抽取方法能夠有效去除話題背景詞,抽取相關(guān)的重要詞匯。例如,臺灣領(lǐng)導(dǎo)人選舉話題2,話題關(guān)鍵詞中有很多背景詞,例如,“臺灣”“馬英九”等,根據(jù)3.1節(jié)提出的權(quán)重公式計算后,降低了背景詞的權(quán)重,提高了“兩岸關(guān)系”等詞匯的權(quán)重,更能反映話題的語義信息。

表3 實驗語料說明

表4 事件語料話題標(biāo)簽抽取結(jié)果

表5 兩會語料話題標(biāo)簽抽取結(jié)果

關(guān)鍵短語生成步驟可以產(chǎn)生有效的話題關(guān)鍵短語,例如臺灣領(lǐng)導(dǎo)人選舉事件中能夠生成和事件有關(guān)的“臺灣領(lǐng)導(dǎo)人選舉”、“臺灣領(lǐng)導(dǎo)人”等短語;2011年春節(jié)事件中能夠生成“回家過年”、“燃放煙花”等短語;兩會事件話題58中能夠生成和文化領(lǐng)域相關(guān)的“傳統(tǒng)文化”、“文化遺產(chǎn)”等。

根據(jù)完整性和泛化規(guī)則選擇的標(biāo)簽可以給出話題特定的語言信息,例如,2011春節(jié)話題4,“接待游客同比增長”而不是缺乏主語的“同比增長”。另一方面,臺灣領(lǐng)導(dǎo)人話題2“兩岸關(guān)系”作為標(biāo)簽,“兩岸關(guān)系”的泛化程度比“兩岸和平”高;例如,兩會話題30,話題標(biāo)簽“經(jīng)濟(jì)轉(zhuǎn)型”更能概括話題關(guān)鍵短語的信息。

4.3 話題標(biāo)簽實驗評測

4.3.1 精度評測

人工評測話題的標(biāo)簽是否符合話題的語義。評測需要的數(shù)據(jù)是話題標(biāo)簽以及該話題所占權(quán)重最大的文檔標(biāo)題。評測者根據(jù)新聞題目人工總結(jié)出關(guān)鍵短語,并和自動抽取的話題標(biāo)簽進(jìn)行比較,語義相關(guān)的判定話題標(biāo)簽正確,評分為1,部分相關(guān)的評分0.5,不相關(guān)的為0。例如,人工總結(jié)的短語是“兩岸和平”,計算機(jī)抽取的是“兩岸關(guān)系”,則該標(biāo)簽的精度為0.5;例如,人工總結(jié)的短語是“救援情況”,計算機(jī)抽取的標(biāo)簽是“登陸美國”,則該標(biāo)簽的精度是0。

本文實驗中有兩位評測者對全部語料進(jìn)行評測。計算出的精度如表6所示。結(jié)果顯示,話題標(biāo)簽抽取方法在兩會語料的精度可以達(dá)到39.5%,在事件語料上的精度可以達(dá)到27.9%。

表6 實驗評測結(jié)果

根據(jù)實驗評測結(jié)果,可以得到如下結(jié)論。

(a)話題標(biāo)簽抽取方法能較好的總結(jié)話題內(nèi)容,所抽取的標(biāo)簽短語由話題關(guān)鍵詞組成,能夠表示特定的語義信息。

(b)兩會語料的精度要高于事件語料,主要因為兩會語料討論的是話題,有一些固定的主題,例如,“國防軍事”“教育”“住房問題”等,兩會語料中抽取的話題標(biāo)簽往往由名詞性短語組成。而事件的話題信息比較特定,包括與事件有關(guān)的信息,事件語料中抽取的話題標(biāo)簽有很多包含動詞短語,反映事件特定的信息。

線索標(biāo)簽抽取方法存在不足,最主要是精度較低,這是因為本文提出的關(guān)鍵短語作為話題標(biāo)簽,短語更能反映話題的語義信息,但人工評測時,短語比詞匯更容易錯誤。另一方面,不同人對同一類文檔總結(jié)的標(biāo)簽也不相同,很難得出一個正確的答案。表7展示了部分錯誤的話題標(biāo)簽。

表7 錯誤結(jié)果分析

從錯誤結(jié)果可以看出(表7),錯誤原因包括以下幾個方面。

(1)部分LDA話題結(jié)果語義不明確,例如,兩會話題20,話題關(guān)鍵詞為“旅游”、“新華網(wǎng)”、“全國”、“江蘇”、“建設(shè)”、“市長”、“人大代表”、“老百姓”、“記者”、“游客”,并不具有明顯的語義信息。生成的關(guān)鍵短語只有“新華網(wǎng)記者”。

(2)對動詞詞組的處理不完善,例如,事件“2011年春節(jié)”話題3,關(guān)鍵短語為“回家過年”、“拜年方式”、“過年回家”,方法判定“回家過年”缺乏賓語,判定錯誤。方法在判斷包含動詞的短語和動詞性短語的關(guān)系上有所欠缺。

(3)部分短語泛化性偏高或偏低。例如,事件“馬云卸任CEO”,抽取的標(biāo)簽為“阿里巴巴集團(tuán)”,過于概括,不能表示具體的話題信息。例如兩會事件話題29抽取的標(biāo)簽為“山西生產(chǎn)”,過于具體。方法在選擇適中的泛化度上有待提升。

4.3.2 對比實驗

本文方法同文獻(xiàn)[9]中提出的方法進(jìn)行了比較,均根據(jù)LDA話題結(jié)果生成話題標(biāo)簽短語,如表8所示。

實驗結(jié)果可以看出,本文的方法得到的短語能夠表示特定的語義信息,例如兩會話題33,文獻(xiàn)[9]標(biāo)簽為“收入”,而本文選擇了“社區(qū)養(yǎng)老服務(wù)”,語義上更為完整;例如,臺灣領(lǐng)導(dǎo)人選舉話題2,本文標(biāo)簽為“兩岸關(guān)系”比文獻(xiàn)[9]“兩岸和平”更泛化和確切。本文方法部分實驗結(jié)果不如文獻(xiàn)[9]中方法,例如,臺灣領(lǐng)導(dǎo)人選舉話題0,本文標(biāo)簽“臺灣地區(qū)”泛化度偏高,不如文獻(xiàn)[9]“臺灣地區(qū)領(lǐng)導(dǎo)人選舉”。

表8 對比實驗結(jié)果

根據(jù)同樣的標(biāo)準(zhǔn)答案,表9是兩種方法精度的對比結(jié)果。可以看出本文方法的精度要高于文獻(xiàn)[9],在兩會語料中提高精度12%,在事件語料上提高精度4%。說明短語的完整性以及泛化度考慮方法的合理性。

表9 對比評測結(jié)果

5 結(jié)論和展望

本文提出了一種基于種子詞的話題標(biāo)簽抽取方法。方法首先根據(jù)提出的權(quán)重計算公式抽取每個話題的種子詞,然后,采用bootstrapping思想,迭代產(chǎn)生包含種子詞匯的關(guān)鍵短語集合,最后根據(jù)短語的完整性和泛化度選擇話題標(biāo)簽。

本文對新聞事件語料和兩會報告語料進(jìn)行了實驗,結(jié)果表明本文方法能夠有效地抽取出話題標(biāo)簽,相對于文獻(xiàn)[9]中的方法,本文抽取的短語完整性和概括性更高。本文主要的貢獻(xiàn)是:將種子詞抽取與bootstrapping方法引入到話題標(biāo)簽抽取的研究中;利用詞性標(biāo)注與短語結(jié)構(gòu)信息抽取話題標(biāo)簽;根據(jù)短語的完整性和泛化原則,抽取表達(dá)力更強(qiáng)的標(biāo)簽短語。

本文的方法還存在很多不足之處,后續(xù)工作包括以下三個方面:研究題目信息與話題之間的關(guān)系;使用更有效的LDA結(jié)果重排序公式;將話題標(biāo)簽抽取工作融合進(jìn)話題模型中,以短語為基本詞匯單元,同時引入詞性標(biāo)注信息等信息。

[1]Blei David,Ng Andrew,Jordan Michael.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.

[2]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展,計算機(jī)學(xué)報[J],2011,34(8):1423-1436.

[3]Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]//Proceedings of the 20th conference on uncertainty in artificial intelligence.AUAI Press,2004:487-494.

[4]Ruifeng XU,Lu YE.Reader's Emotion Prediction Based on Weighted Latent Dirichlet Allocation and Multi-label k-nearest Neighbor Model[J].Journal of Computational Information System,2013,9:6.

[5]Johri N,Roth D,Tu Y.Experts'retrieval with multiword-enhanced author topic model.Proceedings of the NAACL HLT 2010workshop on semantic search[C]//Proceedings of Association for Computational Linguistics,2010:10-18.

[6]William Darling,F(xiàn)ei Song.Probabilistic Topic and Syntax Modeling with Part-of-Speech LDA[C]//Proceedings of Association for Computational Linguistics.2005.

[7]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[J].Advances in neural information processing systems,2005,17:537-544.

[8]Allison J.B.Chaney,David M.Blei.Visualizing Topic Models[C]//Proceedings of Association for the Advancement of Artificial Intelligence.2012.

[9]閆澤華.基于LDA的新聞線索抽取研究[D].上海交通大學(xué)碩士論文,2012.

[10]Teh Y W,Jordan M I,Beal M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476).

[11]Blei D M,Lafferty J D.Visualizing topics with multiword expressions[J].arXiv preprint arXiv:0907.1013,2009.

[12]Wallach H M.Topic modeling:beyond bag-of-words[C]//Proceedings of the 23rd international conference on Machine learning.ACM,2006:977-984.

[13]Wang X,McCallum A,Wei X.Topical n-grams:Phrase and topic discovery,with an application to information retrieval[C]//Proceedings of Data Mining.ICDM 2007.Seventh IEEE International Conference on.IEEE,2007:697-702.

[14]Nallapati R,F(xiàn)eng A,Peng F,et al.Event threading within news topics[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management.ACM,2004:446-453.

[15]Lau J H,Newman D,Karimi S,et al.Best topic word selection for topic labelling[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:605-613.

[16]Carmel D,Roitman H,Zwerdling N.Enhancing cluster labeling using wikipedia[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval.ACM,2009:139-146.

[17]Song Y,Pan S,Liu S,et al.Topic and keyword reranking for LDA-based topic modeling[C]//Proceedings of the 18th ACM conference on Information and knowledge management.ACM,2009:1757-1760.

猜你喜歡
語料文檔短語
有人一聲不吭向你扔了個文檔
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
基于RI碼計算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
盱眙县| 罗平县| 河北区| 蓬安县| 林甸县| 水城县| 侯马市| 台前县| 天柱县| 平顺县| 阜南县| 开封市| 桂平市| 平昌县| 册亨县| 个旧市| 绥江县| 大渡口区| 合水县| 安宁市| 公安县| 鄂尔多斯市| 木兰县| 鄯善县| 渝中区| 大石桥市| 沿河| 康马县| 如东县| 大渡口区| 清徐县| 招远市| 理塘县| 临猗县| 吉水县| 久治县| 长治市| 轮台县| 松潘县| 南乐县| 鄂尔多斯市|