馮 沖,廖 純,劉至潤(rùn),黃河燕
(北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081)
?
基于詞匯語(yǔ)義和句法依存的情感關(guān)鍵句識(shí)別
馮 沖,廖 純,劉至潤(rùn),黃河燕
(北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081)
門戶網(wǎng)站、博客和論壇中的新聞性文章往往都帶有自己的情感傾向性,而情感關(guān)鍵句的識(shí)別對(duì)判斷文章的情感傾向、了解社會(huì)動(dòng)態(tài)和輿情狀況有著非常重要的作用.傳統(tǒng)方法主要基于詞匯特征,未能充分利用潛在的句法和語(yǔ)義信息.本文提出了一種基于詞匯語(yǔ)義和句法依存的情感關(guān)鍵句識(shí)別方法.該方法首先通過(guò)構(gòu)建情感詞典和關(guān)鍵詞詞典獲取詞匯語(yǔ)義信息,然后利用一種新穎的面向情感關(guān)鍵句提取算法獲取句法依存信息,最后把情感關(guān)鍵句的識(shí)別問(wèn)題看成一個(gè)是否為情感關(guān)鍵句的二分類問(wèn)題加以解決.在COAE2014公開(kāi)評(píng)測(cè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明本文方法的準(zhǔn)確率和召回率均顯著優(yōu)于其他方法.
情感關(guān)鍵句;詞匯語(yǔ)義;句法依存;支持向量機(jī)
網(wǎng)絡(luò)作為一種新型媒體不但成為各種社會(huì)思潮、利益訴求和意識(shí)形態(tài)較量的場(chǎng)所,而且也成為民眾評(píng)議時(shí)政、談?wù)撌欠?、交流觀點(diǎn)的集散地.抽取出一篇文章的情感關(guān)鍵句,對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)和分析有著重要的作用.情感關(guān)鍵句識(shí)別技術(shù)的研究目的在于自動(dòng)從海量信息中抽取出與主題相關(guān)的情感關(guān)鍵句,富有學(xué)術(shù)意義和實(shí)用價(jià)值.
情感關(guān)鍵句,又常被稱作主題情感句,主要包含兩個(gè)要素:主題關(guān)鍵詞和情感關(guān)鍵詞.主題關(guān)鍵詞用來(lái)概括篇章的主題;情感關(guān)鍵詞用來(lái)概括情感傾向.目前,關(guān)于情感關(guān)鍵句識(shí)別方面的研究并不多.林政、譚松波[1]等提出了一種情感關(guān)鍵句抽取算法,算法考慮句子的3類屬性:情感屬性、位置屬性和關(guān)鍵詞屬性,并將抽取出的情感關(guān)鍵句分別用于有監(jiān)督和半監(jiān)督的情感分類,取得了不錯(cuò)的效果;2014年,在中文信息學(xué)會(huì)主辦的第六屆中文傾向性評(píng)COAE(Chinese Opinion Analysis Evaluation)的任務(wù)一中提出了面向新聞的情感關(guān)鍵句抽取與判定任務(wù),要求在給定新聞集合(每篇文章已切成句子)中,判別每篇文章的情感關(guān)鍵句.本文研究工作采納此評(píng)測(cè)任務(wù)所提出的任務(wù)定義,并利用相同的公開(kāi)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)和對(duì)比分析.
總體來(lái)看,情感關(guān)鍵句識(shí)別的研究尚不成熟,目前還處于起步階段.而中文語(yǔ)言的靈活性及表達(dá)的多樣性,也使情感關(guān)鍵句識(shí)別的研究相對(duì)更加困難.目前情感關(guān)鍵句識(shí)別的方法大多僅基于規(guī)則或僅基于統(tǒng)計(jì),兩者結(jié)合的尚不充分.而且在抽取和分析過(guò)程中大都只利用到淺層分析,并未研究如何挖掘句子的深層信息.本文將情感關(guān)鍵句的識(shí)別問(wèn)題轉(zhuǎn)化為情感關(guān)鍵句二元分類問(wèn)題.首先采用點(diǎn)間互信息(PMI)對(duì)情感詞典進(jìn)行擴(kuò)充,從而得到領(lǐng)域性極強(qiáng)、召回率高的情感詞典,并采用LDA和TextRank相結(jié)合的方法構(gòu)建關(guān)鍵詞詞典.然后,對(duì)文章中的句子進(jìn)行過(guò)濾,保留含有情感詞或關(guān)鍵詞的句子,再對(duì)保留下來(lái)的句子進(jìn)行依存分析,進(jìn)一步挖掘句子的深層語(yǔ)義信息,并根據(jù)本文提出的依存模板提取算法構(gòu)建依存模板知識(shí)庫(kù).最后,將提取出的情感詞的出現(xiàn)概率、關(guān)鍵詞的TextRank得分、依存模板的出現(xiàn)概率、和位置特征按照一定的規(guī)則抽象成向量,利用SVM進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明,本文方法在準(zhǔn)確率和召回率上均大幅度超越了COAE2014評(píng)測(cè)公布的最佳成績(jī).
由于情感詞和主題詞是情感關(guān)鍵句的兩個(gè)重要組成成分,因此我們通過(guò)情感詞典擴(kuò)充和關(guān)鍵詞詞典構(gòu)建來(lái)獲取詞匯語(yǔ)義信息.
2.1 情感詞典擴(kuò)充
構(gòu)建一個(gè)覆蓋面大、精確率高的情感詞典在近些年受到人們的普遍關(guān)注[2,3].目前,文本情感分析研究領(lǐng)域還沒(méi)有一部完整且通用的情感詞典.本文采用知網(wǎng)hownet*http://www.keenage.com/html/c-index.html和簡(jiǎn)體中文的NTUSD*http://www.datatang.com/data/11837構(gòu)成基礎(chǔ)情感詞典,并對(duì)基礎(chǔ)情感詞典進(jìn)行擴(kuò)充.擴(kuò)展情感詞典的方法主要有基于語(yǔ)義相似度[4,5]和基于同義詞的方法[6,7].本文采用點(diǎn)間互信息(PMI),通過(guò)計(jì)算詞語(yǔ)間的語(yǔ)義相似程度,構(gòu)建出一個(gè)領(lǐng)域相關(guān)的情感詞典DEL(Domain-related Emotion Lexicon),其計(jì)算公式如下:
(1)
式中P(w1&w2)表示w1和w2在同一個(gè)句子中共同出現(xiàn)的概率,P(w1)和P(w2)分別表示兩個(gè)詞語(yǔ)單獨(dú)出現(xiàn)的概率.
基于點(diǎn)間互信息PMI算法過(guò)程如下:
(1)對(duì)語(yǔ)料進(jìn)行預(yù)處理,并按詞性篩選出名詞、動(dòng)詞和形容詞作為候選詞.
(2)分別計(jì)算上文的基礎(chǔ)情感詞典中每個(gè)詞與這些候選詞之間的點(diǎn)間互信息.
(3)對(duì)于基礎(chǔ)情感詞典中的每個(gè)詞,選取前五個(gè)互信息高的詞語(yǔ),與其出現(xiàn)頻率一起加入基礎(chǔ)情感詞典,生成最終的領(lǐng)域相關(guān)的情感詞典DEL.
2.2 關(guān)鍵詞詞典構(gòu)建
所謂關(guān)鍵詞詞典KL(Keywords Lexicon)構(gòu)建,就是從一篇給定的文本中自動(dòng)抽取出若干有意義的詞語(yǔ)或詞組,抽取方法既可以通過(guò)訓(xùn)練語(yǔ)料[8,9]構(gòu)建模型實(shí)現(xiàn),也可以借助于詞語(yǔ)之間的關(guān)系直接從文本本身抽取.關(guān)于無(wú)監(jiān)督關(guān)鍵詞抽取方法的研究,主流方法可歸納為三種:基于TF-IDF統(tǒng)計(jì)特征、基于主題模型[10,11]和基于詞圖模型[12~14]的關(guān)鍵詞抽取方法.本文首先提出了一種新的加權(quán)方法PCFO,然后采用LDA和TextRank[12]相結(jié)合的詞圖模型進(jìn)行關(guān)鍵詞抽取,構(gòu)建關(guān)鍵詞詞典.
(1)PCFO:一種圖模型混合加權(quán)方法
對(duì)于圖中的任一結(jié)點(diǎn)v來(lái)說(shuō),其重要性得分由其相鄰結(jié)點(diǎn)的貢獻(xiàn)組成,而其本身的得分也將被轉(zhuǎn)移到相鄰結(jié)點(diǎn).通過(guò)觀察發(fā)現(xiàn),一個(gè)結(jié)點(diǎn)對(duì)相鄰結(jié)點(diǎn)集的影響力主要可以分解為四個(gè)組成部分:位置重要性的影響力(position)、覆蓋重要性的影響力(coverage)、頻度重要性的影響力(frequency)和共現(xiàn)重要性(co-occurrence)的影響力.因此,本文提出了一種新的圖模型混合加權(quán)方法PCFO.
令wij表示結(jié)點(diǎn)vi和vj的整體影響力權(quán)重,α,β,γ,δ分別表示這四類不同的影響力所占的比重,則兩節(jié)點(diǎn)之間的權(quán)值可以設(shè)為以下形式:
wij=αwpos(vi,vj)+βwcov(vi,vj)+γwfreq(vi,vj)
+δwco-occur(vi,vj)
(2)
其中α+β+γ+δ=1.
(a)wpos(vi,vj)表示節(jié)點(diǎn)vi的位置影響力傳遞到vj的權(quán)重,計(jì)算公式如下:
(3)
其中,P(vj)表示節(jié)點(diǎn)vj的位置重要性得分,具體賦值方式如下:
其中,λ是一個(gè)比1大的數(shù)字,實(shí)驗(yàn)中,經(jīng)過(guò)驗(yàn)證選擇λ=1.5.
(b)wcov(vi,vj)表示節(jié)點(diǎn)vi覆蓋影響力傳遞到vj的權(quán)重,計(jì)算公式如下:
(4)
其中,|Out(vi)|表示節(jié)點(diǎn)vi的出度.
(c)wfreq(vi,vj)表示節(jié)點(diǎn)vi的頻度影響力傳遞到vj的權(quán)重,計(jì)算公式如下:
(5)
其中,f(vj)表示節(jié)點(diǎn)vj所代表的詞語(yǔ)在文章中出現(xiàn)的次數(shù).
(d)wco-occur(vi,vj)表示節(jié)點(diǎn)vi的共現(xiàn)影響力傳遞到vj的權(quán)重,計(jì)算公式如下:
(6)
其中,Co(vi,vj)表示節(jié)點(diǎn)vi,vj所代表的詞語(yǔ)在一定窗口內(nèi)共現(xiàn)的次數(shù).
(2)考慮主題分布的詞圖模型構(gòu)建
TextRank的思想來(lái)源于PageRank,通過(guò)把文本分割成若干組成單元并建立圖模型,利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序.但傳統(tǒng)的詞圖模型中每個(gè)節(jié)點(diǎn)是以相等的概率隨機(jī)跳轉(zhuǎn)的,這種方法容易產(chǎn)生局部最優(yōu)的情況.因此,在隨機(jī)游走的過(guò)程中考慮文章的主題分布,把每一個(gè)詞屬于特定主題的概率P(z|w)作為該主題下詞的隨機(jī)跳轉(zhuǎn)概率,即P(zt|vi)=P(z|w),P(z|w)由LDA模型求得.因此,在考慮主題分布的詞圖模型中,根據(jù)TextRank的打分策略,按照式(7)給每一個(gè)詞賦予一個(gè)不同主題下的得分:
+(1-λ)P(zt|vi)
(7)
其中,λ是一個(gè)阻尼因子,表示每個(gè)節(jié)點(diǎn)都有1-λ的概率隨機(jī)跳轉(zhuǎn)到圖中的其他節(jié)點(diǎn).w(vj,vi)表示節(jié)點(diǎn)vj到vi的邊的權(quán)值(由上文PCFO方法求得),Out(vj)表示由vj出發(fā)的所有邊的權(quán)值之和,P(zt|vi)表示vi節(jié)點(diǎn)所代表的詞屬于當(dāng)前主題的概率.Rzt(vi)表示節(jié)點(diǎn)vi在主題zt下的得分,迭代上述式子,直到收斂.
最后按照式(8)對(duì)所有主題下的得分加權(quán)求和得到一個(gè)最終的得分,排序取排名較高的節(jié)點(diǎn)作為最終的關(guān)鍵詞提取結(jié)果.
(8)
其中,Rzt(vi)表示節(jié)點(diǎn)vi在主題zt下的得分,P(zt|d)表示該篇文檔屬于主題zt的概率,R(vi)表示節(jié)點(diǎn)vi的最終得分.
因此,關(guān)鍵詞提取算法如下:
算法1 關(guān)鍵詞提取算法
輸入:語(yǔ)料集corpus
輸出:每篇文檔對(duì)應(yīng)的關(guān)鍵詞詞典KL
for doc in corpus:
for sen in doc:
分詞,詞性標(biāo)注,去除停用詞;
for topic in doc:
構(gòu)建圖模型G=(V,E);
按式(7)迭代計(jì)算每一個(gè)節(jié)點(diǎn)在特定主題下的得分;
按照式(8)計(jì)算每一個(gè)節(jié)點(diǎn)的最終得分;
按照最終得分對(duì)節(jié)點(diǎn)排序;
KL=節(jié)點(diǎn)代表的詞+最終得分
return KL
依存句法分析[15,16]主要通過(guò)語(yǔ)言單位的各個(gè)組成部分來(lái)體現(xiàn)句子中的結(jié)構(gòu)信息.依存關(guān)系文法中將每個(gè)句子的謂語(yǔ)動(dòng)詞作為一句話的中心,認(rèn)為它可以支配其他成分而它本身是不受其他任何成分的制約的,其他所有被支配的成分都附屬于其支配者并存在某種依存關(guān)系.依存關(guān)系反映的是中心詞和與其相互依存的附屬詞之間的語(yǔ)義依賴關(guān)系[17].例如句子“筆者認(rèn)為這必將受到嚴(yán)厲懲罰.”,使用LTP[18]進(jìn)行依存分析結(jié)果如圖1所示,該句中心詞為“認(rèn)為”,與中心詞相依存的依存關(guān)系為“SBV”、“VOB”和“WP”關(guān)系.
面向情感關(guān)鍵句的依存模板提取算法如下:
算法2 面向情感關(guān)鍵句的依存模板提取算法
輸入:經(jīng)過(guò)預(yù)處理得到的語(yǔ)料T(情感關(guān)鍵句與非情感關(guān)鍵句),領(lǐng)域相關(guān)的情感詞典DEL,依存分析結(jié)果DP
輸出:依存知識(shí)庫(kù)DKB
for word in sentence of T:
if word in DEL or Hownet advocating words:
CoreWord+= word;
if word.relate == ‘HED’ in DP:
CoreWord+= word;
for word in sentence:
if word.parent in CoreWord and word.relation != WP:
dpWords+= word +word.relation
//筆者(SBV)認(rèn)為(HED)受到(VOB)
//ForeRelations = SBV and BackRelations = VOB.
for word in dpWords:
if word.ip < CoreWord.ip:
ForeRelations += relation
else:
BackRelations += relation
// SBV+認(rèn)為+VOB
for forerelation in ForeRelations:
for backrelation in BackRelations:
template += forerelation +CoreWord +backrelation
//選取最終模板
for template in 情感關(guān)鍵句 and 非情感關(guān)鍵句:
計(jì)算模板出現(xiàn)概率
if frequency in 情感關(guān)鍵句>非情感關(guān)鍵句:
Final-templates += template
DKB += Final-templates +frequencies
return DKB
本文提出四種SVM的候選特征:情感詞特征,關(guān)鍵詞特征,依存模板特征和位置特征.針對(duì)情感詞、關(guān)鍵詞和依存模板特征,分別選取領(lǐng)域相關(guān)的情感詞典DEL、關(guān)鍵詞詞典KL和依存知識(shí)庫(kù)DKB中排名較高的前n位的得分,與該類特征的維數(shù)一起作為相對(duì)應(yīng)部分的特征.此外,由于中文文章的文章結(jié)構(gòu)不外乎“總-分-總”、“分-總”、“總-分”、“分-分-分”,而上述第四種形式是非常少見(jiàn)的,因此有關(guān)作者主觀情感及看法的句子,即情感關(guān)鍵句,一般都出現(xiàn)在文章的開(kāi)頭或結(jié)尾.因此,針對(duì)位置特征[1],實(shí)驗(yàn)選擇兩種打分函數(shù)進(jìn)行實(shí)驗(yàn),第一種采用改進(jìn)后的正態(tài)分布Normal形式,如下:
(9)
第二種采用拋物線的形式,打分函數(shù)如下:
scoresen(pos(sen))=a×pos(sen)2
+b×pos(sen)+c
(10)
5.1 實(shí)驗(yàn)系統(tǒng)和數(shù)據(jù)集
本文情感關(guān)鍵句識(shí)別的主要流程如圖2所示:
(1)預(yù)處理:分詞詞性標(biāo)注*http://www.ltp-cloud.com/、去除停用詞.
(2)分別對(duì)句子進(jìn)行詞匯語(yǔ)義和句法依存分析:擴(kuò)展情感詞典、構(gòu)建關(guān)鍵詞詞典,構(gòu)建依存知識(shí)庫(kù).
(3)根據(jù)擴(kuò)展后的情感詞典和構(gòu)建的關(guān)鍵詞詞典,按規(guī)則的方法對(duì)句子進(jìn)行過(guò)濾,獲取含有情感詞和關(guān)鍵詞的候選情感關(guān)鍵句.
(4)生成候選情感關(guān)鍵句的4種特征:情感詞、關(guān)鍵詞、依存模板和位置特征.
(5)使用SVM進(jìn)行分類,判別一個(gè)句子是否是情感關(guān)鍵句.
本文數(shù)據(jù)集采用COAE2014公開(kāi)的評(píng)測(cè)數(shù)據(jù)集,共包含1994篇文檔.使用SVM進(jìn)行分類時(shí),使用4047句情感關(guān)鍵句,以及非情感關(guān)鍵句5000句作為訓(xùn)練集;972句情感關(guān)鍵句,以及7325句非情感關(guān)鍵句進(jìn)行測(cè)試,并采用傳統(tǒng)的準(zhǔn)確率、召回率和F值對(duì)提取結(jié)果進(jìn)行評(píng)價(jià).
5.2 情感詞典
情感詞典作為情感關(guān)鍵句的重要特征,實(shí)驗(yàn)采用情感詞典擴(kuò)充前后在情感關(guān)鍵句中的覆蓋率,驗(yàn)證其完整性和適應(yīng)性.通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在5119句情感關(guān)鍵句中,對(duì)于擴(kuò)展前的情感詞典,出現(xiàn)情感詞的情感關(guān)鍵句有3721句,覆蓋率為72%;而對(duì)于擴(kuò)展之后的情感詞典,出現(xiàn)情感詞的情感關(guān)鍵句有5019句,覆蓋率高達(dá)98%,由此可見(jiàn),情感詞典的擴(kuò)展在一定程度上大大提高了情感詞的覆蓋率,在一定程度上彌補(bǔ)了基礎(chǔ)情感詞典與領(lǐng)域不相關(guān)的不足.但僅僅依賴情感詞匹配的方法遠(yuǎn)遠(yuǎn)不能達(dá)到目的,情感詞典要和其他方法相互配合才能達(dá)到更好抽取情感關(guān)鍵句的目的.
5.3 不同關(guān)鍵詞詞典構(gòu)建方法的比較
關(guān)鍵詞信息是情感關(guān)鍵句的一個(gè)重要元素,因此關(guān)鍵詞提取效果將直接影響情感關(guān)鍵句抽取的準(zhǔn)確率.實(shí)驗(yàn)主要采用了四種關(guān)鍵詞提取方法,分別采用三種不同的加權(quán)方法:距離的倒數(shù)、共現(xiàn)次數(shù)、PCFO方法分別與傳統(tǒng)的Tf-idf方法進(jìn)行情感關(guān)鍵句識(shí)別.結(jié)果如表1所示.
表1 不同關(guān)鍵詞詞典構(gòu)建方法的比較
實(shí)驗(yàn)結(jié)果表明,本文提出的PCFO方法大大提升了情感關(guān)鍵句提取的效果.這主要是因?yàn)楸疚牟捎肔DA與TextRank相結(jié)合的方法,克服了傳統(tǒng)圖模型中隨機(jī)游走的缺點(diǎn),并采用PCFO方法綜合考慮位置、覆蓋、頻度、共現(xiàn)四種影響力對(duì)圖模型的權(quán)值進(jìn)行修正.為使PCFO方法達(dá)到最優(yōu),實(shí)驗(yàn)研究了α,β,γ,δ四個(gè)參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響.實(shí)驗(yàn)采用5種不同的(α,β,γ,δ)的組合,結(jié)果如圖3所示,其中1、2、3、4、5分別代表(0,1,0,0)、(0.5,0.5,0,0)、(0.3,0.4,0.3,0)、(0.2,0.3,0.2,0.3)與(0.25,0.25,0.25,0.25)五種組合.
從圖中可以看到,當(dāng)選擇8維作為SVM關(guān)鍵詞向量維度,并使用第4種組合(0.2,0.3,0.2,0.3)時(shí),實(shí)驗(yàn)效果最好.在關(guān)鍵詞向量維度選擇上,過(guò)大的維度反而會(huì)降低分類能力;而在四種影響力的組合上,綜合考慮位置、覆蓋、頻度、共現(xiàn)四種影響力的組合遠(yuǎn)比只考慮一部分的效果要好.
5.4 不同特征組合的比較
實(shí)驗(yàn)采用4種候選特征的不同組合加入SVM進(jìn)行實(shí)驗(yàn):情感詞(Sentiment)與關(guān)鍵詞(Keyword);情感詞、關(guān)鍵詞與依存模板信息(dp);情感詞、關(guān)鍵詞、依存模板信息與采用改進(jìn)的高斯分布(P1)進(jìn)行打分的位置信息;情感詞、關(guān)鍵詞、依存模板信息與采用拋物線(P2)進(jìn)行打分的位置信息.實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同SVM特征組合的比較
實(shí)驗(yàn)結(jié)果表明,依存分析大大提升了情感關(guān)鍵句識(shí)別的效果.同時(shí),位置特征部分使用拋物線形式優(yōu)于改進(jìn)的正態(tài)分布形式.這主要是因?yàn)檎龖B(tài)分布曲線在篇章首尾部分過(guò)于平滑,對(duì)篇章首尾部分的句子打分函數(shù)值變化不是很大,不能很好地體現(xiàn)出篇章首尾句子的重要性.
5.5 不同情感關(guān)鍵句識(shí)別方法的比較
本節(jié)比較了本文融合詞匯語(yǔ)義和句法依存的方法(Lexicon +Syntax(Rules+Statistics))與其他四種基本方法:COAE2014任務(wù)1的最好結(jié)果(COAE)、基于詞匯(Lexicon[1])、人工標(biāo)注500條數(shù)據(jù)作為訓(xùn)練集(COAE-500labelled)和去掉本文情感關(guān)鍵句識(shí)別流程中第三步,即不預(yù)先過(guò)濾掉一部分句子的方法(Lexicon+Syntax(Statistics)),實(shí)驗(yàn)結(jié)果如表3所示.
表3 不同情感關(guān)鍵句識(shí)別方法的比較
實(shí)驗(yàn)結(jié)果表明,融合了詞匯語(yǔ)義和句法依存信息的方法大大提升了情感關(guān)鍵句識(shí)別效果.而且,即使僅選擇500條人工標(biāo)注的句子進(jìn)行實(shí)驗(yàn),仍然取得了比COAE和基于詞匯方法更高的效果.另外,當(dāng)使用情感詞典、關(guān)鍵詞詞典對(duì)語(yǔ)料進(jìn)行規(guī)則過(guò)濾的時(shí)候,相當(dāng)于一個(gè)降噪的過(guò)程,以保證達(dá)到更高的準(zhǔn)確率P、召回率R和F值.
本文提出了情感關(guān)鍵句識(shí)別的新思路,將其看作一個(gè)二元分類問(wèn)題,通過(guò)情感詞典的擴(kuò)充與關(guān)鍵詞詞典的創(chuàng)建,首先對(duì)所有文章中的句子進(jìn)行規(guī)則過(guò)濾,然后選擇情感詞、關(guān)鍵詞、依存模板和位置特征,利用SVM分類器完成識(shí)別.實(shí)驗(yàn)結(jié)果表明,該方法顯著優(yōu)于前人方法.
然而,有些問(wèn)題還有待更深入的研究,下一步工作中將重點(diǎn)探究如下問(wèn)題:(1)考慮對(duì)句子進(jìn)行短語(yǔ)結(jié)構(gòu)分析,并將其與依存分析相結(jié)合,共同為情感關(guān)鍵句的識(shí)別服務(wù);(2)對(duì)現(xiàn)有的依存模板進(jìn)行同義詞擴(kuò)展,改進(jìn)依存關(guān)系提取算法,嘗試提出更具普遍意義的依存關(guān)系提取算法;(3)在漢語(yǔ)情感關(guān)鍵句語(yǔ)料庫(kù)的建設(shè)上,統(tǒng)計(jì)構(gòu)建一個(gè)更大規(guī)模的情感關(guān)鍵句集合勢(shì)在必行.
[1]林政,等.基于情感關(guān)鍵句抽取的情感分類研究[J].計(jì)算機(jī)研究與發(fā)展,2012,49(11):2376-2382.
Zheng Lin,et al.Sentiment classification analysis based on extraction of sentiment key sentence[J].Journal of Computer Research and Development,2012,49(11):2376-2382.(in Chinese)
[2]E Riloff,et al.A corpus-based approach for building semantic lexicons[A].In Proceedings of the second conference on empirical methods in natural language processing[C].eprint arXiv:cmp-lg/9706013,1997.117-124.
[3]V Hatzivassiloglou,et al.Predicting the semantic orientation of adjectives[A].In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics[C].Spain:Universidad Nacional de Educaci6n a Distancia,1997.174-181.
[4]Turney,P D,et al.Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Transactions on Information Systems (TOIS),2003,21(4),315-346.
[5]朱嫣嵐,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1),14-20.
Zhu Yanlan,et al.Semantic orientation computing based on HowNet[J].Journal of Chinese information processing,2006,20(1):14-20.(in Chinese)
[6]田久樂(lè),等.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(6):602-608.
Tian Jiule,et al.Words similarity algorithm based on tongyiciCilin in semantic web adaptive learning system[J].Journal of Jilin University(Information Science Edition),2010,28(6):602-608.(in Chinese)
[7]王素格,等.基于同義詞的詞匯情感傾向性判別方法[J].中文信息學(xué)報(bào),2009,23(5):68-74.
Wang Suge,et al.A synonyms based word sentiment orientation discriminating[J].Journal of Chinese information processing,2009,23(5):68-74.(in Chinese)
[8]Frank,E.,et al.Domain-specific keyphrase extraction[A].In Proceedings of 16th International Joint Conference on Artificial Intelligence[C].New York:Association for Computing Machinery,1999.668-673.
[9]Turney,P D.Learning algorithms for keyphrase extraction[J].Information Retrieval,2000,2(4):303-336.
[10]Blei,D M,et al.Latent dirichlet allocation[J].The Journal of machine Learning research,2003,3:993-1022.
[11]Pasquier,C.Task 5:Single document keyphrase extraction using sentence clustering and Latent Dirichlet Allocation[A].In Proceedings of the 5th international workshop on semantic evaluation[C].USA:Association for Computational Linguistics,2010.154-157.
[12]Liu,Z,et al.Automatic keyphrase extraction via topic decomposition[A].In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing[C].USA:Association for Computational Linguistics,2010.366-376.
[13]Page,L,et al.The PageRank citation ranking:Bringing order to the web[J].Stanford Infolab,1999,9(1):1-14.
[14]Mihalcea,et al.TextRank:Bringing order into texts[A].In Proceedings of Empirical Methods in Natural Language Processing[C].Stroudsburg:Association for Computational Linguistics,2004.404-411.
[15]Hermjakob,U.Parsing and question classification for question answering[A].In Proceedings of the workshop on Open-domain question answering-Volume 12[C].Stroudsburg:Association for Computational Linguistics,2001.1-6.
[16]Baoshun Hu,et al.An answer extraction algorithm based on syntax structure feature parsing and classification[J].In Chinese journal of computers,2008,31(4):662-676.
[17]Li xin,et al.Learning question classifiers[A].In Proceedings of the 19th international conference on Computational linguistics-Volume 1[C].Stroudsburg:Association for Computational Linguistics,2002.1-7.
[18]Che Wanxiang,et al.Ltp:A chinese language technology platform[A].In Proceedings of the 23rd International Conference on Computational Linguistics:Demonstrations[C].Stroudsburg:Association for Computational Linguistics,2010.13-16.
馮 沖(通信作者) 男,1977年生于河南駐馬店,北京市海量語(yǔ)言信息處理和云計(jì)算應(yīng)用工程研究中心副研究員,主要研究方向?yàn)樯鐣?huì)媒體處理、機(jī)器翻譯、信息抽取等自然語(yǔ)言處理相關(guān)領(lǐng)域.
E-mail:fengchong@bit.edu.cn
廖 純 女,1990年生于河南駐馬店,北京理工大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò),評(píng)價(jià)對(duì)象評(píng)價(jià)詞抽取,情感傾向性分析.
E-mail:cliao@bit.edu.cn
Sentiment Key Sentence Identification Based on Lexical Semantics and Syntactic Dependency
FENG Chong,LIAO Chun,LIU Zhi-run,HUANG He-yan
(BeijingInstituteofTechnology,Beijing100081,China)
A lot of news articles in the portal,blog and forums always have their own emotional orientations and sentiment key sentence identification plays an important role in distinguishing emotional orientation of one article,supervising social trends and public sentiment state.The traditional lexicon-based methods totally depended on lexical semantics and did not excavate the implied syntactic structure.So a hybrid method of sentiment key sentence identification based on lexical semantics and syntactic dependency is proposed in this paper.This approach first gets lexical semantics knowledge from emotion lexicon expansion and keywords lexicon construction,and then this paper proposes a novel dependency templates extraction algorithm for syntactic dependency information to build a dependency knowledge base,finally we regard sentiment key sentence identification as a classification task and perform identification through different groups of features.Experimental results on COAE2014 dataset show that this approach notably outperforms other baselines of sentiment key sentence identification on precision and recall.
sentiment key sentence identification;lexical semantics;syntactic dependency;support vector machine
2015-02-03;
2015-07-20;責(zé)任編輯:馬蘭英
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(No.2013CB329605,No.2013CB329303);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(No.61132009,No.61201351);國(guó)家高技術(shù)研究發(fā)展計(jì)劃863項(xiàng)目(No.2015AA015404)
TP391.1
A
0372-2112 (2016)10-2471-06
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.10.027