廖祥文,許洪波,鐘尚平
(1. 福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州350108;2. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)
近年來,博客作為Web 2.0的典型應(yīng)用之一,得到越來越多的關(guān)注。易用的博客工具軟件、政治因素催化(比如,“9·11”事件爆發(fā)后許多人通過博客發(fā)布資訊、2008年奧巴馬競(jìng)選美國(guó)總統(tǒng)為宣揚(yáng)自己政見推出競(jìng)選博客)、媒體炒作(比如,娛樂人士在博客上自我炒作)等因素驅(qū)使博客規(guī)模迅猛增長(zhǎng),從而使得博客發(fā)展成一種重要的在線內(nèi)容(Online Content)媒介。在博客上,人們可以發(fā)表新聞、分享日常生活經(jīng)歷、表達(dá)他們對(duì)感興趣主題的情感、觀點(diǎn)和看法等。與諸如網(wǎng)頁、BBS等傳統(tǒng)媒介不同,博客有著其自身特點(diǎn)[1]:
? 首先,每個(gè)博客通常由博主本人維護(hù)和更新。因而,博客是私有的,代表博主的興趣、觀點(diǎn)以及博主與他人的互動(dòng)情況。
? 其次,博主經(jīng)常更新、添加新的博文。所以,與不怎么更新的普通網(wǎng)站相比,它包含更多新內(nèi)容,更新的頻率也更高。
? 最后,與普通網(wǎng)頁不同的是,博客以日記體形式存在,每篇博文都有確定的時(shí)間戳。
因此,博客是博主個(gè)人情感的表達(dá)和體現(xiàn),其核心價(jià)值在于個(gè)性化情感表達(dá)與社會(huì)屬性,從而使得博客的傾向性價(jià)值引起國(guó)內(nèi)外學(xué)術(shù)界的廣泛關(guān)注[2-4]。自2006年以來NIST連續(xù)舉辦了國(guó)際TREC 博客傾向性檢索(Opinion Retrieval)評(píng)測(cè)比賽[2-3]。與傳統(tǒng)的檢索不同,博客傾向性檢索的目標(biāo)是檢索出與給定查詢既要主題相關(guān)又要包含查詢相關(guān)評(píng)論的博文單元,并依據(jù)傾向性強(qiáng)度進(jìn)行排序。它更側(cè)重于挖掘博客空間中博主對(duì)特定查詢所體現(xiàn)的意見和情感。從某種意義上說,傾向性檢索是信息檢索和傾向性分析技術(shù)的融合。
如何合理度量博主對(duì)特定查詢的傾向性強(qiáng)弱是博客傾向檢索的關(guān)鍵,也是其面臨的最大挑戰(zhàn)。國(guó)內(nèi)外研究者已經(jīng)做了比較深入的研究,主要有如下兩類方法:第一類,對(duì)每個(gè)博文單元直接建立模型度量其對(duì)特定查詢的評(píng)論程度;第二類,先度量博文單元與特定查詢的主題相關(guān)性得到主題相關(guān)分?jǐn)?shù),然后在此基礎(chǔ)上計(jì)算博文單元對(duì)博文的評(píng)論強(qiáng)弱得到傾向性分?jǐn)?shù),最后融合二者分?jǐn)?shù)得到最終傾向性檢索分?jǐn)?shù)進(jìn)行排序。這兩類方法都是基于單個(gè)博文單元內(nèi)容對(duì)特定查詢進(jìn)行傾向性評(píng)分。然而,因?yàn)椴┛褪遣┲鞅磉_(dá)自己觀點(diǎn)情感的媒介,所以博主的個(gè)性風(fēng)格能夠很大程度上影響著傾向性強(qiáng)度。例如,樂觀的博主往往用褒義程度比較強(qiáng)的傾向詞來贊美某一事件(比如,“很好、非常棒”等),而悲觀的博主則往往用褒貶程度比較弱的傾向詞(比如,“一般、還可以”)。因此,同樣一個(gè)傾向詞對(duì)于不同的博主所表達(dá)的傾向性強(qiáng)弱不一樣,忽略博主因素,而僅僅使用單一的博文單元獲取傾向性評(píng)分,會(huì)給傾向性評(píng)分帶來較大偏差。為了解決該問題,我們首先分析博主背景因素對(duì)傾向性評(píng)分的影響并建立博主背景模型,然后提出一個(gè)基于博主背景的博客傾向性歸一化策略,最后使用該策略對(duì)基于概率推理的博客傾向性檢索算法進(jìn)行歸一化以驗(yàn)證該策略的有效性。實(shí)驗(yàn)結(jié)果表明,基于博主背景的傾向性檢索歸一化策略能夠更加合理地對(duì)博文單元進(jìn)行排序。
本文的組織方式如下:第2節(jié)介紹相關(guān)工作;第3節(jié)對(duì)博主背景建模;第4節(jié)介紹基于博主背景的博客傾向性歸一化策略,并利用該策略對(duì)基于概率推理的博客傾向性檢索算法進(jìn)行歸一化;第5節(jié)介紹實(shí)驗(yàn)方法及結(jié)果分析;最后一節(jié)得出本文的結(jié)論。
傾向性(英文為“Opinion”或“Sentiment”,本文不做區(qū)分)檢索指的是對(duì)某個(gè)特定查詢所持有的意見、觀點(diǎn)或評(píng)論。隨著計(jì)算技術(shù)的發(fā)展,傾向性相關(guān)研究從2002年以來逐漸成為研究熱點(diǎn)問題。國(guó)內(nèi)外探討與傾向相關(guān)的研究起源于傾向性判別,比如電影領(lǐng)域影評(píng)傾向性判別。它的目標(biāo)是判定給定的文檔對(duì)某特定查詢是正面態(tài)度、負(fù)面態(tài)度還是中性。大多數(shù)的研究工作采用基于機(jī)器學(xué)習(xí)的方法判別文檔對(duì)特定查詢所持有的態(tài)度:它們主要從尋找表達(dá)傾向性的特征[5]、分析比較已有機(jī)器學(xué)習(xí)方法[6]和尋求新的機(jī)器學(xué)習(xí)方法[7]三個(gè)方面開展工作。然而,所有這些研究工作往往都基于這樣一個(gè)前提:假設(shè)所有文檔只與特定查詢相關(guān)。但是一篇文檔中,作者在不同的段落可能描述不同的主題,在不同段落中的傾向詞作用范圍也不盡相同,可能描述的主題與文章的主題一致,也可能是與主題不一致(比如,雖然文檔存在大量的傾向詞,但是并不描述特定查詢)。因此在研究過程中,需要驗(yàn)證該假設(shè)是否成立,否則可能產(chǎn)生較大的偏差。為了減少這種偏差,越來越多的研究者轉(zhuǎn)向研究?jī)A向性檢索。傾向性檢索的目標(biāo)是依據(jù)文檔對(duì)特定查詢的傾向性強(qiáng)弱對(duì)文檔進(jìn)行排序。排序靠前的文檔不僅與特定查詢主題相關(guān),而且與對(duì)特定查詢的評(píng)論強(qiáng)弱程度有關(guān)。由此可以看出,傾向性檢索是信息檢索和文本傾向性挖掘領(lǐng)域的交叉學(xué)科。它成為近年來眾多研究者關(guān)注的熱點(diǎn)問題之一。
近年來,國(guó)內(nèi)外眾多研究者依托博客這個(gè)巨大的傾向性知識(shí)庫,開展傾向性相關(guān)研究,特別是博客傾向性檢索。自2006年以來NIST組織的國(guó)際文本評(píng)測(cè)比賽連續(xù)三年舉辦了博客傾向性檢索(Blog Opinion Retrieval)評(píng)測(cè)比賽。該評(píng)測(cè)側(cè)重于挖掘博客空間中博主對(duì)特定主題所體現(xiàn)的意見和情感。國(guó)內(nèi)中科院計(jì)算所、中科院自動(dòng)化所和復(fù)旦大學(xué)聯(lián)合舉辦的第一屆中文傾向性分析評(píng)測(cè)(COAE2008)中也設(shè)置了傾向性檢索任務(wù)。與傳統(tǒng)的檢索不同,博客傾向性檢索的目標(biāo)是檢索出與給定查詢既要主題相關(guān)又要具有傾向性的博文單元(包含博文和評(píng)論兩部分)[2]。從某種意義上說,傾向性檢索是信息檢索和傾向性分析技術(shù)的融合。目前國(guó)內(nèi)外博客傾向性檢索的研究主要分為如下兩大類。第一類,對(duì)每個(gè)博文單元直接建立模型度量其對(duì)特定查詢的評(píng)論程度。M. Hurst 等人[8]首次同時(shí)綜合考慮了主題因素和傾向性因素,用于尋找與給定主題相關(guān)的傾向性。K. Eguchi 等人[9]給出了一個(gè)統(tǒng)計(jì)語言模型檢索框架,并提出一個(gè)評(píng)分公式試圖對(duì)傾向性強(qiáng)弱進(jìn)行度量,但是在TREC評(píng)測(cè)上的結(jié)果并不盡如人意。Min Zhang等人[10]提出了一種基于詞典的產(chǎn)生式模型(Generation Model)傾向性檢索模型,從一定程度上為分析傾向性檢索提供理論工具。廖祥文等人[11]把概率推理模型應(yīng)用于博客傾向性檢索中,提出一個(gè)基于概率推理模型的博客傾向性檢索算法,有效地提高傾向性檢索效果。第二類,先度量博文單元與特定查詢的主題相關(guān)性得到主題相關(guān)分?jǐn)?shù),然后在此基礎(chǔ)上計(jì)算博文單元對(duì)博文的評(píng)論強(qiáng)弱得到傾向性分?jǐn)?shù),最后融合二者分?jǐn)?shù)得到最終傾向性檢索分?jǐn)?shù)進(jìn)行排序。這類算法取得比較好的結(jié)果,因而TREC2006和TREC2007的大部分參與評(píng)測(cè)隊(duì)伍都采用這類方法。關(guān)于主題相關(guān)檢索,參加TREC評(píng)測(cè)的隊(duì)伍[2-3]往往采用他們認(rèn)為能取得比較好檢索結(jié)果的經(jīng)典檢索方法,而把精力更多地關(guān)注傾向性評(píng)分,典型的如Okapi BM25檢索算法和語言模型算法。在檢出與特定查詢主題相關(guān)的博文單元后,需要對(duì)博文單元進(jìn)行傾向性評(píng)分,目前主要有如下三類評(píng)分方法[2-3,12-16]:(1)基于傾向性詞典方法。D. Hannah等人[12]收集各種可以獲取的傾向詞資源構(gòu)建傾向詞典,通過Divergence from Randomness (DFR) 模型進(jìn)行傾向性評(píng)分,獲得了達(dá)到15.87%的性能提升。Kiduk Yang 等人[13]首先用半自動(dòng)化方法構(gòu)建傾向詞典,更細(xì)粒度地區(qū)分出高頻詞、低頻詞對(duì)文檔進(jìn)行傾向性評(píng)分,最后用加權(quán)和方法進(jìn)行融合得到最后傾向性評(píng)分。因此,對(duì)于這類方法來說,傾向詞典的質(zhì)量對(duì)傾向性評(píng)分起著至關(guān)重要的作用,能夠準(zhǔn)確反映數(shù)據(jù)集傾向詞分布與區(qū)分規(guī)律的傾向性詞典對(duì)性能的提升非常明顯。(2)基于距離的評(píng)分方法:通過計(jì)算查詢?cè)~與傾向性詞的距離對(duì)文檔進(jìn)行傾向性評(píng)分。GuangXu Zhou 等人[14]計(jì)算查詢?cè)~與特殊詞(如“I”, “you”, “me”, “us”, “we”等等)、查詢?cè)~與傾向詞的距離對(duì)文檔傾向性評(píng)分,獲得達(dá)到13.98%的性能提升;這種方法雖然有效,但是存在著不確定因素,泛化能力比較差,對(duì)于其他的語言可能不適用。(3)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的評(píng)分方法:Liao Xiang-wen 等人[15]基于推拉策略的分類方法用Trec2006的答案集進(jìn)行訓(xùn)練傾向性分類器對(duì)文檔進(jìn)行傾向性評(píng)分。Wei Zhang等人[16]針對(duì)每個(gè)主題,通過在rateitall.com、wikipedia.org和www.google.com收集的觀點(diǎn)句子集和客觀句子集訓(xùn)練支持向量機(jī)(SVM)分類器識(shí)別其中的觀點(diǎn)句子進(jìn)行傾向性評(píng)分。該方法連續(xù)在TREC2006和TREC2007取得第一名的成績(jī)。但它不僅需要對(duì)每個(gè)查詢主題訓(xùn)練分類器,而且還需要針對(duì)每個(gè)不同的主題訪問外部資源建立訓(xùn)練集進(jìn)行訓(xùn)練。可以看出,本類方法的關(guān)鍵在于如何構(gòu)建訓(xùn)練集訓(xùn)練機(jī)器學(xué)習(xí)的模型,但是由于查詢主題往往屬于不同的領(lǐng)域,對(duì)它們的評(píng)論所采用的傾向性用語往往不一樣,而目前又沒有現(xiàn)成通用的訓(xùn)練集,需要針對(duì)每個(gè)主題收集不同的訓(xùn)練集,往往需要加入手工手段,付出的代價(jià)比較大,效率比較低。在獲得傾向性評(píng)分和主題相關(guān)性評(píng)分后,需要對(duì)二者進(jìn)行融合得到最后的傾向性檢索評(píng)分。目前大多數(shù)的做法[2-3]是通過線性組合方式進(jìn)行融合。這種方法雖然簡(jiǎn)單有效,但是缺乏詳細(xì)分析和理論依據(jù)。因此Min Zhang等人[10]提出了一種基于詞典的產(chǎn)生式模型(Generation Model)新組合方法,從一定程度上,為分析傾向性檢索提供理論分析工具,廖祥文等人[11]引入了概率推理模型,提出一種直接度量博文對(duì)特定查詢傾向性強(qiáng)弱的方法。
博客是博主表達(dá)自己觀點(diǎn)情感的媒介,博主的語言習(xí)慣、個(gè)性風(fēng)格能夠很大程度上影響著傾向性強(qiáng)度。例如,發(fā)文頻率、博主語言風(fēng)格等。然而,目前所有這些研究都是基于單個(gè)博文單元的文本內(nèi)容對(duì)特定查詢進(jìn)行傾向性評(píng)分,而沒有以博客站點(diǎn)為研究對(duì)象分析博主的語言風(fēng)格、行為習(xí)慣等博主個(gè)人背景因素對(duì)傾向性評(píng)分的影響。同樣一個(gè)傾向詞對(duì)于不同的博主所表達(dá)的傾向性強(qiáng)弱不一樣,不能忽略博主因素,而僅僅使用單一的博文單元獲取傾向性評(píng)分,否則會(huì)帶來傾向性評(píng)分的較大偏差。為了解決該問題,本文主要開展如下三個(gè)方面工作:首先分析博主背景因素對(duì)傾向性評(píng)分的影響并建立博主背景模型,然后提出一個(gè)基于博主背景的博客傾向性歸一化策略,最后為了驗(yàn)證該策略的有效性,使用該策略對(duì)基于概率推理的博客傾向性檢索算法進(jìn)行歸一化。
博客是博主真實(shí)觀點(diǎn)和情感表達(dá)的載體,不同的博主表達(dá)相同觀點(diǎn)的形式和風(fēng)格各不相同。僅僅依據(jù)單個(gè)博文單元進(jìn)行傾向性評(píng)分,忽視了不同博客的社會(huì)屬性,即每個(gè)博客往往是博主行為風(fēng)格的體現(xiàn),容易造成傾向性評(píng)分的偏差。我們通過分析博主的背景因素對(duì)傾向性評(píng)分進(jìn)行修正,把社會(huì)屬性體現(xiàn)到傾向性計(jì)算環(huán)節(jié)中,從而可以更加合理地對(duì)博文單元進(jìn)行評(píng)分。
目前體現(xiàn)博主行為風(fēng)格的背景因素主要包括:博文數(shù)目、發(fā)文頻率、博文被引用狀況、同一主題的博文數(shù)目、博主書寫博文的傾向性用語風(fēng)格等等。具體分析如下:
? 博文數(shù)目、發(fā)文頻率。當(dāng)博主所寫的博文數(shù)目比較多,發(fā)文比較頻繁,那么該博主是個(gè)比較外向、樂于與人分享的人,所寫的博文也比較完整、可信,在進(jìn)行統(tǒng)計(jì)分析時(shí),有助于消除偏差。
? 博文被引用狀況??梢酝ㄟ^引用通告獲得博文的被引用狀況,被引用的次數(shù)越多,博文越受歡迎,它的質(zhì)量往往也比較高,因此該博文單元對(duì)主題的傾向性評(píng)分也應(yīng)該獲得更高的權(quán)值。
? 博主與讀者的互動(dòng)情況。博主可以通過博文正文下面的評(píng)論欄回復(fù)評(píng)論與讀者進(jìn)行互動(dòng)。當(dāng)評(píng)論數(shù)目越多,說明該篇博文受關(guān)注度越高,博主所表達(dá)的觀點(diǎn)較為完整、可信,人們對(duì)它所闡述的觀點(diǎn)越感興趣,因此該篇博文單元對(duì)給定主題的傾向性評(píng)分也較為可信。
? 博主書寫博文的傾向性用語風(fēng)格。博文單元是博主情感的表達(dá),不同的博主對(duì)同一種觀點(diǎn)的表達(dá)形式、用語風(fēng)格不盡相同,有些博主往往用比較夸張的、褒貶義強(qiáng)度比較強(qiáng)的傾向詞,而另一類博主則可能用比較溫和的、褒貶義強(qiáng)度比較弱的傾向詞。因此對(duì)于單篇博文的評(píng)分,相同的傾向性評(píng)分所代表的不同博主的情感是不一樣的。比如,有些博主習(xí)慣于使用傾向性強(qiáng)度非常強(qiáng)的詞(用“非常、十分”等副詞修飾),在他們的博文中如果采用傾向性強(qiáng)度強(qiáng)的詞如“憤怒”等表達(dá)對(duì)某個(gè)主題的批評(píng),可能是一種比較委婉的批評(píng),而并不是非常嚴(yán)厲的批評(píng);同樣是對(duì)上述主題的批評(píng),另外一些比較溫和的博主,如果使用了“憤怒”之類的傾向性詞,則代表非常嚴(yán)厲的批評(píng)。因此,僅僅依據(jù)單篇博文的評(píng)分不能真正體現(xiàn)博主觀點(diǎn)的傾向性強(qiáng)弱,會(huì)帶來偏差。
基于以上分析,有必要對(duì)體現(xiàn)博主行為風(fēng)格的背景因素建模,把背景因素引入到博客傾向性檢索中,對(duì)傾向性評(píng)分進(jìn)行修正,從而更加合理地進(jìn)行傾向性評(píng)分。
在本文中,為了驗(yàn)證博主背景因素對(duì)傾向評(píng)分的影響,我們主要考慮博主書寫博文的傾向性用語風(fēng)格因素對(duì)傾向性評(píng)分的影響:對(duì)博主的所有博文分析,得到其傾向性用語風(fēng)格數(shù)學(xué)模型,并利用該模型對(duì)與主題相關(guān)的傾向性評(píng)分進(jìn)行歸一化,從而達(dá)到修正傾向性評(píng)分的目的。
對(duì)博主書寫博文的傾向性用語風(fēng)格因素的具體建模過程如下:
假設(shè)博主發(fā)表的所有博文的傾向性評(píng)分符合正態(tài)分布:X~N(μ,σ),則有:
χi
(1)
(2)
其中,δi是博主所有博文單元傾向性評(píng)分的方差,反映博主書寫博文單元風(fēng)格的穩(wěn)定性。
χj
(3)
(4)
上式中,δo為粗差剔除后的方差。此時(shí),δi≠δo。
δo=δi
(5)
根據(jù)式(1)~(7)可得:第10個(gè)考核期Cpv為3.976萬元,Cav為4.704萬元,Ev為3.96萬元,Vs為-0.016萬元,Vc為-0.744萬元,Is為1.034,Ic為0.842。由計(jì)算結(jié)果可知:該項(xiàng)目在第10個(gè)考核期實(shí)際安全成本投入處于超支狀態(tài),實(shí)際安全保障水卻沒有達(dá)到計(jì)劃水平,可以排除是由于安全成本節(jié)約導(dǎo)致了安全度的降低,很明顯是由于管理措施不到位而造成的,項(xiàng)目經(jīng)理部應(yīng)結(jié)合專家對(duì)當(dāng)月安全評(píng)價(jià)體系的評(píng)分情況和項(xiàng)目實(shí)際安全投入情況進(jìn)行深入分析,找出原因,加強(qiáng)安全管理力度的同時(shí)嚴(yán)格控制安全成本的支出,保證項(xiàng)目施工安全順利開展。
在對(duì)博主的傾向性用語風(fēng)格進(jìn)行建模后,我們用該模型對(duì)主題相關(guān)博文單元的傾向性評(píng)分進(jìn)行歸一化修正。在歸一化之前,首先定義如下兩種博主類型:
? 如果博主撰寫博文所用傾向詞的褒貶程度比較激烈,則該博主屬于激進(jìn)型博主;
? 如果博主撰寫博文所用傾向詞的褒貶程度比較溫和,則該博主屬于保守型博主。
假設(shè)博主A和博主B都發(fā)表了與某一主題相關(guān)的博文。假設(shè)博主A為激進(jìn)型博主,那么他所寫博文往往都用褒貶義程度比較強(qiáng)的詞(比如“非常喜歡”、“憤怒”等等),從而一定程度上放大了對(duì)博文主題的傾向性評(píng)論強(qiáng)度;假設(shè)博主B為保守型博主,那么他所寫博文往往都用褒貶義程度比較弱的詞(比如“還行”、“一般”等等),從而一定程度上弱化了對(duì)博文主題的傾向性評(píng)論強(qiáng)度。因此,我們給出如下歸一化策略:
? 博主背景在一定程度上影響傾向性得分,可以根據(jù)“博主背景模型”(即,N(μ,σ)),對(duì)傾向性得分進(jìn)行歸一化;
? 風(fēng)格穩(wěn)定博主的單個(gè)博文單元的傾向性得分,其方差σ較小,較為可信;而風(fēng)格不穩(wěn)定博主的方差σ較大,較為不可信;
? 激進(jìn)型博主的傾向性得分往往偏高,保守型博主傾向性得分往往偏低,因此可采用“博主背景模型”中的平均值μ對(duì)其傾向性分?jǐn)?shù)進(jìn)行平滑。
我們采用基于概率推理模型的傾向性檢索算法(PRIB算法)[11]進(jìn)行博客傾向性檢索:對(duì)于給定的查詢主題Q和文檔d,PRIB算法的傾向性評(píng)分如下:
(6)
其中,c是所有文檔的集合,s為傾向詞典。上式的后一項(xiàng)是計(jì)算博文單元對(duì)特定查詢主題的傾向性強(qiáng)弱程度,記為ORprib,則(6)可改寫為:
Rank=Rank(1+ORprib)
(7)
根據(jù)前一節(jié)的歸一化策略,傾向性評(píng)分可以歸一化為:
(8)
我們采用TREC2006 Blog Opinion Retrieval track提供的數(shù)據(jù)集和20個(gè)查詢主題(851~870),對(duì)歸一化的博客傾向性檢索算法(Normalized Probabilistic Inference Based Method,NPRIB)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表1所示。圖1是歸一化的博客傾向性檢索算法在查詢851~870上的性能提升分布情況。圖2是歸一化的博客傾向性檢索算法在查詢851~870上的Recall-Precision曲線圖。
從表1可以看出,相對(duì)于Baseline語言模型(Language Model,LM),NPRIB的檢索性能有明顯的提升,但略低于PRIB的檢索性能。我們認(rèn)為,可能的原因主要有如下三方面:
? TREC提供的評(píng)判答案并沒有考慮博主背景因素,此時(shí)基于博主背景的NPRIB歸一化算法對(duì)于傾向性評(píng)分的修正不能顯示出優(yōu)勢(shì)。
? 由于NPRIB算法對(duì)單個(gè)博客單元的傾向性評(píng)分進(jìn)行平滑,帶來了與評(píng)判答案的偏差,導(dǎo)致了性能的下降。
? 此外,TREC的評(píng)判機(jī)制中,對(duì)所有答案平等對(duì)待,而基于博主背景的歸一化方法優(yōu)勢(shì)在于檢索結(jié)果排序的精細(xì)化調(diào)整,對(duì)細(xì)化的評(píng)判標(biāo)準(zhǔn)(如NDCG)更為有效。
表1 歸一化的博客傾向性檢索算法在TREC2006查詢主題上的檢索性能
圖1 歸一化的博客傾向性檢索算法在查詢851~870上的性能提升分布
圖2 歸一化的博客傾向性檢索算法在TREC2006查詢主題上的Recall-Precision曲線
博主的行為風(fēng)格背景因素(如博文數(shù)目、發(fā)文頻率、博文被引用狀況、同一主題的博文數(shù)目、博主書寫博文的傾向性用語風(fēng)格等)很大程度上影響著博客的傾向性評(píng)分。僅僅考慮單個(gè)博文單元對(duì)某個(gè)主題進(jìn)行傾向性評(píng)分往往會(huì)帶來偏差,因此我們考慮利用博主的語言風(fēng)格因素對(duì)傾向性評(píng)分進(jìn)行修正,對(duì)博主的傾向性用語風(fēng)格建立數(shù)學(xué)模型,提出基于博主背景的傾向性歸一化策略,把博主風(fēng)格因素引入到博客傾向性檢索算法中,從而更加合理地度量博文單元對(duì)查詢主題的傾向性強(qiáng)弱程度。為了驗(yàn)證該策略,利用所提出模型對(duì)基于概率推理的博客傾向性檢索算法中的傾向性評(píng)分進(jìn)行歸一化修正,從實(shí)驗(yàn)的角度驗(yàn)證了傾向性用語風(fēng)格對(duì)博客傾向性檢索算法性能的影響。實(shí)驗(yàn)結(jié)果表明,基于博主背景的傾向性檢索歸一化策略能夠更加合理地對(duì)博主單元進(jìn)行排序。
[1] Arun Qamra, Belle Tseng and Edward Y. Chang. Mining Blog Stories Using CommunityBased and Temporal Clustering[C] // Proc. ofCIKM’06. Arlington, Virginia, USA: ACM 2006.
[2] Ounis Iadh, de Rijke Maarten, et al. Overview of the TREC-2006 Blog Track[C/OL] //Proc. of the Fifteenth Text REtrieval Conference (TREC 2006). Gaithersburg, Maryland, USA: NIST 2006. [2007-01-23], http://trec.nist.gov/pubs/trec15/papers/BLOG06.OVERVIEW.pdf
[3] Craig Macdonald, Iadh Ounis , Ian.Soboroff Overview of the TREC-2007 Blog Track[C/OL] // Proc. of The Sixteenth Text REtrieval (TREC 2007). Gaithersburg, Maryland, USA: NIST 2007. [2007-12-12], http://trec.nist.gov/pubs/trec16/papers/BLOG.OVERVIEW16.pdf
[4] 楊宇航, 趙鐵軍, 于浩, 鄭德權(quán). Blog研究[J]. 軟件學(xué)報(bào), 2008, 19(4): 912-924.
[5] Turney P. Thumbs up or Thumbs down? Semantic orientation applied to unsupervised classification of reviews[C] // Proc. of ACL’02. Philadelphia, PA, USA: Association for Computational Linguistics, 2002: 417-424.
[6] Pang B, Lee L and Vaithyanathan S. Thumbs up? Sentiment Classification Using Machine Learning Techniques[C] // Proc. of ACL’02. Philadelphia, PA, USA: Association for Computational Linguistics, 2002: 79-86.
[7] Pang Bo, Lee Lillian. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts[C] // Proc. of ACL’04. Barcelona, Spain: Association for Computational Linguistics, 2004: 1030-1035.
[8] M. Hurst and K. Nigam. Retrieving Topical Sentiments from Online Document Collections [C]// Document Recognition and Retrieval XI, 2004: 27-34.
[9] K. Eguchi, V. Lavrenko. Sentiment Retrieval using Generative Models [C]// Proceedings of Empirical Methods on Natural Language Processing (EMNLP), 2006: 345-354.
[10] Min Zhang, Xingyao Ye. A Generation Model to Unify Topic Relevance and Lexicon-based Sentiment for Opinion Retrieval [C]// the Proceedings of SIGIR’08, Singapore, July 20-24, 2008.
[11] 廖祥文, 曹冬林, 方濱興,許洪波, 程學(xué)旗. 基于概率推理模型的博客傾向性檢索研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(9):1530-1537.
[12] D. Hannah, C. Macdonald, et al. University of Glasgow at TREC 2007: Experiments in Blog and Enterprise Tracks with Terrier [C]// Proceedings of 15thTREC, 2007.
[13] Kiduk Yang, Ning Yu, Hui Zhang. WIDIT in TREC-2007 Blog Track: Combining Lexicon-based Methods to Detect Opinionated Blogs [C]// Proceedings of TREC’07, 2007.
[14] GuangXu Zhou, Hemant Joshi, Coskun Bayrak. Topic Categorization for Relevancy and Opinion Detection [C]// Proceedings of TREC’07, 2007.
[15] Liao Xiangwen, Cao Donglin, Wang Yu,et al. Experiments in TREC 2007 Blog Opinion Task at CAS-ICT[C/OL] // Proc of The Sixteenth Text REtrieval (TREC 2007). Gaithersburg, Maryland, USA: NIST 2007. [2007-12-12],http://trec.nist.gov/pubs/trec16/papers/cas-ict.blog.final.pdf.
[16] Wei Zhang, Clement Yu, Weiyi Meng. Opinion Retrieval from Blogs [C]// Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, Lisbon, Portugal, 2007:831-840.