劉 軍, 姚天昉, 仇 偉
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)
伴隨著Web2.0技術(shù)革命,互聯(lián)網(wǎng)上的意見型文本[1]呈爆炸性地增長(zhǎng),這些文本蘊(yùn)含著廣大用戶的喜怒哀樂。Kim和Hovy[2]將意見定義為一個(gè)四元組[Topic, Holder, Claim, Sentiment],其中Topic為意見主題,也時(shí)也稱為焦點(diǎn)(Focus);Holder為意見持有者;Claim為意見陳述(即范圍);Sentiment為情感。即,意見持有者(Holder)針對(duì)某個(gè)主題(Topic)發(fā)表了一個(gè)有意見傾向性(Sentiment)的意見陳述(Claim)。例句: N72,我挺喜歡的,很大氣。例句的主題是“N72”(諾基亞手機(jī));意見持有者是“我”;情感詞是“喜歡”、“大氣”;傾向性是褒義的。
人們圍繞著Kim&Hovy意見模型在主題識(shí)別[3-5]、傾向性分析[6-8]等方面展開了意見挖掘技術(shù)[9]的研究,取得了許多豐碩成果。Pulse[10]、WebFoudation[11]和Opinion Observer[12]是這些成果中比較典型的意見挖掘系統(tǒng)。Pulse對(duì)汽車評(píng)論進(jìn)行意見挖掘。它首先從評(píng)論中得到汽車制造商和汽車型號(hào)的分類樹,然后分析每個(gè)車型的意見傾向性,最后以“主題,情感”的格式展現(xiàn)結(jié)果。WebFoudation利用NLP技術(shù)構(gòu)建知識(shí)庫(kù),并應(yīng)用于解決極性識(shí)別問題。Opinion Observe在提取產(chǎn)品的特征后,按照特征的意見褒貶分類匯總。用戶輸入任意兩產(chǎn)品,系統(tǒng)以圖形的方式展現(xiàn)兩產(chǎn)品的特征褒貶數(shù)的比較。
典型意見挖掘系統(tǒng)對(duì)所有意見進(jìn)行傾向性分析之后,簡(jiǎn)單地根據(jù)意見的褒貶性分類匯總。但是這種簡(jiǎn)單的匯總信息并不能滿足許多應(yīng)用的需求。例如,如果意見挖掘系統(tǒng)為一個(gè)產(chǎn)品決策者服務(wù),系統(tǒng)應(yīng)該能區(qū)分意見的新舊程度、權(quán)威程度以及意見的趨勢(shì);同樣地,如果意見挖掘系統(tǒng)向消費(fèi)者推薦商品,系統(tǒng)應(yīng)該盡可能地推薦一些當(dāng)前的、有一定權(quán)威的產(chǎn)品意見給消費(fèi)者參考。在這些新的應(yīng)用需求面前,除了Kim&Hovy意見模型的四元素之外,意見的時(shí)空元素具有至關(guān)重要的作用。
意見的時(shí)空元素,是指意見的時(shí)間和意見的來(lái)源。本文通過擴(kuò)展Kim&Hovy意見模型,將意見時(shí)空元素引入到意見模型中并提出了意見重要因子的概念,闡述了時(shí)空元素對(duì)意見重要因子的作用和計(jì)算方法。最后,回到意見時(shí)空元素的應(yīng)用上,探討了意見趨勢(shì)的挖掘方法。實(shí)驗(yàn)表明,意見時(shí)空元素也是意見的重要組成部分,它們有效地拓展了意見挖掘的應(yīng)用范圍,并得到了更多令人信服的結(jié)果。
本文的組織如下: 第2節(jié)介紹了意見模型的擴(kuò)展,引入了意見時(shí)空元素;第3節(jié)闡述了意見重要因子、時(shí)空重要因子以及來(lái)源重要因子的計(jì)算方法;第4節(jié)探討了意見趨勢(shì)的挖掘方法和實(shí)驗(yàn)評(píng)估方法;第5節(jié)為全文的總結(jié)。
主題(Topic)的類型包括產(chǎn)品、人、組織、事件等。對(duì)一個(gè)主題來(lái)說(shuō),有兩個(gè)重要參數(shù): 一是描述該主題的所有同義的詞或短語(yǔ);二是該主題的所有的子主題。例如,“諾基亞”和“Nokia”描述的是同一個(gè)主題,“N70”是該主題的子主題。我們將主題定義為:
Topic=[SynWordSet,subTopicSet]
式中:SynWordSet為同義詞表,subTopicSet為子主題集。
情感的二要素為: 情感成分、情感極性。情感成分一般為包含情感詞的短語(yǔ),情感極性為褒義、貶義或中性。我們將情感定義為:
我們擴(kuò)展Kim&Hovy意見模型,將時(shí)間和來(lái)源元素也作為意見的組成部分,即,
Opinion=[Holder,Topic,Sentiment,Claim,Time,Source]
意見的含義為意見持有者(Holder)在某個(gè)時(shí)刻(Time)、某個(gè)地方(Source)針對(duì)某個(gè)主題集(TopicSet)表達(dá)了一些情感(SentimentSet)。即,
對(duì)任意Topic∈TopicSet,Holder必定(1)選用了Word∈SynWordSet來(lái)描述該Topic;(2)針對(duì)該Topic表達(dá)了一些情感。
在以往的意見挖掘中,沒有區(qū)分意見的重要性。但是在意見趨勢(shì)挖掘等新應(yīng)用中,即使同一條意見,發(fā)生在不同的時(shí)間或來(lái)自不同的地方,其重要性也是不同的。假如我們要挖掘2008年的意見趨勢(shì),則我們可以忽略掉不屬于2008年的意見。同樣地,對(duì)于來(lái)自專業(yè)評(píng)論網(wǎng)的意見要比散布在其他論壇的意見重要性高。
為了量化意見的重要性,我們提出了意見重要因子(Opinion Important Factor)。對(duì)任何一條意見o,其重要因子OIF(o)由式(1)給出,
(1)
OIF(o)的含義為:
(1) 當(dāng)意見o的時(shí)間重要因子T(o)和來(lái)源重要因子S(o)都不等于0的時(shí)候,我們可以調(diào)節(jié)T(o) 和S(o)的權(quán)重,將兩者相加得到OIF(o)。
(2) 如果意見的時(shí)間重要因子或來(lái)源重要因子有一項(xiàng)為0,那么說(shuō)明這條意見根本就不重要,可以直接忽略掉。例如: 我們有時(shí)需要忽略某個(gè)時(shí)間段的意見或忽略來(lái)自某個(gè)網(wǎng)站的意見,這時(shí)候我們可以設(shè)置這些意見的T(o)或S(o)等于0。
時(shí)間是客觀世界存在的一種屬性,意見也具有時(shí)間性。時(shí)間可以用來(lái)區(qū)分意見的重要程度。例如,在常見的產(chǎn)品評(píng)論挖掘系統(tǒng)中,如果要挖掘出當(dāng)前最受歡迎的產(chǎn)品,則最新的評(píng)論的重要性更高。但這并不意味著意見的重要性與時(shí)間的關(guān)系就這一種。事實(shí)上,意見的重要性與時(shí)間的關(guān)系是隨著具體的應(yīng)用而不同的,需要根據(jù)具體的應(yīng)用需求進(jìn)行分析。假設(shè)意見o的時(shí)間為time(o),重要因子為T(o),表1為時(shí)間重要因子在一些具體應(yīng)用中的取值。
表1 時(shí)間重要因子在不同應(yīng)用中的取值
人們常用“十大游戲網(wǎng)站”、“三大門戶網(wǎng)站”、“三大搜索站點(diǎn)”等詞語(yǔ)來(lái)刻畫網(wǎng)站在某領(lǐng)域的重要性。同樣地,在意見挖掘中,除了意見的時(shí)間元素外,我們也應(yīng)考慮到意見的來(lái)源在該領(lǐng)域的重要性。與時(shí)間元素不同的是,意見來(lái)源的重要性與領(lǐng)域有重要的關(guān)系。舉例來(lái)說(shuō),卓越網(wǎng)是以網(wǎng)上書店起家的,然后逐漸擴(kuò)大到電子產(chǎn)品的在線銷售網(wǎng)站。對(duì)于卓越網(wǎng)來(lái)說(shuō),在書籍方面的重要性遠(yuǎn)比它在電子產(chǎn)品方面的重要性更高。因?yàn)閺恼麄€(gè)中國(guó)的網(wǎng)站來(lái)看,卓越網(wǎng)在書籍方面的評(píng)論數(shù)和訪問量上,都比在電子產(chǎn)品方面更重要。
假設(shè)語(yǔ)料庫(kù)中的意見來(lái)源于n個(gè)論壇,論壇si在領(lǐng)域m上的重要因子表示為Ψ(si,m),那么屬于論壇si的意見的來(lái)源重要因子S(o)就等于Ψ(si,m)。因此,我們將著重討論如何計(jì)算Ψ(si,m)?
在信息檢索領(lǐng)域,Google提出了PageRank算法[13]對(duì)一個(gè)網(wǎng)頁(yè)的重要性進(jìn)行量化。在PageRank算法中,一個(gè)網(wǎng)頁(yè)的重要性由鏈向它的頁(yè)面數(shù)(鏈入數(shù))來(lái)決定。鏈入數(shù)越大的頁(yè)面,其重要性越高。PageRank算法的思想與人的直觀認(rèn)識(shí)也是相符的。
在ACL08上,加州伯克利大學(xué)的Preslav Nakov[14]利用搜索引擎計(jì)算兩個(gè)名詞的關(guān)聯(lián)度。由WordNet得到兩個(gè)名詞的屈折詞集(屈折詞是改變?cè)~尾得到的詞,如worked是work的屈折詞),再將兩個(gè)屈折詞集中的詞兩兩組合作為關(guān)鍵字讓Google進(jìn)行搜索,抽取Google返回結(jié)果中包含兩個(gè)名詞的文字片段,然后將文字片段中動(dòng)詞、介詞和并列連詞作為這兩個(gè)名詞的特征,再根據(jù)向量空間模型得到這兩個(gè)名詞的向量,最后計(jì)算這兩個(gè)名詞的關(guān)聯(lián)度。
上述工作給本文提供了重要的啟示,本文將論壇si在領(lǐng)域m上的重要因子Ψ(si,m)分為二部分: 論壇的影響力、論壇與領(lǐng)域m的相關(guān)度。
3.2.1 來(lái)源的影響力
影響力主要是刻畫某一論壇在同類論壇中的份量。影響力越大的論壇,用戶訪問的次數(shù)越多,網(wǎng)頁(yè)內(nèi)容會(huì)更豐富,被其他網(wǎng)站鏈接的機(jī)會(huì)也更多。本文對(duì)論壇的影響力用三個(gè)參數(shù)來(lái)刻畫: 論壇的日訪問量、鏈入數(shù)和被搜索引擎收錄的頁(yè)面數(shù)。很顯然,日訪問量能夠很好地代表論壇的人氣。日訪問量越大,說(shuō)明論壇的用戶數(shù)多,論壇越受歡迎。與Google的PageRank類似,鏈入數(shù)代表了論壇被互聯(lián)網(wǎng)其他網(wǎng)站的認(rèn)可程度。鏈入數(shù)越大,說(shuō)明論壇越重要。另外,因?yàn)樗阉饕嬉呀?jīng)成為人們尋找Internet上浩如煙海信息的指航燈,一個(gè)論壇被搜索引擎收錄的頁(yè)面數(shù)越多,越容易被訪問到。
3.2.2 來(lái)源與領(lǐng)域的相關(guān)度
如果人們?cè)谒阉饕嬷休斎胍粋€(gè)關(guān)鍵字K,然后通過點(diǎn)擊搜索引擎返回的鏈接結(jié)果而訪問了論壇si,那么我們可以確定的是: (1)關(guān)鍵字K肯定與論壇si有一定的相關(guān)。否則搜索引擎不會(huì)在關(guān)鍵字K的結(jié)果中返回論壇si的鏈接;(2)搜索關(guān)鍵字K導(dǎo)致訪問論壇si的次數(shù)越多,則關(guān)鍵字K與論壇si的相關(guān)度越高。
我們可以通過搜索日志得到訪問論壇si時(shí)的高頻搜索關(guān)鍵字集KS。從某種意義上來(lái)說(shuō),高頻搜索關(guān)鍵字集KS就是論壇si在互聯(lián)網(wǎng)中的代名詞。所以,本文將論壇si與領(lǐng)域m的相關(guān)度轉(zhuǎn)化為論壇si的高頻搜索關(guān)鍵字集KS與領(lǐng)域m的相關(guān)度。
3.3.1 實(shí)驗(yàn)對(duì)象
我們選了“手機(jī)”和“汽車”2個(gè)領(lǐng)域、在每個(gè)領(lǐng)域中又選了4個(gè)論壇作為我們的實(shí)驗(yàn)對(duì)象。一般情況下,論壇都是門戶網(wǎng)站下的二級(jí)域名。例如,“智能手機(jī)論壇sjbbs.zol.com.cn”是“中關(guān)村在線zol.com.cn”下的二級(jí)域名。所選的8個(gè)論壇請(qǐng)見表2。
3.3.2 論壇影響力的計(jì)算
(1) 論壇日訪問量的計(jì)算
alexa.com是比較有影響的web信息統(tǒng)計(jì)公司,它以一級(jí)域名為單位進(jìn)行日訪問量、點(diǎn)擊流、訪問時(shí)的高頻搜索關(guān)鍵字等信息進(jìn)行統(tǒng)計(jì)。
alexa.com對(duì)日訪問量用百分比描述,即日訪問量%(Daily Reach%)。其含義為alexa.com所能統(tǒng)計(jì)到的所有internet用戶中有百分之幾訪問了這個(gè)網(wǎng)站。
假設(shè)alexa.com所能統(tǒng)計(jì)到的所有internet用戶數(shù)為Δ,論壇si的日訪問量%為di%,則論壇si日訪問用戶數(shù)為Δ×di%。
本文將Ψ11(si)取為論壇si占所有論壇的日訪問量的比重,即式(2)。
(2)
(2) 鏈入數(shù)和被收錄頁(yè)面數(shù)的計(jì)算
利用搜索引擎可以查詢論壇的鏈入數(shù)和被收錄的頁(yè)面數(shù)。在搜索引擎的高級(jí)搜索語(yǔ)法中,有l(wèi)ink和site兩個(gè)關(guān)鍵字。假設(shè)URL(si)表示論壇si的URL,則link:URL(si)返回論壇si的鏈入數(shù)li,site:URL(si)返回搜索引擎收錄了論壇si的頁(yè)面數(shù)pi。
在本文中,Ψ12(si)取為論壇si占所有論壇鏈入數(shù)的比重,Ψ13(si)取為論壇si占所有論壇被收錄頁(yè)面數(shù)的比重,分別為式(3)和式(4)。
(3)
(4)
(3) 論壇影響力的計(jì)算
綜合式(2)、式(3)和式(4),就得到了論壇影響力的計(jì)算式(5),
3.3.3 論壇與領(lǐng)域的相關(guān)度實(shí)驗(yàn)
我們從alexa.com獲取了8個(gè)論壇的前30個(gè)頻次最高的搜索關(guān)鍵字,然后將論壇si與領(lǐng)域m的相關(guān)度轉(zhuǎn)化為高頻搜索關(guān)鍵字集KSi與領(lǐng)域m的相關(guān)度。本文使用了已有的任意兩個(gè)詞匯的語(yǔ)義相關(guān)度計(jì)算公式Relatedness(m,ki)[15],得到關(guān)鍵字集KSi與領(lǐng)域m的相關(guān)度計(jì)算為式(6),
式中:rank(ki)是關(guān)鍵字ki的頻次排名;m為“手機(jī)”或“汽車”。
計(jì)算出來(lái)R(m,KSi)后,論壇si與領(lǐng)域m相關(guān)度的計(jì)算為式(7),
3.3.4 實(shí)驗(yàn)結(jié)果
綜合式(5)和式(7),得到意見的來(lái)源重要因子的計(jì)算為式(8),
表2是意見來(lái)源重要因子的實(shí)驗(yàn)結(jié)果。表2的“日訪問量”是三個(gè)月的日訪問量,“鏈入數(shù)”和“收錄的網(wǎng)頁(yè)數(shù)”是百度和谷歌的總數(shù)。我們可以從實(shí)驗(yàn)結(jié)果得出如下結(jié)論:
(1) 日訪問量和高頻搜索關(guān)鍵字都是取自論壇的父域名的數(shù)據(jù),實(shí)驗(yàn)結(jié)果驗(yàn)證了這種做法的合理性。“太平洋手機(jī)俱樂部”的父域名是“太平洋電腦網(wǎng)”,是一個(gè)多領(lǐng)域的網(wǎng)站?!疤窖笫謾C(jī)俱樂部”的影響力Ψ1的得分是手機(jī)領(lǐng)域里最高的,這主要得益于其父域名的訪問量大;同時(shí),“太平洋手機(jī)俱樂部”的相關(guān)度Ψ2又因其父域名是多領(lǐng)域得分最低。
(2) 意見來(lái)源重要因子是一個(gè)多因素的參數(shù),考慮的角度不同,得出的結(jié)果也會(huì)略有差別。本文從意見來(lái)源的影響力、與領(lǐng)域的相關(guān)度兩個(gè)方面來(lái)分析,綜合利用權(quán)威的統(tǒng)計(jì)信息進(jìn)行計(jì)算。從計(jì)算結(jié)果來(lái)看,這與意見來(lái)源的統(tǒng)計(jì)數(shù)據(jù)所反映的情況是一致的。
表2 意見來(lái)源重要因子的實(shí)驗(yàn)結(jié)果
人們對(duì)某事物的看法是隨著時(shí)間而變化的,這是意見趨勢(shì)挖掘的根本出發(fā)點(diǎn)。意見趨勢(shì)用于刻畫某事物的意見得分在時(shí)間軸上的變化情況,它較真實(shí)地記錄了事物的發(fā)展變化,有利于人們把握事物的真實(shí)狀況。
以產(chǎn)品p為例,其意見趨勢(shì)就是產(chǎn)品p的意見得分在時(shí)間軸上的變化線。我們將時(shí)間軸分成t個(gè)時(shí)間段T,產(chǎn)品p在時(shí)間段Ti上的意見得分為θi,則產(chǎn)品p的意見趨勢(shì)就是θi(i=1..t)的變化情況。意見趨勢(shì)挖掘的核心問題是求出產(chǎn)品p在時(shí)間段Ti上的意見得分θi。
我們用“受歡迎度”來(lái)刻畫產(chǎn)品p在時(shí)間段Ti上的意見得分。對(duì)于一條意見的得分采用strength(o)×OIF(o)表示。strength(o)是意見的情感強(qiáng)度[16],OIF(o)是意見重要因子。假設(shè)產(chǎn)品p在時(shí)間段Ti上有n條褒義的意見和m條貶義的意見,我們用式(9)來(lái)計(jì)算產(chǎn)品p在時(shí)間段Ti上的“受歡迎度”。
(9)
式中: 分子表示產(chǎn)品受褒獎(jiǎng)的意見數(shù)越多,說(shuō)明產(chǎn)品越熱。分母表示產(chǎn)品受批評(píng)的意見數(shù)越少,則產(chǎn)品越受歡迎。
4.2.1 實(shí)驗(yàn)主題及語(yǔ)料
為縮小實(shí)驗(yàn)主題,本文隨機(jī)選用“奇瑞QQ3”、“比亞迪F0”、“昌河北斗星”、“吉利熊貓”、“長(zhǎng)安奔奔”這五種微型車。在時(shí)間上,以季度為單位,范圍限制在2008的四個(gè)季度、2009年的前兩個(gè)季度。即,本實(shí)驗(yàn)的目標(biāo)是: 挖掘五種微型車在2008年至2009年上半年的按季度的意見趨勢(shì)。本實(shí)驗(yàn)的時(shí)間重要因子的計(jì)算為式(10),意見重要因子的計(jì)算為式(11),來(lái)源重要因子的計(jì)算結(jié)果已經(jīng)在第3節(jié)的表3中。
本實(shí)驗(yàn)的語(yǔ)料來(lái)自4個(gè)汽車論壇,共包括 15 819條意見。
4.2.2 實(shí)驗(yàn)結(jié)果及分析
我們首先根據(jù)式(9)得到五種微型車在各個(gè)季度的“受歡迎度”值,然后畫出它們的“受歡迎度”季度變化線。圖1是我們繪出的五種微型車在2008年和2009年上半年的按季度的意見趨勢(shì)。圖2是按照傳統(tǒng)意見挖掘系統(tǒng)的做法,繪出了五種微型車的6個(gè)季度的“受歡迎度”匯總。
圖1 微型車的季度意見趨勢(shì)
圖2 微型車的歡迎度匯總
比較圖1和圖2,我們發(fā)現(xiàn)意見趨勢(shì)挖掘具有如下優(yōu)點(diǎn):
(1) 記錄了事物的發(fā)展歷程。在傳統(tǒng)意見挖掘系統(tǒng)的圖2中,“奇瑞QQ3”比“比亞迪F0”更受好評(píng),“吉利熊貓”比“昌河北斗星”更受歡迎。但從趨勢(shì)挖掘的圖1可以清楚地看到,“比亞迪F0”與“奇瑞QQ3”的差距越來(lái)越小,甚至曾經(jīng)在兩個(gè)季度超過了;另外,“昌河北斗星”在2008年初因?yàn)閮r(jià)格高等原因不受好評(píng),但后面的發(fā)展超過了“吉利熊貓”。
(2) 對(duì)人們具有指導(dǎo)作用。如圖1所示,“奇瑞QQ3”在2008Q4、“吉利熊貓”在2008Q3都有一個(gè)明顯的下降點(diǎn),這種信息可以特別提醒決策者關(guān)注原因、有目的地改進(jìn)。
4.2.3 實(shí)驗(yàn)評(píng)估
本文將人工得到的意見趨勢(shì)作為基準(zhǔn),實(shí)驗(yàn)結(jié)果與基準(zhǔn)進(jìn)行比較,差異的大小就是實(shí)驗(yàn)的效果度量。
首先我們用幾何方法來(lái)探討意見趨勢(shì)的實(shí)驗(yàn)評(píng)估公式。如圖3所示,紅線是我們通過人工得到的某產(chǎn)品的意見趨勢(shì)圖,B點(diǎn)是T2時(shí)刻的意見得分,C點(diǎn)是T3時(shí)刻的意見得分。假設(shè)線段km、fm、fn都是BC段的實(shí)驗(yàn)結(jié)果,并且k點(diǎn)離B點(diǎn)的距離等于f點(diǎn)離B點(diǎn)的距離。
圖3 意見趨勢(shì)實(shí)驗(yàn)評(píng)估示例
我們從兩個(gè)方面來(lái)分析km、fm、fn的好壞:
(1) 距離差。很顯然,fm的效果比f(wàn)n好。因?yàn)樵赥2時(shí)刻,fm的意見得分的誤差與fn一樣;但在T3時(shí)刻,fm的意見得分的誤差比f(wàn)n小。
我們采用意見得分差的平方表示距離差,即fm與BC的距離差為式(12),
式中:f.y表示f點(diǎn)的y坐標(biāo)值。
(2) 斜率偏差。km與fm的距離差相等。但很顯然,fm的效果比km好。因?yàn)锽C體現(xiàn)了T2到T3時(shí)刻的意見得分增加趨勢(shì),fm與BC一樣,但km卻體現(xiàn)為減小趨勢(shì)。
我們?nèi)軸的每段時(shí)間為單位1,則簡(jiǎn)化后的fm和BC的斜率計(jì)算為式(13)、式(14):
我們用直線的斜率差的平方表示斜率偏差,即fm與BC的斜率偏差為式(15),
綜合式(12)和式(15),我們得到在幾何表示下,意見趨勢(shì)直線fm與BC的誤差度量為式(16)。式(16)的值越小,表明直線fm與BC越接近。
最后我們用代數(shù)方法來(lái)描述意見趨勢(shì)的誤差公式。假設(shè)在ti(i=1..n)時(shí)刻,產(chǎn)品p的真實(shí)的和實(shí)驗(yàn)的“受歡迎度”分別為ρi、γi,則產(chǎn)品p的意見趨勢(shì)的實(shí)驗(yàn)誤差為式(17)
e(p)越小,則說(shuō)明實(shí)驗(yàn)的結(jié)果與真實(shí)的越接近。
根據(jù)式(17)計(jì)算出來(lái)的五種微型車的意見趨勢(shì)誤差分別為16.91、9.93、13.21、13.18、11.79。因?yàn)槲宸N微型車的趨勢(shì)相交得比較嚴(yán)重,為清楚起見,圖4只畫出了“QQ3”和“奔奔”的真實(shí)趨勢(shì)與實(shí)驗(yàn)趨勢(shì)的比較圖。從實(shí)驗(yàn)結(jié)果可看出,我們的意見趨勢(shì)的效果與人工的效果很接近,反映了微型車在論壇上的意見趨勢(shì)。
圖4 真實(shí)趨勢(shì)與實(shí)驗(yàn)趨勢(shì)的比較
意見時(shí)空元素的研究是個(gè)全新領(lǐng)域。本文將時(shí)空元素引入意見模型,研究了時(shí)空元素與意見重要因子的關(guān)系,并探討了時(shí)空元素在意見趨勢(shì)挖掘中的應(yīng)用。一方面,本文只研究了時(shí)空元素對(duì)意見重要性的作用,但時(shí)空元素的作用遠(yuǎn)不止于此。例如,通過分析最近一段時(shí)間內(nèi)的評(píng)論,我們可以找到當(dāng)前熱點(diǎn)評(píng)論對(duì)象;通過分析某個(gè)論壇的所有評(píng)論,我們可以大概知道論壇的領(lǐng)域,甚至是論壇的帖子風(fēng)格。另一方面,本文在分析意見重要因子時(shí),只考慮了時(shí)空元素的影響。而實(shí)際上,意見的持有者對(duì)意見的重要性也有影響。例如,如果我們已經(jīng)挖掘出了某個(gè)特定論壇的所有用戶的基本信息,那么在對(duì)這個(gè)論壇進(jìn)行意見挖掘時(shí),我們可以將一些喜歡發(fā)無(wú)用帖的人的意見重要程度降低、甚至去除。我們還可以針對(duì)某個(gè)年齡段、性別等特征進(jìn)行意見挖掘,這時(shí)候也會(huì)影響到意見的重要程度。以上兩方面都是本文今后的研究方向。
[1] 劉全升,姚天昉,黃高輝,劉軍,宋鴻彥. 漢語(yǔ)意見型主觀性文本類型體系的研究[J]. 中文信息學(xué)報(bào), 2008, 22(6):63-68.
[2] Soo-Min Kim, Eduard Hovy. Determining the Sentiment of Opinions[C]//Proceedings of COLING, 2004.
[3] J . Yi, T. Nasukawa, R. Bunescu, and W. Niblack. Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques [C]//Proceedings of the 3rd IEEE International Conference on Data Mining. Melbourne, Florida:IEEE, 2003:427-434.
[4] M.Hu and B. Liu. Mining Opinion Features in Customer Reviews [C]//Proceedings of Nineteenth National Conference on Artificial Intelligence. San Jose:ACM, 2004.
[5] A.-M. Popescu and O. Etzioni. Extracting Product Features and Opinions from Reviews [C]//Proceedings of HL T-EMNLP-05, the Human Language Technology Conference/ Conference on Empirical Methods in Natural Language Processing. Vancouver, Canada:ACM,2005:339-346.
[6] V. Hatzivassiloglou and K. R. McKeown. Predicting the semantic orientation of adjectives[C]//Proceedings of the ACL Conference, 1997:174-181.
[7] P.D. Turney and M.L. Littman. Unsupervised learning of semantic orientation from a hundred-billion-word corpus [R]. Technical Report ERB-1094, National Research Council Canada, Institute for Information Technology, 2002.
[8] Peter D. Turney. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002.
[9] 姚天昉, 程希文, 徐飛玉,等. 文本意見挖掘綜述[J]. 中文信息學(xué)報(bào), 2008, 22(3):71-80.
[10] Gamon, M., A. Aue, S. Corston-Oliver and E. Ringger. Pulse: Mining Customer Opinions from Free Text[J]. Lecture Notes in Computer Science. 2005, 3646:121-132.
[11] Jeonghee Yi, Wayne Niblack. Sentiment Mining in WebFountain [C]//Proceedings of 21st International Conference on Data Engineering, 2005:1073-1083.
[12] Hu, M. and Liu, B. Mining and Summarizing Customer Reviews [C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Seattle:ACM, 2004.
[13] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine [C]//Proceedings of the Seventh International World Wide Web Conference. 1998: 107-117.
[14] Preslav Nakov, Marti A. Hearst. Solving Relational Similarity Problems Using the Web as a Corpus [C]//Proceedings of ACL-08: HLT, pages, Columbus:ACM, 2008: 452-460.
[15] Evgeniy Gabrilovich, Shaul Markovitch. Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis[C]//The 20th International Joint Conference on Artificial Intelligence. Hyderabad:ACM. 2007.
[16] 姚天昉,婁德成. 漢語(yǔ)情感詞語(yǔ)義傾向判別的研究[C]//中國(guó)計(jì)算技術(shù)與語(yǔ)言問題研究—第七屆中文信息處理國(guó)際會(huì)議論文集, 武漢: 2007.