意見時(shí)空元素的研究

2011-06-14 03:45姚天昉

中文信息學(xué)報(bào) 2011年3期

劉軍, 姚天昉, 仇偉

(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)

1 引言

伴隨著Web2.0技術(shù)革命，互聯(lián)網(wǎng)上的意見型文本[1]呈爆炸性地增長(zhǎng)，這些文本蘊(yùn)含著廣大用戶的喜怒哀樂。Kim和Hovy[2]將意見定義為一個(gè)四元組[Topic, Holder, Claim, Sentiment]，其中Topic為意見主題，也時(shí)也稱為焦點(diǎn)(Focus)；Holder為意見持有者；Claim為意見陳述(即范圍)；Sentiment為情感。即，意見持有者(Holder)針對(duì)某個(gè)主題(Topic)發(fā)表了一個(gè)有意見傾向性(Sentiment)的意見陳述(Claim)。例句： N72，我挺喜歡的，很大氣。例句的主題是“N72”(諾基亞手機(jī))；意見持有者是“我”；情感詞是“喜歡”、“大氣”；傾向性是褒義的。

人們圍繞著Kim&Hovy意見模型在主題識(shí)別[3-5]、傾向性分析[6-8]等方面展開了意見挖掘技術(shù)[9]的研究，取得了許多豐碩成果。Pulse[10]、WebFoudation[11]和Opinion Observer[12]是這些成果中比較典型的意見挖掘系統(tǒng)。Pulse對(duì)汽車評(píng)論進(jìn)行意見挖掘。它首先從評(píng)論中得到汽車制造商和汽車型號(hào)的分類樹，然后分析每個(gè)車型的意見傾向性，最后以“主題，情感”的格式展現(xiàn)結(jié)果。WebFoudation利用NLP技術(shù)構(gòu)建知識(shí)庫(kù)，并應(yīng)用于解決極性識(shí)別問題。Opinion Observe在提取產(chǎn)品的特征后，按照特征的意見褒貶分類匯總。用戶輸入任意兩產(chǎn)品，系統(tǒng)以圖形的方式展現(xiàn)兩產(chǎn)品的特征褒貶數(shù)的比較。

典型意見挖掘系統(tǒng)對(duì)所有意見進(jìn)行傾向性分析之后，簡(jiǎn)單地根據(jù)意見的褒貶性分類匯總。但是這種簡(jiǎn)單的匯總信息并不能滿足許多應(yīng)用的需求。例如，如果意見挖掘系統(tǒng)為一個(gè)產(chǎn)品決策者服務(wù)，系統(tǒng)應(yīng)該能區(qū)分意見的新舊程度、權(quán)威程度以及意見的趨勢(shì)；同樣地，如果意見挖掘系統(tǒng)向消費(fèi)者推薦商品，系統(tǒng)應(yīng)該盡可能地推薦一些當(dāng)前的、有一定權(quán)威的產(chǎn)品意見給消費(fèi)者參考。在這些新的應(yīng)用需求面前，除了Kim&Hovy意見模型的四元素之外，意見的時(shí)空元素具有至關(guān)重要的作用。

意見的時(shí)空元素，是指意見的時(shí)間和意見的來(lái)源。本文通過擴(kuò)展Kim&Hovy意見模型，將意見時(shí)空元素引入到意見模型中并提出了意見重要因子的概念，闡述了時(shí)空元素對(duì)意見重要因子的作用和計(jì)算方法。最后，回到意見時(shí)空元素的應(yīng)用上，探討了意見趨勢(shì)的挖掘方法。實(shí)驗(yàn)表明，意見時(shí)空元素也是意見的重要組成部分，它們有效地拓展了意見挖掘的應(yīng)用范圍，并得到了更多令人信服的結(jié)果。

本文的組織如下：第2節(jié)介紹了意見模型的擴(kuò)展，引入了意見時(shí)空元素；第3節(jié)闡述了意見重要因子、時(shí)空重要因子以及來(lái)源重要因子的計(jì)算方法；第4節(jié)探討了意見趨勢(shì)的挖掘方法和實(shí)驗(yàn)評(píng)估方法；第5節(jié)為全文的總結(jié)。

2 意見模型的擴(kuò)展

2.1 主題的模型

主題(Topic)的類型包括產(chǎn)品、人、組織、事件等。對(duì)一個(gè)主題來(lái)說(shuō)，有兩個(gè)重要參數(shù)：一是描述該主題的所有同義的詞或短語(yǔ)；二是該主題的所有的子主題。例如，“諾基亞”和“Nokia”描述的是同一個(gè)主題，“N70”是該主題的子主題。我們將主題定義為：

Topic=[SynWordSet,subTopicSet]

式中：SynWordSet為同義詞表，subTopicSet為子主題集。

2.2 情感的模型

情感的二要素為：情感成分、情感極性。情感成分一般為包含情感詞的短語(yǔ)，情感極性為褒義、貶義或中性。我們將情感定義為：

2.3 意見的模型

我們擴(kuò)展Kim&Hovy意見模型，將時(shí)間和來(lái)源元素也作為意見的組成部分，即，

Opinion=[Holder,Topic,Sentiment,Claim,Time,Source]

意見的含義為意見持有者(Holder)在某個(gè)時(shí)刻(Time)、某個(gè)地方(Source)針對(duì)某個(gè)主題集(TopicSet)表達(dá)了一些情感(SentimentSet)。即，

對(duì)任意Topic∈TopicSet，Holder必定(1)選用了Word∈SynWordSet來(lái)描述該Topic；(2)針對(duì)該Topic表達(dá)了一些情感。

3 意見重要因子

在以往的意見挖掘中，沒有區(qū)分意見的重要性。但是在意見趨勢(shì)挖掘等新應(yīng)用中，即使同一條意見，發(fā)生在不同的時(shí)間或來(lái)自不同的地方，其重要性也是不同的。假如我們要挖掘2008年的意見趨勢(shì)，則我們可以忽略掉不屬于2008年的意見。同樣地，對(duì)于來(lái)自專業(yè)評(píng)論網(wǎng)的意見要比散布在其他論壇的意見重要性高。

為了量化意見的重要性，我們提出了意見重要因子(Opinion Important Factor)。對(duì)任何一條意見o，其重要因子OIF(o)由式(1)給出，

(1)

OIF(o)的含義為：

(1) 當(dāng)意見o的時(shí)間重要因子T(o)和來(lái)源重要因子S(o)都不等于0的時(shí)候，我們可以調(diào)節(jié)T(o) 和S(o)的權(quán)重，將兩者相加得到OIF(o)。

(2) 如果意見的時(shí)間重要因子或來(lái)源重要因子有一項(xiàng)為0，那么說(shuō)明這條意見根本就不重要，可以直接忽略掉。例如：我們有時(shí)需要忽略某個(gè)時(shí)間段的意見或忽略來(lái)自某個(gè)網(wǎng)站的意見，這時(shí)候我們可以設(shè)置這些意見的T(o)或S(o)等于0。

3.1 意見的時(shí)間重要因子

時(shí)間是客觀世界存在的一種屬性，意見也具有時(shí)間性。時(shí)間可以用來(lái)區(qū)分意見的重要程度。例如，在常見的產(chǎn)品評(píng)論挖掘系統(tǒng)中，如果要挖掘出當(dāng)前最受歡迎的產(chǎn)品，則最新的評(píng)論的重要性更高。但這并不意味著意見的重要性與時(shí)間的關(guān)系就這一種。事實(shí)上，意見的重要性與時(shí)間的關(guān)系是隨著具體的應(yīng)用而不同的，需要根據(jù)具體的應(yīng)用需求進(jìn)行分析。假設(shè)意見o的時(shí)間為time(o)，重要因子為T(o)，表1為時(shí)間重要因子在一些具體應(yīng)用中的取值。

表1 時(shí)間重要因子在不同應(yīng)用中的取值

3.2 意見的來(lái)源重要因子

人們常用“十大游戲網(wǎng)站”、“三大門戶網(wǎng)站”、“三大搜索站點(diǎn)”等詞語(yǔ)來(lái)刻畫網(wǎng)站在某領(lǐng)域的重要性。同樣地，在意見挖掘中，除了意見的時(shí)間元素外，我們也應(yīng)考慮到意見的來(lái)源在該領(lǐng)域的重要性。與時(shí)間元素不同的是，意見來(lái)源的重要性與領(lǐng)域有重要的關(guān)系。舉例來(lái)說(shuō)，卓越網(wǎng)是以網(wǎng)上書店起家的，然后逐漸擴(kuò)大到電子產(chǎn)品的在線銷售網(wǎng)站。對(duì)于卓越網(wǎng)來(lái)說(shuō)，在書籍方面的重要性遠(yuǎn)比它在電子產(chǎn)品方面的重要性更高。因?yàn)閺恼麄€(gè)中國(guó)的網(wǎng)站來(lái)看，卓越網(wǎng)在書籍方面的評(píng)論數(shù)和訪問量上，都比在電子產(chǎn)品方面更重要。

假設(shè)語(yǔ)料庫(kù)中的意見來(lái)源于n個(gè)論壇，論壇si在領(lǐng)域m上的重要因子表示為Ψ(si,m)，那么屬于論壇si的意見的來(lái)源重要因子S(o)就等于Ψ(si,m)。因此，我們將著重討論如何計(jì)算Ψ(si,m)？

在信息檢索領(lǐng)域，Google提出了PageRank算法[13]對(duì)一個(gè)網(wǎng)頁(yè)的重要性進(jìn)行量化。在PageRank算法中，一個(gè)網(wǎng)頁(yè)的重要性由鏈向它的頁(yè)面數(shù)(鏈入數(shù))來(lái)決定。鏈入數(shù)越大的頁(yè)面，其重要性越高。PageRank算法的思想與人的直觀認(rèn)識(shí)也是相符的。

在ACL08上，加州伯克利大學(xué)的Preslav Nakov[14]利用搜索引擎計(jì)算兩個(gè)名詞的關(guān)聯(lián)度。由WordNet得到兩個(gè)名詞的屈折詞集(屈折詞是改變?cè)~尾得到的詞，如worked是work的屈折詞)，再將兩個(gè)屈折詞集中的詞兩兩組合作為關(guān)鍵字讓Google進(jìn)行搜索，抽取Google返回結(jié)果中包含兩個(gè)名詞的文字片段，然后將文字片段中動(dòng)詞、介詞和并列連詞作為這兩個(gè)名詞的特征，再根據(jù)向量空間模型得到這兩個(gè)名詞的向量，最后計(jì)算這兩個(gè)名詞的關(guān)聯(lián)度。

上述工作給本文提供了重要的啟示，本文將論壇si在領(lǐng)域m上的重要因子Ψ(si,m)分為二部分：論壇的影響力、論壇與領(lǐng)域m的相關(guān)度。

3.2.1 來(lái)源的影響力

影響力主要是刻畫某一論壇在同類論壇中的份量。影響力越大的論壇，用戶訪問的次數(shù)越多，網(wǎng)頁(yè)內(nèi)容會(huì)更豐富，被其他網(wǎng)站鏈接的機(jī)會(huì)也更多。本文對(duì)論壇的影響力用三個(gè)參數(shù)來(lái)刻畫：論壇的日訪問量、鏈入數(shù)和被搜索引擎收錄的頁(yè)面數(shù)。很顯然，日訪問量能夠很好地代表論壇的人氣。日訪問量越大，說(shuō)明論壇的用戶數(shù)多，論壇越受歡迎。與Google的PageRank類似，鏈入數(shù)代表了論壇被互聯(lián)網(wǎng)其他網(wǎng)站的認(rèn)可程度。鏈入數(shù)越大，說(shuō)明論壇越重要。另外，因?yàn)樗阉饕嬉呀?jīng)成為人們尋找Internet上浩如煙海信息的指航燈，一個(gè)論壇被搜索引擎收錄的頁(yè)面數(shù)越多，越容易被訪問到。

3.2.2 來(lái)源與領(lǐng)域的相關(guān)度

如果人們?cè)谒阉饕嬷休斎胍粋€(gè)關(guān)鍵字K，然后通過點(diǎn)擊搜索引擎返回的鏈接結(jié)果而訪問了論壇si，那么我們可以確定的是： (1)關(guān)鍵字K肯定與論壇si有一定的相關(guān)。否則搜索引擎不會(huì)在關(guān)鍵字K的結(jié)果中返回論壇si的鏈接；(2)搜索關(guān)鍵字K導(dǎo)致訪問論壇si的次數(shù)越多，則關(guān)鍵字K與論壇si的相關(guān)度越高。

我們可以通過搜索日志得到訪問論壇si時(shí)的高頻搜索關(guān)鍵字集KS。從某種意義上來(lái)說(shuō)，高頻搜索關(guān)鍵字集KS就是論壇si在互聯(lián)網(wǎng)中的代名詞。所以，本文將論壇si與領(lǐng)域m的相關(guān)度轉(zhuǎn)化為論壇si的高頻搜索關(guān)鍵字集KS與領(lǐng)域m的相關(guān)度。

3.3 意見來(lái)源重要因子的實(shí)驗(yàn)

3.3.1 實(shí)驗(yàn)對(duì)象

我們選了“手機(jī)”和“汽車”2個(gè)領(lǐng)域、在每個(gè)領(lǐng)域中又選了4個(gè)論壇作為我們的實(shí)驗(yàn)對(duì)象。一般情況下，論壇都是門戶網(wǎng)站下的二級(jí)域名。例如，“智能手機(jī)論壇sjbbs.zol.com.cn”是“中關(guān)村在線zol.com.cn”下的二級(jí)域名。所選的8個(gè)論壇請(qǐng)見表2。

3.3.2 論壇影響力的計(jì)算

(1) 論壇日訪問量的計(jì)算

alexa.com是比較有影響的web信息統(tǒng)計(jì)公司，它以一級(jí)域名為單位進(jìn)行日訪問量、點(diǎn)擊流、訪問時(shí)的高頻搜索關(guān)鍵字等信息進(jìn)行統(tǒng)計(jì)。

alexa.com對(duì)日訪問量用百分比描述，即日訪問量%(Daily Reach%)。其含義為alexa.com所能統(tǒng)計(jì)到的所有internet用戶中有百分之幾訪問了這個(gè)網(wǎng)站。

假設(shè)alexa.com所能統(tǒng)計(jì)到的所有internet用戶數(shù)為Δ，論壇si的日訪問量%為di%，則論壇si日訪問用戶數(shù)為Δ×di%。

本文將Ψ11(si)取為論壇si占所有論壇的日訪問量的比重，即式(2)。

(2)

(2) 鏈入數(shù)和被收錄頁(yè)面數(shù)的計(jì)算

利用搜索引擎可以查詢論壇的鏈入數(shù)和被收錄的頁(yè)面數(shù)。在搜索引擎的高級(jí)搜索語(yǔ)法中，有l(wèi)ink和site兩個(gè)關(guān)鍵字。假設(shè)URL(si)表示論壇si的URL，則link:URL(si)返回論壇si的鏈入數(shù)li，site:URL(si)返回搜索引擎收錄了論壇si的頁(yè)面數(shù)pi。

在本文中，Ψ12(si)取為論壇si占所有論壇鏈入數(shù)的比重，Ψ13(si)取為論壇si占所有論壇被收錄頁(yè)面數(shù)的比重，分別為式(3)和式(4)。

(3)

(4)

(3) 論壇影響力的計(jì)算

綜合式(2)、式(3)和式(4)，就得到了論壇影響力的計(jì)算式(5)，

3.3.3 論壇與領(lǐng)域的相關(guān)度實(shí)驗(yàn)

我們從alexa.com獲取了8個(gè)論壇的前30個(gè)頻次最高的搜索關(guān)鍵字，然后將論壇si與領(lǐng)域m的相關(guān)度轉(zhuǎn)化為高頻搜索關(guān)鍵字集KSi與領(lǐng)域m的相關(guān)度。本文使用了已有的任意兩個(gè)詞匯的語(yǔ)義相關(guān)度計(jì)算公式Relatedness(m,ki)[15]，得到關(guān)鍵字集KSi與領(lǐng)域m的相關(guān)度計(jì)算為式(6)，

式中：rank(ki)是關(guān)鍵字ki的頻次排名；m為“手機(jī)”或“汽車”。

計(jì)算出來(lái)R(m,KSi)后，論壇si與領(lǐng)域m相關(guān)度的計(jì)算為式(7)，

3.3.4 實(shí)驗(yàn)結(jié)果

綜合式(5)和式(7)，得到意見的來(lái)源重要因子的計(jì)算為式(8)，

表2是意見來(lái)源重要因子的實(shí)驗(yàn)結(jié)果。表2的“日訪問量”是三個(gè)月的日訪問量，“鏈入數(shù)”和“收錄的網(wǎng)頁(yè)數(shù)”是百度和谷歌的總數(shù)。我們可以從實(shí)驗(yàn)結(jié)果得出如下結(jié)論：

(1) 日訪問量和高頻搜索關(guān)鍵字都是取自論壇的父域名的數(shù)據(jù)，實(shí)驗(yàn)結(jié)果驗(yàn)證了這種做法的合理性。“太平洋手機(jī)俱樂部”的父域名是“太平洋電腦網(wǎng)”，是一個(gè)多領(lǐng)域的網(wǎng)站?！疤窖笫謾C(jī)俱樂部”的影響力Ψ1的得分是手機(jī)領(lǐng)域里最高的，這主要得益于其父域名的訪問量大；同時(shí)，“太平洋手機(jī)俱樂部”的相關(guān)度Ψ2又因其父域名是多領(lǐng)域得分最低。

(2) 意見來(lái)源重要因子是一個(gè)多因素的參數(shù)，考慮的角度不同，得出的結(jié)果也會(huì)略有差別。本文從意見來(lái)源的影響力、與領(lǐng)域的相關(guān)度兩個(gè)方面來(lái)分析，綜合利用權(quán)威的統(tǒng)計(jì)信息進(jìn)行計(jì)算。從計(jì)算結(jié)果來(lái)看，這與意見來(lái)源的統(tǒng)計(jì)數(shù)據(jù)所反映的情況是一致的。

表2 意見來(lái)源重要因子的實(shí)驗(yàn)結(jié)果

4 意見趨勢(shì)挖掘

4.1 挖掘方法

人們對(duì)某事物的看法是隨著時(shí)間而變化的，這是意見趨勢(shì)挖掘的根本出發(fā)點(diǎn)。意見趨勢(shì)用于刻畫某事物的意見得分在時(shí)間軸上的變化情況，它較真實(shí)地記錄了事物的發(fā)展變化，有利于人們把握事物的真實(shí)狀況。

以產(chǎn)品p為例，其意見趨勢(shì)就是產(chǎn)品p的意見得分在時(shí)間軸上的變化線。我們將時(shí)間軸分成t個(gè)時(shí)間段T，產(chǎn)品p在時(shí)間段Ti上的意見得分為θi，則產(chǎn)品p的意見趨勢(shì)就是θi(i=1..t)的變化情況。意見趨勢(shì)挖掘的核心問題是求出產(chǎn)品p在時(shí)間段Ti上的意見得分θi。

我們用“受歡迎度”來(lái)刻畫產(chǎn)品p在時(shí)間段Ti上的意見得分。對(duì)于一條意見的得分采用strength(o)×OIF(o)表示。strength(o)是意見的情感強(qiáng)度[16]，OIF(o)是意見重要因子。假設(shè)產(chǎn)品p在時(shí)間段Ti上有n條褒義的意見和m條貶義的意見，我們用式(9)來(lái)計(jì)算產(chǎn)品p在時(shí)間段Ti上的“受歡迎度”。

(9)

式中：分子表示產(chǎn)品受褒獎(jiǎng)的意見數(shù)越多，說(shuō)明產(chǎn)品越熱。分母表示產(chǎn)品受批評(píng)的意見數(shù)越少，則產(chǎn)品越受歡迎。

4.2 實(shí)驗(yàn)

4.2.1 實(shí)驗(yàn)主題及語(yǔ)料

為縮小實(shí)驗(yàn)主題，本文隨機(jī)選用“奇瑞QQ3”、“比亞迪F0”、“昌河北斗星”、“吉利熊貓”、“長(zhǎng)安奔奔”這五種微型車。在時(shí)間上，以季度為單位，范圍限制在2008的四個(gè)季度、2009年的前兩個(gè)季度。即，本實(shí)驗(yàn)的目標(biāo)是：挖掘五種微型車在2008年至2009年上半年的按季度的意見趨勢(shì)。本實(shí)驗(yàn)的時(shí)間重要因子的計(jì)算為式(10)，意見重要因子的計(jì)算為式(11)，來(lái)源重要因子的計(jì)算結(jié)果已經(jīng)在第3節(jié)的表3中。

本實(shí)驗(yàn)的語(yǔ)料來(lái)自4個(gè)汽車論壇，共包括 15 819條意見。

4.2.2 實(shí)驗(yàn)結(jié)果及分析

我們首先根據(jù)式(9)得到五種微型車在各個(gè)季度的“受歡迎度”值，然后畫出它們的“受歡迎度”季度變化線。圖1是我們繪出的五種微型車在2008年和2009年上半年的按季度的意見趨勢(shì)。圖2是按照傳統(tǒng)意見挖掘系統(tǒng)的做法，繪出了五種微型車的6個(gè)季度的“受歡迎度”匯總。

圖1 微型車的季度意見趨勢(shì)

圖2 微型車的歡迎度匯總

比較圖1和圖2，我們發(fā)現(xiàn)意見趨勢(shì)挖掘具有如下優(yōu)點(diǎn)：

(1) 記錄了事物的發(fā)展歷程。在傳統(tǒng)意見挖掘系統(tǒng)的圖2中，“奇瑞QQ3”比“比亞迪F0”更受好評(píng)，“吉利熊貓”比“昌河北斗星”更受歡迎。但從趨勢(shì)挖掘的圖1可以清楚地看到，“比亞迪F0”與“奇瑞QQ3”的差距越來(lái)越小，甚至曾經(jīng)在兩個(gè)季度超過了；另外，“昌河北斗星”在2008年初因?yàn)閮r(jià)格高等原因不受好評(píng)，但后面的發(fā)展超過了“吉利熊貓”。

(2) 對(duì)人們具有指導(dǎo)作用。如圖1所示，“奇瑞QQ3”在2008Q4、“吉利熊貓”在2008Q3都有一個(gè)明顯的下降點(diǎn)，這種信息可以特別提醒決策者關(guān)注原因、有目的地改進(jìn)。

4.2.3 實(shí)驗(yàn)評(píng)估

本文將人工得到的意見趨勢(shì)作為基準(zhǔn)，實(shí)驗(yàn)結(jié)果與基準(zhǔn)進(jìn)行比較，差異的大小就是實(shí)驗(yàn)的效果度量。

首先我們用幾何方法來(lái)探討意見趨勢(shì)的實(shí)驗(yàn)評(píng)估公式。如圖3所示，紅線是我們通過人工得到的某產(chǎn)品的意見趨勢(shì)圖，B點(diǎn)是T2時(shí)刻的意見得分，C點(diǎn)是T3時(shí)刻的意見得分。假設(shè)線段km、fm、fn都是BC段的實(shí)驗(yàn)結(jié)果，并且k點(diǎn)離B點(diǎn)的距離等于f點(diǎn)離B點(diǎn)的距離。

圖3 意見趨勢(shì)實(shí)驗(yàn)評(píng)估示例

我們從兩個(gè)方面來(lái)分析km、fm、fn的好壞：

(1) 距離差。很顯然，fm的效果比f(wàn)n好。因?yàn)樵赥2時(shí)刻，fm的意見得分的誤差與fn一樣；但在T3時(shí)刻，fm的意見得分的誤差比f(wàn)n小。

我們采用意見得分差的平方表示距離差，即fm與BC的距離差為式(12)，

式中：f.y表示f點(diǎn)的y坐標(biāo)值。

(2) 斜率偏差。km與fm的距離差相等。但很顯然，fm的效果比km好。因?yàn)锽C體現(xiàn)了T2到T3時(shí)刻的意見得分增加趨勢(shì)，fm與BC一樣，但km卻體現(xiàn)為減小趨勢(shì)。

我們?nèi)軸的每段時(shí)間為單位1，則簡(jiǎn)化后的fm和BC的斜率計(jì)算為式(13)、式(14)：

我們用直線的斜率差的平方表示斜率偏差，即fm與BC的斜率偏差為式(15)，

綜合式(12)和式(15)，我們得到在幾何表示下，意見趨勢(shì)直線fm與BC的誤差度量為式(16)。式(16)的值越小，表明直線fm與BC越接近。

最后我們用代數(shù)方法來(lái)描述意見趨勢(shì)的誤差公式。假設(shè)在ti(i=1..n)時(shí)刻，產(chǎn)品p的真實(shí)的和實(shí)驗(yàn)的“受歡迎度”分別為ρi、γi，則產(chǎn)品p的意見趨勢(shì)的實(shí)驗(yàn)誤差為式(17)

e(p)越小，則說(shuō)明實(shí)驗(yàn)的結(jié)果與真實(shí)的越接近。

根據(jù)式(17)計(jì)算出來(lái)的五種微型車的意見趨勢(shì)誤差分別為16.91、9.93、13.21、13.18、11.79。因?yàn)槲宸N微型車的趨勢(shì)相交得比較嚴(yán)重，為清楚起見，圖4只畫出了“QQ3”和“奔奔”的真實(shí)趨勢(shì)與實(shí)驗(yàn)趨勢(shì)的比較圖。從實(shí)驗(yàn)結(jié)果可看出，我們的意見趨勢(shì)的效果與人工的效果很接近，反映了微型車在論壇上的意見趨勢(shì)。

圖4 真實(shí)趨勢(shì)與實(shí)驗(yàn)趨勢(shì)的比較

5 結(jié)束語(yǔ)

意見時(shí)空元素的研究是個(gè)全新領(lǐng)域。本文將時(shí)空元素引入意見模型，研究了時(shí)空元素與意見重要因子的關(guān)系，并探討了時(shí)空元素在意見趨勢(shì)挖掘中的應(yīng)用。一方面，本文只研究了時(shí)空元素對(duì)意見重要性的作用，但時(shí)空元素的作用遠(yuǎn)不止于此。例如，通過分析最近一段時(shí)間內(nèi)的評(píng)論，我們可以找到當(dāng)前熱點(diǎn)評(píng)論對(duì)象；通過分析某個(gè)論壇的所有評(píng)論，我們可以大概知道論壇的領(lǐng)域，甚至是論壇的帖子風(fēng)格。另一方面，本文在分析意見重要因子時(shí)，只考慮了時(shí)空元素的影響。而實(shí)際上，意見的持有者對(duì)意見的重要性也有影響。例如，如果我們已經(jīng)挖掘出了某個(gè)特定論壇的所有用戶的基本信息，那么在對(duì)這個(gè)論壇進(jìn)行意見挖掘時(shí)，我們可以將一些喜歡發(fā)無(wú)用帖的人的意見重要程度降低、甚至去除。我們還可以針對(duì)某個(gè)年齡段、性別等特征進(jìn)行意見挖掘，這時(shí)候也會(huì)影響到意見的重要程度。以上兩方面都是本文今后的研究方向。

[1] 劉全升，姚天昉，黃高輝，劉軍，宋鴻彥. 漢語(yǔ)意見型主觀性文本類型體系的研究[J]. 中文信息學(xué)報(bào), 2008, 22(6):63-68.

[2] Soo-Min Kim, Eduard Hovy. Determining the Sentiment of Opinions[C]//Proceedings of COLING, 2004.

[3] J . Yi, T. Nasukawa, R. Bunescu, and W. Niblack. Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques [C]//Proceedings of the 3rd IEEE International Conference on Data Mining. Melbourne, Florida:IEEE, 2003:427-434.

[4] M.Hu and B. Liu. Mining Opinion Features in Customer Reviews [C]//Proceedings of Nineteenth National Conference on Artificial Intelligence. San Jose:ACM, 2004.

[5] A.-M. Popescu and O. Etzioni. Extracting Product Features and Opinions from Reviews [C]//Proceedings of HL T-EMNLP-05, the Human Language Technology Conference/ Conference on Empirical Methods in Natural Language Processing. Vancouver, Canada:ACM,2005:339-346.

[6] V. Hatzivassiloglou and K. R. McKeown. Predicting the semantic orientation of adjectives[C]//Proceedings of the ACL Conference, 1997:174-181.

[7] P.D. Turney and M.L. Littman. Unsupervised learning of semantic orientation from a hundred-billion-word corpus [R]. Technical Report ERB-1094, National Research Council Canada, Institute for Information Technology, 2002.

[8] Peter D. Turney. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 2002.

[9] 姚天昉, 程希文, 徐飛玉,等. 文本意見挖掘綜述[J]. 中文信息學(xué)報(bào), 2008, 22(3):71-80.

[10] Gamon, M., A. Aue, S. Corston-Oliver and E. Ringger. Pulse: Mining Customer Opinions from Free Text[J]. Lecture Notes in Computer Science. 2005, 3646:121-132.

[11] Jeonghee Yi, Wayne Niblack. Sentiment Mining in WebFountain [C]//Proceedings of 21st International Conference on Data Engineering, 2005:1073-1083.

[12] Hu, M. and Liu, B. Mining and Summarizing Customer Reviews [C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Seattle:ACM, 2004.

[13] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine [C]//Proceedings of the Seventh International World Wide Web Conference. 1998: 107-117.

[14] Preslav Nakov, Marti A. Hearst. Solving Relational Similarity Problems Using the Web as a Corpus [C]//Proceedings of ACL-08: HLT, pages, Columbus:ACM, 2008: 452-460.

[15] Evgeniy Gabrilovich, Shaul Markovitch. Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis[C]//The 20th International Joint Conference on Artificial Intelligence. Hyderabad:ACM. 2007.

[16] 姚天昉，婁德成. 漢語(yǔ)情感詞語(yǔ)義傾向判別的研究[C]//中國(guó)計(jì)算技術(shù)與語(yǔ)言問題研究—第七屆中文信息處理國(guó)際會(huì)議論文集, 武漢: 2007.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡