国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情緒詞的非監(jiān)督中文情感分類方法研究

2012-06-29 06:15代大明王中卿李壽山李培峰朱巧明
中文信息學(xué)報(bào) 2012年4期
關(guān)鍵詞:語料正確率分類器

代大明,王中卿,李壽山,李培峰,朱巧明

(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

1 引言

隨著Web 2.0的發(fā)展,互聯(lián)網(wǎng)上相繼出現(xiàn)了大量關(guān)于觀點(diǎn)的評(píng)論文本,這迫切需要計(jì)算機(jī)幫助商業(yè)公司或用戶自動(dòng)分析和獲取這些文本的情感信息。情感分析(sentiment analysis)即為該背景下出現(xiàn)的一個(gè)面向文本情感信息處理的新興研究方向[1]。

情感分類(sentiment classification)是情感分析研究的一個(gè)基本任務(wù),該任務(wù)旨在將文本按照情感傾向進(jìn)行褒貶分類。與傳統(tǒng)基于主題的文本分類相比,情感分類被認(rèn)為更具有挑戰(zhàn)性[2]。到目前為止,大多數(shù)針對(duì)情感分類的研究是基于監(jiān)督學(xué)習(xí)的,雖然取得了較好的分類效果,但由于這種方法需要大量標(biāo)注語料使得構(gòu)建分類器的時(shí)間和經(jīng)濟(jì)代價(jià)比較大。因此,后續(xù)研究出現(xiàn)了一些基于少量標(biāo)注數(shù)據(jù)的半監(jiān)督學(xué)習(xí)方法,并取得了不錯(cuò)的成績[3]。

由于情感分類是領(lǐng)域相關(guān)(domain-specific)的,在牽涉到多個(gè)領(lǐng)域的時(shí)候,對(duì)所有領(lǐng)域都標(biāo)注少量數(shù)據(jù)仍然非常費(fèi)時(shí)費(fèi)力。在這種情況下,無需標(biāo)注語料的非監(jiān)督情感分類方法顯得非常實(shí)用。本文重點(diǎn)研究基于非監(jiān)督學(xué)習(xí)的情感分類方法,提出了一種基于情緒詞的非監(jiān)督情感分類方法。值得指出的是,本文所指的情緒詞不同于情感詞,情感詞一般是指具有情感傾向的評(píng)價(jià)詞語,例如,“漂亮”;而情緒詞一般是用于描述個(gè)人內(nèi)心感受的詞語,例如,“平靜”。這兩類詞不僅存在一定的聯(lián)系,也有著明顯的區(qū)別。例如,有些詞即是情感詞也是情緒詞,例如,“高興”;但是,有些詞僅僅是情緒詞,并不帶任何感情色彩,例如,“驚訝”。本文的方法首先使用情緒詞從未標(biāo)注數(shù)據(jù)中抽取高正確率的自動(dòng)標(biāo)注數(shù)據(jù)作為訓(xùn)練樣本,然后采用半監(jiān)督學(xué)習(xí)方法進(jìn)行情感分類。該方法主要利用了情緒詞的兩個(gè)特點(diǎn): (1)情緒詞數(shù)量少,標(biāo)注情緒詞的情感極性工作量非常有限;(2)情緒詞表達(dá)的情感極性往往是領(lǐng)域獨(dú)立的,使用情緒詞可以有效地在多個(gè)領(lǐng)域抽取樣本。實(shí)驗(yàn)結(jié)果顯示,我們提出的方法在不同的兩個(gè)領(lǐng)域中都取得了較好的分類效果。

本文的結(jié)構(gòu)組織如下,第二節(jié)介紹相關(guān)工作;第三節(jié)給出基于情緒詞的非監(jiān)督情感分類方法;第四節(jié)是實(shí)驗(yàn)結(jié)果與分析;第五節(jié)給出總結(jié)并對(duì)下一步工作進(jìn)行了展望。

2 相關(guān)工作

目前,主流的情感分類研究主要集中在基于機(jī)器學(xué)習(xí)的分類方法上面?;跈C(jī)器學(xué)習(xí)的分類方法一般可以分為三種類型: 全監(jiān)督學(xué)習(xí)方法[4]、半監(jiān)督學(xué)習(xí)方法[4-5]、非監(jiān)督學(xué)習(xí)方法[5-6]。此外,為了克服領(lǐng)域間分類性能損失問題,領(lǐng)域適應(yīng)學(xué)習(xí)方法在情感分類方法研究中得到了充分的發(fā)展[7]。

本文關(guān)注于非監(jiān)督的情感分類方法,由于無需標(biāo)注語料,非監(jiān)督情感分類方法一直受到許多研究者的青睞。Turney[6]首次提出基于種子詞(excellent,poor)的非監(jiān)督學(xué)習(xí)方法,使用“excellent”和“poor”兩個(gè)種子詞與未知詞在搜索網(wǎng)頁中的互信息來計(jì)算未知詞的情感極性,并用以計(jì)算整個(gè)文本的情感極性。后續(xù)的非監(jiān)督情感分類方法大都是基于生成或已有的情感詞典或者相關(guān)資源進(jìn)行情感分類。例如,Kennedy 和Inkpen[8]考慮文本中詞的極性轉(zhuǎn)移關(guān)系并基于種子詞集合進(jìn)行詞計(jì)數(shù)決定情感傾向。朱嫣嵐等人[9]將一組已知極性的詞語集合作為種子,基于HowNet對(duì)未知詞語與種子詞進(jìn)行語義計(jì)算,從而判別未知詞的極性。Zagibalov 和Carroll[10]提出種子詞選擇方法和種子詞的統(tǒng)計(jì)方法對(duì)中文情感分類。與以上文章不同的是,本文提出的非監(jiān)督情感分類方法僅使用少量的情緒詞(具有很好的領(lǐng)域獨(dú)立性),而非大規(guī)模的情感詞典或其他資源。Dasgupta 和Ng[5]也提出了用譜聚類把文本按照情感維度聚類,其中需要人工判別情感維度的極性。Lin et al.[11]采用LSM模型、JST模型、Reverse-JST模型構(gòu)建了三種無監(jiān)督的情感分類系統(tǒng)。

3 基于情緒詞的非監(jiān)督情感分類方法

3.1 概述

情緒一般是指人的內(nèi)心反應(yīng)與感受,例如,喜、怒、哀、樂等。人們?cè)诒磉_(dá)觀點(diǎn)、態(tài)度時(shí),往往伴隨著情緒的表達(dá)。因此,可以考慮通過情緒來推測(cè)人們對(duì)事物的情感傾向。本文設(shè)定情感傾向與情緒的關(guān)系。當(dāng)人們表達(dá)出對(duì)某事物的正面評(píng)價(jià),往往會(huì)表現(xiàn)出正面的情緒;反之,當(dāng)人們表達(dá)出對(duì)某事物的負(fù)面評(píng)價(jià),往往表現(xiàn)出負(fù)面的情緒。

情緒詞是指描述情緒的詞語,是情緒表現(xiàn)最明顯的特征形式。情感詞是具有情感傾向的詞語。情緒詞與情感詞間存在差異又存在聯(lián)系,例如,“漂亮”,它體現(xiàn)出對(duì)某事物的正面的情感傾向,認(rèn)為是情感詞,因不是關(guān)于人的內(nèi)心活動(dòng)的描述,所以不是情緒詞;而“平靜”描述了人的情緒,但沒有體現(xiàn)明顯的情感傾向,只是情緒詞?!案吲d”即表達(dá)了人的情緒,同時(shí)也具有明顯的情感傾向,即正面。所以可認(rèn)為即是情緒詞,也是情感詞。情緒詞一般是少量的,并且大都領(lǐng)域獨(dú)立,即其情感傾向一般不隨領(lǐng)域的不同而改變。所以本文提出了基于情緒詞的情感分類方法。

本文的方法首先使用情緒詞從未標(biāo)注數(shù)據(jù)中抽取高正確率的自動(dòng)標(biāo)注數(shù)據(jù)作為訓(xùn)練樣本,然后采用半監(jiān)督學(xué)習(xí)方法進(jìn)行情感分類。圖1給出了本文方法的系統(tǒng)框架圖。嚴(yán)格意義上講,由于不需要任何標(biāo)注樣本, 本文的方法可以認(rèn)為是一種非監(jiān)督情感分類方法。

圖1 基于情緒詞的非監(jiān)督情感分類方法系統(tǒng)框架圖

3.2 情緒詞的收集和標(biāo)注

本文使用的情緒詞來源于許小穎等人[12]收集的情緒詞集,然后通過人工識(shí)別情感傾向,把情緒詞劃分為正負(fù)兩類。

為了保證情緒詞的質(zhì)量,我們剔除了以下三種類型的情緒詞。(1)沒有強(qiáng)烈的情感傾向,例如,“懷疑”;(2)不同語境下存在情感傾向變化,例如,“奇怪”,“緊張”;(3)存在歧義的情緒詞,例如,“不快”,“不滿”。表1給出剔除前后情緒詞的統(tǒng)計(jì)情況。

表1 剔除前后情緒詞的統(tǒng)計(jì)

3.3 獲取初始自動(dòng)標(biāo)注語料

由于上下文的關(guān)系, 情緒詞表達(dá)的情感不一定同整個(gè)文本表達(dá)的情感一致。所以通過情緒詞直接標(biāo)注的部分樣本可能存在錯(cuò)誤。因此,本文采取一些規(guī)則幫助抽取高精確度的樣本。使用的規(guī)則主要針對(duì)情感文本中普遍存在的否定現(xiàn)象。例如,

顏色 和 圖片 基本 一致 , 做工 也 很 好 。 很 漂亮 , 挺 實(shí)用 的, 沒 讓 我失望。 (產(chǎn)品領(lǐng)域)

一 進(jìn) 房間 就 有 一 股 霉 味 , 后來 發(fā)現(xiàn) 馬桶 水箱 出 不 了 水 , 兩 次 讓 服務(wù)員 來 修理 , 還是 不 太放心。 (酒店領(lǐng)域)

本文的規(guī)則主要是針對(duì)否定現(xiàn)象,具體來講,規(guī)則是當(dāng)一個(gè)情緒詞的上下文中出現(xiàn)否定詞時(shí),那么它的情感極性將發(fā)生反轉(zhuǎn)??紤]的否定詞如下: 不、不是、不用、非、否、無、無法、沒、沒有、沒法、沒什么、難以、毫無、決不、未、絕不。

3.4 半監(jiān)督學(xué)習(xí)方法

由于本文使用的情緒詞有限,導(dǎo)致收集到的自動(dòng)標(biāo)注數(shù)據(jù)規(guī)模比較小。本文使用收集的樣本作為初始樣本借助半監(jiān)督學(xué)習(xí)方法進(jìn)一步擴(kuò)充樣本,從而提高系統(tǒng)的分類性能。本文使用了兩種半監(jiān)督學(xué)習(xí)方法: 自學(xué)習(xí)(self-training)和協(xié)同訓(xùn)練(co-training)方法。

自學(xué)習(xí)就是先通過已標(biāo)注的訓(xùn)練數(shù)據(jù)集訓(xùn)練一個(gè)分類器,然后用該分類器標(biāo)注未標(biāo)注的數(shù)據(jù);并從結(jié)果中選擇置信度最大的或者符合規(guī)定閾值的一部分?jǐn)?shù)據(jù),作為標(biāo)記數(shù)據(jù)添加到訓(xùn)練集中,迭代重復(fù)這個(gè)過程直到未標(biāo)記數(shù)據(jù)被添加達(dá)到某一條件為止[13]。

協(xié)同訓(xùn)練算法[14]使用兩個(gè)或多個(gè)視圖(views)分別構(gòu)建兩個(gè)或者多個(gè)分類器,使用它們對(duì)大量未標(biāo)注的數(shù)據(jù)標(biāo)注來增加標(biāo)注數(shù)據(jù)集,從中選取置信度最高的部分?jǐn)?shù)據(jù)添加到標(biāo)注集中。該算法執(zhí)行多次迭代以到達(dá)足夠的數(shù)據(jù)集。在本文的方法中,將特征集劃分為兩個(gè)子空間用以構(gòu)建兩個(gè)不同的視圖,劃分方法采用對(duì)等隨機(jī)形式,即以隨機(jī)的形式把全部特征集合劃分為特征數(shù)量相等的兩個(gè)子特征集。由于兩個(gè)子特征集的特征是完全不相同的,可以認(rèn)為這樣生成的兩個(gè)視圖近似比較獨(dú)立,比較好的滿足Co-training成功的兩個(gè)基本條件之一: 兩個(gè)視圖要統(tǒng)計(jì)獨(dú)立[14]。下面給出了本文提出的協(xié)同訓(xùn)練算法描述。

初始條件:

-特征子集F1,F2

-自動(dòng)標(biāo)注訓(xùn)練數(shù)據(jù)L

-未標(biāo)注數(shù)據(jù)U

-添加數(shù)據(jù)的正面或負(fù)面?zhèn)€數(shù)P

算法流程:

迭代直到滿足結(jié)束條件:

1. 使用基于特征集F1的訓(xùn)練集L學(xué)習(xí)第一個(gè)分類器C1,然后使用分類器C1對(duì)基于特征集F1的數(shù)據(jù)集U中的數(shù)據(jù)標(biāo)注;

2. 從結(jié)果中選取置信度最大的部分?jǐn)?shù)據(jù)L′,其包含數(shù)量為P的正面評(píng)論與數(shù)量為P的負(fù)面評(píng)論;

3. 使用基于特征集F2的訓(xùn)練集L學(xué)習(xí)第二個(gè)分類器C2,然后使用分類器C2對(duì)基于特征集F2的數(shù)據(jù)集U中的數(shù)據(jù)標(biāo)注;

4. 從結(jié)果中選取置信度最大的部分?jǐn)?shù)據(jù)F″,其包含數(shù)量為P的正面評(píng)論與數(shù)量為P的負(fù)面評(píng)論;

5. 添加L′∪L″到l中,l=l+L′∪L″;

6. 從U中移除L′∪L″,更新U=U-(L′∪L″)。

4 實(shí)驗(yàn)設(shè)計(jì)與分析

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)使用的語料來自兩個(gè)領(lǐng)域,分別是卓越網(wǎng)關(guān)于產(chǎn)品(Product)的中文評(píng)論語料和譚松波收集的關(guān)于酒店(Hotel)的中文情感評(píng)論語料*http://www.searchforum.org.cn/tansongbo/corpus-senti.htm。分別從這兩個(gè)語料中選取正負(fù)評(píng)論各1 600篇作為實(shí)驗(yàn)的未標(biāo)注數(shù)據(jù),選擇正負(fù)各400篇作為測(cè)試數(shù)據(jù)。

實(shí)驗(yàn)采用的分類算法是基于Mallet4*http://mallet.cs.umass.edu/工具包的最大熵分類方法。在進(jìn)行分類之前,首先采用中國科學(xué)院計(jì)算技術(shù)研究所的分詞軟件ICTCLAS*http://ictclas.org/對(duì)文本分詞,然后選取詞的Unigram作為分類特征,并以正確率作為衡量分類性能的標(biāo)準(zhǔn)。

在算法實(shí)現(xiàn)中,置信度的大小是通過最大熵分類器提供的分類結(jié)果(樣本屬于每個(gè)類別的后驗(yàn)概率的大小)來決定的。整個(gè)特征集合以隨機(jī)的方式被劃分為特征數(shù)量相等的兩個(gè)子特征集。

4.2 初始自動(dòng)標(biāo)注語料結(jié)果

本小結(jié)分析和討論使用情緒詞抽取初始樣本的實(shí)驗(yàn)結(jié)果。表2給出否定消歧前后抽取標(biāo)注樣本數(shù)量的變化。表3顯示了初始自動(dòng)標(biāo)注樣本的正確率。從這兩個(gè)表格可以看出, 雖然選取的樣本數(shù)量在消歧前后并未發(fā)生明顯變化,但是在正確率上差別明顯。消歧后的樣本正確率要遠(yuǎn)遠(yuǎn)好于消歧前,此結(jié)果驗(yàn)證了處理否定的規(guī)則的有效性。

表2 消歧前后抽取標(biāo)注樣本數(shù)量

表3 消歧前后抽取的標(biāo)注樣本的正確率

雖然消歧后,樣本正確率已經(jīng)比較高,但是離正確率100%還有一定距離。我們進(jìn)行了錯(cuò)誤分析,發(fā)現(xiàn)錯(cuò)誤判別的樣本主要由以下原因造成。

(1) 評(píng)論中既存在正面又存在負(fù)面的評(píng)價(jià);

例句: 做工 精細(xì) , 手感 優(yōu)良 , 感覺 也 很 好 現(xiàn)在 用 了 兩 個(gè) 多 月 了 , 發(fā)現(xiàn) 字 會(huì) 掉 … …郁悶了 好 一陣子

(2) 情緒詞與評(píng)價(jià)對(duì)象無關(guān),即表達(dá)的情緒針對(duì)的評(píng)價(jià)對(duì)象已發(fā)生改變;

例句: 香水 味 很 適合討厭濃香 男士 。 很 好 我 喜歡

(3) 除了否定現(xiàn)象外,還存在各種其他形式的極性轉(zhuǎn)移現(xiàn)象。

例句: 剛 收到 貨 很驚喜, 金色 真的 很 漂亮, 打開 一 看 , 里面 能 裝 9 張 卡 , 心里 覺得 還 行 吧 , 可是 當(dāng) 拿 出 卡 的 時(shí)候 , 卻 怎么 也 塞 不 進(jìn)

4.3 分類結(jié)果

在實(shí)驗(yàn)中,采用自學(xué)習(xí)(self-training)與協(xié)同訓(xùn)練(co-training)的方法。將4.2節(jié)中自動(dòng)標(biāo)注的數(shù)據(jù)作為已標(biāo)注的訓(xùn)練集。我們把每次迭代添加到訓(xùn)練集中的數(shù)量設(shè)定為2,即P=2。迭代結(jié)束條件規(guī)定為直到所有的未標(biāo)注樣本加入到訓(xùn)練集中。圖2和圖3分別顯示了Product、Hotel兩個(gè)領(lǐng)域訓(xùn)練的分類器性能隨著迭代次數(shù)變化情況。

從圖2和圖3可以看出使用半監(jiān)督學(xué)習(xí)方法加入非標(biāo)注樣本是有效的,分類效果有著明顯的提高。在兩個(gè)領(lǐng)域里,自學(xué)習(xí)方法平均提高了2.86%,協(xié)同訓(xùn)練方法平均提高了5.06%。

圖2 Product領(lǐng)域的情感分類

圖3 Hotel領(lǐng)域的情感分類結(jié)果

除了本文提出的情感分類方法外,我們還實(shí)現(xiàn)了兩種基準(zhǔn)系統(tǒng)。

1)PMI-IR: 采用文獻(xiàn)[5]中提到的PMI-IR方法,我們選取“很好”、“很壞”兩個(gè)種子詞;

2)Emotion-TC: 通過文本中的情緒詞的情感傾向計(jì)算文本的情感傾向,正面的情緒詞,權(quán)值設(shè)定為1,負(fù)面的情緒詞設(shè)定為-1,然后對(duì)所有情緒詞的權(quán)值累加,如果累加結(jié)果大于0,則文本的情感極性為正,否則為負(fù);沒有情緒詞的文本隨機(jī)賦予情感類別。

表4給出了基準(zhǔn)系統(tǒng)與我們方法的分類結(jié)果比較。對(duì)于PMI-IR,我們使用yahoo搜索引擎(提供了Near查詢功能),我們發(fā)現(xiàn)雖然該方法在英文情感語料上取得了較好的分類性能,但是在中文語料上分類性能非常不理想。Emotion-TC的分類性能僅僅略微好于隨機(jī)的水平。產(chǎn)生這種結(jié)果的主要原因是測(cè)試樣本中含有情緒詞的樣本非常少,導(dǎo)致大多數(shù)的文檔的情感極性無法判別。我們的方法在Product和Hotel領(lǐng)域分別取得了77.94%和83.75%的分類效果,充分顯示了我們方法的有效性。

表4 基準(zhǔn)系統(tǒng)與我們的方法在兩個(gè)領(lǐng)域里的分類性能

5 總結(jié)與展望

本文提出一種基于情緒詞的非監(jiān)督情感分類方法。該方法不依賴于任何人工標(biāo)注的語料數(shù)據(jù)。首先使用情緒詞抽取高正確率的自動(dòng)標(biāo)注樣本數(shù)據(jù),然后將其作為初始“偽”標(biāo)注樣本用于半監(jiān)督的情感分類。實(shí)驗(yàn)結(jié)果表明本文的方法在兩個(gè)領(lǐng)域都獲得較好的分類性能,分別達(dá)到了77.94%和83.75%。

本文中,在獲得高精度的初始樣本時(shí),僅僅考慮了否定現(xiàn)象的情感轉(zhuǎn)移。我們希望在下一步工作中,考慮更多的情感轉(zhuǎn)移現(xiàn)象(例如,轉(zhuǎn)折詞等)以及情感副詞對(duì)情感程度的影響,使得獲得的初始樣本正確率更佳。此外,我們使用的非標(biāo)注樣本規(guī)模還不夠大,在下一步的工作中,我們將加入更多的非標(biāo)注樣本,使得獲得的初始“偽”標(biāo)注樣本規(guī)模更大,從而進(jìn)一步提高分類性能。

[1] 姚天昉,程希文,徐飛玉,等. 文本意見挖掘綜述[J]. 中文信息學(xué)報(bào),2008,22(3): 71-80.

[2] Pang B.,L. Lee. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2): 1-135.

[3] 周立柱,賀宇凱,王建勇. 情感分析研究綜述[J]. 計(jì)算機(jī)應(yīng)用,2008,28(11): 2725-2728.

[4] Li S., Huang C., Zhou G., et al.. Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL-10). 2010: 414-423.

[5] Dasgupta S., V. Ng. Mine the Easy and Classify the Hard: Experiments with Automatic Sentiment Classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP (ACL-IJCNLP-09). 2009.

[6] Turney P. Thumbs up or thumbs down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL-02), 2002.

[7] Blitzer J., Dredze M., F. Pereira. Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL-07). 2007: 440-447.

[8] Kennedy A., D. Inkpen. Sentiment Classification of Movie Reviews using Contextual Valence Shifters[C]//Proceedings of Computational Intelligence. Publisher: John Wiley & Sons, 2006: 110-125.

[9] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計(jì)算[J]. 中文信息學(xué)報(bào),2006,20(1): 14-20.

[10] Zagibalov T., J. Carroll. Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Test[C]//Proceedings of the 22rd International Conference on Computational Linguistics (COLING-08). 2008.

[11] Lin C., He Y., R. Everson. A Comparative Study of Bayesian Models for Unsupervised Sentiment Detection[C]//Proceeding of Annual Meeting on Association for Computational Linguistics(ACL-10). 2010: 144-152.

[12] 許小穎,陶建華. 漢語情感系統(tǒng)中情感劃分的研究[C]//第一屆中國情感計(jì)算及智能交互學(xué)術(shù)會(huì)議. 2003.

[13] Clark S., Curran J., M. Osborne. Bootstrapping POS Taggers Using Unlabelled Data[C]//Proceedings of the 7th Conference on Natural Language Learning at the Human Language Technologies and North American Association for Computational Linguistics (HLT-NAACL). 2003: 49-55.

[14] Blum A., Mitchell T. Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the Workshop on Computational Learning Theory. 1998: 92-100.

[15] Pang B., Lee L., S. Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP-02). 2002.

[16] Cui H., Mittal V., M. Datar. Comparative Experiments on Sentiment Classification for Online Product Reviews[C]//Proceedings of the 21st National Conference on Artificial Intelligence. Menlo Park: AAAI Press. 2006: 1265-1270.

[17] 唐慧豐,譚松波,程學(xué)旗. 基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J]. 中文信息學(xué)報(bào),2007,21(6): 88-94.

[18] Wan X. Co-Training for Cross-Lingual Sentiment Classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP (ACL-IJCNLP-09). 2009.

[19] Bollegala D., Weir D., J. Carroll. Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification[C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL-11). 2011: 132-141.

猜你喜歡
語料正確率分類器
個(gè)性化護(hù)理干預(yù)對(duì)提高住院患者留取痰標(biāo)本正確率的影響
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
門診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
基于特征選擇的SVM選擇性集成學(xué)習(xí)方法
基于深度優(yōu)先隨機(jī)森林分類器的目標(biāo)檢測(cè)
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
對(duì)外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例
生意
生意
基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測(cè)
宜州市| 陆良县| 蒙自县| 独山县| 浦城县| 昌黎县| 兴宁市| 杂多县| 吉林省| 洞口县| 英吉沙县| 潢川县| 灵台县| 响水县| 虞城县| 长岛县| 中山市| 荔波县| 威远县| 泌阳县| 泗洪县| 西藏| 墨玉县| 雅安市| 鞍山市| 贵定县| 郎溪县| 哈密市| 桐庐县| 自贡市| 故城县| 牟定县| 河曲县| 红原县| 苏尼特左旗| 吴忠市| 涟水县| 巴林左旗| 邵阳县| 天长市| 康保县|