姚源林,王樹偉,徐睿峰,劉 濱,桂 林,陸 勤,王曉龍
(1. 哈爾濱工業(yè)大學 深圳研究生院,廣東 深圳 518055;2.香港理工大學 電子計算學系, 香港 九龍)
文本情緒的識別與分類在文本傾向性分析、輿情分析、事件預測等領域都有著廣泛的應用。其識別過程中涉及到了情緒心理學、認知心理學、生活常識、輿論導向等諸多因素,加之機器學習、統(tǒng)計方法等不同的研究手段,正使得文本情緒計算成為自然語言處理領域的新熱點。作為相關研究的基礎,遵循統(tǒng)一的標注規(guī)范下標注的情緒語料庫對具體的語言現(xiàn)象分析以及情緒分類算法的設計和評估都有重要意義。
目前,國內(nèi)外在情緒標注語料庫的構建上取得了一定的進展。Mishne利用LiveJournal博客系統(tǒng)中作者自行標注發(fā)布博客時的情緒信息,構建了一個包含815 494篇博客的英文情緒標注語料庫[1]。該語料庫標注了132種情緒類別,例如,開心、生氣等。Ptaszynski等人對50億字的日語博客進行了情緒標注[2]。該語料庫采用了10種情緒類別標注,此外還標注了情緒符號、情感極性等。在中文情緒語料庫的構建方面,Quan C.等人提出了一套細粒度的文本情緒標注方案,該方案采用8種基本情緒類別,對1 487篇博客進行文檔級、段落級以及句子級三個層次的情緒標注[3]。徐琳宏等在小學教材(人教版) 、電影劇本、童話故事、文學期刊等語料上進行了句子級別的情緒標注,采用了7大類,22小類的情緒分類體系,完成近4萬句, 100萬字的語料標注[4]。相對于情緒標注語料庫,情感傾向性標注語料庫的構建則相對較為成熟。Xu R.F等人針對中文產(chǎn)品評價中傾向性表達特點,設計了一套細粒度傾向性標注方案,分別在詞語級、句子級和文檔級進行標注。對于每一個傾向性評價,分別標注了觀點表達及其對應的產(chǎn)品屬性。同時,引入領域本體對評價目標屬性進行了概念化規(guī)約[5]。Pak A.等人利用來源于推特(Twitter)的微博建立一個包含了正負面情感的主觀文本語料庫[6]。
目前情緒標注語料庫構建在國內(nèi)外取得了一定進展,但中文微博文本情緒語料庫構建仍處于初級階段。由于微博文本長度較短,表達較為口語化,網(wǎng)絡用語較多,與博客等長文本的情緒表達方式有著較大的差異,導致現(xiàn)有的面向長文本的情緒標注規(guī)范不完全適應微博情緒標注的需要。因此,結合微博文本特點設計情緒標注規(guī)范,并構建面向微博短文本的情緒標注語料庫是十分必要的。
本文選取新浪微博文本作為基礎語料進行標注。相較于其他語料庫,本語料在選取時充分考慮了中文微博文本的結構、語法和表達特點,諸如表達口語化、情緒多樣化、情緒轉移多、事件及領域覆蓋面廣等,從而以符合日常人們表達習慣的特點出發(fā)選取數(shù)據(jù)并建立標注語料庫。標注過程中,首先在微博級和句子級上對有無情緒進行判別,然后對有情緒的微博和句子進行7種情緒類別的標注,包括快樂、喜好、憤怒、悲傷、恐懼、厭惡、驚訝。此外,在句子級別上增加了包含3個情緒強度等級的標注。為保持標注結果的準確性及一致性,建立了相關的評價方法和標注流程管理。目前,該語料庫已完成14 000條微博、45 431個句子的情緒標注。其中,有情緒微博7 407條,無情緒微博6 593條,其中包含有情緒句子15 688條,無情緒句子29 733條。本語料庫為相關科研工作人員分析微博文本的情緒表達特點提供了支持。應用該語料庫組織了NLP&CC2013中文微博情緒分析評測任務,有效促進了相關領域的研究。
本文組織結構如下: 第2節(jié)介紹微博情緒語料庫標注規(guī)范;第3節(jié)介紹語料庫構建方法;第4節(jié)對已構建情緒語料庫進行了數(shù)據(jù)統(tǒng)計以及標注一致性分析。第5節(jié)簡單介紹了應用該語料庫組織NLP&CC2013的中文微博情緒識別任務評測的情況。第6節(jié)給出本文結論。
本文選取新浪微博文本作為原始標注語料。相對于其他語料庫,本語料文本的選擇原則是領域無關,事件分布面廣。在選取的過程中,從2011年至2012年共24個月的上億條數(shù)據(jù)中進行隨機選取,同時每個月選取的微博數(shù)量大致相同。在對長度較短、含有不規(guī)則字符或純轉發(fā)的低質(zhì)量微博過濾后,最終留下格式較為規(guī)范的微博作為原始標注語料。
微博作者要在簡短的文字中表達情緒或觀點,往往會出現(xiàn)不規(guī)范的句子表達以及較為密集的情緒分布,所以相對細致的標注粒度很有必要。為此,本文將情緒標注的粒度劃分為微博級和句子級。微博級的標注從微博整體角度出發(fā),標注了微博作者所表達的情緒,而句子級的情緒標注則從微博中每一個句子的角度出發(fā),對作者所表達的情緒進行標注。
目前現(xiàn)有的情緒分類體系存在著不一致的情況,這是由于心理學界對情緒的劃分還沒有一個公認標準。較為常用且適合文本情緒分類研究的分類體系是大連理工大學林鴻飛教授提出的中文情感詞匯本體[7]。該分類體系是在Ekman的6大類情緒分類體系,在6種情緒類別(“憤怒”、“厭惡”、“恐懼”、“高興”、“悲傷”、“驚訝”)的基礎上,增加了情緒類別“喜好”,對正面情緒進行了更細致的劃分。本文采用該方案提出的7類情緒體系。
現(xiàn)有的情緒標注語料庫中大多采用單標簽情緒標注,也就是認為每一個標注文本對象只包含唯一的情緒類別。但是,在實際表達中,同一條文本作者往往會同時表達多重的情緒,如例1所示。
例1“清明節(jié)放三天假,但是老師布置了比平時還多的作業(yè),我真是悲喜交加啊?!?/p>
在例1中“悲喜交加”不僅表達了作者“高興”的情緒,同時也表達了“悲傷”的情緒。
經(jīng)過對500條抽樣微博進行情緒表達統(tǒng)計發(fā)現(xiàn),在有情緒的微博中,僅包含一種情緒的微博占到近80%,有兩種情緒的占到17%,三種及以上情緒的則只有很小的比例。為此,在標注方案中對微博文本進行了多標簽情緒標注。具體的,對每一標注文本標注至多兩種情緒,其中一種為主要情緒,一種為次要情緒。主要情緒和次要情緒劃分主要遵循如下方法,即首先明確微博或句子所包含的所有種類的情緒,然后對這些情緒在該微博或句子中的強弱程度進行排序,取最強的情緒作為主要情緒,若包含多個情緒,取次強的情緒作為次要情緒。
文本中包含的情緒往往在強度上有很大的差異。如下面兩個例子。
例2“這令我傷心欲絕?!?/p>
例3“這令我心情不悅?!?/p>
例2和例3都表達了“悲傷”的情緒在內(nèi),但是“傷心欲絕”要比“心情不悅”悲傷的強度更大。因此,有必要在情緒類別標注的基礎上標注情緒表達強度。
為了更好的體現(xiàn)句子中主次要情緒的縱向?qū)Ρ群臀⒉┲芯渥娱g情緒的橫向?qū)Ρ?,標注?guī)范中要求對每個情緒句進行了三個強度等級的標注。分別由3、2、1代表強、中、弱。每個情緒最終的強度值通過對多人標注的強度的平均值獲得。
由于微博的表達方式較為隨意,有一些微博不適宜作為最終使用語料,因此在標注前要對微博進行數(shù)據(jù)篩選。篩選過程分為兩個步驟: 首先對過短的微博進行篩除,包括單純轉發(fā)或@、僅有“轉發(fā)微博”字樣、純表情符或者標點符號、或字數(shù)少于5個字的微博,原因在于這些微博對于情緒表達研究意義不大。此外還去除非普通話微博(粵語、英語、日語等)以及各種其他類型怪異微博,如字符畫等。
在對微博文本進行情緒標注之前,需要對微博進行分句。分句時原則上按照如下規(guī)則:
1) 括號及其之內(nèi)的文本不單獨成句。
2) 對于較長的句子且僅用空格做分隔符的,用空格作為分句依據(jù)。
3) 純標點符號不算做一句話,如全是嘆號,盡管表達了一定的情緒,但不作為獨立句。
4) 因為是中文語料庫,所以英文不作為單獨的句子,但可以作為一句話中的子句。
在分句階段,由于微博文本不同于格式規(guī)整的新聞文本,很多情況下都是發(fā)布者隨意發(fā)布、格式不一,通過機器提取的規(guī)則不足以覆蓋所有的微博分句,故需要人工干預分句,以確保準確度。
3.2.1 情緒有無及主客觀評價的區(qū)分
情緒按照持有者角色屬性來說,共分為4類,即發(fā)出評價者的情緒,所屬者或被描述者的情緒,動作、評價、事件、狀態(tài)受體的情緒,旁觀者或者讀者的情緒[8]。在本標注體系中,僅考慮的是微博發(fā)出者的情緒狀態(tài),因而主要從第一類,即發(fā)出評價者或微博作者的情緒的角度進行標注。
對事物的評價分為客觀評價和主觀評價兩種??陀^評價對客觀存在的一種描述,而非表達自己的情緒,所以本研究認為客觀評價類的微博是沒有情緒的。相反,主觀評價類微博是有情緒的,部分主觀評價與客觀評價比較難判別彼此,通過抽樣統(tǒng)計發(fā)現(xiàn),如果形容詞前面有程度詞或副詞修飾的話,則會具有較大的概率被認為這是一種主觀評價,如下面三個例子。
例4“宮殿是帝王朝會和居住的地方,規(guī)模宏大,形象壯麗,格局嚴謹。”
例5“她的咸蛋酥,年糕椰蓉酥,叉燒酥都很不錯,超贊哦?!?/p>
例6“她看到了這里的風景后,高興的大呼起來,非常激動?!?/p>
在例4中出現(xiàn)的形如“規(guī)模宏大、形象壯麗”等正面評價詞語都是對宮殿的客觀、嚴謹和正式的描述,沒有個人情緒蘊含在內(nèi),所以不作為情緒句。在例5中則出現(xiàn)了“不錯”,“超贊”這類褒獎詞語,含有主觀評價的成分在內(nèi),則認為是情緒句。而在例6中盡管有著非常明顯的情緒表達,但是這個情緒不屬于微博作者,而屬于對于人物或事件的陳述,在本研究中視為無情緒。
3.2.2 微博整體情緒和句子情緒的關系
通常一條微博由若干句子組成,對應的情緒分布往往有兩種情況。即集中分布在一個句子上或散列分布在若干句子上。由此我們也能發(fā)現(xiàn),如果微博整體有情緒的話,微博句子中至少有一個是有情緒。多個有情緒的句子之間可以極性相反,這也符合漢語日常表達,但同樣要遵循一個為主要情緒一個為次要情緒??紤]到微博存在轉發(fā)以及非原創(chuàng)的情況,微博整體無情緒的情況下,允許作為轉發(fā)或者引用的句子有情緒。
在一條微博中,往往會出現(xiàn)情緒變化的情況,特別是情緒正負極性的變化。例如,
例7“不過真好聽,一水即興的solo,真比原版好聽??上Я?,可惜老天不作美”
例7中第一句有著明顯的“喜好”的情緒在內(nèi),在第二句則轉為了“悲傷”的情緒。對于此類情況,在標注過程中按照其實際情緒進行標注,整體情緒按照微博最大的情緒傾向性標注。確定最大的傾向性首先利用轉折關系、篇幅長度來明確微博所要講述的中心事件,然后確定中心事件的情緒及其強度并作為最終的最大傾向性。所以在標注的過程中,由轉折關系可知例7中整體中心事件為“天公不作美”,主要情緒為“悲傷”,次要情緒為“喜好”。
3.2.3 反諷,反語情況的標注
反語,反諷的微博文本無論在人工標注還是在機器分類中都有著標準不統(tǒng)一的情況,本文中遵循以下的原則約定反諷的概念。
1) 言非所指。即實際內(nèi)涵與表面意義相互矛盾。
2) 鮮明性。要避免含糊,具有明確的反語,反諷的傾向性。
3) 按趙毅衡先生在《新批評》一書中的劃分,“反諷”分為“克制敘述”、“夸大敘述”、“正話反說”、“疑問式反諷”、“復義反諷”、“悖論反諷”、“浪漫反諷”和人物主題與語言風格上的“宏觀反諷”等。
在語料的標注過程中,對于符合上述反諷、反語的微博語句,按照其蘊含的真正的內(nèi)在情緒并結合上下文語境、常識進行標注。如例8所示。
例8“結構主義,我們中國太缺乏這樣的思想人士了。還有窮舉法,這方法,懂得使用的人太少了。我們國民都太聰明了。所以,各種法規(guī)政策總是顧頭未顧尾,漏洞百出,而且還死不悔改!”
在例8中,“太聰明了”實際上并不是一個贊揚的語氣,作者在此使用了反諷,故而認定為蘊含“厭惡”的情緒在內(nèi)。
對于不能確定是否為反諷、反語的其他情況則按照文本表面含義進行標注。
3.2.4 表情符的處理
表情符在微博情緒的表達中占有著重要的作用,但在數(shù)據(jù)的抽樣考察中我們發(fā)現(xiàn)表情符的使用經(jīng)常出現(xiàn)字面含義與語境意義不同的情況,例如,在表達特別高興的情緒的時候,有的微博使用“[大哭]”,有的使用“[大笑]”等不同情緒極性的表情符。
例9“哈哈,我已笑哭…大家走過路過,千萬不要錯過啊! 看看人家多斯文[大哭] [大哭]用語多文明[大哭] [大哭] [大哭]就是靠這樣來拉粉的?!?/p>
在例9中,微博自身主要情緒為喜好,次要情緒為高興,但是在表情的選擇時使用了大哭的表情符,借以表達一種強烈的喜好和高興的情緒,這是微博這一類文本中特有的語言現(xiàn)象,具有一定的情感增強的作用。故而在標注的時候,不能直接使用表情符作為文本情緒的類別,而必須是作為情緒判斷的參考,通過上下文的理解確定最終標注的情緒類別。
語料庫構建中共有4名標注人員,在標注前進行了統(tǒng)一的培訓,但是由于不同人對同一件事物的理解不同,標注結果的差異性很難避免。為了盡量減少標注的不一致,按照如下方式,在三個階段中進行一致性控制。
1) 將未標注文本分為4份,每人標注一份。
2) 將標注結果隨機轉至另一名標注人員進行復標,同時記錄標注結果不同的文本數(shù)量。
3) 將四份文本合并后打亂順序,再分為兩份,每份交予兩名標注人員同時討論復標。
通過如上的方法,保證了每個微博均被標注3次,同時最少被兩名不同人員標注,且該情況下會在步驟3)雙人標注結果比較中再次得到統(tǒng)一,由此可以使誤標注數(shù)量盡量降到最低。出現(xiàn)3次標注均不相同的情況概率很小,如果發(fā)現(xiàn)這種情況,則由4名標注人員共同討論并確定最終結果。標注結束后,利用Kappa值作為一致性指標的度量。
標注完成后,以XML格式存儲,圖1顯示了一條有情緒微博的標注示例。
圖1 有情緒微博標注示例及存儲格式
目前語料庫構建已完成14 000條微博、45 431個句子的情緒標注。在此基礎上,對微博情緒表達的語言現(xiàn)象和語言規(guī)律進行了一系列的統(tǒng)計和分析。
表1和表2分別是對微博級和句子級有無情緒的數(shù)量統(tǒng)計。
表1 微博級有無情緒比例
表2 句子級有無情緒比例
從統(tǒng)計中可以看出,有情緒的微博和無情緒的微博在微博級上比例大致相同。而在句子級別上,在句子級上有情緒和無情緒的比例大致為1∶2,這與先期對微博原始語料進行抽樣統(tǒng)計得到的情況基本符合。
本語料對于微博級和句子級都實現(xiàn)了多情緒標注,表3及表4是對有情緒的微博及句子進行的數(shù)量統(tǒng)計。
表3 有情緒微博中各情緒分布情況
從表3和表4中可以看出,無論是有情緒微博還是有情緒句子中,各類別情緒的分布都有所差異,其中,“喜好”類所占的比例最大,而“恐懼”、“驚訝”類所占的比例則較小。
表4 有情緒句子中各類情緒分布情況
通過對標注數(shù)據(jù)的分析我們發(fā)現(xiàn),在同一條微博或句子中,當一種情緒出現(xiàn)后,往往有些其他的情緒伴隨出現(xiàn)。例如,出現(xiàn)“喜好”的時候,“高興”也會有很大的概率隨之出現(xiàn)。同一個微博或句子中,每種可能出現(xiàn)的主要、次要情緒的組合,稱之為一種情緒的伴隨,取值范圍為7種基本情緒或無情緒的組合。同時情緒伴隨是一個有序的組合,即{高興,喜好}和{喜好,高興}是不同的情緒伴隨。理論上有情緒微博最多含有49種情緒伴隨可能。
我們對所有含有兩種情緒的情緒表達進行統(tǒng)計,利用條件概率公式計算伴隨情緒的出現(xiàn)概率。
(1)
式(1)中,Emotion1表示主要情緒,Emotion2表示次要情緒。
表5顯示了利用式(1)進行的微博級情緒伴隨的統(tǒng)計,表6顯示了句子級情緒伴隨的統(tǒng)計。
表5 微博級別伴隨情緒統(tǒng)計
表6 句子級別伴隨情緒統(tǒng)計
通過統(tǒng)計可以看出,無論在句子級別還是微博級別,“高興”和“喜好”經(jīng)常同時出現(xiàn),“憤怒”則經(jīng)常同“厭惡”伴隨出現(xiàn)。其他的情緒之間也有一定的關聯(lián)。
所謂情緒轉移指的是同一條微博中,相鄰的兩個句子之間的情緒變化。分析鄰接句間情緒的轉移規(guī)律往往也能夠更好地促進句子的情緒分類。為此,我們對微博中句子間情緒的轉移進行統(tǒng)計。情緒a向情緒b的轉移概率可以利用式(2)計算得出。
式(2)中,EmotionS表示句子S的情緒;EmotionSP表示句子S的前一句的情緒。
表7顯示了7種情緒以及無情緒之間的情緒轉移概率。
表7 句子間情緒轉移統(tǒng)計
通過上表可以看出,具有相同極性的情緒轉移概率往往大于不同極性的情緒之間的轉移概率。例如正面情緒“高興”到正面情緒“喜好”的轉移概率要遠大于到負面情緒“憤怒”的轉移概率。通過分析情緒的轉移規(guī)律可以更好地指導結合上下文的情緒分類。
針對每個微博句子的情緒,我們設定了3個強度等級,分別使用3,2,1表示強中弱不同等級的強度。在實際標注中,句子的第一情緒原則上要強于第二情緒的強度,個別情況下可以相等。
表8 情緒平均強度統(tǒng)計
可以看出,對于“憤怒”等情緒,情緒強度較為強烈。而對另一些情緒,例如“悲傷”,情緒強度則相對弱一些,這也是符合人們情緒的客觀情況的。
本研究使用Kappa值作為標注一致性的檢驗標準,分別對微博級情緒有無、微博級情緒類別選擇、句子級情緒有無、句子級情緒類別選擇、句子級情緒強度進行一致性檢驗。表9顯示了以上6種情況下的Kappa值。
通過表9可以看出,在情緒有無方面,各標注者的一致性較高,而在細粒度的情緒類別選擇方面,各標注者的一致性相對較差一些。在句子級情緒強度標注中得到的一致度約為0.646,主要原因是對于同一個情緒句,不同標注者的情緒敏感性不同,但整體上一致性仍然達到了較高的水平。
表9 標注一致性統(tǒng)計
應用本文建立的微博情緒標注語料庫,組織了NLP&CC2013中文微博情緒分析評測。其中,選擇4 000條微博作為訓練數(shù)據(jù),10 000條微博作為測試數(shù)據(jù)。該評測任務中,共有19支隊伍提交了58組有效結果,在這些參賽隊伍中提出了很多的新的思想和方法。其中,賀飛燕等人結合TF-IDF方法與方差統(tǒng)計方法,提出了一種實現(xiàn)多分類特征抽取的計算方法[9]。采用先進行極性判斷,后進行細粒度情緒識別的處理方法,構建細粒度情緒分析與判別流程, 并將其應用于微博短文本的細粒度情緒識別。張晶等以情緒因子中的常用情緒詞和情緒短語為基礎構建情緒詞典,并針對特殊的情緒表達式,結合標點符號和表情符號在情緒分析中的功能,建立情緒規(guī)則庫,然后,通過對情緒詞典和情緒規(guī)則的匹配和計算,實現(xiàn)對中文微博情緒的識別和分類[10]。 歐陽純萍等人針對中文微博的用戶情緒分析問題,提出了一種基于多策略融合的細粒度情緒分析方法,首先采用貝葉斯算法對微博的有無情緒分類,然后構建有情緒微博的21維特征向量,最后采用SVM和KNN算法對微博進行細粒度情緒分類[11]。
本次評測分別進行Close封閉資源測試和Open開放資源測試。其中Close封閉資源測試要求各參評單位只使用組織者提供的詞典、分詞工具等資源;Open測試則允許參評單位利用現(xiàn)有語言資源開發(fā)和訓練系統(tǒng),并用于測試結果生成。評測分別評估了Close和Open測試所取得的系統(tǒng)性能。
表10和表11分別列出了NLP&CC2013微博級情緒有無斷任務Close和Open評測中性能較優(yōu)的部分結果。
表10 NLP&CC2013微博級情緒有無Close評測部分結果
表11 NLP&CC2013微博級情緒有無Open評測部分結果
通過表10和表11可以看出,在情緒有無判斷任務中,各隊伍都取得了較高的分類性能。同時,由于Open評測可以充分利用各種外部資源,分類性能相比Close評測略高。
表12和表13分別列出了NLP&CC2013微博級情緒類別識別任務Close和Open評測中性能較優(yōu)的部分結果。
表12NLP&CC2013微博級情緒類別識別任務Close評測部分結果
隊伍編號正確率召回率F值130.25720.23090.2434150.21600.28100.2442190.27040.30640.2873
表13NLP&CC2013微博級情緒類別識別任務Open評測部分結果
隊伍編號正確率召回率F值40.28420.34800.312980.25880.29660.2595140.24740.25280.2501
通過表12和表13可以看出,相比情緒有無判斷任務,對微博級的情緒類別識別任務分類性能相對較弱。同樣,Open評測要比Close評測任務性能略高。
表14顯示了NLP&CC2013句子級情緒類別識別任務Close和Open評測中性能較優(yōu)的部分結果。
表14 NLP&CC2013句子級情緒識別任務部分結果
通過表14可以看出,句子級情緒分類性能相比微博級情緒分類性能有了一定的提高。同時,Open評測比Close評測性能也有一定的提升。
應用面向微博文本的情緒標注語料庫所組織的NLP&CC2013中文微博情緒分析評測有力地促進了中文微博情緒分析相關研究。
本文在對微博情緒表達特點進行觀察和分析的基礎上,設計了面向微博文本的情緒標注規(guī)范。遵循這一規(guī)范,建立了微博文本情緒標注規(guī)程以及標注一致性控制方案。本文重點介紹了語料庫的構建過程和構建規(guī)則。在標注過程中,對微博文本首先進行了微博級情緒標注,對微博是否包含情緒及有情緒微博所包含的情緒類別進行多標簽標注。而后,對微博中的句子進行情緒標注,在有無情緒及情緒類別進行標注的基礎上,增加了情緒強度的標注。經(jīng)過了對微博情緒標注方案的不斷設計和完善,以及對微博語料的多輪標注,該語料庫已完成14 000條微博,45 431句子的情緒標注。在此基礎上,對語料庫進行一系列的數(shù)據(jù)統(tǒng)計和分析,有助于發(fā)現(xiàn)微博情緒表達的語言現(xiàn)象和語言規(guī)律。應用該語料庫作為NLP&CC2013中文微博情緒分析評測任務標準語料,促進了中文微博情緒分析相關研究。
致謝
本文感謝先后參加語料采集、標注和整理的丘橋云、袁麗、汪奕丁、周繼云、王趙煜、孔兵、曹宇慧、王帥等同學的辛勤努力。
[1] Mishne G. Experiments with mood classification in blog posts [C]//Proceedings of ACM SIGIR 2005 Workshop on Stylistic Analysis of Text for Information Access. 2005
[2] Ptaszynski M, Rzepka R, Araki K, et al. Automatically annotating a five-billion-word corpus of Japanese blogs for sentiment and affect analysis [J]. Computer Speech & Language, 2014, 28(1): 38-55.
[3] Quan C, Ren F. Construction of a blog emotion corpus for Chinese emotional expression analysis [C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009: 1446-1454.
[4] 徐琳宏, 林鴻飛, 趙晶. 情感語料庫的構建和分析 [J]. 中文信息學報, 2008, 22(1): 116-122.
[5] Xu R.F, Xia Y.Q.; Wong K. F. and Li W.J. Opinion Annotation in On-line Chinese Product Reviews [C]//Proceedings of Language Resource and Evaluation Conference 2008.
[6] Pak A. and Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining [C]//Proceedings of Language Resource and Evaluation Conference 2010: 1320-1326 .
[7] 徐琳宏, 林鴻飛, 潘宇,等. 情感詞匯本體的構造[J]. 情報學報, 2008, 27(2): 180-185.
[8] 徐睿峰, 鄒承天, 鄭燕珍,等. 一種基于情緒表達與情緒認知分離的新型情緒詞典[J]. 中文信息學報, 2013, 27(6): 82-90.
[9] 賀飛燕, 何炎祥, 劉楠,等.面向微博短文本的細粒度情感特征抽取方法 [J].北京大學學報, 2014, 50(1): 48-54.
[10] 張晶, 朱波, 梁琳琳,等.基于情緒因子的中文微博情緒識別與分類 [J] .北京大學學報, 2014, 50(1): 79-84.
[11] 歐陽純萍,陽小華,雷龍艷,多策略中文微博細粒度情緒分析研究 [J].北京大學學報, 2014, 50(1): 67-72.