楊欣 群諾 郭龍銀 孟姚媛
摘? 要: 針對(duì)藏文情感分析的要求,建立藏文情感語(yǔ)料庫(kù)。建庫(kù)主要分三大步驟,爬取原始語(yǔ)料、開(kāi)發(fā)標(biāo)注平臺(tái)、建立結(jié)構(gòu)化語(yǔ)料。在標(biāo)注體系上,糅合并參考英文和中文中相對(duì)優(yōu)秀的情感語(yǔ)料庫(kù)的標(biāo)注體系的優(yōu)點(diǎn),結(jié)合藏文情感文本的特點(diǎn),建立藏文情感語(yǔ)料標(biāo)注規(guī)范。實(shí)驗(yàn)表明,該語(yǔ)料庫(kù)具有擴(kuò)展性和實(shí)用性,在該標(biāo)注平臺(tái)上標(biāo)注藏語(yǔ)詞句能減輕標(biāo)注人員工作量,同時(shí)有效建立結(jié)構(gòu)化語(yǔ)料,滿足情感分析需求。
關(guān)鍵詞: 藏文; 情感語(yǔ)料庫(kù); 標(biāo)注平臺(tái); 情感標(biāo)注
中圖分類號(hào):TP319? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-05-03
Construction and analysis of Tibetan emotional corpus
Yang Xin, Qun Nuo, Guo Longyin, Meng Yaoyuan
(School of Information Science and Technology, Tibet University, Lhasa, Tibet 850000, China)
Abstract: A Tibetan emotional corpus was established for the requirements of Tibetan sentiment analysis. There are three main steps in building a database, crawling the original corpus, developing an annotation platform, and establishing a structured corpus. On the labeling system, combines the advantages of the labeling system of the relatively good emotional corpus in English and Chinese, and combines the characteristics of Tibetan emotional text to establish the Tibetan emotional corpus labeling specification. Experiments show that the corpus is extensible and practical, and labeling Tibetan words and phrases on the labeling platform can reduce the workload of the labeling staff, and effectively establish structured corpus to meet the needs of sentiment analysis.
Key words: Tibetan; emotional corpus; labeling platform; sentiment tagging
0 引言
語(yǔ)料庫(kù)是存儲(chǔ)于計(jì)算機(jī)中并可利用計(jì)算機(jī)進(jìn)行檢索、查詢、分析的語(yǔ)言素材總體[1]。隨著互聯(lián)網(wǎng)的發(fā)展,藏語(yǔ)情感語(yǔ)料層出不窮,例如從電子書(shū)上的文章,社交軟件的信息,論壇網(wǎng)站和app上的評(píng)論,這些信息帶有復(fù)雜的情感傾向。收集和訓(xùn)練這些語(yǔ)料,將其作為情感分析的語(yǔ)料庫(kù),在實(shí)際中可用于輿情監(jiān)測(cè)和輿情分析。在文本情感語(yǔ)料庫(kù)建設(shè)方面,目前已有的英文語(yǔ)料庫(kù)包括Pang語(yǔ)料庫(kù)[2],Whissell語(yǔ)料庫(kù)[3],Berardinelli電影評(píng)論語(yǔ)料庫(kù)[4],產(chǎn)品評(píng)論語(yǔ)料庫(kù)[5]等等。但是藏文的情感分析研究目前還處于初步階段,沒(méi)有統(tǒng)一的情感語(yǔ)料庫(kù)標(biāo)注規(guī)范,也沒(méi)有統(tǒng)一的測(cè)試標(biāo)準(zhǔn),因此構(gòu)建一個(gè)良好規(guī)范體系的藏文情感語(yǔ)料庫(kù)已成為研究的首要任務(wù)。本文制定藏文情感語(yǔ)料庫(kù)的標(biāo)注規(guī)范,設(shè)計(jì)并實(shí)現(xiàn)藏文情感標(biāo)注平臺(tái),建立結(jié)構(gòu)化語(yǔ)言,為后續(xù)的研究工作提供基礎(chǔ)條件。
1 原始語(yǔ)料收集
我們使用爬蟲(chóng)進(jìn)行網(wǎng)站上的信息收集。我們使用Python3制作腳本,我們分析網(wǎng)頁(yè)結(jié)構(gòu),找到想要數(shù)據(jù)的地址,分析出數(shù)據(jù)地址與html5其他標(biāo)簽的不同。之后,我們?cè)偈褂谜齽t表達(dá)式精準(zhǔn)匹配到我們所需要資源的地址,從而得到相應(yīng)的數(shù)據(jù),最后清洗數(shù)據(jù),將非藏文的其他語(yǔ)言去除。
2 語(yǔ)料庫(kù)的標(biāo)注體系
語(yǔ)料庫(kù)是以是以自然交互的方式產(chǎn)生的機(jī)器可讀文本的集合[1]。而情感語(yǔ)料庫(kù)是將文本的語(yǔ)義和情感一一單獨(dú)標(biāo)注使得具有標(biāo)注性質(zhì)的機(jī)器可讀,且情感的標(biāo)注要有限的種類和明確的情感傾向性。
標(biāo)注要有相應(yīng)的規(guī)范,而在情感標(biāo)注規(guī)范中,對(duì)情感種類和傾向性也有要求,如果類別劃分過(guò)粗,就不能全面、細(xì)致地描述語(yǔ)言的復(fù)雜現(xiàn)象;但如果類別劃分過(guò)細(xì)、標(biāo)注信息過(guò)于龐大,不但會(huì)增加標(biāo)注難度、降低標(biāo)注效率,關(guān)系之間只有細(xì)微差別的情況也會(huì)使標(biāo)注結(jié)果呈現(xiàn)嚴(yán)重的不一致性[6]。因此需要權(quán)衡現(xiàn)有的情感分析的要求和標(biāo)注規(guī)范的局限性,而為了保證情感傾向的直接性以及標(biāo)注的快速性和單文本的數(shù)量,我們選擇句子級(jí)別的情感標(biāo)注。
在標(biāo)注規(guī)范的基礎(chǔ)上,我們確立標(biāo)注體系,即情感種類和結(jié)構(gòu)化的標(biāo)注,情感種類參考大連理工大學(xué)的情感語(yǔ)料標(biāo)注種類共分8大類和21小類。
在情感類別劃分之后,標(biāo)注也有諸多問(wèn)題。例如??????????????????????????????????????????????????????????????(今天,我要給妻子一個(gè)驚喜)對(duì)于情感所有者以及句子整體而言更適合標(biāo)注為“好”。還有情感類別可能不僅僅是一種,例如????????????????????????????????????????????????????????????????????????????????????????????????????????(這個(gè)禮物太驚喜了,我期望很久了,好感動(dòng)),對(duì)于這類句子,情感類別應(yīng)該比較出程度最高的,對(duì)于情感標(biāo)注而言禮物若是滿足人的需求的更傾向于“樂(lè)”,若是滿足人的遺憾的,更傾向于“好”。綜合體系和要求,我們?cè)O(shè)計(jì)了如下的句子模型Sentence(line_index,topic,source,time,owner,recipient,label,rehetorical,degree_word,negative _word,sentence,)。句子模型描述了語(yǔ)料庫(kù)需要收集的信息。Line_index就是給所標(biāo)的句子賦予主碼,topic為評(píng)論主題或文章題目,sourse為來(lái)源地,time為標(biāo)記時(shí)間,owner為情感所有者,recipient為情感接受者,label為情感類別(可以不止一個(gè)排序由高到低),rehetorical修辭方法,degree_word程度副詞,negative_word否定詞,sentence為句子主題。
3 結(jié)構(gòu)化語(yǔ)言
標(biāo)注結(jié)果的保存方式有很多種,常見(jiàn)的有數(shù)據(jù)庫(kù)保存(其容量很大滿足構(gòu)建大語(yǔ)料庫(kù)的需求)和格式文件保存(xml等),本文利用xml格式文件保存標(biāo)注后的結(jié)果。Xml文件的結(jié)構(gòu)化使得文本標(biāo)注簡(jiǎn)潔而明了,利用Python的xml庫(kù)可以很方便地寫(xiě)XML文件和解析XML文件,xml首先將XML文件讀人內(nèi)存,然后在內(nèi)存構(gòu)建一個(gè)樹(shù)狀結(jié)構(gòu),通過(guò)遍歷這棵樹(shù)可以快速地得到每一個(gè)節(jié)點(diǎn)的值[3]。xml庫(kù),所建立的結(jié)構(gòu)如下:
<?xml version="1.0" encoding="UTF-8"?>
第一行表示xml版本以及編碼格式。藏文適用于utf-8,格式為一個(gè)標(biāo)注屬性的開(kāi)始和結(jié)束,senti_corpus為根元素,為子元素。
4 情感標(biāo)注平臺(tái)的設(shè)計(jì)
情感標(biāo)注平臺(tái)主要是顯示語(yǔ)料、標(biāo)注語(yǔ)料以及存儲(chǔ)成結(jié)構(gòu)化語(yǔ)言,具體流程如圖3,顯示語(yǔ)料:打開(kāi)語(yǔ)料,遍歷其中的所有文本,文本內(nèi)容直接顯示在屏幕上。標(biāo)注語(yǔ)料:在平臺(tái)的右側(cè)有標(biāo)注標(biāo)簽,各標(biāo)簽文本框用藏文顯示屬性的所有取值并用數(shù)字排列,但topic、source在打開(kāi)文本時(shí)根據(jù)文本名和文件夾名生成,Line_index、time將在存儲(chǔ)時(shí)產(chǎn)生,便于標(biāo)注人員的工作,標(biāo)注人員只需按順序?qū)?biāo)注屬性名和屬性中的數(shù)字編號(hào)依次寫(xiě)下,導(dǎo)出時(shí)后臺(tái)自動(dòng)在每一句后面識(shí)別標(biāo)簽并轉(zhuǎn)換成xml文檔。平臺(tái)具體窗口如圖4。
5 實(shí)驗(yàn)分析
從網(wǎng)站獲取的藏語(yǔ)語(yǔ)料有效度較低,內(nèi)容極為雜亂,有效語(yǔ)料不足總體的30%。綜合總有效預(yù)料為23444條。為了測(cè)試本文設(shè)計(jì)的標(biāo)注平臺(tái),總共標(biāo)了4723條語(yǔ)句,其中無(wú)情感語(yǔ)句占到54%,懼和驚占比較少,分別為4%和2%。其中每一個(gè)類別包含的語(yǔ)句數(shù)目如圖5所示。
實(shí)驗(yàn)結(jié)果顯示,本語(yǔ)料庫(kù)的標(biāo)注體系具有可擴(kuò)展性且歧義較少,平臺(tái)的顯示、標(biāo)注、存儲(chǔ)功能無(wú)誤,較大程度的降低了標(biāo)注人員的工作量。
6 結(jié)束語(yǔ)
本語(yǔ)料庫(kù)收集了23444條,已標(biāo)注語(yǔ)句4723條,確立了標(biāo)注規(guī)范和體系,開(kāi)發(fā)了人工標(biāo)注平臺(tái), xml語(yǔ)料已投入極性情感分析。但構(gòu)建大型的語(yǔ)料庫(kù)才能提高情感分析算法的有效性和研究深度。本語(yǔ)料目前較大的問(wèn)題在于藏文的否定詞、程度詞、修辭手法概括不足,需要標(biāo)注人員匯報(bào)整理,本文還將繼續(xù)擴(kuò)充語(yǔ)料,加入質(zhì)量檢測(cè),優(yōu)化標(biāo)注平臺(tái)功能以提高標(biāo)注速度,如有需求也會(huì)改善標(biāo)注體系,進(jìn)一步切合藏文語(yǔ)種,改善xml文檔??傊?,本語(yǔ)料庫(kù)將為深度情感分析的研究而不斷努力和改善。
參考文獻(xiàn)(References):
[1] 徐琳宏,林鴻飛,趙晶.情感語(yǔ)料庫(kù)的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008.1:116-122
[2] http://www.cs.cornell.edu/People/pabo/movie-reviewdata/[DB/OL].
[3] Theologos Athanaselis,Stelios Bakamidis,and Ioannis- Dologlou.Recognizing Verbal Content of Emotionally-Colored Speech [A].European Signal Processing-Conference[C]. 2006.
[4] http://www.reelviews.net/[DB/OL].
[5] http://epinions.com/[DB/OL].
[6] Zhou X.,Hu X.,Zhang X..Using Concept-BasedIndexing to Improve Language Modeling Approach toGenomic IR[ A]. ECIR 2006[ C]. LNCS 3936,2006:444-455
[7] 伊爾夏提·吐?tīng)栘?,吾守爾·斯拉木,熱西旦木·吐?tīng)柡樘?,于?維吾爾文情感語(yǔ)料庫(kù)的構(gòu)建與分析[J].中文信息學(xué)報(bào),2017.31(1):177-183,191