漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的建設(shè)

2014-02-27 06:33:25彭石玉

中文信息學(xué)報(bào) 2014年5期

楊江，李薇，彭石玉

(1. 湖南科技大學(xué) 外國(guó)語(yǔ)學(xué)院，湖南湘潭 411201；2. 武漢工程大學(xué) 外語(yǔ)學(xué)院，湖北武漢 430205)

1 引言

主觀性(subjectivity)是語(yǔ)言的基本屬性，語(yǔ)言意義的主觀性是指話語(yǔ)中伴隨命題內(nèi)容產(chǎn)生的說(shuō)話人的“自我(self, ego)”表達(dá)。日常話語(yǔ)中或多或少總是含有說(shuō)話人“自我”的表現(xiàn)成分，說(shuō)話人在說(shuō)出一段話的同時(shí)也表明了自己對(duì)這段話的立場(chǎng)、態(tài)度和感情[1]。語(yǔ)言的主觀性借助一定的語(yǔ)言手段、通過(guò)一定的語(yǔ)言形式得以實(shí)現(xiàn)，由此形成話語(yǔ)中的主觀性表達(dá)(subjective expression)，用以傳遞說(shuō)話人的自我判斷、感受、評(píng)價(jià)、意愿等主觀性信息。對(duì)語(yǔ)言主觀性以及主觀性表達(dá)的關(guān)注，其實(shí)質(zhì)是探索語(yǔ)言中“人”的因素，因?yàn)椤罢Z(yǔ)言不僅僅是客觀地表達(dá)命題和思想，還要表達(dá)言語(yǔ)的主體即說(shuō)話人的觀點(diǎn)、感情和態(tài)度”[2]。

語(yǔ)言中的主觀性表達(dá)是近年來(lái)語(yǔ)言學(xué)和自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。語(yǔ)言學(xué)的相關(guān)研究著重從語(yǔ)言的角度探討主觀性表達(dá)的意義、使用、認(rèn)知機(jī)制和描寫(xiě)手段，由此引發(fā)了對(duì)語(yǔ)言主觀性的大量論述，使其逐漸成為認(rèn)知語(yǔ)言學(xué)、功能語(yǔ)言學(xué)和語(yǔ)用學(xué)的元理論基礎(chǔ)，并推動(dòng)了“評(píng)價(jià)系統(tǒng)”的產(chǎn)生；自然語(yǔ)言處理的相關(guān)研究則主要從信息的角度關(guān)注主觀性表達(dá)的辨識(shí)、抽取、分類和計(jì)算分析，從而產(chǎn)生了情感分析、觀點(diǎn)挖掘、輿情監(jiān)測(cè)等一批新興研究方向。

研究語(yǔ)言中的主觀性表達(dá)，不論是基于語(yǔ)言還是基于信息的視角，也不論是面向基礎(chǔ)研究還是應(yīng)用研究，都需要積累大量的語(yǔ)言素材，以幫助人們觀察和把握語(yǔ)言事實(shí)，分析和研究語(yǔ)言的規(guī)律。具體而言，主要體現(xiàn)在或?yàn)檎撟C提供例句支持，或?yàn)槊鑼?xiě)提供統(tǒng)計(jì)數(shù)據(jù)，或?yàn)榻y(tǒng)計(jì)模型提供訓(xùn)練數(shù)據(jù)。這就要求建立基于既定標(biāo)注體系、符合潛在研究需求、具有一定規(guī)模和加工深度的主觀性表達(dá)語(yǔ)料庫(kù)。

然而，據(jù)我們所知，目前國(guó)內(nèi)外可獲得的相關(guān)漢語(yǔ)語(yǔ)料庫(kù)資源較少。Lun Weiku等[3]的評(píng)價(jià)語(yǔ)料庫(kù)對(duì)語(yǔ)料的篇章、句子、詞語(yǔ)的情感傾向進(jìn)行了標(biāo)注，區(qū)分了顯式和隱式觀點(diǎn)持有者，但未能涉及詞法分析信息；徐琳宏等[4]創(chuàng)建的100萬(wàn)字的情感語(yǔ)料庫(kù)基于情感詞匯本體[5]進(jìn)行情感類別、主體、接受者、修辭類別等的標(biāo)注，語(yǔ)料規(guī)模大、設(shè)計(jì)精細(xì)、標(biāo)注信息詳盡，但以句子為單位的加工層次略嫌粗糙；宋鴻彥等[6]完成了600余句的漢語(yǔ)意見(jiàn)型主觀性文本標(biāo)注語(yǔ)料庫(kù)的標(biāo)注，包含了詞法和句法分析信息，但語(yǔ)料均為汽車(chē)評(píng)論，來(lái)源相對(duì)單一且規(guī)模較??；彭宣維等[7]遵循“評(píng)價(jià)系統(tǒng)”建立了100萬(wàn)詞的漢英對(duì)應(yīng)評(píng)價(jià)意義語(yǔ)料庫(kù)，是首次按照一種語(yǔ)言理論體系構(gòu)造的雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)，標(biāo)注信息詳盡，但其設(shè)計(jì)目的主要針對(duì)語(yǔ)言評(píng)價(jià)意義的研究；崔曉玲[8]構(gòu)建了漢語(yǔ)網(wǎng)絡(luò)新聞評(píng)論情感語(yǔ)料庫(kù)，同樣基于系統(tǒng)功能語(yǔ)言學(xué)的評(píng)價(jià)理論來(lái)設(shè)計(jì)，但其規(guī)模僅為13萬(wàn)字，語(yǔ)料來(lái)源均為單一的新聞評(píng)論，也不包含詞法分析信息。除了上述的語(yǔ)料庫(kù)以外，尚有一些零散或未經(jīng)人工標(biāo)注但值得一提的資源，例如，中文信息學(xué)會(huì)信息檢索專業(yè)委員會(huì)提供的歷屆中文傾向性分析評(píng)測(cè)(COAE)語(yǔ)料，中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦的歷屆自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLP & CC)提供的中文微博情感分析評(píng)測(cè)語(yǔ)料，譚松波[9]的中文情感挖掘語(yǔ)料等，但它們均用途單一，且難以形成規(guī)模。

由此可見(jiàn)，此前為研究漢語(yǔ)主觀性表達(dá)而建設(shè)的語(yǔ)料庫(kù)資源，由于標(biāo)注體系不同，加工深度各異，應(yīng)用目多樣，難以將其整合或統(tǒng)一；由于設(shè)計(jì)思路的差異，對(duì)領(lǐng)域研究認(rèn)識(shí)的不同，其中的部分資源不能為當(dāng)前研究背景和當(dāng)下研究需求下的情感分析、語(yǔ)義傾向計(jì)算、觀點(diǎn)挖掘等提供有力支持。在這樣的背景下，我們從2011年開(kāi)始，歷經(jīng)三年，完成了100萬(wàn)字的漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)(Chinese Semantic Orientation Corpus, CSOC)的標(biāo)注工作，同時(shí)開(kāi)發(fā)了集語(yǔ)料檢索與統(tǒng)計(jì)、標(biāo)注結(jié)果檢查與可視化于一體的專用語(yǔ)料庫(kù)工具箱系統(tǒng)(CSOC Toolkit)。漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)具有以下特點(diǎn)。

(1) 從語(yǔ)言和計(jì)算兩個(gè)角度綜合考慮了語(yǔ)料的可用性，因而既能在語(yǔ)言學(xué)上為漢語(yǔ)主觀性表達(dá)的基礎(chǔ)研究所用，又能在自然語(yǔ)言處理上為主觀性表達(dá)的計(jì)算和分析等應(yīng)用研究所用；

(2) 自覺(jué)地接受語(yǔ)言學(xué)理論的指導(dǎo)，每個(gè)加工環(huán)節(jié)、每項(xiàng)標(biāo)注元素都既有語(yǔ)言學(xué)上的理?yè)?jù)，又實(shí)實(shí)在在地面向相關(guān)研究和應(yīng)用需要；

(3) 標(biāo)注體系遵從預(yù)先設(shè)計(jì)的“語(yǔ)言主觀性多維度描述體系”；

(4) 規(guī)模適中，同時(shí)盡量保證語(yǔ)料在領(lǐng)域、體裁、語(yǔ)體等方面的平衡性；

(5) 標(biāo)注過(guò)程有嚴(yán)格的質(zhì)量保障機(jī)制，標(biāo)注結(jié)果質(zhì)量高。

2 設(shè)計(jì)思路和概念界定

漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的設(shè)計(jì)思路遵循我們自行構(gòu)建的“語(yǔ)言主觀性多維度描述體系”。語(yǔ)言主觀性多維度描述體系是一個(gè)以語(yǔ)言主觀性理論為指導(dǎo)、面向文本主觀性分析應(yīng)用、銜接理論和應(yīng)用的中間“接口”，它上連各種語(yǔ)言學(xué)理論、下接各類主觀性分析，旨在為不同語(yǔ)言層級(jí)、不同顆粒度和不同應(yīng)用目的的主觀性分析提供統(tǒng)一的、跨語(yǔ)言的描述標(biāo)準(zhǔn)。該體系用類別、程度、形式、成分、關(guān)聯(lián)和模式六個(gè)維度表示，每個(gè)維度反映語(yǔ)言主觀性的一種屬性，也代表一類研究視角，涵蓋了當(dāng)前學(xué)界正著力解決和未來(lái)可能進(jìn)行的各項(xiàng)子任務(wù)。該體系的創(chuàng)建借鑒了Martin[10-11]的“評(píng)價(jià)系統(tǒng)”、Taboada等[12]和Read等[13]將“評(píng)價(jià)系統(tǒng)”應(yīng)用于語(yǔ)義傾向計(jì)算所做的嘗試性探索、Wiebe等[14]為建設(shè)MPQA觀點(diǎn)標(biāo)注語(yǔ)料庫(kù)設(shè)計(jì)的個(gè)人心理狀態(tài)(private state)標(biāo)注框架、Kim等[15]面向觀點(diǎn)挖掘?yàn)橛^點(diǎn)(opinion)制定的由主題(topic)、持有者(holder)、陳述(claim)、情感(sentiment)組成的四元組以及徐琳宏等[5]的情感詞匯本體，其框架結(jié)構(gòu)如圖1所示。篇幅所限，本文不對(duì)此展開(kāi)詳細(xì)論述。

語(yǔ)義傾向(Semantic Orientation)是語(yǔ)言主觀性的一個(gè)子類，同其他子類一樣，對(duì)它的刻畫(huà)符合語(yǔ)言主觀性描述體系，只需在類別維度稍作修改，即可產(chǎn)生一個(gè)語(yǔ)義傾向描述子體系。漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)就是基本依據(jù)這個(gè)子體系設(shè)計(jì)的。需要指出的是，考慮到對(duì)語(yǔ)義傾向程度的描述大多以詞典形式提供，加之句、段、篇的表達(dá)模式一般可以從其他維度的標(biāo)注中間接推導(dǎo)得到，因而我們?cè)跇?biāo)注體系中剔除了程度和模式兩個(gè)維度。

圖1 語(yǔ)言主觀性多維度描述體系框架結(jié)構(gòu)圖

下面對(duì)語(yǔ)料標(biāo)注中涉及的一些基本概念進(jìn)行界定和說(shuō)明。

(1) 語(yǔ)義傾向。語(yǔ)義傾向指傾向主體(subject)對(duì)傾向客體(object)所持有的贊成或反對(duì)、褒揚(yáng)或貶抑、肯定或否定、積極或消極的態(tài)度、立場(chǎng)、觀點(diǎn)或情感，分正面、負(fù)面和中立傾向3類。

(2) 傾向主體。傾向主體是語(yǔ)義傾向的持有者、評(píng)價(jià)者或體驗(yàn)者，一般為有生命的人或由人組成的群體，在特殊語(yǔ)境下，例如，神話傳奇、童話故事、科幻小說(shuō)中，也可以是人格化的動(dòng)物和物件。

(3) 傾向客體。傾向客體是語(yǔ)義傾向的評(píng)價(jià)對(duì)象、接受者或針對(duì)方，通常為人、物、事件、動(dòng)作行為等。

(4) 正面傾向。指表達(dá)贊成、褒揚(yáng)、肯定或積極類主觀性的語(yǔ)義傾向。

(5) 負(fù)面傾向。指表達(dá)反對(duì)、貶抑、否定或消極類主觀性的語(yǔ)義傾向。

(6) 中立傾向。指表達(dá)不偏不倚類主觀性的語(yǔ)義傾向。

(7) 核心成分。核心成分是表達(dá)語(yǔ)義傾向的中心和關(guān)鍵要素，形式上多為負(fù)載語(yǔ)義傾向的詞和短語(yǔ)，少數(shù)情況下為句子(含小句)，如“懷疑”、“善良”、“大公無(wú)私”、“讓一切隨風(fēng)而去”。

(8) 修飾成分。修飾成分指用以修飾核心成分，使其傾向程度增強(qiáng)或減弱的成分，以程度副詞和否定副詞居多，如“有點(diǎn)”、“非?！?、“不”。

(9) 提示成分。提示成分是本身不對(duì)核心成分產(chǎn)生影響，但具有引出或連接核心成分作用的成分。提示成分又分為引導(dǎo)型和連接型兩類。其中，引導(dǎo)型提示成分用以引出核心成分，多數(shù)為表示心理狀態(tài)的動(dòng)詞，如“想”、“認(rèn)為”、“覺(jué)得”、“以為”、“希望”等；引導(dǎo)型提示成分用以連接兩個(gè)或兩個(gè)以上核心表達(dá)成分，即通常所說(shuō)的關(guān)聯(lián)詞語(yǔ)，如“和”、“既…又…”、“雖然…但是…”等。

上述基本概念也即標(biāo)注的主要元素，它們之間的關(guān)系可以用圖2直觀地表示。

圖2 主要標(biāo)注元素關(guān)系圖

3 標(biāo)注體系和標(biāo)注方法

漢語(yǔ)語(yǔ)義傾向標(biāo)注語(yǔ)料庫(kù)的標(biāo)注體系由文檔結(jié)構(gòu)標(biāo)注體系和語(yǔ)義傾向標(biāo)注體系構(gòu)成，前者標(biāo)注文檔(即篇章)的層次結(jié)構(gòu)，分為篇、段、句、詞四級(jí)，后者則標(biāo)注語(yǔ)義傾向的類別、形式、成分、關(guān)聯(lián)四個(gè)維度的信息。語(yǔ)料標(biāo)注遵守Leech[16]提出的七條基本原則，采用國(guó)際通行的TEI標(biāo)注模式，標(biāo)注結(jié)果用xml格式文件儲(chǔ)存。

文檔結(jié)構(gòu)標(biāo)注體系表示成text = (head, body)，其中，頭信息表示成head = (title, time, author, source, addr, info)，正文表示成body = (para, sent, word)。此外，每級(jí)語(yǔ)言層次都附加了必要但并不完全相同的其他信息。例如，詞、句、段三級(jí)都含有序號(hào)(id)，而僅詞語(yǔ)層級(jí)包含詞性信息(pos)。文檔結(jié)構(gòu)標(biāo)記集及其說(shuō)明見(jiàn)表1。

表1 文檔結(jié)構(gòu)標(biāo)記集及其說(shuō)明

續(xù)表

不同的語(yǔ)言層級(jí)在語(yǔ)義傾向標(biāo)注體系上略有差別。在篇、段級(jí)，我們標(biāo)注其語(yǔ)義傾向類別和傾向客體，表示為textSO/paraSO = (senti, obj)；在句一級(jí)，標(biāo)注其語(yǔ)義傾向類別、句子核心話題、是否否定句、是否疑問(wèn)句、是否修辭句，表示為sentSO = (senti, topic, neg, que, fig)；而在詞一級(jí)，我們圍繞核心成分，標(biāo)注它的語(yǔ)義傾向類別、成分、關(guān)聯(lián)元素，表示為coreSO=(senti, sub, obj, modi, clue)。語(yǔ)義傾向標(biāo)記集及其說(shuō)明見(jiàn)表2。

表2 語(yǔ)義傾向標(biāo)記集及其說(shuō)明

圖3是一個(gè)句子的標(biāo)注示例。

圖3 一個(gè)句子標(biāo)注示例

文檔結(jié)構(gòu)標(biāo)注主要由機(jī)器自動(dòng)完成，后期進(jìn)行了必要的人工核查，主要針對(duì)分詞和詞性標(biāo)注的錯(cuò)誤；語(yǔ)義傾向標(biāo)注主要由人工手動(dòng)完成，后期輔以標(biāo)注結(jié)果檢查程序進(jìn)行自動(dòng)糾錯(cuò)，主要針對(duì)各級(jí)id錯(cuò)誤、標(biāo)記拼寫(xiě)錯(cuò)誤、xml合法性等問(wèn)題。

如圖3所示，在語(yǔ)義傾向標(biāo)注上，對(duì)于sub、obj、modi、clue等屬性的值，我們使用了數(shù)字，這些數(shù)字代表當(dāng)前句子中詞語(yǔ)的id。由于每一個(gè)詞都有唯一的id，因此，為了節(jié)省存儲(chǔ)空間，我們用其id代表其文字內(nèi)容，這樣做也能減輕標(biāo)注人員的勞動(dòng)強(qiáng)度。篇、段、句的標(biāo)注內(nèi)容基本相同，從圖中可直觀看出，不贅述。對(duì)于詞一級(jí)的語(yǔ)義傾向各維度的屬性，我們將其標(biāo)注在核心成分上，這主要是考慮到核心成分在表達(dá)語(yǔ)義傾向時(shí)具有的關(guān)鍵作用；另外一重考慮則是針對(duì)含有多個(gè)核心成分的句子，這些句子中的sub、obj、modi、clue等屬性會(huì)出現(xiàn)交錯(cuò)和重疊，而將其放置在核心成分上，相互之間的關(guān)系就會(huì)很清楚，層次感強(qiáng)，標(biāo)注人員也方便理解和操作。

對(duì)于以下兩種情形，我們引進(jìn)span標(biāo)記進(jìn)行特殊處理： (1)句中的核心成分不是詞，而是短語(yǔ)，如“沒(méi)/得/說(shuō)”、“吃/空餉”等；(2)核心成分被分詞軟件切分成了多個(gè)詞，但從分詞的角度看又并非錯(cuò)誤，如“死守/不/放”、“功/在/當(dāng)代”等。上述情形下，我們采用span標(biāo)記將多個(gè)詞組成的核心成分連接起來(lái)，將其視為一個(gè)整體，形如“span="id起始-id終止"”，span標(biāo)記放置在終止id所代表的詞語(yǔ)上。

4 研制過(guò)程

漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)是一個(gè)百萬(wàn)字符級(jí)規(guī)模的共時(shí)、非平衡、單語(yǔ)標(biāo)注語(yǔ)料庫(kù)。主要的建設(shè)過(guò)程包括語(yǔ)料收集、預(yù)處理、標(biāo)注和校對(duì)。

4.1 語(yǔ)料收集

語(yǔ)料選取的首要原則是來(lái)源語(yǔ)料中含有較豐富的語(yǔ)義傾向，在滿足這一前提后，盡量保證語(yǔ)料在語(yǔ)體、文體、領(lǐng)域等屬性上的平衡。根據(jù)這個(gè)思路，我們收集了來(lái)自文藝期刊、童話故事、小說(shuō)戲劇、語(yǔ)文課本、網(wǎng)絡(luò)評(píng)論的文本960篇，各類來(lái)源的字?jǐn)?shù)控制在約15～30萬(wàn)之間。表3列出了語(yǔ)料的組成信息。

4.2 語(yǔ)料預(yù)處理

生語(yǔ)料文本經(jīng)過(guò)清洗、核對(duì)和文檔規(guī)格化處理后，進(jìn)入文檔結(jié)構(gòu)標(biāo)注和詞法分析序列。文檔結(jié)構(gòu)標(biāo)注環(huán)節(jié)主要完成篇章內(nèi)段落和句子的切分，詞法分析環(huán)節(jié)則完成詞語(yǔ)切分和詞性標(biāo)注任務(wù)。詞法分析采用中國(guó)傳媒大學(xué)文本切分標(biāo)注系統(tǒng)(CUCBst 1.0)，這是一個(gè)基于規(guī)則的詞法分析系統(tǒng)，整體正確率超過(guò)97.45%。生語(yǔ)料文本經(jīng)過(guò)上述步驟后被轉(zhuǎn)換成類似圖3所示的xml格式待標(biāo)文件，其中尚存的各種錯(cuò)誤在語(yǔ)義傾向標(biāo)注時(shí)一并糾正。

表3 漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的組成信息

4.3 語(yǔ)料標(biāo)注

語(yǔ)義傾向標(biāo)注在文本編輯軟件UltraEdit上進(jìn)行，標(biāo)注過(guò)程包括培訓(xùn)、試標(biāo)、討論、正式標(biāo)注等環(huán)節(jié)。首先由研究人員對(duì)標(biāo)注人員進(jìn)行標(biāo)注培訓(xùn)，然后10名標(biāo)注人員按語(yǔ)料來(lái)源分成五組，研究人員分批次將任務(wù)發(fā)放給各組，各組內(nèi)人員同時(shí)標(biāo)注相同語(yǔ)料。每批次標(biāo)注完成后，各組仍先行在組內(nèi)討論，再進(jìn)行全體討論。如此反復(fù)，直至全部任務(wù)結(jié)束。標(biāo)注過(guò)程中嚴(yán)格遵循“分批次發(fā)放任務(wù)—組員獨(dú)立標(biāo)注—小組討論—大會(huì)討論—返修—提交結(jié)果”的循環(huán)工作模式，基本保證了人工標(biāo)注的一致性。

標(biāo)注一致性(Inter-Annotator Agreement)是衡量語(yǔ)義標(biāo)注語(yǔ)料庫(kù)質(zhì)量的一個(gè)重要指標(biāo)，常用Kappa統(tǒng)計(jì)量衡量。我們統(tǒng)計(jì)了各組內(nèi)部標(biāo)注人員在各階段對(duì)部分主要標(biāo)注元素的完全相同實(shí)例數(shù)量(嚴(yán)格相等)，用公式(1)在SPSS中計(jì)算了對(duì)應(yīng)的Kappa系數(shù)值，以掌握標(biāo)注語(yǔ)料的狀況。詳細(xì)數(shù)據(jù)見(jiàn)表4。

表4 各組標(biāo)注一致性統(tǒng)計(jì)

其中，Pa表示兩名標(biāo)注者評(píng)定一致的百分比，Pe表示理論上評(píng)定一致的百分比。

4.4 質(zhì)量保障

人工標(biāo)注的語(yǔ)料質(zhì)量主要體現(xiàn)在標(biāo)注的正確性上，這又可以從兩個(gè)方面來(lái)衡量：一是對(duì)標(biāo)注規(guī)范的理解是否準(zhǔn)確，二是標(biāo)注結(jié)果是否一致，尤其是由多人完成的大型標(biāo)注工作。雖然我們?cè)跇?biāo)注過(guò)程中采取了一定的措施，以盡量保證標(biāo)注人員理解準(zhǔn)確，標(biāo)注一致，但仍然無(wú)法避免問(wèn)題和錯(cuò)誤的存在，因此，仍有必要對(duì)標(biāo)注語(yǔ)料進(jìn)行人工校對(duì)。校對(duì)的步驟與標(biāo)注過(guò)程大致相似。保障校對(duì)質(zhì)量的手段包括： (1)研究人員編制了詳細(xì)的校對(duì)操作手冊(cè)，集中闡釋了標(biāo)注過(guò)程中遇到的典型難點(diǎn)、疑點(diǎn)問(wèn)題(如傾向主體和傾向客體的標(biāo)注)，并提供給校對(duì)人員參考；(2)研究人員與校對(duì)人員集體辦公，以便隨時(shí)討論。

由于標(biāo)注和校對(duì)都是人工進(jìn)行的，在標(biāo)記的輸入、更改上難免出現(xiàn)輸入錯(cuò)誤，加之標(biāo)注文件和校對(duì)文件都是具有結(jié)構(gòu)層次關(guān)系的xml格式文件，極易破壞原有格式，而這些錯(cuò)誤人工往往難以識(shí)別。因此，我們專門(mén)編制了一系列輔助檢查和自動(dòng)糾錯(cuò)工具軟件，保證了標(biāo)注和校對(duì)結(jié)果文件的完整、合法和正確。

通過(guò)上述步驟，我們完成了漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的建設(shè)。表5列出了標(biāo)注語(yǔ)料的部分統(tǒng)計(jì)信息。

5 漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)專用工具箱系統(tǒng)

為了更好地利用漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)，我們開(kāi)發(fā)了CSOC Toolkit專用工具箱系統(tǒng)。它由四大模塊組成：檢查抽取工具集、檢索模塊、統(tǒng)計(jì)模塊和可視化模塊。

(1) 檢查抽取工具集。工具集的開(kāi)發(fā)初衷本是為了在標(biāo)注時(shí)輔助人工完成檢查和糾錯(cuò)任務(wù)，隨著需求的不斷增加，新添功能逐漸增多，于是將其整合到一起，作為工具箱的一個(gè)獨(dú)立模塊。除了能夠檢查標(biāo)注錯(cuò)誤和對(duì)一部分錯(cuò)誤進(jìn)行自動(dòng)糾錯(cuò)外，工具集還提供了標(biāo)注語(yǔ)料信息概覽、原始語(yǔ)料抽取等功能。

(2) 檢索模塊。這個(gè)模塊提供兩類的檢索功能：一類是固定的與語(yǔ)義傾向相關(guān)的內(nèi)容檢索，如傾向詞、傾向句、傾向主體、傾向客體等的檢索，另一類是任意字符串或標(biāo)記的檢索。檢索完成后可以純文本或富文本格式保存結(jié)果。圖4是傾向詞語(yǔ)檢索的某個(gè)結(jié)果截圖。

圖4 固定類別“傾向詞語(yǔ)”項(xiàng)的檢索結(jié)果

(3) 統(tǒng)計(jì)模塊。該模塊提供對(duì)固定項(xiàng)的統(tǒng)計(jì)，如統(tǒng)計(jì)語(yǔ)義傾向成分、傾向句、非傾向句、正面傾向句、負(fù)面傾向句、否定傾向句等，統(tǒng)計(jì)結(jié)果以表格的形式呈現(xiàn)，并提供排序功能。統(tǒng)計(jì)結(jié)果可存為純文本或Excel表格格式。

(4) 可視化模塊。為了方便人對(duì)語(yǔ)義傾向成分標(biāo)注結(jié)果的直觀觀察，我們特別開(kāi)發(fā)了可視化模塊，在其中可以逐句瀏覽原始文本、分詞文本、詞性標(biāo)注文本和語(yǔ)義傾向標(biāo)注文本。語(yǔ)義傾向標(biāo)注結(jié)果在呈現(xiàn)時(shí)，用不同顏色突出顯示相關(guān)文本內(nèi)容，并在文本頂部用帶顏色和箭頭的弧線表示他們之間的語(yǔ)義傾向關(guān)系，詞性標(biāo)記則在文本的底部顯示。圖5是《惡毒的王子》標(biāo)注結(jié)果的可視化顯示效果。

6 結(jié)語(yǔ)

基于語(yǔ)言主觀性多維度描述體系，我們構(gòu)建了一個(gè)中等規(guī)模的漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)，并為之配備了相應(yīng)的檢索、統(tǒng)計(jì)和可視化工具，這項(xiàng)工作所產(chǎn)出的資源既適用于漢語(yǔ)主觀性表達(dá)的基礎(chǔ)研究，又適用于與主觀性相關(guān)的應(yīng)用研究。

語(yǔ)言中的主觀現(xiàn)象日益受到學(xué)界和業(yè)界的重視，近10年間的相關(guān)工作成績(jī)喜人，但總的來(lái)說(shuō)，人們對(duì)于語(yǔ)言表達(dá)主觀性的形式、方式、機(jī)制、規(guī)律、特點(diǎn)、差異等方方面面的問(wèn)題所知尚淺，認(rèn)識(shí)仍待深入。例如，語(yǔ)言中主觀性表達(dá)的分布狀況如何，各級(jí)語(yǔ)言單位在表達(dá)主觀性上分別具有怎樣的特點(diǎn)和規(guī)律，不同語(yǔ)言或同一語(yǔ)言的不同文體在表達(dá)主觀性時(shí)有何差異等。對(duì)這些問(wèn)題的回答和解決都有賴于對(duì)大量真實(shí)文本的有效統(tǒng)計(jì)和分析，本文的工作有望為這些研究提供一定的幫助，從而共同推動(dòng)領(lǐng)域研究的發(fā)展。

圖5 《惡毒的王子》標(biāo)注結(jié)果可視化顯示效果

[1] 沈家煊. 語(yǔ)言的“主觀性”和“主觀化”[J].外語(yǔ)教學(xué)與研究, 2001,33(4):268-275.

[2] 沈家煊.漢語(yǔ)的主觀性和漢語(yǔ)語(yǔ)法教學(xué)[J].漢語(yǔ)學(xué)習(xí), 2009,(4):3-12.

[3] Lun-Wei Ku,Tung-Ho Wu,Li Ying Lee et al. Construction of an Evaluation Corpus for Opinion Extraction[C]//Proceedings of NTCIR-5 Workshop Meeting, Tokyo, Japan, 2005.

[4] 徐琳宏,林鴻飛,趙晶.情感語(yǔ)料庫(kù)的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008,22(1):116-122.

[5] 徐琳宏,林鴻飛,潘宇等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.

[6] 宋鴻彥,劉軍,姚天昉等.漢語(yǔ)意見(jiàn)型主觀性文本標(biāo)注語(yǔ)料庫(kù)的構(gòu)建[J].中文信息處理2009,23(2):123-128.

[7] 彭宣維,楊曉軍,何中清.漢英對(duì)應(yīng)評(píng)價(jià)意義語(yǔ)料庫(kù)[J].外語(yǔ)電化教學(xué),2012,247(9):3-10.

[8] 崔曉玲.基于漢語(yǔ)網(wǎng)絡(luò)新聞評(píng)論的情感語(yǔ)料庫(kù)標(biāo)注研究[J].北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013,15(6):21-29.

[9] 譚松波.中文情感挖掘語(yǔ)料[DB/OL].(2010-06-29)[2013-07-20].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm

[10] Martin J R. Beyond Exchange: APPRAISAL Systems in English[C]//Evaluation in Text, Hunston, S. & Thompson, G. (eds), Oxford: Oxford University Press, 2000:142-175.

[11] Martin J R, White P R R. The Language of Evaluation: Appraisal in English[M]. New York: Palgrave Macmillan, 2005.

[12] Taboada M, Grieve J. Analyzing Appraisal Automatically[C]//Proceedings of American Association for Artificial Intelligence Spring Symposium on Exploring Attitude and Affect in Text, Stanford, USA, 2004:158-161.

[13] Read J, Hope D, Carroll J. Annotating expressions of appraisal in English[C]//Proceedings of Linguistic Annotation Workshop, ACL 2007, Prague, Czech, 2007: 93-100.

[14] Wiebe J, Wilson T, Cardie C. Annotating expressions of opinions and emotions in language[J]. Language Resources and Evaluation, 2005, 39(2-3):165-210.

[15] Kim S M, Hovy E.Determining the Sentiment of Opinions[C]//Proceedings of the COLING Conference 2004, Geneva, 2004:1367-1373.

[16] Leech G.Corpus annotation schemes[J]. Literary and Linguistic Computing, 1993, 8(4):275-81.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡