楊 江,李 薇,彭石玉
(1. 湖南科技大學(xué) 外國(guó)語(yǔ)學(xué)院,湖南 湘潭 411201;2. 武漢工程大學(xué) 外語(yǔ)學(xué)院,湖北 武漢 430205)
主觀性(subjectivity)是語(yǔ)言的基本屬性,語(yǔ)言意義的主觀性是指話語(yǔ)中伴隨命題內(nèi)容產(chǎn)生的說(shuō)話人的“自我(self, ego)”表達(dá)。日常話語(yǔ)中或多或少總是含有說(shuō)話人“自我”的表現(xiàn)成分,說(shuō)話人在說(shuō)出一段話的同時(shí)也表明了自己對(duì)這段話的立場(chǎng)、態(tài)度和感情[1]。語(yǔ)言的主觀性借助一定的語(yǔ)言手段、通過(guò)一定的語(yǔ)言形式得以實(shí)現(xiàn),由此形成話語(yǔ)中的主觀性表達(dá)(subjective expression),用以傳遞說(shuō)話人的自我判斷、感受、評(píng)價(jià)、意愿等主觀性信息。對(duì)語(yǔ)言主觀性以及主觀性表達(dá)的關(guān)注,其實(shí)質(zhì)是探索語(yǔ)言中“人”的因素,因?yàn)椤罢Z(yǔ)言不僅僅是客觀地表達(dá)命題和思想,還要表達(dá)言語(yǔ)的主體即說(shuō)話人的觀點(diǎn)、感情和態(tài)度”[2]。
語(yǔ)言中的主觀性表達(dá)是近年來(lái)語(yǔ)言學(xué)和自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。語(yǔ)言學(xué)的相關(guān)研究著重從語(yǔ)言的角度探討主觀性表達(dá)的意義、使用、認(rèn)知機(jī)制和描寫(xiě)手段,由此引發(fā)了對(duì)語(yǔ)言主觀性的大量論述,使其逐漸成為認(rèn)知語(yǔ)言學(xué)、功能語(yǔ)言學(xué)和語(yǔ)用學(xué)的元理論基礎(chǔ),并推動(dòng)了“評(píng)價(jià)系統(tǒng)”的產(chǎn)生;自然語(yǔ)言處理的相關(guān)研究則主要從信息的角度關(guān)注主觀性表達(dá)的辨識(shí)、抽取、分類和計(jì)算分析,從而產(chǎn)生了情感分析、觀點(diǎn)挖掘、輿情監(jiān)測(cè)等一批新興研究方向。
研究語(yǔ)言中的主觀性表達(dá),不論是基于語(yǔ)言還是基于信息的視角,也不論是面向基礎(chǔ)研究還是應(yīng)用研究,都需要積累大量的語(yǔ)言素材,以幫助人們觀察和把握語(yǔ)言事實(shí),分析和研究語(yǔ)言的規(guī)律。具體而言,主要體現(xiàn)在或?yàn)檎撟C提供例句支持,或?yàn)槊鑼?xiě)提供統(tǒng)計(jì)數(shù)據(jù),或?yàn)榻y(tǒng)計(jì)模型提供訓(xùn)練數(shù)據(jù)。這就要求建立基于既定標(biāo)注體系、符合潛在研究需求、具有一定規(guī)模和加工深度的主觀性表達(dá)語(yǔ)料庫(kù)。
然而,據(jù)我們所知,目前國(guó)內(nèi)外可獲得的相關(guān)漢語(yǔ)語(yǔ)料庫(kù)資源較少。Lun Weiku等[3]的評(píng)價(jià)語(yǔ)料庫(kù)對(duì)語(yǔ)料的篇章、句子、詞語(yǔ)的情感傾向進(jìn)行了標(biāo)注,區(qū)分了顯式和隱式觀點(diǎn)持有者,但未能涉及詞法分析信息;徐琳宏等[4]創(chuàng)建的100萬(wàn)字的情感語(yǔ)料庫(kù)基于情感詞匯本體[5]進(jìn)行情感類別、主體、接受者、修辭類別等的標(biāo)注,語(yǔ)料規(guī)模大、設(shè)計(jì)精細(xì)、標(biāo)注信息詳盡,但以句子為單位的加工層次略嫌粗糙;宋鴻彥等[6]完成了600余句的漢語(yǔ)意見(jiàn)型主觀性文本標(biāo)注語(yǔ)料庫(kù)的標(biāo)注,包含了詞法和句法分析信息,但語(yǔ)料均為汽車(chē)評(píng)論,來(lái)源相對(duì)單一且規(guī)模較??;彭宣維等[7]遵循“評(píng)價(jià)系統(tǒng)”建立了100萬(wàn)詞的漢英對(duì)應(yīng)評(píng)價(jià)意義語(yǔ)料庫(kù),是首次按照一種語(yǔ)言理論體系構(gòu)造的雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù),標(biāo)注信息詳盡,但其設(shè)計(jì)目的主要針對(duì)語(yǔ)言評(píng)價(jià)意義的研究;崔曉玲[8]構(gòu)建了漢語(yǔ)網(wǎng)絡(luò)新聞評(píng)論情感語(yǔ)料庫(kù),同樣基于系統(tǒng)功能語(yǔ)言學(xué)的評(píng)價(jià)理論來(lái)設(shè)計(jì),但其規(guī)模僅為13萬(wàn)字,語(yǔ)料來(lái)源均為單一的新聞評(píng)論,也不包含詞法分析信息。除了上述的語(yǔ)料庫(kù)以外,尚有一些零散或未經(jīng)人工標(biāo)注但值得一提的資源,例如,中文信息學(xué)會(huì)信息檢索專業(yè)委員會(huì)提供的歷屆中文傾向性分析評(píng)測(cè)(COAE)語(yǔ)料,中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦的歷屆自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLP & CC)提供的中文微博情感分析評(píng)測(cè)語(yǔ)料,譚松波[9]的中文情感挖掘語(yǔ)料等,但它們均用途單一,且難以形成規(guī)模。
由此可見(jiàn),此前為研究漢語(yǔ)主觀性表達(dá)而建設(shè)的語(yǔ)料庫(kù)資源,由于標(biāo)注體系不同,加工深度各異,應(yīng)用目多樣,難以將其整合或統(tǒng)一;由于設(shè)計(jì)思路的差異,對(duì)領(lǐng)域研究認(rèn)識(shí)的不同,其中的部分資源不能為當(dāng)前研究背景和當(dāng)下研究需求下的情感分析、語(yǔ)義傾向計(jì)算、觀點(diǎn)挖掘等提供有力支持。在這樣的背景下,我們從2011年開(kāi)始,歷經(jīng)三年,完成了100萬(wàn)字的漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)(Chinese Semantic Orientation Corpus, CSOC)的標(biāo)注工作,同時(shí)開(kāi)發(fā)了集語(yǔ)料檢索與統(tǒng)計(jì)、標(biāo)注結(jié)果檢查與可視化于一體的專用語(yǔ)料庫(kù)工具箱系統(tǒng)(CSOC Toolkit)。漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)具有以下特點(diǎn)。
(1) 從語(yǔ)言和計(jì)算兩個(gè)角度綜合考慮了語(yǔ)料的可用性,因而既能在語(yǔ)言學(xué)上為漢語(yǔ)主觀性表達(dá)的基礎(chǔ)研究所用,又能在自然語(yǔ)言處理上為主觀性表達(dá)的計(jì)算和分析等應(yīng)用研究所用;
(2) 自覺(jué)地接受語(yǔ)言學(xué)理論的指導(dǎo),每個(gè)加工環(huán)節(jié)、每項(xiàng)標(biāo)注元素都既有語(yǔ)言學(xué)上的理?yè)?jù),又實(shí)實(shí)在在地面向相關(guān)研究和應(yīng)用需要;
(3) 標(biāo)注體系遵從預(yù)先設(shè)計(jì)的“語(yǔ)言主觀性多維度描述體系”;
(4) 規(guī)模適中,同時(shí)盡量保證語(yǔ)料在領(lǐng)域、體裁、語(yǔ)體等方面的平衡性;
(5) 標(biāo)注過(guò)程有嚴(yán)格的質(zhì)量保障機(jī)制,標(biāo)注結(jié)果質(zhì)量高。
漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的設(shè)計(jì)思路遵循我們自行構(gòu)建的“語(yǔ)言主觀性多維度描述體系”。語(yǔ)言主觀性多維度描述體系是一個(gè)以語(yǔ)言主觀性理論為指導(dǎo)、面向文本主觀性分析應(yīng)用、銜接理論和應(yīng)用的中間“接口”,它上連各種語(yǔ)言學(xué)理論、下接各類主觀性分析,旨在為不同語(yǔ)言層級(jí)、不同顆粒度和不同應(yīng)用目的的主觀性分析提供統(tǒng)一的、跨語(yǔ)言的描述標(biāo)準(zhǔn)。該體系用類別、程度、形式、成分、關(guān)聯(lián)和模式六個(gè)維度表示,每個(gè)維度反映語(yǔ)言主觀性的一種屬性,也代表一類研究視角,涵蓋了當(dāng)前學(xué)界正著力解決和未來(lái)可能進(jìn)行的各項(xiàng)子任務(wù)。該體系的創(chuàng)建借鑒了Martin[10-11]的“評(píng)價(jià)系統(tǒng)”、Taboada等[12]和Read等[13]將“評(píng)價(jià)系統(tǒng)”應(yīng)用于語(yǔ)義傾向計(jì)算所做的嘗試性探索、Wiebe等[14]為建設(shè)MPQA觀點(diǎn)標(biāo)注語(yǔ)料庫(kù)設(shè)計(jì)的個(gè)人心理狀態(tài)(private state)標(biāo)注框架、Kim等[15]面向觀點(diǎn)挖掘?yàn)橛^點(diǎn)(opinion)制定的由主題(topic)、持有者(holder)、陳述(claim)、情感(sentiment)組成的四元組以及徐琳宏等[5]的情感詞匯本體,其框架結(jié)構(gòu)如圖1所示。篇幅所限,本文不對(duì)此展開(kāi)詳細(xì)論述。
語(yǔ)義傾向(Semantic Orientation)是語(yǔ)言主觀性的一個(gè)子類,同其他子類一樣,對(duì)它的刻畫(huà)符合語(yǔ)言主觀性描述體系,只需在類別維度稍作修改,即可產(chǎn)生一個(gè)語(yǔ)義傾向描述子體系。漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)就是基本依據(jù)這個(gè)子體系設(shè)計(jì)的。需要指出的是,考慮到對(duì)語(yǔ)義傾向程度的描述大多以詞典形式提供,加之句、 段、 篇的表達(dá)模式一般可以從其他維度的標(biāo)注中間接推導(dǎo)得到,因而我們?cè)跇?biāo)注體系中剔除了程度和模式兩個(gè)維度。
圖1 語(yǔ)言主觀性多維度描述體系框架結(jié)構(gòu)圖
下面對(duì)語(yǔ)料標(biāo)注中涉及的一些基本概念進(jìn)行界定和說(shuō)明。
(1) 語(yǔ)義傾向。語(yǔ)義傾向指傾向主體(subject)對(duì)傾向客體(object)所持有的贊成或反對(duì)、褒揚(yáng)或貶抑、肯定或否定、積極或消極的態(tài)度、立場(chǎng)、觀點(diǎn)或情感,分正面、負(fù)面和中立傾向3類。
(2) 傾向主體。傾向主體是語(yǔ)義傾向的持有者、評(píng)價(jià)者或體驗(yàn)者,一般為有生命的人或由人組成的群體,在特殊語(yǔ)境下,例如,神話傳奇、童話故事、科幻小說(shuō)中,也可以是人格化的動(dòng)物和物件。
(3) 傾向客體。傾向客體是語(yǔ)義傾向的評(píng)價(jià)對(duì)象、接受者或針對(duì)方,通常為人、物、事件、動(dòng)作行為等。
(4) 正面傾向。指表達(dá)贊成、褒揚(yáng)、肯定或積極類主觀性的語(yǔ)義傾向。
(5) 負(fù)面傾向。指表達(dá)反對(duì)、貶抑、否定或消極類主觀性的語(yǔ)義傾向。
(6) 中立傾向。指表達(dá)不偏不倚類主觀性的語(yǔ)義傾向。
(7) 核心成分。核心成分是表達(dá)語(yǔ)義傾向的中心和關(guān)鍵要素,形式上多為負(fù)載語(yǔ)義傾向的詞和短語(yǔ),少數(shù)情況下為句子(含小句),如“懷疑”、“善良”、“大公無(wú)私”、“讓一切隨風(fēng)而去”。
(8) 修飾成分。修飾成分指用以修飾核心成分,使其傾向程度增強(qiáng)或減弱的成分,以程度副詞和否定副詞居多,如“有點(diǎn)”、“非?!?、“不”。
(9) 提示成分。提示成分是本身不對(duì)核心成分產(chǎn)生影響,但具有引出或連接核心成分作用的成分。提示成分又分為引導(dǎo)型和連接型兩類。其中,引導(dǎo)型提示成分用以引出核心成分,多數(shù)為表示心理狀態(tài)的動(dòng)詞,如“想”、“認(rèn)為”、“覺(jué)得”、“以為”、“希望”等;引導(dǎo)型提示成分用以連接兩個(gè)或兩個(gè)以上核心表達(dá)成分,即通常所說(shuō)的關(guān)聯(lián)詞語(yǔ),如“和”、“既…又…”、“雖然…但是…”等。
上述基本概念也即標(biāo)注的主要元素,它們之間的關(guān)系可以用圖2直觀地表示。
圖2 主要標(biāo)注元素關(guān)系圖
漢語(yǔ)語(yǔ)義傾向標(biāo)注語(yǔ)料庫(kù)的標(biāo)注體系由文檔結(jié)構(gòu)標(biāo)注體系和語(yǔ)義傾向標(biāo)注體系構(gòu)成,前者標(biāo)注文檔(即篇章)的層次結(jié)構(gòu),分為篇、段、句、詞四級(jí),后者則標(biāo)注語(yǔ)義傾向的類別、形式、成分、關(guān)聯(lián)四個(gè)維度的信息。語(yǔ)料標(biāo)注遵守Leech[16]提出的七條基本原則,采用國(guó)際通行的TEI標(biāo)注模式,標(biāo)注結(jié)果用xml格式文件儲(chǔ)存。
文檔結(jié)構(gòu)標(biāo)注體系表示成text = (head, body),其中,頭信息表示成head = (title, time, author, source, addr, info),正文表示成body = (para, sent, word)。此外,每級(jí)語(yǔ)言層次都附加了必要但并不完全相同的其他信息。例如,詞、句、段三級(jí)都含有序號(hào)(id),而僅詞語(yǔ)層級(jí)包含詞性信息(pos)。文檔結(jié)構(gòu)標(biāo)記集及其說(shuō)明見(jiàn)表1。
表1 文檔結(jié)構(gòu)標(biāo)記集及其說(shuō)明
續(xù)表
不同的語(yǔ)言層級(jí)在語(yǔ)義傾向標(biāo)注體系上略有差別。在篇、段級(jí),我們標(biāo)注其語(yǔ)義傾向類別和傾向客體,表示為textSO/paraSO = (senti, obj);在句一級(jí),標(biāo)注其語(yǔ)義傾向類別、句子核心話題、是否否定句、是否疑問(wèn)句、是否修辭句,表示為sentSO = (senti, topic, neg, que, fig);而在詞一級(jí),我們圍繞核心成分,標(biāo)注它的語(yǔ)義傾向類別、成分、關(guān)聯(lián)元素,表示為coreSO=(senti, sub, obj, modi, clue)。語(yǔ)義傾向標(biāo)記集及其說(shuō)明見(jiàn)表2。
表2 語(yǔ)義傾向標(biāo)記集及其說(shuō)明
圖3是一個(gè)句子的標(biāo)注示例。
圖3 一個(gè)句子標(biāo)注示例
文檔結(jié)構(gòu)標(biāo)注主要由機(jī)器自動(dòng)完成,后期進(jìn)行了必要的人工核查, 主要針對(duì)分詞和詞性標(biāo)注的錯(cuò)誤;語(yǔ)義傾向標(biāo)注主要由人工手動(dòng)完成,后期輔以標(biāo)注結(jié)果檢查程序進(jìn)行自動(dòng)糾錯(cuò),主要針對(duì)各級(jí)id錯(cuò)誤、標(biāo)記拼寫(xiě)錯(cuò)誤、xml合法性等問(wèn)題。
如圖3所示,在語(yǔ)義傾向標(biāo)注上,對(duì)于sub、obj、modi、clue等屬性的值,我們使用了數(shù)字,這些數(shù)字代表當(dāng)前句子中詞語(yǔ)的id。由于每一個(gè)詞都有唯一的id,因此,為了節(jié)省存儲(chǔ)空間,我們用其id代表其文字內(nèi)容,這樣做也能減輕標(biāo)注人員的勞動(dòng)強(qiáng)度。篇、段、句的標(biāo)注內(nèi)容基本相同,從圖中可直觀看出,不贅述。對(duì)于詞一級(jí)的語(yǔ)義傾向各維度的屬性,我們將其標(biāo)注在核心成分上,這主要是考慮到核心成分在表達(dá)語(yǔ)義傾向時(shí)具有的關(guān)鍵作用;另外一重考慮則是針對(duì)含有多個(gè)核心成分的句子,這些句子中的sub、obj、modi、clue等屬性會(huì)出現(xiàn)交錯(cuò)和重疊,而將其放置在核心成分上,相互之間的關(guān)系就會(huì)很清楚,層次感強(qiáng),標(biāo)注人員也方便理解和操作。
對(duì)于以下兩種情形,我們引進(jìn)span標(biāo)記進(jìn)行特殊處理: (1)句中的核心成分不是詞,而是短語(yǔ),如“沒(méi)/得/說(shuō)”、“吃/空餉”等;(2)核心成分被分詞軟件切分成了多個(gè)詞,但從分詞的角度看又并非錯(cuò)誤,如“死守/不/放”、“功/在/當(dāng)代”等。上述情形下,我們采用span標(biāo)記將多個(gè)詞組成的核心成分連接起來(lái),將其視為一個(gè)整體,形如“span="id起始-id終止"”,span標(biāo)記放置在終止id所代表的詞語(yǔ)上。
漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)是一個(gè)百萬(wàn)字符級(jí)規(guī)模的共時(shí)、非平衡、單語(yǔ)標(biāo)注語(yǔ)料庫(kù)。主要的建設(shè)過(guò)程包括語(yǔ)料收集、預(yù)處理、標(biāo)注和校對(duì)。
語(yǔ)料選取的首要原則是來(lái)源語(yǔ)料中含有較豐富的語(yǔ)義傾向,在滿足這一前提后,盡量保證語(yǔ)料在語(yǔ)體、文體、領(lǐng)域等屬性上的平衡。根據(jù)這個(gè)思路,我們收集了來(lái)自文藝期刊、童話故事、小說(shuō)戲劇、語(yǔ)文課本、網(wǎng)絡(luò)評(píng)論的文本960篇,各類來(lái)源的字?jǐn)?shù)控制在約15~30萬(wàn)之間。表3列出了語(yǔ)料的組成信息。
生語(yǔ)料文本經(jīng)過(guò)清洗、核對(duì)和文檔規(guī)格化處理后,進(jìn)入文檔結(jié)構(gòu)標(biāo)注和詞法分析序列。文檔結(jié)構(gòu)標(biāo)注環(huán)節(jié)主要完成篇章內(nèi)段落和句子的切分,詞法分析環(huán)節(jié)則完成詞語(yǔ)切分和詞性標(biāo)注任務(wù)。詞法分析采用中國(guó)傳媒大學(xué)文本切分標(biāo)注系統(tǒng)(CUCBst 1.0),這是一個(gè)基于規(guī)則的詞法分析系統(tǒng),整體正確率超過(guò)97.45%。生語(yǔ)料文本經(jīng)過(guò)上述步驟后被轉(zhuǎn)換成類似圖3所示的xml格式待標(biāo)文件,其中尚存的各種錯(cuò)誤在語(yǔ)義傾向標(biāo)注時(shí)一并糾正。
表3 漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的組成信息
語(yǔ)義傾向標(biāo)注在文本編輯軟件UltraEdit上進(jìn)行,標(biāo)注過(guò)程包括培訓(xùn)、試標(biāo)、討論、正式標(biāo)注等環(huán)節(jié)。首先由研究人員對(duì)標(biāo)注人員進(jìn)行標(biāo)注培訓(xùn),然后10名標(biāo)注人員按語(yǔ)料來(lái)源分成五組,研究人員分批次將任務(wù)發(fā)放給各組,各組內(nèi)人員同時(shí)標(biāo)注相同語(yǔ)料。每批次標(biāo)注完成后,各組仍先行在組內(nèi)討論,再進(jìn)行全體討論。如此反復(fù),直至全部任務(wù)結(jié)束。標(biāo)注過(guò)程中嚴(yán)格遵循“分批次發(fā)放任務(wù)—組員獨(dú)立標(biāo)注—小組討論—大會(huì)討論—返修—提交結(jié)果”的循環(huán)工作模式,基本保證了人工標(biāo)注的一致性。
標(biāo)注一致性(Inter-Annotator Agreement)是衡量語(yǔ)義標(biāo)注語(yǔ)料庫(kù)質(zhì)量的一個(gè)重要指標(biāo),常用Kappa統(tǒng)計(jì)量衡量。我們統(tǒng)計(jì)了各組內(nèi)部標(biāo)注人員在各階段對(duì)部分主要標(biāo)注元素的完全相同實(shí)例數(shù)量(嚴(yán)格相等),用公式(1)在SPSS中計(jì)算了對(duì)應(yīng)的Kappa系數(shù)值,以掌握標(biāo)注語(yǔ)料的狀況。詳細(xì)數(shù)據(jù)見(jiàn)表4。
表4 各組標(biāo)注一致性統(tǒng)計(jì)
其中,Pa表示兩名標(biāo)注者評(píng)定一致的百分比,Pe表示理論上評(píng)定一致的百分比。
人工標(biāo)注的語(yǔ)料質(zhì)量主要體現(xiàn)在標(biāo)注的正確性上,這又可以從兩個(gè)方面來(lái)衡量: 一是對(duì)標(biāo)注規(guī)范的理解是否準(zhǔn)確,二是標(biāo)注結(jié)果是否一致,尤其是由多人完成的大型標(biāo)注工作。雖然我們?cè)跇?biāo)注過(guò)程中采取了一定的措施,以盡量保證標(biāo)注人員理解準(zhǔn)確,標(biāo)注一致,但仍然無(wú)法避免問(wèn)題和錯(cuò)誤的存在,因此,仍有必要對(duì)標(biāo)注語(yǔ)料進(jìn)行人工校對(duì)。校對(duì)的步驟與標(biāo)注過(guò)程大致相似。保障校對(duì)質(zhì)量的手段包括: (1)研究人員編制了詳細(xì)的校對(duì)操作手冊(cè),集中闡釋了標(biāo)注過(guò)程中遇到的典型難點(diǎn)、疑點(diǎn)問(wèn)題(如傾向主體和傾向客體的標(biāo)注),并提供給校對(duì)人員參考;(2)研究人員與校對(duì)人員集體辦公,以便隨時(shí)討論。
由于標(biāo)注和校對(duì)都是人工進(jìn)行的,在標(biāo)記的輸入、更改上難免出現(xiàn)輸入錯(cuò)誤,加之標(biāo)注文件和校對(duì)文件都是具有結(jié)構(gòu)層次關(guān)系的xml格式文件,極易破壞原有格式,而這些錯(cuò)誤人工往往難以識(shí)別。因此,我們專門(mén)編制了一系列輔助檢查和自動(dòng)糾錯(cuò)工具軟件,保證了標(biāo)注和校對(duì)結(jié)果文件的完整、合法和正確。
通過(guò)上述步驟,我們完成了漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的建設(shè)。表5列出了標(biāo)注語(yǔ)料的部分統(tǒng)計(jì)信息。
為了更好地利用漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù),我們開(kāi)發(fā)了CSOC Toolkit專用工具箱系統(tǒng)。它由四大模塊組成: 檢查抽取工具集、 檢索模塊、統(tǒng)計(jì)模塊和可視化模塊。
(1) 檢查抽取工具集。工具集的開(kāi)發(fā)初衷本是為了在標(biāo)注時(shí)輔助人工完成檢查和糾錯(cuò)任務(wù),隨著需求的不斷增加,新添功能逐漸增多,于是將其整合到一起,作為工具箱的一個(gè)獨(dú)立模塊。除了能夠檢查標(biāo)注錯(cuò)誤和對(duì)一部分錯(cuò)誤進(jìn)行自動(dòng)糾錯(cuò)外,工具集還提供了標(biāo)注語(yǔ)料信息概覽、原始語(yǔ)料抽取等功能。
(2) 檢索模塊。這個(gè)模塊提供兩類的檢索功能: 一類是固定的與語(yǔ)義傾向相關(guān)的內(nèi)容檢索,如傾向詞、傾向句、傾向主體、傾向客體等的檢索,另一類是任意字符串或標(biāo)記的檢索。檢索完成后可以純文本或富文本格式保存結(jié)果。圖4是傾向詞語(yǔ)檢索的某個(gè)結(jié)果截圖。
圖4 固定類別“傾向詞語(yǔ)”項(xiàng)的檢索結(jié)果
(3) 統(tǒng)計(jì)模塊。該模塊提供對(duì)固定項(xiàng)的統(tǒng)計(jì),如統(tǒng)計(jì)語(yǔ)義傾向成分、傾向句、非傾向句、正面傾向句、負(fù)面傾向句、否定傾向句等,統(tǒng)計(jì)結(jié)果以表格的形式呈現(xiàn),并提供排序功能。統(tǒng)計(jì)結(jié)果可存為純文本或Excel表格格式。
(4) 可視化模塊。為了方便人對(duì)語(yǔ)義傾向成分標(biāo)注結(jié)果的直觀觀察,我們特別開(kāi)發(fā)了可視化模塊,在其中可以逐句瀏覽原始文本、分詞文本、詞性標(biāo)注文本和語(yǔ)義傾向標(biāo)注文本。語(yǔ)義傾向標(biāo)注結(jié)果在呈現(xiàn)時(shí),用不同顏色突出顯示相關(guān)文本內(nèi)容,并在文本頂部用帶顏色和箭頭的弧線表示他們之間的語(yǔ)義傾向關(guān)系,詞性標(biāo)記則在文本的底部顯示。圖5是《惡毒的王子》標(biāo)注結(jié)果的可視化顯示效果。
基于語(yǔ)言主觀性多維度描述體系,我們構(gòu)建了一個(gè)中等規(guī)模的漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù),并為之配備了相應(yīng)的檢索、統(tǒng)計(jì)和可視化工具,這項(xiàng)工作所產(chǎn)出的資源既適用于漢語(yǔ)主觀性表達(dá)的基礎(chǔ)研究,又適用于與主觀性相關(guān)的應(yīng)用研究。
語(yǔ)言中的主觀現(xiàn)象日益受到學(xué)界和業(yè)界的重視,近10年間的相關(guān)工作成績(jī)喜人,但總的來(lái)說(shuō),人們對(duì)于語(yǔ)言表達(dá)主觀性的形式、方式、機(jī)制、規(guī)律、特點(diǎn)、差異等方方面面的問(wèn)題所知尚淺,認(rèn)識(shí)仍待深入。例如,語(yǔ)言中主觀性表達(dá)的分布狀況如何,各級(jí)語(yǔ)言單位在表達(dá)主觀性上分別具有怎樣的特點(diǎn)和規(guī)律,不同語(yǔ)言或同一語(yǔ)言的不同文體在表達(dá)主觀性時(shí)有何差異等。對(duì)這些問(wèn)題的回答和解決都有賴于對(duì)大量真實(shí)文本的有效統(tǒng)計(jì)和分析,本文的工作有望為這些研究提供一定的幫助,從而共同推動(dòng)領(lǐng)域研究的發(fā)展。
圖5 《惡毒的王子》標(biāo)注結(jié)果可視化顯示效果
[1] 沈家煊. 語(yǔ)言的“主觀性”和“主觀化”[J].外語(yǔ)教學(xué)與研究, 2001,33(4):268-275.
[2] 沈家煊.漢語(yǔ)的主觀性和漢語(yǔ)語(yǔ)法教學(xué)[J].漢語(yǔ)學(xué)習(xí), 2009,(4):3-12.
[3] Lun-Wei Ku,Tung-Ho Wu,Li Ying Lee et al. Construction of an Evaluation Corpus for Opinion Extraction[C]//Proceedings of NTCIR-5 Workshop Meeting, Tokyo, Japan, 2005.
[4] 徐琳宏,林鴻飛,趙晶.情感語(yǔ)料庫(kù)的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008,22(1):116-122.
[5] 徐琳宏,林鴻飛,潘宇等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.
[6] 宋鴻彥,劉軍,姚天昉等.漢語(yǔ)意見(jiàn)型主觀性文本標(biāo)注語(yǔ)料庫(kù)的構(gòu)建[J].中文信息處理2009,23(2):123-128.
[7] 彭宣維,楊曉軍,何中清.漢英對(duì)應(yīng)評(píng)價(jià)意義語(yǔ)料庫(kù)[J].外語(yǔ)電化教學(xué),2012,247(9):3-10.
[8] 崔曉玲.基于漢語(yǔ)網(wǎng)絡(luò)新聞評(píng)論的情感語(yǔ)料庫(kù)標(biāo)注研究[J].北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013,15(6):21-29.
[9] 譚松波.中文情感挖掘語(yǔ)料[DB/OL].(2010-06-29)[2013-07-20].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm
[10] Martin J R. Beyond Exchange: APPRAISAL Systems in English[C]//Evaluation in Text, Hunston, S. & Thompson, G. (eds), Oxford: Oxford University Press, 2000:142-175.
[11] Martin J R, White P R R. The Language of Evaluation: Appraisal in English[M]. New York: Palgrave Macmillan, 2005.
[12] Taboada M, Grieve J. Analyzing Appraisal Automatically[C]//Proceedings of American Association for Artificial Intelligence Spring Symposium on Exploring Attitude and Affect in Text, Stanford, USA, 2004:158-161.
[13] Read J, Hope D, Carroll J. Annotating expressions of appraisal in English[C]//Proceedings of Linguistic Annotation Workshop, ACL 2007, Prague, Czech, 2007: 93-100.
[14] Wiebe J, Wilson T, Cardie C. Annotating expressions of opinions and emotions in language[J]. Language Resources and Evaluation, 2005, 39(2-3):165-210.
[15] Kim S M, Hovy E.Determining the Sentiment of Opinions[C]//Proceedings of the COLING Conference 2004, Geneva, 2004:1367-1373.
[16] Leech G.Corpus annotation schemes[J]. Literary and Linguistic Computing, 1993, 8(4):275-81.