国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語料庫的明清小說人名與稱謂研究

2015-04-25 08:23:49羅鳳珠石定栩趙天成
中文信息學(xué)報 2015年1期
關(guān)鍵詞:標(biāo)識符嵌套分詞

熊 丹,陸 勤,羅鳳珠,石定栩,趙天成

(1.香港理工大學(xué) 電子計算學(xué)系,香港;2. 臺灣元智大學(xué) 中國語文學(xué)系,臺灣;3. 香港理工大學(xué) 中文及雙語學(xué)系,香港)

?

基于語料庫的明清小說人名與稱謂研究

熊 丹1,陸 勤1,羅鳳珠2,石定栩3,趙天成1

(1.香港理工大學(xué) 電子計算學(xué)系,香港;2. 臺灣元智大學(xué) 中國語文學(xué)系,臺灣;3. 香港理工大學(xué) 中文及雙語學(xué)系,香港)

在自然語言處理及其應(yīng)用領(lǐng)域,人名和稱謂作為重要的命名實體,是信息處理的關(guān)鍵部分之一。該文從命名實體識別和資訊提取的角度出發(fā),在對4部明清古典小說的語料庫進行標(biāo)注的前提下,建構(gòu)了姓名、字號和稱謂作為命名實體的分類及標(biāo)注系統(tǒng)。人名和稱謂總體上分為單一型和復(fù)合型,根據(jù)復(fù)合型的內(nèi)部組成元素和組合方式,將其進一步分為固定式、同位式、附屬嵌套式、靈活嵌套式。結(jié)合語料庫的完整數(shù)據(jù)統(tǒng)計,該文對各類型人名和稱謂進行了比較分析,并分別展示了4部名著在人名、稱謂使用上的特點。

命名實體標(biāo)注;人名和稱謂分類;語料庫構(gòu)建

1 引言

中國的姓名、稱謂文化博大精深、源遠流長,古典文學(xué)作品往往借助書中角色的姓名、字號及形式多樣的稱謂來敘述故事、刻畫人物形象、顯示角色之間的關(guān)系,使角色鮮明,語言生動。因此,在使用計算機處理古典文學(xué)作品時,對人名和稱謂的系統(tǒng)性標(biāo)注成為有效理解和處理語言的關(guān)鍵因素之一。不同于其他文學(xué)和歷史層面對稱謂的研究,本文從命名實體識別和資訊處理的角度出發(fā),從稱謂的內(nèi)部元素和組合方式入手,對明清小說中的人名和稱謂建立了一套分類和標(biāo)注系統(tǒng),并將這一系統(tǒng)實際應(yīng)用到明清古典文學(xué)的命名實體標(biāo)注中。本研究建構(gòu)的語料庫共計262.35萬中文字(不含標(biāo)點符號),包括《三國演義》《水滸傳》《金瓶梅》和《紅樓夢》,在分詞的基礎(chǔ)上所標(biāo)注的人名、稱謂總數(shù)達17萬條。工作模式主要為人工標(biāo)注,同時也對現(xiàn)代漢語分詞標(biāo)注系統(tǒng)[1]加以訓(xùn)練,進行預(yù)處理和后期處理,以提高標(biāo)注的效率和質(zhì)量。

本文主要內(nèi)容如下: 第2節(jié)簡單介紹自然語言處理領(lǐng)域內(nèi)較通用的語料庫加工規(guī)范對人名、稱謂的處理方法,從而引出本文的研究目的;第3節(jié)闡述本研究建立人名、稱謂分類及標(biāo)注系統(tǒng)的理念;第4節(jié)通過實例詳細說明人名、稱謂的分類和標(biāo)注;第5節(jié)展示4本明清小說的完整數(shù)據(jù)統(tǒng)計,歸納人名、稱謂的組成元素和組合方式,探索復(fù)合型稱謂內(nèi)部成分的組合規(guī)則,并通過對4本小說的數(shù)據(jù)對比分析其各自的特色。

2 研究概況及目的

稱謂是人與人交際過程中必不可少的語言單位,在語言交流中反映了人際關(guān)系的復(fù)雜程度,而且在不同的歷史時期承載著不同的歷史人文信息。因此,稱謂的標(biāo)注和識別如果能夠通過自然語言處理技術(shù)來完成,對于中文信息處理和計算機輔助的文學(xué)和歷史研究意義重大。然而,目前的中文信息處理技術(shù)主要是針對現(xiàn)代漢語,稱謂并沒有得到重視,也沒有對稱謂及由稱謂和人名組合的名稱進行細分。國內(nèi)較通用的現(xiàn)代漢語語料庫加工規(guī)范[2]中,將人名作為一類單獨的命名實體(總標(biāo)識符為“/nr”),漢族姓、名分開標(biāo)注,例如,“張/nrf 仁偉/nrg”、“歐陽/nrf 修/nrg”;對于雙姓(含女子冠夫姓)也在切分之后進行標(biāo)注,例如,“唐/nrf 姜/nrf 氏/nrg”;別名、譯名、簡稱等均標(biāo)注為“/nr”,如“魯迅/nr”、“愛因斯坦/nr”,“陳總/nr”;但對于姓名后附加職務(wù)或稱謂的名稱,將職務(wù)、稱謂只作為普通名詞(標(biāo)識符為“/n”),例如,“李/nrf 主席/n”、“劉/nrf 阿姨/n”、“陳/nrf 老總/n”?!芭_灣中央研究院”建立的近代漢語(唐以后)標(biāo)記語料庫[3-4]也包括詞類標(biāo)注信息。該語料庫包括了《紅樓夢》在內(nèi)的明清文學(xué)語料,姓名劃歸為專有名詞(標(biāo)識符為“Nb”),而稱謂也只劃歸為普通名詞(標(biāo)識符為“Na”),例如,“林(Nb)姑娘(Na)”、“鳳(Nb)姐姐(Na)”、“楊(Nb)提督(Na)”。

在我們對4本名著進行標(biāo)注的過程中發(fā)現(xiàn),稱謂不能簡單地處理為普通名詞,因為不論是單獨使用還是和姓名連用,稱謂都發(fā)揮命名實體的功能。而且,小說中對同一個人物的稱謂會隨著該人物身份、地位、所處的場合、交流的對象、甚至當(dāng)時作者想要體現(xiàn)的感情色彩而不斷變化。稱謂可單獨使用,也可通過不同形式靈活組合而成,例如,可以從姓名、字號中截取一部分再加上頭銜組合而成。這種復(fù)合型稱謂各元素之間的組合關(guān)系相當(dāng)復(fù)雜。如果將其作為命名實體來標(biāo)注,就需要對這些稱謂進行系統(tǒng)性的分類、并對其組合關(guān)系進行分析,既要確保古典文學(xué)標(biāo)注語料庫的建設(shè)過程中,采用統(tǒng)一的原則進行分詞和標(biāo)注,又要兼顧靈活性而有利于文學(xué)和歷史的后續(xù)研究,例如,建立文本內(nèi)及不同文本間相關(guān)命名實體的關(guān)聯(lián)和基于命名實體為人物屬性建立檔案等。因此,本文將稱謂作為一類主要的命名實體、從資訊處理的角度進行分析,不同于一般的文學(xué)和歷史研究中對稱謂的分類,但同時也考慮如何在資訊平臺上為文學(xué)和歷史研究提供方便。本文主要從稱謂的內(nèi)部元素和組合方式入手,將人名和稱謂進行整合分類,探索復(fù)合型稱謂的組合規(guī)律,并將總結(jié)的規(guī)則實際應(yīng)用到4本名著的命名實體標(biāo)注中。

3 人名、稱謂分類及標(biāo)注系統(tǒng)的設(shè)計理念

3.1 稱謂的界定

長期以來,關(guān)于稱謂的概念、范疇,一直存在多種看法,沒有定論(如鄭爾寧等介紹的現(xiàn)代漢語稱謂研究的幾種主流觀點)[5]。關(guān)于面稱(直接當(dāng)面稱呼)與引稱(間接指稱性稱謂)之間的關(guān)系,也出現(xiàn)了很多探討,其中不乏具有代表性的研究[6]。本文對稱謂的定義不予深入探究,而是采用一個廣義的概念,既包含人與人之間言語交際中所使用的直接稱呼,也包含提及他人時使用的指稱性名稱。從這一意義來看,本文將用于指稱、顯示人物身份和角色定位的官職、爵銜都納入稱謂之列。從詞類的角度來看,本文研究的稱謂僅包括名詞和名詞性短語,不包括代詞。另外,鑒于本文的研究是從資訊處理的角度出發(fā)標(biāo)注命名實體,因此僅將特指某一人物、并根據(jù)上下文語境能判斷其所指人物的稱謂作為命名實體,例如,《紅樓夢》中的“姑娘”,如果能夠判斷其所指的對象,則加稱謂標(biāo)注,而“一/個/姑娘/領(lǐng)著/他”、“姑娘/們”等非特指之稱謂,則當(dāng)普通名詞處理,不加稱謂標(biāo)注。

3.2 人名、稱謂的分類方式

自古以來已有很多對稱謂的研究,但針對不同的研究目的,對稱謂的分類方式也各有側(cè)重。Braun[7]在對不同語言中的稱謂進行比較研究時,從詞類的角度將稱謂大體分為代詞稱謂、動詞形式的稱謂和名詞形式的稱謂。綜觀古今,一些較有影響力的漢語稱謂專著和詞典[8-14],其中有些工具書對古今中外的稱謂兼收并蓄,分門別類地收錄了幾千甚至3萬余條稱謂,對于稱謂的分類,其角度和細微性均有所不同。例如,基于指稱對象的身份一般分為家族親屬、社交、職業(yè)職官、民族宗教等;基于稱謂的使用形式分為習(xí)稱、別稱、統(tǒng)稱、通稱、俗稱等;基于情感色彩、雅俗褒貶分為尊稱、貶稱、昵稱、諛稱、雅稱、賤稱等;基于稱謂的使用年代分為古稱、今稱。鑒于本研究的結(jié)果需要應(yīng)用于古典漢語信息處理和語料庫建構(gòu),本文將人物的姓名、字號和各類稱謂糅合匯總、再從其內(nèi)部構(gòu)成及組合方式逐層逐級進行分類,建立人名和稱謂的分類及標(biāo)注系統(tǒng)。

3.3 人名、稱謂的分詞及標(biāo)注的基本原則

語料庫的分詞系統(tǒng),遵從的是本項目根據(jù)白話語體文的特征制定的明清章回小說的分詞準(zhǔn)則,基本原則是“致力于在做到切分后不造成語義丟失、轉(zhuǎn)換、引申或歧義的情況下,切分到最小完整語義單位”[15]。該切分系統(tǒng)基本沿用了北京大學(xué)的現(xiàn)代漢語分詞體系[2],并借鑒了“臺灣中央研究院”的分詞標(biāo)準(zhǔn)[16]。人名、稱謂的標(biāo)注主要沿用北京大學(xué)詞性標(biāo)注系統(tǒng)[2],對于該系統(tǒng)中沒有的類型則新增標(biāo)識符。鑒于語料庫的建構(gòu)要求全文分詞的一致性,因此對稱謂的分詞采用語料庫整體分詞原則,例如,“[三/姐姐]/na2”、“[國舅/老爺]/na2”、“[冠軍/將軍]/nu1”、“[忠武/侯]/nu2”。需要注意的是,古典小說中包括一些現(xiàn)代漢語中已經(jīng)不再使用的古稱,例如,“足下”、“衙內(nèi)”、“房下”,用作稱謂時不能切分。

本研究將“姓”、“名”、“姓+名”、“字”、“姓+字”作為不同類別分別標(biāo)注,例如,“劉/nr1#”、“備/nr2#”、“劉備/nr3#”、“玄德/nr4#”、“劉玄德/nr5#”,因此無需對“姓+名”和“姓+字”類的人名再進行分詞。對復(fù)姓和多姓,使用“//”予以區(qū)分,如“諸葛//亮/nr3#”、“[張//王/nr1 氏]/na1”。但對于由不同的分詞單位[17]組合而成的稱謂,則需要進行分詞。如果稱謂中包含其他類型的命名實體,如地名、機構(gòu)名,則以嵌套方式保留其獨立標(biāo)識符。

另外,雖然文學(xué)作品中多數(shù)人物為作者所虛構(gòu),但也會引用歷史人物和其他文學(xué)作品中塑造的人物,為了便于本研究后續(xù)歷代語言知識庫的貫穿,分別使用“#”、“*”和“&”表示歷史真實人物(以《二十四史》為依據(jù))、神話傳說虛構(gòu)人物和引用其他文學(xué)作品的人物,例如,《紅樓夢》中出現(xiàn)的“陶淵明/nr3#”、“如來佛/nr6*”、“李逵/nr3&”等。因此,本文所提到的人名、稱謂包括小說塑造的人物及小說中引用其他文獻的人物。

下節(jié)通過實例詳細闡述人名、稱謂的分類及標(biāo)注,本文所有實例均取自于已標(biāo)注的4本名著。

4 人名、稱謂的分類及標(biāo)注

4.1 總體分類系統(tǒng)

由于社會結(jié)構(gòu)、文化背景的差異,在不同的時代、地域、以及社會群體中,稱謂具有明顯的特征。而小說為了凸顯其藝術(shù)效果,使用的稱謂更是變化多樣。例如,《金瓶梅》中的蔡京,雖然不是小說的主要人物,卻使用了多種指稱方式。既有直接用單姓“蔡”和姓名“蔡京”進行指稱的,也有用官職指代的,例如,“左丞相”、“大學(xué)士”、“吏部尚書”、“太師”等。下屬、仆役稱呼他時會用“老爺” 、“蔡老先生”、“蔡太師”、“太師爺” 、“老太師”、“太師老爺”、“蔡太師老爺”等,而內(nèi)相們私下談?wù)摃r則貶稱為“老賊”。另外,本文采用的語料文本雖然是明清時期創(chuàng)作的小說,但其故事所處的時代背景、社會環(huán)境都不盡相同,不同程度地折射出秦漢、唐宋、明清等多個時期的文化形態(tài)和社會風(fēng)貌,而且故事人物的社會角色千差萬別,因此語料中出現(xiàn)的稱謂非常豐富。

基于對4部名著人名和稱謂的綜合分析,本文從其組成元素和組合方式的角度進行了綜合分類,總體上分為單一型和復(fù)合型兩大類,顧名思義,前者由人名、稱謂本身獨立承擔(dān)指稱功能,后者由多個成分疊加或嵌套組合而成。復(fù)合型稱謂的內(nèi)部組合方式非常靈活,有的是由多個獨立使用的單一型人名、稱謂疊加而成,例如,“[令郎/先生]/na2”,其中“令郎”和“先生”都可以用來作為獨立的稱謂;有的是截取人名的一部分、再和稱謂合并而成,例如,“[鳳/nr2 姐姐]/na1”;還有的是由人名附加修飾、描述語組合而成,例如,“[周瑞/nr3 家/的]/na1”,其中“家/的”不能獨立作為稱謂,一般附加于人名后組合成復(fù)合稱謂。經(jīng)過對語料中的人名、稱謂進行歸納分析,本文從其內(nèi)部構(gòu)成及其組合方式入手,分為以下類別(圖1)。

圖1 人名、稱謂的總體分類

4.2 單一型細分

如圖1所示,單一型人名、稱謂分為3大類,表1中對其進行了細分,并用實例說明。為了便于理解,取自語料中的實例均保留語料庫中的標(biāo)識符號和標(biāo)注形式,表1還列出北京大學(xué)現(xiàn)代漢語語料庫[2]采用的相應(yīng)標(biāo)識符,以便參照。

表1 單一型人名、稱謂細分

① 指稱關(guān)系是受時空限制的,在特定的時間地點,某個官銜和某個人物有一一對應(yīng)的關(guān)系,但時過境遷,擔(dān)任這個官職的人物變了,指稱關(guān)系會相應(yīng)變化

4.3 復(fù)合型細分

單一型稱謂可獨立用于指稱,也可作為復(fù)合型稱謂中的單元成分。本工作對各類復(fù)合型稱謂采用統(tǒng)一的標(biāo)注系統(tǒng): 使用“[ ]”總括,如內(nèi)部成分的類別與復(fù)合稱謂的類型相異,則保留其獨立標(biāo)識符?;趦?nèi)部成分的組合關(guān)系,復(fù)合型稱謂可分為4大類,本節(jié)通過實例進行描述。

4.3.1 固定式組合

這一類型是由多個成分組合而成的較固定的名稱,其內(nèi)部成分一般不分開使用,或分開后僅作為簡稱使用,例如,

? 以美號賜封的爵位和封號: 帝王封爵時賜予的美號和爵銜組合而成的名稱,具有特指性、較固定性,例如,“[北靜/郡王]/nu2”,“[順平/侯]/nu2”。因為“北靜”和“郡王”作為單一成分均為爵位,與其復(fù)合稱謂一致,而無需再加獨立標(biāo)識符。

? “名號+將軍”組合而成的武將官職: 對有軍功者授予“將軍”官銜時會冠以名號,例如,“[奮威/將軍]/nu1”,“[冠軍/將軍]/nu1”。

4.3.2 同位式組合

這一類型由多個存在同位關(guān)系的成分堆疊而成,其內(nèi)部成分一般為同一類型,可分開后獨立使用,例如,“[父親/大人]/na2”,“[都太尉/統(tǒng)制]/nu1”。

4.3.3 附屬嵌套式組合

這一類型由兩個存在附屬、主次、支配或依存關(guān)系的成分組合而成,其內(nèi)部成分可能為不同類型,但具備依存關(guān)系。主要包括:

? 主次關(guān)系: 較常見的主次關(guān)系如“[[北靜/王]/nu2 妃]/nu2”、“[丞相/令史]/nu1”。

? 管轄地+官職: 人物的官職經(jīng)常和其管轄地連用,為了不使這一信息丟失,將其作為一個復(fù)合型命名實體,例如,“[揚州/ns2# 刺史]/nu1”。

? 封地+爵位封號: 如果封爵時賜予了封地,爵位、封號名用作稱謂時通常會附帶封地名,例如,“[烏程/ns2# 侯]/nu2”?!盀醭獭睘榈孛虼吮A羝涞孛麡?biāo)識符(/ns),而“侯”則無需重復(fù)爵位標(biāo)識符(/nu2),系統(tǒng)可默認識別。

? 機構(gòu)+官職: 小說中提到官職時,往往還會采用“機構(gòu)+官職”這一組合形式,為了保持兩者之間的關(guān)聯(lián),便于后續(xù)的信息提取,將這兩個命名實體作為一個復(fù)合型命名實體,例如,“[吏部/nt 尚書]/nu1”。

4.3.4 靈活嵌套式組合

這一類型包括所有其他由兩個或兩個以上的成分靈活嵌套組合而成的復(fù)合型稱謂,其內(nèi)部成分可以是單一型人名、稱謂,也可以是以上幾種復(fù)合型稱謂。無論其內(nèi)部成分多么復(fù)雜,都可逐層剖析成單一型人名、 稱謂后使用統(tǒng)一的標(biāo)注規(guī)則進行處理。從其內(nèi)部組合方式劃分,靈活嵌套式組合可進一步分為8類,在表2通過實例說明。對靈活嵌套式組合的復(fù)合型稱謂使用“[ ]”總括,并加“/na1”作為總標(biāo)識符。如這一組合的內(nèi)部成分為單一型“稱呼類”實體,無需再加單一型“稱呼類”實體標(biāo)識符“/na2”,系統(tǒng)可默認識別, 例如, “[西門/nr1 老爹]/na1#”中的“老爹”是一個單一型稱呼,無需再加獨立標(biāo)識符。如內(nèi)部成分為其他類型實體,則需保留其獨立標(biāo)識符,例如,“[西門/nr1 提刑/nu1 ]/na1”。

表2 靈活嵌套式組合細分

說明:

1.以上各種組合的內(nèi)部成分先后順序不定,例如,“官職+稱呼”組合,其內(nèi)部成分的順序也可能是“稱呼+官職”,如“[義士/提轄/nu1 ]/na1”。

2.以上組合中,任何一種內(nèi)部成分的數(shù)量不定,例如,“人名+稱呼”組合中,可能出現(xiàn)多個稱呼,如“[[西門/nr1 先生]/na1 大人]/na1”。

5 數(shù)據(jù)分析

本節(jié)將基于這4部小說的特性,通過語料庫數(shù)據(jù)對人名、稱謂的使用情況進行詳細分析。

5.1 綜合數(shù)據(jù)分析

表3顯示了人名、稱謂作為命名實體對比語料庫總規(guī)模的數(shù)據(jù)。4部小說中,《紅樓夢》的總詞匯量最大,《三國演義》最少,數(shù)量相差31%。4部小說中包括人名、稱謂的命名實體占總詞匯量的9.21%,由此可見,人名、稱謂在語料庫建構(gòu)中的作用不可忽視。在這4部小說中,《三國演義》的詞條數(shù)最少,其人名、稱謂的比率最高,達到12.20%,主要原因是作為歷史小說,文中出現(xiàn)的姓名和官銜都最多。

表3 人名、稱謂在語料庫中的比率

5.2 各類型人名、稱謂的分布

本文根據(jù)4部小說中人名、稱謂的構(gòu)成方式,將其分為單一型和復(fù)合型兩大類,其中單一型又分為姓名類、官銜類、稱呼類;復(fù)合型進一步分為固定式、同位式、附屬嵌套式、靈活嵌套式。圖2展示了這些類型分別在四部小說中的頻率歸一化分布,即對每部小說中的各類人名、稱謂出現(xiàn)的總次數(shù)進行統(tǒng)計,例如,“林黛玉/nr3”在《紅樓夢》中出現(xiàn)了279次,則計為279。以各部小說中人名、稱謂的總次數(shù)作為分母,計算出這些類型在該小說中所占的百分比。

圖2 各類型人名、稱謂的分布

從總體上看,4部小說中出現(xiàn)最多的均為“姓名類”,其中一個主要原因是這4部小說采用第3人稱敘述故事,使用姓名的語境很多。另外,古代人名的形式多種多樣,除了組成現(xiàn)代人名的姓和名之外,還存在字、別號等其他形式的名稱,可選擇性強,因此使用姓名的頻率很高。在復(fù)合型稱謂中,4部小說都是“靈活嵌套式”的比例最高,因為這種組合能幫助塑造人物形象,增強小說語言的吸引力。

從4部小說各自不同的特性上看,《三國演義》和《水滸傳》是歷史小說,因此“官銜類”的比例比《金瓶梅》和《紅樓夢》高。而同為歷史小說,《三國演義》比《水滸傳》的官方人物多,因此“官銜類”的比例更高?!督鹌棵贰纷鳛槠矫裎膶W(xué),“官銜類”的比例比作為貴族文學(xué)的《紅樓夢》更高,是因為圍繞西門慶出現(xiàn)了較多官場人物。另外,《三國演義》中的“固定式”、“附屬嵌套式”比例均高于其他3部小說,這是因為其“固定式”包括很多由“名號+將軍”組合而成的武將官職,“附屬嵌套式”中包括較多由“管轄地+官職”組合而成的復(fù)合稱謂?!督鹌棵贰分械摹胺Q呼類”(即單一型稱呼)比例最高,因為小說中圍繞西門慶構(gòu)成了繁雜的人際關(guān)系網(wǎng),描繪了當(dāng)時的市井風(fēng)情,因此使用非正式稱呼的語境較多。

《水滸傳》中的“同位式”高于其他3部小說,因為文中的江湖豪客之間常常使用這一方式的稱謂以示尊敬,例如,“[莊主/太公]/na2”、“[先鋒/哥哥]/na2#”。

為了審視各種類別的使用分布,表4展示了各類型人名、稱謂的實例使用率,即用這些實例出現(xiàn)的總次數(shù)除以其個數(shù),這一數(shù)據(jù)體現(xiàn)單位類型上的實例使用率。由此數(shù)據(jù)可見,《紅樓夢》的“姓名類”使用率最高,因其在小說的第3人稱敘述中使用較多,其中“寶玉/nr2”在全文中出現(xiàn)了超過3 900次。《三國演義》中“同位式”的使用率較低,全文僅出現(xiàn)了兩例(“[宗兄/將軍]/na2#”和“[大司馬/將軍]/nu1”),各使用了一次,因為其作為歷史演義小說,更多地使用了“固定式”(如“名號+將軍”)、“附屬嵌套式”(如“管轄地+官職”)。

表4 各類型的實例使用率

5.3 姓名類數(shù)據(jù)分析

鑒于“姓名類”在小說中出現(xiàn)的頻率最高,因此本小節(jié)對其數(shù)據(jù)進行進一步分析。圖3展示了“姓名類”的6個子類在4部小說中的頻率分布,即對每部小說中“姓名類”各子類出現(xiàn)的次數(shù)進行統(tǒng)計,計算各子類在該部小說的“姓名類”中所占的百分比。

圖3 “姓名類”的分布

從總體數(shù)據(jù)來看,“姓+名”的比例最大,這和現(xiàn)代日常交流中稱謂的使用規(guī)律一致。古典小說中使用別名的頻率很高,因為古人對他人的稱呼,以稱“別號”為最尊;對亡者的稱呼,以稱“封號、謚號”為最尊。

從4部小說各自的使用情況看,《紅樓夢》中“名”的比例最高,文中采用第3人稱敘述故事時,對主要角色“寶玉/nr2”、“黛玉/nr2”、“寶釵/nr2”的指代常常使用“名”?!端疂G傳》中講述故事時則多數(shù)使用“姓+名”,其中“宋江/nr3#”出現(xiàn)的次數(shù)達3 800多次。《金瓶梅》描寫的是世情生活,因此別名出現(xiàn)的比例較高。

圖4展示了4部小說中不同音節(jié)的“姓”、“名”、“字”的分布情況。對各部小說中“姓”、“名”、“字”出現(xiàn)的次數(shù)分別進行統(tǒng)計,計算這些子類在該部小說的“姓”、“名”、“字”總數(shù)中所占的百分比?!度龂萘x》中的單音節(jié)“名”所占比重很大,這在一定程度上反映了當(dāng)時的姓名文化。與之形成對比的是,《人民日報》現(xiàn)代漢語語料庫中“單姓雙名”的情況遠遠多于“單姓單名”[18]。另外,“字”是中國古代姓名文化中的重要元素,通常為雙音節(jié),僅《三國演義》中出現(xiàn)了少量單音節(jié)“字”,例如,太醫(yī)吉平,“字/稱/平/nr4”。

圖4 不同音節(jié)“姓”、“名”、“字”的分布

5.4 靈活嵌套式組合數(shù)據(jù)分析

“靈活嵌套式”是復(fù)合型稱謂中比重最大的一類,其組合靈活多變、內(nèi)部成分相對復(fù)雜,在語料中長度也很突出,例如,“[[元/nr2 妃/nu2]/na1 姐姐]/na1”,由“名”的一部分加封號組合而成的復(fù)合型稱謂作為其內(nèi)部成分,再附加單一型稱謂“姐姐”組成多層次的復(fù)合型稱謂。圖5顯示了第4.3.4節(jié)所描述的8類“靈活嵌套式”稱謂在整個語料庫中出現(xiàn)的總頻率的比例分布,由此可見,使用最多的組合是“人名+稱呼”,這在一定程度上也是因歷史上人名形式的多樣性所致。

圖5的子餅圖是對“人名+稱呼”這一子類所做的進一步分析。結(jié)果顯示,“姓+稱呼”的比例最大,因為在對話中使用較多,這也是小說語言的特征之一。其中,“姓+稱呼”中包括多姓的情況,例如,女子冠夫姓,例如,“[張//王/nr1 氏]/na1”、“[西門//吳/nr1 氏]/na1”。“姓名+稱呼”中,也可能不使用全名,而是姓加上名的一部分,例如,“[王/nr1 鳳/nr2 姐]/na1”。

圖5 “靈活嵌套式”在語料庫中的總體分布

圖6展示了“靈活嵌套式”各子類在4部小說中的分布。由此數(shù)據(jù)可見,4部小說中都是“人名+稱呼”的比例最高,其中《紅樓夢》中“人名+稱呼”的比例高于其他3部小說,主要因為“[賈/nr1 母]/na1”、“[鳳/nr2 姐]/na1”這類形式的稱謂在第3人稱敘述中出現(xiàn)的次數(shù)很多?!端疂G傳》中“人名+官職”的比例最高,因為其故事中涉及較多官場人物,對官員的稱謂常常使用這種形式,例如,“[高/nr1 太尉/nu1 ]/na1”出現(xiàn)了超過200次?!皺C構(gòu)+稱呼”的組合較為少見,僅《金瓶梅》中出現(xiàn)了3次“[吏部/nt 公]/na1”,這也反映了《金瓶梅》語言的生動、不拘形式。

6 結(jié)語

在以往的漢語分詞和標(biāo)注中,稱謂通常被作為普通名詞處理。但稱謂無論是單獨使用,還是和姓名等組合使用,都發(fā)揮著命名實體的功能。本文基于古典文學(xué)語料庫對人名、稱謂作為命名實體進行全面、綜合性的分析,填補了以往命名實體在漢語分詞和標(biāo)注中對稱謂的缺項。鑒于明清小說語料中人名、稱謂的復(fù)雜性,本文從命名實體識別和資訊提取的角度對其進行逐層分類,以幫助識別、處理和提取這一類型文學(xué)作品中的人名和稱謂。在后續(xù)的研究中,可以和更早期時代的語料或現(xiàn)代語料進行比較分析,明確不同時代的差別。另一項頗有意義的工作是在本文分類研究的基礎(chǔ)上建立文本內(nèi)及跨文獻、貫穿歷代語言知識庫的指稱對象的關(guān)聯(lián),進一步為文學(xué)和歷史的研究提供基礎(chǔ)關(guān)聯(lián)信息。

圖6 “靈活嵌套式”在四部小說中的分布

[1] Lu Q, Chan S T, Xu R F, et al. A Unicode based Adaptive Segmentor[J]. Journal of Chinese Language and Computing, 2004, 14(3): 221-234.

[2] 俞士汶,段慧明,朱學(xué)鋒,等.北大語料庫加工規(guī)范: 切分·詞性標(biāo)注·注音[J]. Journal of Chinese Language and Computing, 2003, 13(2): 121-158.

[3] 魏培泉,譚樸森,劉承慧,等.建構(gòu)一個以共時與歷時語言研究為導(dǎo)向的歷史語料庫[J]. Computational Linguistics and Chinese Language Processing, 1997, 2(1): 131-145.

[4] 中央研究院近代漢語語料庫[DB/OL]. http://early_mandarin.ling.sinica.edu.tw/

[5] 鄭爾寧.近二十年來現(xiàn)代漢語稱謂語研究綜述[J].語文學(xué)刊,2005,2: 120-122.

[6] Dickey E. Forms of address and terms of reference[J]. Journal of Linguistics, 1997, 33(2): 255-274.

[7] Braun F. Terms of Address: Problems of patterns

and usage in various languages and cultures[M]. Berlin, New York, Amsterdam: Mouton de Gruyter, 1988.

[8] 李學(xué)勤主編,(晉)郭璞注.爾雅注疏[M].北京:北京大學(xué)出版社,1999: 116-123.

[9] (清)梁章鉅.稱謂錄[M].長沙:岳麓書社,1991.

[10] 楊應(yīng)芹,諸偉奇.古今稱謂詞典[M].合肥: 黃山書社,1989.

[11] 陸瑛.簡明稱謂辭典[M].廣西: 廣西民族出版社,1989.

[12] 韓省之.稱謂大辭典[M].北京: 新世界出版社,1991.

[13] 吳海林.中國古今稱謂全書[M].哈爾濱: 黑龍江教育出版社,1991.

[14] 吉常宏.漢語稱謂大詞典[M].石家莊: 河北敎育出版社,2001.

[15] Xiong D, Lu Q, Lo F J, et al. Specification for Segmentation and Named Entity Annotation of Chinese Classics in the Ming and Qing Dynasties[C]//Proceedings of the Chinese Lexical Semantics (CLSW2012 Revised Selected Papers), Lecture Notes in Computer Science, Volume 7717. Berlin, Heidelberg: Springer, 2013: 280-293.

[16] 臺灣經(jīng)濟部中央標(biāo)準(zhǔn)局.CNS14366,中文資訊處理分詞規(guī)范[S].臺灣: 經(jīng)濟部中央標(biāo)準(zhǔn)局,1996.

[17] 國家技術(shù)監(jiān)督局.中華人民共和國國家標(biāo)準(zhǔn)GB13715,信息處理用現(xiàn)代漢語分詞規(guī)范[S].北京: 中國標(biāo)準(zhǔn)出版社,1992.

[18] 夏迎炬,于浩,西野文人.《人民日報》語料庫命名實體分類的研究[J]. Computational Linguistics and Chinese Language Processing, 2005, 10(4): 533-542.

A Corpus-Based Study on Personal Names and Terms of Address in Chinese Classical Novels

XIONG Dan1, LU Qin1, LUO Fengzhu2, SHI Dingxu3, ZHAO Tiancheng1

(1. Department of Computing, The Hong Kong Polytechnic University, Hong Kong, China;2. Department of Chinese Linguistics & Literature, Yuan Ze University, Taiwan, China;3. Department of Chinese & Bilingual Studies, Hong Kong Polytechnic University, Hong Kong, China)

Personal names and terms of address are important parts of named entities. The recognition of personal names as well as terms of address is ans essential issue in natural language processing. This paper presents a classification and annotation scheme for personal names and terms of address from the perspective of named entity recognition and information extraction on a corpus of four Chinese classical novels. Personal names and terms of address are categorized into simple types and compound types. And the compound-type is further categorized into four subtypes, fixed expressions, appositive constructions, subordinate constructions of affiliation, and other subordinate constructions. This paper also presents a comparative analysis on these types and the characteristics of the four novels based on full statistics of the annotated corpus.

named entity annotation, classification of personal names and terms of address, corpus construction

熊丹(1980—),碩士,主要研究領(lǐng)域為詞匯語義學(xué)。E?mail:csdxing@comp.polyu.edu.hk陸勤(1960—),博士,教授,主要研究領(lǐng)域為計算語言學(xué),詞匯語義學(xué),中文信息處理,基于自然語言處理技術(shù)的信息抽取和知識發(fā)現(xiàn)。E?mail:csluqing@comp.polyu.edu.hk羅鳳珠(1955—),博士候選人,副教授,主要研究領(lǐng)域為中國古典詩詞,數(shù)位人文,文學(xué)地理學(xué)。E?mail:gefjulo@mail2000.com.tw

1003-0077(2015)01-0019-09

2013-04-08 定稿日期: 2014-12-09

2009年度蔣經(jīng)國國際學(xué)術(shù)交流基金會“歷代語言知識庫建置計劃”(RG013-D-09)

TP391

A

猜你喜歡
標(biāo)識符嵌套分詞
淺析5G V2X 通信應(yīng)用現(xiàn)狀及其側(cè)鏈路標(biāo)識符更新技術(shù)
基于底層虛擬機的標(biāo)識符混淆方法
基于嵌套Logit模型的競爭性選址問題研究
基于區(qū)塊鏈的持久標(biāo)識符系統(tǒng)①
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
數(shù)字美術(shù)館“數(shù)字對象唯一標(biāo)識符系統(tǒng)”建設(shè)需求淺議
值得重視的分詞的特殊用法
一種基于區(qū)分服務(wù)的嵌套隊列調(diào)度算法
計算機工程(2014年6期)2014-02-28 01:25:29
無背景實驗到有背景實驗的多重嵌套在電氣專業(yè)應(yīng)用研究
河南科技(2014年23期)2014-02-27 14:19:17
高考分詞作狀語考點歸納與疑難解析
庆阳市| 浠水县| 察隅县| 海晏县| 柳州市| 涡阳县| 宜兰市| 广德县| 长葛市| 合阳县| 望江县| 安阳市| 枣阳市| 盐亭县| 色达县| 晋州市| 澎湖县| 牟定县| 渝北区| 汶川县| 承德市| 抚宁县| 大埔区| 克拉玛依市| 景德镇市| 连江县| 哈密市| 施秉县| 富阳市| 浦北县| 玛纳斯县| 贡觉县| 大田县| 岐山县| 三明市| 平昌县| 页游| 怀远县| 萝北县| 辽阳市| 关岭|