張坤麗,昝紅英,柴玉梅,韓英杰,趙 丹
(鄭州大學 信息工程學院,河南 鄭州 450001)
?
現(xiàn)代漢語虛詞用法知識庫建設綜述
張坤麗,昝紅英,柴玉梅,韓英杰,趙 丹
(鄭州大學 信息工程學院,河南 鄭州 450001)
現(xiàn)代漢語虛詞用法繁雜多樣,虛詞用法的研究對漢語語義理解及語法分析起著非常重要地作用。該文在分析虛詞及詞匯知識庫研究現(xiàn)狀的基礎上,對三位一體的現(xiàn)代漢語虛詞用法知識庫中虛詞用法詞典、虛詞用法規(guī)則庫和虛詞用法標注語料庫的建設過程進行了詳細描述,對虛詞知識庫現(xiàn)存的問題進行了分析。利用已經(jīng)構建的現(xiàn)代漢語虛詞知識庫,對虛詞用法自動識別進行了研究,并對現(xiàn)代漢語虛詞知識庫的應用進行了初步的探討。
虛詞用法知識庫;虛詞用法詞典;虛詞用法規(guī)則庫;虛詞用法標注語料庫
在漢語中,意義較為空靈、在句子中承擔語法特征和相關實詞之間語義關系描述的詞語稱之為虛詞。虛詞的語義及用法復雜多樣,且對所在句子的語義影響很大[1]。眾多的語言學家對漢語虛詞的語義及用法進行研究,研究成果眾多。首先是一些關于虛詞的詞典,如呂叔湘先生的《現(xiàn)代漢語八百詞》,北京大學中文系1955、1957級語言班的《現(xiàn)代漢語虛詞例釋》,武克忠的《現(xiàn)代漢語常用虛詞詞典》,侯學超的《現(xiàn)代漢語虛詞詞典》,張斌的《現(xiàn)代漢語虛詞詞典》等,盡管各書側重點不同,收錄詞條也不盡相同,但都結合體例,對虛詞進行了較為詳盡的分類辨析。其次是出現(xiàn)了一些虛詞研究的專著和大量的虛詞研究論文,如陸儉明、馬真的《現(xiàn)代漢語虛詞散論》充分體現(xiàn)出虛詞研究在語法研究中的作用,使?jié)h語的虛詞研究達到了新的高度。張斌、范開泰主編的現(xiàn)代漢語虛詞研究叢書以及其他學者的研究成果,都對各類虛詞分別做了細致的描述,并加以解釋,總結規(guī)律。
雖然語言學家對虛詞的研究碩果累累,但語言處理系統(tǒng)最終需要強大的知識庫支持[2],而詞匯知識庫在自然語言處理系統(tǒng)中,具有非常重要的作用?,F(xiàn)代漢語詞匯知識庫的代表主要有: 以漢語和英語所表示的概念為描述對象,以描述概念與概念之間以及概念所具有的屬性之間的關系為基本內容的知網(wǎng)(HowNet)[2];以真實語料為支撐,包含框架及框架關系的漢語框架語義網(wǎng)(Chinese FrameNet,CFN)[3];由哈爾濱工業(yè)大學信息檢索研究室在《同義詞詞林》[4]的基礎上剔除生僻詞所完成的義類詞典《同義詞詞林(擴展版)》;按照語法功能與意義相結合的準則進行詞語收錄,依照語法功能分布的原則對所收詞語進行歸類,并分類描述每個詞語的相關語法屬性的《現(xiàn)代漢語語法信息詞典》(GKB)[5]。在以上漢語詞匯知識庫中,HowNet及《同義詞詞林(擴展版)》對虛詞語義表達不夠詳細,CFN并未涉及虛詞,GKB在漢語虛詞信息收錄方面則較為薄弱[6],對虛詞僅以語義概念進行區(qū)分,未進行用法的細化。
綜上,以語言學家對虛詞研究的成果為基礎,構建完備的現(xiàn)代漢語虛詞詞匯知識庫是自然語言處理的迫切需求。針對自然語言處理技術及應用研究的實際需要,現(xiàn)代漢語虛詞用法知識庫(the Chinese Function word usage Knowledge Base,CFKB)將漢語虛詞界定為副詞、介詞、連詞、助詞、語氣詞、方位詞,在俞士汶等[6]“三位一體”構建思想的指導下,從現(xiàn)代漢語虛詞的用法入手,構建了包括現(xiàn)代漢語虛詞用法詞典、現(xiàn)代漢語虛詞用法規(guī)則庫以及現(xiàn)代漢語虛詞用法標注語料庫的知識庫,其中語料庫中包含了《人民日報》七個月語料的虛詞用法的標注。以下將對CFKB的總體框架、具體內容、建設過程進行詳細的描述,對現(xiàn)存的問題及基于CFKB虛詞用法自動識別的研究結果進行分析。
2.1 CFKB構建過程
CFKB包含現(xiàn)代漢語虛詞用法詞典、現(xiàn)代漢語虛詞用法規(guī)則庫、現(xiàn)代漢語虛詞用法語料庫三部分,包括副詞、介詞、連詞、助詞、語氣詞、方位詞等六類虛詞。CFKB構建過程如圖1所示。
圖1 CFKB構建過程
在CFKB的構建過程中,先構建詞典及規(guī)則庫;再利用規(guī)則自動標注語料;之后對語料進行人工校對。在校對過程中,對詞典和規(guī)則進行調整。具體如下:
(1) 根據(jù)各類詞性的語法特征,設計虛詞用法詞典的框架;
(2) 依據(jù)《現(xiàn)代漢語語法信息詞典》、人民日報分詞與詞性標注語料以及經(jīng)典文獻(《現(xiàn)代漢語八百詞》、《現(xiàn)代漢語虛詞詞典》、《現(xiàn)代漢語詞典》)確定現(xiàn)代漢語虛詞用法詞典的詞條,填充用法描述、釋義、例句等屬性內容;
(3) 設計用法規(guī)則描述規(guī)范,依據(jù)詞典中用法的描述,人工構建初步的用法規(guī)則庫;
(4) 設計基于規(guī)則的虛詞用法自動識別算法,對《人民日報》已分詞和詞性標注的1998年1月的語料中的虛詞進行了用法自動標注;
(5) 對自動標注后的《人民日報》采用人工雙盲校對,標注用法不一致的加入第三方討論確定最終的標注結果,并形成校對規(guī)范(或完善校對規(guī)范);
(6) 根據(jù)人工校對過程中遇到的問題及已完成的校對語料,完成以下工作。
a. 對用法詞典,根據(jù)實際語料的用法調整用法、用法描述、補充例句等內容;
b. 對規(guī)則庫,根據(jù)自動標注結果和人工校對結果統(tǒng)計自動標注的準確率,根據(jù)準確率調整規(guī)則內容及規(guī)則順序;
(7) 利用新的規(guī)則自動標注《人民日報》2000年1月的語料,重復(5)至(7)完成《人民日報》語料2000年1至6月中的虛詞用法標注。
按照以上過程,從2005至2013年,歷時八年,目前CFKB中虛詞用法詞典、虛詞用法規(guī)則庫及包含七個月《人民日報》語料虛詞標注的語料庫已經(jīng)完成,且已逐步完善,以下對這三部分逐一進行介紹。
2.2 現(xiàn)代漢語虛詞用法詞典
現(xiàn)代漢語虛詞用法詞典的構建是在GKB[5]以及劉云[7]和彭爽[8]的工作基礎上進行的,GKB[5]從語法功能角度對虛詞進行了描述,劉云[7]為副詞、連詞、介詞和語氣詞等設計了相應的描述屬性,對常用虛詞進行了歸類和總結;彭爽[8]研究了現(xiàn)代漢語介詞的語法特點和語法功能,構建了初步的介詞用法詞典。
現(xiàn)代漢語虛詞用法詞典的建設經(jīng)過框架設計、內容填充和反饋修改三個步驟。
(1) 框架設計
現(xiàn)代漢語虛詞用法詞典的框架包含四大類屬性: 標識類、句法功能描述類、范疇類和用法描述類。其中標識類對六大類詞性都是相同的,是對虛詞的每個用法賦以唯一的編碼(ID),作為聯(lián)系規(guī)則庫和語料庫的唯一標識,其編碼形式為“POS_全拼[_tn] [_m] [x] [y]”,其中“POS”為詞性,“全拼”為拼音全稱,“tn”標明同音詞序號,用于對同詞類的同音不同形詞語的編碼區(qū)分,“m”為義項編號(1,2,3,…),“x”為用法編號(a,b,c,…),“y”是對用法的進一步細化編號(a,b,c,…),“[ ]”表示根據(jù)需要可選。對標識類更詳細的描述見文獻[9]。用法描述類、句法功能描述類和范疇類則因詞性而異。如方位詞用法關注前后搭配為“時間”、“處所”、“名”,則將其作為用法詞典中的用法描述類屬性;對于某些副詞而言,位置改變不影響語義的表達,如“他們幾個本來不是一個單位的”和“本來他們幾個不是一個單位的”兩句中的副詞“本來”放在主語之后,或放在主語之前,語義完全相同,因此將“位移”作為副詞的用法描述屬性。對范疇類屬性,連詞關注“關系”(轉折、并列、遞進……),副詞關注“副詞小類”(描摹性、評注性、程度……),介詞則關注其賓語為“體賓、謂賓”等。用法詞典各類詞性框架設計詳見文獻[9-11]。虛詞用法詞典作為一個整體,各類詞性的框架設計既有統(tǒng)一的屬性,也有因其自身特征而不同的屬性,使虛詞用法知識庫在自然語言處理中能夠最大化的發(fā)揮作用。
(2) 內容填充
在確定了詞典中六大類詞性的框架之后,基于劉云和彭爽的工作,主要參考了《現(xiàn)代漢語語法信息詞典》[5]、呂叔湘《現(xiàn)代漢語八百詞》、《現(xiàn)代漢語詞典》(第5版)以及張斌《現(xiàn)代漢語虛詞詞典》等語言資源,并基于《人民日報》1998年1月以及2000年1至6月分詞和詞性標注語料中的虛詞,結合漢語虛詞的實際用法規(guī)律,按用法屬性進行分解,將每一個用法作為詞典中的一條記錄。針對不同學者的不同見解,詞典內容依據(jù)面向自然語言處理的需求,分解、辨析各用法描述,抽取可操作的用法特征進行填充。為跟蹤用法詞典信息來源,分別在相應內容之后用“
圖2 虛詞用法詞典樣例
(3) 反饋修改
在語料校對的過程中,通過反饋和辨析,也對虛詞用法詞典進行了調整。首先是對詞典中一些詞語的增刪,如“又”在語料中與“既”搭配使用時,都標注為連詞,如下句:
這樣/rz 既/c 方便/v 廣大/b 市民/n 參加/v 活動/vn ,/wd 又/c 能/vu 更/d 好/a 地/ui 維持/v 秩序/n ,/wd 確保/v 安全/an 。/wj (20000101-10-014-006/m)
根據(jù)語料中詞性標記,在2009年的版本[10]中收錄為連詞,但經(jīng)過辨析,此例中的“又”語義為“表示幾個動作、狀態(tài)、情況累積在一起”,仍屬于副詞范疇,因此從連詞詞典中刪除“又”。又如原副詞詞典[10]中收錄了“沿途”,而未收錄“沿街”,通過考察語料,“沿街”作為副詞在語料中出現(xiàn),且其用法和性質與“沿途”類似,因此在副詞詞典增加了此詞條。
其次是對已有的用法進行增刪,如副詞“也”表示關聯(lián)時,除了表示遞進、選擇、轉折、假設、讓步、條件、因果等關系外,在語料中還發(fā)現(xiàn)了單純的承接關系,如“也就是在那以后不久,我們從南宮進入國統(tǒng)區(qū),向黃河前進”,因此在詞典中增加了一個新的用法,并通過抽取語料中可操作的用法特征,總結為“也+就是在…,也+正是…,也+正因為…,也+可以說…。
虛詞用法詞典的建設是一個不斷完善和改進的過程, 2007年版本[9]共計虛詞1 914個,用法3 538條;2009年版本[10]共計虛詞1 922個,用法3 622條;目前的版本(2013年)中共計虛詞2 401個,用法4 337條。作為對比,虛詞用法詞典2009年版本[10]各類虛詞的統(tǒng)計結果以及目前版本的詳細用法統(tǒng)計結果在表1中列出。從表1中可看出除助詞外,每類詞的詞語數(shù)及用法數(shù)都有較大的調整。
表1 現(xiàn)代漢語虛詞用法詞典中虛詞用法分布
目前虛詞用法詞典已初具規(guī)模,但其中對于常用虛詞(在語料中出現(xiàn)頻次較高),語言學家對其研究較多,其語義及用法劃分顆粒度較小,而對于不太常用的虛詞或用法較為簡單的虛詞,其語義及用法劃分顆粒度較大。如對于圖2所示副詞“都”的第二個語義“甚至”,就分別給出了四種在這個語義下的特殊框架,d_dou1_2a作為單獨的用法,用法描述為“與‘連’字同用”,如例句“連書包里的東西都淋濕了”;而副詞“足以”僅有一個語義(用法)描述為“修飾動詞、形容詞或動詞短語”。通過用法描述的比較,發(fā)現(xiàn)二者在用法分割粒度上有較大的差異,是否有必要統(tǒng)一劃分標準,也是下一步虛詞用法詞典的完善中需要考慮的問題。
2.3 現(xiàn)代漢語虛詞用法規(guī)則庫
在初步完成現(xiàn)代漢語虛詞用法詞典的基礎上,規(guī)則庫的建設也分為三步,即確定規(guī)則描述形式及規(guī)范、規(guī)則構建及反饋修改。
(1) 確定規(guī)則描述形式及規(guī)范
根據(jù)虛詞用法特征的不同表現(xiàn),抽取可操作的判斷條件特征,包括句首(F)、左搭配(M)、左緊鄰(L)、右緊鄰(R)、右搭配(N)以及句末(E),以有序的BNF形式構建了現(xiàn)代漢語虛詞用法規(guī)則庫。識別規(guī)則的一般描述形式為:
@
其中,“@”為規(guī)則起始標志符;“^”為各特征定義連接符,各個特征之間默認為合取關系;“ID”為所識別的用法的編碼ID;“→”表示定義為;“[ ]”表示可選內容,即一個用法可用六個特征的一個或多個進行描述;“<詞>”表示該特征位置上出現(xiàn)的詞語;“a、v、n”等表示該特征位置上出現(xiàn)的詞性。
除了一般描述形式中的六大特征之外,還引入了框架及語義類描述,有以下三種形式:
a.同詞或同詞性的語境,用“A”和“B”表示,如
$不
@
@
b. 前后詞有包含關系的,用“T”和“S”表示,以“%”作為標記,如:
$不
@
c.引入語義類,語義類保存在文件中,規(guī)則中引用語義類文件,以一對單引號作為標記,如:
$十分
@
上例對“十分”的規(guī)則描述中,將 “愛、愁、擔心、惦記、發(fā)愁、害怕、恨、后悔、懷念、懷疑、嫉妒、……”心理動詞語義類寫入文件“xinli_v.txt"中,在使用規(guī)則識別時調用。
(2) 規(guī)則構建
虛詞用法規(guī)則是依據(jù)已建立的虛詞詞典中的用法描述,以較高自動識別準確率為出發(fā)點,人工進行構建的。對比較復雜的用法,一個用法可以用多條規(guī)則來描述。如圖2副詞“都”的2b用法描述為“‘都’前后用同一個動詞(前一肯定,后一否定)。A~A(不|沒|沒有|未|
$都
@
@
@
@
@
@
@
@
@
@
@
@
(3) 反饋修改
根據(jù)校對后的語料對規(guī)則庫的修改主要采用兩種方式。
a. 人工方式。對于規(guī)則內容,對比人工校對后語料和規(guī)則自動標注的語料,依據(jù)每個用法規(guī)則自動標注的準確率,分析標注錯誤或規(guī)則無法識別的句子,從中抽取可以形式化的規(guī)律,修改規(guī)則。對于規(guī)則排序,考慮到基于規(guī)則自動識別虛詞用法的需要,同一虛詞的多條用法規(guī)則并不是以用法編碼的字母序排列,參考用法規(guī)則之間的互相覆蓋程度以及虛詞各用法在真實文本語料中的分布概率,規(guī)則描述較為清晰完備、自動識別準確率較高的規(guī)則優(yōu)先級別較高,排在前面。
b. 自動方式。主要針對規(guī)則無法識別的用法(自動標注為
通過多次修改和調整,目前已完成的規(guī)則庫包含副詞2 456條規(guī)則,介詞385條規(guī)則,連詞747條規(guī)則,助詞165條規(guī)則,語氣詞182條規(guī)則,方位詞761條規(guī)則。
盡管在確定規(guī)則描述形式時盡可能的將所有可以形式化的全部描述出來,由于規(guī)則自身僅能處理可形式化的用法描述,目前的規(guī)則庫仍然有一定的缺憾。如用法描述中出現(xiàn)的“修飾動詞短語”、“修飾小句”等,“動詞短語”中在動詞之前可以有若干修飾成分,很難形式化,而“小句”也沒有統(tǒng)一的框架,對于這一類問題,規(guī)則是無法準確描述的,因此在以后的建設中采用其他的形式對其進行補充。
2.4 現(xiàn)代漢語虛詞用法語料庫
虛詞用法語料庫是對約有876萬余詞的分詞與詞性基本標注語料庫(即1998年1月和2000年1至6月的《人民日報》語料)采用基于規(guī)則的虛詞自動標注的基礎上,分別由來自語言學和計算機專業(yè)的人員進行背靠背人工標注,根據(jù)虛詞用法詞典用法描述,對語料中出現(xiàn)的虛詞用法標注進行確認和修改,再對雙方不一致的用法標注加入第三方討論確定結果。為了保證語料庫中用法標注的一致性,根據(jù)標注的過程及討論的結果確定某一虛詞用法的標注準則,即用法分割原則,確保標注均按照這個原則進行。
標注的結果是在相應的虛詞后標上用法編碼,已完成虛詞用法標注的《人民日報》語料標注樣例如下:
20000401-01-001-006/m 中國/ns 和/c
在進行虛詞用法標注的過程當中,也對原有的分詞和詞性標注進行了辨析,若發(fā)現(xiàn)原語料中的分詞或詞性標注不合適的地方,用“@”在語料中標出,然后分情況處理。除了校對過程中人工發(fā)現(xiàn)詞性錯誤之外,韓英杰等[13]對規(guī)則標注時自動標注為
在《人民日報》1998年1月及2000年1至6月這七個月語料中,由于助詞“的”出現(xiàn)頻次較高,共計約42萬次,完成部分用法標注即有足夠大規(guī)模的訓練語料,因此只完成了五個月語料中約30萬次助詞“的”的用法標注。除了2000年2月及3月語料中助詞“的”未標注用法外,目前已完成了《人民日報》七個月語料中其他全部的副詞、介詞、連詞、語氣詞、助詞、方位詞的用法標注,共計標注約142萬詞次,形成了現(xiàn)代漢語虛詞用法標注語料庫。
雖然語料是以雙盲校對為基礎,并且制定了用法分割規(guī)范,但語料中虛詞用法的語境千差萬別,不同人的理解也會有差異,所完成的大規(guī)模的虛詞用法標注語料中,很難保證所有的用法的標注都是完全一致的,因此對于語料庫中虛詞用法標注一致性的檢查也是下一步需要解決的問題。
虛詞用法自動識別是虛詞用法知識庫構建及應用的非常重要的一部分,對它的研究主要采用三種方式: 基于規(guī)則的虛詞用法自動識別,基于統(tǒng)計的虛詞用法自動識別,規(guī)則與統(tǒng)計相結合的虛詞用法自動識別。
3.1 基于規(guī)則的虛詞用法自動識別
基于規(guī)則的虛詞用法標注首先讀取語料,將語料文本內容切分成一個個句子(由于有些連詞是起到連接句子的作用,所以會以段落為單元進行處理,詳見周麗娟等[14]),按待標注虛詞查找規(guī)則,調用相應的六個類型(規(guī)則中的F、M、L、R、N、F)的匹配器及特殊框架匹配器解析用法規(guī)則,進行標注。基于規(guī)則的虛詞用法自動識別的具體設計及實現(xiàn)詳見文獻[15]及文獻[16]。
規(guī)則庫在標注語料的過程中進行了大量的調整和改進,相應的形式化規(guī)則描述效果也有了較大的改善,從而提高了虛詞用法規(guī)則描述的準確性及基于規(guī)則的虛詞用法自動識別的準確率,周麗娟等[14]、周溢輝等[17]、趙丹等[18]及韓英杰等[19]分別對基于規(guī)則的連詞、語氣詞、方位詞和助詞的用法自動識別過程進行了研究。目前,利用虛詞用法規(guī)則庫,對《人民日報》1998年1月及2000年1至6月分詞與詞性標注語料中各類虛詞用法自動識別的準確率分別為: 副詞84.36%,介詞71.71%,連詞 83.68%,助詞40.71%,語氣詞78.85%,方位詞88.14%。其中助詞準確率較低的原因是由于助詞中“的”用法復雜(共39種),規(guī)則描述困難,且在語料中出現(xiàn)頻次較高,它的識別準確率較低,從而影響了助詞整體的準確率。
規(guī)則識別準確率的高低取決于規(guī)則描述的是否精準,由于規(guī)則描述中遇到的問題,因此也限制了基于規(guī)則的虛詞用法自動識別的應用。
3.2 基于統(tǒng)計的虛詞用法自動識別
針對規(guī)則識別的不足,利用經(jīng)過人工校對的虛詞用法語料庫作為訓練語料,對一些多用法的常用虛詞,采用支持向量機(Support Vector Machine, SVM)、最大熵(Maximum Entropy, ME)以及條件隨機場(Conditional Random Fields, CRF)等統(tǒng)計模型,對虛詞用法進行基于統(tǒng)計的自動識別研究。
由于每一個虛詞的用法都有較大差異,因此采用統(tǒng)計的方法對虛詞用法自動識別,每一個虛詞要訓練一個模型,昝紅英等在文獻[20]、[21]中分別對副詞“就”和“才”的自動識別進行了研究,采用統(tǒng)計方法的準確率分別高出規(guī)則方法約42%和29%。文獻[22]中采用統(tǒng)計方法對介詞“把”的用法自動識別進行了研究。昝紅英等[23]和張坤麗等[24-25]分別對常用連詞、副詞和介詞的用法自動識別進行了研究,采用統(tǒng)計方法進行自動識別,相較于規(guī)則自動識別結果,宏平均準確率分別高出規(guī)則約28%、27%、30%。
3.3 規(guī)則與統(tǒng)計相結合的虛詞用法自動識別
雖然從總體上來講基于統(tǒng)計的用法自動識別的效果優(yōu)于基于規(guī)則的,但是通過對虛詞每一個用法識別結果分析表明,在某些用法上基于規(guī)則的效果優(yōu)于基于統(tǒng)計的方法,因此考慮采用規(guī)則和統(tǒng)計相結合的方法對虛詞用法進行自動識別。
張靜杰等[26]通過考察標注語料中副詞“都”的分布率,將每個用法單獨使用規(guī)則及單獨使用統(tǒng)計方法的準確率作為參考,采用規(guī)則與統(tǒng)計相結合的方法,進行用法自動識別研究,準確率達到98.54%,分別高出規(guī)則方法和統(tǒng)計方法16.54%和8.92%。周麗娟等[27]對三個月《人民日報》語料中的多用法連詞采用不同的規(guī)則與統(tǒng)計相結合的方式進行用法自動識別研究,準確率相比于規(guī)則和統(tǒng)計方法均有一定的提高。昝紅英等[28]采用規(guī)則與統(tǒng)計相結合的方法對常用介詞的用法進行了自動識別研究,宏平均準確率為82.02%,分別高出規(guī)則方法和統(tǒng)計方法14.64%和5.22%。
現(xiàn)代漢語虛詞知識庫的研究成果可直接應用于自然語言理解中,已經(jīng)初步探討虛詞用法在短語結構分析、句法分析、信息抽取及語法偏誤自動識別中的作用。在短語結構分析方面,昝紅英等[29]將連詞用法識別的結果引入到連詞短語結構分析中,以2000年1月《人民日報》為實驗語料,分別采用規(guī)則和統(tǒng)計的方法對連詞結構進行識別,相較于不引入連詞用法特征,采用統(tǒng)計方法識別準確率最高能提高4%左右;在句法分析方面,昝紅英等[10]初步探索了虛詞用法標注對依存句法分析結果的影響,張靜杰[30]、龐熠雅[31]將介詞和連詞用法識別的結果分別引入到哈工大LTP平臺依存句法分析和Stanford Parser短語結構句法分析的后處理中,提高了句法分析的準確性;在信息抽取方面,昝紅英等[32]將介詞用法識別結果引入到會議事件元素的抽取中,相比于已有方法的最好結果,準確率能提高9%左右;在語法偏誤識別方面,韓英杰等[33]將連詞用法引入到語法偏誤分析中,能夠自動識別連詞的誤加、誤代和遺漏等部分語法偏誤。
以上僅是對現(xiàn)代漢語虛詞知識庫應用的一些初步的探討,目前,基于規(guī)則和基于統(tǒng)計的漢語虛詞用法自動識別算法能夠對文本中出現(xiàn)的虛詞進行用法的自動標注,結合漢語虛詞用法詞典,除了在以上領域外,還可以在機器翻譯、問答系統(tǒng)等自然語言處理領域取得一定的應用效果,另外在對外漢語教學中針對漢語虛詞的語義理解、同義及近義虛詞的辨析、介詞結構及連詞結構的固定搭配以及虛詞偏誤的自動分析等也可以起到一定的輔助學習作用。
“三位一體”的現(xiàn)代漢語虛詞知識庫的建設汲取了語言學家對虛詞研究的精華,借鑒了其他漢語詞匯知識庫建設的經(jīng)驗,結合了真實語料,目前已經(jīng)完成了副詞、介詞、連詞、助詞、語氣詞、方位詞這六大類詞性的現(xiàn)代漢語虛詞用法詞典和虛詞用法規(guī)則庫,完成了包含七個月《人民日報》約142萬詞次虛詞用法標注的語料庫,并依據(jù)規(guī)則庫和語料庫對虛詞用法的自動識別進行了研究,對虛詞知識庫的應用進行了初步的探討。
雖然現(xiàn)代漢語虛詞知識庫已經(jīng)過多年的建設,已逐步趨于完善,但解決詞典、規(guī)則及語料庫中存在的問題是構建面向自然語言處理的精準虛詞用法知識庫需要努力的方向。除此之外,基于現(xiàn)代漢語虛詞用法知識庫的應用探討,也是進一步工作的方向。
[1] 呂叔湘,朱德熙.語法修辭講話[M].沈陽: 遼寧教育出版社, 2002.
[2] 董振東.知網(wǎng)[DB/OL].http://www.keenage.com.
[3] You L P,Liu K Y.Building Chinese FrameNet Database[C]//Proceedings of 2005 IEEE NLPKE,2005: 301-306.
[4] 梅家駒,竺一鳴,高蘊琦,等.同義詞詞林[M].上海: 上海辭書出版社,1983.
[5] 俞士汶,朱學鋒,王惠,等.現(xiàn)代漢語語法信息詞典詳解[M].北京: 清華大學出版社,1998.
[6] 俞士汶,朱學鋒,劉云.現(xiàn)代漢語廣義虛詞知識庫的建設[J].漢語語言與計算學報,2003,13(1):89-98.
[7] 劉云.漢語虛詞知識庫的建設[R].博士后出站報告.北京:北京大學,2004.
[8] 彭爽.現(xiàn)代漢語介詞知識庫的建設與相關研究[R].博士后出站報告.北京:北京大學,2006.
[9] 昝紅英,張坤麗,柴玉梅,等.現(xiàn)代漢語虛詞知識庫的研究[J].中文信息學報,2007,21(5):107-111.
[10] 昝紅英,朱學鋒.面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構建[J].當代語言學,2009,11(2):124-135.
[11] Zan H Y, Zhang K L, Zhu X F, et al. Research on the Chinese Function Word Usage Knowledge Base[J]. International Journal on Asian Language Processing, 2011, 21(4):185-198.
[12] 吳云鵬,昝紅英.基于錯誤驅動的現(xiàn)代漢語方位詞用法規(guī)則的自動更新[C].第五屆全國青年計算語言學研討會論文集,武漢: 武漢大學,2010: 43-49.
[13] 韓英杰,張坤麗,昝紅英,等.基于助詞用法的漢語詞性、分詞錯誤自動發(fā)現(xiàn)[J].計算機應用研究,2011,28(4):1318-1321.
[14] 周麗娟,張坤麗,袁應成,等.基于規(guī)則的現(xiàn)代漢語連詞用法自動識別研究[C].第五屆全國青年計算語言學研討會論文集,武漢: 武漢大學,2010: 96-102.
[15] 劉銳,昝紅英,張坤麗.現(xiàn)代漢語副詞用法的自動識別研究[J].計算機科學,2008,35(8A):172-174.
[16] 袁應成,昝紅英,張坤麗,等.基于規(guī)則的虛詞用法自動標注算法設計與系統(tǒng)實現(xiàn)[C].第十一屆漢語詞匯語義學研討會論文集,蘇州:蘇州大學,2010:163-169.
[17] 周溢輝,昝紅英,柴玉梅,等.基于主觀認知的漢語助詞和語氣詞區(qū)分問題研究[C].第十一屆漢語詞匯語義學研討會論文集,蘇州:蘇州大學,2010:382-388.
[18] 趙丹,張坤麗,昝紅英,等.面向機器識別的現(xiàn)代漢語方位詞用法形式化描述研究[C].第十一屆漢語詞匯語義學研討會論文集,蘇州:蘇州大學,2010:298-304.
[19] 韓英杰,昝紅英,張坤麗,等.基于規(guī)則的現(xiàn)代漢語常用助詞用法自動識別[J].計算機應用,2011,31 (12):3271-3274.
[20] 昝紅英,張軍琿,朱學鋒,等.副詞“就”的用法及其自動識別研究[J].中文信息學報,2010,24(5):10-16.
[21] Zan H Y, Zhang J H. Studies on Automatic Recognition of Chinese Adverb CAI’s usages Based on Statistics[C]//Proceedings of the 5th International Conference on Natural Language Processing and Knowledge Engineering(NLPKE2009).2009:393-397.
[22] Mu L L,Pang Y Y,Zan H Y.Studies on Automatic Recognition of Preposition BA’s Usages Based on Statistics[C]//Proceedings of IEEE CCIS2012,2012:1875-1879.
[23] Zan H Y, Zhou L J, Zhang K L. Studies on the Automatic Recognition of Modern Chinese Conjunction Usages[C]//Proceedings of Lecture Notes in Computer Science(Advanced Intelligent Computing).2011:472-479.
[24] 張坤麗,趙丹,昝紅英,等.常用現(xiàn)代漢語副詞用法自動識別研究[J].中文信息學報,2012,26(6):65-71.
[25] Zhang K L, Zan H Y, Han Y J, et al. Studies on Automatic Recognition of Contemporary Chinese Common Preposition Usage[C]//Proceedings of CLSW2012.Wuhan,2012:219-229.
[26] 張靜杰,昝紅英.副詞“都”用法自動識別研究[J].北京大學學報(自然科學版),2013,49(1):165-169.
[27] Zhou L J,Zan H Y.Studies on a Hybrid Way of Rules and Statistics for Chinese Conjunction Usages Recognition[C].第十四屆漢語詞匯語義學研討會論文集.鄭州:鄭州大學,2013: 356-361.
[28] 昝紅英,張騰飛,張坤麗. 規(guī)則與統(tǒng)計相結合的介詞用法自動識別研究[J].計算機工程與設計,2013,34(6):2152-2157.
[29] 昝紅英,周麗娟,張坤麗.基于用法的現(xiàn)代漢語連詞結構短語識別研究[J].中文信息學報,2012,26(6):72-78.
[30] 張靜杰.虛詞用法自動識別及其在依存句法分析中的應用研究[D].鄭州大學碩士學位論文,2013.
[31] 龐熠雅.介詞、連詞用法在短語結構句法分析中的應用研究[D].鄭州大學碩士學位論文,2013.
[32] 昝紅英,張騰飛,林愛英.基于介詞用法的事件信息抽取研究[J].計算機工程與設計,2013,34(7):2570-2574.
[33] 韓英杰,昝紅英,吳泳剛,等.連詞用法在對外漢語教學語法偏誤自動識別中的應用研究[C].第十四屆漢語詞匯語義學研討會論文集,鄭州:鄭州大學,2013: 13-18.
Survey of the Chinese Function Word Usage Knowledge Base
ZHANG Kunli, ZAN Hongying, CHAI Yumei, HAN Yingjie, ZHAO Dan
(College of Information Engineering, Zhengzhou University, Zhengzhou, Henan 450001, China)
The contemporary Chinese function words with their distinct usages play complex syntax roles. The study on Chinese function words is of great significance in Chinese syntax analysis and semantic understanding. This paper firstly reviews the current research on Chinese function words and lexical knowledge base. Then it describes a triune construction on the knowledge base of modern Chinese function words i.e. the usage dictionary, the usage rule and the usage-annotated corpus. With the the finished knowledge base so far, the automatic usage recognition of the Chinese function words is investigated, with other potential applications discussed.
function word usage knowledge base; function word usage dictionary; function word usage rule base; function word usage corpus
張坤麗(1977—),博士研究生,講師,主要研究領域為中文信息處理。E?mail:ieklzhang@zzu.edu.cn昝紅英(1966—),博士,教授,主要研究領域為中文信息處理。E?mail:iehyzan@zzu.edu.cn柴玉梅(1964—),碩士,教授,主要研究領域為機器學習,自然語言處理。E?mail:iehyzan@zzu.edu.cn
1003-0077(2015)03-0001-08
2013-04-08 定稿日期: 2013-09-10
國家自然科學基金(60970083,61272221);模式識別國家重點實驗室開放課題基金;河南省教育廳科學技術研究重點項目(12B520055,13B520381);國家高技術研究發(fā)展863計劃(2012AA011101);河南省科技廳科技攻關計劃項目(132102210407)
TP391
A