盛晨 孔芳 周國棟
蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院自然語言處理實驗室, 蘇州 215006; ? 通信作者, E-mail: kongfang@suda.edu.cn
隨著人工智能如火如荼地發(fā)展, 為實現(xiàn)無障礙人機智能交互的終極目標(biāo), 自然語言處理作為其至關(guān)重要的分支, 承擔(dān)起語言理解的重任[1]。省略作為一種常見現(xiàn)象廣泛存在于漢語表述, 其省略成分稱為零元素(zero pronoun)。準(zhǔn)確識別出該零元素并理解作者的真實意圖, 是自然語言處理面臨的重大挑戰(zhàn)任務(wù)之一。
到目前為止, 盡管這些有關(guān)中文零元素的研究已取得一定的成果, 但其效果仍不盡如人意。首先,漢語的復(fù)雜性決定了該任務(wù)的難度, 大量的長句以及復(fù)雜的句法帶來巨大的挑戰(zhàn)。此外, 語料資源的稀缺也是限制中文零元素發(fā)展的重要原因之一。
本文針對上述問題, 基于篇章理解層面, 對中文省略現(xiàn)象進行深入的探究, 提出篇章零元素的概念。在此基礎(chǔ)上, 完成中文篇章零元素語料庫構(gòu)建,并進行語料庫相關(guān)的統(tǒng)計分析。
近年來, 中文零元素現(xiàn)象備受關(guān)注, 針對中文的零元素識別與消解任務(wù)取得一系列的研究成果。然而, 這些研究主要側(cè)重于方法, 對語料庫的構(gòu)建則考慮較少。
Zhao 等[2]給出一個完整的基于機器學(xué)習(xí)的中文零指代識別及消解方案, 并提出一套有效的特征集合。Yang 等[3]基于 CTB 語料對零元素識別進行研究, 采用序列化標(biāo)注模型來識別句中存在的零元素。Kong 等[4]給出一個基于樹核函數(shù)的中文零元素消解的完整框架, 將中文零指代消解任務(wù)清晰地劃分成 3 個子任務(wù): 零元素識別、待消解項識別和零元素消解, 分別給出每一個子任務(wù)適用的結(jié)構(gòu)化特征集。Chen 等[5-7]首次給出完整的端到端的全自動狀況下的中文零指代消解平臺, 并提出一組更有效的句法和上下文特征; 而后, 為了避免有監(jiān)督學(xué)習(xí)下對語料的依賴性, 在之前的工作基礎(chǔ)上, 又給出一個無監(jiān)督方法的生成式模型, 取得較好的性能。
在語料資源方面, 得到大眾認可的中文零元素語料是 OntoNotes 語料[8]。該語料是由美國眾多科研機構(gòu)聯(lián)合創(chuàng)立的權(quán)威語料庫, 存在中、英、阿拉伯 3 種標(biāo)注語言。該語料的中文部分標(biāo)注了漢語中主語位置的零元素省略及其指代鏈, 為目前已有的中文零元素研究工作提供資源支持。
首先, 漢語的語言特點決定了篇章視角研究的必要性。從形式上看, 零元素被視為句中省略的詞。然而, 從語義理解的角度來看, 省略的語義成分卻是依賴于篇章的上下文表述。也就是說, 零元素并非句子內(nèi)部詞匯成分, 而是連貫上下文中特殊語義表述的載體。零元素體現(xiàn)的不是句子內(nèi)部的語言特點, 而是以篇章為單位的語義表達方式。在省略表述過程中, 只有先在前文中被提及, 后文中才可以省略, 并且前后文間必然存在相應(yīng)的語義邏輯關(guān)系。由此可見, 篇章視角下的中文零元素研究工作有其必要性。
其次, 語料庫資源的唯一性限制了研究的進展。中文省略表述屬于篇章的范疇, 然而 OntoNotes 語料標(biāo)注卻傾向于句法層面, 以致目前大多數(shù)相關(guān)研究均是基于句法層面進行的: 研究對象是句子,所選特征也約束在詞法和句法特征之內(nèi)。眾所周知, 語言是文化的載體, 語言的不同反映文化的差異。西方文化特點決定其語言(英語)的表述更傾向于直來直去的方式, 大多時候一句話就可以清晰地表述說話者的意圖。然而, 中國的文化特點在于含蓄, 其語言表述方式也與英語大不相同。中文表述過程中, 說話者的意圖往往經(jīng)過多層鋪墊和轉(zhuǎn)折加以修飾, 委婉地表達出來。由此可見, 以句子為單位的零元素標(biāo)注方式在西方語言的語料上取得令人滿意的成果, 但對于中文語料的研究, 這種標(biāo)注方式不盡合理。
此外, 從篇章視角來看, OntoNotes 語料標(biāo)注存在不足之處。Li 等[9]參考修辭結(jié)構(gòu)理論(rhetorical structure theory, RST)[10]以及賓州篇章樹庫(Penn Discourse Tree Bank, PDTB)[11]體系, 提出基于連接依存樹的漢語篇章結(jié)構(gòu)表示體系, 并標(biāo)注了中文篇章樹庫(Chinese Discourse Treebank, CDTB)。以基本篇章單元(elementary discourse unit, EDU)作為葉子節(jié)點, 修辭關(guān)系作為非葉子節(jié)點, 自底向上構(gòu)成一棵樹結(jié)構(gòu), 用來表示漢語篇章結(jié)構(gòu)。通過對CDTB 與 OntoNotes 重疊語料部分的統(tǒng)計, 我們發(fā)現(xiàn)以下問題。
1)部分零元素標(biāo)注不存在對應(yīng)的指代鏈標(biāo)注(chain), 占比約 12.9%。通過對這部分語料的逐一人工分析, 發(fā)現(xiàn)該部分零元素標(biāo)注大多僅是為了句法結(jié)構(gòu)的嚴(yán)謹(jǐn)性, 對于篇章語義的理解影響無關(guān)緊要。
2)盡管已給出零元素對應(yīng)的指代鏈標(biāo)注, 然而其指代鏈上的指代項均為零元素, 這部分占比為5.2%。通過分析, 此處省略的成分較特殊, 一般為大眾熟知的常識內(nèi)容, 如“中國”此類概念性實體。
3)統(tǒng)計結(jié)果顯示, 大約有 16.8%的零元素標(biāo)注雖然存在有效指代關(guān)系, 但該關(guān)系并不在篇章內(nèi)部。也就是說零元素與其先行詞不在同一個篇章關(guān)系之中。此類指代屬于跨篇章的指代關(guān)系, 即便是漢語語言學(xué)家進行判斷, 也存在較大的歧義性, 不屬于本文研究的范圍。
4)該語料存在一定的漏標(biāo)現(xiàn)象, 如例1所示。
例1[專家們認為, 在中國的五個經(jīng)濟特區(qū)中,的地理位置、資源條件、經(jīng)濟發(fā)展?fàn)顩r較為特殊,應(yīng)進一步擴大對外開放,率先實現(xiàn)與亞太區(qū)域經(jīng)濟一體化和國際貿(mào)易自由化的對接。]e3
例1選自 chtb_0018 文檔, 零元素用φ標(biāo)注, 并與其先行詞用特殊字體標(biāo)注(加粗、下劃線)。分隔符“|”切分段落為對應(yīng)基本篇章單元序列, 構(gòu)成如圖 1 所示的篇章修辭結(jié)構(gòu)關(guān)系: e2 與 e3 構(gòu)成條件關(guān)系, 進一步與 e1 構(gòu)成因果關(guān)系。例1 中段落表述的完整語義是: “專家們認為由于……, 所以應(yīng)該讓進一步擴大對外開放, 才能讓率先實現(xiàn)……”。不僅在 e2 中存在語義省略, e3 內(nèi)部也存在語義省略。OntoNotes 語料僅給出前一處的標(biāo)注而忽略了后一處。
圖1 例1對應(yīng)篇章層次化結(jié)構(gòu)Fig.1 Discourse structure of example 1
綜上所述, 一方面中文零元素語料庫資源緊缺,另一方面, 唯一被認可的語料也存在一系列的欠缺。因此, 構(gòu)建基于篇章視角的零元素語料庫成為研究過程中不可或缺的一步。
依照零元素是否承擔(dān)所在 EDU 主干語義成分,將其分為兩大類。漢語篇章結(jié)構(gòu)表示體系對 EDU定義如下: 至少包含一個謂語部分, 至少表達一個命題[9]。我們認為 EDU 內(nèi)部的主、謂(賓)結(jié)構(gòu)承擔(dān)其主干語義。例如, 若零元素作為 EDU 主干語義成分(例如主語成分), 則定義該零元素為篇章主干性零元素; 否則, 認為該零元素作為 EDU 主干的修飾性成分(例如主語的修飾成分), 定義該零元素為篇章修飾性零元素。
例2[國家統(tǒng)計局一九九六年全球經(jīng)濟將繼續(xù)保持增長, ]e1 | [這種對中國的發(fā)展十分其面臨很多發(fā)展機遇。]e3
如例2 所示, 斜體、雙下劃線字體標(biāo)注 EDU 的驅(qū)動謂詞, 加粗、下劃線字體標(biāo)注零元素φ及其指代先行詞。φ所在 EDU 對應(yīng)主干語義:使其面臨更多的發(fā)展機遇”。該零元素承擔(dān) EDU內(nèi)部謂詞的主語成分, 符合篇章主干性零元素的定義。
例3是一項振興上海, 建設(shè)現(xiàn)代化經(jīng)濟、貿(mào)易、金融中心的跨世紀(jì)工程, ]e1 | [因此大量出現(xiàn)的是以前不曾遇到過的新情況、新問題。]e2
例3 中零元素φ所在 EDU 表述主干語義為“大量出現(xiàn)的是……的新情況、新問題”, φ作為賓語“新情況、新問題”的修飾成分, 屬于篇章修飾性零元素。與篇章主干性零元素相比, 此處省略成分對篇章關(guān)系構(gòu)建的影響較小, 對 EDU 內(nèi)部語義關(guān)系抽取以及局部句法分析影響較大。準(zhǔn)確地識別該零元素有助于明確局部語義成分, 減少復(fù)雜的修飾性成分對篇章理解帶來的噪聲。
我們從賓州樹庫語料(CTB 6.0)中抽取 325 篇文檔(chtb0001-chtb0325)作為語料標(biāo)注資源。采用該語料的原因主要有以下幾方面。
1)OntoNotes 中存在該部分對應(yīng)語料。自其發(fā)布以來, OntoNotes 語料在多類自然語言處理任務(wù)中得到廣泛應(yīng)用, 具有較高的認可度。在該語料上完成篇章零元素標(biāo)注, 有利于與已有的研究工作進行對比。
2)這部分語料對應(yīng)的篇章修辭關(guān)系語料已經(jīng)構(gòu)建。本課題組結(jié)合 PDTB 與 RST 體系的優(yōu)勢, 將漢語篇章結(jié)構(gòu)表示成一棵樹結(jié)構(gòu), 并基于上述 CTB 語料發(fā)布了對應(yīng) CDTB 標(biāo)注語料。該語料可提供本研究所需的篇章體系結(jié)構(gòu)以及對應(yīng)的篇章標(biāo)注。
3)該部分語料的來源對應(yīng)為新華社的新聞?wù)Z料。與其他領(lǐng)域(例如微博、推特、醫(yī)學(xué)領(lǐng)域等)相比, 作為大眾化書面語言, 新聞?wù)Z料顯得更整齊,其表述更符合中文語法規(guī)范, 適合初步研究。
4)CTB 語料包含豐富的詞法、句法等標(biāo)注資源, 可以為后期的研究提供不同層次的特征。
3.3.1 中文篇章零元素標(biāo)注策略
基于漢語篇章結(jié)構(gòu)理論體系[9], 作為篇章的基本單位, EDU 上層對應(yīng)的篇章關(guān)系反映全局的語義結(jié)構(gòu)信息, 下層對應(yīng)的句法信息則可有效地輔助理解局部語義。此外, 零元素對應(yīng)的語言成分也大多存在于省略之前。上述特點決定了如下的標(biāo)注策略: 輸入與一個段落對應(yīng)的篇章關(guān)系, 以 EDU 為標(biāo)注單位, 向上考慮篇章修辭關(guān)系, 向下結(jié)合句法結(jié)構(gòu), 判斷其內(nèi)部是否包含零元素。如果存在零元素,在 EDU 內(nèi)部定位該零元素, 并向前搜索其對應(yīng)的語言成分, 進而完成篇章零元素標(biāo)注。
3.3.2 人機結(jié)合的語料標(biāo)注流程
標(biāo)注工作由一名導(dǎo)師與兩名研究生合作完成,整個標(biāo)注過程分為 3 個階段。第 1 階段, 為保證語料標(biāo)注的質(zhì)量以及通用性, 我們制定初步的標(biāo)注規(guī)范, 開發(fā)相應(yīng)的標(biāo)注工具。第 2 階段, 依照初步的標(biāo)注規(guī)范, 所有標(biāo)注者分別標(biāo)注相同的 20 篇文檔(111 個段落, 237 個句子), 然后針對上述標(biāo)注進行討論, 討論涉及零元素的定義、先行詞類型、標(biāo)注方式以及標(biāo)注屬性等內(nèi)容。通過小組內(nèi)的討論, 得到最終的標(biāo)注規(guī)范, 并且完成所有的語料標(biāo)注。第 3 階段, 對最終的標(biāo)注文檔逐一校對, 修正或刪除不合理項, 形成完整的可發(fā)布的中文篇章零元素語料庫。
為了簡化工作量, 提高標(biāo)注效率以及標(biāo)注一致性, 我們設(shè)計開發(fā)了零元素標(biāo)注平臺, 工作流程如圖 2 所示。首先導(dǎo)入生語料, 利用計算機輔助工具生成可視化的篇章結(jié)構(gòu)以及對應(yīng)的句法結(jié)構(gòu); 然后通過人工分析, 識別 EDU 內(nèi)部零元素, 并進行相關(guān)屬性標(biāo)注, 用 XML 文件格式保存標(biāo)注結(jié)果; 最后對 XML 文件進行統(tǒng)計分析, 得出統(tǒng)計結(jié)果。
3.4.1 標(biāo)注總則
首先通過一個例子來介紹篇章零元素標(biāo)注的具體內(nèi)容。
例4[崇明是中國第三大島, ]e1 | [具有優(yōu)越的地理條件和悠久的歷史, ]e2 | [改革開放以來, 崇明縣的經(jīng)濟建設(shè)和對外開放發(fā)展迅猛, ]e3 | [外商投資企業(yè)不斷增多, ]e4 | [進出口貨物大量增加, ]e5 | [是中國綜合實力百強縣之一。]e6
如例4 所示, 分隔符“|”將段落切分為 6 個 EDU并構(gòu)成圖 3 所示的篇章結(jié)構(gòu)。對 e1 進行人工語義判斷, 其主、謂、賓結(jié)構(gòu)清晰, 不存在省略成分; 繼續(xù)判斷 e2, 存在主語省略, 其表達的完整語義是具有優(yōu)越的地理條件和悠久的歷史”在此標(biāo)注相應(yīng)零元素及其指代先行詞。重復(fù)上述過程, 依次對段落中其他的 EDU 依次進行判斷、標(biāo)注, 形成最終對應(yīng)的XML標(biāo)注文檔。
3.4.2 篇章零元素標(biāo)注
<Zero> //零元素標(biāo)簽
ZID=[1…N]//零元素ID
ZOffset=[0…N]//所在段落中的位置
Classify=[***]//劃分零元素類別
<CorefEDU Position=[a…b]Text=[***]> //指代先行詞對應(yīng)EDU標(biāo)簽
<ZeroEDU Position=[a…b]Text=[***]> //零元素所在EDU標(biāo)簽</Zero>
例5<Zero ZID=“1” ZOffset=“66” Classify=“VPType”><CorefEDU Position=“22…66”><Text>上海浦東</Text></CorefEDU><ZeroEDU Position=“67…79”><Text>確保了浦東開發(fā)的有序進行。</Text></ZeroEDU></Zero>
例5 所示為語料標(biāo)注文檔實例, 相關(guān)說明如下。
Zero 中的 ZID 表示零元素在標(biāo)注文檔對應(yīng)的唯一標(biāo)識號, 起始為 1, 遞增標(biāo)注, 增幅為 1。
Zero 中的 ZOffset 表示零元素所在段落內(nèi)部的位置, 與 CDTB 語料庫位置標(biāo)注保持一致。
Zero 中的 ZeroEDU 表示零元素所在 EDU 的信息, Position 記錄該 EDU 在段落內(nèi)部的起始位置和終止位置, Text 記錄帶有零元素標(biāo)記的文本(論文中用φ來指代零元素, 語料中是用[zero]標(biāo)出的)。CorefEDU 標(biāo)注參考 ZeroEDU 的格式記錄, 零元素指代先行詞對應(yīng)EDU的信息。
Zero 中的 Classify 表示當(dāng)前零元素的子類別,存在 4 類取值, 分別為 IPType, VPType, MODIFYType和EDUType。
IPType類型零元素滿足條件: 當(dāng)前零元素為篇章主干性零元素、其所在的 EDU 對應(yīng)句法節(jié)點為IP類型節(jié)點、零元素作為IP節(jié)點的主語成分。
圖2 中文篇章零元素標(biāo)注平臺處理流程Fig.2 Processing flow of annotation platform for Chinese discourse zero
圖3 例4對應(yīng)篇章層次化結(jié)構(gòu)Fig.3 Discourse structure of example 4
例6[建筑是開發(fā)的一項主要經(jīng)濟活動, ]e1 | [這些年有數(shù)百家建筑公司、四千余個建筑工地遍布在這片熱土上。]e2
例6 所示為 IPType 類型零元素, 其所在 EDU表述的主干語義為: “[浦東]有……”。圖 4 為φ所在EDU 的句法結(jié)構(gòu), 該句法節(jié)點為 IP 類型節(jié)點, φ作為主語成分, 符合篇章主干性零元素的定義。
VPType 類型零元素滿足條件: 當(dāng)前零元素為篇章主干性零元素, 其所在的基本篇章單元對應(yīng)句法節(jié)點為 VP 類型節(jié)點, 該零元素作為 EDU 驅(qū)動謂詞的主語成分。
例7位于中國著名風(fēng)景旅游城——杭州市區(qū)內(nèi), ]e1 | [是一九九一年國務(wù)院批準(zhǔn)建設(shè)的國家級高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)。]e2
例7 所示為 VPType 類型零元素。該零元素符合篇章主干性零元素的定義, 如圖 5 所示, φ所在EDU 對應(yīng)的句法結(jié)構(gòu)為 VP 類型節(jié)點, 并且零元素作為驅(qū)動謂詞的主語成分。
圖4 例6零元素所在EDU句法結(jié)構(gòu)Fig.4 Syntactic structure of EDU including zero in example 6
進一步分析 VPType 類型零元素, 發(fā)現(xiàn)該類型零元素在句法結(jié)構(gòu)中大多呈現(xiàn)為并列 VP 結(jié)構(gòu), 且共享同一個主語成分。我們稱這類現(xiàn)象為句法層面的共享主語現(xiàn)象, 其對應(yīng)的句法結(jié)構(gòu)如圖 6 所示,VP1, VP2 和 VP3 節(jié)點共享主語節(jié)點 SBJ。然而, 共享主語現(xiàn)象是句法層面的概念, 應(yīng)與篇章零元素嚴(yán)格區(qū)分開來。我們認為, 若該 VP 節(jié)點與其主語位于同一個 EDU 內(nèi)部, 對上層篇章來說該 EDU 表述是完整的, 當(dāng)前省略表述不作為篇章零元素。
例8他說, 公署還積極配合中國駐外使領(lǐng)館,密切與特區(qū)政府有關(guān)部門聯(lián)系與合作,
圖7 為例8 對應(yīng)的句法結(jié)構(gòu), 表述的主干語義為“他說……”, 驅(qū)動謂詞“說”引導(dǎo)賓語從句, 其內(nèi)部存在共享主語現(xiàn)象, 表述的完整語義為“他說, 公署還積極配合中國駐外使領(lǐng)館, [公署]密切與特區(qū)政府有關(guān)部門聯(lián)系與合作”。然而, 該語義省略僅表現(xiàn)在 EDU 的句法層面, 不屬于篇章層面的零元素, 故忽略此處的語義省略標(biāo)注。
MODIFYType 與 EDUType 的判斷條件: 當(dāng)前零元素為篇章修飾性零元素, 進一步判斷指代關(guān)系。若先行詞與零元素位于不同的 EDU, 劃分為MODIFYType, 否則為EDUType。
例9(a)[以茂名三十萬噸乙烯工程為依托的水東不斷加大招商引資的力度, ]e1
圖6 句法層面的共享主語結(jié)構(gòu)Fig.6 Structure of share subject from sentence perspective
例9(b)是一項振興上海, 建設(shè)現(xiàn)代化經(jīng)濟、貿(mào)易、金融中心的跨世紀(jì)工程, ]e1[因此大量出現(xiàn)的是以前不曾遇到過的新情況、新問題。]e2
例9(a)和(b)中零元素均為篇章修飾性零元素(作為賓語的修飾成分), 依據(jù)其指代關(guān)系的類型,各自標(biāo)注為EDUType和MODIFYType。
3.5.1 標(biāo)注一致性檢測
盡管標(biāo)注人員遵循統(tǒng)一的標(biāo)注規(guī)范, 由于個人的主觀性差異, 導(dǎo)致語料的標(biāo)注結(jié)果依舊存在不一致的現(xiàn)象。語料的一致性檢驗是用來衡量上述一致性的重要標(biāo)準(zhǔn), 反映語料的標(biāo)注質(zhì)量。本研究采取Kappa 檢驗進行一致性檢驗, 計算公式為
其中, PO表示觀察一致率,PC表示偶然一致率。通常認為 Kappa 值大于 0.75 表示標(biāo)注具有較好的一致性, Kappa 值小于 0.4 則表示一致性較差。
我們選取兩名標(biāo)注人員 A 和 B, 對相同的 30 篇文檔(chtb0101~chtb0130)進行獨立標(biāo)注, 根據(jù)標(biāo)注結(jié)果進行一致性測試。以 EDU 為單位, 當(dāng)標(biāo)注零元素的在 EDU 內(nèi)部的位置相同時, 認為零元素標(biāo)注是一致的。通過計算, 零元素標(biāo)注的 Kappa 值為0.85, 表明該語料的標(biāo)注結(jié)果是可信的。
3.5.2 語料庫統(tǒng)計
CDZC 共有 325 篇文檔(chtb0001~chtb0325), 全部來源于 CTB 語料, 總共包含 1367 個段落, 4098 個句子, 標(biāo)注零元素 2088 個, 平均每個段落包含零元素 1.53 個。下面從零元素分布以及零元素類別兩個方面對CDZC進行統(tǒng)計分析。
1)零元素分布統(tǒng)計?;诙温鋵α阍胤植歼M行統(tǒng)計, 對應(yīng)結(jié)果如表 1 所示。1367 個段落中,有 425 個段落不包含零元素, 占總數(shù)的 31.09%。也就是說, 中文篇章表述中, 68.91%的篇章中存在零元素。該數(shù)據(jù)直接地反映出中文省略的普遍性, 肯定了中文零元素的研究價值。
2)零元素類別統(tǒng)計。對零元素類別 Classify 進行統(tǒng)計, 分布結(jié)果見表 2 。IPType 與 VPType 占據(jù)絕大部分, 比例高達 83%以上。這部分零元素對應(yīng)為篇章主干性零元素, 對篇章語義理解分析起至關(guān)重要的作用。剩余的零元素占比約為 17%, 體現(xiàn)EDU 層面的細節(jié)語義, 輔助局部句法語義分析, 在后續(xù)的研究中有不可替代的作用。
表1 基于段落的零元素分布統(tǒng)計Table 1 Chinese zero distribution statistics based on paragraph
表2 零元素類別分布統(tǒng)計Table 2 Classify of Chinese zero distribution statistics
圖7 例8對應(yīng)句法結(jié)構(gòu)Fig.7 Syntactic structure of example 8
本文針對漢語表述的語言特點, 結(jié)合漢語篇章結(jié)構(gòu)體系, 對中文省略現(xiàn)象進行理論分析, 提出篇章層面的零元素概念, 并基于此構(gòu)建中文篇章零元素語料庫(CDZC)。我們選取較有認可度的 CTB 語料進行標(biāo)注。為確保標(biāo)注一致性, 我們制定了一整套標(biāo)注規(guī)范, 并采用合理的標(biāo)注策略以及人機結(jié)合的標(biāo)注方法進行語料標(biāo)注。最終對該語料進行一致性檢測以及詳細的統(tǒng)計分析, 結(jié)果表明該語料較好地體現(xiàn)了零元素省略的語言現(xiàn)象以及其對應(yīng)的語言特點。
目前 CDZC 語料主要來源于新聞類的文本, 數(shù)量相對有限, 僅能滿足初步階段的研究需要。下一步的研究重點將放在擴大語料庫的規(guī)模以及生語料文本的類型上, 以便滿足進一步的研究需要。