邱立坤,史林林,王厚峰
(1.魯東大學 文學院,山東 煙臺 264025;2. 北京大學 計算語言學研究所,北京 100871)
?
多領域中文依存樹庫構建與影響統(tǒng)計句法分析因素之分析
邱立坤1,史林林1,王厚峰2
(1.魯東大學 文學院,山東 煙臺 264025;2. 北京大學 計算語言學研究所,北京 100871)
為提升依存分析并分析影響其精度的相關因素,該文構建了大規(guī)模中文通用依存樹庫和中等規(guī)模領域依存樹庫?;谶@一系列樹庫,通過句法分析實驗考察質量、規(guī)模、領域差異等因素對中文依存分析的影響,實驗結果表明: (1)樹庫規(guī)模和質量均與句法分析精度成正相關關系,質量應先于規(guī)模因素被優(yōu)先考慮;(2)通用樹庫和領域樹庫之間的差異程度與前者對后者的替代性成相關關系;(3)兩種樹庫混合使用的效果同樣與領域差異有關。
依存樹庫;領域遷移;依存句法分析
依存句法分析的目標是為給定句子中的每個詞找出一個合適的父節(jié)點,并標記子節(jié)點與父節(jié)點之間的句法關系,它是目前最常用的句法分析理論之一。作為主流依存分析方法的統(tǒng)計句法分析,通常用包含大量依存句法樹的樹庫作為訓練數(shù)據(jù),采用基于圖的方法[1]或基于轉移的方法[2]訓練,可得到面向新聞文本的高質量自動句法分析器。依存句法分析已在機器翻譯、自動問答、情感分析等領域得到廣泛應用,可在一定程度上提升相關系統(tǒng)的性能。但是,統(tǒng)計句法分析性能依賴于樹庫的規(guī)模、質量,并且表現(xiàn)出領域相關性,在遷移到新領域時精度急劇下降[3]。
目前已經(jīng)有一些文獻研究樹庫轉換和融合[4-5]、自學習方法[3]等提高句法分析精度并改善領域遷移效果,但是受語料類型和規(guī)模的限制,中文方面很多問題沒有得到深入分析。首先是樹庫規(guī)模問題。目前已有一些研究考察樹庫規(guī)模對句法的影響[6],但使用的樹庫量級僅在1萬句左右,本文將考察樹庫規(guī)模增加到5萬甚至10萬句時的句法分析效果;其次是樹庫質量問題,目前尚未見到這方面的研究;最后是通用樹庫與特定領域樹庫融合的問題。在中文分詞和詞性標注上有少量類似研究[7],句法分析層面暫無。
為考察上述問題,我們基于統(tǒng)一的依存句法標注體系,構建了大規(guī)模(12.8萬句)的中文通用新聞樹庫和中等規(guī)模(從1.7萬到4萬句不等)的特定領域樹庫。對于這些樹庫,本文設計了系列實驗,以分析樹庫規(guī)模、質量和領域差異對句法分析尤其是特定領域句法分析精度的影響。
本文組織如下: 第2節(jié)介紹依存樹庫的標注體系、構建流程、所構建樹庫的基本信息,并簡單分析各樹庫之間的差異;第3節(jié)通過系列實驗分析質量、規(guī)模和領域差異等因素對句法分析精度的影響;第4節(jié)介紹相關工作;最后一節(jié)是結論。
2.1 依存句法標注體系
表1 PMT依存體系
依存樹庫的構建必須遵循一定的標注體系,標注體系的差異首先表現(xiàn)在依存關系標簽的設置上。各種依存標注體系采用的依存關系標簽數(shù)量差別較大,標簽的內涵更是大不相同。就中文而言,目前有四種體系: (1)由賓州短語結構中文樹庫轉換而來的依存樹庫(簡稱CTB),標簽數(shù)量為12個*http://w3.msi.vxu.se/~nivre/research/Penn2Malt.html;(2)哈工大依存體系(簡稱HTB),初始版本為24個標簽,目前版本為14個標簽[8];(3)北京大學多視圖樹庫依存體系(簡稱PMT)[9],含30個句法標簽,該體系參考了CTB和HTB,其中一些標簽專門為由依存樹轉換為短語結構樹而設置;(4)斯坦福依存體系,該體系標簽數(shù)量最為龐大[10]。第(1)和(4)體系均依據(jù)手工制定的規(guī)則生成,不存在直接依據(jù)該體系構建的原生樹庫。
標注體系的差異還表現(xiàn)在對同一句法現(xiàn)象的不同處理策略上。例如,CTB將兼語句等同于小句賓語句,HTB和PMT則將之以類似于雙賓句的方式處理,并設置了專門標簽將之與雙賓句區(qū)別開來。又如,CTB區(qū)分了主語和話題,PMT也繼承了這一做法,用以處理漢語的主謂謂語句;HTB則允許一個動詞帶多個主語,不對主語和話題進行區(qū)分。再如,CTB沒有顯式標注并列結構,因此其依存體系并沒有表示并列的標簽;HTB設置了并列標簽,且以左節(jié)點為核心節(jié)點;PMT設置了并列標簽,且以右節(jié)點為核心節(jié)點。其中,并列結構的處理方式對依存弧方向影響最大,因而也是導致各家樹庫依存弧差異的主要原因。
本文工作所使用的樹庫均基于PMT體系構建,該體系所使用的依存關系標簽如表 1所示。PMT體系的特點在于,以依存語法體系為基礎,預先考慮了從依存語法到短語結構語法轉換過程中的歧義消解問題,因此標注一套依存語法樹庫(標注依存弧和依存關系標簽)可同時得到一套短語結構樹庫(推導出層次和短語范疇)[9]。
2.2 語料選擇與構建流程
本文構建的樹庫包括新聞、醫(yī)藥、口語、專利、微博五個領域,各領域句子數(shù)和平均句長如表 2所示。
表2 多領域樹庫基本信息一覽
續(xù)表
新聞語料含有政治、科技、社會、教育、體育等多個子領域和敘述文、散文、報告文學、說明文等多種文體,可稱之為通用樹庫;相應地,可稱其他樹庫為領域樹庫。
新聞樹庫的文本來自1998年1月份1到10日共10天語料、2000年1月全部語料、2000年2月全部語料、2000年3月前20 000句語料,總計128 738句。其中,1998年1月(14 463句)和2000年1月(50 275句)經(jīng)過兩遍校對,剩余語料僅經(jīng)過一遍校對。為表述方便,我們將1998年1月樹庫稱為V1(12 000句,不含用于開發(fā)和測試的2 463句),V1加上2000年1月樹庫后稱為V2(62 275句),V2加上2000年2月和2000年3月前20 000句樹庫后稱為V3(126 275句)。
醫(yī)藥領域語料來自皮膚病領域教材和論文摘要,口語領域語料來自對外漢語口語教材,專利領域語料來自中文專利文獻,微博領域語料為隨機抽選的微博,這四個領域樹庫僅經(jīng)過一遍校對。
進行一遍校對時,參與人員通常在10到20人之間。進行二遍校對時,參與人員比一校人員經(jīng)驗更為豐富,人數(shù)通常在4到6人之間。所有樹庫均按照PMT體系的標注規(guī)范、采用相同的流程、使用相同的輔助工具構建。
2.3 多領域樹庫差異分析
不同領域的樹庫在詞匯和語法等層面存在明顯差異,我們可以用平均句長、未登錄詞比例、平均依存距離等指標來度量領域差異。句長指的是每個句子所含詞語的數(shù)量。依存距離指的是依存樹中子節(jié)點與父節(jié)點之間所間隔的詞的數(shù)量,其最小值即子節(jié)點與父節(jié)點相鄰時的值為1[11]。未登錄詞指的是出現(xiàn)在測試文本中但未出現(xiàn)在參照文本中的詞語,未登錄詞比例指的是測試文本中未登錄詞數(shù)量占其總詞數(shù)的比例;顯然,當參照文本不同時,未登錄詞比例也會有所不同。
表 2中列出了通用樹庫和四個領域樹庫的規(guī)模等信息,計算平均句長和平均依存距離時以整個樹庫為計算范圍;計算未登錄詞比例時分別選擇2 463句、1 000句、1 000句、1 000句、1 000句、1 000句為各領域的測試文本(分別來自1998年1月人民日報樹庫的最后位置和四個領域樹庫的最后位置),分別選擇V1、V2、V3三個版本的通用樹庫作為參照文本,從而計算出三種未登錄詞比例。
如表 2所示,平均句長與平均依存距離具有明顯的相關性,句長值越大,依存距離也越大。CTB上的實驗[12]表明同一領域的句子,句長值越大,則句法分析的精度越低。但是句法分析受到多種因素的影響,不同領域之間的句長與句法分析精度之間并沒有必然聯(lián)系。
從V1、V2到V3,隨著參照文本規(guī)模的增大,各樹庫未登錄詞比例相應減少。比較之下,口語和微博兩個領域未登錄詞比例要遠遠低于醫(yī)藥和專利兩個領域。如果以未登錄詞比例為衡量領域差異的標準,則可以認為口語和微博兩個領域與通用新聞領域差異較小,醫(yī)藥和專利兩個領域與通用新聞領域差異較大。
基于所構建的大規(guī)模通用樹庫和中等規(guī)模的領域樹庫,可以分析質量、規(guī)模和領域差異等因素對句法分析精度的影響。
3.1 實驗設置
數(shù)據(jù) 對于通用樹庫,參照Qiu等[9]選擇1998年1月份樹庫的12 001—13 000句作為開發(fā)集合,13 001-14 463句作為測試集合(由于二校版本質量更高,因此在所有相關實驗中,通用新聞樹庫均選擇二校版本作為測試數(shù)據(jù))。對于四個領域樹庫,各選擇最后的1 000句作為測試集合。
依存句法分析器 本文在訓練和測試時使用MATE-tools依存句法分析器3.61版*https://code.google.com/p/mate-tools/[13]。該句法分析器支持多線程訓練,在多核計算機上可以獲得較高的訓練速度;在精度上與ZPar[14]等句法分析器相當[9],處于領先水平,明顯優(yōu)于MaltParser和MSTParser[15]。
評測標準 在評價依存句法分析精度時,我們使用UAS(Unlabeled Accuracy Score)和LAS(Labeled Accuracy Score)兩個指標。UAS指不考慮依存關系標簽時依存弧標注正確的結點數(shù)占總結點數(shù)的比例,LAS指同時考慮依存關系標簽和依存弧時標注正確的結點數(shù)占總結點數(shù)的比例。后續(xù)實驗中在沒有特別說明的情況下均使用UAS值進行比較,LAS值僅作參考。
3.2 樹庫質量
在人工校對樹庫時,二校人員由一校人員中選拔而來,其熟練程度、對規(guī)范的把握程度均明顯優(yōu)于一校人員;二校在一校基礎上進行,其主要工作為修改一校人員校對結果中的錯誤。因此一般情況下二校結果在質量上優(yōu)于一校結果。表 3列出了V1、V2和V3三個樹庫的一校、二校版本用做訓練數(shù)據(jù)時的句法分析精度。
表3 基于一校、二校樹庫的句法分析精度比較
在同等規(guī)模的情況下,二校樹庫均明顯優(yōu)于一校樹庫。在使用V1、V2和V3時,二校比一校分別提升0.87%、1.36%和1.02%。值得特別說明的是,二校V2規(guī)模僅為一校V3的一半,精度卻高出0.47%。這一結果充分說明樹庫質量對句法分析精度有較大影響,對一批樹庫進行兩遍校對所得到的句法分析器精度上可能優(yōu)于對兩倍規(guī)模的樹庫進行單遍校對所得到的句法分析器。較小的樹庫規(guī)模意味著占用內存較小和運行速度更快,因此在規(guī)模和質量間平衡時,應優(yōu)先考慮質量。
3.3 樹庫規(guī)模
句法分析精度與用做訓練數(shù)據(jù)的樹庫規(guī)模關系也非常密切。表 3反映了三種不同規(guī)模的新聞樹庫句法分析精度的差異,V2規(guī)模是V1的五倍,V3規(guī)模是V2的兩倍。從表 3可以看出,無論一校樹庫還是二校樹庫,在樹庫規(guī)模增大時,句法分析精度均有明顯上升,從V1到V2,兩種版本的UAS分別提升了2.3%和2.8%,此時樹庫規(guī)模擴大了四倍;從V2到V3,UAS分別提升了0.89%和0.55%,此時樹庫規(guī)模擴大了一倍。二校版本中從V2到V3的提升低于一校版本,主要原因是二校版本中V3相比于V2增加的樹庫并沒有經(jīng)過二校。下文在沒有特別說明時,V1、V2、V3均指其二校版本。
表 4 基于不同規(guī)模特定領域樹庫的句法分析精度比較
表 4反映了不同規(guī)模的特定領域樹庫句法分析精度上的差異,規(guī)模從1 000、2 000、5 000、10 000到全部樹庫。從該表可以看出,在所有領域中,當樹庫規(guī)模增加時,句法分析精度逐漸提高。比較之下,醫(yī)藥、口語和微博三個領域規(guī)模與精度增加的趨勢較為一致;專利領域樹庫從5 000增加到10 000時,句法分析精度提升幅度明顯比其他三個領域大,規(guī)模進一步增加時句法分析精度基本上沒有新的提升。導致這一差異的主要原因是專利文獻包含化工、電子、機械、醫(yī)藥等多個子領域,子領域之間差異較大,從5 000增加到10 000時所增加的語料與測試語料比較接近,因此帶來較大幅度的提升。具體而言,在5 000句時,醫(yī)藥、口語、專利、微博四個領域測試數(shù)據(jù)的未登錄詞比例分別為8.1%、12.1%、9.9%和8.4%;增大到10 000句時,未登錄詞比例分別降為6.7%、8.5%、3.7%、6.3%。其中專利領域未登錄詞比例降幅最大,這應該是導致專利領域精度顯著上升的主要原因。這一結果說明,對于專利這樣的復雜領域,應考慮對子領域進行細分,對各子領域分別建立語料庫。
3.4 領域差異
為考察領域差異對句法分析的影響,我們進行了兩種實驗: 其一是測試基于通用樹庫訓練的句法分析器在特定領域樹庫上的句法分析精度;其二是測試基于通用樹庫加一定數(shù)量領域樹庫訓練的句法分析器在領域樹庫上的句法分析精度。前一種實驗的結果如表 5所示,用作訓練數(shù)據(jù)的通用樹庫包括V1、V2和V3三個版本,相應地在每個領域樹庫上可以得到三個句法分析結果。從該表可以看出,從V1到V2各領域的句法分析精度均有穩(wěn)定提升,幅度從1.4%到3.6%;從V2到V3時,醫(yī)藥領域有1%左右的提升,但口語、專利、微博三個領域僅有微小提升甚至有所下降。
表 5 基于通用樹庫的句法分析器 在四個領域上的句法分析結果
基于通用樹庫的最優(yōu)句法分析效果在醫(yī)藥(81.27%)和專利(74.61%)這兩個領域中基本與使用1 000句領域樹庫訓練的結果(分別為81.17%和75.31)相當(參見表 4);在口語和微博這兩個領域中則可與使用10 000句領域樹庫訓練的結果相當。如表 2所示,醫(yī)藥和專利這兩個領域與通用新聞的差異較大,未登錄詞比例在17%以上;口語和微博這兩個領域則與通用新聞差異較小,未登錄詞比例在8%以下。由此說明,在與通用新聞差異較小的領域中,通用樹庫對領域樹庫的替代性*如果使用前者訓練的句法分析器精度上好于基于后者訓練的句法分析器,或者與后者相當,則我們認為前者對后者的替代性較好,否則可認為替代性較差。較好,當領域樹庫規(guī)模較小時, 其性能通常會弱于通用句法分析器,因此沒有必要構建小規(guī)模的此類樹庫;在與通用新聞差異較大的領域中,通用樹庫對領域樹庫的替代性較差,有必要為特定領域構建新的樹庫。
如2.3節(jié)所述,領域差異體現(xiàn)在多個角度(平均句長、平均依存距離、未登錄詞比例等),上述實驗表明以未登錄詞比例為標準的領域差異與領域遷移時句法分析精度變化的趨勢呈現(xiàn)明顯的相關性,因此在后續(xù)的分析中主要使用未登錄詞比例作為度量領域差異的標準,未登錄詞比例越高,則領域差異越大。
后一種實驗的結果如表 6和表 7所示。表 6中通用樹庫為V1(12 000句),領域樹庫的規(guī)模包括(參見表 4)的結果,說明此時通用樹庫和領域樹庫的互補性較強;當領域樹庫規(guī)模為5 000、10 000和全部時,這一趨勢基本未變,但醫(yī)藥和專利兩個領域中效果有所減弱, 通用樹庫加領域樹庫的效果基本與單獨使用領域樹庫相當甚至比之稍差。這一結果說明,當領域樹庫達到一定規(guī)模(例如,5 000句以上)且與通用領域樹庫差異較大時,可單獨使用領域樹庫訓練句法分析器,其精度與領域樹庫加上通用樹庫相當;當與通用領域樹庫差異較小時,混合使用通用和領域樹庫訓練的句法分析器通常能比單獨使用領域樹庫有一定程度的提升。
表 6 基于通用樹庫V1加領域樹庫的句法分析器在四個領域上的句法分析結果
表 7 基于通用樹庫V2加領域樹庫的句法分析器在四個領域上的句法分析結果
1 000、2 000、5 000、10 000和全部五種。當領域樹庫規(guī)模為1 000時,通用樹庫加領域樹庫的效果明顯好于單獨使用通用樹庫(參見表 5)或者領域樹庫
表 7中通用樹庫為V2(62 275句),領域樹庫的規(guī)模包括1 000、2 000、5 000、10 000和全部五種。當領域樹庫規(guī)模為1 000時,通用樹庫加領域樹庫的效果明顯好于單獨使用通用樹庫(參見表 5)或者領域樹庫(參見表 4)的結果,并且好于表 6中的相應精度;規(guī)模為2 000時,口語和微博兩個領域比規(guī)模為1 000時有所下降,醫(yī)藥和專利兩個領域則繼續(xù)上升;規(guī)模為5 000、10 000和全部時,精度均繼續(xù)上升,但是醫(yī)藥和專利兩個領域均比表 6中的相應精度要低。該結果表明,當領域樹庫規(guī)模較小(2 000以下)時,通用樹庫規(guī)模越大,與領域樹庫混合使用時所取得的提升也越明顯;當領域樹庫規(guī)模較大(5 000以上)時,通用樹庫規(guī)模的持續(xù)增大,并不一定能帶來精度提升,當通用樹庫和領域樹庫領域差異較大時甚至會帶來少量下降。
中文樹庫方面,目前達到一定規(guī)模的中文樹庫有賓州短語結構樹庫(CTB)[16]、Sinica依存樹庫[17]、清華短語結構樹庫[18]、國家語委短語結構樹庫[19]、北大短語結構樹樹庫[20]和哈工大中文依存樹庫(HTB)[8],其規(guī)模分別為160萬詞(2013版[21])、36萬詞、100萬詞、100萬字、130萬詞、111萬詞。就文本類型來說,CTB包括新華社新聞、新聞雜志、博客、廣播訪談、廣播新聞等多種類型,HTB主要來自1992年到1996年人民日報,清華樹庫分新聞、文學、說明文、科技四種語體。
樹庫轉換和融合方面,李正華等[4]將CTB轉換成HTB,并混合起來進行句法分析實驗,在加入小規(guī)模CTB時,句法分析精度有所提升,進一步增加時則有所下降。Li等[5]提出新的轉換方法,將HTB轉換為CTB,并混合起來進行實驗,在CTB5和CTB6上分別提升了1.37%和1.10%。兩個研究的結論有所不同,可能的原因是后者采用了新的轉換方法提升了轉換質量。從CTB5到CTB6提升的幅度有所下降,主要是因為CTB6的規(guī)模(78萬詞)大于CTB5(51萬詞),從而使得新加入樹庫(HTB)的影響變小。
此外,Sagae等[6]分析了樹庫規(guī)模對句法分析的影響,實驗中使用的樹庫(英文樹庫GENIA,內容為生物學科技文獻摘要)規(guī)模從100、200一直到1 000(以100為間隔),之后從2 000、3 000一直到8 000(以1 000為間隔),實驗結果表明在1 000句之間,每增加100句都會有顯著提升,1 000之后每增加1 000句也只會有緩慢提升。這一結果與本文規(guī)模因素部分(3.3節(jié))的實驗基本一致。與之相比,本文這一方面的實驗涉及領域更多、樹庫規(guī)模更大,同時觀察到少量異常情況,并用領域差異對之進行了解釋。
本文基于所構建的大規(guī)模通用依存樹庫和中等規(guī)模的領域依存樹庫,通過一系列實驗分析了樹庫質量、規(guī)模和領域差異等因素對中文句法分析精度的影響。實驗結果表明: (1)樹庫質量對句法分析精度有較大影響,對一定規(guī)模樹庫進行兩遍校對所得句法分析器性能優(yōu)于對兩倍規(guī)模樹庫進行單遍校對,因此在質量和規(guī)模間進行平衡時應優(yōu)先考慮質量;(2)無論是通用樹庫還是領域樹庫,在規(guī)模增加(從1 000句到12萬句)時均能帶來精度的提升,但提升幅度逐漸減少;(3)在已有大規(guī)模通用樹庫的情況下,如果一個特定領域與通用領域差異較小,則沒有必要為之構建中等規(guī)模(5000以下)的樹庫;當特定領域與通用領域差異較大時,即使構建1 000句規(guī)模的樹庫,性能也可能超過單獨使用通用樹庫;(4)特定領域樹庫規(guī)模較小(2 000句以下)時,混合使用通用樹庫和領域樹庫通常能帶來明顯的提升,此時通用樹庫規(guī)模的增大也能帶來進一步的提升;(5)特定領域樹庫規(guī)模較大(5 000句以上)時,如通用樹庫和領域樹庫差異較小,則混合使用二者能帶來精度提升;如差異較大,則單獨使用特定領域樹庫即可獲得與混合使用相當乃至更好的效果。
[1] Ryan McDonald, Fernando Pereira, Kiril Ribarov, et al. Non-projective dependency parsing using spanning tree algorithms[C]//Proceedings of HLT-EMNLP, 2005: 523-530.
[2] Joakim Nivre. Inductive dependency parsing[M]. Springer.2006.
[3] Slav Petrov, Ryan McDonald. Overview of the 2012 Shared Task on Parsing the Web[C]//Notes of the First Workshop on Syntactic Analysis of Non-Canonical Language, 2012.
[4] 李正華,車萬翔,劉挺.短語結構樹庫向依存樹庫轉化研究[J].中文信息學報, 2008,22(6): 14-19.
[5] Zhenhua Li, Ting Liu, Wanxiang Che. Exploiting multiple treebanks for parsing with quasisynchronous grammars[C]//Proceedings of ACL, 2012: 675-684.
[6] Kenji Sagae, Yusuke Miyao, Rune Stre, et al. Evaluating the Effects of Treebank Size in a Practical Application for Parsing[C]//Proceedings of ACL 2008 Workshop on Software Engineering, Testing, and Quality Assurance for Natural Language Processing, 2008: 14-20.
[7] Meishan Zhang, Yue Zhang, Wanxiang Che, et al. Type-Supervised Domain Adaptation for Joint Segmentation and POS-Tagging[C]//Proceedings of EACL, 2014: 588-597.
[8] Wanxiang Che, Zhenghua Li, Ting Liu. Chinese Dependency Treebank 1.0 LDC2012T05[DB]. Web Download. Philadelphia: Linguistic Data Consortium, 2012.
[9] Likun Qiu, Yue Zhang, Peng Jin, et al. Multi-view Chinese treebanking[C]//Proceedings of COLING, 2014: 257-268.
[10] Pi-Chuan Chang, Huihsin Tseng, Dan Jurafsky, et al. Discriminative reordering with Chinese grammatical relations features[C]//Proceedings of the Third Workshop on Syntax and Structure in Statistical Translation, 2009: 51-59.
[11] 劉海濤. 基于依存樹庫的漢語句法計量研究[J]. 長江學術, 2008, 3:120-128.
[12] Wenliang Chen, Jun'ichi Kazama, Kiyotaka Uchimoto, et al. Improving Dependency Parsing with Subtrees from Auto-Parsed Data[C]//Proceedings of EMNLP, 2009, 2: 570-579.
[13] Bernd Bohnet. Top accuracy and fast dependency parsing is not a contradiction[C]//Proceedings of Coling, 2010: 89-97.
[14] Yue Zhang, Stephen Clark. Syntactic Processing Using the Generalized Perceptron and Beam Search[J]. Computational Linguistics, 2011, 37(1): 105-151.
[15] Wanxiang Che, Valentin Spitkovsky, Ting Liu. A comparison of Chinese parsers for Stanford dependencies[C]//Proceedings of EACL, 2012: 11-16.
[16] Nianwen Xue, Fei Xia, Fu-Dong Chiou, et al. The Penn Chinese Treebank: Phrase Structure Annotation of a Large Corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238.
[17] 陳鳳儀,蔡碧芳,陳克健,等. 中文句結構樹資料庫 (Sinica Treebank)的構建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4(2): 87-104.
[18] 周強.2004.漢語句法樹庫標注體系[J].中文信息學報, 2004, 18(4): 1-8.
[19] 靳光瑾,肖航,富麗,等.現(xiàn)代漢語語料庫建設及深加工[J].語言文字應用, 2005, 2: 111-120.
[20] 詹衛(wèi)東.樹庫在漢語語法輔助教學中的應用初探[J]. Journal of Technology and Chinese Language Teaching, 2012, 3(2): 16-29.
[21] Nianwen Xue, Xiuhong Zhang, Zixin Jiang, et al. Chinese Treebank 8.0 LDC2013T21[DB]. Web Download. Philadelphia: Linguistic Data Consortium. 2013.
Construction of Multi-Domain Chinese Dependency Treebanks and A Study on Factors Influencing the Statistical Parsing
QIU Likun1, SHI Linlin1, WANG Houfeng2
(1. School of Chinese Language and Literature, Ludong University, Yantai, Shandong 264025, China;2. Institute of Computational Linguistics, Peking University, Beijing 100871, China)
To boost Chinese dependency parsing and analyze factors influencing Chinese dependency parsing, we constructe a large-scale general treebank and several middle-scale treebanks for specific domains. Then, we performe experiments to evaluate the parsing accuracy influenced by the quality, the scale and the domain difference of the dependency treenbank. The results show that both the treebank quality and its scale are positively related to parsing accuracy, and the quality is more influential. The experiments also demonstrate that general treebanks and domain treebanks are complementary, and, whether a general treebank and domain treebank should be used together is dependent on the difference between them.
dependency treebank; domain adaptation; dependency parsing
邱立坤(1979—),博士、副教授,主要研究領域為計算語言學。E-mail:qiulikun@gmail.com史林林(1990—),碩士研究生,主要研究領域為語料庫語言學。E-mail:shilinalive@163.com王厚峰(1965—),博士、教授,主要研究領域為語篇分析、語言知識庫與領域知識庫、情感分析等。E-mail:wanghf@pku.edu.cn
1003-0077(2015)05-0069-07
2015-07-10 定稿日期: 2015-09-10
國家社科基金重大項目(12&ZD227);國家自然科學基金(61572245,61370117,61103089);教育部新世紀優(yōu)秀人才支持計劃(NECT-11-0839);山東省優(yōu)秀中青年科學家科研獎勵基金(BS2013DX020);魯東大學人文社會科學研究項目(WY2013003)
TP391
A