国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)方案探討——以《樹藝篇》為訓(xùn)練文

2015-08-15 00:54:11
科技視界 2015年3期
關(guān)鍵詞:斷句標(biāo)點古籍

趙 陽

(南京林業(yè)大學(xué)人文學(xué)院,江蘇 南京210036)

古籍?dāng)嗑?,是古籍整理實踐中重要的組成部分。通過標(biāo)點原文,能夠區(qū)分出原文字句段落,厘清上下文關(guān)聯(lián),從而引導(dǎo)讀者理解內(nèi)容。這是非常有助于古籍的傳播和閱讀的。中國林業(yè)類古籍的整理主要功在收集,但其中僅有少量的文獻(xiàn)被標(biāo)點。那么如果希望更多的林業(yè)古籍被有效利用,就必須加大古籍整理的力度。中文信息處理技術(shù)的介入,提高了該領(lǐng)域的工作效率,這其中尤以自動化標(biāo)點的實現(xiàn)最為緊要。目前已有不少這樣的研究成果:有古籍?dāng)嗑涞南到y(tǒng)結(jié)構(gòu)圖以及基于模式匹配的斷句方法;有基于前后n-gram模型的古漢語斷句算法和一種可用于古文自動斷句的以兩個統(tǒng)計量互信息和測試差為特征的條件隨機(jī)場模型;另外2011年國學(xué)網(wǎng)還開放了一個古籍?dāng)嗑湓u測系統(tǒng)。但是林業(yè)古籍有其專業(yè)性,有該領(lǐng)域獨特的表達(dá)和術(shù)語,與一般的古籍是存在區(qū)別的。這就需要我們對林業(yè)古籍自動化斷句方式進(jìn)行研究。而這其中的關(guān)鍵,就是建立斷句模式語料庫。

1 斷句模式語料庫建設(shè)的必要及文本對象的選擇

斷句模式語料庫,是實現(xiàn)林業(yè)古籍自動化斷句的基礎(chǔ),是建立識別特征的規(guī)則、數(shù)量、質(zhì)量的關(guān)鍵所在。這里對斷句模式語料庫的研究,特別強(qiáng)調(diào)林業(yè)古籍本身特征的提取,而不完全依賴于計算機(jī)識別程序的運用。因為計算機(jī)識別程序,有其基本的功能模塊,也能進(jìn)行專門的文本處理,但是如上所述,林業(yè)古籍與一般古籍的確實存在區(qū)別,所以應(yīng)該設(shè)置出更具針對性的模式語料庫,然后再結(jié)合計算機(jī)模式識別程序進(jìn)行操作。這里語料庫建設(shè)不是古籍原文的整體輸入,而是從事理邏輯、敘事層次、語義層次、語詞特征等性質(zhì)入手,建立起識別規(guī)則和模式,同時要兼顧古籍整理標(biāo)點中的諸多規(guī)定和限制,最終形成一套可以按照一定規(guī)則進(jìn)行優(yōu)化、合并,歸類的體系。這對林業(yè)古籍自動點校的實現(xiàn)是非常重要的。

在文本對象的選擇上,本文選擇《樹藝篇》為實驗對象?!稑渌嚻繁涣腥胱硬哭r(nóng)家類,共33卷。整部書先列總目,后分列谷部、蔬部、草部、草藥部,木部、果部共六類。本論文主要以木部為研究對象,其中木部包含有合歡、榆 楊柳、綿柳、白楊、黃楊等14種中國常見的樹種。木部的資料收集時間上跨越性較大,上及漢代,下迄明代。從材料性質(zhì)上看,不僅涉及到樹木的基本介紹、還有技術(shù)性指導(dǎo),甚至還有文學(xué)材料的介入;因此,選擇本書作為研究個案,具有較好的代表性。另外這部書到目前為止,沒有任何單行本或者合集的方式做過點校,相對選擇已有過點校本的古籍來說難度更大,從語料學(xué)角度看,具有代表性,從實踐意義來說,具有較大的開拓價值。

2 林業(yè)古籍?dāng)嗑淠J秸Z料庫建設(shè)的難點

斷句模式語料庫的建設(shè),必須結(jié)合林業(yè)古籍本身特點來設(shè)計,這里提出以下幾點難點問題:第一,重視林業(yè)古籍中的專門詞匯的分割。詞匯的分割一直也是人工古籍標(biāo)點的難點之一,有語言學(xué)者提出“語言中存在大量的復(fù)音詞語。它們無論是合成詞、聯(lián)綿詞還是短語,都作為一個造句單位使用,不容許割裂。如果在中間加上標(biāo)點,就把它們一分為二,也就是點破了詞語,從而破壞了意義的完整,改變了整段乃至全篇文字的意旨。這也是句讀標(biāo)點中常見的錯誤。”①而古籍中的詞匯由于時代的變遷,詞匯的含義及使用都發(fā)生了變化。這樣的特征,再加上林業(yè)類詞匯有其專業(yè)性,所以詞匯的分割正確與否,直接關(guān)系到全文的連貫性。第二,注意詞句位置及歸屬。詞句的位置及歸屬判斷直接影響到閱讀者對文章的理解。一般古籍,可以借助上下文理解,或者借助史料背景去解決詞句歸屬的難點,而林業(yè)古籍,從現(xiàn)代圖書分類來看,屬于技術(shù)類文本,所以出現(xiàn)詞句位置判斷失誤或者誤判歸屬的問題會更多。這其中必須加強(qiáng)對關(guān)鍵詞的判斷,如若關(guān)鍵詞判斷失誤,那么接下里的斷句也會產(chǎn)生較大的偏差。第三,注意林業(yè)古籍中的引文、補(bǔ)遺、注釋等文字。這類文字是引自各種方志類書,不同朝代,不同性質(zhì),甚至有些引用文獻(xiàn)都已亡佚。以《樹藝篇》為例,書后有章鈺手寫目錄,統(tǒng)計193種文獻(xiàn)。如木部榆這一條的論述中,所引各種文獻(xiàn)若干條,涉及到《爾雅》、《廣志》、《云山志》、《九華志》、《武夷志》、《九江府志》、《興化府志》、《松江府志》等等,這其中涉及到很豐富的背景知識,有典章制度,官制,地理、風(fēng)俗習(xí)慣,典故等等,所以這是一個非常值得關(guān)注的問題。

3 林業(yè)古籍?dāng)嗑湔Z料庫的標(biāo)注識別規(guī)則

傳統(tǒng)計算語言學(xué)基本離不開語料統(tǒng)計,但是面對復(fù)雜的文本,還需要有針對性地結(jié)合一些規(guī)則。這里結(jié)合林業(yè)古籍的特征以及上述難點,在古籍人工點校和計算機(jī)處理的雙重技術(shù)支撐下,考慮在普通古籍語料庫模式類型基礎(chǔ)上,著重以下幾條識別規(guī)則。識別規(guī)則實際上與標(biāo)注方式有關(guān),關(guān)鍵是將林業(yè)古籍文本的特色融合到標(biāo)注過程中,在此基礎(chǔ)上取得最優(yōu)的標(biāo)注效果。

3.1 詞匯特征識別規(guī)則

在林業(yè)詞匯中,不少專業(yè)詞匯與普通古籍中的詞匯可能字面一樣,但是卻有獨特的含義。所以在林業(yè)古籍文獻(xiàn)的語料庫中,有必要將專業(yè)詞匯列入分詞識別規(guī)則中,否則會大大增加標(biāo)點的誤差率。目前有關(guān)命名實體化的方法日漸成熟,這里在技術(shù)上借鑒半監(jiān)督的中文信息處理手段,來實現(xiàn)林業(yè)專業(yè)術(shù)語的標(biāo)注。林業(yè)類詞匯可以分為直接表述性詞匯和簡介表述性詞匯。直接表述性詞匯包括植物類,植物部位詞,加工模式詞等,而間接表述性詞匯包括色彩詞、形狀詞、時間詞、地點詞等。林業(yè)類專業(yè)詞匯的特別處理,有助于標(biāo)注的效率。如《樹藝篇》中有一段文字:“圖經(jīng)曰合歡夜合也生益州山谷今近京雍洛間皆有之人家多植于庭除間木似梧桐枝甚柔弱葉似皂莢槐等極細(xì)而繁密互相交結(jié)每一風(fēng)來輒似相解了不相牽綴其葉至暮而合古一名合昏五月花發(fā)紅白色瓣上至秋而實作莢子極薄細(xì)采皮及藥用不抱時月?!边@段話中,“合歡”、“梧桐”、“皂莢”、“槐”、“合昏”、等是直接表述性詞匯中的植物類名稱(簡稱ZM),“花”、“枝”、“葉”、“瓣”、““莢子”、“皮“等屬于植物部位詞(簡稱ZB)?!敝病?、”交結(jié)“、”牽綴“、”采“為加工模式詞等(簡稱JG)。這些專業(yè)詞匯可以作為斷句的輔助依據(jù)。一般來說,如果ZM(ZB)后面是JG,那么考慮在ZM(ZB)前面做斷句;如果JG后面是ZM(ZB),一般在ZM(ZB)后面做斷句。

3.2 事理邏輯斷句模式

林業(yè)古籍中的語言敘述的事理邏輯,與現(xiàn)代語言中的科技語體有部分相似。他的描述基本無贅語,簡約而規(guī)范。以《樹藝篇》中的“柳”為例。柳樹是中國傳統(tǒng)的樹種,早在先秦時期就有相關(guān)記錄?!稑渌嚻分杏嘘P(guān)于柳樹栽培技術(shù)的敘述:“種柳正月二月中取弱柳枝大如臂長一尺半燒下頭二三寸埋之令沒常足水以澆之必數(shù)條俱生留一根茂者余悉掐去別豎一柱以為依主每一尺以長繩柱欄之若不欄必為風(fēng)所摧不能自立一年中即高一丈余其旁生枝葉即掐去令直聳上高下任人取足便掐去正心即四散下垂婀娜可愛若不掐心則枝不四散或斜或曲生亦不佳也”。 這里有一些關(guān)鍵性的詞語 “種”、“取”、“燒”、“埋”、“澆”、“留”、“掐”、“豎”等詞,還有數(shù)量單位 “尺”、“寸”、“條”、“根”、“柱”、“丈”等。這里主要依賴于概念分類和概念之間的關(guān)系的判斷,在一大段話中,根據(jù)動詞出現(xiàn)的位置,在前后考慮這里有可分割的片段,以此形成邏輯子語言來提供判定。比如在動詞前或者后是否存在某相關(guān)概念,而關(guān)鍵詞語概念之間是否存在一定的關(guān)系。這樣的片段邏輯模式積累到一定程序,可以去歸納類型,最終在此基礎(chǔ)上構(gòu)造邏輯模型。

3.3 引文識別規(guī)則

在古籍文本中有豐富的引文資料存在,衡中青等學(xué)者針對引文的標(biāo)點問題構(gòu)建了一種引書挖掘系統(tǒng)。他提出若是作者直接稱引的可以將文本生成電子文本后,計算機(jī)直接抽?。蝗羰菦]有任何標(biāo)注的引文,可以使用模式識別方法加n-gram分詞法。②這種方法并不是針對斷句功能建立的,他主要是用于后期的文獻(xiàn)計量分析,不過對斷句模式有一定的啟發(fā)。我們可以建立引文識別的邏輯語言模式:如“某某曰”、“某某記”、“某某志”,那么在此前或者此后,就應(yīng)該考慮斷句。這里特別注意的是,因為林業(yè)古籍中有時候會重復(fù)引用同一部文獻(xiàn),那么在上面已經(jīng)引用過的情況下,后面的書名可能是簡稱?!稑渌嚻分幸母┦敖允?,尤其要注意。

4 結(jié)束語

需要注意的是,這幾種模式是相輔相成,不可偏缺的。以《樹藝篇》作為訓(xùn)練文本對象,有其代表意義和價值,但是也有局限性。雖然書中涉及文獻(xiàn)約有200篇,但是與浩如煙海的林業(yè)古籍總數(shù)相比,還是相去甚遠(yuǎn)。另外林業(yè)古籍還有其他一些特征有待挖掘,這是在后面的研究中亟待補(bǔ)充的。

[1]胡古愚.樹藝篇[M]//續(xù)修四庫全書977冊.上海:上海占籍出版社,2002

[2]引文索引法的理論及應(yīng)用[M].北京:北京圖書館出版社,2004.

[3]吳小如.古籍整理中的點校注譯問題[M]//古籍點校疑誤匯錄北京:中華書局,1989.

[4]昌寧,李涓子,等.語料庫語言學(xué)[M].商務(wù)印書館,2002.

[5]劉開瑛.中文文本 自動分詞和標(biāo)注[M].北京:商務(wù)印書館,2000.

注釋:

①葛本儀,主編.漢語詞匯學(xué)[M].山東大學(xué)出版社,2003:1013.

②衡中青.《方志物產(chǎn)》引書挖掘及分析研究[J].中華農(nóng)史,2007,3.

猜你喜歡
斷句標(biāo)點古籍
標(biāo)點可有可無嗎
中醫(yī)古籍“疒”部俗字考辨舉隅
《遼史》標(biāo)點辨誤四則
小小標(biāo)點真厲害
關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
天一閣文叢(2020年0期)2020-11-05 08:28:06
文言斷句判斷法
關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
“斷句” “密碼”費人解(二則)
中華詩詞(2017年3期)2017-11-27 03:44:18
我是古籍修復(fù)師
金橋(2017年5期)2017-07-05 08:14:41
妙用標(biāo)點巧斷句
永福县| 英德市| 客服| 南岸区| 福海县| 大名县| 重庆市| 平度市| 焉耆| 夏河县| 合水县| 双城市| 道孚县| 慈溪市| 都江堰市| 彰武县| 潜山县| 德昌县| 嘉黎县| 柯坪县| 尼木县| 新泰市| 呼伦贝尔市| 安乡县| 丰都县| 宜宾县| 耒阳市| 东山县| 黄骅市| 海原县| 桐梓县| 双鸭山市| 湾仔区| 开封县| 旬邑县| 眉山市| 泰州市| 泌阳县| 阿坝| 永靖县| 龙州县|