丁若堯
摘 要:本文基于2018年度教育部人文社會科學(xué)研究青年基金項目《面向二十四史的中國歷史人物時間關(guān)系圖譜構(gòu)建方法研究》,分析項目研究的理論和實際應(yīng)用價值,闡述目前國內(nèi)外相關(guān)研究的現(xiàn)狀和趨勢,提出面向古漢語史料的信息抽取一般方法流程。
關(guān)鍵詞:古漢語史料;信息抽取方法;研究價值和現(xiàn)狀;一般方法流程
中圖分類號:TP274 文獻標識碼:A 文章編號:1671-2064(2019)14-0050-02
隨著計算機技術(shù)的快速發(fā)展,中文信息處理技術(shù)也得到了實質(zhì)性的跨越,這就使古漢語史料的信息抽取獲得了前所未有的智能化技術(shù)支撐。面對浩如煙海的中國古代文獻,計算機的輔助處理無疑給研究工作者創(chuàng)設(shè)了一條精準、便捷的路徑,而對計算機處理古漢語文本的基礎(chǔ)性問題研究自然應(yīng)引起高度的重視。鑒于目前中文信息處理研究多以現(xiàn)代漢語為主,在古漢語及古典文獻信息處理方面?zhèn)戎赜阡浫?、顯示及電子文本資源庫建設(shè),對古漢語史料信息抽取方面的研究尚存在一定的缺憾。我們擬以《面向二十四史的中國歷史人物時間關(guān)系圖譜構(gòu)建方法研究》為課題展開研究,以求運用現(xiàn)代信息技術(shù)和自然語言處理技術(shù),以中國古典史集《二十四史》中的人物為關(guān)鍵詞,尋找科學(xué)的中國歷史人物時間關(guān)系圖譜構(gòu)建方法,促進中國古代歷史人物研究手段和方式的信息化進程。本課題于2018年8月被確立為教育部人文社會科學(xué)研究青年基金項目,研究周期為兩年。
1 本課題研究的理論和實際應(yīng)用價值
中國是一個歷史悠久的文明古國,對中國歷史人物的研究是史學(xué)界研究的一項重要內(nèi)容。古漢語史料作為歷史學(xué)研究的權(quán)威依據(jù),其中記錄的人物信息是了解中華名族燦爛輝煌發(fā)展歷程的重要途徑。利用信息技術(shù)對大數(shù)據(jù)量古漢語史料中的人物信息進行抽取,并將抽取到的信息經(jīng)過分析處理最終匯總至數(shù)據(jù)庫,可以在提高歷史研究成果利用效率的同時,為數(shù)據(jù)庫中所存儲的信息提供史料指向依據(jù),對推動史學(xué)研究特別是歷史人物研究的發(fā)展,乃至滿足人們?nèi)粘I钪袑v史信息的需求,增強中華民族文化自信,促進中國歷史文化傳承均具有重大作用。具體而言,本課題的研究具有以下理論價值和實際應(yīng)用價值:
1.1 本課題研究理論價值
本課題以文本信息抽取技術(shù)為依托,研究從古漢語史料中抽取人物名稱及其所屬時間信息,并以此二者為依據(jù)構(gòu)建歷史人物時間關(guān)系圖譜的方法。開展本課題的研究,在促進信息技術(shù)與歷史研究方法相結(jié)合、提高現(xiàn)有歷史研究方法的信息化程度、創(chuàng)新中華歷史文化呈現(xiàn)方式等方面均具有重要理論價值。此外,本課題中提出的模型方法可以被擴展到類似課題的研究,為后續(xù)面向海量史料的信息抽取研究、推動大數(shù)據(jù)時代歷史研究的跨越式發(fā)展等方面提供可借鑒的理論基礎(chǔ)和模型方法。
1.2 本課題研究實際應(yīng)用價值
二十四史是研究中國古代史的權(quán)威史料資源。以其作為史料依據(jù),利用信息技術(shù)從中抽取歷史人物名稱及其所屬時間信息,進而構(gòu)建中國歷史人物時間關(guān)系圖譜,首先可以以直觀明了的方式展示各個歷史人物之間的時間關(guān)系,為歷史教學(xué)和歷史傳承傳播提供歷史人物譜系;其次,以這些關(guān)系為基礎(chǔ)可以構(gòu)建出中國歷史人物時間關(guān)系數(shù)據(jù)庫,對歷史人物研究的信息化存儲及查詢過程均具有促進作用;再次,通過歷史人物對應(yīng)的時間信息,可以將歷史人物與同時期的歷史事件乃至同時期其他國家的歷史人物相關(guān)聯(lián),促進歷史學(xué)領(lǐng)域其他課題的研究;最后,利用本課題中的研究方法得到的歷史人物信息均可回溯到其所被抽取到的原始史料位置,這可以為研究人員查詢相關(guān)歷史人物信息提供權(quán)威的史料指向依據(jù)。
2 國內(nèi)外本課題相關(guān)研究的現(xiàn)狀和趨勢
本課題組對各類學(xué)術(shù)網(wǎng)站及數(shù)據(jù)庫進行了細致而全面的調(diào)研,發(fā)現(xiàn)目前公開發(fā)表的利用信息技術(shù)對古漢語史料中的信息進行抽取的相關(guān)研究工作及資源并不多,并且主要的研究工作都集中在國內(nèi)。下面對一些有代表性的相關(guān)工作按照不同的內(nèi)容類別分別進行介紹。
2.1 針對歷史人物名稱及其所屬時間信息的相關(guān)研究工作及資源
《中國歷代名人辭典》由南京大學(xué)歷史系在1982年通過人工的方式編寫完成,通過其可以查閱到中國古代和近代重要歷史人物的姓名、字號、生卒年、身份等信息。但是此部辭典中所涉及的歷史人物并不全面,其包含的主要是一些例如政治領(lǐng)袖、農(nóng)民起義領(lǐng)袖等歷史名人。例如,在此部辭典的“秦,秦漢之際”部分,僅包含有31位著名歷史人物,對于同時期其他人物并沒有提及。在互聯(lián)網(wǎng)已廣泛融入于人們?nèi)粘I畹慕裉?,關(guān)于歷史人物的相關(guān)信息在互聯(lián)網(wǎng)上也存在有大量的資源,例如百度百科、Wikipedia等都有著大量的相關(guān)信息收錄。然而這些信息的來源主要是互聯(lián)網(wǎng)上的電子出版物、網(wǎng)頁文章等,除了其中包含的歷史人物不夠全面的問題,由于這些信息來源并非是史料,其在信息的可信度及權(quán)威度方面也存在一定的缺陷,因此無法作為歷史研究過程中的佐證依據(jù)。
2.2 面向古漢語文獻資料的信息抽取工作
以往面向古漢語文獻的信息抽取研究工作主要是通過人工閱讀的方式進行開展。隨著信息技術(shù)的飛速發(fā)展,越來越多的研究工作開始向自動化、智能化的方向邁進。下面僅列舉最近5年內(nèi)的部分相關(guān)研究工作:
2013年香港城市大學(xué)的留金騰等人以古漢語文獻《淮南子》為基礎(chǔ),構(gòu)建了一個可用于古漢語分詞及詞性標注的語料庫,以用于古漢語分詞及詞性標注模型的學(xué)習(xí)、及相關(guān)方法的實驗驗證。
南京師范大學(xué)的梁社會等人以《孟子》為語料基礎(chǔ),采用條件隨機場(CRF)模型進行了古漢語的自動分詞方法研究,取得了F測度值94%的良好效果。
2014年復(fù)旦大學(xué)的朱曉等人以《明史》作為研究語料,驗證了基于CRF的無邊圖模型、完全圖模型及嵌套圖模型的性能,并將其用于古漢語的詞性標注工作,其構(gòu)建的三種圖模型的平均F測度值超過了90%。
同年南京師范大學(xué)的王嘉靈等人以《漢書》為語料基礎(chǔ),結(jié)合地名詞表及人名詞表等信息構(gòu)建了古漢語的自動分詞系統(tǒng),取得了83%的F測度值。
2015年南京農(nóng)業(yè)大學(xué)的黃水清等人基于《春秋左氏傳》分別構(gòu)建了CRF模型和最大熵模型,用于自動識別古漢語中的地域名稱,實驗結(jié)果表明其構(gòu)建的CRF模型優(yōu)于最大熵模型,達到了85%的F測度值。
北京語言大學(xué)的虞寧翌等人在2015年利用基于統(tǒng)計和規(guī)則的方法構(gòu)建了面向古漢語的虛詞檢測系統(tǒng),其F測度值達到了98%。
2016年廣州中醫(yī)藥大學(xué)的葉輝等人通過采用CRF模型,結(jié)合自然語言處理技術(shù),對古代醫(yī)學(xué)名著《金匱要略》中的癥狀藥物信息進行抽取,取得了F測度值77%的良好效果。
3 面向古漢語史料的信息抽取一般方法流程
在面向古漢語史料的信息抽取方法上,盡管不同的研究者采取了不同的技術(shù)措施,但其基本思路是遵循以古漢語史料為研究對象、通過對海量古漢語史料的觀察、分析和總結(jié),確定史料文本的關(guān)鍵句以及其與非關(guān)鍵句的關(guān)系,直接獲得用戶感興趣的史料信息。這就避免了“完全檢索”和“全文閱讀”帶來的資源浪費,提高了信息獲取速度和效率。下面謹就3篇代表性研究文獻分析歸納面向古漢語史料的信息抽取的一般方法流程。
3.1 《上古漢語分詞及詞性標注語料庫的構(gòu)建——以《淮南子》為范例》的信息抽取
《上古漢語分詞及詞性標注語料庫的構(gòu)建——以《淮南子》為范例》是留金騰(香港城市大學(xué))、宋彥(香港理工大學(xué))、夏飛(華盛頓大學(xué))發(fā)表于《中文信息學(xué)報》2013年06期的研究論文。文章從古漢語語料庫的簡介入手,進而分析《淮南子》與上古漢語詞語的特點(包括:上古漢語復(fù)音詞構(gòu)詞特點、上古漢語詞語形態(tài)特征、古漢語的詞性轉(zhuǎn)化),落實了語料庫的標注與校正。在語料庫標注與校正方面,采取動標注和人工校正交替進行的工作流程(見圖1),顯著提升了準確率。
基于語料庫信息的掌握,研究從詞匯詞性兩個角度分析整個語料庫的詞頻、詞長和詞性標注的統(tǒng)計分布,獲得高頻詞分布、詞語長度分布、詞性標注分布的具體數(shù)據(jù),提出了上古漢語分詞及詞性標注語料庫構(gòu)建的基本模式。
3.2 《基于先秦語料庫的古漢語地名自動識別模型構(gòu)建研究》的信息抽取
《基于先秦語料庫的古漢語地名自動識別模型構(gòu)建研究》是南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院黃水清、王東波、何琳三位教授發(fā)表于《圖書情報工作》2015年12期的研究成果。文章通過對《春秋左氏傳》中地名的內(nèi)部和外部特征進行統(tǒng)計分析,將條件隨機場模型和最大熵模型應(yīng)用于古漢語地名自動識別模型的構(gòu)建,并借助語料庫地名的內(nèi)部和外部特征統(tǒng)計、語料的預(yù)處理、自動識別模型的構(gòu)建與測評等技術(shù)環(huán)節(jié),得出條件隨機場模型優(yōu)于最大熵模型,基于人工標注的語料構(gòu)建條件隨機場自動識別模型能起的較好識別效果的理性化結(jié)論
3.3 《條件隨機場圖模型在《明史》詞性標注研究中的應(yīng)用效果探索》的信息抽取
《條件隨機場圖模型在《明史》詞性標注研究中的應(yīng)用效果探索》發(fā)表于《復(fù)旦學(xué)報(自然科學(xué)版)》2014年03期,是復(fù)旦大學(xué)碩士研究生朱曉在其導(dǎo)師金力教授指導(dǎo)下完成的研究論文。論文選擇編年體體裁的《明史》作為研究語料,通過交叉檢驗法比較了基于條件隨機場的無邊圖模型、完全圖模型、和嵌套圖模型在古漢語詞性標注中的應(yīng)用。在關(guān)于條件隨機場模型的特征設(shè)置、三種圖模型的選擇及交叉檢驗的方法上突出優(yōu)選,闡述了在《明史》詞性標注中完全圖模型和嵌套圖模型優(yōu)于無邊圖模型、分詞在某種意義上能夠提高古漢語詞性標注效率的重要發(fā)現(xiàn)。
4 結(jié)語
綜上所述,利用信息技術(shù)面向海量古漢語史料進行相關(guān)信息的抽取,從而為歷史研究人員提供相應(yīng)的數(shù)據(jù)資源及佐證信息,已經(jīng)成為歷史人物研究的一個重要潮流趨勢。而分析并利用古漢語特有的句法結(jié)構(gòu)特征,則是面向古漢語史料進行信息抽取的一個必不可少的技術(shù)途徑。
參考文獻
[1] 留金騰,宋彥,夏飛.上古漢語分詞及詞性標注語料庫的構(gòu)建——以《淮南子》為范例[J].中文信息學(xué)報,2013(06):6-15.
[2] 朱曉,金力.條件隨機場圖模型在《明史》詞性標注研究中的應(yīng)用效果探索[J].復(fù)旦學(xué)報(自然科學(xué)版),2014(03):297-304.
[3] 郭喜躍,何婷婷.信息抽取研究綜述[J].計算機科學(xué),2015(02):14-16.
[4] 黃水清,王東波,何琳.基于先秦語料庫的古漢語地名自動識別模型構(gòu)建研究[J].圖書情報工作,2015(12):135-140.
[5] 虞寧翌,饒高琦,荀恩東.文言信息的自動抽取-基于統(tǒng)計和規(guī)則的嘗試[J].中文信息學(xué)報,2015(06):127-134.
[6] 葉輝,姬東鴻.基于多特征條件隨機場的《金匱要略》癥狀藥物信息抽取研究[J].中醫(yī)藥信息研究,2016(05):14-17.