王東波 陸昊翔 彭運海 包 平 徐晨飛
(1. 南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095; 2. 菏澤廣電傳媒集團,菏澤 274003;3. 南京農(nóng)業(yè)大學(xué)數(shù)字人文研究中心,南京 210095; 4. 南通大學(xué)經(jīng)濟與管理學(xué)院,南通 226019)
中國浩如煙海的古籍承載著璀璨的文化,如何對其進行全面整理和理解,是新時代傳承和發(fā)揚中華傳統(tǒng)文化的重要方向。但由于傳統(tǒng)古籍距今已有千百年歷史,時間跨度大、語體豐富和各歷史階段的語言風(fēng)格差異等問題成為目前處理古籍資料的重大阻礙。其中“古文句讀”給目前的文獻處理和數(shù)字化工程帶來了較大的困難,古人追求的因聲求氣以及涵詠情性文化方式,促使古文獻中極少出現(xiàn)標點符號對文章進行斷句分隔,直到現(xiàn)在,仍有不少的古代文化仍以連續(xù)的字符串形式沉睡在古書籍中,后世需要花費大量的人力物力對其進行句讀理解。
傳統(tǒng)的古文句讀需要專業(yè)的古代文化研究者反復(fù)閱讀文獻,在理解全篇文章語義和揣摩情感大方向的前提下,對文獻進行標點分隔,使其符合現(xiàn)代文的閱讀和理解方式,該模式不僅對研究者的古文學(xué)術(shù)素養(yǎng)有很高的要求,同時需要耗費大量的時間,且長文本的斷句準確性仍有不小的提高空間。隨著計算機技術(shù)的不斷發(fā)展,具備自然語言處理和語言學(xué)背景的學(xué)者,開始考慮將計算機技術(shù)和古文斷句聯(lián)系起來,提出了不少的機器學(xué)習(xí)方法解決古文斷句問題,取得了不錯效果,但訓(xùn)練數(shù)據(jù)構(gòu)造難度大、識別時間長和識別準確度低等問題也需要重點考慮。
深度學(xué)習(xí)的出現(xiàn)為古文句讀帶來了新的解決模式,與傳統(tǒng)機器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法和模型不需要人為構(gòu)造訓(xùn)練模板和匹配模式,極大提高了訓(xùn)練速度和準確度,但該方法沒有解決關(guān)鍵的語料處理問題,即深度學(xué)習(xí)同樣需要針對不同的古文數(shù)據(jù)構(gòu)造出足夠的訓(xùn)練數(shù)據(jù)集合,該過程同樣費時費力。與此同時,許多學(xué)者和研究人員在使用深度學(xué)習(xí)方法解決古文斷句問題時,主要采用直接調(diào)用開源深度學(xué)習(xí)模型的方法,該方法過度依賴開源深度學(xué)習(xí)模型,而目前的開源深度學(xué)習(xí)模型主要是基于現(xiàn)代漢語語料訓(xùn)練出來的,對古文的語義感知度不及現(xiàn)代漢語,導(dǎo)致了很多古文斷句模型無法在新的語料上進行重復(fù)使用。為了優(yōu)化古文自動斷句結(jié)果,解決訓(xùn)練數(shù)據(jù)構(gòu)造等問題,基于原始BERT模型,并在繁體中文版的《四庫全書》全文數(shù)據(jù)集合上訓(xùn)練得到了SikuBERT系列模型[1],該模型以古漢語為訓(xùn)練語料,對古代文獻數(shù)據(jù)的識別效果要優(yōu)于原始BERT模型。為進一步研究SikuBERT模型的斷句識別效果,并實現(xiàn)對《方志物產(chǎn)》進行斷句研究,本文將訓(xùn)練得到最優(yōu)的SikuBERT模型遷移到《方志物產(chǎn)》數(shù)據(jù)集上,探究古漢語斷句模型與遷移學(xué)習(xí)結(jié)合的相關(guān)內(nèi)容,進一步減少模型訓(xùn)練中的數(shù)據(jù)清洗、數(shù)據(jù)標注、數(shù)據(jù)增強和引入字典等繁瑣工序。
《方志物產(chǎn)》是上世紀六十年代,在中國農(nóng)業(yè)遺產(chǎn)研究室著名農(nóng)史學(xué)家萬國鼎先生領(lǐng)導(dǎo)下查抄、整理、匯編國內(nèi)七千余種宋至民國方志而成的物產(chǎn)專題性資料,在學(xué)界具有重要影響力[2]。該書數(shù)據(jù)規(guī)模龐大,蘊含著重要的歷史研究價值,如何對其中的物產(chǎn)知識信息進行有效整理,是后續(xù)基于《方志物產(chǎn)》文本資源進行深度組織、挖掘與利用的前提。目前,針對《方志物產(chǎn)》文本數(shù)據(jù)的研究主要集中在數(shù)據(jù)庫建設(shè)和數(shù)字人文環(huán)境下的文本命名實體識別提取。前者主要以構(gòu)建關(guān)聯(lián)知識系統(tǒng)為目標,如朱鎖玲將《方志物產(chǎn)》中的廣東、福建和臺灣三個省份的農(nóng)業(yè)數(shù)據(jù)作為研究對象,基于命名實體識別技術(shù),對文本中的地名進行自動識別,并挖掘了物產(chǎn)與地名間的關(guān)系[3]。這類研究主要基于已有的機器學(xué)習(xí)技術(shù)實現(xiàn)數(shù)據(jù)的整理和組織,并未涉及對機器學(xué)習(xí)方法和文本資源提取的進一步探究,但是為后續(xù)進行機器學(xué)習(xí)模型改進提供了方向和目標。而數(shù)字人文框架下的結(jié)合《方志物產(chǎn)》數(shù)據(jù)和諸多數(shù)據(jù)識別提取技術(shù)的研究是本文的重要靈感來源。由于《方志物產(chǎn)》文本具有書寫方式、文本結(jié)構(gòu)和歷史跨度等特殊性,針對其數(shù)據(jù)識別和提取,研究經(jīng)歷了基于規(guī)則的方法、基于傳統(tǒng)機器學(xué)習(xí)方法和基于深度學(xué)習(xí)方法三個階段,朱鎖玲、包平基于規(guī)則和統(tǒng)計的方式,對《方志物產(chǎn)》廣東分卷中的地名數(shù)據(jù)進行提取,準確率達到了71.83%[4]。李娜在規(guī)則和統(tǒng)計的基礎(chǔ)上,采用條件隨機場模型分別對《方志物產(chǎn)》山西分卷中的物產(chǎn)別名進行了抽取,取得了不錯的識別效果[5];徐晨飛等則在實驗中基于深度學(xué)習(xí)技術(shù)中的Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT等四種模型,實現(xiàn)了對《方志物產(chǎn)》云南分卷語料中的物產(chǎn)別名、人物、產(chǎn)地及引書等實體的自動識別,該研究表明深度學(xué)習(xí)模型和方法相較于傳統(tǒng)的機器學(xué)習(xí)模型,對古籍方志文本實體識別任務(wù)具有一定的優(yōu)越性[6]。
古代文獻中極少出現(xiàn)標點符號用以區(qū)分句子和段落,這為后世對文獻進行學(xué)習(xí)和整理研究造成了極大的困擾,如何為古文獻段落斷句成為了重要的研究方向之一。目前針對古文斷句方法的研究主要以機器學(xué)習(xí)方法為主,而基于規(guī)則和統(tǒng)計方式的句讀效果有限,且耗時費力。如黃建年等基于規(guī)則匹配的方式構(gòu)造正則表達式,對農(nóng)業(yè)古籍中的句子和標點進行識別,最終斷句正確率為48%,標點符號的識別準確率為35%[7],這距離實際應(yīng)用還有一定的距離。針對這一問題,后續(xù)研究者嘗試使用機器學(xué)習(xí)方式解決該問題,常用的機器學(xué)習(xí)識別模型有條件隨機場模型、隱馬爾可夫模型(BioTrHMM)和最大熵模型,張開旭等基于條件隨機場模型,運用序列標注思想解決古文斷句問題,并在《論語》和《史記》數(shù)據(jù)集上進行了斷句識別實驗,識別結(jié)果F值接近80%[8];黃瀚萱比較了條件隨機場模型和隱馬爾可夫模型在古文斷句問題上的識別效果,在《論語》《孟子》等古文獻數(shù)據(jù)集合上的斷句識別實驗得出條件隨機場模型的識別效果更優(yōu)[9]。傳統(tǒng)機器學(xué)習(xí)模型需要人為構(gòu)建特征模板,實驗人員的數(shù)據(jù)感知力和古代文學(xué)素養(yǎng)極大影響了模型的識別效果。因此,越來越多的研究人員開始將深度學(xué)習(xí)技術(shù)和古文句讀任務(wù)結(jié)合起來,王博立等采用基于GRU的雙向神經(jīng)網(wǎng)絡(luò)模型進行古文斷句實驗,最終實驗F值達到了75%[10];俞敬松等在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上根據(jù)具體任務(wù)進行適配微調(diào),在單一文本類別和復(fù)合文本類別測試集上的F1值分別達到89.97%和91.67%[11]。
遷移學(xué)習(xí)指的是將某個領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問題中。在自然語言處理領(lǐng)域,遷移學(xué)習(xí)的主要應(yīng)用即將基于某領(lǐng)域數(shù)據(jù)訓(xùn)練得到的模型或算法,通過簡單適配調(diào)整直接應(yīng)用到相關(guān)領(lǐng)域數(shù)據(jù)集合中,極大地減少了工作強度。杜倫(Thrun S)提出了終身學(xué)習(xí)(Life Learning)理念,指出在終身學(xué)習(xí)過程中,大量的學(xué)習(xí)和成果均來自少量訓(xùn)練數(shù)據(jù),并基于該少量數(shù)據(jù)不斷推廣和遷移獲取大量新知識,因此學(xué)習(xí)遷移已有知識具有重要的作用,為后續(xù)的遷移學(xué)習(xí)理論發(fā)展做出了一定的貢獻[12]。陸杰(Lu J)和瓦希德·貝博德(Vahid B)等在傳統(tǒng)機器學(xué)習(xí)方法的基礎(chǔ)上,研究了基于計算智能的遷移學(xué)習(xí)技術(shù),并將相關(guān)技術(shù)的發(fā)展分為四大類,為本文的遷移學(xué)習(xí)理論構(gòu)建和方法選擇提供了重要借鑒[13];高冰濤等基于權(quán)值學(xué)習(xí)模型,構(gòu)建了基于遷移學(xué)習(xí)的隱馬爾可夫模型,并在GENIA語料庫的數(shù)據(jù)集上的實驗表明,基于遷移學(xué)習(xí)的隱馬爾可夫模型比傳統(tǒng)的隱馬爾可夫模型算法具有更好的性能[14];錢誠(Qian C )等人使用集成學(xué)習(xí)策略設(shè)計了稱為異構(gòu)集成在線遷移學(xué)習(xí)(HetEOTL)的算法,并在開放數(shù)據(jù)集上對該算法進行測試和評價,實驗結(jié)果表明HetEOTL 比其他一些現(xiàn)有的在線學(xué)習(xí)和遷移學(xué)習(xí)算法具有更好的性能[15];徐志杰(Xu Z)和孫世亮(Sun S)將多視圖學(xué)習(xí)理論融入到遷移學(xué)習(xí)中,并提出了一種基于自適應(yīng)提升算法的多視圖遷移學(xué)習(xí)模型(Multi-View Transfer Learning with Adaboost),并在多視圖角度下證明了該算法具有不錯的遷移學(xué)習(xí)效果[16];武惠等針對中文命名實體識別問題,提出了一種基于遷移學(xué)習(xí)和深度學(xué)習(xí)的長短期記憶神經(jīng)網(wǎng)絡(luò)模型(TrBiLSTM-CRF),實驗結(jié)果表明,該模型在小規(guī)模數(shù)據(jù)集上進行中文機構(gòu)名命名實體識別時具有較好的識別效果[17];安藤(Ando)等人提出了一種新的學(xué)習(xí)預(yù)測框架,并較為詳細地解釋了傳統(tǒng)機器學(xué)習(xí)和遷移學(xué)習(xí)方法間的聯(lián)系和區(qū)別,后者對本研究的深度學(xué)習(xí)模型選擇和遷移學(xué)習(xí)數(shù)據(jù)構(gòu)建部分有較大幫助[18];王紅斌等在命名實體識別任務(wù)中,提出一種基于實例的遷移學(xué)習(xí)算法,該算法比傳統(tǒng)的條件隨機場模型具有更優(yōu)的性能,且極大降低了數(shù)據(jù)標注量[19]。
從上述相關(guān)領(lǐng)域的研究可以發(fā)現(xiàn),針對古文斷句任務(wù),基于統(tǒng)計規(guī)則的方法和基于傳統(tǒng)機器學(xué)習(xí)的方式取得的實驗效果有限,且實驗復(fù)雜度高,模型推廣性和復(fù)用性不足,而基于深度學(xué)習(xí)模型的方式仍然沒有擺脫標注數(shù)據(jù)和構(gòu)建訓(xùn)練數(shù)據(jù)集的問題。本文總結(jié)以上經(jīng)驗,并結(jié)合目前的遷移學(xué)習(xí)理論知識,對基于遷移學(xué)習(xí)理論和Siku-BERT自主訓(xùn)練預(yù)訓(xùn)練模型的《方志物產(chǎn)》斷句任務(wù)進行了研究。
本文進行的實驗主要包括兩個主體部分,即自主預(yù)訓(xùn)練模型構(gòu)建部分和模型遷移部分(圖1)。第一部分主要是基于《四庫全書》數(shù)據(jù)和雙向編碼模型(BERT)訓(xùn)練自主預(yù)訓(xùn)練模型,并在不斷優(yōu)化反饋中得到最優(yōu)的實驗結(jié)果;第二部分主要是基于《方志物產(chǎn)》數(shù)據(jù)構(gòu)建開放測試集合,結(jié)合第一部分得到的最優(yōu)模型對文本進行斷句識別,并對結(jié)果進行評價。
圖1 實驗總體流程
預(yù)訓(xùn)練模型所用數(shù)據(jù)來源于繁體中文版的《四庫全書》全文數(shù)據(jù)。《四庫全書》共收書3503種,79337卷,36304冊,近230萬頁,約8億字?!端膸烊珪房梢苑Q為中華傳統(tǒng)文化最豐富最完備的集成之作。
在構(gòu)造訓(xùn)練數(shù)據(jù)集合和測試數(shù)據(jù)集合之前,先以句子為劃分依據(jù)將數(shù)據(jù)切分,同時保留古文原文數(shù)據(jù),去除現(xiàn)代文注解部分,最后按照99∶1的比例劃分訓(xùn)練集和測試驗證集。
實驗以BERT-base-Chinese預(yù)訓(xùn)練模型和Chinese-roberta-wwm-ext預(yù)訓(xùn)練模型作為基本模型,在訓(xùn)練方法的選取上采用了掩碼語言模型任務(wù)(MLM),通過預(yù)測遮罩部分詞匯的方式完成深度雙向表征的訓(xùn)練,采用困惑度(PPL)作為評價指標。實驗中設(shè)置序列最大長度為512,每個序列隨機遮罩15%的字符。
經(jīng)過驗證,SikuRoBERTa在驗證集上的困惑度達到1.4,SikuBERT的困惑度達到16.787,初步驗證表明,經(jīng)過領(lǐng)域化語料上的二次微調(diào),SikuBERT和SikuRoBERTa具有較低的困惑度。從評價語言模型的角度來看,在《四庫全書》語料下,相比原始BERT模型和Roberta模型,其性能有所提升。
為驗證SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型對于古文斷句的識別效果,我們在《左氏春秋傳》《春秋公羊傳》和《春秋谷梁傳》三本古文著作數(shù)據(jù)集中進行斷句識別實驗(表1)。
表1 模型斷句識別結(jié)果指標平均值
實驗結(jié)果顯示SikuBERT和SikuRoBERTa模型效果均超過85%,SikuBERT的最優(yōu)F值最高達到了87.53%,同時這也是多組對比實驗中的最好實驗結(jié)果。guwenbert-base模型的識別調(diào)和平均值在各組實驗中表現(xiàn)最差,僅有28.32%,遠低于其他識別模型的識別效果。基礎(chǔ)的BERT-base-Chinese和基于原始BERT模型訓(xùn)練得到的Roberta識別效果一般,其調(diào)和平均值分別只有78.70%和66.54%,低于我們自主預(yù)訓(xùn)練的識別模型。
《方志物產(chǎn)》是從6,170種地方志中輯錄、摘抄物產(chǎn)資料,最終輯成431冊,約23,225,659萬字,具有極高的農(nóng)業(yè)史、自然資源史和經(jīng)濟史料價值。本實驗選取其中約68萬字方志物產(chǎn)數(shù)據(jù)構(gòu)建數(shù)據(jù)集,清洗其中無法被機器處理的符號,對無法被機器讀取和辨識的繁體文字進行查閱、校對和簡化替代,并將最終的22,067個句子,共683,628個字符存入數(shù)據(jù)庫中,該數(shù)據(jù)集中不包含標點符號。
遷移學(xué)習(xí)的核心思想即將基于已標注的數(shù)據(jù)訓(xùn)練得到的模型遷移到新的數(shù)據(jù)和模型中,幫助模型訓(xùn)練。通過遷移學(xué)習(xí),我們可以將模型學(xué)到的數(shù)據(jù)間的高緯度特征通過某種方式直接分享給新模型,從而加快并優(yōu)化模型的學(xué)習(xí)效率,避免每次訓(xùn)練模型都需要從數(shù)據(jù)標注開始。
在遷移學(xué)習(xí)中,已有的數(shù)據(jù)或知識叫源域(Sourcedomain),需要模型學(xué)習(xí)的新知識叫目標域(Targetdomain)。遷移學(xué)習(xí)研究如何將源域的知識或深層特征遷移到目標域上,在機器學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)主要研究如何將已有的模型應(yīng)用到新的、不同的但有一定關(guān)聯(lián)性的領(lǐng)域中。基于傳統(tǒng)機器學(xué)習(xí)模型的遷移學(xué)習(xí)效果有限,主要問題集中在機器學(xué)習(xí)模型獲取的特征和知識維度較低,特征間的關(guān)聯(lián)性較弱,在對新數(shù)據(jù)進行識別標注時往往出現(xiàn)“負遷移”的情況。越來越多的學(xué)者在不斷實驗中發(fā)現(xiàn)基于深度學(xué)習(xí)模型的遷移學(xué)習(xí)能夠取得更好的效果,深度學(xué)習(xí)算法和模型能夠在數(shù)據(jù)分布、特征維度以及模型輸出變化條件下,有機地利用源域中的知識來對目標域更好地建模,在有標定數(shù)據(jù)缺乏的情況下,遷移學(xué)習(xí)可以很好地利用相關(guān)領(lǐng)域有標定的數(shù)據(jù)完成數(shù)據(jù)的標定。
遷移學(xué)習(xí)按照學(xué)習(xí)方式可以分為基于樣本的遷移、基于特征的遷移、基于模型的遷移和基于關(guān)系的遷移。基于樣本的遷移通過對源域中已標注的樣本數(shù)據(jù)進行加權(quán)和特征提取利用實現(xiàn)知識的遷移,本文所進行的實驗中,源域知識來自《四庫全書》繁體中文版數(shù)據(jù),目標域知識集中于《方志物產(chǎn)》,二者均為系統(tǒng)性知識庫,語言風(fēng)格和內(nèi)容知識存在較強關(guān)聯(lián)性,符合遷移學(xué)習(xí)思想的基本要求。同時,本文的實驗主要目的為以下兩點:(1)探究基于大規(guī)模古文數(shù)據(jù)集《四庫全書》訓(xùn)練得到的SikuBERT模型在古文數(shù)據(jù)中的斷句識別遷移效果;(2)探究《方志物產(chǎn)》文本斷句任務(wù)是否能夠通過計算機直接完成,加快內(nèi)容信息挖掘進度。所以,基于樣本的遷移學(xué)習(xí)方法符合實驗?zāi)康?,且具有實施可行性?/p>
本實驗為斷句識別實驗,只有當整個句子的所有標簽全部識別正確時,才能夠判斷該句子識別成功。對實驗數(shù)據(jù)中的句子長度進行統(tǒng)計分析,可以看出數(shù)據(jù)中的句子長度主要分布在8—20之間。為更好地對數(shù)據(jù)內(nèi)部句子長度分布進行表示,采用“BME”三位標簽對數(shù)據(jù)進行標注,其中“BIE”對句子進行標注,如“可B 以I □I 而I 不I 及I 福I 產(chǎn)E”,其中I標簽為內(nèi)部循環(huán)標簽。
如表2數(shù)據(jù)所示,數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的句子長度為4,共有15,455條,占全部句子數(shù)量的29.03%;同時,長度為5和3的句子分別出現(xiàn)8,091次和7,487次,占總體的15.20%和14.06%,三者共出現(xiàn)31,033次,占總體比例達到58.30%,超過了全部句子的一半。占比超過5%的句子長度均在序號2到7之間,這些句子共出現(xiàn)45,812次,占全部句子數(shù)量的86.01%,模型在提取斷句特征時,長度為序號2到7之間的句子特征將對模型性能和識別結(jié)果起到關(guān)鍵性作用。
表2 句子長度分布示例
使用精確率(Precision)、召回率(Recall)和F值(F-score)能夠?qū)υ擃愋偷臉俗⒏袷竭M行較合理的評價。
(1)
(2)
(3)
在對識別結(jié)果進行評價時,遵循整體性原則,即從句子整體層面計算準確率、召回率和F值,只有句子的所有標簽全部識別正確,才判定為識別成功一次,單個標簽的準確率、召回率和F值不做單獨計算和評價。
本文所有實驗的硬件配置和軟件環(huán)境配置相同,主要配置如表3所示。
表3 主要硬件和軟件參數(shù)
本文主要進行了四組對比遷移實驗,所用深度學(xué)習(xí)模型分別為BERT-base-Chinese、Roberta、SikuBERT和SikuRoBERTa,后三組模型均基于BERT模型框架進行配置和訓(xùn)練,故在實驗中采用相同超參數(shù)配置進行遷移斷句識別任務(wù)。主要超參數(shù)配置如表4所示。
表4 四組對比實驗主要超參數(shù)
為保證實驗結(jié)果的準確性,最大可能地避免實驗數(shù)據(jù)分布不同對識別結(jié)果的影響,四組對比實驗均進行了十折交叉驗證,對每組實驗的十次識別結(jié)果取平均值和最優(yōu)值作為該模型最終的識別效果。如表5所示。
表5 對比實驗結(jié)果
四組對比實驗結(jié)果顯示,基于《四庫全書》繁體中文數(shù)據(jù)和源BERT模型訓(xùn)練得到的SikuBERT自主預(yù)訓(xùn)練模型在遷移訓(xùn)練實驗中表現(xiàn)優(yōu)于其他模型,平均F值達到74.79%,最優(yōu)F值達到77.23%,而基于大規(guī)?,F(xiàn)代白話文語料訓(xùn)練得到的BERT-base-Chinese預(yù)訓(xùn)練模型在處理古文斷句任務(wù)時仍具有較大的改進空間,最優(yōu)F值為68.03%。與此同時,通過對基于源數(shù)據(jù)訓(xùn)練得到模型F值和遷移訓(xùn)練后得到的F值進行比較,發(fā)現(xiàn)SikuBERT模型的F值下降最少,僅為10.3個百分點,這也說明SikuBERT模型的可遷移性較好,在不同數(shù)據(jù)集合上的表現(xiàn)較為穩(wěn)定。
對模型輸出結(jié)果進一步統(tǒng)計,基于信息計量的數(shù)據(jù)統(tǒng)計方法對模型輸出進行分析,主要研究句子長度對識別結(jié)果是否有影響。
對模型輸出結(jié)果進行統(tǒng)計分析,在所有識別正確的句子中,出現(xiàn)頻率位于前十位的句子長度如表6所示。
表6 識別結(jié)果中句子長度分布情況
續(xù)表6
統(tǒng)計結(jié)果顯示,識別正確的句子中,從識別長度頻次角度來看,出現(xiàn)次數(shù)最多的為4字長度的句子,頻次達到了1,279次,高于5字長度的句子頻次和3字長度句子頻次之和,在總體中占據(jù)最高比例,具體例子如“木髙數(shù)尺”“晝伏夜動”和“秋末晚菘”等。同時,出現(xiàn)次數(shù)超過100的句子長度均分布在2字至9字之間,符合“方志”和“物產(chǎn)”類古文的書寫風(fēng)格。
從不同長度句子的識別準確率來看,長度為11字的句子識別效果最好,達到了92.50%,具體實例如“又一種結(jié)椒向上者曰天椒”“凡海菜皆療瘤癭結(jié)氣等疾”和“本邑農(nóng)人多種于車棚左右”等;在測試語料中句子數(shù)量較多,且識別正確頻次較高的句子中,長度為2和3的句子的識別準確率較低,僅為66.86%和76.42%,低于總體識別效果的77.23%。長度為3的句子主要分布在兩種語言環(huán)境中:第一種是三字句作為獨立段落,如“嘉靖志”“猛獸類”和“晚穫者”等情況,該類型的三字句識別效果較高,識別效果接近97%;第二類三字句位于多句段落中,該語境中的三字句總體識別效果較低,經(jīng)過分析發(fā)現(xiàn)該類數(shù)據(jù)被識別錯誤的情況主要分為兩類:(1)出現(xiàn)于多短句并列句式中,如在“即枸杞根皮〈/〉苦寒〈/〉無毒〈/〉退熱〈/〉補正氣〈/〉凡使根〈/〉掘得以東流水透刷去土〈/〉捶去心〈/〉以熟甘草湯浸一宿〈/〉焙干用”和“豆之總名〈/〉有五色〈/〉又有莞豆〈/〉赤小豆〈/〉扁豆”中,“補正氣”“凡使根”“捶去心”“有五色”和“赤小豆”的識別效果較低,識別錯誤類型主要是無法被識別,起始字和結(jié)尾字均無法被識別,被識別前后句子的一部分,全部標注為“I”標簽。(2)出現(xiàn)于有多句的長段落中間部分,如“一名肥鮀〈/〉頭大嘴微尖在頷下〈/〉眼作紅絲圈〈/〉耳竅通於腦〈/〉無鱗少刺〈/〉鬆脆鮮好〈/〉古曰鱒〈/〉不易得”和“即元鳥也〈/〉古今注謂能與波祈雨〈/〉月令〈/〉二月元鳥至〈/〉色黑〈/〉故稱鳥衣客〈/〉此地最多〈/〉有二種〈/〉紅襟聲大者越燕斑襟〈/〉聲小者此燕〈/〉春社來秋社去〈/〉為巢避戊巳〈/〉則一也”中的“古曰鱒”和“有二種”,識別準確率較低,主要識別錯誤類型是三字詞的起始字常被當做前一句的結(jié)尾,常被標注為“鬆B 脆I 鮮I 好I 古E 曰B 鱒E”,或者整個三字句被當做前一句的一部分,全部被標注為“I”。
長度為2的句子主要分布情況與長度為3的句子分布情況類似,主要有單獨成段落形式和存在于段落中兩種。單獨成段落的情況下,主要是對該物產(chǎn)或地名等信息進行簡單性狀介紹,或針對多名稱物產(chǎn)指示至其他同名條目下,實例如“口尖”“性涼”和“即鵕”等,識別效果達到100%。當存在于段落中間時,多短句并列句式對兩字句的識別有重要影響,如“有白秥〈/〉紅秥〈/〉晚秥〈/〉鼠牙秥〈/〉六月秥〈/〉畬禾秥”和“凡六種〈/〉赤莧〈/〉白莧〈/〉人莧〈/〉紫莧〈/〉五色莧〈/〉馬莧〈/〉春三月種葉如蘭”中,“白秥”“紅秥”“晚秥”“赤莧”“白莧”“人莧”和“紫莧”的識別準確率較低。
對模型的識別效果進行評價時,不能獨立看待識別成功頻次和識別準確率以判斷句子的識別效果優(yōu)劣,一方面出現(xiàn)頻次較高長度的句子占總體比例高,識別效果對總體性能的影響較大,但另一方面這類長度的句子識別效果不能明顯低于平均水平。從綜合識別頻次和識別準確率兩個方面的數(shù)據(jù)來看,長度為3至7的句子占全部句子的比例較高,模型對這些句子的識別準確率也都貼近平均水平,所以可以得出模型對長度為3至7的句子的識別效果較為優(yōu)異。而長度為2的短句在測試語料中共出現(xiàn)519次,被識別正確的句子有347句,所占比例較高,但總體識別效果僅為66.86%,遠低于平均識別效果,嚴重地影響了總體識別性能,尤其是位于段落中的兩字句識別準確率不足50%,識別效果有待進一步提升。
為深入探究“補充解釋性”標點符號對模型識別效果的影響,在進行四組對比實驗的基礎(chǔ)上,在遷移目的數(shù)據(jù)中還原“補充解釋性”標點符號。本實驗數(shù)據(jù)中的“補充解釋性”標點符號全部為“(”和“)”兩種符號,如“葉可食〈/〉清明節(jié)搗汁和粉為果餌祀先〈/〉一名夾麥青(新城縣志)”。不排除在擴大數(shù)據(jù)集合過程中出現(xiàn)的其他標點符號,如“〈〉”和“[]”等,該類符號的語言功能相同,僅在形式上存在差異,故在機器處理和識別過程中被視為同一類型數(shù)據(jù)。除源數(shù)據(jù)不相同外,其余軟硬件配置、模型參數(shù)配置和操作步驟不做任何改變,得到以下識別結(jié)果(表7)。
表7 帶標點的數(shù)據(jù)遷移斷句結(jié)果
實驗結(jié)果顯示,在源數(shù)據(jù)中添加“補充解釋性”標點符號后,實驗結(jié)果并未出現(xiàn)較大波動,四組實驗的最優(yōu)F值均有了較小的提升。對模型識別結(jié)果進行分析,發(fā)現(xiàn)添加進數(shù)據(jù)的“(”和“)”符號均識別成功,識別準確率達到了100%,且以“(”符號為開頭和以“)”符號為結(jié)尾的句子識別準確率有一定的提升,但提升效果有限。綜合以上分析可得結(jié)論,最終添加“補充解釋性”標點符號對實驗結(jié)果有一定的提升作用,但提升效果不佳。
總體來看,SikuBERT模型的遷移效果最優(yōu),在無標點數(shù)據(jù)上的最優(yōu)F值達到了77.23%,相較于源BERT模型的遷移效果提升了9.2個百分點;在有“補充解釋性”標點符號的數(shù)據(jù)上取得了77.31%的最優(yōu)F值,比源BERT模型提高了8.54個百分點。但兩部分對比實驗結(jié)果并未達到可實際應(yīng)用的層面,后續(xù)仍有較大的改進空間?;凇端膸烊珪贩斌w中文數(shù)據(jù)訓(xùn)練得到的SikuBERT預(yù)訓(xùn)練模型的遷移性值得肯定,且《方志物產(chǎn)》數(shù)據(jù)斷句任務(wù)可在機器斷句的基礎(chǔ)上加以人工核對,極大地減少和降低了工作量和工作難度。
本文基于遷移學(xué)習(xí)理論和深度學(xué)習(xí)模型,在解決古文領(lǐng)域的斷句難問題時,提出“自動斷句遷移模型構(gòu)建”這一研究點。實驗核心內(nèi)容集中在基于《四庫全書》繁體數(shù)據(jù)的SikuBERT預(yù)訓(xùn)練模型構(gòu)建、《方志物產(chǎn)》目的域數(shù)據(jù)構(gòu)建、遷移學(xué)習(xí)理論與任務(wù)結(jié)合探究和最終的斷句任務(wù)遷移學(xué)習(xí)實驗。本文在遷移學(xué)習(xí)理論基礎(chǔ)上,提出了古文斷句任務(wù)與深度學(xué)習(xí)方法的結(jié)合,在源數(shù)據(jù)集合上訓(xùn)練得到最優(yōu)模型、學(xué)習(xí)數(shù)據(jù)的高緯度特征關(guān)系,并將該特征知識遷移到相關(guān)領(lǐng)域數(shù)據(jù)上,一方面驗證了實驗構(gòu)建的SikuBERT自主預(yù)訓(xùn)練模型的古文斷句能力和遷移識別能力,另一方面證明了《方志物產(chǎn)》斷句任務(wù)可在機器斷句的基礎(chǔ)上極大地簡化人工標注任務(wù)量。
實驗結(jié)果表明,SikuBERT自主預(yù)訓(xùn)練模型在《四庫全書》和《方志物產(chǎn)》斷句任務(wù)中表現(xiàn)較為出色,相較于源BERT模型有較大提升,間接說明了古文相關(guān)處理任務(wù)的最終落腳點還是古文本身,基于現(xiàn)代漢語的機器學(xué)習(xí)和深度學(xué)習(xí)模型不能夠有效解決古文識別任務(wù)。同時,本實驗的《方志物產(chǎn)》遷移斷句識別效果表明,以《方志物產(chǎn)》為代表的舊方志文獻文本挖掘任務(wù)可以在SikuBERT模型的基礎(chǔ)上進行遷移,通過“人機結(jié)合”的方式減少和降低數(shù)據(jù)挖掘任務(wù)量和難度。
在接下來的工作中,筆者將主要從數(shù)據(jù)關(guān)聯(lián)度和標點可用性兩個方面,探討如何提高古文斷句和斷句遷移效果。數(shù)據(jù)關(guān)聯(lián)性方面,主要探討源域數(shù)據(jù)特征和目的域數(shù)據(jù)特征間的相關(guān)性,主要從語言語體風(fēng)格和數(shù)據(jù)量等方面進行探討。標點可用性方面,主要驗證在不同數(shù)據(jù)量和不同句子長度條件下,非斷句符標點對最終的識別效果是否總是起負向推動作用。