大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索

2016-12-29 19:16歐陽劍

大學(xué)圖書館學(xué)報(bào) 2016年3期

歐陽劍

摘要利用新的信息技術(shù)與面向數(shù)字人文研究的跨學(xué)科方法，采用大數(shù)據(jù)研究理念對(duì)古籍文本進(jìn)行字詞的歷時(shí)詞頻分布規(guī)律可視化分析，以中國史定量研究為例，對(duì)部分中國史的經(jīng)典宏觀理論從量化角度進(jìn)行了初步驗(yàn)證。認(rèn)為大數(shù)據(jù)視域下的技術(shù)邏輯和人文邏輯相耦合的數(shù)字人文研究為人文社會(huì)科學(xué)經(jīng)典理論的驗(yàn)證和拓展提供了更多研究空間與研究方法，有利于推進(jìn)古籍文獻(xiàn)深層次的開發(fā)與利用。

關(guān)鍵詞大數(shù)據(jù) 數(shù)字人文定量分析計(jì)量史古籍

1.引言

隨著“大數(shù)據(jù)”時(shí)代的到來，對(duì)大規(guī)模歷史資料進(jìn)行定量分析已成為歷史學(xué)研究中一種新的、行之有效的方法，通過統(tǒng)計(jì)分析從大規(guī)模數(shù)據(jù)中挖掘新事實(shí)、產(chǎn)生新認(rèn)識(shí)，能夠發(fā)現(xiàn)靠傳統(tǒng)文獻(xiàn)閱讀無法發(fā)現(xiàn)的隱藏在歷史文獻(xiàn)中的史實(shí)與現(xiàn)象。20世紀(jì)中期以來，歷史學(xué)定量分析逐漸成為國際學(xué)術(shù)研究中的一股新風(fēng)潮，并服務(wù)于學(xué)界，現(xiàn)在學(xué)者們認(rèn)為許多不具備數(shù)字特征的事物或事件，只要所研究的事物或事件存在特征并能加以量化，同樣可進(jìn)行定量研究，計(jì)量史學(xué)在經(jīng)濟(jì)史、政治史、社會(huì)史、人口史等領(lǐng)域研究中取得了很多的研究成果，發(fā)揮著巨大的作用。人文學(xué)科中的定量研究不僅能通過數(shù)據(jù)挖掘新發(fā)現(xiàn)，更能解釋和理解這些發(fā)現(xiàn)，進(jìn)而改變我們固有的歷史和社會(huì)科學(xué)理論與認(rèn)知。

大數(shù)據(jù)給了人文學(xué)科研究的全新思維。人文學(xué)科研究往往會(huì)預(yù)先設(shè)定研究問題或理論模型和假設(shè)，然后去尋找相關(guān)材料，但部分研究因?yàn)椴牧鲜占休^強(qiáng)的主觀性和選擇性，往往傾向于重復(fù)確認(rèn)“已知”，而忽略發(fā)現(xiàn)“未知”。因此，很難促進(jìn)對(duì)社會(huì)事物整體規(guī)律形成統(tǒng)一且有效的認(rèn)知。而大數(shù)據(jù)研究思維則不是隨機(jī)樣本，而是全體數(shù)據(jù)；不是精確性，而是混雜性；不是因果關(guān)系，而是相關(guān)關(guān)系。埃雷茲·艾登（Erez Aiden）等在《可視化未來數(shù)據(jù)透視下的人文大趨勢》（UNCHARTED：Big Data as a Lens on Human Culture）中以“谷歌圖書”項(xiàng)目為背景，通過500多萬本電子書不同詞匯使用頻度隨時(shí)間的變化，講述了大數(shù)據(jù)在研究歷史文化、人類語言、社會(huì)名望、群體記憶等方面的重要作用，凸顯了大數(shù)據(jù)對(duì)人文社會(huì)科學(xué)研究的變革意義。大數(shù)據(jù)時(shí)代的各種思潮和視角在不斷涌現(xiàn)，大數(shù)據(jù)作為一種全新的資料，以其大大超越傳統(tǒng)調(diào)查數(shù)據(jù)的樣本量和時(shí)間跨度，為人文社會(huì)科學(xué)經(jīng)典理論的驗(yàn)證和拓展提供了更多研究空間。而基于大數(shù)據(jù)的定量分析則為人文社會(huì)科學(xué)研究提供了一個(gè)全新的視角，傳統(tǒng)人文社會(huì)科學(xué)的實(shí)證研究強(qiáng)調(diào)在理論的前提下建立假設(shè)，大數(shù)據(jù)時(shí)代重在發(fā)現(xiàn)知識(shí)與現(xiàn)象，在沒有理論假設(shè)的前提下去預(yù)知，從海量的數(shù)據(jù)中發(fā)現(xiàn)知識(shí)，尋找隱藏在數(shù)據(jù)中的模式、趨勢和相關(guān)性，揭示事物現(xiàn)象與發(fā)展規(guī)律，大規(guī)模的古籍文獻(xiàn)擴(kuò)大了人文學(xué)科資料的范圍，提供了人文學(xué)科新的研究空間和新的研究可能。

2.大數(shù)據(jù)視域下的傳統(tǒng)古籍文獻(xiàn)開發(fā)及利用分析

目前，我國古籍文獻(xiàn)的數(shù)字化已經(jīng)比較成熟，文字層面的數(shù)字化也具一定規(guī)模，為古籍的深度開發(fā)與利用奠定了基礎(chǔ)。古籍文獻(xiàn)的統(tǒng)計(jì)分析是數(shù)字人文研究對(duì)古籍深度利用的基本需求，定量分析則是數(shù)字人文研究的一種主要研究方式。與傳統(tǒng)的定性分析不同，定量分析是依據(jù)統(tǒng)計(jì)數(shù)據(jù)，建立數(shù)學(xué)模型，并用數(shù)學(xué)模型計(jì)算出分析對(duì)象的各項(xiàng)指標(biāo)及其數(shù)值的一種方法。因此，定量分析的應(yīng)用使人文學(xué)科研究更趨于科學(xué)化。人文學(xué)科的研究者對(duì)定量分析的需求日趨強(qiáng)烈，研究者不再滿足檢索結(jié)果的簡單羅列，更需要從計(jì)量學(xué)的角度對(duì)符合一定條件的古籍文獻(xiàn)從作者、文獻(xiàn)來源、體裁及年代等多角度進(jìn)行統(tǒng)計(jì)分析。近年來學(xué)者在古代詩、詞、古代文學(xué)及中國史等研究中采用定量研究的趨勢更為明顯，例如，武漢大學(xué)著名詞學(xué)研究者王兆鵬教授把文獻(xiàn)計(jì)量的方法成功地引入詞學(xué)研究中，李伯重教授在史學(xué)研究中大量地采用量化方法，李中清教授通過定量方法提出了150年來中國精英出身家庭四個(gè)階段論述，胡俊峰、俞士汶利用統(tǒng)計(jì)分析的方法定義了唐宋詩中詞匯語義的統(tǒng)計(jì)表達(dá)，20世紀(jì)90年代中期，北京大學(xué)開發(fā)的古詩研究系統(tǒng)就設(shè)置了統(tǒng)計(jì)分析的功能，定量方法的使用使得人文學(xué)科的研究成果增加了定量的特征，增強(qiáng)了人文科學(xué)研究的科學(xué)屬性。

此外，多元、多角度的對(duì)比分析及古籍內(nèi)容挖掘也是人文學(xué)科中數(shù)字人文研究所急需的?？茖W(xué)研究可以從多個(gè)角度進(jìn)行對(duì)比分析，發(fā)現(xiàn)新的問題與現(xiàn)象，尋找隱藏在數(shù)據(jù)中的模式、趨勢和相關(guān)性。對(duì)于作為史料來源的古籍文獻(xiàn)來說，通過文獻(xiàn)記載的史實(shí)對(duì)比，可以考察文獻(xiàn)原始出處及后續(xù)的演變。哲學(xué)上，空間和時(shí)間的依存關(guān)系表達(dá)著事物的演化秩序，時(shí)間及空間上的比較分析法是常用的分析方法，它從時(shí)間角度和空間角度對(duì)事物的發(fā)展及變化進(jìn)行立體式的描述，將是古籍文獻(xiàn)深度利用方面的重要方式。而古籍內(nèi)容挖掘更是人文學(xué)科領(lǐng)域深度分析的主要方式。利用文本挖掘技術(shù)可以對(duì)歷史事件的發(fā)展等做出宏觀的描述，更能準(zhǔn)確地還原歷史真相，對(duì)古籍文獻(xiàn)中錯(cuò)綜復(fù)雜人物關(guān)系建立關(guān)聯(lián)，歷史人物的社會(huì)評(píng)價(jià)做出客觀的判斷，對(duì)語言、社會(huì)及地理等現(xiàn)象進(jìn)行有效的解釋，同時(shí)古籍內(nèi)容挖掘也是古籍?dāng)?shù)字化知識(shí)構(gòu)建的基礎(chǔ)。

隨著古籍?dāng)?shù)字化的進(jìn)一步發(fā)展，更多的學(xué)者開始認(rèn)識(shí)到古籍?dāng)?shù)字化帶給我們的不僅僅是海量的古籍文獻(xiàn)存儲(chǔ)，“數(shù)字化”為技術(shù)與人文的合流構(gòu)筑了新平臺(tái)，更為一個(gè)技術(shù)邏輯和人文邏輯相耦合的“數(shù)字人文”的出現(xiàn)提供了可能。傳統(tǒng)的古籍開發(fā)與應(yīng)用模式已難以適應(yīng)人文學(xué)科中數(shù)字人文研究的需要，急需研究輔助工具與研究方式的創(chuàng)新與開發(fā)。引入大規(guī)模定量計(jì)算分析方法，構(gòu)建可持續(xù)完善和豐富的數(shù)據(jù)集和分析工具，充分利用新的信息技術(shù)、中文信息處理技術(shù)及跨學(xué)科方法來對(duì)古籍進(jìn)行深層次的分析與挖掘，對(duì)數(shù)字化古籍文獻(xiàn)所蘊(yùn)涵的多重信息進(jìn)行多角度的揭示和重組，這種深度的開發(fā)使古籍文獻(xiàn)不再是平面的、孤立的資料，而使其構(gòu)成一個(gè)立體的文化學(xué)術(shù)知識(shí)庫。

3.大數(shù)據(jù)視域下的古籍文本可視化分析與挖掘

詞匯的時(shí)空傳播與演化探索，研究意義重大。金觀濤與劉青峰的《觀念史研究：中國現(xiàn)代重要政治術(shù)語的形成》，以十年之功，建立起一個(gè)龐大的“中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫”（1830-1930年），通過核心關(guān)鍵詞在歷史文獻(xiàn)中的統(tǒng)計(jì)數(shù)據(jù)，找到一份中國重要政治術(shù)語形成時(shí)期的觀念史地圖，從而跳出傳統(tǒng)史學(xué)研究被詬病的框架——研究觀念起源往往囿于思辨而無法實(shí)證。計(jì)量史學(xué)遭遇的是方法論難題，建設(shè)大規(guī)模數(shù)據(jù)集，則可能是逾越“大歷史觀”、整體史研究與繁蕪歷史資料間鴻溝的有效辦法。如何將這類歷史資料進(jìn)行合理有效的編碼和數(shù)據(jù)集成化，并通過實(shí)證分析更好地幫助我們了解社會(huì)發(fā)展的歷史經(jīng)驗(yàn)和對(duì)當(dāng)下的啟示，成為學(xué)界需要加強(qiáng)探索和討論的關(guān)鍵技術(shù)課題。

按照馬創(chuàng)新、曲維光、陳小荷主張的古籍?dāng)?shù)字化開發(fā)的兩個(gè)層次來看，顯然，以存檔和檢索為目的的古籍文獻(xiàn)表層數(shù)字化已取得豐碩成果，而古籍文本可視化分析與挖掘?qū)儆谏顚哟蔚拈_發(fā)，深層次的古籍文獻(xiàn)開發(fā)主要是古籍知識(shí)單元標(biāo)注及知識(shí)網(wǎng)絡(luò)構(gòu)建、古籍文獻(xiàn)之間的關(guān)聯(lián)、文本內(nèi)容分析及挖掘等，就目前的數(shù)字化古籍文獻(xiàn)的開發(fā)及利用現(xiàn)狀來說，面向數(shù)字人文研究的數(shù)字化古籍文獻(xiàn)的深度利用所面臨的主要問題有以下兩點(diǎn)：

（1）缺乏有效的對(duì)于數(shù)字化古籍文獻(xiàn)的整合。

目前的古籍文獻(xiàn)數(shù)字化存在各自為政的狀況，由于版權(quán)及產(chǎn)權(quán)的原因，導(dǎo)致數(shù)字化的古籍文獻(xiàn)分散于不同公司、不同研究機(jī)構(gòu)中，而且重復(fù)建設(shè)嚴(yán)重，不僅功能單一，數(shù)據(jù)也往往只涵蓋某一個(gè)類別或某一個(gè)專題，分散的數(shù)據(jù)不能實(shí)現(xiàn)多元化及整體化的研究對(duì)比與分析。而有比較才有鑒別，有比較才有發(fā)現(xiàn)，有綜合才能發(fā)現(xiàn)知識(shí)、規(guī)律的全貌。大數(shù)據(jù)時(shí)代已經(jīng)來臨，超大規(guī)模古籍?dāng)?shù)據(jù)、更多更豐富的古籍文獻(xiàn)匯集在一起，可以提供更多、更全面、更準(zhǔn)確的資料，滿足文、史、哲等各學(xué)科研究的需要，對(duì)交叉學(xué)科來說更是不可或缺。面向數(shù)字人文研究的數(shù)字化古籍文獻(xiàn)整合的目是共享或者合并來自于兩個(gè)或者更多應(yīng)用的數(shù)據(jù)集，創(chuàng)建一個(gè)具有更多功能的數(shù)字人文研究應(yīng)用的過程，數(shù)字化古籍文獻(xiàn)的整合將有利于知識(shí)揭示、現(xiàn)象發(fā)現(xiàn)，將極大節(jié)省研究者的時(shí)間，提升研究和創(chuàng)新水平，通過異構(gòu)數(shù)字古籍文獻(xiàn)的融合、聚類和重組使資源從數(shù)據(jù)層的揭示與展現(xiàn)轉(zhuǎn)向信息層、知識(shí)層的深度服務(wù)，通過將零星的史料片段按一定規(guī)則重新組合、排列，對(duì)蘊(yùn)含在古籍中的知識(shí)進(jìn)行多元重組，使不同知識(shí)單元之間建立關(guān)聯(lián)，形成一個(gè)多維的知識(shí)網(wǎng)絡(luò)，可以幫助研究者發(fā)現(xiàn)原有脈絡(luò)中難以獲得的發(fā)現(xiàn)與解讀。因此，數(shù)字化古籍文獻(xiàn)整合勢在必行，打破古籍?dāng)?shù)據(jù)庫建設(shè)“小、散、亂”，以及各自為政的模式，已形成學(xué)術(shù)共識(shí)。

（2）缺乏新的數(shù)字人文研究范式及方法。

基于古籍文獻(xiàn)的語言、文學(xué)及歷史等人文學(xué)科的研究在學(xué)術(shù)上的突破往往依賴于新材料的發(fā)現(xiàn)。雖然數(shù)字化古籍文獻(xiàn)的使用引發(fā)了研究思維的轉(zhuǎn)變，改變了學(xué)術(shù)前沿的概念，但囿于研究工具及研究手段限制，人文學(xué)科研究在創(chuàng)新方面遇到新的瓶頸，在傳統(tǒng)研究范式的制約下，使得一些研究項(xiàng)目無法開展，研究視野受到束縛，傳統(tǒng)的數(shù)字化古籍文獻(xiàn)的開發(fā)及利用模式難以催生突破式的發(fā)現(xiàn)。馬克思說過：生產(chǎn)工具促進(jìn)生產(chǎn)力的發(fā)展。同樣，先進(jìn)的研究工具有利于學(xué)術(shù)研究的發(fā)展。新的數(shù)字人文研究工具與方法的出現(xiàn)將突破傳統(tǒng)的研究范式，古籍文獻(xiàn)數(shù)字化的廣泛普及促進(jìn)了古籍的利用，大大節(jié)約了研究者查找資料的時(shí)間，消除了古籍文獻(xiàn)獨(dú)占的客觀制約，史料的綜合化消除了語言、文學(xué)、歷史、哲學(xué)等學(xué)科的材料隔閡，在如今強(qiáng)調(diào)各學(xué)科協(xié)同創(chuàng)新的大背景下，更為人文學(xué)科的交叉研究提供了條件。

3.1數(shù)據(jù)來源

數(shù)據(jù)和方法是數(shù)字人文的兩大支柱。數(shù)字人文領(lǐng)域的研究使數(shù)據(jù)驅(qū)動(dòng)（Data-Driven）研究成為熱點(diǎn)，數(shù)據(jù)已成為數(shù)字人文研究的基礎(chǔ)和核心。大規(guī)模古籍文本具有覆蓋時(shí)空跨度大、材料面廣的特點(diǎn)，很大程度上可避免選擇資料時(shí)的疏漏與偏廢，彌補(bǔ)史學(xué)家慣用的“選精”與“集粹”研究方法帶來的缺陷。古籍文本的收集、整理是大規(guī)模數(shù)字化古籍文獻(xiàn)研究的基礎(chǔ)，而對(duì)古籍文本語料庫的構(gòu)建主要采取對(duì)已有數(shù)字化古籍文獻(xiàn)整合的方式。大規(guī)模古籍?dāng)?shù)據(jù)并不是單一數(shù)據(jù)很大，其最核心的問題是多源跨域數(shù)據(jù)的融合，即通過融合不同類別、不同專題的數(shù)字化古籍?dāng)?shù)據(jù)的知識(shí)來共同解決單一數(shù)據(jù)解決不了的難題。大規(guī)模古籍?dāng)?shù)據(jù)有三個(gè)非常重要的層次：數(shù)據(jù)的獲取、數(shù)據(jù)的描述和數(shù)據(jù)的分析，在語料庫的建設(shè)過程中，語料庫應(yīng)該滿足三個(gè)基本要求：樣本的代表性；規(guī)模的有限性；機(jī)器可讀性。因此古籍文本語料庫構(gòu)建應(yīng)遵循以下原則：

（1）目的性。數(shù)字化古籍文獻(xiàn)整合的主要目的是為人文學(xué)科的研究服務(wù)，因此，古籍文本語料庫構(gòu)建需要以研究的適用范圍為導(dǎo)向，有針對(duì)性地選取多數(shù)據(jù)進(jìn)行融合，特別需要收集有一定權(quán)威、認(rèn)可度的高質(zhì)量數(shù)據(jù)，實(shí)現(xiàn)多數(shù)據(jù)源的濃縮，幫助降低學(xué)者研究時(shí)的對(duì)比、統(tǒng)計(jì)和分析數(shù)據(jù)的勞動(dòng)強(qiáng)度。

（2）一致性。古籍?dāng)?shù)據(jù)整合的一致性首先表現(xiàn)在格式的一致性。多來源的數(shù)據(jù)易導(dǎo)致格式的不統(tǒng)一，因此，存儲(chǔ)和處理時(shí)必須對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的編碼格式轉(zhuǎn)換。為了提高電子文本的規(guī)范化和標(biāo)準(zhǔn)化程度，1987年美國計(jì)算機(jī)語言協(xié)會(huì)（ACL）、美國文學(xué)與語言計(jì)算協(xié)會(huì)（ALLC）和美國計(jì)算與人文協(xié)會(huì)（ACH）贊助并組織的文本編碼倡議（TEI）為電子形式的文本材料定義了一系列的通用標(biāo)準(zhǔn)，并被世界各國廣泛采用。其次，數(shù)據(jù)內(nèi)容的準(zhǔn)確性也應(yīng)保持一致性，這樣才能提高分析結(jié)果的可靠性。再次，數(shù)據(jù)的分割、統(tǒng)計(jì)、分析方法的一致性，在同一標(biāo)準(zhǔn)下進(jìn)行分析及統(tǒng)計(jì)，這樣的結(jié)果才有可比性。因此，一致性的古籍文獻(xiàn)分割、保存、整合、透視和展示方式，可以最大程度地保證研究結(jié)果的可靠性、可檢驗(yàn)性及再現(xiàn)性，也有利于后期的更新與維護(hù)。

（3）多樣性。數(shù)字化古籍文本語料庫是一個(gè)龐大的文本文獻(xiàn)的集合，主要用于觀察、分析和研究文、史、哲等多個(gè)學(xué)科的需要，不僅僅滿足于傳統(tǒng)的語言學(xué)詞匯、語法、語義語用、語體等研究的需要，更需要能滿足文、史、哲等多學(xué)科和跨學(xué)科研究的需要，因此加工深度及標(biāo)注信息既要反映各種語言學(xué)屬性，語料也應(yīng)具有多樣性，更應(yīng)注重多學(xué)科的交叉和融合。

（4）共享性。人文研究學(xué)者需要的不僅僅是統(tǒng)計(jì)分析的結(jié)果，他們對(duì)原始研究數(shù)據(jù)也有強(qiáng)烈的需求。傳統(tǒng)的研究者常從檔案、出版物或者文物等人類文化記錄中提取數(shù)據(jù)，有時(shí)可能會(huì)花費(fèi)幾個(gè)月甚至幾年的時(shí)間。而語料庫將極大節(jié)省研究者的時(shí)間，幫助他們利用現(xiàn)有數(shù)據(jù)提出新的研究問題或作為有效的例證。因此，語料庫文本數(shù)據(jù)的共享也是非常必要的。

目前，已數(shù)字化的古籍文本主要以兩種形式存在，一種是網(wǎng)絡(luò)上的各種專業(yè)性論壇或網(wǎng)站，另一種則存儲(chǔ)于專業(yè)數(shù)據(jù)庫中。從數(shù)據(jù)收集角度來說，主要來源途徑有網(wǎng)絡(luò)數(shù)據(jù)采集與專業(yè)數(shù)據(jù)庫文本獲取兩種。然后對(duì)獲取來的文本進(jìn)行編碼、分類、標(biāo)注等處理。大規(guī)模數(shù)字化古籍文本語料庫構(gòu)建過程如圖1所示。利用計(jì)算機(jī)自動(dòng)、半自動(dòng)收集的方式，加快了數(shù)字化古籍文本建庫的速度，為建設(shè)大規(guī)模古籍文本語料庫提供了保障。經(jīng)過近半年的抓取及抽取，收集、整理了41563種（大約48億字）數(shù)字化古籍本文，涵蓋從上古到民國的經(jīng)、史、子、集等40個(gè)類目的文獻(xiàn)，覆蓋面廣且有時(shí)間上的延續(xù)性，形成了一個(gè)比較綜合、學(xué)科門類全面的數(shù)字化古籍文本語料庫。

3.2數(shù)據(jù)處理

構(gòu)建面向人文學(xué)科的分析系統(tǒng)并非單純將古籍文獻(xiàn)數(shù)字化，而是需要憑借人文學(xué)者對(duì)古籍文獻(xiàn)的深刻理解，創(chuàng)造性地進(jìn)行編碼、歸類和整合。大規(guī)模、長時(shí)期的數(shù)字化古籍文獻(xiàn)普遍存在著體量龐大、標(biāo)注不明確和不同年代同類信息含義有差異等諸多問題。采用靈活、有效的編碼方法成為研究歷史數(shù)據(jù)成敗的關(guān)鍵。對(duì)數(shù)字化古籍文獻(xiàn)進(jìn)行系統(tǒng)、合理的分類與編碼是開展數(shù)據(jù)庫構(gòu)建和進(jìn)行最終定量分析的基礎(chǔ)和前提。在進(jìn)入生語料庫之前，數(shù)字化古籍文本語料需要經(jīng)過以下三個(gè)數(shù)據(jù)整理的步驟：

（1）版本挑選。在大規(guī)模機(jī)器自動(dòng)采集的過程中，網(wǎng)絡(luò)采集源的數(shù)據(jù)質(zhì)量難以通過機(jī)器來判定，因此，通過人工方式對(duì)數(shù)據(jù)整理是不可或缺的，也是為了保證高質(zhì)量古籍文本語料庫的需要。通過人工檢查的方式對(duì)數(shù)據(jù)進(jìn)行整理，去除那些低質(zhì)量、殘缺的數(shù)據(jù)，挑選出那些高質(zhì)量的數(shù)字化古籍版本，高質(zhì)量的文本語料更能提高分析、統(tǒng)計(jì)的準(zhǔn)確性，提高分析結(jié)果的可信度。

（2）文本抽取。由于采集的古籍文獻(xiàn)的數(shù)據(jù)來源不同，因此文本的載體格式也呈多樣化，采集的數(shù)據(jù)格式包含PDF、WORD、HTML等多種形式，為了研究的需要，在數(shù)據(jù)整理及標(biāo)注前需對(duì)采集的數(shù)據(jù)進(jìn)行文本數(shù)據(jù)的抽取及編碼轉(zhuǎn)化。文本數(shù)據(jù)的抽取通過程序自動(dòng)抽取，抽取過程中把UTF-8、Uni-code、GBK等不同編碼轉(zhuǎn)換成統(tǒng)一的Unicode編碼。

（3）文本轉(zhuǎn)碼。與文本載體格式類似，采集、抽取的文本字體存在大陸簡體、古籍繁體及臺(tái)灣繁體字等三種。不同字體造成了對(duì)于以文本為基礎(chǔ)的統(tǒng)計(jì)及內(nèi)容分析的困難和復(fù)雜性。因此，古籍文本語料采用大陸簡體，字體轉(zhuǎn)換采用廈門大學(xué)、教育部語言文字應(yīng)用研究所、北京師范大學(xué)聯(lián)合開發(fā)的《漢字簡繁文本智能轉(zhuǎn)換系統(tǒng)》進(jìn)行簡繁異體字轉(zhuǎn)換，形成統(tǒng)一的簡體字?！稘h字簡繁文本智能轉(zhuǎn)換系統(tǒng)》采用語料庫語言學(xué)的研究方法，通過數(shù)線性模型（Log-Linear Models）進(jìn)行簡繁字體轉(zhuǎn)換，準(zhǔn)確率達(dá)到97%以上。

生文本語料的標(biāo)注也是語料庫構(gòu)建的一個(gè)重要環(huán)節(jié)。古籍文獻(xiàn)的準(zhǔn)確標(biāo)注能夠使計(jì)算機(jī)快速準(zhǔn)確地找到目標(biāo)文獻(xiàn)，并能有效地建立文獻(xiàn)之間的關(guān)聯(lián)。生語料的標(biāo)注既要適應(yīng)計(jì)算機(jī)自動(dòng)處理的需要，也要考慮到人文學(xué)科研究的需要。生文本語料的標(biāo)注分成兩部分，一是對(duì)古籍文獻(xiàn)的外部特征的元數(shù)據(jù)標(biāo)注；二是對(duì)古籍文獻(xiàn)的內(nèi)容進(jìn)行標(biāo)注。古籍文獻(xiàn)的外部特征主要是指文獻(xiàn)名稱、作者（包含編、撰、注、疏等）、作品年代、著者信息（出生時(shí)間、死亡時(shí)間、出生地等）、版本信息、作品分類等。古籍文獻(xiàn)的外部特征可為數(shù)據(jù)分析、統(tǒng)計(jì)提供必要的信息，例如分析、統(tǒng)計(jì)過程中的時(shí)間點(diǎn)就是按照作品的作者卒年時(shí)間為依據(jù)的，在卒年時(shí)間不明確或無法考證時(shí)即按作品所在的年代為依據(jù)（作者的卒年及古籍文本的版本考證是一個(gè)難題，存在諸多爭議，這涉及史書語料時(shí)代性這一老大難的問題，通過相關(guān)專業(yè)人士的核查將為分析的準(zhǔn)確性提供保障）。

在標(biāo)注古籍文獻(xiàn)作者及地理信息時(shí)，參考了哈佛大學(xué)費(fèi)正清中國研究中心、臺(tái)灣中央研究院歷史語言研究所和北京大學(xué)中國古代史研究中心共同開發(fā)的《中國歷代人物傳記資料庫》（CBDB）與復(fù)旦大學(xué)的《中國歷史地理信息系統(tǒng)》（CHGIS），根據(jù)研究的具體需要，從前者抽取了作品作者的生卒年代、地理信息等，從后者整合了部分地理信息。通過抽取、整合多個(gè)外部數(shù)據(jù)源，充分利用了外部的已有資源，不但減少了標(biāo)注的時(shí)間，而且豐富了數(shù)據(jù)內(nèi)涵，同時(shí)準(zhǔn)確性及可靠性也得到了保證。

（4）文本切分。詞頻分析是文本挖掘中的一種重要研究方式，也是文本可視化的一種重要模式。當(dāng)面對(duì)海量文本時(shí)，人們需要對(duì)每個(gè)文本或者整個(gè)文本集合的主要內(nèi)容進(jìn)行快速瀏覽，因此需要構(gòu)建基于詞頻的文本可視化。常用的思路是將文本看作一個(gè)詞匯的集合，利用詞頻信息來呈現(xiàn)文本特征。例如谷歌（Google）實(shí)驗(yàn)室推出書籍詞頻統(tǒng)計(jì)器（Books Ngram Viewer）就是以歷代詞頻分析研究為基礎(chǔ)而進(jìn)行的可視化分析。對(duì)古籍文獻(xiàn)的內(nèi)容進(jìn)行標(biāo)注是數(shù)字化古籍文獻(xiàn)知識(shí)提取和知識(shí)重組的關(guān)鍵。對(duì)古籍文獻(xiàn)的切分必須遵循古代漢語詞匯的發(fā)展特點(diǎn)，在大規(guī)模地對(duì)不同朝代的古籍文本進(jìn)行分詞時(shí)，采用分朝代、分詞匯表的方式切分才符合古代漢語詞匯的發(fā)展規(guī)律。即切分不同朝代的古籍文本語料時(shí)采用相應(yīng)朝代的詞匯表，可以最大程度上提升古籍分詞的準(zhǔn)確率。筆者采用分段疊加的方式，從已有的古代漢語詞匯詞典及專書中提取詞匯，從已有語料中采用統(tǒng)計(jì)學(xué)的方法自動(dòng)提取詞匯作為補(bǔ)充，以二元（Bigram）模型為主對(duì)古籍分詞。

3.3大規(guī)模古籍文本可視化分析與挖掘

大規(guī)模古籍文本可視化分析與挖掘以古籍文本為基礎(chǔ)，基于大數(shù)據(jù)研究理念，采用格拉布斯（Grubbs）法進(jìn)行數(shù)據(jù)降噪，最大程度消除問題數(shù)據(jù)，在分詞后的古籍語料庫基礎(chǔ)上，以詞頻統(tǒng)計(jì)為研究核心對(duì)古籍文本進(jìn)行分析與挖掘，采用單位時(shí)間窗口滑動(dòng)技術(shù)對(duì)單位時(shí)間內(nèi)的詞頻進(jìn)行分析，運(yùn)用內(nèi)存實(shí)時(shí)計(jì)算思想很好地解決了讀取數(shù)據(jù)的瓶頸問題。實(shí)時(shí)統(tǒng)計(jì)分析則采用并行計(jì)算方式解決了實(shí)時(shí)查詢效率問題，統(tǒng)計(jì)分析結(jié)果以時(shí)間軸為主線的微觀散點(diǎn)圖和宏觀曲線圖對(duì)進(jìn)行宏觀層次與微觀層次展示，并以古籍文獻(xiàn)作者為主線，利用地理信息系統(tǒng)（GIS）技術(shù)，將我國龐大的、靜態(tài)的、分散的數(shù)字化古籍進(jìn)行大規(guī)模的集成和地圖展示，以古籍文獻(xiàn)的檢索為線索在地圖上呈現(xiàn)相關(guān)作者的地理分布，實(shí)現(xiàn)了實(shí)時(shí)、在線、立體、可視化、定量分析字詞的歷史詞頻分布規(guī)律，為研究者構(gòu)建一個(gè)以語言學(xué)、歷史文獻(xiàn)學(xué)、歷史地理學(xué)等人文學(xué)科為主的古籍實(shí)時(shí)統(tǒng)計(jì)分析平臺(tái)。

4.大規(guī)模古籍文本可視化分析與挖掘在中國史定量研究中的應(yīng)用

大規(guī)模古籍文獻(xiàn)的收集整理和量化數(shù)據(jù)集是相當(dāng)有難度的，而更大的挑戰(zhàn)來自對(duì)歷史數(shù)據(jù)定量分析結(jié)果的理解和詮釋。大規(guī)模古籍文獻(xiàn)經(jīng)過可視化定量分析后，常常有一些“不期而遇”的發(fā)現(xiàn)。以大規(guī)模數(shù)據(jù)為基礎(chǔ)的量化研究還能較好糾正研究的主觀性，實(shí)現(xiàn)研究從常見的理論或問題驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)或經(jīng)驗(yàn)驅(qū)動(dòng)。運(yùn)用數(shù)學(xué)方法對(duì)歷史資料進(jìn)行定量分析，使史學(xué)研究更趨于精確，大規(guī)模的古籍文本其本身就具有重要的歷史研究價(jià)值。在此基礎(chǔ)之上，通過該系統(tǒng)能對(duì)一些歷史事件與現(xiàn)象作定量分析，使結(jié)論的可靠性具有更好的說服力。

武則天一度成為爭論最多、留下疑惑最多的一個(gè)歷史人物，對(duì)武則天的歷史評(píng)價(jià)向來毀譽(yù)不一。迄今學(xué)術(shù)界對(duì)武則天功過的評(píng)價(jià)仍然眾說紛紜，不僅史學(xué)界沒有定論，在大學(xué)課堂里亦評(píng)價(jià)各異。在傳統(tǒng)研究中，研究者易將“某一或某些例證所反映的現(xiàn)象普遍化”，從而可能喪失真實(shí)性，導(dǎo)致研究結(jié)果具有一定的不可靠性。通過大規(guī)模古籍文獻(xiàn)來分析歷史文獻(xiàn)中對(duì)武則天稱謂的變化，從中能發(fā)現(xiàn)一些有趣的歷史現(xiàn)象。由于筆者非歷史學(xué)專業(yè)出身，對(duì)問題描述與解析可能會(huì)存在一些偏差，需要專業(yè)人士來對(duì)獲得的現(xiàn)象進(jìn)行更為合理的解讀。

系統(tǒng)統(tǒng)計(jì)分析顯示，在歷史文獻(xiàn)中對(duì)武則天稱謂的總體分布和年代分布如圖2、圖3所示。從其稱謂來看有武后、武才人、武則天、武氏、武皇后、武媚、則天大圣皇后、則天大圣皇帝等，武則天死后，唐人對(duì)其的評(píng)價(jià)曾發(fā)生過一些變化，正如王雙懷教授所說“唐中宗給武則天舉行隆重的葬禮”，睿宗即位后，“對(duì)武則天的評(píng)價(jià)明顯降低”，“唐玄宗基本上還是肯定了武則天?！保笆⑻埔院蟮慕y(tǒng)治者對(duì)武則天是相當(dāng)尊重的”。從詞頻可以看出，到唐末期很少出現(xiàn)直呼其名的或稱其“武氏”，從唐中期到唐末時(shí)期基本以“武后”相稱，雖然不承認(rèn)其皇帝身份，但稱謂也無有意貶低之意。

五代后，稱其為“武氏”的文獻(xiàn)開始大量出現(xiàn)，與“武后”稱謂不差上下，從大量文獻(xiàn)來看，該時(shí)段褒貶都有，對(duì)武則天任用酷吏、改朝換代的事和武周政治進(jìn)行了嚴(yán)厲的抨擊，“但總的看來，是否定武則天的”。北宋時(shí)期，歐陽修、宋祁等人用最惡毒的語言攻擊武則天，但是，歐陽修等人只是反對(duì)武則天干預(yù)朝政、任用酷吏、殺戮宗室大臣以及改朝換代，并不否認(rèn)她的政績。及至南宋，人們對(duì)武則天的評(píng)價(jià)越來越低，但也不是都持全盤否定的態(tài)度。到了清初，因?qū)Ξ愖褰y(tǒng)治不滿，又無能為力，遂借古諷今，但也有文獻(xiàn)對(duì)武則天的評(píng)價(jià)是較高的。稱其“武皇后”、“武媚”基本上集中在五代十國到南宋，而稱其為“則天大圣皇帝”（圖4）的基本以史書記載為主，文獻(xiàn)分布也比較分散。所有以上記錄武后、武才人、武則天、武氏、武皇后、武媚、則天大圣皇后、則天大圣皇帝等稱謂的文獻(xiàn)作者空間上的聚合分布如圖5所示，除了江蘇、浙江一帶比較多以外，其他地區(qū)分布得比較均勻。

對(duì)另一個(gè)經(jīng)典的歷史思想觀念進(jìn)行驗(yàn)證的是“重學(xué)輕術(shù)”。中國傳統(tǒng)觀念一直受“重學(xué)輕術(shù)”這一思想的影響，學(xué)、術(shù)在我國古代分別具有不同的含義，按《漢語大詞典》、《康熙字典》等的解釋，都有不少義項(xiàng)，“學(xué)”基本是指鉆研知識(shí)、獲得知識(shí)、掌握知識(shí)等為主，而“術(shù)”則多指技藝、方法。可見，學(xué)術(shù)在中國古代的知識(shí)體系中學(xué)是學(xué)，術(shù)是術(shù)，且在傳統(tǒng)的儒家思想中學(xué)是“儒道之經(jīng)”，術(shù)是“奇技淫巧”。從圖6可見，“學(xué)”的頻率在中國古代文獻(xiàn)中要遠(yuǎn)高于同期“術(shù)”的頻率，不知是否跟中國古代儒家歷來重“學(xué)”輕“術(shù)”有關(guān)，或一定程度上反映了儒家思想對(duì)仕人思想的影響。

文學(xué)地理學(xué)的研究對(duì)象是文學(xué)要素的地理分布、組合與變遷，文學(xué)要素及其整體形態(tài)的地域特性與地域差異，文學(xué)與地理環(huán)境之間的相互關(guān)系。文學(xué)要素包括文學(xué)家、文學(xué)作品和文學(xué)讀者，地理環(huán)境則包括自然地理環(huán)境和人文地理環(huán)境。文學(xué)地理學(xué)的任務(wù)，就是考察不同的自然地理環(huán)境和人文地理環(huán)境對(duì)文學(xué)家的氣質(zhì)、心理、知識(shí)結(jié)構(gòu)、文化底蘊(yùn)、價(jià)值觀念、審美傾向、藝術(shù)感知、文學(xué)選擇等構(gòu)成的影響。文學(xué)與地理環(huán)境的關(guān)系是一個(gè)互動(dòng)關(guān)系。對(duì)中國歷代文學(xué)家的地理分布格局分析是文學(xué)地理研究的重要內(nèi)容。而古籍文獻(xiàn)則又是分析的主體。系統(tǒng)提供了古籍作者空間信息可視化分析功能，為文學(xué)地理的空間環(huán)境分析提供了新的研究工具。

在傳統(tǒng)研究中，從地理空間的視角研究文學(xué)作品，定量化解析文本中的空間信息是一項(xiàng)繁雜的工作。系統(tǒng)能通過文學(xué)作品中詞組出現(xiàn)頻率來分析其空間分布及方言詞分布，提供時(shí)間和空間二個(gè)維度的分析視角。例如，先秦至西漢年間（公元前2070-公元23年）古籍文獻(xiàn)的作者（由于系統(tǒng)目前沒有嚴(yán)格按譚正璧主編的《中國文學(xué)家大辭典》對(duì)屬于古代文學(xué)家的人物進(jìn)行標(biāo)識(shí)，故統(tǒng)計(jì)分析的是所有古籍文獻(xiàn)的作者數(shù)據(jù)。以下同）主要地理分布如圖7。這一時(shí)期的作者分布主要在黃河以北地區(qū)，在山東與山西境內(nèi)；東漢至西晉年間（公元23-公元316年）古籍文獻(xiàn)的作者主要地理分布如圖8，這一時(shí)期的作者分布主要中心開始往長江一帶轉(zhuǎn)移，以成都、武漢、南京為主；東晉至南北朝年間（公元316-公元581年）古籍文獻(xiàn)的作者主要地理分布如圖9，這一時(shí)期的作者分布主要以南京為主；隋至五代十國年間（公元581-公元979年）古籍文獻(xiàn)的作者主要地理分布如圖10，這一時(shí)期的作者主要分布中心重新北遷，主要分布在黃河中下游地區(qū)，以河南、山東為主；宋至清末年間（公元979-公元1911年）古籍文獻(xiàn)的作者主要地理分布如圖11，這一時(shí)期的作者分布區(qū)域明顯擴(kuò)大，而且主要分布在沿海及中、東部地區(qū)。

從以上古籍文獻(xiàn)作者的地理分布圖可以看出，古籍文獻(xiàn)作者的地理分布是有規(guī)律可循的，從周秦到清代中心的分布大體呈現(xiàn)以下規(guī)律：

（1）以都城區(qū)域?yàn)橹行姆植?。都城既是全國的政治和軍事中心，也是全國的文化和人才中心，聚集了豐富的教育與經(jīng)濟(jì)資源，文化和文學(xué)人才興盛，這種現(xiàn)象在我國古代早期表現(xiàn)更為明顯。先秦時(shí)期的都城以黃河以北區(qū)域?yàn)橹鳎藭r(shí)的作者基本分布在黃河以北區(qū)域，東漢至西晉年間都城開始往南遷移，如蜀國建都成都，吳國建都建業(yè)（今南京），此時(shí)的作者基本分布在長江中下游區(qū)域，東晉至南北朝年間的都城也是建業(yè)，此時(shí)的作者分布以南京為中心，隋至五代十國年間的都城以西安、開封、洛陽為主，此時(shí)則以黃河中下游區(qū)域分布為主。由此可見，宋朝之前都城區(qū)域的變化對(duì)作者地理分布影響為主因。

（2）以經(jīng)濟(jì)中心分布。黃河中下游流域與長江一帶古時(shí)是中國的經(jīng)濟(jì)重心，最為富庶，這些地區(qū)的文人占了全國的絕大多數(shù)，經(jīng)濟(jì)的繁榮，也帶動(dòng)了教育的發(fā)展，這些為文學(xué)人才的成長提供了重要的條件。從宋朝開始，長江中下游地區(qū)成為經(jīng)濟(jì)中心，此時(shí)，經(jīng)濟(jì)中心對(duì)作者地理分布影響成為主因。

（3）文明程度的影響。文化傳統(tǒng)悠久、文化根基深厚的地區(qū)一旦形成，就有一定的穩(wěn)定性，不會(huì)因政治、經(jīng)濟(jì)等外在條件的改變而立刻改變。比如長江下游的江蘇、浙江一帶，無論朝代的更替都一直保持著文化和文學(xué)人才的興盛。

（4）交通的影響。早期的作者地理分布影響因素主要是都城及經(jīng)濟(jì)，從宋朝開始，隨著交通的便利，作者地理分布呈現(xiàn)出分散的態(tài)勢，交通的發(fā)達(dá)促進(jìn)了各地經(jīng)濟(jì)、文化交流，經(jīng)濟(jì)與文化的廣泛交流是一個(gè)地區(qū)文化建設(shè)的一種重大的推動(dòng)力，此時(shí)，作者地理分布集中在中國沿海及中、東部地區(qū)，而西部地區(qū)由于交通因素限制了經(jīng)濟(jì)與文化的交流。

以上分析的結(jié)果與曾大興在《文學(xué)地理學(xué)研究》中的研究成果高度相符。空間信息可視化分析為古籍深層次開發(fā)與應(yīng)用的發(fā)展做出了一種探索和嘗試，實(shí)現(xiàn)了從古籍作品一般信息的統(tǒng)計(jì)學(xué)分析擴(kuò)展到古籍信息空間信息挖掘，為文學(xué)地理學(xué)研究提供了新的視角，也為其他歷史、文化地理學(xué)等相關(guān)學(xué)科的研究提供了可參考的案例。

5.結(jié)語

大數(shù)據(jù)視域下的技術(shù)邏輯和人文邏輯相耦合的數(shù)字人文研究為社會(huì)科學(xué)經(jīng)典理論的驗(yàn)證和拓展提供了更多研究空間與研究方法。在人文學(xué)科領(lǐng)域，數(shù)字化大數(shù)據(jù)成百上千倍地?cái)U(kuò)大了資料的范圍，無疑有助于人們較為系統(tǒng)、全面地了解已有研究成果。但同時(shí)資料總量的快速增漲也給學(xué)者帶來了巨大挑戰(zhàn)，研究所涉及的資料大大超出一般的閱讀、分析和理解所能處理的范疇，是以往“不可研究”或“難以研究”的。數(shù)字人文分析方法的出現(xiàn)，為人文學(xué)科研究提供了新的研究空間和新的研究可能。筆者利用新的信息技術(shù)與面向數(shù)字人文的跨學(xué)科研究方法及研究范式，采用大數(shù)據(jù)研究理念，對(duì)古籍文本進(jìn)行了歷時(shí)詞頻分布規(guī)律的可視化分析，并以中國史定量研究為例，對(duì)部分中國史的經(jīng)典宏觀理論從量化角度進(jìn)行了初步驗(yàn)證。大規(guī)模的古籍文本定量分析是對(duì)古籍文獻(xiàn)深層次開發(fā)與利用的一種有益嘗試。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索