歐陽劍
摘要 利用新的信息技術(shù)與面向數(shù)字人文研究的跨學(xué)科方法,采用大數(shù)據(jù)研究理念對(duì)古籍文本進(jìn)行字詞的歷時(shí)詞頻分布規(guī)律可視化分析,以中國史定量研究為例,對(duì)部分中國史的經(jīng)典宏觀理論從量化角度進(jìn)行了初步驗(yàn)證。認(rèn)為大數(shù)據(jù)視域下的技術(shù)邏輯和人文邏輯相耦合的數(shù)字人文研究為人文社會(huì)科學(xué)經(jīng)典理論的驗(yàn)證和拓展提供了更多研究空間與研究方法,有利于推進(jìn)古籍文獻(xiàn)深層次的開發(fā)與利用。
關(guān)鍵詞 大數(shù)據(jù) 數(shù)字人文 定量分析 計(jì)量史 古籍
1.引言
隨著“大數(shù)據(jù)”時(shí)代的到來,對(duì)大規(guī)模歷史資料進(jìn)行定量分析已成為歷史學(xué)研究中一種新的、行之有效的方法,通過統(tǒng)計(jì)分析從大規(guī)模數(shù)據(jù)中挖掘新事實(shí)、產(chǎn)生新認(rèn)識(shí),能夠發(fā)現(xiàn)靠傳統(tǒng)文獻(xiàn)閱讀無法發(fā)現(xiàn)的隱藏在歷史文獻(xiàn)中的史實(shí)與現(xiàn)象。20世紀(jì)中期以來,歷史學(xué)定量分析逐漸成為國際學(xué)術(shù)研究中的一股新風(fēng)潮,并服務(wù)于學(xué)界,現(xiàn)在學(xué)者們認(rèn)為許多不具備數(shù)字特征的事物或事件,只要所研究的事物或事件存在特征并能加以量化,同樣可進(jìn)行定量研究,計(jì)量史學(xué)在經(jīng)濟(jì)史、政治史、社會(huì)史、人口史等領(lǐng)域研究中取得了很多的研究成果,發(fā)揮著巨大的作用。人文學(xué)科中的定量研究不僅能通過數(shù)據(jù)挖掘新發(fā)現(xiàn),更能解釋和理解這些發(fā)現(xiàn),進(jìn)而改變我們固有的歷史和社會(huì)科學(xué)理論與認(rèn)知。
大數(shù)據(jù)給了人文學(xué)科研究的全新思維。人文學(xué)科研究往往會(huì)預(yù)先設(shè)定研究問題或理論模型和假設(shè),然后去尋找相關(guān)材料,但部分研究因?yàn)椴牧鲜占休^強(qiáng)的主觀性和選擇性,往往傾向于重復(fù)確認(rèn)“已知”,而忽略發(fā)現(xiàn)“未知”。因此,很難促進(jìn)對(duì)社會(huì)事物整體規(guī)律形成統(tǒng)一且有效的認(rèn)知。而大數(shù)據(jù)研究思維則不是隨機(jī)樣本,而是全體數(shù)據(jù);不是精確性,而是混雜性;不是因果關(guān)系,而是相關(guān)關(guān)系。埃雷茲·艾登(Erez Aiden)等在《可視化未來數(shù)據(jù)透視下的人文大趨勢》(UNCHARTED:Big Data as a Lens on Human Culture)中以“谷歌圖書”項(xiàng)目為背景,通過500多萬本電子書不同詞匯使用頻度隨時(shí)間的變化,講述了大數(shù)據(jù)在研究歷史文化、人類語言、社會(huì)名望、群體記憶等方面的重要作用,凸顯了大數(shù)據(jù)對(duì)人文社會(huì)科學(xué)研究的變革意義。大數(shù)據(jù)時(shí)代的各種思潮和視角在不斷涌現(xiàn),大數(shù)據(jù)作為一種全新的資料,以其大大超越傳統(tǒng)調(diào)查數(shù)據(jù)的樣本量和時(shí)間跨度,為人文社會(huì)科學(xué)經(jīng)典理論的驗(yàn)證和拓展提供了更多研究空間。而基于大數(shù)據(jù)的定量分析則為人文社會(huì)科學(xué)研究提供了一個(gè)全新的視角,傳統(tǒng)人文社會(huì)科學(xué)的實(shí)證研究強(qiáng)調(diào)在理論的前提下建立假設(shè),大數(shù)據(jù)時(shí)代重在發(fā)現(xiàn)知識(shí)與現(xiàn)象,在沒有理論假設(shè)的前提下去預(yù)知,從海量的數(shù)據(jù)中發(fā)現(xiàn)知識(shí),尋找隱藏在數(shù)據(jù)中的模式、趨勢和相關(guān)性,揭示事物現(xiàn)象與發(fā)展規(guī)律,大規(guī)模的古籍文獻(xiàn)擴(kuò)大了人文學(xué)科資料的范圍,提供了人文學(xué)科新的研究空間和新的研究可能。
2.大數(shù)據(jù)視域下的傳統(tǒng)古籍文獻(xiàn)開發(fā)及利用分析
目前,我國古籍文獻(xiàn)的數(shù)字化已經(jīng)比較成熟,文字層面的數(shù)字化也具一定規(guī)模,為古籍的深度開發(fā)與利用奠定了基礎(chǔ)。古籍文獻(xiàn)的統(tǒng)計(jì)分析是數(shù)字人文研究對(duì)古籍深度利用的基本需求,定量分析則是數(shù)字人文研究的一種主要研究方式。與傳統(tǒng)的定性分析不同,定量分析是依據(jù)統(tǒng)計(jì)數(shù)據(jù),建立數(shù)學(xué)模型,并用數(shù)學(xué)模型計(jì)算出分析對(duì)象的各項(xiàng)指標(biāo)及其數(shù)值的一種方法。因此,定量分析的應(yīng)用使人文學(xué)科研究更趨于科學(xué)化。人文學(xué)科的研究者對(duì)定量分析的需求日趨強(qiáng)烈,研究者不再滿足檢索結(jié)果的簡單羅列,更需要從計(jì)量學(xué)的角度對(duì)符合一定條件的古籍文獻(xiàn)從作者、文獻(xiàn)來源、體裁及年代等多角度進(jìn)行統(tǒng)計(jì)分析。近年來學(xué)者在古代詩、詞、古代文學(xué)及中國史等研究中采用定量研究的趨勢更為明顯,例如,武漢大學(xué)著名詞學(xué)研究者王兆鵬教授把文獻(xiàn)計(jì)量的方法成功地引入詞學(xué)研究中,李伯重教授在史學(xué)研究中大量地采用量化方法,李中清教授通過定量方法提出了150年來中國精英出身家庭四個(gè)階段論述,胡俊峰、俞士汶利用統(tǒng)計(jì)分析的方法定義了唐宋詩中詞匯語義的統(tǒng)計(jì)表達(dá),20世紀(jì)90年代中期,北京大學(xué)開發(fā)的古詩研究系統(tǒng)就設(shè)置了統(tǒng)計(jì)分析的功能,定量方法的使用使得人文學(xué)科的研究成果增加了定量的特征,增強(qiáng)了人文科學(xué)研究的科學(xué)屬性。
此外,多元、多角度的對(duì)比分析及古籍內(nèi)容挖掘也是人文學(xué)科中數(shù)字人文研究所急需的??茖W(xué)研究可以從多個(gè)角度進(jìn)行對(duì)比分析,發(fā)現(xiàn)新的問題與現(xiàn)象,尋找隱藏在數(shù)據(jù)中的模式、趨勢和相關(guān)性。對(duì)于作為史料來源的古籍文獻(xiàn)來說,通過文獻(xiàn)記載的史實(shí)對(duì)比,可以考察文獻(xiàn)原始出處及后續(xù)的演變。哲學(xué)上,空間和時(shí)間的依存關(guān)系表達(dá)著事物的演化秩序,時(shí)間及空間上的比較分析法是常用的分析方法,它從時(shí)間角度和空間角度對(duì)事物的發(fā)展及變化進(jìn)行立體式的描述,將是古籍文獻(xiàn)深度利用方面的重要方式。而古籍內(nèi)容挖掘更是人文學(xué)科領(lǐng)域深度分析的主要方式。利用文本挖掘技術(shù)可以對(duì)歷史事件的發(fā)展等做出宏觀的描述,更能準(zhǔn)確地還原歷史真相,對(duì)古籍文獻(xiàn)中錯(cuò)綜復(fù)雜人物關(guān)系建立關(guān)聯(lián),歷史人物的社會(huì)評(píng)價(jià)做出客觀的判斷,對(duì)語言、社會(huì)及地理等現(xiàn)象進(jìn)行有效的解釋,同時(shí)古籍內(nèi)容挖掘也是古籍?dāng)?shù)字化知識(shí)構(gòu)建的基礎(chǔ)。
隨著古籍?dāng)?shù)字化的進(jìn)一步發(fā)展,更多的學(xué)者開始認(rèn)識(shí)到古籍?dāng)?shù)字化帶給我們的不僅僅是海量的古籍文獻(xiàn)存儲(chǔ),“數(shù)字化”為技術(shù)與人文的合流構(gòu)筑了新平臺(tái),更為一個(gè)技術(shù)邏輯和人文邏輯相耦合的“數(shù)字人文”的出現(xiàn)提供了可能。傳統(tǒng)的古籍開發(fā)與應(yīng)用模式已難以適應(yīng)人文學(xué)科中數(shù)字人文研究的需要,急需研究輔助工具與研究方式的創(chuàng)新與開發(fā)。引入大規(guī)模定量計(jì)算分析方法,構(gòu)建可持續(xù)完善和豐富的數(shù)據(jù)集和分析工具,充分利用新的信息技術(shù)、中文信息處理技術(shù)及跨學(xué)科方法來對(duì)古籍進(jìn)行深層次的分析與挖掘,對(duì)數(shù)字化古籍文獻(xiàn)所蘊(yùn)涵的多重信息進(jìn)行多角度的揭示和重組,這種深度的開發(fā)使古籍文獻(xiàn)不再是平面的、孤立的資料,而使其構(gòu)成一個(gè)立體的文化學(xué)術(shù)知識(shí)庫。
3.大數(shù)據(jù)視域下的古籍文本可視化分析與挖掘
詞匯的時(shí)空傳播與演化探索,研究意義重大。金觀濤與劉青峰的《觀念史研究:中國現(xiàn)代重要政治術(shù)語的形成》,以十年之功,建立起一個(gè)龐大的“中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫”(1830-1930年),通過核心關(guān)鍵詞在歷史文獻(xiàn)中的統(tǒng)計(jì)數(shù)據(jù),找到一份中國重要政治術(shù)語形成時(shí)期的觀念史地圖,從而跳出傳統(tǒng)史學(xué)研究被詬病的框架——研究觀念起源往往囿于思辨而無法實(shí)證。計(jì)量史學(xué)遭遇的是方法論難題,建設(shè)大規(guī)模數(shù)據(jù)集,則可能是逾越“大歷史觀”、整體史研究與繁蕪歷史資料間鴻溝的有效辦法。如何將這類歷史資料進(jìn)行合理有效的編碼和數(shù)據(jù)集成化,并通過實(shí)證分析更好地幫助我們了解社會(huì)發(fā)展的歷史經(jīng)驗(yàn)和對(duì)當(dāng)下的啟示,成為學(xué)界需要加強(qiáng)探索和討論的關(guān)鍵技術(shù)課題。
按照馬創(chuàng)新、曲維光、陳小荷主張的古籍?dāng)?shù)字化開發(fā)的兩個(gè)層次來看,顯然,以存檔和檢索為目的的古籍文獻(xiàn)表層數(shù)字化已取得豐碩成果,而古籍文本可視化分析與挖掘?qū)儆谏顚哟蔚拈_發(fā),深層次的古籍文獻(xiàn)開發(fā)主要是古籍知識(shí)單元標(biāo)注及知識(shí)網(wǎng)絡(luò)構(gòu)建、古籍文獻(xiàn)之間的關(guān)聯(lián)、文本內(nèi)容分析及挖掘等,就目前的數(shù)字化古籍文獻(xiàn)的開發(fā)及利用現(xiàn)狀來說,面向數(shù)字人文研究的數(shù)字化古籍文獻(xiàn)的深度利用所面臨的主要問題有以下兩點(diǎn):
(1)缺乏有效的對(duì)于數(shù)字化古籍文獻(xiàn)的整合。
目前的古籍文獻(xiàn)數(shù)字化存在各自為政的狀況,由于版權(quán)及產(chǎn)權(quán)的原因,導(dǎo)致數(shù)字化的古籍文獻(xiàn)分散于不同公司、不同研究機(jī)構(gòu)中,而且重復(fù)建設(shè)嚴(yán)重,不僅功能單一,數(shù)據(jù)也往往只涵蓋某一個(gè)類別或某一個(gè)專題,分散的數(shù)據(jù)不能實(shí)現(xiàn)多元化及整體化的研究對(duì)比與分析。而有比較才有鑒別,有比較才有發(fā)現(xiàn),有綜合才能發(fā)現(xiàn)知識(shí)、規(guī)律的全貌。大數(shù)據(jù)時(shí)代已經(jīng)來臨,超大規(guī)模古籍?dāng)?shù)據(jù)、更多更豐富的古籍文獻(xiàn)匯集在一起,可以提供更多、更全面、更準(zhǔn)確的資料,滿足文、史、哲等各學(xué)科研究的需要,對(duì)交叉學(xué)科來說更是不可或缺。面向數(shù)字人文研究的數(shù)字化古籍文獻(xiàn)整合的目是共享或者合并來自于兩個(gè)或者更多應(yīng)用的數(shù)據(jù)集,創(chuàng)建一個(gè)具有更多功能的數(shù)字人文研究應(yīng)用的過程,數(shù)字化古籍文獻(xiàn)的整合將有利于知識(shí)揭示、現(xiàn)象發(fā)現(xiàn),將極大節(jié)省研究者的時(shí)間,提升研究和創(chuàng)新水平,通過異構(gòu)數(shù)字古籍文獻(xiàn)的融合、聚類和重組使資源從數(shù)據(jù)層的揭示與展現(xiàn)轉(zhuǎn)向信息層、知識(shí)層的深度服務(wù),通過將零星的史料片段按一定規(guī)則重新組合、排列,對(duì)蘊(yùn)含在古籍中的知識(shí)進(jìn)行多元重組,使不同知識(shí)單元之間建立關(guān)聯(lián),形成一個(gè)多維的知識(shí)網(wǎng)絡(luò),可以幫助研究者發(fā)現(xiàn)原有脈絡(luò)中難以獲得的發(fā)現(xiàn)與解讀。因此,數(shù)字化古籍文獻(xiàn)整合勢在必行,打破古籍?dāng)?shù)據(jù)庫建設(shè)“小、散、亂”,以及各自為政的模式,已形成學(xué)術(shù)共識(shí)。
(2)缺乏新的數(shù)字人文研究范式及方法。
基于古籍文獻(xiàn)的語言、文學(xué)及歷史等人文學(xué)科的研究在學(xué)術(shù)上的突破往往依賴于新材料的發(fā)現(xiàn)。雖然數(shù)字化古籍文獻(xiàn)的使用引發(fā)了研究思維的轉(zhuǎn)變,改變了學(xué)術(shù)前沿的概念,但囿于研究工具及研究手段限制,人文學(xué)科研究在創(chuàng)新方面遇到新的瓶頸,在傳統(tǒng)研究范式的制約下,使得一些研究項(xiàng)目無法開展,研究視野受到束縛,傳統(tǒng)的數(shù)字化古籍文獻(xiàn)的開發(fā)及利用模式難以催生突破式的發(fā)現(xiàn)。馬克思說過:生產(chǎn)工具促進(jìn)生產(chǎn)力的發(fā)展。同樣,先進(jìn)的研究工具有利于學(xué)術(shù)研究的發(fā)展。新的數(shù)字人文研究工具與方法的出現(xiàn)將突破傳統(tǒng)的研究范式,古籍文獻(xiàn)數(shù)字化的廣泛普及促進(jìn)了古籍的利用,大大節(jié)約了研究者查找資料的時(shí)間,消除了古籍文獻(xiàn)獨(dú)占的客觀制約,史料的綜合化消除了語言、文學(xué)、歷史、哲學(xué)等學(xué)科的材料隔閡,在如今強(qiáng)調(diào)各學(xué)科協(xié)同創(chuàng)新的大背景下,更為人文學(xué)科的交叉研究提供了條件。
3.1數(shù)據(jù)來源
數(shù)據(jù)和方法是數(shù)字人文的兩大支柱。數(shù)字人文領(lǐng)域的研究使數(shù)據(jù)驅(qū)動(dòng)(Data-Driven)研究成為熱點(diǎn),數(shù)據(jù)已成為數(shù)字人文研究的基礎(chǔ)和核心。大規(guī)模古籍文本具有覆蓋時(shí)空跨度大、材料面廣的特點(diǎn),很大程度上可避免選擇資料時(shí)的疏漏與偏廢,彌補(bǔ)史學(xué)家慣用的“選精”與“集粹”研究方法帶來的缺陷。古籍文本的收集、整理是大規(guī)模數(shù)字化古籍文獻(xiàn)研究的基礎(chǔ),而對(duì)古籍文本語料庫的構(gòu)建主要采取對(duì)已有數(shù)字化古籍文獻(xiàn)整合的方式。大規(guī)模古籍?dāng)?shù)據(jù)并不是單一數(shù)據(jù)很大,其最核心的問題是多源跨域數(shù)據(jù)的融合,即通過融合不同類別、不同專題的數(shù)字化古籍?dāng)?shù)據(jù)的知識(shí)來共同解決單一數(shù)據(jù)解決不了的難題。大規(guī)模古籍?dāng)?shù)據(jù)有三個(gè)非常重要的層次:數(shù)據(jù)的獲取、數(shù)據(jù)的描述和數(shù)據(jù)的分析,在語料庫的建設(shè)過程中,語料庫應(yīng)該滿足三個(gè)基本要求:樣本的代表性;規(guī)模的有限性;機(jī)器可讀性。因此古籍文本語料庫構(gòu)建應(yīng)遵循以下原則:
(1)目的性。數(shù)字化古籍文獻(xiàn)整合的主要目的是為人文學(xué)科的研究服務(wù),因此,古籍文本語料庫構(gòu)建需要以研究的適用范圍為導(dǎo)向,有針對(duì)性地選取多數(shù)據(jù)進(jìn)行融合,特別需要收集有一定權(quán)威、認(rèn)可度的高質(zhì)量數(shù)據(jù),實(shí)現(xiàn)多數(shù)據(jù)源的濃縮,幫助降低學(xué)者研究時(shí)的對(duì)比、統(tǒng)計(jì)和分析數(shù)據(jù)的勞動(dòng)強(qiáng)度。
(2)一致性。古籍?dāng)?shù)據(jù)整合的一致性首先表現(xiàn)在格式的一致性。多來源的數(shù)據(jù)易導(dǎo)致格式的不統(tǒng)一,因此,存儲(chǔ)和處理時(shí)必須對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的編碼格式轉(zhuǎn)換。為了提高電子文本的規(guī)范化和標(biāo)準(zhǔn)化程度,1987年美國計(jì)算機(jī)語言協(xié)會(huì)(ACL)、美國文學(xué)與語言計(jì)算協(xié)會(huì)(ALLC)和美國計(jì)算與人文協(xié)會(huì)(ACH)贊助并組織的文本編碼倡議(TEI)為電子形式的文本材料定義了一系列的通用標(biāo)準(zhǔn),并被世界各國廣泛采用。其次,數(shù)據(jù)內(nèi)容的準(zhǔn)確性也應(yīng)保持一致性,這樣才能提高分析結(jié)果的可靠性。再次,數(shù)據(jù)的分割、統(tǒng)計(jì)、分析方法的一致性,在同一標(biāo)準(zhǔn)下進(jìn)行分析及統(tǒng)計(jì),這樣的結(jié)果才有可比性。因此,一致性的古籍文獻(xiàn)分割、保存、整合、透視和展示方式,可以最大程度地保證研究結(jié)果的可靠性、可檢驗(yàn)性及再現(xiàn)性,也有利于后期的更新與維護(hù)。
(3)多樣性。數(shù)字化古籍文本語料庫是一個(gè)龐大的文本文獻(xiàn)的集合,主要用于觀察、分析和研究文、史、哲等多個(gè)學(xué)科的需要,不僅僅滿足于傳統(tǒng)的語言學(xué)詞匯、語法、語義語用、語體等研究的需要,更需要能滿足文、史、哲等多學(xué)科和跨學(xué)科研究的需要,因此加工深度及標(biāo)注信息既要反映各種語言學(xué)屬性,語料也應(yīng)具有多樣性,更應(yīng)注重多學(xué)科的交叉和融合。
(4)共享性。人文研究學(xué)者需要的不僅僅是統(tǒng)計(jì)分析的結(jié)果,他們對(duì)原始研究數(shù)據(jù)也有強(qiáng)烈的需求。傳統(tǒng)的研究者常從檔案、出版物或者文物等人類文化記錄中提取數(shù)據(jù),有時(shí)可能會(huì)花費(fèi)幾個(gè)月甚至幾年的時(shí)間。而語料庫將極大節(jié)省研究者的時(shí)間,幫助他們利用現(xiàn)有數(shù)據(jù)提出新的研究問題或作為有效的例證。因此,語料庫文本數(shù)據(jù)的共享也是非常必要的。
目前,已數(shù)字化的古籍文本主要以兩種形式存在,一種是網(wǎng)絡(luò)上的各種專業(yè)性論壇或網(wǎng)站,另一種則存儲(chǔ)于專業(yè)數(shù)據(jù)庫中。從數(shù)據(jù)收集角度來說,主要來源途徑有網(wǎng)絡(luò)數(shù)據(jù)采集與專業(yè)數(shù)據(jù)庫文本獲取兩種。然后對(duì)獲取來的文本進(jìn)行編碼、分類、標(biāo)注等處理。大規(guī)模數(shù)字化古籍文本語料庫構(gòu)建過程如圖1所示。利用計(jì)算機(jī)自動(dòng)、半自動(dòng)收集的方式,加快了數(shù)字化古籍文本建庫的速度,為建設(shè)大規(guī)模古籍文本語料庫提供了保障。經(jīng)過近半年的抓取及抽取,收集、整理了41563種(大約48億字)數(shù)字化古籍本文,涵蓋從上古到民國的經(jīng)、史、子、集等40個(gè)類目的文獻(xiàn),覆蓋面廣且有時(shí)間上的延續(xù)性,形成了一個(gè)比較綜合、學(xué)科門類全面的數(shù)字化古籍文本語料庫。
3.2數(shù)據(jù)處理
構(gòu)建面向人文學(xué)科的分析系統(tǒng)并非單純將古籍文獻(xiàn)數(shù)字化,而是需要憑借人文學(xué)者對(duì)古籍文獻(xiàn)的深刻理解,創(chuàng)造性地進(jìn)行編碼、歸類和整合。大規(guī)模、長時(shí)期的數(shù)字化古籍文獻(xiàn)普遍存在著體量龐大、標(biāo)注不明確和不同年代同類信息含義有差異等諸多問題。采用靈活、有效的編碼方法成為研究歷史數(shù)據(jù)成敗的關(guān)鍵。對(duì)數(shù)字化古籍文獻(xiàn)進(jìn)行系統(tǒng)、合理的分類與編碼是開展數(shù)據(jù)庫構(gòu)建和進(jìn)行最終定量分析的基礎(chǔ)和前提。在進(jìn)入生語料庫之前,數(shù)字化古籍文本語料需要經(jīng)過以下三個(gè)數(shù)據(jù)整理的步驟:
(1)版本挑選。在大規(guī)模機(jī)器自動(dòng)采集的過程中,網(wǎng)絡(luò)采集源的數(shù)據(jù)質(zhì)量難以通過機(jī)器來判定,因此,通過人工方式對(duì)數(shù)據(jù)整理是不可或缺的,也是為了保證高質(zhì)量古籍文本語料庫的需要。通過人工檢查的方式對(duì)數(shù)據(jù)進(jìn)行整理,去除那些低質(zhì)量、殘缺的數(shù)據(jù),挑選出那些高質(zhì)量的數(shù)字化古籍版本,高質(zhì)量的文本語料更能提高分析、統(tǒng)計(jì)的準(zhǔn)確性,提高分析結(jié)果的可信度。
(2)文本抽取。由于采集的古籍文獻(xiàn)的數(shù)據(jù)來源不同,因此文本的載體格式也呈多樣化,采集的數(shù)據(jù)格式包含PDF、WORD、HTML等多種形式,為了研究的需要,在數(shù)據(jù)整理及標(biāo)注前需對(duì)采集的數(shù)據(jù)進(jìn)行文本數(shù)據(jù)的抽取及編碼轉(zhuǎn)化。文本數(shù)據(jù)的抽取通過程序自動(dòng)抽取,抽取過程中把UTF-8、Uni-code、GBK等不同編碼轉(zhuǎn)換成統(tǒng)一的Unicode編碼。
(3)文本轉(zhuǎn)碼。與文本載體格式類似,采集、抽取的文本字體存在大陸簡體、古籍繁體及臺(tái)灣繁體字等三種。不同字體造成了對(duì)于以文本為基礎(chǔ)的統(tǒng)計(jì)及內(nèi)容分析的困難和復(fù)雜性。因此,古籍文本語料采用大陸簡體,字體轉(zhuǎn)換采用廈門大學(xué)、教育部語言文字應(yīng)用研究所、北京師范大學(xué)聯(lián)合開發(fā)的《漢字簡繁文本智能轉(zhuǎn)換系統(tǒng)》進(jìn)行簡繁異體字轉(zhuǎn)換,形成統(tǒng)一的簡體字?!稘h字簡繁文本智能轉(zhuǎn)換系統(tǒng)》采用語料庫語言學(xué)的研究方法,通過數(shù)線性模型(Log-Linear Models)進(jìn)行簡繁字體轉(zhuǎn)換,準(zhǔn)確率達(dá)到97%以上。
生文本語料的標(biāo)注也是語料庫構(gòu)建的一個(gè)重要環(huán)節(jié)。古籍文獻(xiàn)的準(zhǔn)確標(biāo)注能夠使計(jì)算機(jī)快速準(zhǔn)確地找到目標(biāo)文獻(xiàn),并能有效地建立文獻(xiàn)之間的關(guān)聯(lián)。生語料的標(biāo)注既要適應(yīng)計(jì)算機(jī)自動(dòng)處理的需要,也要考慮到人文學(xué)科研究的需要。生文本語料的標(biāo)注分成兩部分,一是對(duì)古籍文獻(xiàn)的外部特征的元數(shù)據(jù)標(biāo)注;二是對(duì)古籍文獻(xiàn)的內(nèi)容進(jìn)行標(biāo)注。古籍文獻(xiàn)的外部特征主要是指文獻(xiàn)名稱、作者(包含編、撰、注、疏等)、作品年代、著者信息(出生時(shí)間、死亡時(shí)間、出生地等)、版本信息、作品分類等。古籍文獻(xiàn)的外部特征可為數(shù)據(jù)分析、統(tǒng)計(jì)提供必要的信息,例如分析、統(tǒng)計(jì)過程中的時(shí)間點(diǎn)就是按照作品的作者卒年時(shí)間為依據(jù)的,在卒年時(shí)間不明確或無法考證時(shí)即按作品所在的年代為依據(jù)(作者的卒年及古籍文本的版本考證是一個(gè)難題,存在諸多爭議,這涉及史書語料時(shí)代性這一老大難的問題,通過相關(guān)專業(yè)人士的核查將為分析的準(zhǔn)確性提供保障)。
在標(biāo)注古籍文獻(xiàn)作者及地理信息時(shí),參考了哈佛大學(xué)費(fèi)正清中國研究中心、臺(tái)灣中央研究院歷史語言研究所和北京大學(xué)中國古代史研究中心共同開發(fā)的《中國歷代人物傳記資料庫》(CBDB)與復(fù)旦大學(xué)的《中國歷史地理信息系統(tǒng)》(CHGIS),根據(jù)研究的具體需要,從前者抽取了作品作者的生卒年代、地理信息等,從后者整合了部分地理信息。通過抽取、整合多個(gè)外部數(shù)據(jù)源,充分利用了外部的已有資源,不但減少了標(biāo)注的時(shí)間,而且豐富了數(shù)據(jù)內(nèi)涵,同時(shí)準(zhǔn)確性及可靠性也得到了保證。
(4)文本切分。詞頻分析是文本挖掘中的一種重要研究方式,也是文本可視化的一種重要模式。當(dāng)面對(duì)海量文本時(shí),人們需要對(duì)每個(gè)文本或者整個(gè)文本集合的主要內(nèi)容進(jìn)行快速瀏覽,因此需要構(gòu)建基于詞頻的文本可視化。常用的思路是將文本看作一個(gè)詞匯的集合,利用詞頻信息來呈現(xiàn)文本特征。例如谷歌(Google)實(shí)驗(yàn)室推出書籍詞頻統(tǒng)計(jì)器(Books Ngram Viewer)就是以歷代詞頻分析研究為基礎(chǔ)而進(jìn)行的可視化分析。對(duì)古籍文獻(xiàn)的內(nèi)容進(jìn)行標(biāo)注是數(shù)字化古籍文獻(xiàn)知識(shí)提取和知識(shí)重組的關(guān)鍵。對(duì)古籍文獻(xiàn)的切分必須遵循古代漢語詞匯的發(fā)展特點(diǎn),在大規(guī)模地對(duì)不同朝代的古籍文本進(jìn)行分詞時(shí),采用分朝代、分詞匯表的方式切分才符合古代漢語詞匯的發(fā)展規(guī)律。即切分不同朝代的古籍文本語料時(shí)采用相應(yīng)朝代的詞匯表,可以最大程度上提升古籍分詞的準(zhǔn)確率。筆者采用分段疊加的方式,從已有的古代漢語詞匯詞典及專書中提取詞匯,從已有語料中采用統(tǒng)計(jì)學(xué)的方法自動(dòng)提取詞匯作為補(bǔ)充,以二元(Bigram)模型為主對(duì)古籍分詞。
3.3大規(guī)模古籍文本可視化分析與挖掘
大規(guī)模古籍文本可視化分析與挖掘以古籍文本為基礎(chǔ),基于大數(shù)據(jù)研究理念,采用格拉布斯(Grubbs)法進(jìn)行數(shù)據(jù)降噪,最大程度消除問題數(shù)據(jù),在分詞后的古籍語料庫基礎(chǔ)上,以詞頻統(tǒng)計(jì)為研究核心對(duì)古籍文本進(jìn)行分析與挖掘,采用單位時(shí)間窗口滑動(dòng)技術(shù)對(duì)單位時(shí)間內(nèi)的詞頻進(jìn)行分析,運(yùn)用內(nèi)存實(shí)時(shí)計(jì)算思想很好地解決了讀取數(shù)據(jù)的瓶頸問題。實(shí)時(shí)統(tǒng)計(jì)分析則采用并行計(jì)算方式解決了實(shí)時(shí)查詢效率問題,統(tǒng)計(jì)分析結(jié)果以時(shí)間軸為主線的微觀散點(diǎn)圖和宏觀曲線圖對(duì)進(jìn)行宏觀層次與微觀層次展示,并以古籍文獻(xiàn)作者為主線,利用地理信息系統(tǒng)(GIS)技術(shù),將我國龐大的、靜態(tài)的、分散的數(shù)字化古籍進(jìn)行大規(guī)模的集成和地圖展示,以古籍文獻(xiàn)的檢索為線索在地圖上呈現(xiàn)相關(guān)作者的地理分布,實(shí)現(xiàn)了實(shí)時(shí)、在線、立體、可視化、定量分析字詞的歷史詞頻分布規(guī)律,為研究者構(gòu)建一個(gè)以語言學(xué)、歷史文獻(xiàn)學(xué)、歷史地理學(xué)等人文學(xué)科為主的古籍實(shí)時(shí)統(tǒng)計(jì)分析平臺(tái)。
4.大規(guī)模古籍文本可視化分析與挖掘在中國史定量研究中的應(yīng)用
大規(guī)模古籍文獻(xiàn)的收集整理和量化數(shù)據(jù)集是相當(dāng)有難度的,而更大的挑戰(zhàn)來自對(duì)歷史數(shù)據(jù)定量分析結(jié)果的理解和詮釋。大規(guī)模古籍文獻(xiàn)經(jīng)過可視化定量分析后,常常有一些“不期而遇”的發(fā)現(xiàn)。以大規(guī)模數(shù)據(jù)為基礎(chǔ)的量化研究還能較好糾正研究的主觀性,實(shí)現(xiàn)研究從常見的理論或問題驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)或經(jīng)驗(yàn)驅(qū)動(dòng)。運(yùn)用數(shù)學(xué)方法對(duì)歷史資料進(jìn)行定量分析,使史學(xué)研究更趨于精確,大規(guī)模的古籍文本其本身就具有重要的歷史研究價(jià)值。在此基礎(chǔ)之上,通過該系統(tǒng)能對(duì)一些歷史事件與現(xiàn)象作定量分析,使結(jié)論的可靠性具有更好的說服力。
武則天一度成為爭論最多、留下疑惑最多的一個(gè)歷史人物,對(duì)武則天的歷史評(píng)價(jià)向來毀譽(yù)不一。迄今學(xué)術(shù)界對(duì)武則天功過的評(píng)價(jià)仍然眾說紛紜,不僅史學(xué)界沒有定論,在大學(xué)課堂里亦評(píng)價(jià)各異。在傳統(tǒng)研究中,研究者易將“某一或某些例證所反映的現(xiàn)象普遍化”,從而可能喪失真實(shí)性,導(dǎo)致研究結(jié)果具有一定的不可靠性。通過大規(guī)模古籍文獻(xiàn)來分析歷史文獻(xiàn)中對(duì)武則天稱謂的變化,從中能發(fā)現(xiàn)一些有趣的歷史現(xiàn)象。由于筆者非歷史學(xué)專業(yè)出身,對(duì)問題描述與解析可能會(huì)存在一些偏差,需要專業(yè)人士來對(duì)獲得的現(xiàn)象進(jìn)行更為合理的解讀。
系統(tǒng)統(tǒng)計(jì)分析顯示,在歷史文獻(xiàn)中對(duì)武則天稱謂的總體分布和年代分布如圖2、圖3所示。從其稱謂來看有武后、武才人、武則天、武氏、武皇后、武媚、則天大圣皇后、則天大圣皇帝等,武則天死后,唐人對(duì)其的評(píng)價(jià)曾發(fā)生過一些變化,正如王雙懷教授所說“唐中宗給武則天舉行隆重的葬禮”,睿宗即位后,“對(duì)武則天的評(píng)價(jià)明顯降低”,“唐玄宗基本上還是肯定了武則天?!保笆⑻埔院蟮慕y(tǒng)治者對(duì)武則天是相當(dāng)尊重的”。從詞頻可以看出,到唐末期很少出現(xiàn)直呼其名的或稱其“武氏”,從唐中期到唐末時(shí)期基本以“武后”相稱,雖然不承認(rèn)其皇帝身份,但稱謂也無有意貶低之意。
五代后,稱其為“武氏”的文獻(xiàn)開始大量出現(xiàn),與“武后”稱謂不差上下,從大量文獻(xiàn)來看,該時(shí)段褒貶都有,對(duì)武則天任用酷吏、改朝換代的事和武周政治進(jìn)行了嚴(yán)厲的抨擊,“但總的看來,是否定武則天的”。北宋時(shí)期,歐陽修、宋祁等人用最惡毒的語言攻擊武則天,但是,歐陽修等人只是反對(duì)武則天干預(yù)朝政、任用酷吏、殺戮宗室大臣以及改朝換代,并不否認(rèn)她的政績。及至南宋,人們對(duì)武則天的評(píng)價(jià)越來越低,但也不是都持全盤否定的態(tài)度。到了清初,因?qū)Ξ愖褰y(tǒng)治不滿,又無能為力,遂借古諷今,但也有文獻(xiàn)對(duì)武則天的評(píng)價(jià)是較高的。稱其“武皇后”、“武媚”基本上集中在五代十國到南宋,而稱其為“則天大圣皇帝”(圖4)的基本以史書記載為主,文獻(xiàn)分布也比較分散。所有以上記錄武后、武才人、武則天、武氏、武皇后、武媚、則天大圣皇后、則天大圣皇帝等稱謂的文獻(xiàn)作者空間上的聚合分布如圖5所示,除了江蘇、浙江一帶比較多以外,其他地區(qū)分布得比較均勻。
對(duì)另一個(gè)經(jīng)典的歷史思想觀念進(jìn)行驗(yàn)證的是“重學(xué)輕術(shù)”。中國傳統(tǒng)觀念一直受“重學(xué)輕術(shù)”這一思想的影響,學(xué)、術(shù)在我國古代分別具有不同的含義,按《漢語大詞典》、《康熙字典》等的解釋,都有不少義項(xiàng),“學(xué)”基本是指鉆研知識(shí)、獲得知識(shí)、掌握知識(shí)等為主,而“術(shù)”則多指技藝、方法。可見,學(xué)術(shù)在中國古代的知識(shí)體系中學(xué)是學(xué),術(shù)是術(shù),且在傳統(tǒng)的儒家思想中學(xué)是“儒道之經(jīng)”,術(shù)是“奇技淫巧”。從圖6可見,“學(xué)”的頻率在中國古代文獻(xiàn)中要遠(yuǎn)高于同期“術(shù)”的頻率,不知是否跟中國古代儒家歷來重“學(xué)”輕“術(shù)”有關(guān),或一定程度上反映了儒家思想對(duì)仕人思想的影響。
文學(xué)地理學(xué)的研究對(duì)象是文學(xué)要素的地理分布、組合與變遷,文學(xué)要素及其整體形態(tài)的地域特性與地域差異,文學(xué)與地理環(huán)境之間的相互關(guān)系。文學(xué)要素包括文學(xué)家、文學(xué)作品和文學(xué)讀者,地理環(huán)境則包括自然地理環(huán)境和人文地理環(huán)境。文學(xué)地理學(xué)的任務(wù),就是考察不同的自然地理環(huán)境和人文地理環(huán)境對(duì)文學(xué)家的氣質(zhì)、心理、知識(shí)結(jié)構(gòu)、文化底蘊(yùn)、價(jià)值觀念、審美傾向、藝術(shù)感知、文學(xué)選擇等構(gòu)成的影響。文學(xué)與地理環(huán)境的關(guān)系是一個(gè)互動(dòng)關(guān)系。對(duì)中國歷代文學(xué)家的地理分布格局分析是文學(xué)地理研究的重要內(nèi)容。而古籍文獻(xiàn)則又是分析的主體。系統(tǒng)提供了古籍作者空間信息可視化分析功能,為文學(xué)地理的空間環(huán)境分析提供了新的研究工具。
在傳統(tǒng)研究中,從地理空間的視角研究文學(xué)作品,定量化解析文本中的空間信息是一項(xiàng)繁雜的工作。系統(tǒng)能通過文學(xué)作品中詞組出現(xiàn)頻率來分析其空間分布及方言詞分布,提供時(shí)間和空間二個(gè)維度的分析視角。例如,先秦至西漢年間(公元前2070-公元23年)古籍文獻(xiàn)的作者(由于系統(tǒng)目前沒有嚴(yán)格按譚正璧主編的《中國文學(xué)家大辭典》對(duì)屬于古代文學(xué)家的人物進(jìn)行標(biāo)識(shí),故統(tǒng)計(jì)分析的是所有古籍文獻(xiàn)的作者數(shù)據(jù)。以下同)主要地理分布如圖7。這一時(shí)期的作者分布主要在黃河以北地區(qū),在山東與山西境內(nèi);東漢至西晉年間(公元23-公元316年)古籍文獻(xiàn)的作者主要地理分布如圖8,這一時(shí)期的作者分布主要中心開始往長江一帶轉(zhuǎn)移,以成都、武漢、南京為主;東晉至南北朝年間(公元316-公元581年)古籍文獻(xiàn)的作者主要地理分布如圖9,這一時(shí)期的作者分布主要以南京為主;隋至五代十國年間(公元581-公元979年)古籍文獻(xiàn)的作者主要地理分布如圖10,這一時(shí)期的作者主要分布中心重新北遷,主要分布在黃河中下游地區(qū),以河南、山東為主;宋至清末年間(公元979-公元1911年)古籍文獻(xiàn)的作者主要地理分布如圖11,這一時(shí)期的作者分布區(qū)域明顯擴(kuò)大,而且主要分布在沿海及中、東部地區(qū)。
從以上古籍文獻(xiàn)作者的地理分布圖可以看出,古籍文獻(xiàn)作者的地理分布是有規(guī)律可循的,從周秦到清代中心的分布大體呈現(xiàn)以下規(guī)律:
(1)以都城區(qū)域?yàn)橹行姆植?。都城既是全國的政治和軍事中心,也是全國的文化和人才中心,聚集了豐富的教育與經(jīng)濟(jì)資源,文化和文學(xué)人才興盛,這種現(xiàn)象在我國古代早期表現(xiàn)更為明顯。先秦時(shí)期的都城以黃河以北區(qū)域?yàn)橹鳎藭r(shí)的作者基本分布在黃河以北區(qū)域,東漢至西晉年間都城開始往南遷移,如蜀國建都成都,吳國建都建業(yè)(今南京),此時(shí)的作者基本分布在長江中下游區(qū)域,東晉至南北朝年間的都城也是建業(yè),此時(shí)的作者分布以南京為中心,隋至五代十國年間的都城以西安、開封、洛陽為主,此時(shí)則以黃河中下游區(qū)域分布為主。由此可見,宋朝之前都城區(qū)域的變化對(duì)作者地理分布影響為主因。
(2)以經(jīng)濟(jì)中心分布。黃河中下游流域與長江一帶古時(shí)是中國的經(jīng)濟(jì)重心,最為富庶,這些地區(qū)的文人占了全國的絕大多數(shù),經(jīng)濟(jì)的繁榮,也帶動(dòng)了教育的發(fā)展,這些為文學(xué)人才的成長提供了重要的條件。從宋朝開始,長江中下游地區(qū)成為經(jīng)濟(jì)中心,此時(shí),經(jīng)濟(jì)中心對(duì)作者地理分布影響成為主因。
(3)文明程度的影響。文化傳統(tǒng)悠久、文化根基深厚的地區(qū)一旦形成,就有一定的穩(wěn)定性,不會(huì)因政治、經(jīng)濟(jì)等外在條件的改變而立刻改變。比如長江下游的江蘇、浙江一帶,無論朝代的更替都一直保持著文化和文學(xué)人才的興盛。
(4)交通的影響。早期的作者地理分布影響因素主要是都城及經(jīng)濟(jì),從宋朝開始,隨著交通的便利,作者地理分布呈現(xiàn)出分散的態(tài)勢,交通的發(fā)達(dá)促進(jìn)了各地經(jīng)濟(jì)、文化交流,經(jīng)濟(jì)與文化的廣泛交流是一個(gè)地區(qū)文化建設(shè)的一種重大的推動(dòng)力,此時(shí),作者地理分布集中在中國沿海及中、東部地區(qū),而西部地區(qū)由于交通因素限制了經(jīng)濟(jì)與文化的交流。
以上分析的結(jié)果與曾大興在《文學(xué)地理學(xué)研究》中的研究成果高度相符。空間信息可視化分析為古籍深層次開發(fā)與應(yīng)用的發(fā)展做出了一種探索和嘗試,實(shí)現(xiàn)了從古籍作品一般信息的統(tǒng)計(jì)學(xué)分析擴(kuò)展到古籍信息空間信息挖掘,為文學(xué)地理學(xué)研究提供了新的視角,也為其他歷史、文化地理學(xué)等相關(guān)學(xué)科的研究提供了可參考的案例。
5.結(jié)語
大數(shù)據(jù)視域下的技術(shù)邏輯和人文邏輯相耦合的數(shù)字人文研究為社會(huì)科學(xué)經(jīng)典理論的驗(yàn)證和拓展提供了更多研究空間與研究方法。在人文學(xué)科領(lǐng)域,數(shù)字化大數(shù)據(jù)成百上千倍地?cái)U(kuò)大了資料的范圍,無疑有助于人們較為系統(tǒng)、全面地了解已有研究成果。但同時(shí)資料總量的快速增漲也給學(xué)者帶來了巨大挑戰(zhàn),研究所涉及的資料大大超出一般的閱讀、分析和理解所能處理的范疇,是以往“不可研究”或“難以研究”的。數(shù)字人文分析方法的出現(xiàn),為人文學(xué)科研究提供了新的研究空間和新的研究可能。筆者利用新的信息技術(shù)與面向數(shù)字人文的跨學(xué)科研究方法及研究范式,采用大數(shù)據(jù)研究理念,對(duì)古籍文本進(jìn)行了歷時(shí)詞頻分布規(guī)律的可視化分析,并以中國史定量研究為例,對(duì)部分中國史的經(jīng)典宏觀理論從量化角度進(jìn)行了初步驗(yàn)證。大規(guī)模的古籍文本定量分析是對(duì)古籍文獻(xiàn)深層次開發(fā)與利用的一種有益嘗試。