邱源 徐方 邱章樂
摘 要 論文對(duì)“安徽四大文化圈”進(jìn)行數(shù)量和數(shù)量關(guān)系研究,構(gòu)建數(shù)字人文的運(yùn)作模式,可以進(jìn)一步揭示其演化、形成、發(fā)展的規(guī)律及特點(diǎn),有助于其他數(shù)字人文研究者借鑒遷移到自己研究的領(lǐng)域,快速作出一個(gè)優(yōu)良的項(xiàng)目設(shè)計(jì)方案,達(dá)到事半功倍的效果。
關(guān)鍵詞 圖書館 數(shù)字人文 分層框架
分類號(hào) G252
DOI 10.16810/j.cnki.1672-514X.2019.07.011
Abstract This paper studies the relationship between quantity and quantity of the “The Four Cultural Circles of Anhui” and constructs the operation mode of digital humanities, which can further reveal the laws and characteristics of its evolution, formation and development, and help other digital humanities researchers to learn from and migrate to their own research areas, and quickly make a good project design plan, so as to achieve twice the result with half the effort.
Keywords Library. Digital humanities. Hierarchical framework.
近年,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于實(shí)施中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程的意見》,并在通知中要求各地區(qū)各部門結(jié)合實(shí)際認(rèn)真貫徹落實(shí),數(shù)字人文正當(dāng)其時(shí)。為響應(yīng)中央號(hào)召,我們著眼于數(shù)字環(huán)境下“安徽四大文化圈”的開發(fā)研究,萃取精華、賦予新意,將人文研究從經(jīng)驗(yàn)思辨和解釋敘事的哲學(xué)領(lǐng)域帶進(jìn)實(shí)證科學(xué)領(lǐng)域,對(duì)其內(nèi)涵和外延進(jìn)行了更為科學(xué)的深入分析和研究,有了更為清晰的認(rèn)知。
1 “安徽四大文化圈” 數(shù)字人文研究困境
數(shù)字人文在史學(xué)研究中的滲透讓我們看到了計(jì)量史學(xué);在地理演化中的滲透讓我們看到了計(jì)量空間……那么,運(yùn)用現(xiàn)代計(jì)算機(jī)技術(shù),對(duì)安徽四大文化圈進(jìn)行全方位的數(shù)量和數(shù)量關(guān)系(無論是顯性的還是隱性的)研究,是否可以進(jìn)一步揭示其演化、形成、發(fā)展規(guī)律及特點(diǎn),在梳理四大文化圈的內(nèi)部結(jié)構(gòu)、流派和主要成就等學(xué)術(shù)范疇時(shí)顯示出獨(dú)特優(yōu)勢?答案應(yīng)該是肯定的。雖然文獻(xiàn)計(jì)量被一些習(xí)慣于定性分析的人文學(xué)者詬為“無表情的鏡子”,但并不能否定文獻(xiàn)計(jì)量分析的科學(xué)性。運(yùn)用文獻(xiàn)計(jì)量分析方法的確為我們研究安徽文化圈提供了一條富有價(jià)值的定量研究的新思路、新范式,這一范式的可貴之處在于大多數(shù)情況下研究結(jié)果可重復(fù)驗(yàn)證。也就是說,它將人文研究從經(jīng)驗(yàn)思辨、演繹推理和解釋敘事的哲學(xué)方法帶進(jìn)實(shí)證科學(xué)領(lǐng)域[1]。
淮河文化、皖江文化、廬州文化、徽州文化是構(gòu)成安徽文化的四大代表性文化圈。其史料詳實(shí)、系列整齊、內(nèi)容深邃、特色分明、跨度廣博,全息囊括了安徽社會(huì)經(jīng)濟(jì)、文化、生活、語言與社會(huì)的各個(gè)領(lǐng)域和基本內(nèi)容。其中,徽州文化深切透露了后期中國封建社會(huì)文化之謎,被譽(yù)為與敦煌學(xué)和藏學(xué)并列的中國三大走向世界的地方顯學(xué)[2]。據(jù)悉,一些高校專門研究所、圖書館和各地文化部門也相繼建立與徽州文化、淮河文化、廬州文化、皖江文化相關(guān)的數(shù)據(jù)庫,使傳統(tǒng)人文學(xué)者從浩瀚的紙質(zhì)文獻(xiàn)資料中解脫出來,通過數(shù)字技術(shù)介入的方式,把海量的人文資料轉(zhuǎn)化為數(shù)字文本和易復(fù)制的圖像。但這還不能說他們進(jìn)入數(shù)字人文時(shí)代,只能說他們目前尚徘徊在數(shù)字人文的大門外。有一個(gè)數(shù)據(jù)很能說明問題:只要打開中國知網(wǎng),以“數(shù)字人文”“人文計(jì)算”為主題詞進(jìn)行搜索統(tǒng)計(jì),2017年學(xué)術(shù)論文總計(jì)才37篇,其中大多數(shù)是圖書館學(xué)方面的內(nèi)容,涉及徽州文化、淮河文化、廬州文化、皖江文化的更是廖若晨星。為什么人文數(shù)據(jù)沒有有效展開?究其原因,主要是我們對(duì)數(shù)字人文缺乏足夠的研究。
關(guān)于傳統(tǒng)的人文研究,胡適有一句名言:“大膽假設(shè),小心求證”,一般遵循“發(fā)現(xiàn)問題—提出假設(shè)—求證、驗(yàn)證”的思路,是“假設(shè)驅(qū)動(dòng)”的研究范式。人文數(shù)字研究不同,它從大數(shù)據(jù)理念出發(fā),通過對(duì)文獻(xiàn)的統(tǒng)計(jì)、運(yùn)算和數(shù)據(jù)分析,發(fā)現(xiàn)人文史實(shí)中的問題或現(xiàn)象,再以此為基礎(chǔ),重構(gòu)我們對(duì)區(qū)域文化的認(rèn)知與理論,是一種“數(shù)據(jù)驅(qū)動(dòng)”的研究新范式。也就是說,安徽四大文化圈的數(shù)字人文研究是一個(gè)既受制于人文素養(yǎng),又受制于信息技術(shù)的艱難過程,需要人文學(xué)者與數(shù)字專家共同孵化。但目前人文學(xué)者與數(shù)字技術(shù)工程師之間存在“互盲”現(xiàn)象[3]。人文學(xué)者面對(duì)“數(shù)字人文”多少有點(diǎn)尷尬,不僅體現(xiàn)在數(shù)字技術(shù)上,還體現(xiàn)在不會(huì)以數(shù)字化方式和數(shù)字工具提出新命題、解決新問題。而數(shù)字技術(shù)專家對(duì)“史、地、哲、藝”這些人文學(xué)科的內(nèi)部結(jié)構(gòu)和內(nèi)涵知曉得又不那么廣博和深邃。這種“互盲”使得數(shù)據(jù)人文處在相對(duì)凌亂而復(fù)雜的窘迫狀態(tài)。
2 “安徽四大文化圈” 數(shù)字人文研究框架
早在10年前,我們就通過政協(xié)渠道向中央提出搶救徽文化的提案,該提案得到肯定與支持,并成立以省政協(xié)副主席劉光復(fù)為組長的考察組,隨后多次到婺源、績溪、歙縣、黟縣、休寧、祁門、屯溪、徽州等地研討過關(guān)于數(shù)據(jù)源、結(jié)構(gòu)和格式的各種可能。同時(shí),我們考察組里的人文學(xué)者和數(shù)字專家開展相互“掃盲”活動(dòng),因?yàn)槿宋膶W(xué)者的短板恰是我們數(shù)字專家的長處,反之亦是。人文學(xué)者給數(shù)字專家講自己的課題,讓他們了解“安徽四大文化圈”實(shí)際需求,補(bǔ)缺相關(guān)知識(shí);讓數(shù)字專家通過工作坊幫他們建立個(gè)人圖書館,使之增長數(shù)據(jù)集、數(shù)字工具方面的數(shù)字技術(shù)。在他們用共同的語言交流,一道孵化人文數(shù)字的互動(dòng)交流過程中,促進(jìn)了“安徽四大文化圈”的研究進(jìn)度。大規(guī)模的數(shù)字化項(xiàng)目最為人所知的是“徽州記憶” 以及 “徽州基本古籍庫”。我們還嘗試進(jìn)行精品數(shù)字人文研究的先期實(shí)驗(yàn),例如2016年,我們用數(shù)字人文手段剖析淮河文化的代表性巨作《淮南鴻烈》(《淮南子》),提取167個(gè)成語雛形,為淮南市成功申報(bào)“中國成語典故之城”提供實(shí)證性元數(shù)據(jù)。近年我們采用數(shù)據(jù)驅(qū)動(dòng)模式的手段參與了國家社科基金重大招標(biāo)項(xiàng)目“中國傳統(tǒng)家訓(xùn)文獻(xiàn)資料整理與優(yōu)秀家風(fēng)研究”(項(xiàng)目編號(hào):14ZDB007-X40008),對(duì)徽州400余座古祠堂所藏家訓(xùn)進(jìn)行相似相關(guān)度研究,通過運(yùn)算歸并同類項(xiàng),提煉出徽州家訓(xùn)經(jīng)典。這些實(shí)踐為我們構(gòu)建數(shù)字人文研究模式提供了一個(gè)基本框架。
如圖1所示,該框架由兩部分構(gòu)成:基礎(chǔ)層有“安徽四大文化圈”之器物文化、行為文化、制度文化、精神文化構(gòu)建的基礎(chǔ)數(shù)據(jù)庫,由基礎(chǔ)數(shù)據(jù)庫派生出目標(biāo)數(shù)據(jù)庫、核心數(shù)據(jù)庫和最易度量的數(shù)據(jù);運(yùn)作層即有數(shù)據(jù)挖掘?qū)印僭O(shè)層—工具層—計(jì)算層—分析層—交流評(píng)估層構(gòu)成。現(xiàn)在我們需要進(jìn)一步完善框架設(shè)計(jì),具體解決以下兩大問題: 一是四大文化圈的基礎(chǔ)庫如何搭建?其起點(diǎn)和抓手在哪?二是對(duì)目標(biāo)數(shù)據(jù)、核心數(shù)據(jù)模型和最易度量數(shù)據(jù)的具體操作程序是如何一步步運(yùn)作的?
3 四大文化圈數(shù)據(jù)庫的基礎(chǔ)層構(gòu)建模式
圖書館是各類資源的最佳整合器。圖書館原本就具有數(shù)字資源、數(shù)字技術(shù)和基于網(wǎng)絡(luò)環(huán)境的空間的優(yōu)勢[1]。通過“引渡”,讓人文學(xué)者與數(shù)字專家一起在圖書館安營扎寨,為安徽四大文化圈的研究奠定數(shù)字基礎(chǔ)。
首先在基礎(chǔ)數(shù)據(jù)庫之上構(gòu)建分支功能庫,形成基礎(chǔ)層?;A(chǔ)層外包四大文化圈的文化資源。其次將零散的、無條理的、碎片化的文化資源信息提升到功能庫,把冗余信息刪汰掉,把對(duì)人文研究有價(jià)值的數(shù)據(jù)提煉出來,使之在分析過程中具有價(jià)值,有利于印證人文學(xué)科的一些論斷或者能夠提供知識(shí)發(fā)現(xiàn)的線索。
在功能庫建構(gòu)模型中,對(duì)于核心數(shù)據(jù)目標(biāo)數(shù)據(jù)及易度量數(shù)據(jù)等都是數(shù)字文化庫的靈魂,是數(shù)字人文研究的基礎(chǔ)。人文學(xué)者應(yīng)當(dāng)將這類過往學(xué)術(shù)成果代入數(shù)字文化庫系統(tǒng)結(jié)構(gòu)中。只有人文學(xué)者從專業(yè)角度的介入,才能把整個(gè)文化數(shù)據(jù)合理切割成富含邏輯的若干子系統(tǒng),每個(gè)子系統(tǒng)負(fù)荷一個(gè)固定的人文內(nèi)容,每個(gè)子系統(tǒng)之間用帶箭頭的線連結(jié),表示它們之間的數(shù)據(jù)流動(dòng)和控制關(guān)系。這樣才能構(gòu)成適合人文學(xué)者掌控和理解的結(jié)構(gòu)圖。
3.1 基礎(chǔ)層的的核心數(shù)據(jù)
安徽四大文化圈的內(nèi)容較為復(fù)雜,不少學(xué)者認(rèn)為它至少擁有器物文化、行為文化、制度文化、精神文化等四個(gè)層面[4],這還沒有囊括心理體驗(yàn)和價(jià)值觀念。如果器物文化、行為文化和制度文化是“文化的外在表現(xiàn)形式”,那么精神文化、心理體驗(yàn)和價(jià)值觀念就是“文化的內(nèi)化形式”。文化外層的演化變革是非?;钴S的,而內(nèi)層文化卻相當(dāng)堅(jiān)固。當(dāng)內(nèi)層文化被消滅或被侵蝕替代時(shí),即意味該文化死亡,古巴比倫、古埃及就是例子。因此,一個(gè)文化圈的核心價(jià)值觀之提挈,將是“上窮碧云下黃泉”的過程。以徽文化為例,其外在形式十分寬泛,包括新安志學(xué)、新安樸學(xué)、新安理學(xué)、新安醫(yī)學(xué)、新安建筑、新安科技、新安教育、新安畫派、新安工藝、新安藝文,還有徽州文房四寶(墨、硯、紙、筆)、徽州民俗、徽州方言、徽派雕刻、徽派盆景、徽州竹編、徽州漆器、徽州烹飪等。如果不確立相對(duì)穩(wěn)定的基本要素,徽文化就是不著邊際或模棱兩可的,從而影響到構(gòu)建徽文化數(shù)據(jù)庫的路徑選擇。因此,在建構(gòu)安徽四大文化圈的結(jié)構(gòu)中,只需抓住核心要素。如果有多個(gè)核心要素,則需抓住其中最關(guān)鍵的。例如,如果將傳統(tǒng)文化佛、道、儒、法與四大文化圈相匹配的話,其對(duì)應(yīng)順序應(yīng)是皖江文化、淮河文化、徽州文化、廬州文化。抓住北宋二程(程顥、程頤) 、朱熹代表的新儒學(xué),就抓住了徽文化的核心;抓住老子、莊周為代表的道學(xué),就抓住了淮河文化的核心。
3.2 基礎(chǔ)層的目標(biāo)數(shù)據(jù)
數(shù)字文化庫的結(jié)構(gòu)框架是由建庫的目標(biāo)決定的。一方面考慮近期要達(dá)到的重點(diǎn)目標(biāo),如徽文化人物朱子、戴震、胡適、汪華、朱升、程大位、鄭復(fù)光、程晉芳、陶行知、賽金花等等舉不勝舉,但是我們近期如果將朱子、戴震、胡適梳理了,也就將封建昌盛時(shí)期、社會(huì)轉(zhuǎn)型時(shí)期和現(xiàn)代社會(huì)代表人物廓清了。只將九龍瀑,一溝三狀元、三丞相的程元鳳、曹文植、曹振鏞廓清了,官宦人物的畫面也就有了;另一方面我們將遠(yuǎn)程目標(biāo)鎖定在歷史上所有與徽文化有關(guān)人物的傳記資料上,并將其人物關(guān)聯(lián)用數(shù)學(xué)模型表達(dá)出來,公諸學(xué)術(shù)之用。再者從歷史縱深角度來囊括資料?;瘴幕菍?duì)中原文化的包容整合,它初興于北宋后期,崛起于南宋,鼎盛于明清,這一演化過程延續(xù)約800年之久。因此,從歷史量化角度,東漢、西晉、唐末、北宋四次北方強(qiáng)宗大族的南遷,也應(yīng)預(yù)留在框架結(jié)構(gòu)中。
近期目標(biāo)要著眼于文獻(xiàn)中的細(xì)節(jié)或不易察覺的蛛絲馬跡,起到“顯微鏡”的作用[1]。例如,將淮河文化中的土語與天津土語的細(xì)節(jié)關(guān)聯(lián),可以推測清朝淮軍北上駐留天津的史實(shí)。遠(yuǎn)期目標(biāo)要素要鎖定洪量文獻(xiàn)中的概貌、脈絡(luò)或各種關(guān)聯(lián),實(shí)現(xiàn)所謂“遙讀”,起到“望遠(yuǎn)鏡的”作用。遠(yuǎn)期目標(biāo)往往由近期目標(biāo)引發(fā)。如淮軍北上駐留天津的史實(shí)得到證實(shí),并由此想推導(dǎo)出大清朝命運(yùn)陡變的宏觀要素,則需由 “顯微鏡”轉(zhuǎn)而變?yōu)椤巴h(yuǎn)鏡”,研究的是有長度的史實(shí)或有寬度的空間關(guān)系。
從上述目標(biāo)數(shù)據(jù)意義上說,對(duì)于目標(biāo)數(shù)據(jù)的模型設(shè)計(jì),也就必須跨越人文與數(shù)字學(xué)科的邊界和壁壘,融合雙方的成果和力量,讓人文學(xué)者和數(shù)字技術(shù)專家充分了解彼此,用互相聽得懂的話闡釋數(shù)字文化庫的內(nèi)涵結(jié)構(gòu)問題。從分工角度,程序設(shè)計(jì)人員為建立數(shù)字文化庫提供開放的運(yùn)行程序和數(shù)學(xué)模型;人文專家應(yīng)在文化框架方面解析結(jié)構(gòu)要素,搭建不同文化圈的平臺(tái)。這樣建立起來的數(shù)字文化庫才有方便檢索的庋藏功能,更重要的是能夠向人文研究者提供便于科學(xué)統(tǒng)計(jì)、分析和評(píng)價(jià)的計(jì)量范式。
3.3 基礎(chǔ)層的易度量數(shù)據(jù)
幾乎所有的哲學(xué)家都贊同古希臘畢達(dá)哥拉斯學(xué)派提出“萬物皆數(shù)”的觀點(diǎn);幾乎所有的測量家都贊同桑戴克所說的“隨便什么東西,只要存在的,總存在于數(shù)量之中”的判斷[5]。無論哲學(xué)界還是科學(xué)界都試圖借助物的量化理論,將人文研究納入可度量的范疇。人文學(xué)科最易度量要素莫過于基于人、地、時(shí)、事四種。
3.3.1 人物可度量信息
人物本體具有歷史性、社會(huì)性和現(xiàn)實(shí)性,是提煉人物精神的重要過程[6]。人物的密度、廣度、比配等是人文數(shù)字最基本的度量項(xiàng)。以徽州文化為例,“連科三殿撰,十里四翰林”“父子丞相,同胞翰林”等佳話生動(dòng)地描述了徽州地域人杰地靈,翹楚頻出的狀況。更明晰的是在數(shù)量上進(jìn)行記載,如明清兩代出了168位進(jìn)士、17位狀元;《中國人名大辭典》共收集清以前歷代名人4萬人,徽州就有800余人等等。比配關(guān)系更能強(qiáng)調(diào)和突出稀缺性和特異性,例如被評(píng)為中華杰出歷史文化名人的前30名中,徽州就占了六位:朱熹、王茂蔭、戴震、黃賓虹、陶行知、胡適。研究人物的密度、數(shù)量、比配等可度量的元素,可以直接為徽州文化的研究注入新鮮的血液,促進(jìn)和推動(dòng)徽文化的深入研究。
3.3.2 地理可度量信息
安徽四大文化圈從地理空間看,各有特色。廬州文化限于合肥及合肥周邊地區(qū),地理面積不大,呈點(diǎn)狀,但由于合肥是安徽政治文化中心,其文化輻射面大,具有穿透力;徽文化地理由多個(gè)塊狀團(tuán)繞糾纏而成,呈面狀,盡管跨越了省際區(qū)劃(婺源歸劃江西),其內(nèi)在文化紐帶非常牢固;皖江文化和淮河文化都呈帶狀,文化元素如大河滔滔,極其活躍。地域本體模型主要以地圖為表現(xiàn)形式,整合機(jī)構(gòu)在地圖上標(biāo)出某地區(qū)的檔案文化資源,用戶可以通過點(diǎn)擊感興趣的圖標(biāo)來獲取該地區(qū)的信息。由哈佛燕京學(xué)社、格里菲斯大學(xué)和復(fù)旦大學(xué)共建的中國歷史地理信息系統(tǒng)(CHGIS)為研究者提供GIS數(shù)據(jù)平臺(tái)、時(shí)間統(tǒng)計(jì)以及查尋工具和模型,目標(biāo)是建立可度量的地理數(shù)據(jù)庫。整合機(jī)構(gòu)甚至可以將智能定位技術(shù)與移動(dòng)媒體結(jié)合開發(fā),當(dāng)用戶達(dá)到某地點(diǎn)時(shí),整合機(jī)構(gòu)就可以通過移動(dòng)媒體推送相關(guān)資源。
3.3.3 歷史可度量信息
時(shí)間軸可以直觀地展現(xiàn)資源的年代跨度,這種系統(tǒng)化、完整化、精確化的表達(dá)方式非常適合厘清各文化的時(shí)間順序和發(fā)展歷程。從歷史長度看,皖江地區(qū)和淮河文化的歷史淵源最久,如和縣猿人遺址、銀山遺址、水陽江舊石器遺址,位于淮河中游的下草灣遺址、位于淮河下游的桃花澗遺址和青蓮崗文化遺址等[7]。廬州文化和徽文化與其相比要晚許多,周武王封國,按照公、侯、伯、子、男等級(jí)爵別進(jìn)行分封,廬國為“子”爵,故稱“廬子國”,真正有史料見證的只能說其建自先秦。徽文化歷史更短,它是一個(gè)移民社會(huì),嚴(yán)格算起來應(yīng)從宋徽宗宣和三年(1121年) 改歙州為徽州起,至現(xiàn)今800多年而已。但從文化密度看,徽文化就可稱之為四大文化圈之翹楚,被譽(yù)為是“后期中國封建社會(huì)的典型標(biāo)本”[8]。寬度、長度、密度等度量要素本身就含有數(shù)量成分,是數(shù)字人文的元數(shù)據(jù),因此數(shù)據(jù)庫框架設(shè)計(jì)伊始就要高度重視之。
3.3.4 事件可度量信息
以史為鑒,基于事件的本體模型可以揭示密度與客觀真相,例如淮河文化中頻頻發(fā)生的戰(zhàn)爭就是重大事件。早在商周時(shí)期,位于淮河下游的淮夷方國與商周統(tǒng)治者對(duì)峙,結(jié)果就是連續(xù)數(shù)百年戰(zhàn)爭,導(dǎo)致殷商的覆滅和周王朝的衰敗。春秋戰(zhàn)國時(shí)期的齊魯長勺之戰(zhàn),宋楚的泓水之戰(zhàn)、魏晉以后的南北之戰(zhàn)、宋金對(duì)峙使壽春、睢陽、彭城和魯城成為著名古戰(zhàn)場。陳勝、吳廣、項(xiàng)羽、曹操、朱元璋都是出生于斯,從戎于斯的歷史名將。朱元璋詩中寫道:“年年殺氣未曾收,淮南淮北草木秋”,這就足以想象出淮河流域戰(zhàn)爭的頻繁程度。從某種意義講,淮河文化就是戰(zhàn)爭文化或抗?fàn)幬幕?/p>
4 四大文化圈數(shù)據(jù)庫運(yùn)行層的建構(gòu)模式
為滿足四大文化圈數(shù)據(jù)庫的運(yùn)行,應(yīng)并列建立兩個(gè)結(jié)構(gòu)完全相同的數(shù)據(jù)庫,一個(gè)做正規(guī)數(shù)字文化庫用,歸專門人員管理,用高級(jí)權(quán)限的密碼才能打開;另一個(gè)做錄入數(shù)字文化庫用,沒有密碼,可以任意輸入和輸出。對(duì)兩個(gè)數(shù)字文化庫,都提供查詢、輸入和編輯的功能,查詢時(shí)可根據(jù)信息類型或關(guān)鍵字段單獨(dú)查詢,也可利用關(guān)鍵詞進(jìn)行關(guān)聯(lián)查詢,并利用PHP語言建立兩者之間的相互關(guān)聯(lián)。通過這樣的管理就實(shí)現(xiàn)了數(shù)字文化庫的開放建設(shè),大大減輕了建設(shè)數(shù)字文化庫的成本,縮短了建成數(shù)字文化庫的時(shí)間,提高了數(shù)字文化庫的運(yùn)行質(zhì)量,并且保證了數(shù)字文化庫內(nèi)容的權(quán)威性。四大文化圈數(shù)據(jù)庫的運(yùn)行大致包括數(shù)據(jù)挖掘、假設(shè)、工具計(jì)算、分析、交流與評(píng)估等六個(gè)層面。
4.1 數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘?qū)邮遣捎脭?shù)字挖掘技術(shù)對(duì)四大文化圈數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,找尋未知的、隱秘的、或模糊的人文信息,并將其消化、整合、概括為假設(shè)依據(jù)。數(shù)據(jù)挖掘的主要方法有神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、決策樹方法、粗集方法、統(tǒng)計(jì)分析方法和模糊集方法等[9]。最常用的是神經(jīng)網(wǎng)絡(luò)方法。由于神經(jīng)網(wǎng)絡(luò)方法其自身具有良好的自組織自適應(yīng)性、分布存儲(chǔ)和高度容錯(cuò)等特性,比較適合解決人文信息分類、預(yù)測和模式識(shí)別以及聯(lián)想記憶和信息反饋方面的問題。決策樹方法也是一種常用的數(shù)字挖掘技術(shù),便于我們從中找到一些潛在的有價(jià)值的信息,其分類直觀,描述簡單,對(duì)初學(xué)數(shù)字挖掘技術(shù)者大有裨益。
4.2 假設(shè)層
如果說傳統(tǒng)人文學(xué)與數(shù)字人文有交集,那么這個(gè)交集點(diǎn)就在假設(shè)層。傳統(tǒng)的假設(shè)來自思辨,數(shù)字人文來自數(shù)據(jù)挖掘或“數(shù)據(jù)驅(qū)動(dòng)”。假設(shè)層就是將關(guān)聯(lián)數(shù)據(jù)、分類數(shù)據(jù)、問題數(shù)據(jù)、匹配數(shù)據(jù)、反饋數(shù)據(jù)作為命題假設(shè)的依據(jù),是一個(gè)目標(biāo)定向的思維過程。需要強(qiáng)調(diào)的是,最后的假設(shè)往往要在數(shù)據(jù)挖掘?qū)优c假設(shè)層之間不斷回環(huán)。因此,充分的數(shù)據(jù)挖掘是實(shí)現(xiàn)高質(zhì)量人文項(xiàng)目的起點(diǎn)。另外,假設(shè)尚未清晰時(shí),還可以利用模糊集合理論對(duì)假設(shè)進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。模糊集合理論一般是用隸屬度來刻畫假設(shè)的亦此亦彼性。假設(shè)尚未成熟時(shí),還需要進(jìn)一步整合有關(guān)信息,反思、完善模糊意向,運(yùn)用促進(jìn)性信息來進(jìn)一步完善假設(shè),運(yùn)用抑制性信息來進(jìn)一步改進(jìn)假設(shè)。這兩類回環(huán)實(shí)質(zhì)上都是對(duì)假設(shè)的檢驗(yàn)過程。
4.3 工具層
從挖掘?qū)印⒓僭O(shè)層上升到工具層,是數(shù)字人文區(qū)別于傳統(tǒng)人文研究的標(biāo)志,這不僅需要研究者有深厚的人文素養(yǎng),同時(shí)還需要對(duì)信息技術(shù)有較為嫻熟的掌握。工具層體現(xiàn)的是人文學(xué)理與數(shù)字技術(shù)高度融合,是實(shí)現(xiàn)高質(zhì)量數(shù)字人文項(xiàng)目的關(guān)鍵。舉一個(gè)簡單的例子:通過神經(jīng)網(wǎng)絡(luò)挖掘技術(shù),發(fā)現(xiàn)常用的文言虛詞有19個(gè):而、之、乎、者、何、以、所、于、也、乃、則、其、若、然、矣、與、為、因、焉。接下來要認(rèn)真想一想這些虛詞數(shù)據(jù)對(duì)什么命題有什么用。用數(shù)據(jù)回環(huán)技術(shù),挖掘到有人利用虛詞“作為分辨作者身份的參照物(或者說文學(xué)指紋)”,那么可否用虛詞檢索來檢驗(yàn)作品作者到底為何人呢?驗(yàn)證這一假設(shè),接下來就將這一假設(shè)帶進(jìn)工具層,下載一個(gè)可以抽樣和統(tǒng)計(jì)字、詞的小工具軟件,然后通過抽樣工具建立樣本,將電子版的樣本切割成若干獨(dú)立的txt文檔,再分別用這個(gè)小工具統(tǒng)計(jì)這些虛詞在每個(gè)章節(jié)出現(xiàn)的頻率。如果頻率無明顯差異,則假設(shè)成立,如果頻率有明顯差異,則假設(shè)需要重新驗(yàn)證。當(dāng)前,有6種數(shù)字工具常被數(shù)字人文引入,一是抽樣工具,二是中文分詞工具,三是GIS空間測定工具,四是同類術(shù)語分析工具,五是時(shí)間或人物密度分析工具,六是網(wǎng)絡(luò)新詞梳理工具等等。這些技術(shù)工具可靈活組配,可不斷豐富數(shù)字人文研究的命題假設(shè)。隨著數(shù)字人文的進(jìn)一步實(shí)踐,會(huì)有更多新工具面世。
4.4 計(jì)算層
工具層與計(jì)算層毗鄰,有時(shí)工具層就能完成簡單的計(jì)算任務(wù)。前面例舉的虛詞在每個(gè)章節(jié)出現(xiàn)的頻率,可以在工具層進(jìn)行計(jì)算,但更為復(fù)雜的運(yùn)算就不得不在計(jì)算層進(jìn)行了。例如,用虛詞頻率檢測《紅樓夢》,先將全文分成前80回和后40回,以及前40回、中40回、后40回兩種場景,通過非參數(shù)檢驗(yàn)來進(jìn)行全面計(jì)算。對(duì)于前80回和后40回需采用Mann-whiney U檢驗(yàn)(如表1),對(duì)于前40回、中40回、后40回需采用Kruskal-Wallis檢驗(yàn)和Mann-whiney U檢驗(yàn)(如表2、表3)
4.5 分析層
在計(jì)算層的數(shù)字基礎(chǔ)上,人文學(xué)者結(jié)合本學(xué)科身的學(xué)理進(jìn)行思辨、比較,印證相關(guān)假設(shè)或發(fā)現(xiàn)新的知識(shí)。仍以虛詞頻率為例,對(duì)計(jì)算層計(jì)算的結(jié)果進(jìn)行分析,我們可以得出這樣的結(jié)論:《紅樓夢》后40回?zé)o論是和前80回做比較,還是和1~40回,41至80回做比較,虛詞都指向了差異顯著的結(jié)論,只有30%不到的虛詞分布差異不顯著,因此最后的40回應(yīng)該是一個(gè)獨(dú)立的作者,而前80回是另一個(gè)作者完整寫作的。從非參數(shù)檢驗(yàn)來看,可以得出《紅樓夢》應(yīng)由2個(gè)作者寫成的結(jié)論。
經(jīng)過數(shù)字洗禮,分析層也可使研究者回歸人文學(xué)科自身的邏輯。作者生平探究、場景描述差異研究、影射投射比較等人文學(xué)者嫻熟的思辨或人文情懷,都可以在這個(gè)層面淋漓盡致地展開。經(jīng)過數(shù)字檢驗(yàn)的分析無疑增加了研究成果的信度和效度,上升到了科學(xué)層面。
4.6 交流與評(píng)估層
交流與評(píng)估層既是成果發(fā)布平臺(tái),也是面向數(shù)字人文項(xiàng)目的交流平臺(tái),更是成果的檢驗(yàn)平臺(tái)。數(shù)字人文與傳統(tǒng)人文研究的根本區(qū)別就在于前者是可以重復(fù)試驗(yàn)的,是實(shí)證科學(xué),后者則停留在哲學(xué)思辨層面。但是,交流與評(píng)估層并不一概排斥人文學(xué)者習(xí)慣了的經(jīng)驗(yàn)研討方式。對(duì)數(shù)字人文成果的評(píng)估形式多種多樣,概括起來,大致有三種基本類型。
(1) 符合性評(píng)估。用來確定某人文項(xiàng)目研究結(jié)果與歷史客觀發(fā)生的事實(shí)是否相符。例如,淮河流域與天津的文化交集是否是因李鴻章10萬淮軍駐留而生發(fā),只要查清戶籍就可驗(yàn)證。由于人文學(xué)科受制因素復(fù)雜,其符合性檢驗(yàn)相對(duì)較慢。這方面的極端例子是紅樓夢辭法檢驗(yàn)結(jié)果的可信度和可靠度。
(2) 包容性檢驗(yàn)。在某些情形下,傳統(tǒng)經(jīng)驗(yàn)研究的東西與數(shù)字文化引導(dǎo)的成果不一樣。這雖然“反常”,但并不可怕,因?yàn)閿?shù)字文化在初始階段都會(huì)被“反?!彼鼑?。包容性檢驗(yàn)主要“用于確定在什么情形下該成果仍然成立”[10],也就是承認(rèn)數(shù)字人文研究成果存在局限性。
(3) 數(shù)學(xué)模型檢驗(yàn)。以主要矛盾為主來對(duì)該實(shí)際問題進(jìn)行適當(dāng)?shù)暮喕?,并提出一些合理的假設(shè),可以為數(shù)學(xué)建模帶來方便,并完成檢驗(yàn)。人文研究結(jié)果必須是可信的,有信度的人文研究結(jié)論才有意義。信度又叫可靠性,在檢驗(yàn)理論中,信度被定義為:一組數(shù)據(jù)量的真變異數(shù)與總變異數(shù)(實(shí)得變異數(shù))的比率,用公式表示為:
rxx(信度系數(shù))=真變異數(shù)·
根據(jù)數(shù)量誤差來源的不同,數(shù)字人文信度常用的檢驗(yàn)?zāi)P陀性贉y信度和分半信度。再測信度檢驗(yàn)時(shí)間的間隔對(duì)結(jié)果的影響,故又稱穩(wěn)定性系數(shù)。分半法是將同一時(shí)間的項(xiàng)目分成對(duì)等的兩半,求得兩半分?jǐn)?shù)的相關(guān)。這些數(shù)學(xué)模型大多來自心理測量理論。心理學(xué)原本屬于哲學(xué)范疇,他們借助數(shù)學(xué)等自然學(xué)科的引渡,已從傳統(tǒng)哲學(xué)中脫胎而出,自由游弋在科學(xué)領(lǐng)域,人文學(xué)科一定也行。
5 結(jié)語
“安徽四大文化圈”的數(shù)量和數(shù)量關(guān)系研究,僅僅是數(shù)字人文技術(shù)領(lǐng)域的一個(gè)嘗試。搭建具有普適性的數(shù)字人文的運(yùn)作模式,有助于其他數(shù)字人文研究者借鑒并遷移到自己研究的領(lǐng)域,快速作出一個(gè)優(yōu)良的項(xiàng)目設(shè)計(jì)方案,達(dá)到事半功倍的效果。數(shù)字人文的后續(xù)課題還很多,圖書館可憑借其豐富的人文信息資源、先進(jìn)的技術(shù)設(shè)備、高技能的人才,為數(shù)字人文提供更為適宜的科研環(huán)境及服務(wù),推進(jìn)數(shù)字人文更上一個(gè)臺(tái)階。
參考文獻(xiàn):
孫輝.數(shù)字人文研究框架探析與思考[J].情報(bào)理論與實(shí)踐,2018(7):7-12.
劉雨薇.徽州口頭和非物質(zhì)文化遺產(chǎn)保護(hù)的問題及根源[J].華人時(shí)刊,2013(1):70-72.
于亞秀,李欣美.國高校圖書館的數(shù)字人文服務(wù)實(shí)踐:以加州大學(xué)洛杉磯分校為例[J].圖書館論壇,2018(2):23-26.
歐陽志遠(yuǎn),呂楠.熱話題與冷思考:關(guān)于生態(tài)文明與社會(huì)主義的對(duì)話[J].當(dāng)代世界與社會(huì)主義,2013(2):34-36.
THORNDIKE E L. The seventeenth yearbook of the national sociey for the education[M]. Public School Publishuing Co.,1918.
張衛(wèi)東,張?zhí)煲唬戣?基于數(shù)字人文的檔案文化資源整合研究[J].蘭臺(tái)世界,2018(1):17-20.
劉建超.從中國舊石器時(shí)代遺跡現(xiàn)象初探古人類行為[M].太原:山西大學(xué)出版社,2016.
李玫,項(xiàng)桂娥.長江三角洲城市群規(guī)劃背景下皖江城市帶銀行業(yè)發(fā)展戰(zhàn)略:基于PEST-SWOT分析模型[J].科技經(jīng)濟(jì)市場,2016(10):34-36.
姜淑芳,常勇.數(shù)據(jù)挖掘的應(yīng)用研究[J].科技經(jīng)濟(jì)市場,2011(10):18-21.
邱章樂,程躍.智慧信息[M].北京:光明日?qǐng)?bào)出版社,2013:207-212.