陳 瑜
(河南中醫(yī)學(xué)院 ,鄭州450008)
以人工智能為支撐的數(shù)字信息技術(shù)給文獻(xiàn)學(xué)和古籍整理帶來(lái)了劃時(shí)代的影響,中文古籍?dāng)?shù)字化歷經(jīng)30余年的發(fā)展,已完成由單一書(shū)目數(shù)據(jù)向圖文數(shù)據(jù)、由檢索工具向知識(shí)工具的轉(zhuǎn)變。在古籍?dāng)?shù)據(jù)量、數(shù)字化技術(shù)和理論研究方面均取得一定成績(jī),為傳統(tǒng)古籍整理拓展了新的領(lǐng)域。隨著研究進(jìn)程的深入,其負(fù)面影響也日益凸顯:技術(shù)引領(lǐng)學(xué)術(shù)是古籍?dāng)?shù)字化時(shí)代學(xué)術(shù)研究的最大弊端[1]、知識(shí)遮蔽即為其一。數(shù)字化使文獻(xiàn)信息利用者面對(duì)海量文獻(xiàn)信息茫然無(wú)措,甚至“喪失自己的自主性,喪失反思和批判的能力成為信息爆炸的奴隸,被信息洪流所異化”[2]。
當(dāng)代學(xué)者呂乃基借用海德格爾技術(shù)哲學(xué)中關(guān)于“遮蔽”與“去蔽”的重要概念,提出知識(shí)因未被選擇而遮蔽,也因被選擇而遮蔽。相對(duì)而言,后者尤為復(fù)雜?!凹夹g(shù)在對(duì)一部分知識(shí)進(jìn)行篩選和固化時(shí),使另一部分知識(shí)淡化、邊緣化,或者說(shuō)被遮蔽”,“在一部分知識(shí)被選擇、集成之時(shí),另一部分知識(shí)即被舍棄,乃至被遺忘?!盵3]知識(shí)遮蔽是古籍文獻(xiàn)數(shù)字化利用過(guò)程中的共有現(xiàn)象,涉及數(shù)字化過(guò)程中技術(shù)和應(yīng)用、理論和實(shí)踐等多領(lǐng)域,具有跨學(xué)科性質(zhì),其實(shí)質(zhì)是技術(shù)和學(xué)術(shù)的關(guān)系:“坐擁書(shū)城”導(dǎo)致思維惰性和視野狹窄,面對(duì)海量信息無(wú)所適從,不能執(zhí)簡(jiǎn)馭繁。古籍?dāng)?shù)字化要從海量的古籍中選擇處理對(duì)象,在這個(gè)過(guò)程中,一部分古籍被數(shù)字化,另一部分則因未被選擇而被舍棄。其結(jié)果就是那些未被收入數(shù)據(jù)庫(kù)的古籍成為被遺忘的文獻(xiàn),永遠(yuǎn)無(wú)法被檢索,影響數(shù)據(jù)收集的完整,進(jìn)而影響研究結(jié)論的準(zhǔn)確性。
中文古籍?dāng)?shù)字化已取得了許多實(shí)質(zhì)性的進(jìn)展,主要表現(xiàn)在以下方面:古籍?dāng)?shù)字化概念已經(jīng)形成;標(biāo)準(zhǔn)程式和體系結(jié)構(gòu)的確立;數(shù)據(jù)庫(kù)檢索系統(tǒng)、輔助性研究支持系統(tǒng)的完善;書(shū)目數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)和規(guī)范已基本確定;技術(shù)研究更多地轉(zhuǎn)向古籍?dāng)?shù)字化的高級(jí)功能,如數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等。我國(guó)古籍?dāng)?shù)字化工程雖然起步比歐美國(guó)家晚,但是發(fā)展至今,無(wú)論在規(guī)模和水平上都已遠(yuǎn)遠(yuǎn)超過(guò)海外。但知識(shí)遮蔽的現(xiàn)象從肇始階段即已存在,究其成因,主要有以下幾方面:
研究手段的更新與新資料的出現(xiàn)往往是學(xué)術(shù)研究有較大突破的重要條件,正如陳寅恪先生所說(shuō):“一時(shí)代之學(xué)術(shù),必有其新材料與新問(wèn)題?!保ā蛾愒炊鼗徒儆噤洝敌颉罚┕偶?dāng)?shù)字資源的深度開(kāi)發(fā)是古籍?dāng)?shù)字化工作走向深入和取得實(shí)質(zhì)性進(jìn)展的具體表征,如果我們能將人工智能的檢索手段與人腦的長(zhǎng)處和優(yōu)勢(shì)結(jié)合起來(lái),將會(huì)給古籍整理和古典文獻(xiàn)學(xué)的研究注入新的血液,但是,盡管中文古籍?dāng)?shù)字化工程浩瀚宏大,相對(duì)整個(gè)古籍資源而言,卻永遠(yuǎn)做不到不遺不漏。真正具有學(xué)術(shù)價(jià)值、文物價(jià)值和藝術(shù)價(jià)值的古籍不能得以展現(xiàn),數(shù)字化古籍只能以易于獲得的版本為底本,而不能根據(jù)版本的優(yōu)劣作選擇,而那些并未納入數(shù)字化范圍的典籍,包括孤本、抄本、珍本往往更具有學(xué)術(shù)價(jià)值,這在很大程度上影響學(xué)術(shù)研究的質(zhì)量。如果只將視線局限于數(shù)字化產(chǎn)品,則勢(shì)必造成相關(guān)知識(shí)的人為遮蔽。
目前古籍信息都是文本型數(shù)據(jù),具有模糊性、不確定性和非線性等特征,數(shù)據(jù)庫(kù)關(guān)鍵詞檢索主要還是詞形匹配而非詞義匹配,滿足的是在一個(gè)海量信息集合中快速定位信息的需求,但精準(zhǔn)度不高;同時(shí),在漢字關(guān)聯(lián)技術(shù)上存在技術(shù)疏誤,容易引起大量不準(zhǔn)確匹配,產(chǎn)生誤檢。
最常見(jiàn)的情況是建庫(kù)時(shí)導(dǎo)入數(shù)據(jù)錯(cuò)誤,以《全唐文》《國(guó)學(xué)寶典》《漢籍全文檢索系統(tǒng)》和迪志版《四庫(kù)全書(shū)》為例,均不同程度存在數(shù)據(jù)錯(cuò)誤問(wèn)題,閱讀時(shí)會(huì)引起歧義,給研究者帶來(lái)誤導(dǎo)。在檢索功能方面,由于設(shè)計(jì)者在古文字或古文獻(xiàn)知識(shí)方面存在的局限,數(shù)據(jù)庫(kù)采用的漢字關(guān)聯(lián)技術(shù),即異體字、繁簡(jiǎn)字的匹配等,在數(shù)據(jù)庫(kù)設(shè)計(jì)中就出現(xiàn)錯(cuò)誤。許多數(shù)據(jù)庫(kù)采用單字關(guān)聯(lián)技術(shù),即某一字與另一字相匹配的方法來(lái)進(jìn)行關(guān)聯(lián),以便檢索。產(chǎn)生這種關(guān)聯(lián)技術(shù)大概基于以下考慮,在古代文獻(xiàn)中確實(shí)存在異體字現(xiàn)象,即字型不同,但含義、讀音則完全相同。然而,在古代文獻(xiàn)中僅僅采用單字關(guān)聯(lián)是十分危險(xiǎn)的,因?yàn)樵谀承┑浼锌梢詥巫株P(guān)聯(lián)匹配的字,在另一些典籍中就完全不可以。迪志版《四庫(kù)》將“喜”與“僖”、“非”與“誹”、“藏”與“臧”、“紹”與“侶”、“余”與“邪”等相關(guān)聯(lián),顯然有值得商榷之處,許多是不準(zhǔn)確的關(guān)聯(lián)。
過(guò)分依賴(lài)數(shù)字資源的檢索功能,古籍閱讀能力弱化,斷章取義,不參考各類(lèi)箋注和語(yǔ)境,導(dǎo)致知識(shí)點(diǎn)的提取及學(xué)術(shù)結(jié)論出現(xiàn)偏差;數(shù)字化古籍通過(guò)預(yù)設(shè)條件只能檢索到與關(guān)鍵詞匹配的相關(guān)資料,而不能檢索到與主題相關(guān)的隱性信息。如果在資料采集、推理求證以及檢索觀念和方法的演進(jìn)方面存在缺失,則知識(shí)遮蔽在所難免,從而影響學(xué)科整體發(fā)展水平。
人文學(xué)科是富含文化底蘊(yùn)的學(xué)科,需要長(zhǎng)期的學(xué)術(shù)積淀,任何時(shí)候數(shù)字化古籍均不能代替古籍本身。紙質(zhì)古籍無(wú)論是裝幀形式還是具體內(nèi)容,其直觀性都和數(shù)字化圖書(shū)不同,古籍原典的字里行間以及箋注體味著古人的微言大義,創(chuàng)建古籍?dāng)?shù)據(jù)庫(kù)時(shí),如果數(shù)據(jù)導(dǎo)入錯(cuò)誤,則常引起歧義,給研究者帶來(lái)誤導(dǎo),只有求諸原典才能解決問(wèn)題[4]。古籍更蘊(yùn)含著豐富的人文知識(shí)和文化信息,關(guān)于版本信息、成書(shū)、內(nèi)容層次、結(jié)構(gòu)劃分、傳布等書(shū)籍特征也往往不被數(shù)據(jù)庫(kù)顯示和表達(dá)。同時(shí),典籍中蘊(yùn)含的大量以前未知的、潛在的內(nèi)隱知識(shí),這個(gè)過(guò)程也應(yīng)該建立在通讀原典而不應(yīng)僅僅依靠數(shù)據(jù)庫(kù)的標(biāo)引功能。這是因?yàn)閷W(xué)術(shù)研究中問(wèn)題意識(shí)非常重要[5]。而自覺(jué)的問(wèn)題意識(shí)表現(xiàn)在“善于從大量原始文獻(xiàn)中發(fā)現(xiàn)問(wèn)題和解決問(wèn)題,尤能從無(wú)疑處質(zhì)疑,廓清許多積非成‘是’之點(diǎn)?!盵6]
與傳統(tǒng)治學(xué)相比較,數(shù)字化時(shí)代學(xué)者的思維方式和研究方法都發(fā)生了很大的變化。傳統(tǒng)時(shí)代,學(xué)術(shù)問(wèn)題大都從閱讀中得來(lái),解決問(wèn)題還要回到閱讀中去。數(shù)字化時(shí)代則往往主題先行,即先有題目再去論證。這種本末倒置的做法所產(chǎn)生的不良后果使偽命題及偽學(xué)術(shù)層出不窮?!斑^(guò)于依賴(lài)檢索系統(tǒng)會(huì)逐漸滋長(zhǎng)我們的惰性??茖W(xué)本身就是一把雙刃劍,人體感官在享受數(shù)字化優(yōu)裕的同時(shí)也逐漸退化,數(shù)字檢索在方便之余也逐漸吞噬我們的思維?!盵7]
現(xiàn)代化科技手段的介入,給傳統(tǒng)的治學(xué)方法帶來(lái)了深刻的影響,極大地提高了古籍整理研究的效率,但信息的檢索無(wú)法取代人的主觀能動(dòng)性,數(shù)字化產(chǎn)品充斥社會(huì),習(xí)慣與數(shù)字化產(chǎn)品打交道,使得研究者過(guò)于依賴(lài)信息工具,過(guò)于依賴(lài)檢索系統(tǒng)會(huì)逐漸滋長(zhǎng)我們的惰性,數(shù)字檢索在方便之余也逐漸僵化我們的思維。這種思維惰性不僅屏蔽了具體知識(shí),更屏蔽了獲取知識(shí)的認(rèn)知途徑。計(jì)算機(jī)雖然在一定程度上能夠模擬人的思考,甚至在某些方面更具優(yōu)勢(shì),但它不具備人類(lèi)最本質(zhì)的創(chuàng)造性思維。廓清是非、置疑解惑決非依賴(lài)電腦檢索系統(tǒng)所能解決。以文字??睘槔吮容^異同之外,判斷是非更為重要,這種決斷能力依靠深厚的學(xué)術(shù)涵養(yǎng)和積累,絕非計(jì)算機(jī)設(shè)計(jì)程序所具備。
海量的數(shù)字化文獻(xiàn)為窮盡式的研究提供了基本條件,但另一方面又導(dǎo)致學(xué)術(shù)異化和知識(shí)遮蔽,阻礙了學(xué)術(shù)前進(jìn),具體表現(xiàn)在:其一,研究周期縮短。古典文獻(xiàn)學(xué)是需要長(zhǎng)期積淀的學(xué)科,古籍?dāng)?shù)字化使各種資料的占有變得便捷易得,研究成本降低,周期縮短,抄襲和拼湊現(xiàn)象加劇,助長(zhǎng)了社會(huì)浮躁和學(xué)術(shù)不端之風(fēng),學(xué)術(shù)成果在呈快餐式膨脹,學(xué)術(shù)水準(zhǔn)卻鮮有提升,研究者被海量信息淹沒(méi),進(jìn)退無(wú)據(jù),無(wú)所適從。長(zhǎng)期使用網(wǎng)絡(luò)和各種古籍庫(kù)的研究方式,使研究者逐漸養(yǎng)成依賴(lài),離開(kāi)網(wǎng)絡(luò)就無(wú)法工作。同時(shí),海量信息讓人無(wú)所適從。若能執(zhí)簡(jiǎn)馭繁,恰當(dāng)?shù)靥幚硇畔ⅲ瑒t利大于弊;若不能排除無(wú)用信息的干擾,如同“一部十七史,從何說(shuō)起”(薛應(yīng)旃《宋元資治通鑒》),則弊大于利。其二,學(xué)術(shù)成果經(jīng)不起檢驗(yàn)。當(dāng)學(xué)術(shù)被技術(shù)主宰時(shí),技術(shù)偽裝學(xué)問(wèn)就在所難免,過(guò)于依靠數(shù)據(jù)庫(kù)檢索功能,通過(guò)預(yù)設(shè)條件只能檢索到與關(guān)鍵詞匹配的相關(guān)資料,而不能檢索到與主題相關(guān)的隱性信息,加之部分劣質(zhì)的數(shù)字化產(chǎn)品在一定程度上誤導(dǎo)著研究者,特別是無(wú)價(jià)值的垃圾信息的泛濫,導(dǎo)致人們陷入信息過(guò)度、信息麻痹的困境。同時(shí),很多有價(jià)值的信息可能被忽略。思維定勢(shì)和材料堆砌、著作的個(gè)性缺失和思想貧乏以及種種相關(guān)現(xiàn)象充斥學(xué)界。
中文古籍?dāng)?shù)字化對(duì)現(xiàn)代知識(shí)體系的形成及人文科學(xué)的深入發(fā)展具有深遠(yuǎn)的影響。然而在利用數(shù)字化古籍時(shí),至少經(jīng)過(guò)了雙重過(guò)濾:第一,數(shù)字化工程無(wú)法將所有的古籍全部數(shù)字化,更遑論珍本、散落民間之抄本等。換言之,很多有價(jià)值的文獻(xiàn)資料內(nèi)容因未被選擇數(shù)字化而被遮蔽。其次,檢索過(guò)程是第二次過(guò)濾,因?yàn)辄c(diǎn)對(duì)點(diǎn)的檢索無(wú)法完成多元或關(guān)聯(lián)檢索。對(duì)于這些經(jīng)過(guò)電腦整理的文獻(xiàn)資料,甚至是電腦分析后得出的結(jié)論,選擇什么,不選擇什么,對(duì)哪些更要進(jìn)行質(zhì)疑辨?zhèn)蔚?,這里面起決定作用的還是研究者個(gè)性化、人文化的東西。
典籍文本深蘊(yùn)歷史信息,而歷史信息是多維度的:即它的原初形態(tài),它作為公共審視和評(píng)價(jià)對(duì)象的原初形態(tài),它因?yàn)闅q月歷程中不斷增減信息而形成的歷史性形態(tài)以及它因?yàn)閷徱曊邿o(wú)窮的個(gè)性化、心智性因素加入審視過(guò)程而出現(xiàn)的復(fù)雜“偏光”[8]。這其實(shí)體現(xiàn)的是人工智能與人腦心智的辨證關(guān)系問(wèn)題。“隔”,是指因隔膜、隔閡形成差距,“不隔”,即融通無(wú)礙。只有有效去除心智之隔,方可使個(gè)體在利用數(shù)字化過(guò)程中避免出現(xiàn)思維迷失和惰性現(xiàn)象,提高學(xué)科發(fā)展水平,做到技術(shù)與學(xué)術(shù)互補(bǔ)。
數(shù)據(jù)化文獻(xiàn)時(shí)代主要以數(shù)據(jù)化文獻(xiàn)作為傳播手段,研究者擺脫原始研究方式,自覺(jué)利用數(shù)據(jù)化文獻(xiàn),將計(jì)算機(jī)作為重要工具來(lái)使用,依靠強(qiáng)大的計(jì)算機(jī)功能來(lái)進(jìn)行學(xué)術(shù)研究,包括保存、表現(xiàn)文獻(xiàn)手段的數(shù)據(jù)化,傳播文獻(xiàn)途徑的間接化,達(dá)到一定程度的文獻(xiàn)數(shù)據(jù)量等。當(dāng)前,計(jì)算機(jī)處理信息的最大便利之一,就是能夠?qū)蘖啃畔⑦M(jìn)行窮盡式分析。數(shù)字化文獻(xiàn)資源這個(gè)公共學(xué)術(shù)平臺(tái)已經(jīng)初步形成,在此種趨勢(shì)之下,是否意味人文科學(xué)的各個(gè)研究層次均會(huì)被計(jì)算機(jī)所取代?人的心智做為研究工作的靈魂何以安身立命?既能夠掌握古往今來(lái)大量史料,又能體現(xiàn)研究者深切人文理念,從中爬梳剔抉、披沙揀金,電腦在古籍?dāng)?shù)字化應(yīng)用方面的前景幾乎是無(wú)可限量的,人機(jī)之間的“權(quán)界”劃分在何處?電腦作為研究手段,其效能到底有沒(méi)有邊界[9]?只有正視以上命題的存在,方可避免在古籍?dāng)?shù)字化文獻(xiàn)的應(yīng)用中陷入迷茫之境。
古籍?dāng)?shù)字化究竟對(duì)學(xué)術(shù)研究有何推動(dòng)作用?這種作用是僅僅停留在工具層面還是能夠滲透到文獻(xiàn)學(xué)和歷史學(xué)研究?jī)?nèi)部?它是在較淺層面上促使學(xué)科發(fā)生某些表層性變化,還是在較深層面上對(duì)傳統(tǒng)學(xué)科予以根本性的改造?這是當(dāng)代每一名文史研究工作者不能回避的問(wèn)題[10]。在低價(jià)值密度數(shù)據(jù)充斥信息系統(tǒng)的情況下,大多數(shù)研究者仍然能夠從“噪音”中發(fā)現(xiàn)新的價(jià)值,隨著古典文獻(xiàn)全面數(shù)字化的到來(lái),利用文本挖掘發(fā)現(xiàn)相關(guān)數(shù)據(jù)庫(kù)新的價(jià)值也成為可能。
數(shù)字化技術(shù)推動(dòng)了學(xué)術(shù)進(jìn)程,但有可能成為異化人和束縛人的工具,面對(duì)不完整的、負(fù)價(jià)值的信息,往往導(dǎo)致人們喪失反思和批判的能力,回避或漠視古籍?dāng)?shù)字化對(duì)文史研究的深刻影響,將不可避免地導(dǎo)致研究水準(zhǔn)的落后,這種落后不僅源于研究手段的不能與時(shí)俱進(jìn),更因?yàn)楣偶當(dāng)?shù)字化對(duì)文史研究這一傳統(tǒng)學(xué)科的深層介入,使得學(xué)科的發(fā)展呈現(xiàn)出此前不具有的若干新特點(diǎn),不能適應(yīng)這種變化的學(xué)術(shù)研究必然落后于時(shí)代的要求。這一命題既是理論問(wèn)題,也是應(yīng)用問(wèn)題;既是技術(shù)問(wèn)題,也是哲學(xué)問(wèn)題,有著深邃的理論況味。
[1]吳夏平.誰(shuí)在左右學(xué)術(shù)——論古籍?dāng)?shù)字化與現(xiàn)代學(xué)術(shù)進(jìn)程[J].山西師大學(xué)報(bào)(社會(huì)科學(xué)版),2010,(3):100-103.
[2]孫偉平.論信息時(shí)代人的新異化[J].哲學(xué)研究,2010,(7):113-119.
[3]呂乃基.技術(shù)“遮蔽”了什么?[J].哲學(xué)研究,2010,(7):89-94.
[4]吳夏平.唐代中央文館制度與文學(xué)研究[M].濟(jì)南:齊魯書(shū)社,2007.16.
[5]方 敏.數(shù)字化古籍利用策略研究[J].高校圖書(shū)情報(bào)論壇,2012,(2):1-3.
[6]李 浩.唐代三大地域文學(xué)士族研究[M].北京:中華書(shū)局,2002.3.
[7]吳夏平.唐代制度與文學(xué)研究述論稿[M].濟(jì)南:齊魯書(shū)社,2008.196.
[8][9]李 鐸,王 毅.關(guān)于古代文獻(xiàn)信息化工程與古典文學(xué)研究之間互動(dòng)關(guān)系的對(duì)話[J].文學(xué)遺產(chǎn),2005,(1):126-137.
[10]鄭永曉.古籍?dāng)?shù)字化對(duì)學(xué)術(shù)的影響及其發(fā)展方向[J].社會(huì)科學(xué)管理與評(píng)論,2006.81-88.
大學(xué)圖書(shū)情報(bào)學(xué)刊2015年1期