藺文卓
摘 要:長(zhǎng)期以來,檔案的編研工作尤其是歷史檔案部分的編研工作信息量大、難出成果,一直成為檔案編研工作的難點(diǎn)。與整個(gè)檔案工作相比相對(duì)滯后。目前信息化、數(shù)據(jù)化時(shí)代的到來,為歷史檔案編研工作帶來了全新的機(jī)遇。筆者從數(shù)據(jù)化的本質(zhì)出發(fā),將數(shù)據(jù)化引入到檔案編研工作中來,提出了建立歷史檔案數(shù)據(jù)庫,運(yùn)用數(shù)據(jù)化、數(shù)據(jù)追蹤、智能分析等手段開展歷史檔案編研的全新路徑。
關(guān)鍵詞:歷史檔案;編研滯后;運(yùn)用智能;全新途徑
DOI:10.12249/j.issn.1005-4669.2020.26.079
歷史檔案一般是指明清以來,直至中華人民共和國新中國成立前所形成的具有保存價(jià)值的檔案。它反映了我國近6百年的發(fā)展歷史,由于歷史時(shí)段長(zhǎng)、資料數(shù)量大,人們?cè)跉v史檔案編研時(shí),總是在浩如煙海的歷史資料中,耗時(shí)、耗人、耗材的苦苦搜尋,在歷經(jīng)幾多艱難后,方能查到一些有價(jià)值的資料。這種傳統(tǒng)的資料查找和檔案利用方式已嚴(yán)重制約了歷史檔案的編研工作。所以為破解這一難題,為檔案的編研工作探尋更便捷的工作方式,筆者從數(shù)據(jù)化的入手,重新審視歷史檔案編研工作,提出了基于數(shù)據(jù)化,采用挖掘技術(shù),建立數(shù)據(jù)化追溯數(shù)據(jù)庫,實(shí)現(xiàn)檔案資料文本、片段數(shù)據(jù)化等方法,打開服務(wù)編研工作的新路徑。
1 歷史檔案編研現(xiàn)狀
目前我國檔案管理機(jī)構(gòu)已經(jīng)普遍開展了檔案數(shù)字化工作,并且實(shí)現(xiàn)了部分歷史檔案的數(shù)字化。但是,數(shù)字化工作的有效開展,并不意味著編研工作進(jìn)入了快車道,因?yàn)閺倪|寧省縣級(jí)以上檔案管理機(jī)構(gòu)看,大多檔案數(shù)字化只是將原有的檔案實(shí)現(xiàn)了全文掃描,只是形成了一張具有編號(hào)、目錄,而且是計(jì)算機(jī)編目下的圖片,只能實(shí)現(xiàn)在知道本頁基本信息的情況下的一種基本調(diào)閱。還沒有開展運(yùn)用數(shù)據(jù)化技術(shù)。所以我們很有必要掌握,運(yùn)用數(shù)據(jù)化技術(shù),推進(jìn)檔案編研工作發(fā)展的速度。檔案數(shù)據(jù)化是指,將檔案信息化轉(zhuǎn)化為計(jì)算機(jī)可以閱讀的檔案信息資源的過程,并實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)分析、理解和處置檔案信息,將利用檔案的途徑由“頁面閱讀”轉(zhuǎn)變?yōu)椤皟?nèi)容控制”“信息開發(fā)”,并可以進(jìn)一步轉(zhuǎn)化為可制表分析的數(shù)據(jù)態(tài)檔案。就是說簡(jiǎn)單的圖片模式的數(shù)字化不是數(shù)據(jù)化,只有可智能識(shí)讀、可分析的數(shù)據(jù)信息,才是真正意義上的數(shù)據(jù)化。也就是說目前各個(gè)檔案機(jī)大多數(shù)沒有進(jìn)行歷史檔案編研數(shù)據(jù)化工作。
2 實(shí)現(xiàn)歷史檔案數(shù)據(jù)化編研的新路徑
1)建立可追溯檔案數(shù)據(jù)庫。實(shí)現(xiàn)歷史檔案的數(shù)字化,是進(jìn)行數(shù)據(jù)化編研的首要條件。根據(jù)實(shí)際工作與研究預(yù)測(cè),只有在實(shí)現(xiàn)了全文數(shù)字化之后,才能建立以數(shù)字化為基礎(chǔ)的全文數(shù)據(jù)化數(shù)據(jù)庫。這就需要我們以數(shù)字化為基礎(chǔ),建立歷史檔案數(shù)據(jù)庫,這是實(shí)現(xiàn)檔案數(shù)據(jù)化編研的第一步。對(duì)于歷史檔案的數(shù)字化圖片,只要將其圖像承載的內(nèi)容進(jìn)行著錄并輸入計(jì)算機(jī),并按照一定的編碼規(guī)律歸類,并利用OCR技術(shù)對(duì)圖片中的文字加以識(shí)別,轉(zhuǎn)變?yōu)閿?shù)字化的可處理的格式,從而實(shí)現(xiàn)歷史檔案從數(shù)字化到數(shù)據(jù)化的根本轉(zhuǎn)變。
2)采用挖掘技術(shù),實(shí)現(xiàn)文字片段的數(shù)據(jù)追蹤。文字片段的數(shù)據(jù)追蹤,是數(shù)字化的終極目標(biāo)。因?yàn)樵跀?shù)字化階段,雖然我們的存量檔案已經(jīng)存入了電腦,但是在數(shù)字化圖片模式下,計(jì)算機(jī)對(duì)其是不能識(shí)讀的。當(dāng)利用者要查找某一內(nèi)容時(shí),當(dāng)輸入關(guān)鍵字后,計(jì)算機(jī)并不會(huì)將相關(guān)的文字片段全部呈現(xiàn)在屏幕上。只有當(dāng)你知道它在那本書上,這種檢索才是準(zhǔn)確有效的。正如黃強(qiáng)在《數(shù)字化與數(shù)據(jù)化》(見《住宅與房地產(chǎn)》2020年5期)一文中指出的那樣,只有采用“能識(shí)別數(shù)字圖像的光學(xué)字符識(shí)別軟件來識(shí)別文本的字、詞、句和段落,如此一來,書頁的數(shù)字化圖像就轉(zhuǎn)化成了數(shù)據(jù)化文本。通過檢索和查詢,我們可以對(duì)它進(jìn)行無窮無盡的文本分析;也可以揭示一個(gè)詞以及詞組第一次出現(xiàn)的時(shí)間及其成為流行詞的時(shí)間,據(jù)此發(fā)現(xiàn)幾百年來人類思維發(fā)展和思想傳播的軌跡?!睂?duì)于歷史檔案編研工作而言,多年來,檔案工作者都是采用人工翻閱的模式開展編研工作,每篇文章、每部作品的出爐,由于資料的查找難度大,總要花費(fèi)幾個(gè)月甚至幾年的時(shí)間。如果歷史檔案全部實(shí)現(xiàn)數(shù)據(jù)化,要想開展某個(gè)專項(xiàng)的研究,只要在計(jì)算機(jī)的搜索欄里輸入關(guān)鍵詞或某個(gè)文本片段,文獻(xiàn)中關(guān)于這方面的內(nèi)容就會(huì)全部顯示在屏幕上。這樣,我們查找資料就不再難了,編研工作也就輕松了許多,同時(shí)會(huì)節(jié)約大量的人力、物力。
3)建立智慧數(shù)據(jù)模型和流程模型。智慧檔案館建設(shè)的核心是建設(shè)以數(shù)據(jù)為核心,以數(shù)據(jù)化為根本的檔案資源體系和網(wǎng)絡(luò)運(yùn)行體系。在大數(shù)據(jù)時(shí)代,只有加強(qiáng)這兩個(gè)模型的建設(shè),才能更加有效地發(fā)揮檔案的利用效果,才能使利用的社會(huì)化和最大化成為現(xiàn)實(shí)。這兩個(gè)模型的建立,將使國家檔案局原局長(zhǎng)關(guān)于數(shù)字化的“圖片轉(zhuǎn)化為電腦可以識(shí)讀的字,變成電腦可以任意檢索的數(shù)據(jù),讓它和其他的大數(shù)據(jù)一樣,進(jìn)入到大數(shù)據(jù)系統(tǒng),可以任意檢索、主動(dòng)的推送、深度的挖掘,變成人工智慧、人的外腦” 的規(guī)劃藍(lán)圖變?yōu)楝F(xiàn)實(shí)。為了實(shí)現(xiàn)上述目標(biāo),作為檔案工作者,在進(jìn)行歷史檔案管理的過程中,就是要實(shí)現(xiàn)五個(gè)智慧——智慧數(shù)據(jù)導(dǎo)入、智慧識(shí)讀、智慧檢索、智慧文本字句段利用、智慧整理數(shù)據(jù)。
4)以數(shù)據(jù)列表追溯歷史淵源。對(duì)跨度較大且在歷史上曾多次發(fā)生的事件的產(chǎn)生、發(fā)展和演變的歷史進(jìn)程的研究,一直是困擾檔案編研人員的瓶頸,使得人們對(duì)某一事件的認(rèn)識(shí)始終不能完全徹底。隨著大數(shù)據(jù)和檔案數(shù)據(jù)化時(shí)代的到來,困擾人類幾百年甚至上千年的難題將迎刃而解。在歷史檔案全面實(shí)現(xiàn)數(shù)據(jù)化之后,如果我們想了解明清至1949年的580年間黃河決口和黃河遷移的歷史,只要手指輕輕一動(dòng),在計(jì)算機(jī)上輸入“黃河決口”之類的字段,關(guān)于黃河的字、詞、句和段落等內(nèi)容將全部顯示在屏幕上,只要我們對(duì)取得的數(shù)據(jù)進(jìn)行全面的梳理,形成規(guī)律性的編研信息就完成了一次十分有意義的編研。
3 結(jié)束語
歷史檔案編研具有資料浩繁,工作難度大、出成果慢,是困擾檔案編研工作的歷史性難題。將數(shù)據(jù)化引入歷史檔案編研工作中,不失為破解這一難題的有效途徑。筆者通過數(shù)據(jù)化應(yīng)用原理的分析,概括總結(jié)了歷史檔案數(shù)據(jù)化編研的實(shí)現(xiàn)路徑和優(yōu)勢(shì),提出了行之有效的辦法。雖然這一構(gòu)想還處在理論探討階段,但我們深信,在數(shù)字技術(shù)不斷完善的未來,歷史檔案數(shù)據(jù)化編研將成為歷史的必然,而被檔案界所廣泛采用,并取得累累碩果。