李 琳
(長沙先導投資控股集團有限公司,湖南 長沙 410000)
檔案檢索是指對檔案信息進行系統(tǒng)存儲和根據(jù)需要進行檔案查找的工作,其定義包括檔案信息存儲和查檢兩個具體過程。檔案檢索主要有以下四步:第一步,分析利用檔案的具體需求和特點;第二步,選擇檢索工具,確定將要采用的檢索方式(即根據(jù)檔案的特定屬性進行檢索),如按分類方式、按主題方式、全宗構成者方式、責任者方式、時間段方式或其他方式;第三步,根據(jù)選定的檔案檢索方式和檔案檢索標識,如分類號、主題詞、關鍵字等查取需要利用的檔案;第四步,通過一定的方式(比如:復印件、電子件),將檔案內容或提煉的檔案目錄提供給利用者。
在檔案利用實際工作中,資料存儲的全面豐富、查找的快速準確、信息的方便實用是衡量檔案利用質量水平的主要標準,直接關系到為用戶提供檔案服務的效率與優(yōu)劣。因此,作為檔案開發(fā)利用的前提條件,在大數(shù)據(jù)時代,檔案檢索也將并且必須實現(xiàn)進步。
在信息爆炸時代產(chǎn)生的海量數(shù)據(jù)和與之相關的技術發(fā)展與創(chuàng)新中,各個行業(yè)的邊界日漸模糊,領域融合快速變化,檔案工作也受到了前所未有的沖擊,檔案檢索也從中得到了進步發(fā)展的新的推動力,改變傳統(tǒng)的檔案檢索模式和發(fā)展思路,研究適應大數(shù)據(jù)時代的檔案檢索新模式、新思路,提供更多、更有價值的檔案檢索內容,方能順應大數(shù)據(jù)時代的發(fā)展。
檔案查找的過程,是首先對利用者的檢索要求進行分析,確定利用者所需檔案的實質內容,然后綜合運用檔案檢索工具,找出利用者所需要的檔案。檔案檢索就是為解決檔案信息量與用戶精確需求之間的矛盾而出現(xiàn)并發(fā)展起來的。大數(shù)據(jù)時代背景下,文字圖像資料的信息量呈現(xiàn)幾何式膨脹,同時,現(xiàn)代社會的物資高速流動,使涉及到人物歷史,工程進度、文化發(fā)展等資料存在跨時間、跨部門、甚至跨空間分布的趨勢。與此同時,全社會的信息意識迅速增強,不同背景的人們開始有意識通過檔案信息來維護自己的合法權益,用戶數(shù)目的增長進一步對檔案檢索的效率提出了嚴峻考驗,也要求檢索平臺與檢索方式趨于簡便與普及?;谑止z索而生的傳統(tǒng)檢索方式,無疑無法充分滿足人們對檔案信息準確性、豐富性、知識性的需求。這些客觀因素,決定了檔案檢索進步的必然。
科技進步是推動檔案事業(yè)發(fā)展的強大動力。檔案工作涉及每一個部門,社會每一個角落,首當其沖面臨當代信息技術的發(fā)展革新帶來的驅動力。首先,科技進步給傳統(tǒng)館藏帶來了圖像、音頻、視頻、軟件等信息,使檢索目錄呈現(xiàn)多元化;其次,現(xiàn)代信息技術發(fā)展,給標準化、兼容化的檢索平臺的構建提供了可能;最后,數(shù)字化的社會現(xiàn)實,使檔案工作人員的知識結構與事務處理方法有了跨越式發(fā)展。而今,日新月異的信息技術使得電子檔案檢索方式(見圖1)不斷深化、擴充,正逐步取代傳統(tǒng)手工檢索的主導地位,給檔案檢索帶來了全新的機遇與挑戰(zhàn)。
作為一項開放性的工作,檔案檢索服務對象綜合性和多樣次性,館藏內容也牽涉社會生活、歷史人文、自然地理等各個領域。其中,服務對象既是資料的提供者,也是提取者,受當前的社會發(fā)展需求與簡化政務的大環(huán)境影響,部門與企業(yè)主體的編制規(guī)模變動大大增加,隨著職能的變動,檔案資料內容也在不斷分化整合。同時,服務對象所查的資料范圍也在持續(xù)擴大,往往單個事項,就牽涉到個人資歷、行政公文、統(tǒng)計數(shù)據(jù)等多項內容,對信息要求越發(fā)“全”和“精”。這些因素不可避免地影響了檢索的側重點與檢索方式。
圖1 電子檔案檢索的多種方式
檔案檢索發(fā)展的是社會、科技、人文動因相互交織的結果,這些動因共同凝聚成推動檔案檢索進步的動力,使之突破傳統(tǒng)檔案檢索的瓶頸。然而,制約檔案檢索向數(shù)字化進步的現(xiàn)實情況也始終存在。
檢索是基于檔案而生的工作過程,因此,檢索方式的數(shù)字化不能脫離檔案數(shù)字化存在。目前,由于經(jīng)費、人力、軟硬件設備的制約,大部分檔案館尤其是地方檔案館,并沒有實現(xiàn)館藏檔案的數(shù)字化,這就使檢索數(shù)字化成了空中樓閣。所以,目前部分單位正在嘗試實行數(shù)字化目錄+紙質化檔案的模式,完全實行檔案數(shù)字化的單位非常少。
首先在學科方面,至今檔案學依然是“冷門”專業(yè),教學內容更集中于傳統(tǒng)的檢索工具、著錄標引、檢索語言等方面,沒有及時更新針對電子文件的內容,整體呈現(xiàn)滯后狀態(tài)。其次,在信息化社會,大量檔案以電子文檔、音像制品的形式被存儲利用,現(xiàn)有的檢索標準已很難適應需要。最后,近年來,各地區(qū)檔案部門紛紛探索跨區(qū)域檔案信息共享,然而至今,標準化、兼容化檔案共享平臺仍然只是地區(qū)性的小范圍嘗試。
數(shù)字化時代的檔案檢索是計算機、網(wǎng)絡、數(shù)據(jù)庫、搜索引擎、編程等先進技術的綜合運用,要求檔案管理者不僅要掌握傳統(tǒng)的手工檢索技術理論,更要掌握計算機技術與理念,甚至具備一定建立數(shù)據(jù)庫能力。而現(xiàn)今大部分檔案工作人員大多未進行專業(yè)系統(tǒng)的檔案學科學習,計算機能力與科技理念偏低,有些單位聘請的檔案人員往往年紀偏大,對新事務接受程度偏低或干脆不愿意嘗試新事務,甚至存在一定的思想觀念落后情況,這嚴重阻礙了檔案檢索服務的成功轉型。
這些現(xiàn)實狀況,是現(xiàn)代檔案檢索發(fā)展需要克服的命題,卻也為未來的發(fā)展提供了一定的指導方向。
目前,地區(qū)檔案館數(shù)字化方式一般為“掃描+后期+存儲”,是極其耗費人力與時間的工作,地方檔案館的財力也很難維持全館全文掃描的財政支出。因此,檔案館必須正確把握當?shù)氐睦眯枨螅鶕?jù)服務對象需求的密度和價值來進行選擇性數(shù)字化,有計劃選擇存儲內容與形式,強調突出館藏特色。其中,檔案數(shù)據(jù)庫建設應當以檔案目錄數(shù)字化為首要任務,然后逐步擴展到檔案正本的數(shù)字化。
在全文數(shù)字化的過程中,檔案館應當根據(jù)利用頻率和檔案的重要程度,遞進式進行全文數(shù)字化。比如先完成利用頻率非常高的婚姻檔案、退伍軍人檔案和改制國有企業(yè)的離退休人員檔案;先完成民國時期、明清時期的重點檔案。
目前,地方檔案館主要職責為存儲政府機構的公文資料,對社保、婚姻、拆遷、房產(chǎn)、計生、環(huán)境、林權等民生檔案的收集相對薄弱,大多散存于各職能部門。而與之相對的是現(xiàn)今民眾日益覺醒的檔案維權需求,實際工作中,因為歷史民生檔案的不完備和分散存儲,給民眾維護自己合法權益帶來了許多不便。而民眾個人查檔受交通條件制約,也對快速確定檔案位置形成了強烈訴求。因此,地方檔案館在現(xiàn)有條件允許下,不妨嘗試增加民生檔案種類,并在資料存儲中有意識選擇數(shù)字化形式,減少館藏數(shù)字化工程量。
隨著時代的變遷,檔案載體目前已多樣化發(fā)展,常見的載體有紙張、照片、膠片、磁帶、光碟、軟盤等等。然而,在目前的技術背景下,文字是最主要的檢索手段,圖像和多媒體文件檢索往往通過詳細的文字描述檢索實現(xiàn),因此,檔案館應加強對多媒體檔案目錄的建設,早日實現(xiàn)真正意義上的多媒體檢索。比如在音視頻中做到幀檢索、幀定位、幀播放,結合語音檢索(見圖2)、圖像檢索(見圖3)等先進技術,直接可以檢索并定位音視頻中的語音內容,或根據(jù)某個圖片檢索出音視頻中的響應人像或物體。同時,及時對特殊載體進行復制更新,比如軟盤、錄像帶等載體,必須及時轉錄為符合現(xiàn)代技術水平的多媒體資料,以免因硬件淘汰而造成的檔案丟失。
圖2 語音檢索說明
圖3 圖像檢索說明
在檢索實踐中,查閱人往往存在信息要素的不確定現(xiàn)象,庫中存有檔案卻無法檢出的情況屢屢發(fā)生。因此,當利用者輸入關鍵詞但沒有得到所需結果時,系統(tǒng)需要進行相應的模糊搜索,提供主題近似的內容或者檢索詞,同時,盡量兼顧發(fā)文方、文號、關鍵詞、日期、類別等多種信息進行搜索篩選,以改善查詢結果,縮小甄別的范圍。這一點,可以面向網(wǎng)絡搜索引擎尋求經(jīng)驗。
對電子檔案的再應用,主要包括兩部分:一是瀏覽掃描的檔案內容,二是對掃描的檔案圖像識別后,再利用識別后的文本文字。一般如果需要文本,必須畫框并對框內內容識別,需要在客戶端安裝OCR軟件,成本較高。雙層PDF在生成的同時就做了OCR處理,那么客戶端打開PDF的同時,不需要再作OCR識別,即可使用文本在檔案原文信息資源庫不斷豐富的基礎上,建立全文索引庫后,全文搜索的速度比數(shù)據(jù)庫檢索的速度要快數(shù)倍。全文檢索庫的建立粒度需要根據(jù)用戶常用檢索模式、檔案數(shù)據(jù)結構、系統(tǒng)性能問題、授權問題綜合考慮。
平臺的兼容統(tǒng)一,首先體現(xiàn)在技術方面。目前,數(shù)據(jù)庫電子文本格式基本為PDF、WORD、TXT等,電子圖片格式有JPG、JPEG等,多媒體格式更是紛繁蕪雜。許多甚至與計算機、瀏覽器相沖突,需要安裝插件。其次在內容上,由于檢索時只能選取其中的一個數(shù)據(jù)庫進行查詢,一旦信息分散或者交疊,將會帶來極大不便。因此,提供統(tǒng)一的檢索入口,提供兼容的文件格式,實現(xiàn)跨庫檢索和全文檢索是目前檔案信息檢索系統(tǒng)建設需要努力的方向。
圖4 電子檔案的智能檢索
時代在進步,新興技術不斷更替發(fā)展。大數(shù)據(jù)時代,檔案人應利用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示檔案內容之間的相互聯(lián)系,借助機器學習,必將實現(xiàn)檔案的智能檢索(檔案智能檢索,見圖4),深度發(fā)掘檔案信息資源,把握開啟未來之門的鑰匙。同時實事求是,注重科技,更新觀念,推進檔案事業(yè)在新的時代煥發(fā)新的活力。