国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關于大數(shù)據(jù)時代檔案檢索的幾點思考

2020-01-06 05:29
資源信息與工程 2019年6期
關鍵詞:檢索數(shù)字化

李 琳

(長沙先導投資控股集團有限公司,湖南 長沙 410000)

檔案檢索是指對檔案信息進行系統(tǒng)存儲和根據(jù)需要進行檔案查找的工作,其定義包括檔案信息存儲和查檢兩個具體過程。檔案檢索主要有以下四步:第一步,分析利用檔案的具體需求和特點;第二步,選擇檢索工具,確定將要采用的檢索方式(即根據(jù)檔案的特定屬性進行檢索),如按分類方式、按主題方式、全宗構成者方式、責任者方式、時間段方式或其他方式;第三步,根據(jù)選定的檔案檢索方式和檔案檢索標識,如分類號、主題詞、關鍵字等查取需要利用的檔案;第四步,通過一定的方式(比如:復印件、電子件),將檔案內容或提煉的檔案目錄提供給利用者。

在檔案利用實際工作中,資料存儲的全面豐富、查找的快速準確、信息的方便實用是衡量檔案利用質量水平的主要標準,直接關系到為用戶提供檔案服務的效率與優(yōu)劣。因此,作為檔案開發(fā)利用的前提條件,在大數(shù)據(jù)時代,檔案檢索也將并且必須實現(xiàn)進步。

1 大數(shù)據(jù)時代檔案檢索進步的動因

在信息爆炸時代產(chǎn)生的海量數(shù)據(jù)和與之相關的技術發(fā)展與創(chuàng)新中,各個行業(yè)的邊界日漸模糊,領域融合快速變化,檔案工作也受到了前所未有的沖擊,檔案檢索也從中得到了進步發(fā)展的新的推動力,改變傳統(tǒng)的檔案檢索模式和發(fā)展思路,研究適應大數(shù)據(jù)時代的檔案檢索新模式、新思路,提供更多、更有價值的檔案檢索內容,方能順應大數(shù)據(jù)時代的發(fā)展。

1.1 檔案利用過程的客觀需要

檔案查找的過程,是首先對利用者的檢索要求進行分析,確定利用者所需檔案的實質內容,然后綜合運用檔案檢索工具,找出利用者所需要的檔案。檔案檢索就是為解決檔案信息量與用戶精確需求之間的矛盾而出現(xiàn)并發(fā)展起來的。大數(shù)據(jù)時代背景下,文字圖像資料的信息量呈現(xiàn)幾何式膨脹,同時,現(xiàn)代社會的物資高速流動,使涉及到人物歷史,工程進度、文化發(fā)展等資料存在跨時間、跨部門、甚至跨空間分布的趨勢。與此同時,全社會的信息意識迅速增強,不同背景的人們開始有意識通過檔案信息來維護自己的合法權益,用戶數(shù)目的增長進一步對檔案檢索的效率提出了嚴峻考驗,也要求檢索平臺與檢索方式趨于簡便與普及?;谑止z索而生的傳統(tǒng)檢索方式,無疑無法充分滿足人們對檔案信息準確性、豐富性、知識性的需求。這些客觀因素,決定了檔案檢索進步的必然。

1.2 信息進步提供的技術支持

科技進步是推動檔案事業(yè)發(fā)展的強大動力。檔案工作涉及每一個部門,社會每一個角落,首當其沖面臨當代信息技術的發(fā)展革新帶來的驅動力。首先,科技進步給傳統(tǒng)館藏帶來了圖像、音頻、視頻、軟件等信息,使檢索目錄呈現(xiàn)多元化;其次,現(xiàn)代信息技術發(fā)展,給標準化、兼容化的檢索平臺的構建提供了可能;最后,數(shù)字化的社會現(xiàn)實,使檔案工作人員的知識結構與事務處理方法有了跨越式發(fā)展。而今,日新月異的信息技術使得電子檔案檢索方式(見圖1)不斷深化、擴充,正逐步取代傳統(tǒng)手工檢索的主導地位,給檔案檢索帶來了全新的機遇與挑戰(zhàn)。

1.3 社會部門分化整合的影響

作為一項開放性的工作,檔案檢索服務對象綜合性和多樣次性,館藏內容也牽涉社會生活、歷史人文、自然地理等各個領域。其中,服務對象既是資料的提供者,也是提取者,受當前的社會發(fā)展需求與簡化政務的大環(huán)境影響,部門與企業(yè)主體的編制規(guī)模變動大大增加,隨著職能的變動,檔案資料內容也在不斷分化整合。同時,服務對象所查的資料范圍也在持續(xù)擴大,往往單個事項,就牽涉到個人資歷、行政公文、統(tǒng)計數(shù)據(jù)等多項內容,對信息要求越發(fā)“全”和“精”。這些因素不可避免地影響了檢索的側重點與檢索方式。

圖1 電子檔案檢索的多種方式

檔案檢索發(fā)展的是社會、科技、人文動因相互交織的結果,這些動因共同凝聚成推動檔案檢索進步的動力,使之突破傳統(tǒng)檔案檢索的瓶頸。然而,制約檔案檢索向數(shù)字化進步的現(xiàn)實情況也始終存在。

2 制約檔案檢索進步的因素

2.1 檔案數(shù)字信息化不完全

檢索是基于檔案而生的工作過程,因此,檢索方式的數(shù)字化不能脫離檔案數(shù)字化存在。目前,由于經(jīng)費、人力、軟硬件設備的制約,大部分檔案館尤其是地方檔案館,并沒有實現(xiàn)館藏檔案的數(shù)字化,這就使檢索數(shù)字化成了空中樓閣。所以,目前部分單位正在嘗試實行數(shù)字化目錄+紙質化檔案的模式,完全實行檔案數(shù)字化的單位非常少。

2.2 數(shù)字化檢索缺乏有效標準

首先在學科方面,至今檔案學依然是“冷門”專業(yè),教學內容更集中于傳統(tǒng)的檢索工具、著錄標引、檢索語言等方面,沒有及時更新針對電子文件的內容,整體呈現(xiàn)滯后狀態(tài)。其次,在信息化社會,大量檔案以電子文檔、音像制品的形式被存儲利用,現(xiàn)有的檢索標準已很難適應需要。最后,近年來,各地區(qū)檔案部門紛紛探索跨區(qū)域檔案信息共享,然而至今,標準化、兼容化檔案共享平臺仍然只是地區(qū)性的小范圍嘗試。

2.3 從業(yè)人員科技水平較低

數(shù)字化時代的檔案檢索是計算機、網(wǎng)絡、數(shù)據(jù)庫、搜索引擎、編程等先進技術的綜合運用,要求檔案管理者不僅要掌握傳統(tǒng)的手工檢索技術理論,更要掌握計算機技術與理念,甚至具備一定建立數(shù)據(jù)庫能力。而現(xiàn)今大部分檔案工作人員大多未進行專業(yè)系統(tǒng)的檔案學科學習,計算機能力與科技理念偏低,有些單位聘請的檔案人員往往年紀偏大,對新事務接受程度偏低或干脆不愿意嘗試新事務,甚至存在一定的思想觀念落后情況,這嚴重阻礙了檔案檢索服務的成功轉型。

這些現(xiàn)實狀況,是現(xiàn)代檔案檢索發(fā)展需要克服的命題,卻也為未來的發(fā)展提供了一定的指導方向。

3 檔案檢索前進方向的思考

3.1 根據(jù)需求,有選擇地數(shù)字化館藏

目前,地區(qū)檔案館數(shù)字化方式一般為“掃描+后期+存儲”,是極其耗費人力與時間的工作,地方檔案館的財力也很難維持全館全文掃描的財政支出。因此,檔案館必須正確把握當?shù)氐睦眯枨螅鶕?jù)服務對象需求的密度和價值來進行選擇性數(shù)字化,有計劃選擇存儲內容與形式,強調突出館藏特色。其中,檔案數(shù)據(jù)庫建設應當以檔案目錄數(shù)字化為首要任務,然后逐步擴展到檔案正本的數(shù)字化。

在全文數(shù)字化的過程中,檔案館應當根據(jù)利用頻率和檔案的重要程度,遞進式進行全文數(shù)字化。比如先完成利用頻率非常高的婚姻檔案、退伍軍人檔案和改制國有企業(yè)的離退休人員檔案;先完成民國時期、明清時期的重點檔案。

3.2 整合資源,增加民生檔案的比例

目前,地方檔案館主要職責為存儲政府機構的公文資料,對社保、婚姻、拆遷、房產(chǎn)、計生、環(huán)境、林權等民生檔案的收集相對薄弱,大多散存于各職能部門。而與之相對的是現(xiàn)今民眾日益覺醒的檔案維權需求,實際工作中,因為歷史民生檔案的不完備和分散存儲,給民眾維護自己合法權益帶來了許多不便。而民眾個人查檔受交通條件制約,也對快速確定檔案位置形成了強烈訴求。因此,地方檔案館在現(xiàn)有條件允許下,不妨嘗試增加民生檔案種類,并在資料存儲中有意識選擇數(shù)字化形式,減少館藏數(shù)字化工程量。

3.3 根據(jù)載體,改善檢索方式

隨著時代的變遷,檔案載體目前已多樣化發(fā)展,常見的載體有紙張、照片、膠片、磁帶、光碟、軟盤等等。然而,在目前的技術背景下,文字是最主要的檢索手段,圖像和多媒體文件檢索往往通過詳細的文字描述檢索實現(xiàn),因此,檔案館應加強對多媒體檔案目錄的建設,早日實現(xiàn)真正意義上的多媒體檢索。比如在音視頻中做到幀檢索、幀定位、幀播放,結合語音檢索(見圖2)、圖像檢索(見圖3)等先進技術,直接可以檢索并定位音視頻中的語音內容,或根據(jù)某個圖片檢索出音視頻中的響應人像或物體。同時,及時對特殊載體進行復制更新,比如軟盤、錄像帶等載體,必須及時轉錄為符合現(xiàn)代技術水平的多媒體資料,以免因硬件淘汰而造成的檔案丟失。

圖2 語音檢索說明

圖3 圖像檢索說明

3.4 針對實際,開發(fā)模糊搜索功能

在檢索實踐中,查閱人往往存在信息要素的不確定現(xiàn)象,庫中存有檔案卻無法檢出的情況屢屢發(fā)生。因此,當利用者輸入關鍵詞但沒有得到所需結果時,系統(tǒng)需要進行相應的模糊搜索,提供主題近似的內容或者檢索詞,同時,盡量兼顧發(fā)文方、文號、關鍵詞、日期、類別等多種信息進行搜索篩選,以改善查詢結果,縮小甄別的范圍。這一點,可以面向網(wǎng)絡搜索引擎尋求經(jīng)驗。

對電子檔案的再應用,主要包括兩部分:一是瀏覽掃描的檔案內容,二是對掃描的檔案圖像識別后,再利用識別后的文本文字。一般如果需要文本,必須畫框并對框內內容識別,需要在客戶端安裝OCR軟件,成本較高。雙層PDF在生成的同時就做了OCR處理,那么客戶端打開PDF的同時,不需要再作OCR識別,即可使用文本在檔案原文信息資源庫不斷豐富的基礎上,建立全文索引庫后,全文搜索的速度比數(shù)據(jù)庫檢索的速度要快數(shù)倍。全文檢索庫的建立粒度需要根據(jù)用戶常用檢索模式、檔案數(shù)據(jù)結構、系統(tǒng)性能問題、授權問題綜合考慮。

3.5 依托科技,建設兼容統(tǒng)一檢索平臺

平臺的兼容統(tǒng)一,首先體現(xiàn)在技術方面。目前,數(shù)據(jù)庫電子文本格式基本為PDF、WORD、TXT等,電子圖片格式有JPG、JPEG等,多媒體格式更是紛繁蕪雜。許多甚至與計算機、瀏覽器相沖突,需要安裝插件。其次在內容上,由于檢索時只能選取其中的一個數(shù)據(jù)庫進行查詢,一旦信息分散或者交疊,將會帶來極大不便。因此,提供統(tǒng)一的檢索入口,提供兼容的文件格式,實現(xiàn)跨庫檢索和全文檢索是目前檔案信息檢索系統(tǒng)建設需要努力的方向。

圖4 電子檔案的智能檢索

4 結語

時代在進步,新興技術不斷更替發(fā)展。大數(shù)據(jù)時代,檔案人應利用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示檔案內容之間的相互聯(lián)系,借助機器學習,必將實現(xiàn)檔案的智能檢索(檔案智能檢索,見圖4),深度發(fā)掘檔案信息資源,把握開啟未來之門的鑰匙。同時實事求是,注重科技,更新觀念,推進檔案事業(yè)在新的時代煥發(fā)新的活力。

猜你喜歡
檢索數(shù)字化
數(shù)字化賦能農業(yè)提質增效
“華龍一號”數(shù)字化轉型的實踐與探索
家紡業(yè)亟待數(shù)字化賦能
CNKI檢索模式結合關鍵詞選取在檢索中的應用探討
論經(jīng)濟學數(shù)字化的必要性
瑞典專利數(shù)據(jù)庫的檢索技巧
高中數(shù)學“一對一”數(shù)字化學習實踐探索
在IEEE 數(shù)據(jù)庫中檢索的一點經(jīng)驗
一種基于Python的音樂檢索方法的研究
高中數(shù)學“一對一”數(shù)字化學習實踐探索
大渡口区| 富民县| 德惠市| 马山县| 胶州市| 望奎县| 志丹县| 阜阳市| 广汉市| 西宁市| 苍南县| 大渡口区| 雷山县| 望江县| 神农架林区| 阿拉善盟| 绥化市| 高淳县| 武邑县| 鸡泽县| 石楼县| 交口县| 武清区| 景洪市| 固始县| 浦东新区| 永登县| 淮阳县| 宁蒗| 邛崃市| 本溪市| 龙里县| 原平市| 临邑县| 汉源县| 康平县| 滕州市| 济源市| 宜都市| 蒙城县| 深州市|