文 / 杜軍 梁作賓 劉濤
在計算機技術不斷進步和社會信息化程度快速提高的今天,檔案管理部門普遍將計算機技術引入到檔案的存儲和管理工作中,并大力推進數(shù)字化檔案信息的建設工作。在利用信息和查詢操作等方面,數(shù)字化的檔案信息具有十分顯著的優(yōu)勢,而這些數(shù)字化檔案信息主要包括兩種不同的數(shù)據(jù)形式,也就是非結構化數(shù)據(jù)和結構化數(shù)據(jù)[1]。其中的非結構化信息中的音視頻、圖表、網(wǎng)頁和文字等各種信息不僅具有較弱的關聯(lián)性,而且很難通過關系型數(shù)據(jù)庫等對信息進行獲取和處理,必須采用專門的工具和方法對這些數(shù)據(jù)進行操作。電子檔案的廣泛應用,呼喚數(shù)字化的檔案存儲和管理系統(tǒng)的建立。
現(xiàn)在,越來越多的企事業(yè)單位在檔案管理工作中開始廣泛地應用計算機系統(tǒng),然而這些系統(tǒng)大部分只是用于檢索和管理檔案目錄,而并沒有真正發(fā)揮應用的作用。還有一些企事業(yè)單位的計算機管理盡管涉及到了一些關于檔案原文的工作,卻無法提供特殊格式檔案和圖片檔案的檢索服務,從某種程度上來說,這些檔案管理系統(tǒng)僅僅屬于紙質檔案的一種輔助,雖然它使得檔案工管理工作得到了優(yōu)化,但并未能真正使傳統(tǒng)檔案管理工作中存在的問題得到有效解決[2]。檔案管理人員通過傳統(tǒng)的計算機管理系統(tǒng)開展檔案管理工作,首先要利用人工操作的傳統(tǒng)方式將目錄制作出來,隨后采用人工的方式在電腦中輸入,再打印出來。人們一旦需要利用檔案文件,就需要在庫房中進行調(diào)取,這未能將計算機管理的方便性體現(xiàn)出來,加大了檔案管理工作的工作量,因此現(xiàn)在很多檔案管理人員并不重視計算機檔案管理[3]。
基于此,我們必須將可以實現(xiàn)檔案信息共享性、減少工作量和操作方便的計算機電子檔案管理系統(tǒng)開發(fā)出來,解決當前檔案管理工作中存在的各種問題。
計算機技術的進步使得當前的非結構化信息出現(xiàn)了爆炸式的增長。人們必須依賴智能化的IT技術才能有效地管理非結構化信息,無論是對非結構化信息進行存儲和檢索,還是對其進行發(fā)布和利用,都具有越來越高的科技含量,如信息的增值開發(fā)利用、內(nèi)容保護、知識挖掘、智能檢索和海量存儲等[4]。
包括Web站點在內(nèi)的很多系統(tǒng)中的數(shù)據(jù)一直在不斷地變化和發(fā)展,它們除了具有越來越快的增長速度之外,在表現(xiàn)數(shù)據(jù)的形式、數(shù)據(jù)格式和數(shù)據(jù)類型等很多方面都具有較大的變化[5]。
電子資源在非結構化信息中具有標準多樣性的特征,不同的系統(tǒng)在設計、實現(xiàn)和運行的過程中都具有自身的行業(yè)標準,各自的功能都是完整的,各個系統(tǒng)之間具有非常弱的聯(lián)系,因此影響到了數(shù)據(jù)交換的順利進行[6]。
電子檔案非結構化信息包括各種各樣的形式,如視頻、錄音、影片、照片和各種文檔等,需要采用不同的數(shù)據(jù)庫、數(shù)據(jù)模型和軟硬件平臺對這些電子資源進行存儲。
在UDMS體系結構上,研究構建了一個BUD體系參考模型。它能夠通過數(shù)據(jù)庫的途徑構建以非結構化數(shù)據(jù)管理為目標的一種分層參考體系模型。它選擇使用了自由表的數(shù)據(jù)模型。它一共由四個不同的核心組件共同組成了BUD模型,分別為獲取—抽取—集成服務層、事務性存儲管理器、查詢處理器和數(shù)據(jù)服務層,見圖1[7]。數(shù)據(jù)服務能夠將一些諸存數(shù)據(jù)提供給用戶,擴展了數(shù)據(jù)庫系統(tǒng)的外模式。一旦系統(tǒng)中進入各種外來的非結構化數(shù)據(jù),在一定的規(guī)則下由其中的獲取—抽取—集成服務層預先處理這些數(shù)據(jù);由事務性存儲管理對這些處理后的數(shù)據(jù)實施統(tǒng)一管理;利用查詢處理器能夠查詢到相關的數(shù)據(jù)[8]。研究構建一個以“自由表”模型為基礎的非結構化數(shù)據(jù)管理平臺,平臺類型為myBUD。它可以作為一個cell關系表?!白杂杀怼倍x了非結構化數(shù)據(jù)的符號類型。在自由表中各種音頻數(shù)據(jù)和視頻數(shù)據(jù)等非結構化的數(shù)據(jù)類型都能夠作為Cell類型進行管理[9]。
圖1 BUD參考模型示意圖
自由表模型需要解決好三個方面的問題:首先,能夠對海量數(shù)據(jù)中的高效操作進行支持;其次,能夠按照業(yè)界的標準操作,可以與相應的各種數(shù)據(jù)管理系統(tǒng)和應用場景相適應,實現(xiàn)有效集成;最后,具有充足的靈活性,在各種類型的非結構化數(shù)據(jù)中都能使用,可以使數(shù)據(jù)管理不斷變化的需求獲得滿足。
通過Cell可以對一系列的非結構化數(shù)據(jù)進行存儲和管理,對模型中已有的數(shù)據(jù)類型進行支持。非結構化數(shù)據(jù)管理系統(tǒng)的自由表存儲了全部的非結構化數(shù)據(jù),除了可以確保系統(tǒng)具有較高的效率,還可以統(tǒng)一地查詢不同類型的非結構化數(shù)據(jù)。因為物理組織結構的規(guī)整性,自由表存儲模型能夠更加便捷地集成當前的機構化數(shù)據(jù)管理系統(tǒng)。不同格式文檔的非結構化處理單元都與自由表相對應,所提取的非結構化數(shù)據(jù)又對應自由表的列。表列不僅包括字符型和整型等類型的結構化數(shù)據(jù),而且包括Cell 類型。Cell 類型中的列能夠對各種非結構化的數(shù)據(jù)進行保存,還支持不同的Cell在自由表中有各自獨立的操作符。自由表除了能夠對抽取的相關信息或者原始的數(shù)據(jù)進行存儲,還可以對不同版本和派生的數(shù)據(jù)進行存儲。
適應數(shù)據(jù)的增長速度非??欤手笖?shù)級增長。對關系數(shù)據(jù)和非結構化數(shù)據(jù)進行管理,同時將有用的信息從繁多的數(shù)據(jù)中挖掘出來,這是構建非結構化數(shù)據(jù)管理平臺的重要內(nèi)容。BUD 的統(tǒng)一數(shù)據(jù)門戶能夠將可信的可擴展的透明的數(shù)據(jù)存儲服務提供出來,從而使當前快速增長的存儲和管理海量非結構化數(shù)據(jù)的需求獲得滿足。統(tǒng)一數(shù)據(jù)門戶在具體的管理過程中具有較強的自適應能力,具有可以存儲各種類型非結構化數(shù)據(jù)的一系列子系統(tǒng),見圖2。
圖2 myBUD存儲管理器
通常來講,統(tǒng)一數(shù)據(jù)門戶的特點如下:首先,可擴展,即利用Portal Driver各個存儲子系統(tǒng)也可以變成統(tǒng)一數(shù)據(jù)門戶;其次,自適應,即數(shù)據(jù)門戶能夠以存儲子系統(tǒng)的特點和數(shù)據(jù)的特點為依據(jù)明確最好的存儲子系統(tǒng);再次,具備計算能力,即能夠以元數(shù)據(jù)信息為依據(jù)向各個存儲子門戶適度地轉移非結構化數(shù)據(jù)上的操作;最后,具備分布式存儲能力,即能夠與一系列的不同結構的存儲子系統(tǒng)進行連接,統(tǒng)一數(shù)據(jù)門戶可以進行分布式的存儲。我們利用各種數(shù)據(jù)門戶能夠對數(shù)據(jù)的訪問進行優(yōu)化。
在myBUD 中設計使用了一種AS4存儲子系統(tǒng)的算法。它能夠以不同存儲子系統(tǒng)中結構化數(shù)據(jù)存儲的代價函數(shù)為依據(jù),在代價函數(shù)中帶入量化結果,隨后能夠按照非結構化數(shù)據(jù)為依據(jù),自適應地通過最佳的存儲子系統(tǒng)對相關的數(shù)據(jù)進行存儲。AS4 方法能夠響應相應的請求,并且以系統(tǒng)在請求后的整體負載為依據(jù)放置在較短響應時間的存儲子系統(tǒng)中。若是將這種策略用于全部的存儲數(shù)據(jù)塊中,那么系統(tǒng)就具備了快速影響的能力,且可以實現(xiàn)總體負載均衡。最小的響應時間就是代價模型在該算法中的目標函數(shù),代價模型中的若干記號如表1:
表1 代價估算中運用到的若干記號
通過這些記號可以在s存儲子系統(tǒng)中存放i類型、L大小和t時刻的非結構化數(shù)據(jù)的代價模型定義如下:
{L*Computing Cost(s,i),L*TransferCost(s,t)+StartCost(s,i)+ WaitCost(s,i)} MAX=Cost(I, L, s, t).
數(shù)據(jù)的網(wǎng)絡傳輸代價和存儲子系統(tǒng)處理該任務的代價的最大值就是模型中定義的代價。存儲子系統(tǒng)處理該任務的代價主要包括計算該任務的代價、在存儲子系統(tǒng)中啟動新任務的代價和在啟動新任務之前所需的完成其它任務的代價。系統(tǒng)在當前的平均任務完成時間和等待任務數(shù)量能決定等待其它任務代價,而任務負載則取決于平均完成任務的時間。
以代價模型為依據(jù),AS4算法在myBUD 存儲管理器會按照代價公式最終將最短響應時間的存儲子系統(tǒng)確定下來。針對全部可用的存儲子系統(tǒng),AS4能夠以存儲子系統(tǒng)的負載信息、可用存儲子系統(tǒng)功能信息、數(shù)據(jù)大小、數(shù)據(jù)類型等為依據(jù)將相應代價計算出來,并且向最短響應代價的存儲子系統(tǒng)返回。算法 AS4具有O(n)的時間復雜度,在某時刻可用存儲子系統(tǒng)的數(shù)量用n來表示。將合適的存儲子系統(tǒng)選擇出來之后,該算法能夠對其實際上的執(zhí)行效果進行監(jiān)控,尤其是針對傳輸與處理代價進行監(jiān)控,還可以適當?shù)卣{(diào)整相關參數(shù),如TransferCost。
電子檔案數(shù)字信息非結構化存儲方法首先必須將海量非結構化數(shù)據(jù)“存得下”這一問題解決好,這是開展電子檔案存儲和管理工作的基本問題。研究以BUD參考模型為依據(jù)設計了以myBUD 系統(tǒng)為基礎和框架的非結構化數(shù)據(jù),實現(xiàn)了非結構化數(shù)據(jù)對存儲子系統(tǒng)的自適應選擇,且將其作為一項關鍵的技術。該技術能夠實現(xiàn)分布式的異構存儲,奠定了利用數(shù)據(jù)庫方法統(tǒng)一存儲和管理電子檔案非結構化數(shù)據(jù)的研究基礎。
[1]趙偉東.電子檔案藍光存儲應用探究[J].檔案學研究,2015(3): 88-95.
[2]劉越男,祁天嬌.我國省級、副省級檔案館電子文件接收及管理情況的追蹤調(diào)查[J].檔案學通訊,2014(6):10-15.
[3]楊重高.數(shù)字檔案資源的安全存儲[J].中國檔案,2014(11):54-57.
[4]王志宇,趙淑梅.非結構化電子檔案數(shù)據(jù)管理探析[J].檔案學通訊,2014(5):54-57.
[5]王萍,郭秋言,宋雪雁.境外近年電子檔案技術與應用進展[J].檔案學通訊,2014(4): 61-65.
[6]唐躍進.數(shù)字檔案災難防治研究[J].檔案學通訊,2014(3):12-14.
[7]劉越男,楊程婕,熊瑤,張喜波.我國省級、副省級檔案館電子文件移交進館及管理情況調(diào)查分析[J].檔案學通訊,2011(4):7-12.
[8]韓晶,宋美娜,鄂海紅,宋俊德.HotRank:熱度敏感的非結構化數(shù)據(jù)檢索排名算法[J].計算機應用研究,2013(5):1306-1308.
[9]劉婧,周耀林.移動數(shù)字檔案館服務體系建設研究[J].檔案學通訊,2015(1):55-60.