摘 要:如何發(fā)揮檔案的價值,始終是檔案管理工作的重要問題。隨著人工智能、大數(shù)據(jù)、云計算等信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)進入人們的視野,成為檔案管理工作的研究熱點。本文對這一現(xiàn)象進行研究后,發(fā)現(xiàn)受一些客觀因素影響,數(shù)據(jù)挖掘技術(shù)在檔案管理工作中應(yīng)用的并不普遍,還存在一些困惑和疑慮。作者以實際應(yīng)用為例,圍繞檔案挖掘技術(shù)在檔案領(lǐng)域中應(yīng)用的熱點問題進行了研究,提出了一些設(shè)計建議,希望能給檔案同人提供一些參考。
關(guān)鍵詞:檔案管理;數(shù)據(jù)挖掘;應(yīng)用價值
數(shù)據(jù)挖掘技術(shù)是機器學(xué)習(xí)和數(shù)據(jù)庫管理的交叉,在數(shù)據(jù)庫管理技術(shù)的支撐下從數(shù)據(jù)庫中提取大量數(shù)據(jù),通過機器學(xué)習(xí)技術(shù)進行分析,從而挖掘潛在有價值的信息。在檔案管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù),已經(jīng)有很多成功的例子,但受一些客觀因素影響,數(shù)據(jù)挖掘技術(shù)在檔案管理工作中應(yīng)用得并不普遍,而且一些部門在應(yīng)用檔案數(shù)據(jù)挖掘技術(shù)時還產(chǎn)生了一些困惑和疑慮,檔案數(shù)據(jù)挖掘技術(shù)本身也還在進一步發(fā)展之中[1]。
1 檔案數(shù)據(jù)挖掘的應(yīng)用設(shè)計原則
1.1 需求導(dǎo)向原則
檔案數(shù)據(jù)挖掘應(yīng)以用戶的需求為導(dǎo)向,立足于滿足與檔案管理活動相關(guān)人員的普遍需求,同時還應(yīng)將未來可能出現(xiàn)的狀況考慮進去,做到對問題的及時應(yīng)對[2]。檔案數(shù)據(jù)挖掘主要以電子文件為對象。一旦進入無紙化時代,整個社會的信息流將加快,單位時間內(nèi)產(chǎn)生的電子文件將急劇增加,會直接加大檔案管理壓力,給檔案管理系統(tǒng)的穩(wěn)定性帶來了挑戰(zhàn),對整個工作流程的可持續(xù)性產(chǎn)生影響[3]。由于檔案管理從檔案的收集、整理、著錄、保管、鑒定到利用都是有秩序的流程,任何一個環(huán)節(jié)的出錯,都可能導(dǎo)致后續(xù)檔案工作無法開展[4]。因此,在檔案數(shù)據(jù)挖掘設(shè)計時,必須要將各個環(huán)節(jié)人員的需求都考慮進去,保證管理的有條不紊。
1.2 數(shù)據(jù)前提原則
數(shù)據(jù)挖掘雖然在一定程度上能夠解決異構(gòu)數(shù)據(jù)所帶來的問題,但并不代表數(shù)據(jù)挖掘?qū)?shù)據(jù)沒有任何要求。數(shù)據(jù)前提原則在檔案數(shù)據(jù)挖掘上具體表現(xiàn)為以下幾點:①數(shù)據(jù)量滿足數(shù)據(jù)挖掘的要求,具體的最小數(shù)據(jù)量并沒有在相關(guān)文獻中提到,根據(jù)scikit-learn(Python平臺的一個數(shù)據(jù)挖掘開源庫)開發(fā)組的建議,數(shù)據(jù)挖掘的最小數(shù)據(jù)量為50,顯然數(shù)據(jù)量越大,最后的結(jié)果越令人信服[5]。②保證所用數(shù)據(jù)的質(zhì)量,即數(shù)據(jù)能夠反映自身的信息,這一點在檔案數(shù)據(jù)挖掘上尤為重要。由于檔案管理的相關(guān)要求,很多機構(gòu)都會對紙質(zhì)檔案進行數(shù)字化,但數(shù)字化產(chǎn)生的文檔不能用于數(shù)據(jù)挖掘,因為數(shù)據(jù)挖掘所用的是文檔中的文本數(shù)據(jù),而數(shù)字化文檔經(jīng)過OCR后并不能完美還原最初的文本數(shù)據(jù),經(jīng)常出現(xiàn)亂碼、錯別字等情況,因此檔案數(shù)據(jù)挖掘所用的數(shù)據(jù)必須來自含有正確數(shù)據(jù)的電子文件[6]。③數(shù)據(jù)間應(yīng)有一定的特征差別,不能具有同一性,諸如基建檔案中的圖紙類數(shù)據(jù)等不符合這一要求[7]。由于基建圖紙類數(shù)據(jù)是通過建筑設(shè)計軟件產(chǎn)生的專業(yè)領(lǐng)域數(shù)據(jù),所有圖紙幾乎都是由線條構(gòu)成,在顏色、輪廓等方面都沒有明顯的區(qū)分,特征非常不明顯,因此這類數(shù)據(jù)應(yīng)該排除出檔案數(shù)據(jù)挖掘范圍[8]。
1.3 成本效益原則
檔案數(shù)據(jù)挖掘系統(tǒng)的開發(fā)與大部分信息系統(tǒng)一樣,需要投入大量的人力、物力,需要充足的資金來維持[9]。然而,無論是政府機構(gòu)還是企業(yè)內(nèi)部,檔案部門一直處于邊緣地位,可供規(guī)劃使用的資金不是很多。因此,在檔案數(shù)據(jù)挖掘上的投入應(yīng)量力而行,在滿足多數(shù)人需求的情況,盡量降低研發(fā)所用的資金[10]。同時,資金的支持與其產(chǎn)生的效益相關(guān),如若一個項目不能產(chǎn)生明顯的效益,那么對于整個機構(gòu)來說,這就是一個失敗的項目,對于資金的申請自然不能成功。因此,在檔案數(shù)據(jù)挖掘的研發(fā)上應(yīng)更偏向檔案利用的目的,高效地利用過去所產(chǎn)生的所有文件,在文化產(chǎn)品、輔助決策等方面都可以發(fā)揮檔案應(yīng)有的作用,如對于企業(yè)內(nèi)部的檔案,通過數(shù)據(jù)挖掘可歸納出企業(yè)近幾年的發(fā)展狀況和規(guī)劃,結(jié)合企業(yè)實際的運營情況可適當做出有利于企業(yè)發(fā)展的建議,發(fā)揮輔助決策的作用[11]。
1.4 檔案保護原則
數(shù)據(jù)挖掘的數(shù)據(jù)來源是檔案,但并不意味著要使用原始數(shù)據(jù)。對于檔案來說,原始數(shù)據(jù)有且只有一份,即使是拷貝后的電子文件,從數(shù)據(jù)的性質(zhì)來說,該數(shù)據(jù)也不是原來的數(shù)據(jù)[12]。在檔案數(shù)據(jù)挖掘過程中,可能會給檔案數(shù)據(jù)帶來不可逆的后果,一旦檔案數(shù)據(jù)遭到損壞,意味著整個檔案管理的流程將重新進行[13]。從檔案數(shù)據(jù)挖掘的效率來考慮,數(shù)據(jù)出現(xiàn)損壞的情況必須降至最低,挖掘使用的數(shù)據(jù)應(yīng)來源于原始數(shù)據(jù)的拷貝,同時也要對使用的拷貝數(shù)據(jù)進行備份,降低過程中產(chǎn)生的數(shù)據(jù)風(fēng)險[14]。
2 檔案數(shù)據(jù)挖掘技術(shù)應(yīng)用實踐案例分析
隨著信息化建設(shè)的不斷深入,檔案部門產(chǎn)生海量數(shù)據(jù),檔案數(shù)據(jù)量已形成一定規(guī)模?;跐M足社會公眾對檔案信息深層次需求和利用的多樣化的考慮,有的檔案部門擬開發(fā)建設(shè)“民生檔案智慧分析挖掘應(yīng)用平臺”項目,該平臺將以民生檔案為主體的大數(shù)據(jù)為主要對象,實現(xiàn)對檔案信息的數(shù)據(jù)挖掘和綜合管理、分析、研究[15]。
2.1 系統(tǒng)架構(gòu)
民生檔案智慧分析挖掘平臺主要從開放性、跨平臺、技術(shù)成熟的角度考慮,在開發(fā)架構(gòu)上采用B/S模式的三層或多層架構(gòu),以J2EE技術(shù)體系結(jié)構(gòu)和MVC開發(fā)模式為支撐,數(shù)據(jù)庫則使用Oracle,沒有使用非關(guān)系型數(shù)據(jù)庫,同時使用Weblogic、Websphere、東方通等中間件。除此之外,系統(tǒng)基于XML的數(shù)據(jù)交換接口,支持上下級之間的數(shù)據(jù)交換[16]。
2.2 數(shù)據(jù)管理
民生檔案智慧分析挖掘平臺可接收和管理各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如ODBC數(shù)據(jù)源數(shù)據(jù)目錄接收導(dǎo)入,以及支持接收PDF、DOC、WPS、RTF、WAV、MP3、MPEG、ASF、WMV等格式電子文件,所有文本類和圖像類電子文件要求通過“檔案數(shù)據(jù)標準化轉(zhuǎn)換工具”轉(zhuǎn)換為PDF格式,對于所有音頻、視頻類的電子文件轉(zhuǎn)換為FLV格式,有關(guān)兩種格式作為系統(tǒng)統(tǒng)一規(guī)范利用格式。整個應(yīng)用系統(tǒng)應(yīng)實現(xiàn)對海量的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的組織、管理、應(yīng)用、組織,解決館藏資源管理系統(tǒng)與網(wǎng)上接收、發(fā)布各子系統(tǒng)之間接口問題和數(shù)據(jù)交換問題,實現(xiàn)資源共享[17]。
2.3 功能設(shè)計
民生檔案智慧分析挖掘平臺的后臺數(shù)據(jù)挖掘功能包括文本自動分類、數(shù)據(jù)抽取、數(shù)據(jù)建模等幾大功能。在文本自動分類方面,系統(tǒng)通過貝葉斯網(wǎng)絡(luò)和支持向量機等算法對文本進行分類,并支持基于語料的自動分類(通過訓(xùn)練語料,系統(tǒng)實現(xiàn)全自動分類)、基于規(guī)則的自動分類(規(guī)則分類是按照人工預(yù)先定義的規(guī)則文件,為文檔集合中的每個文檔確定一個類別,支持對文本的預(yù)處理功能、詞頻統(tǒng)計、權(quán)重、相似度計算等)和混合分類(提供基于語料、規(guī)則的雙重自動分類方式,支持用戶可按照《中國檔案分類法》對分類規(guī)則進行自定義,從而實現(xiàn)檔案的自動分類)[18]。在數(shù)據(jù)抽取方面,系統(tǒng)提供元數(shù)據(jù)等數(shù)據(jù)的智能化自動抽取功能,所涉及元數(shù)據(jù)的抽取實現(xiàn)如下表所示,共包括主題詞、關(guān)鍵詞、虛擬時間、虛擬人名、公文種類等幾類。在數(shù)據(jù)建模方面,民生檔案智慧分析挖掘平臺通過文本分析挖掘技術(shù),結(jié)合檔案局的實際業(yè)務(wù)管理需要,建立相關(guān)數(shù)據(jù)模型,實現(xiàn)館內(nèi)業(yè)務(wù)的智能化、自動化處理,所涉及的業(yè)務(wù)包括檔案接收、檔案分類、檔案保管、檔案等級劃控、檔案利用等。檔案的具體內(nèi)容以社保類民生檔案為主,目的是了解參保群體的背景、參保對象的信息和數(shù)據(jù)資源共享[19]。通過數(shù)據(jù)挖掘,一方面加深不同參保群體的了解,更好地服務(wù)參保對象,提高社會保障服務(wù)水平,另一方面為規(guī)范社會保障數(shù)據(jù)收集和整理工作提出了客觀要求,整合了多個數(shù)據(jù)庫平臺資源,達到資源的充分利用,有利于節(jié)約勞動力成本。
元數(shù)據(jù) 實現(xiàn)過程
主題詞 (1)若文中明確使用“主題詞”標明的,直接提取后面的詞語作為主題詞,否則根據(jù)主題詞詞典采用按范疇號分組提取主題詞;
(2)根據(jù)主題詞詞典從輸入語句中尋找主題詞作為候選主題詞,為每個候選主題詞設(shè)置詞頻和權(quán)重,相同詞的詞頻和權(quán)重累加;
(3)候選主題詞根據(jù)詞的范疇號信息進行分組,每組中的詞按照權(quán)重從大到小進行排序;
(4)統(tǒng)計每組詞的個數(shù),按照個數(shù)從大到小進行排序。
關(guān)鍵詞 (1)在后臺自動對文本的關(guān)鍵詞進行提取,具體可通過對文本進行智能分詞,根據(jù)算法獲取關(guān)鍵詞列表;
(2)按詞的權(quán)重進行排序,提取指定個數(shù)的詞語作為關(guān)鍵詞。
虛擬時間 (1)將所有關(guān)于日期的中文字詞轉(zhuǎn)換為阿拉伯數(shù)字,自動將兩位數(shù)的年份轉(zhuǎn)換為四位數(shù);
(2)沒有年份、月份的可根據(jù)前一個日期進行追加;
(3)支持字符的智能化識別和轉(zhuǎn)換,如將“號”轉(zhuǎn)換為“日”等。
虛擬人名 根據(jù)姓氏字典,提取虛擬人名。
公文種類 按照一定算法,對通告、通知、通報、決定、命令、公告、議案、報告、請示、批復(fù)、意見、函、會議紀要等常見公文種類進行自動識別和分類。
結(jié)語
綜上所述,檔案管理部門應(yīng)用數(shù)據(jù)挖掘技術(shù)并不普遍。很多檔案管理人員對于檔案管理部門應(yīng)用數(shù)據(jù)挖掘技術(shù)存在一些困惑和疑慮,甚至有一些檔案管理工作人員還不愿意運用這一技術(shù)。隨著人工智能、大數(shù)據(jù)、云計算等計算機信息技術(shù)的發(fā)展,越來越多的檔案管理工作人員開始思考如何利用先進的計算機信息網(wǎng)絡(luò)技術(shù)進一步發(fā)揮檔案的價值,怎么才能從浩如煙海的檔案原始資料中,找到有利用價值的檔案,更快更好地挖掘出檔案蘊含的巨大價值。隨著研究的深入,數(shù)據(jù)挖掘技術(shù)最終走進了人們的視野,成為檔案管理工作人員研究如何更好地發(fā)揮檔案價值的研究熱點。數(shù)據(jù)挖掘技術(shù)是機器學(xué)習(xí)和數(shù)據(jù)庫管理的交叉,在數(shù)據(jù)庫管理技術(shù)的支撐下從數(shù)據(jù)庫中提取大量數(shù)據(jù),通過機器學(xué)習(xí)技術(shù)進行分析,從而挖掘潛在有價值的信息[20]。
參考文獻
[1]孫鵬飛.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用探究[J].現(xiàn)代工業(yè)經(jīng)濟和信息化,2022,12(03):136-138.DOI:10.16525/j.cnki.14-1362/n.2022.03.050.
[2]廖嘉煒,嚴俊斌,宋強,趙小凡,徐炫東.主數(shù)據(jù)驅(qū)動視角下多源數(shù)據(jù)數(shù)字化挖掘系統(tǒng)設(shè)計[J].電子設(shè)計工程,2022,30(03):63-66.DOI:10.14022/j.issn1674-6236.2022.03.014.
[3]姚翠艷.數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用[J].黑龍江檔案,2021(04):172-173.
[4]謝元瑰,李仕祺.基于數(shù)據(jù)挖掘的人事檔案信息化管理方法[J].信息與電腦(理論版),2021,33(10):9-11.
[5]鄢明芳,鄭川.檔案數(shù)據(jù)挖掘的應(yīng)用實例分析[J].山西檔案,2021(03):132-142+131.
[6]蔡靜穎.計算機數(shù)據(jù)挖掘技術(shù)的開發(fā)與應(yīng)用[J].電子技術(shù)與軟件工程,2021(05):190-192.
[7]潘翠芬.基于數(shù)據(jù)挖掘技術(shù)的數(shù)字檔案管理信息系統(tǒng)的設(shè)計與實現(xiàn)[J].城建檔案,2020(04):25-26.
[8]陳春謀.大數(shù)據(jù)環(huán)境下的檔案管理系統(tǒng)信息檢索及挖掘技術(shù)分析[J].電子測試,2019(14):92-94.DOI:10.16520/j.cnki.1000-8519.2019.14.035.
[9]蔣紅健.大數(shù)據(jù)挖掘管理與技術(shù)策略在高校檔案館中的應(yīng)用研究[J].山西檔案,2019(01):61-66.
[10]廖淑莉.構(gòu)建科技檔案云平臺支撐科技創(chuàng)新驅(qū)動——以粵西高??萍紮n案云平臺關(guān)鍵技術(shù)研究為例[J].檔案時空,2016(02):16-18.
[11]汪楠,張浩.數(shù)據(jù)挖掘在檔案信息管理中的探討[J].景德鎮(zhèn)學(xué)院學(xué)報,2015,30(03):52-55.
[12]李瑞敏.計算機網(wǎng)絡(luò)在社保工作系統(tǒng)中的應(yīng)用[J].山東工業(yè)技術(shù),2014(20):147-148.DOI:10.16640/j.cnki.37-1222/t.2014.20.241.
[13]段鳳,王小芳.數(shù)據(jù)挖掘在科研檔案管理中的應(yīng)用研究[J].蘭臺世界,2012(35):100-101.DOI:10.16565/j.cnki.1006-7744.2012.35.093.
[14]張衛(wèi)東,左娜,陸璐.數(shù)字時代的檔案資源整合:路徑與方法[J].檔案學(xué)通訊,2018(05):46-50.DOI:10.16113/j.cnki.daxtx.2018.05.010.
[15]張偉.高校檔案管理中融入數(shù)據(jù)挖掘的實踐研究[J].呂梁教育學(xué)院學(xué)報,2017,34(03):75-76.
[16]哈立原.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺構(gòu)建[J].山西檔案,2016(05):105-107.
[17]孫越.數(shù)據(jù)挖掘技術(shù)在保險公司內(nèi)部審計中的應(yīng)用[J].現(xiàn)代商業(yè),2019(18):59-60.DOI:10.14097/j.cnki.5392/2019.18.028.
[18]姚翠艷.數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用[J].黑龍江檔案,2021(04):172-173.
[19]陳雪燕,于英香.從檔案管理走向檔案數(shù)據(jù)管理:大數(shù)據(jù)時代下的檔案管理范式轉(zhuǎn)型[J].山西檔案,2019(05):24-32.
[20]王平,安亞翔.大數(shù)據(jù)時代的檔案信息平臺建設(shè)[J].檔案與建設(shè),2015,(10):8-13.
作者簡介:莊宏武,本科學(xué)歷,任職于通榆縣檔案館。