王曉紅 田紅威 鄭兆瑞 陳美鮮
摘 要:當今社會,隨著信息技術(shù)的不斷進步,數(shù)據(jù)量呈指數(shù)級增長,大數(shù)據(jù)時代已經(jīng)到來。在這個時代,信息資源成為了社會經(jīng)濟發(fā)展的重要基礎(chǔ),檔案信息資源則是其中的重要組成部分。大數(shù)據(jù)時代,檔案信息資源也具備著數(shù)據(jù)體量大、增長速度快;數(shù)據(jù)種類多、數(shù)據(jù)結(jié)構(gòu)復(fù)雜;處理效率提高、處理技術(shù)信息化;信息資源深度挖掘的大數(shù)據(jù)特征。對此,該文從樹立大數(shù)據(jù)思維、構(gòu)建數(shù)字化檔案資源庫、加強信息化建設(shè)、注重數(shù)據(jù)價值挖掘四個角度提出策略,為大數(shù)據(jù)時代下檔案信息資源挖掘提供參考。
關(guān)鍵詞:大數(shù)據(jù);檔案信息資源;數(shù)據(jù)挖掘
大數(shù)據(jù)(Big data),即海量數(shù)據(jù)、巨量數(shù)據(jù)和大資料,是指所涉及的數(shù)據(jù)規(guī)模巨大,以至于在一定的時間內(nèi)人類無法對其進行攔截、管理與處理,并組織成人類可以解讀的信息。大數(shù)據(jù)通常具有海量、高維、異構(gòu)、實時、非結(jié)構(gòu)化等特征,可以來自各種各樣的數(shù)據(jù)源,例如社交媒體、物聯(lián)網(wǎng)、傳感器、交易記錄、日志、影像、聲音等[1]。
隨著大數(shù)據(jù)時代的到來,信息資源成為社會經(jīng)濟發(fā)展的重要基礎(chǔ)。檔案信息資源作為歷史文化、社會經(jīng)濟、科技創(chuàng)新等領(lǐng)域的載體,記錄了人類社會各個領(lǐng)域的發(fā)展變遷和成果,對于人們的科研、教學(xué)、文化遺產(chǎn)保護等方面的意義和價值愈加凸顯。因此,檔案信息資源的利用和管理,尤其是檔案信息資源的挖掘和分析,已成為當今研究熱點和關(guān)注重點之一。然而,傳統(tǒng)檔案管理方式已經(jīng)無法滿足大數(shù)據(jù)時代下的信息處理與獲取需求[2]。如何對海量的檔案信息資源進行高效、準確、全面的挖掘和分析也成為了當前亟須解決的難題。
1 大數(shù)據(jù)時代檔案信息資源的大數(shù)據(jù)特征
1.1 數(shù)據(jù)體量大、增長速度快
隨著數(shù)字化技術(shù)的普及,檔案信息資源中的數(shù)據(jù)量呈爆炸式增長。如企業(yè)檔案中的數(shù)據(jù)包括各種類型的信息,包括企業(yè)的發(fā)展歷程、財務(wù)狀況、員工檔案等。這些數(shù)據(jù)量在日積月累中不斷增加,并且隨著數(shù)據(jù)種類和結(jié)構(gòu)的增多呈現(xiàn)越來越快的增長趨勢。這種快速增長的數(shù)據(jù)量也需要更大的存儲空間,因此,企業(yè)需要使用大數(shù)據(jù)技術(shù),如分布式文件系統(tǒng)和云存儲技術(shù)來存儲和管理這些數(shù)據(jù)。
1.2 數(shù)據(jù)種類多、數(shù)據(jù)結(jié)構(gòu)復(fù)雜
檔案信息資源中包含的數(shù)據(jù)種類非常多,數(shù)據(jù)結(jié)構(gòu)也非常復(fù)雜。數(shù)據(jù)種類方面包括各種文檔、圖片、視頻、音頻等多種類型,如醫(yī)療企業(yè)在疫情期間需要處理來自各個醫(yī)院的醫(yī)療檔案數(shù)據(jù),其中包括各種類型的數(shù)據(jù),如CT掃描圖像、心電圖、檢查報告等。這些數(shù)據(jù)的結(jié)構(gòu)也區(qū)別于傳統(tǒng)檔案的文本和圖像形式,呈現(xiàn)出離散化、碎片化和專業(yè)化的特征,需要綜合多種學(xué)科和技術(shù)來進行處理以滿足工作需要[3]。為了應(yīng)對檔案信息資源的多樣化和復(fù)雜性,相關(guān)單位也需要采用多種數(shù)據(jù)處理技術(shù),如機器學(xué)習(xí)、自然語言處理、圖像處理等,幫助企業(yè)更好地理解和處理不同類型的數(shù)據(jù)。
1.3 處理效率提高、處理技術(shù)信息化
在檔案體量、增長速度、種類都急速增長的背景下,如何快速高效地處理這些檔案信息成為檔案部門面臨的一大難題。特別是對于企業(yè)來說,檔案信息資源最終要面向企業(yè)生產(chǎn)、管理或銷售環(huán)節(jié),為企業(yè)創(chuàng)造價值和收益。因此,對于企業(yè)來說如何挖掘檔案信息資源的價值則更為重要。例如,某制造企業(yè)采用了物聯(lián)網(wǎng)技術(shù),可以在產(chǎn)品的生命周期內(nèi)收集大量的數(shù)據(jù),這些數(shù)據(jù)可以被用于監(jiān)測和優(yōu)化生產(chǎn)過程。同時,企業(yè)也需要使用自動化的工具來處理數(shù)據(jù),如數(shù)據(jù)清洗、數(shù)據(jù)整合、數(shù)據(jù)分析等。
1.4 信息資源深度挖掘
企業(yè)檔案信息資源中包含著豐富的信息,如果能夠?qū)@些信息進行深度挖掘,可以為企業(yè)帶來巨大的價值。例如,企業(yè)可以通過數(shù)據(jù)挖掘技術(shù)來進行市場分析,預(yù)測市場需求,制定更加科學(xué)的營銷策略。或者,企業(yè)可以對客戶數(shù)據(jù)進行挖掘,找出客戶行為模式,從而提高客戶滿意度和忠誠度。信息資源的深度挖掘也可以幫助企業(yè)發(fā)現(xiàn)問題,并提供解決方案。例如,某汽車制造企業(yè)在生產(chǎn)線上出現(xiàn)了故障,使用大數(shù)據(jù)技術(shù),可以快速定位故障原因,進行修復(fù)和維護,提高生產(chǎn)效率和質(zhì)量。
2 大數(shù)據(jù)時代檔案信息資源挖掘的挑戰(zhàn)
2.1 管理思維陳舊
傳統(tǒng)檔案管理存在很多問題,如重復(fù)建檔、難以共享、檔案存儲不規(guī)范等,這些問題都與傳統(tǒng)的管理思維有關(guān)。一般來說,傳統(tǒng)的解決方法是增加人力和財力投入,但由于大數(shù)據(jù)時代檔案信息資源是呈指數(shù)級增長等,因此經(jīng)常出現(xiàn)“投入”與“產(chǎn)出”不匹配的現(xiàn)象。
2.2 檔案數(shù)字化程度低
傳統(tǒng)的檔案管理方式大都是紙質(zhì)管理,缺乏數(shù)字化技術(shù)的支持,使得檔案數(shù)字化程度較低。在大數(shù)據(jù)時代,檔案數(shù)字化是保證檔案信息資源挖掘的前提條件,檔案數(shù)字化程度的提高是大數(shù)據(jù)時代檔案信息資源挖掘的基礎(chǔ)。然而,檔案數(shù)字化需要大量的資金、技術(shù)和人力資源,這也成為制約檔案數(shù)字化的主要原因。
2.3 信息化建設(shè)滯后
檔案管理部門的檔案管理系統(tǒng)大多數(shù)還停留在人工記錄和存儲的階段,無法充分利用大數(shù)據(jù)技術(shù),實現(xiàn)對檔案信息資源的高效挖掘。有些檔案管理部門在信息化建設(shè)方面的投入不足。一些單位在資源有限的情況下,更傾向于投入到直接產(chǎn)生效益的方面,對于檔案信息化建設(shè)缺乏足夠的關(guān)注和投入,從而導(dǎo)致信息化建設(shè)滯后,影響檔案信息資源的挖掘和利用。
2.4 數(shù)據(jù)價值挖掘不足
一是數(shù)據(jù)采集過程中的質(zhì)量問題。由于檔案數(shù)據(jù)存在不完整、不規(guī)范、不標準等特點,數(shù)據(jù)采集難度較大,采集到的數(shù)據(jù)質(zhì)量不高,導(dǎo)致數(shù)據(jù)的利用價值大打折扣。二是數(shù)據(jù)分析能力的匱乏。由于檔案信息資源挖掘領(lǐng)域較新,專業(yè)人才和技術(shù)手段還不夠成熟,導(dǎo)致數(shù)據(jù)分析的效果不夠理想,難以充分挖掘數(shù)據(jù)的潛在價值。三是還存在數(shù)據(jù)隱私和安全問題。檔案數(shù)據(jù)涉及個人隱私和國家安全等方面,如果在數(shù)據(jù)挖掘過程中不能妥善保護數(shù)據(jù)的隱私和安全,不僅會破壞數(shù)據(jù)的完整性和可信度,還會對個人和社會帶來不良影響。
3 大數(shù)據(jù)時代檔案信息資源挖掘的策略與方法
3.1 樹立大數(shù)據(jù)思維
3.1.1轉(zhuǎn)變管理思維。首先,需要轉(zhuǎn)變管理者和工作人員的意識,將傳統(tǒng)檔案管理方式的思維局限打破,應(yīng)意識到大數(shù)據(jù)時代需要更加開放、創(chuàng)新和協(xié)作的思維方式,以更好地適應(yīng)新的技術(shù)和數(shù)據(jù)環(huán)境。這包括從檔案管理的“存儲、傳遞、保護”思路轉(zhuǎn)變?yōu)楦幼⒅財?shù)據(jù)的開放、共享、服務(wù)和利用,從“管理者”轉(zhuǎn)變?yōu)椤胺?wù)者”,從“主動管理”轉(zhuǎn)變?yōu)椤爸鲃臃?wù)”。其次,需要將數(shù)據(jù)思維融入到檔案管理中。數(shù)據(jù)思維是指從數(shù)據(jù)的角度思考問題、解決問題的一種思維方式。管理者和工作人員需要具備數(shù)據(jù)分析和應(yīng)用的能力,將數(shù)據(jù)轉(zhuǎn)化為知識和智慧,使之成為支撐業(yè)務(wù)和決策的重要依據(jù)。例如,可以通過對檔案數(shù)據(jù)的深度分析,發(fā)現(xiàn)潛在的業(yè)務(wù)價值和創(chuàng)新方向。
3.1.2建立大數(shù)據(jù)文化。在大數(shù)據(jù)時代,企業(yè)需要倡導(dǎo)一種全員參與的大數(shù)據(jù)文化,讓所有員工深刻認識到數(shù)據(jù)的價值和意義,提高數(shù)據(jù)分析意識和數(shù)據(jù)素養(yǎng),推廣數(shù)據(jù)分析的成功案例,讓員工能夠更好地理解大數(shù)據(jù)的價值,并更好地應(yīng)用到企業(yè)的決策和運營中。同時,建立一套全員參與的大數(shù)據(jù)分析培訓(xùn)和技術(shù)支持機制,讓員工掌握一定的數(shù)據(jù)分析技能,進一步提高大數(shù)據(jù)素養(yǎng)和數(shù)據(jù)分析能力。除此之外,還可以通過制定數(shù)據(jù)分析的KPI指標、舉辦內(nèi)部數(shù)據(jù)分析比賽、成立數(shù)據(jù)分析師團隊等方式,提高員工的數(shù)據(jù)分析能力和數(shù)據(jù)挖掘水平,讓員工從傳統(tǒng)的“按部就班”工作方式中走出來,樹立大數(shù)據(jù)思維。
3.1.3建立高效的數(shù)據(jù)管理機制。大數(shù)據(jù)時代,檔案管理部門需要建立高效的數(shù)據(jù)收集、處理和管理機制,以保證海量、高維、異構(gòu)、實時、非結(jié)構(gòu)化的數(shù)據(jù)得到及時、準確地處理。一方面,可采用現(xiàn)代化的數(shù)據(jù)處理技術(shù),例如云計算、分布式存儲、機器學(xué)習(xí)等,以提高數(shù)據(jù)處理的效率和精度;另一方面,還需要建立規(guī)范的數(shù)據(jù)管理制度,明確數(shù)據(jù)的來源、歸屬、保護和使用規(guī)則,保證數(shù)據(jù)的完整性和安全性。
3.2構(gòu)建數(shù)字化檔案資源庫。數(shù)字化檔案資源庫的建設(shè)可以實現(xiàn)檔案信息的全面數(shù)字化,提高檔案數(shù)據(jù)的獲取效率和管理水平,為大數(shù)據(jù)時代檔案信息資源挖掘提供更廣闊的數(shù)據(jù)來源。
3.2.1集納多種類、多結(jié)構(gòu)的檔案數(shù)據(jù)。檔案數(shù)據(jù)的種類繁多,包括文字、圖片、聲音、視頻等多種類型,這些數(shù)據(jù)具有不同的結(jié)構(gòu)、格式和存儲方式。為了實現(xiàn)數(shù)字化檔案資源庫的全面建設(shè),需要將多種類、多結(jié)構(gòu)的檔案數(shù)據(jù)進行集納,并進行有效管理和維護,同時還需要考慮到數(shù)據(jù)的組織和管理方式的差異,如元數(shù)據(jù)的制定和數(shù)據(jù)標準的統(tǒng)一等,以保證數(shù)據(jù)的質(zhì)量和可管理性。
3.2.2拓展數(shù)據(jù)采集范圍。隨著大數(shù)據(jù)時代的到來,檔案信息資源挖掘所需要的數(shù)據(jù)量不斷增大,為了滿足數(shù)據(jù)的需求,需要拓展數(shù)據(jù)采集的范圍。數(shù)據(jù)采集的范圍不僅涵蓋了傳統(tǒng)的檔案館、圖書館等機構(gòu),還包括社會各個領(lǐng)域的數(shù)據(jù)來源,積極與各種機構(gòu)合作,獲取數(shù)據(jù)源。例如,可以與博物館、圖書館、檔案館等機構(gòu)建立合作關(guān)系,獲取這些機構(gòu)所收藏的各種檔案數(shù)據(jù)。同時,也可以與企業(yè)、研究機構(gòu)等合作,共享各自所擁有的檔案數(shù)據(jù)。還可以采用自動化的數(shù)據(jù)采集方法來減少手動采集數(shù)據(jù)的工作量,提高數(shù)據(jù)采集效率,例如可以使用網(wǎng)絡(luò)爬蟲技術(shù),從各種網(wǎng)站和數(shù)據(jù)庫中采集檔案數(shù)據(jù),再加以整理和處理。
3.2.3構(gòu)建檔案信息資源共享平臺。數(shù)字化檔案資源庫不僅僅是一個單純的數(shù)據(jù)倉庫,還需要將其中的數(shù)據(jù)資源進行共享,這就需要構(gòu)建檔案信息資源共享平臺。首先,平臺具備高效的數(shù)據(jù)存儲和檢索功能,能夠快速有效地存儲和檢索各類檔案數(shù)據(jù)。其次,平臺需要具備良好的數(shù)據(jù)共享機制,使得不同部門或單位能夠方便地獲取、利用檔案信息資源。同時,平臺也需要提供安全可靠的數(shù)據(jù)交換機制,確保檔案信息資源在共享過程中不會受到泄露、損壞等問題的影響。最后,在構(gòu)建數(shù)字化檔案資源庫的過程中,還需要建立相關(guān)的法律法規(guī)和標準規(guī)范,在規(guī)范數(shù)字化檔案資源庫的建設(shè)過程的同時保障檔案信息資源的安全和利用效果。
3.3 加強信息化建設(shè)
3.3.1做好需求調(diào)研。要深入了解檔案信息資源的特點、類型、來源和用途,明確數(shù)據(jù)挖掘的目標和需求,以便為數(shù)據(jù)挖掘和分析提供有針對性的支持。檔案管理部門需要通過與內(nèi)部相關(guān)部門的溝通,了解各部門對于數(shù)據(jù)挖掘的需求和期望,根據(jù)實際需要選擇合適的數(shù)據(jù)挖掘技術(shù)和工具。此外,還需了解外部環(huán)境需求,關(guān)注社會上的數(shù)據(jù)挖掘技術(shù)和應(yīng)用情況,根據(jù)市場變化調(diào)整數(shù)據(jù)挖掘策略。
3.3.2夯實硬件準備。要提高檔案信息資源挖掘的效率和準確性,必須依托良好的硬件設(shè)施, 提供充足的計算能力、存儲空間和網(wǎng)絡(luò)帶寬。根據(jù)數(shù)據(jù)挖掘的規(guī)模和復(fù)雜度,選擇合適的硬件設(shè)備和系統(tǒng)架構(gòu),建立安全可靠的數(shù)據(jù)存儲、備份和恢復(fù)機制。此外,還需對硬件設(shè)備進行維護和升級,以保證其穩(wěn)定性和性能優(yōu)化。
3.3.3豐富技術(shù)手段。數(shù)據(jù)挖掘技術(shù)是實現(xiàn)檔案信息資源挖掘和分析的關(guān)鍵。檔案管理部門需要了解和掌握當前最新的數(shù)據(jù)挖掘技術(shù),以實現(xiàn)更高效、更準確的數(shù)據(jù)挖掘。具體來說,需要提高數(shù)據(jù)清洗和預(yù)處理的能力,采用先進的數(shù)據(jù)挖掘算法和模型,結(jié)合人工智能、機器學(xué)習(xí)等技術(shù)進行數(shù)據(jù)分析和挖掘,實現(xiàn)對檔案信息資源的深入挖掘。此外,還需要通過培訓(xùn)和知識分享,不斷提高員工的數(shù)據(jù)挖掘能力和技術(shù)水平。
3.4 注重數(shù)據(jù)價值挖掘
3.4.1明確數(shù)據(jù)管理目標。對于檔案信息資源的挖掘來說,主要的目標是提升檔案信息資源的利用價值、挖掘檔案背后的歷史文化價值、保護檔案信息資源的安全性等。對此,應(yīng)根據(jù)不同的目標,采取不同的數(shù)據(jù)挖掘策略和方法,以有效提升數(shù)據(jù)價值。例如,為挖掘歷史文化價值,可以采用自然語言處理技術(shù)來分析文本數(shù)據(jù),或者采用圖像識別技術(shù)來分析圖片、照片等數(shù)據(jù);為提高檔案信息資源的利用價值,可以采用機器學(xué)習(xí)技術(shù)來建立預(yù)測模型,幫助用戶更好地利用檔案信息資源等。
3.4.2綜合運用數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)是指從大量的數(shù)據(jù)中自動發(fā)現(xiàn)隱藏的模式、關(guān)系和規(guī)律。常見的數(shù)據(jù)挖掘技術(shù)包括聚類分析、關(guān)聯(lián)規(guī)則挖掘、分類與預(yù)測、異常檢測等。為更好地挖掘檔案信息資源的價值,可以采用多種數(shù)據(jù)挖掘技術(shù)來綜合分析檔案數(shù)據(jù),發(fā)現(xiàn)隱藏的價值。例如,可以使用聚類分析技術(shù)來將檔案數(shù)據(jù)劃分為不同的類別,進而挖掘不同類別的數(shù)據(jù)特征;可以使用關(guān)聯(lián)規(guī)則挖掘技術(shù)來挖掘檔案數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,進而幫助用戶更好地理解數(shù)據(jù);可以使用分類與預(yù)測技術(shù)來構(gòu)建預(yù)測模型,預(yù)測未來事件的發(fā)生。除此之外,還可以結(jié)合業(yè)務(wù)流程進行分析,確定管理過程性數(shù)據(jù)中的關(guān)鍵節(jié)點和關(guān)鍵指標,為數(shù)據(jù)挖掘提供指導(dǎo)和支持。
參考文獻
[1]卞咸杰.大數(shù)據(jù)時代檔案信息資源共享平臺數(shù)據(jù)挖掘模型的研究與實現(xiàn)[J].檔案管理,2020(04):21-24.DOI:10.15950/j.cnki.1005-9458.2020.04.007.
[2]趙躍.大數(shù)據(jù)時代檔案數(shù)據(jù)化的前景展望:意義與困境[J].檔案學(xué)研究,2019(05):52-60.DOI:10.16065/j.cnki.issn1002-1620.2019.05.009.
[3]金波,晏秦.從檔案管理走向檔案治理[J].檔案學(xué)研究,2019(01):46-55.DOI:10.16065/j.cnki.issn1002-1620.2019.01.008.
(作者單位:中國華能集團有限公司)