国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電子文件智能歸檔系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)的演進(jìn)邏輯與優(yōu)化策略

2024-08-17 00:00:00胡文學(xué)丁海斌趙婧堯羅夏鉆顏晗
檔案管理 2024年3期

摘 要:伴隨檔案信息化進(jìn)程的發(fā)展,電子文件智能歸檔問題的研究逐漸成為我國檔案學(xué)者們近年來關(guān)注的焦點(diǎn)之一。智能歸檔不僅需要明確歸檔范圍作為制度保障,還需要文本、圖像等相似度算法比對原理和機(jī)器學(xué)習(xí)算法等人工智能技術(shù)的支持。本文中所介紹的系統(tǒng)通過對擬歸檔文件進(jìn)行智慧排查,經(jīng)過系統(tǒng)內(nèi)置清單、系統(tǒng)比對、四性檢測合格后智能形成元數(shù)據(jù),最終向檔案管理部門辦理移交。智能歸檔與一般電子文件歸檔方式相比,具有智能化、自動(dòng)化、一體化、網(wǎng)絡(luò)化等特點(diǎn)。

關(guān)鍵詞:電子文件;歸檔;智能歸檔;文本相似度算法;人工智能;機(jī)器學(xué)習(xí);四性檢測;元數(shù)據(jù)

我們所說的智能歸檔是指將人工智能技術(shù)運(yùn)用到文件歸檔的過程中去,賦予業(yè)務(wù)系統(tǒng)智能化的歸檔功能。目前主要表現(xiàn)為對電子文件進(jìn)行自動(dòng)的動(dòng)態(tài)智能排查、分類、比對、整理排序、形成元數(shù)據(jù)并歸檔,整個(gè)歸檔工作全部在線智能化完成,并通過機(jī)器學(xué)習(xí)技術(shù)逐步提升智能化水平。

檔案管理智能化是當(dāng)前檔案管理數(shù)字化轉(zhuǎn)型的重要內(nèi)涵。檔案智能化管理包括歸檔、驗(yàn)收、整理、日常管理、利用與開發(fā)等各個(gè)方面的智能化。其中,歸檔智能化是起點(diǎn)和重要組成部分。對此,筆者采用“研用”結(jié)合,以廣西高速公路建設(shè)項(xiàng)目電子文件歸檔作為實(shí)踐對象,探討公路建設(shè)項(xiàng)目電子文件智能歸檔的理論與實(shí)踐課題。

1 研究現(xiàn)狀

近些年來,隨著人工智能、大數(shù)據(jù)、機(jī)器學(xué)習(xí)、數(shù)字孿生等新一代信息技術(shù)的發(fā)展和應(yīng)用,推動(dòng)了“智能+”的升級優(yōu)化,成了各行業(yè)發(fā)展的主流。智能技術(shù)應(yīng)用于檔案管理不僅是信息時(shí)代檔案管理的內(nèi)在需要,更是信息社會(huì)發(fā)展的必然要求,數(shù)智化已經(jīng)成了檔案管理的重要趨勢。AI人工智能技術(shù)與檔案管理深度融合,檔案行業(yè)積極探索應(yīng)用AI智能技術(shù),提高電子檔案管理的質(zhì)效。人工智能已經(jīng)進(jìn)入到場景應(yīng)用階段,深入落地到各行各業(yè)以解決不同場景的問題,也給檔案工作帶來新的發(fā)展機(jī)遇。[1]順應(yīng)時(shí)代發(fā)展,檔案部門積極利用人工智能技術(shù)推進(jìn)電子檔案歸檔模式的改革,檔案管理實(shí)踐中涌現(xiàn)出諸多應(yīng)用人工智能技術(shù)升級優(yōu)化檔案管理系統(tǒng)的案例?!岸嘀悄荏w”系統(tǒng)具有自主性、分布性、協(xié)調(diào)性,以及很強(qiáng)的自組織能力。在開展異構(gòu)對接時(shí),可以使前端“零”改造,實(shí)現(xiàn)自主組件,實(shí)現(xiàn)歸檔、管理、移交階段四性檢測工作,實(shí)施電子文檔一體化流程智能管理。[2]KingCloud智能對象歸檔系統(tǒng),基于訪問行為的語義采集方法,采用灰盒探測(Probe)的方式收集數(shù)據(jù)訪問熱度、數(shù)據(jù)布局等方面的信息,并預(yù)測歸檔系統(tǒng)的訪問行為,通過文檔分類技術(shù)實(shí)現(xiàn)了文本文件的分類,利用圖像識(shí)別、視頻關(guān)鍵幀提取等技術(shù)實(shí)現(xiàn)圖片和視頻文件的內(nèi)容元數(shù)據(jù)獲取。[3]柯尼卡美能達(dá)OPS綜合提案服務(wù),利用OCR光學(xué)字符識(shí)別技術(shù)解決方案,將掃描圖像的文字或符號(hào)提取分層加以識(shí)別,實(shí)現(xiàn)物流單據(jù)的智能歸檔。[4]檔案學(xué)者們對政務(wù)信息、企事業(yè)檔案的電子檔案歸檔模式進(jìn)行了全方面的研究。這些研究包括智能歸檔架構(gòu)和系統(tǒng)[5,6]、數(shù)據(jù)歸檔優(yōu)化策略[7-9]、智能歸檔融入公共協(xié)同系統(tǒng)[10]等。

綜上所述,大多數(shù)學(xué)者立足行業(yè)內(nèi)部需求的微觀視角,構(gòu)建電子文件智能歸檔系統(tǒng),鮮有學(xué)者從宏觀視角優(yōu)化電子文件智能歸檔流程及系統(tǒng)。本文立足當(dāng)前新一代信息技術(shù)發(fā)展的現(xiàn)狀,以微觀和宏觀相結(jié)合的研究視角,基于高速公路建設(shè)項(xiàng)目檔案管理系統(tǒng),提出普適性的、可落地操作的電子文件智能歸檔系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)的優(yōu)化策略。

2 電子文件智能歸檔系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)的演進(jìn)邏輯

2.1 歸檔策略:由物理歸檔向在線邏輯歸檔轉(zhuǎn)變

總體而言,傳統(tǒng)文件歸檔是一種以紙質(zhì)文件為對象的物理歸檔,智能歸檔則是以電子文件為對象的在線邏輯歸檔。

在《電子文件歸檔與管理規(guī)范》中對電子文件的歸檔是這樣解釋的:“電子文件的歸檔,按照鑒定標(biāo)示進(jìn)行。電子文件的歸檔可分兩步進(jìn)行,對實(shí)時(shí)進(jìn)行的歸檔先做邏輯歸檔,然后定期完成物理歸檔?!盵11]對于電子文件的歸檔,主要是檔案管理系統(tǒng)通過計(jì)算機(jī)網(wǎng)絡(luò)工具與業(yè)務(wù)系統(tǒng)實(shí)現(xiàn)一體化,電子文件的歸檔一般分為邏輯歸檔和物理歸檔兩種形式。其中邏輯歸檔是指:“將電子文件的管理權(quán)從網(wǎng)絡(luò)上轉(zhuǎn)移至檔案部門,在歸檔工作中,存儲(chǔ)格式和位置暫時(shí)保持不變?!盵12]物理歸檔是將電子文件卸載到脫機(jī)保存的載體上,向檔案部門移交的過程。

在當(dāng)前的網(wǎng)絡(luò)環(huán)境中,通過磁盤陣列來保存電子文件是有效的方法之一,但電子文件載體穩(wěn)定性較差,容易受到破壞,所以歸檔方式選擇是關(guān)鍵。實(shí)踐的檢驗(yàn)證明,采用磁盤等脫機(jī)采集數(shù)據(jù)的介質(zhì)移交的物理歸檔方式易導(dǎo)致資料丟失。相比較而言,智能歸檔采用單一邏輯歸檔方式,是電子文件歸檔新模式,智能歸檔采用了智能化管理信息系統(tǒng),整個(gè)歸檔過程全部在線完成,實(shí)現(xiàn)了單點(diǎn)登錄、數(shù)據(jù)直達(dá),整個(gè)過程不需要人工干預(yù),是真正實(shí)現(xiàn)了“智能化”的歸檔方式。電子文件,以方便利用為目標(biāo),采用不同的邏輯組卷方式,同時(shí)研究建設(shè)項(xiàng)目擬歸檔文件的歸檔格式和元數(shù)據(jù)管理,確保了公司內(nèi)檔案信息的資源共享。在線邏輯歸檔這種歸檔方式提高了歸檔數(shù)據(jù)的可訪問性、可用性和可管理性。通過在線邏輯歸檔,可以更加便捷地管理和利用大量的電子數(shù)據(jù),提高數(shù)據(jù)的使用價(jià)值。同時(shí),這種方式也能夠降低物理存儲(chǔ)空間的需求,減少數(shù)據(jù)存儲(chǔ)的成本。

2.2 歸檔主體:由人工向人工智能轉(zhuǎn)變

《電子文件歸檔與管理規(guī)范》(DA/T 25)中規(guī)定,機(jī)關(guān)、團(tuán)體、企業(yè)事業(yè)單位和其他組織的電子文件,由各該組織的業(yè)務(wù)主管部門或其所屬單位負(fù)責(zé)歸檔,這是國家規(guī)定的電子文件歸檔主體。

一般電子文件的文件歸屬明晰,其形成于辦公系統(tǒng)或辦公網(wǎng)站,按照一般電子文件的歸檔原則:誰形成,誰歸檔,文件的所有者就是文件的形成者,文件形成者應(yīng)該負(fù)責(zé)歸檔這些文件,是歸檔主體。

智能歸檔的主體是人工與人工智能結(jié)合,包括以下幾種形式:利用人工智能技術(shù),識(shí)別歸檔主體身份,將電子文件識(shí)別為可歸檔的電子文件,并對其進(jìn)行智能歸類、存儲(chǔ)、歸檔;根據(jù)已有的電子文件數(shù)據(jù),自動(dòng)生成具有一定價(jià)值的檔案數(shù)據(jù);對非結(jié)構(gòu)化的電子文件進(jìn)行分類、分析和挖掘,發(fā)現(xiàn)檔案管理中的問題和規(guī)律,自動(dòng)形成檔案管理建議,為檔案部門提供決策參考;在接收到歸檔主體提交的歸檔申請后,自動(dòng)完成歸檔,并將電子文件納入檔案系統(tǒng)統(tǒng)一管理。

在傳統(tǒng)檔案歸檔模式下,一系列歸檔工作是由人工進(jìn)行的,工作效率低且易出錯(cuò),不能滿足數(shù)字化檔案館(室)對自動(dòng)化管理的需求。智能歸檔系統(tǒng)通過對紙質(zhì)文件、電子文件和聲像文件進(jìn)行智能識(shí)別和自動(dòng)整理,并對不同格式的文件進(jìn)行自動(dòng)轉(zhuǎn)換,使紙質(zhì)文件和聲像文件達(dá)到自動(dòng)化管理,從而實(shí)現(xiàn)將傳統(tǒng)檔案管理模式向信息化檔案管理模式轉(zhuǎn)變。

2.3 技術(shù)運(yùn)用:由傳統(tǒng)技術(shù)向人工智能技術(shù)轉(zhuǎn)變

一般電子文件歸檔與智能歸檔在技術(shù)運(yùn)用方面,實(shí)現(xiàn)了由傳統(tǒng)技術(shù)利用到自動(dòng)化的轉(zhuǎn)變。智能歸檔和一般電子歸檔的主要區(qū)別在于,智能歸檔利用人工智能和自然語言處理技術(shù)對文件進(jìn)行自動(dòng)分類和標(biāo)記,從而實(shí)現(xiàn)更快速、更精準(zhǔn)的歸檔和檢索。

一般電子文件歸檔主要是對電子文件的元數(shù)據(jù)進(jìn)行管理,建立元數(shù)據(jù)標(biāo)準(zhǔn)體系,對電子文件的各個(gè)環(huán)節(jié)進(jìn)行準(zhǔn)確記錄和描述,為電子文件歸檔工作提供數(shù)據(jù)支持;記錄和描述電子文件的生成、傳輸、存儲(chǔ)等各個(gè)步驟,以便更好地理解和利用它們,同時(shí)保證這些信息能夠安全有效地傳遞和共享;對電子文件的存儲(chǔ)方式進(jìn)行記錄和描述,同時(shí)保證存儲(chǔ)環(huán)境安全可靠。電子文件歸檔過程中涉及文件格式、壓縮算法、編碼等技術(shù),需要對元數(shù)據(jù)進(jìn)行管理。

智能歸檔則是通過對電子文件生命周期各環(huán)節(jié)的標(biāo)準(zhǔn)化管理,實(shí)現(xiàn)對其全面收集、有效管理、動(dòng)態(tài)維護(hù)、安全存儲(chǔ);系統(tǒng)會(huì)根據(jù)用戶設(shè)置的標(biāo)準(zhǔn),對所收集到的電子文件進(jìn)行智能化的組織、管理,并在歸檔時(shí),智能判斷當(dāng)前所收集到的電子文件是否符合標(biāo)準(zhǔn);系統(tǒng)會(huì)自動(dòng)進(jìn)行檔案分類,并根據(jù)檔案分類標(biāo)準(zhǔn)自動(dòng)判斷當(dāng)前收集到的電子文件是否符合標(biāo)準(zhǔn),并在相應(yīng)的規(guī)則下進(jìn)行歸檔。智能歸檔系統(tǒng)會(huì)根據(jù)所收集到的電子文件形成時(shí)間和類型進(jìn)行智能判斷;如果符合歸檔條件,將會(huì)對該電子文件進(jìn)行智能化組織、管理;如果不符合歸檔條件,將不會(huì)進(jìn)行歸檔。智能歸檔在技術(shù)運(yùn)用方面以管理原理為基礎(chǔ)真正實(shí)現(xiàn)了自動(dòng)化,基于文本、圖像相似度算法比對原理,對歸檔范圍進(jìn)行機(jī)器比對、機(jī)器學(xué)習(xí),對建設(shè)項(xiàng)目電子文件進(jìn)行序列比較,找出序列的相似性,判別序列的差異性,從而智慧排查歸檔文件的真實(shí)性、準(zhǔn)確性。

相比之下,一般電子歸檔主要依靠人工進(jìn)行分類和標(biāo)記,需要人工投入大量時(shí)間和精力,難以做到快速、準(zhǔn)確歸檔和檢索。智能歸檔技術(shù)在效率和準(zhǔn)確性上都具有很大優(yōu)勢。

3 智能歸檔系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)的優(yōu)化策略

檔案信息化、智能化管理需要以軟硬件系統(tǒng)作為落地的工具。本部分以廣西高速公路建設(shè)項(xiàng)目檔案管理系統(tǒng)為例,主要介紹了智能歸檔系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。

3.1 智能歸檔系統(tǒng)總體框架概述

3.1.1 總體流程

電子文件智能歸檔和通過機(jī)器學(xué)習(xí)智能擴(kuò)充歸檔范圍的總體流程可以用框圖說明(如圖1所示)。

電子文件智能歸檔系統(tǒng)主要是通過對擬歸檔文件進(jìn)行智能排查(包括四性檢測、系統(tǒng)內(nèi)置清單、比對系統(tǒng)),根據(jù)標(biāo)準(zhǔn)篩選出需要?dú)w檔的文件進(jìn)行邏輯歸檔,并將歸檔后的文件移交到應(yīng)用系統(tǒng)或集成平臺(tái)。歸檔模塊按歸檔范圍,建立電子檔案驗(yàn)收的詳細(xì)文件目錄標(biāo)準(zhǔn)要求,在進(jìn)行電子文件整理歸集時(shí),關(guān)聯(lián)相關(guān)對應(yīng)目錄。輔助系統(tǒng)建立分析規(guī)則,案卷管理組卷前,自動(dòng)分析出電子檔案文件缺漏項(xiàng),給出分析報(bào)告。

3.1.2 主要功能

智能歸檔的主要功能是基于BLAST和文本相似度算法智能比對、排查擬歸檔文件。

(1)基本要求?!吨腥A人民共和國檔案法》已明確提出“電子檔案與傳統(tǒng)載體檔案具有同等效力,可以以電子形式作為憑證使用”。[13]即電子檔案具有與傳統(tǒng)檔案同等效力,同樣可以作為使用憑證。同時(shí)要求“電子檔案應(yīng)當(dāng)來源可靠、程序規(guī)范、要素合規(guī)”。這些要求可以理解為電子文件檔案的真實(shí)性、可靠性、完整性及可用性(以下簡稱四性)的保障。關(guān)于電子檔案的歸檔時(shí)間,不同的單位有不同的要求?!半娮游募纬苫蜣k理部門應(yīng)定期將已收集、積累并經(jīng)過整理的電子文件及其元數(shù)據(jù)向檔案部門提交歸檔,歸檔時(shí)間最遲不能超過電子文件形成后的第2年6月?!盵14]對于項(xiàng)目文件歸檔進(jìn)行智能排查需要考慮到對建設(shè)項(xiàng)目電子文件進(jìn)行序列比較,找出序列的相似性,判別序列的差異性,從而確保智能排查歸檔文件分類排列的科學(xué)性和文件本身的真實(shí)性、準(zhǔn)確性。根據(jù)文本、圖像相似度算法,系統(tǒng)

(2)制定智能排查的規(guī)則。系統(tǒng)內(nèi)置清單。以項(xiàng)目建設(shè)期各種業(yè)務(wù)系統(tǒng)的集成平臺(tái)為基礎(chǔ),將項(xiàng)目建設(shè)期的項(xiàng)目文件收集范圍細(xì)化到具體文件清單,內(nèi)置于系統(tǒng)。同時(shí),系統(tǒng)內(nèi)置各類比對條件。系統(tǒng)對擬歸檔的電子文件實(shí)行自動(dòng)排查,判斷建設(shè)期內(nèi)收集、歸檔的電子文件的完整性、真實(shí)性、準(zhǔn)確性和系統(tǒng)性。自動(dòng)判斷文件簽署真實(shí)性,自動(dòng)識(shí)別影像文件真?zhèn)涡?。制定?xiàng)目檔案完整性的相關(guān)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)主要包括對前期管理文件的完整性、設(shè)計(jì)文件的完整性、施工技術(shù)文件的完整性、監(jiān)理文件的完整性、設(shè)備文件的完整性、聲像文件的完整性、竣工驗(yàn)收文件的完整性進(jìn)行評價(jià)。

建立與項(xiàng)目檔案準(zhǔn)確性有關(guān)的標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)主要包括對歸檔文件材料內(nèi)容的準(zhǔn)確性、竣工圖編制質(zhì)量是否符合要求、聲像文件質(zhì)量是否符合要求進(jìn)行評價(jià)。比對文件歸檔規(guī)范,鑒定文件的準(zhǔn)確性。系統(tǒng)內(nèi)置公路建設(shè)項(xiàng)目歸檔范圍和文件材料歸檔辦法、實(shí)施細(xì)則,電子文件準(zhǔn)確性的判斷條件,分別比對收集的文件內(nèi)容是否符合標(biāo)準(zhǔn)規(guī)范、與客觀事實(shí)是否相符,包括文件的內(nèi)容信賴度、責(zé)任者、規(guī)范性題名、密級、保管期限、行業(yè)標(biāo)準(zhǔn)等。

制定項(xiàng)目檔案系統(tǒng)性的相關(guān)標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)主要包括:能不能體現(xiàn)工程特征與實(shí)況;組卷標(biāo)準(zhǔn)及合理性,能否達(dá)到國家或行業(yè)標(biāo)準(zhǔn)的要求,能否按照文件材料的形成規(guī)律、成套性要求進(jìn)行組卷,卷內(nèi)文件排列是否有序、科學(xué);檔案目錄能否達(dá)到要求;案卷題名簡潔明了,準(zhǔn)確無誤;案卷封面、卷內(nèi)文件目錄和備考表以及案卷目錄的填寫是否詳細(xì)屬實(shí),標(biāo)準(zhǔn)是否翔實(shí)、規(guī)范。

比對文件特征元素,著錄和管理元數(shù)據(jù)。系統(tǒng)內(nèi)置建設(shè)項(xiàng)目電子文件歸檔范圍及類型族譜、保管期限、密級、元數(shù)據(jù)項(xiàng)目及要求等標(biāo)準(zhǔn)值,分別比對系統(tǒng)原生文本型、其他業(yè)務(wù)系統(tǒng)導(dǎo)入型、單個(gè)文件錄入系統(tǒng)型、文本數(shù)字化型、聲像型等不同類別文件的元素,人工輔助下系統(tǒng)自動(dòng)完成電子文件元數(shù)據(jù)著錄和管理。

(3)系統(tǒng)內(nèi)置清單。課題以公路建設(shè)期各種業(yè)務(wù)系統(tǒng)的集成平臺(tái)為基礎(chǔ),將公路建設(shè)期項(xiàng)目文件收集范圍細(xì)化到具體文件清單,內(nèi)置系統(tǒng)。同時(shí),系統(tǒng)內(nèi)置各類比對條件。系統(tǒng)對擬歸檔的電子文件實(shí)行自動(dòng)排查,判斷建設(shè)期電子收集、歸檔文件的完整性、真實(shí)性、準(zhǔn)確性和系統(tǒng)性。自動(dòng)判斷文件簽署真實(shí)性,自動(dòng)識(shí)別影像文件真?zhèn)涡?。根?jù)單位的實(shí)際情況以“以我為主”的檔案思想編制三合一制度表,明確檔案分類方案、歸檔范圍、保管期限等。制定公路建設(shè)項(xiàng)目檔案分類方案、公路建設(shè)項(xiàng)目文件材料歸檔規(guī)范和公路建設(shè)項(xiàng)目檔案保管期限表三合一制度,實(shí)現(xiàn)系統(tǒng)在歸檔環(huán)節(jié)的三合一智能歸檔,在一體化系統(tǒng)建設(shè)過程中嵌入三合一制度,使系統(tǒng)能夠自動(dòng)查找并識(shí)別文件歸檔范圍、檔案門類及保管期限,實(shí)現(xiàn)智慧歸檔。

(4)基于機(jī)器學(xué)習(xí)的歸檔范圍外的增量電子文件智能歸檔。并不是所有歸檔文件都是預(yù)定的,會(huì)出現(xiàn)一些增量電子文件。對于這些增量電子文件,我們一方面根據(jù)增量電子文件的具體情況,繼續(xù)完善三合一表;另一方面基于機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行歸檔范圍外的增量電子文件智能歸檔。

基于機(jī)器學(xué)習(xí)算法、圖片EXIF信息盲取技術(shù),對新增的電子文件進(jìn)行智能判斷,充實(shí)和擴(kuò)充電子文件歸檔邊界。根據(jù)數(shù)據(jù)庫累增的增量數(shù)據(jù),不斷修正項(xiàng)目文件收集、歸檔方法與范圍,提升歸檔智能水平。對超越系統(tǒng)內(nèi)置范圍的電子文件,系統(tǒng)從首個(gè)開始,到逐漸新增的、重復(fù)的或類似的電子文件進(jìn)行“學(xué)習(xí)”,實(shí)現(xiàn)智能判斷,逐漸擴(kuò)大歸檔范圍,實(shí)現(xiàn)電子文件“應(yīng)收盡收”智能歸檔。系統(tǒng)借助實(shí)現(xiàn)“互聯(lián)網(wǎng)+”電子檔案,實(shí)現(xiàn)項(xiàng)目電子檔案異地、遠(yuǎn)程監(jiān)管,改變傳統(tǒng)紙質(zhì)檔案采用專家驗(yàn)收的繁瑣性和人為的差異性,為項(xiàng)目建設(shè)提供真實(shí)、完整和系統(tǒng)的檔案保駕護(hù)航。

3.2 智能歸檔系統(tǒng)所使用的主要技術(shù)方法

從技術(shù)角度來說,為確保歸檔文件的真實(shí)性、準(zhǔn)確性、完整性和系統(tǒng)性,利用智慧排查比對擬歸檔文件進(jìn)行四性檢測、自動(dòng)歸檔,需要BLAST和文本相似度算法相關(guān)技術(shù)來為實(shí)現(xiàn)電子文件智能歸檔提供保障;對于智能歸檔輔助系統(tǒng)的實(shí)現(xiàn),需要基于機(jī)器學(xué)習(xí)算法對歸檔范圍外的增量電子文件進(jìn)行歸檔,完成輔助軟件系統(tǒng)的建設(shè)后,就可以實(shí)現(xiàn)識(shí)別、分類整理、入庫和歸檔的全自動(dòng)化操作。應(yīng)用到的具體技術(shù)主要包括:

3.2.1 基于BLAST和文本相似度算法

BLAST全稱BasicLocal Alignment Search Tool,即基于局部序列比對算法的搜索工具。原是由美國國家生物技術(shù)信息中心(NationalCenter for Biotechnology Information,NCBI)開發(fā)和管理的一套生物大分子一級結(jié)構(gòu)序列比對程序。該系統(tǒng)可將輸入的核酸堿基或蛋白質(zhì)氨基酸序列與數(shù)據(jù)庫中已知的來源序列進(jìn)行比對,輸出序列之間的同源性信息,從而輔助判斷輸入的序列來源或與已知序列的進(jìn)化關(guān)系。該系統(tǒng)的功能可以擴(kuò)展到其他信息管理領(lǐng)域,網(wǎng)絡(luò)版可將輸入序列與龐大的已知來源序列信息庫進(jìn)行比對,用來確定未知序列的來源,以及尋找不同物種中的同源基因;智能歸檔系統(tǒng)主要是本地版的BLAST系統(tǒng),它是將輸入序列與本地自行構(gòu)建的序列信息庫進(jìn)行比對,比對的針對性更強(qiáng),用于在未發(fā)表基因組數(shù)據(jù)庫中尋找同源基因信息,不依賴于網(wǎng)絡(luò),安全性和可靠性更高。

相似度算法就是使用計(jì)算機(jī)系統(tǒng)比較對象間的相似度,常見的相似度計(jì)算應(yīng)用包括數(shù)據(jù)分析中的相關(guān)分析、數(shù)據(jù)挖掘中的分類聚類算法、機(jī)器翻譯、文檔檢測、搜索引擎的對象推薦等,是信息檢索、數(shù)據(jù)挖掘等的一個(gè)基礎(chǔ)性計(jì)算方法?,F(xiàn)有的相似度計(jì)算方法多數(shù)是基于向量的,即計(jì)算兩個(gè)向量之間的距離,距離越近越相似。包括歐氏距離、余弦相似度、編輯距離、杰卡德相似度等算法。用于檔案數(shù)據(jù)保真的哈希值算法就是相似度算法的一種。相似度算法應(yīng)用于歸檔主要是文本內(nèi)容相似度計(jì)算。但文本不僅僅是文字,除文字的匹配外,還可以是圖片、音頻等。

3.2.2 基于機(jī)器學(xué)習(xí)算法

“機(jī)器學(xué)習(xí)”在1959年由IBM公司的計(jì)算機(jī)科學(xué)專家亞瑟·塞繆爾(Arthur Samuel)提出,賦予它的定義為:“可以提供計(jì)算機(jī)能力而無需顯示編程的研究領(lǐng)域”[15]。學(xué)習(xí)是系統(tǒng)所做的適應(yīng)性變化,使得系統(tǒng)在下一次完成同樣或類似的任務(wù)時(shí)更為有效。

當(dāng)有了上述智能比對功能后,我們需要通過機(jī)器學(xué)習(xí)來不斷改善該功能,即是通過經(jīng)驗(yàn)自動(dòng)改進(jìn)與提升計(jì)算機(jī)算法的能力。在智能歸檔工作中引入機(jī)器學(xué)習(xí)工具,可以充分利用機(jī)器學(xué)習(xí)的優(yōu)勢,根據(jù)不斷積累的信息和陸續(xù)歸檔機(jī)器記憶,系統(tǒng)對有查考利用價(jià)值的文件進(jìn)行反復(fù)判定歸檔、監(jiān)督學(xué)習(xí),精準(zhǔn)利用。從復(fù)雜、多維的數(shù)據(jù)中掌握擬歸檔文件的內(nèi)在本質(zhì)特征,構(gòu)建歸檔模型,提升對原有范圍內(nèi)電子文件智能歸檔的準(zhǔn)確率,并實(shí)現(xiàn)對增量電子文件歸檔的自動(dòng)識(shí)別能力。

完成歸檔工作后,后續(xù)相同的歸檔工作,經(jīng)過機(jī)器學(xué)習(xí)的自我完善和改進(jìn)后,會(huì)更便捷、更完整、更高效地完成。

通過機(jī)器學(xué)習(xí)算法,我們還可以智能化地豐富增量電子文件的范圍,打破文件歸檔邊界,精準(zhǔn)檔案利用?;跈C(jī)器學(xué)習(xí)算法原理,系統(tǒng)應(yīng)用機(jī)器學(xué)習(xí)算法語言,從不斷累積的數(shù)據(jù)庫中智能豐富歸檔有查考利用價(jià)值的電子文件,提供精準(zhǔn)的檔案利用。

機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。機(jī)器學(xué)習(xí)專門研究如何讓計(jì)算機(jī)具有類人化的學(xué)習(xí)行為,希望機(jī)器能夠自我獲取新的知識(shí)或技能,自我重新組織、完善已有的知識(shí)結(jié)構(gòu),不斷提升自身的性能。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自然語言理解模式、自動(dòng)推理、識(shí)別計(jì)算機(jī)視覺等領(lǐng)域,其中以專家系統(tǒng)最為典型。

機(jī)器學(xué)習(xí)算法分為兩大類:監(jiān)督式學(xué)習(xí)(supervisedLearning)和非監(jiān)督式學(xué)習(xí)(unsupervised Learning)。智能歸檔系統(tǒng)首先使用的是監(jiān)督式學(xué)習(xí),即通過嵌入三合一表等已知答案,讓計(jì)算機(jī)反向找出解題的邏輯。非監(jiān)督式學(xué)習(xí)則是智能歸檔系統(tǒng)進(jìn)化到較高級階段的機(jī)器學(xué)習(xí)形式。即:機(jī)器在沒有類別信息的情況下,通過對歸檔過程中大量的增量文件樣本的數(shù)據(jù)分析,實(shí)現(xiàn)對增量文件樣本進(jìn)行自動(dòng)分類的一種數(shù)據(jù)處理方法。

3 . 2 . 3 數(shù)據(jù)交換技術(shù)

試驗(yàn)、計(jì)量、O A ( O f f i c eAutomation,即自動(dòng)化辦公系統(tǒng))、征地拆遷等各類業(yè)務(wù)系統(tǒng)集成平臺(tái),建立數(shù)據(jù)交換平臺(tái)。建立電子文件信息數(shù)據(jù)庫和業(yè)務(wù)系統(tǒng)數(shù)據(jù)交換平臺(tái)中心,研究在線 “隨辦隨歸檔”“誰辦誰歸檔”和“歸檔—驗(yàn)收”一體化。隨著不斷豐富的海量數(shù)據(jù)信息,利用機(jī)器學(xué)習(xí)算法,系統(tǒng)智能修正和打破電子文件的歸檔邊界,精準(zhǔn)利用檔案。

3.2.4 應(yīng)用防篡改技術(shù)

系統(tǒng)內(nèi)置不同類型電子文件真實(shí)性判斷條件、管理制度,分別比對各類電子文件是否來源可靠,鑒定文件內(nèi)容在傳輸、存儲(chǔ)、遷移過程中是否發(fā)生未經(jīng)授權(quán)未的篡改、利用和隱藏,保證其原始性,判斷其真實(shí)性,包括系統(tǒng)原生文本型電子文件記錄的各類數(shù)據(jù)信息、常用業(yè)務(wù)系統(tǒng)導(dǎo)入系統(tǒng)的信息、PDF或OFD電子文件信息、聲像文件信息和電子簽章的安全、可靠性。其中,利用電子簽章技術(shù),通過身份認(rèn)證實(shí)施有效的固化措施,有效防止電子檔案被篡改或被保留,從而確保其真實(shí)性、完整性。

3 . 2 . 5 計(jì)算機(jī)視覺判斷聲像文件技術(shù)

計(jì)算機(jī)視覺(computer vision)的主要任務(wù)是利用相機(jī)或電腦獲取圖片,采用對圖片進(jìn)行處理和解析數(shù)字圖像的方法,從現(xiàn)實(shí)世界中提取高維數(shù)據(jù),這是將圖片轉(zhuǎn)化為數(shù)據(jù)的過程。對于歸檔范圍外的增量電子文件的智能歸檔,就是基于圖片EXIF信息的盲取技術(shù),系統(tǒng)根據(jù)圖像辨識(shí)物體、場景和活動(dòng)的真實(shí)性和隱含的信息,自動(dòng)著錄部分元數(shù)據(jù)和人工校驗(yàn)、補(bǔ)充元數(shù)據(jù),對電子文件進(jìn)行智能分類。

3.2.6 語音識(shí)別指令判斷技術(shù)

語音識(shí)別技術(shù)的運(yùn)用,可以提升整個(gè)系統(tǒng)的智能化水平。運(yùn)用于智能歸檔的語音識(shí)別系統(tǒng)應(yīng)包含幾個(gè)主要操作:用戶注冊、文件檢測和擬歸檔文件在線排查。

通過反復(fù)發(fā)出語音指令后,系統(tǒng)會(huì)根據(jù)語音指令,對電子文件進(jìn)行判斷和智能排查,再一次的排查和判斷對歸檔范圍的擴(kuò)大提供了可能性。通過建設(shè)語音指令系統(tǒng),提升人機(jī)互動(dòng)質(zhì)量,提升在線排查檢測擬歸檔文件的內(nèi)容質(zhì)量,擴(kuò)大了歸檔范圍,降低了人工排查的成本。

語音識(shí)別系統(tǒng)需要注意的是對間接語音的理解問題,如果說話者說的內(nèi)容過于口語化,就會(huì)出現(xiàn)語音識(shí)別系統(tǒng)無法識(shí)別的情況。針對這個(gè)問題,在技術(shù)方面要不斷優(yōu)化語言庫系統(tǒng),減少信息來源的差異,可以使用方言檔案數(shù)據(jù)庫和多語種語音庫對語音識(shí)別模型進(jìn)行訓(xùn)練,進(jìn)一步提升模型的識(shí)別能力,而對于說話者來說,需要盡量簡潔地使用專業(yè)關(guān)鍵詞將想要表達(dá)的內(nèi)容說出來。目前語音識(shí)別技術(shù)對于錄音錄像檔案查全率、查準(zhǔn)率的提升作用還不夠顯著,語音識(shí)別技術(shù)的相關(guān)研究更應(yīng)注重編目和著錄環(huán)節(jié)。

4 結(jié)論

在歸檔環(huán)節(jié)中,智能歸檔所采用的智能化管理以計(jì)算機(jī)操作的形式,提高了文件歸檔效率并節(jié)省了大量時(shí)間成本,還能最大程度確保檔案信息安全。對于歸檔范圍外的增量電子文件,根據(jù)數(shù)據(jù)庫累增數(shù)據(jù)存量,不斷修正項(xiàng)目文件收集、歸檔方法與范圍,提升歸檔智能水平。本文運(yùn)用人工智能技術(shù)闡述了智能歸檔系統(tǒng)總體框架以及基于機(jī)器學(xué)習(xí)算法、設(shè)置內(nèi)置清單、采取數(shù)據(jù)交換技術(shù)的系統(tǒng)設(shè)計(jì)亮點(diǎn)。電子文件智能歸檔的研究實(shí)現(xiàn)了項(xiàng)目檔案異地、遠(yuǎn)程監(jiān)管,改變了傳統(tǒng)紙質(zhì)檔案的煩瑣性和人為的差異性,為項(xiàng)目建設(shè)提供真實(shí)、完整和系統(tǒng)的檔案基礎(chǔ)。電子文件智能歸檔基于本系統(tǒng)可實(shí)現(xiàn)電子文件與電子檔案同步管理,與一般電子文件歸檔相比具有更高的效率,作為一種較高級的邏輯歸檔形式,其方便快捷的操作方式,是傳統(tǒng)紙質(zhì)檔案管理向數(shù)字時(shí)代轉(zhuǎn)變的重要體現(xiàn)。

總體上看,現(xiàn)有標(biāo)準(zhǔn)已經(jīng)能夠有效支撐電子文件歸檔智能化的實(shí)踐推進(jìn),為各實(shí)踐主體的進(jìn)一步探索提供了基礎(chǔ)條件。同時(shí),電子文檔管理的智能化探索,也有利于現(xiàn)有標(biāo)準(zhǔn)的優(yōu)化。

本文系2021年度國家檔案局科技項(xiàng)目“公路建設(shè)項(xiàng)目電子文件智慧歸檔研究”(項(xiàng)目編號(hào):2021-X-04)階段性成果。

參考文獻(xiàn):

[1]周楓,呂東偉.基于“智能+”檔案管理初探[J].北京檔案,2019(09):39-41.

[2]康勇,袁敬.“多智能體”技術(shù)在政務(wù)服務(wù)“一網(wǎng)通辦”電子文件歸檔管理中的應(yīng)用[J].中國檔案,2023(04):64.

[3]繆嘉嘉,付印金,毛捍東.KingCloud:智能對象歸檔系統(tǒng)[J].計(jì)算機(jī)科學(xué),2016(S2):575-577+596.

[4]“把脈”物流巨頭,柯尼卡美能達(dá)OPS綜合提案服務(wù)顯效無線傳真智能歸檔[J].辦公自動(dòng)化,2013(09):35-36.

[5]王爍,穆佳桐,于鯤.基于人工智能技術(shù)的智能歸檔與管理模型系統(tǒng)平臺(tái)構(gòu)建研究[J].蘭臺(tái)世界,2022(08):55-58.

[6]李芳,范海斌.煤炭企業(yè)大數(shù)據(jù)智能歸檔利用體系建設(shè)實(shí)踐[J].浙江檔案,2022(07):59-62.

[7]薛四新,黃麗華,楊來青等.大數(shù)據(jù)環(huán)境下政務(wù)信息資源歸檔研究的框架體系[J].檔案學(xué)研究,2018(04):92-96.

[8]朱令俊.數(shù)據(jù)驅(qū)動(dòng)下檔案知識(shí)發(fā)現(xiàn)的路徑研究[J].檔案與建設(shè),2020(02):30-34+13.

[9]施千里,王睿.核電行業(yè)電子文件合規(guī)性管理體系構(gòu)建研究[J].山西檔案,2023(03):156-162.

[10]羅蘭.電網(wǎng)企業(yè)文檔一體化管理優(yōu)化策略探究[J].蘭臺(tái)內(nèi)外,2024(01):40-42.

[11]國家檔案局.電子文件歸檔與電子檔案管理規(guī)范:GB/T18894-2016[S].北京:中國標(biāo)準(zhǔn)出版社,2016.

[12]國家檔案局.電子文件歸檔與電子檔案管理規(guī)范:GB/T18894-2016[S].北京:中國標(biāo)準(zhǔn)出版社,2016.

[13]全國人大常委會(huì).中華人民共和國檔案法[S].北京:中國法治出版社,2020.

[14]國家檔案局.電子文件歸檔與電子檔案管理規(guī)范:GB/T18894-2016[S].北京:中國標(biāo)準(zhǔn)出版社,2016.

[15]Samuel·A,”Some Studies in Machine Learning Using the Game of Checkers”,IBM Journal Of Research And Development,3(03):,1959,pp.210-229.

(作者單位:廣西新祥高速公路有限公司 胡文學(xué),董事長,教授級高級工程師;廣西民族大學(xué)管理學(xué)院 丁海斌,博士,教授,博士生導(dǎo)師;齊魯理工學(xué)院 趙婧堯;廣西民族大學(xué)科技史與科技文化研究院 羅夏鉆,博士研究生;武漢大學(xué)信息管理學(xué)院,顏晗,博士研究生來稿日期:2024-02-20)

左贡县| 苏州市| 绵阳市| 天峨县| 仙游县| 长宁区| 陆良县| 永吉县| 富平县| 青铜峡市| 张家界市| 贵阳市| 乌鲁木齐市| 成武县| 横峰县| 德庆县| 瑞昌市| 来安县| 濮阳市| 蚌埠市| 赤峰市| 墨玉县| 昌乐县| 沧州市| 枣阳市| 栾城县| 阳春市| 虎林市| 仁寿县| 财经| 漳州市| 尖扎县| 长治县| 通山县| 海晏县| 河津市| 马鞍山市| 英德市| 连江县| 通河县| 涿鹿县|