国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

AI賦能:探索人工智能在檔案開放審核中的應用

2024-07-31 00:00:00于海娟
檔案天地 2024年7期

2023年,一款能聊天、會作詩的程序ChatGPT橫空出世,隨后一系列大語言模型產(chǎn)品如谷歌bard及國內(nèi)百度文心一言、復旦大學Moss相繼推向市場,將人工智能(AI)技術(shù)推向了新一輪高潮,成為社會上最“火”的技術(shù)話題。人工智能呈現(xiàn)的深度學習、跨界融合、人機協(xié)同等新特征,使其在眾多領(lǐng)域應用中取得了突破性進展,為經(jīng)濟社會發(fā)展注入了新動能。同時,AI的應用場景也越來越多,逐步走入老百姓的日常生活,如隨處可見的人臉識別、翻譯助手、服務機器人等。目前,我國政府正處于數(shù)字化轉(zhuǎn)型的關(guān)鍵期,檔案部門也在積極探索和尋找利用人工智能、大數(shù)據(jù)等新一代信息技術(shù)推進檔案管理模式變革的新途徑和新方法。人工智能應用于檔案管理的落地實踐過程中,當前最受關(guān)注且已真正實現(xiàn)成果轉(zhuǎn)換的是賦能檔案開放審核。

一、人工智能審核的現(xiàn)實依據(jù)

檔案開放審核工作量大,與現(xiàn)有人力資源矛盾突出。檔案開放審核是檔案開放利用的基礎(chǔ),也是檔案工作中的難點問題,隨著新《檔案法》《國家檔案館檔案開放辦法》的實施,檔案開放審核越來越受重視。然而,目前檔案開放審核工作大部分停留在純?nèi)斯徍穗A段,需要大量專業(yè)工作人員參與。依靠人工逐字逐句審核、判斷,工作量大,工作效率低,制約了檔案開放的進程。傳統(tǒng)的檔案開放審核模式已難以適應海量館藏檔案開放審核工作要求,急需技術(shù)變革,將開放審核人員從重復、繁重的腦力判斷工作中解放出來。

2019年,國家檔案局發(fā)布的《國家檔案局科技項目立項選題指南》中首次出現(xiàn)“人工智能”一詞。隨后幾年,AI+檔案應用研究一直出現(xiàn)在《選題指南》中。2022年和2023年度的《選題指南》更是將“AI+檔案開放審核”列為重點課題項目。在國家檔案局剛剛發(fā)布的2024年選題指南中,“檔案解密與開放的技術(shù)創(chuàng)新”“人工智能大模型應用”也是熱點議題。

加大開放力度已是檔案館的現(xiàn)實趨勢,各地檔案館都在積極制定開放審核辦法或引入技術(shù)手段加以落實,以更好地處理過程中的協(xié)同、權(quán)責優(yōu)先等問題。人工智能檔案開放審核作為AI檔案應用場景落地的重要突破口,目前研發(fā)已經(jīng)取得階段性成果,產(chǎn)生很多優(yōu)秀案例。

自2019年以來,部分檔案館陸續(xù)通過課題研究結(jié)合試點應用的方式,開展了基于人工智能的檔案開放審核研究和應用實踐。比如,青島市檔案館“人工智能技術(shù)在檔案開放劃控中的應用”研究、江蘇省檔案館“基于語義分析的檔案館劃控開放智能鑒定的研究”、浙江省檔案館“基于NLP技術(shù)的檔案智能輔助開放審核研究”、安徽省檔案館“人工智能技術(shù)在檔案劃控上的應用研究”、福建省檔案館開展“基于數(shù)字檔案的人工智能檔案開放審核系統(tǒng)實現(xiàn)研究”、上海靜安區(qū)檔案館“AI+檔案開放審核關(guān)鍵技術(shù)研究及實踐應用”等。

二、人工智能審核實現(xiàn)路徑

通過文獻研究和案例分析不難發(fā)現(xiàn),目前各單位已經(jīng)研究建立的檔案開放審核模型都是基于本館的少數(shù)檔案數(shù)據(jù)訓練得出,能否適用于所有檔案尚有待驗證。實際上,目前市場上還沒有出現(xiàn)具有普適性、可以推廣應用的檔案智能開放審核系統(tǒng)或工具。但目前已有的實踐案例足以證明人工智能技術(shù)在我國檔案工作中的應用前景廣闊,也為我們探索實現(xiàn)人工智能審核提供了寶貴的實戰(zhàn)經(jīng)驗。

實現(xiàn)人工智能審核的整體思路:首先使用通用OCR技術(shù)提取檔案全文,然后利用自然語言處理的中文分詞、詞性標注、關(guān)鍵詞提取、關(guān)鍵詞相似度分析、自動分類等技術(shù),建立一種基于規(guī)則和語義驅(qū)動的開放審核模型,并且通過深度學習算法不斷對其進行訓練和學習,從而優(yōu)化開放審核模型,協(xié)助檔案鑒定人員開展檔案開放審核工作,提出開放審核建議。其中涉及的一些關(guān)鍵技術(shù)和準備工作如下:

(一)文檔預處理

涉密文件篩查。按照有關(guān)規(guī)定,涉密文件不開放,首先要對預開放文檔進行涉密篩查,運用神經(jīng)網(wǎng)絡、自然語言處理、深度學習等AI技術(shù),智能識別文本中的密級標識,將檢出的涉密文件從開放審核隊列中剔除。

OCR識別。OCR是一種能夠?qū)⒓堎|(zhì)文檔、圖片等中文、符號、數(shù)字等信息轉(zhuǎn)換為計算機可以識別處理的電子文本的技術(shù),掃描的數(shù)字化副本經(jīng)OCR識別后生成文本信息,為檔案開放審核做好數(shù)據(jù)準備。識別檔案文本時面臨著手寫體識別的難題,特別是大批20世紀五六十年代的手寫體檔案、歷史檔案,掃描圖像識別率很低。但是,隨著AI技術(shù)的發(fā)展,這一問題也并非不能解決,可以通過優(yōu)化OCR的算法和使用更高精度的OCR引擎來提高識別率,并對極少量無法識別的數(shù)據(jù)采取手工標注的方式來進行補充。目前,中國第一歷史檔案館開發(fā)的滿文圖像識別軟件、科大訊飛OCR識別技術(shù)、中科院自動化研究所的手寫字掃描識別技術(shù),能夠較準確地識別手寫字體。

文檔分類。從自然語言處理領(lǐng)域來看,檔案開放審核大致屬于“文本分類”問題,通過對文本與圖像內(nèi)容進行智能分庫、敏感詞標注,輔助開放審核系統(tǒng)快速判斷文檔類型并與審核規(guī)則匹配,進一步提升開放審核效率。

(二)構(gòu)建規(guī)則庫

規(guī)則庫基于本館館藏的敏感詞庫,如“會議記錄”“統(tǒng)計報表”“簡歷表”等;基于相關(guān)法律法規(guī)、專家經(jīng)驗而積累的規(guī)則知識,如涉及個人隱私、科技科研、外事、非正式文件等不開放的情況,為下一步根據(jù)規(guī)則庫確定技術(shù)實現(xiàn)方法、配置規(guī)則與實施審核奠定了規(guī)則基礎(chǔ)。

福建省檔案館在審核中收集整理了近600個敏感詞,并聯(lián)動省公安廳網(wǎng)安部門吸收了部分當前網(wǎng)絡敏感、關(guān)鍵字詞,設(shè)計制定了開放審核檔案關(guān)鍵詞表,建立了檔案開放審核動態(tài)管理敏感詞庫;安徽省檔案館在實踐中構(gòu)建了包括2000多個敏感詞的檔案劃控敏感詞庫、5000多條知識點的檔案劃控知識庫和2000多條規(guī)則的檔案劃控規(guī)則庫。

(三)優(yōu)化開放審核模型

“人工”與“智能”到底是什么關(guān)系?關(guān)于這點最經(jīng)典的回答是“無人工不智能”,這是因為在很多人工智能項目實施過程中往往需要花費大量的時間和精力完成對用于訓練AI數(shù)據(jù)的處理。智能檔案開放審核系統(tǒng)的成熟度取決于開放審核模型的成熟度,在開放審核過程中需根據(jù)人工審核反饋結(jié)果不斷優(yōu)化模型,特別是針對誤差樣本進行強化訓練和迭代,不斷提高開放審核準確率。

總之,引入人工智能技術(shù)必然能極大地提升檔案開放審核工作效率,但在當前環(huán)境下仍然存在一些問題,如人工智能技術(shù)尚不成熟、沒有可套用的通用算法模型、開放審核模型開發(fā)難度大、投入成本高等,我們還需繼續(xù)強化智能審核技術(shù)的學習、調(diào)研,探索以合理適當?shù)姆绞揭肴斯ぶ悄芗夹g(shù),推動館藏檔案的科學有序開放。

展望未來,隨著人工智能技術(shù)在文本乃至圖像、音視頻處理等方面的發(fā)展,將在智能庫房管理、資源建設(shè)、服務利用等方面,與檔案工作有更多相互結(jié)合的應用場景。這些都需要繼續(xù)深入探索研究,以新技術(shù)賦能檔案工作,充分發(fā)揮檔案數(shù)據(jù)資源要素的優(yōu)勢,持續(xù)推動檔案工作服務中心大局和社會民生。

作者單位:河北省檔案館(河北省地方志編纂委員會辦公室)

个旧市| 漳浦县| 崇明县| 阳信县| 江口县| 宁阳县| 石河子市| 乡城县| 含山县| 衡东县| 化州市| 沅陵县| 开封市| 洪泽县| 铁力市| 沽源县| 邢台县| 灯塔市| 中西区| 正阳县| 张家界市| 宁海县| 吐鲁番市| 武城县| 西青区| 扶沟县| 大埔区| 阳信县| 千阳县| 泗洪县| 固原市| 新巴尔虎左旗| 晋中市| 甘南县| 监利县| 泸溪县| 邛崃市| 绵阳市| 卢氏县| 桐乡市| 富源县|