馮 佳
(浙江省嘉善縣檔案局)
檔案工作的根本目的是整合各種檔案信息資源以便于社會大眾的利用,檔案開放是社會大眾獲取和利用檔案信息最基本也是最重要的途徑。隨著科技的日新月異,電子信息技術(shù)也給檔案工作帶來了巨大的變革,“智慧檔案”的概念隨之應(yīng)運而生。新技術(shù)的引進和運用不會改變檔案工作的根本目的,而是為了更加高效、更加便捷地為社會大眾服務(wù)。
我國于20世紀80年代開始提出檔案開放政策,并于1987年公布的《中華人民共和國檔案法》規(guī)定:“國家檔案館保管的檔案,一般應(yīng)當自形成之日起滿30年向社會開放。經(jīng)濟、科學(xué)、技術(shù)、文化等類檔案向社會開放的期限可以少于30年,涉及國家安全或者重大利益以及其他到期不宜開放的檔案向社會開放的期限可以多于30年”。但在檔案開放利用的實際工作中,還存在著許多限制和不足。本文旨在探析利用人工智能技術(shù)在檔案開放鑒定中的應(yīng)用來解決這些問題。
從全國綜合檔案館的館藏數(shù)據(jù)和開放數(shù)據(jù)來看我國檔案的開放程度(以下數(shù)據(jù)來源于國家統(tǒng)計局)。據(jù)統(tǒng)計,2015年國家綜合檔案館館藏檔案數(shù)量為58641.7萬卷,2006年國家綜合檔案館館藏檔案數(shù)量為21656.5萬卷,10年間館藏檔案增長率為170.78%。2015年國家綜合檔案館開放檔案為9266.3萬卷,2006年為5746.3萬卷,10年間開放檔案增長率為61.26%,可以看出開放檔案的增長速率相較于館藏檔案緩慢了很多。2015年國家綜合檔案館的館藏數(shù)據(jù)為58641.7萬卷,開放檔案數(shù)據(jù)為9266.3萬卷,開放率僅為15.8%,而且開放率逐年在下降。
圖1 2006—2015年國家綜合檔案館館藏檔案數(shù)量和開放檔案數(shù)量
圖2 2006—2015年館藏檔案增長率、開放檔案增長率和開放率
從全國綜合檔案館的利用檔案數(shù)量來看,2006年國家綜合檔案館利用檔案1166.4萬卷,2015年為1978.3萬卷,增加率為69.6%。但是2015年的利用檔案在已開放檔案中利用率為21.3%,相對于整個館藏數(shù)量則僅僅為3.37%,檔案資源利用率極低。根據(jù)浙江省統(tǒng)計局數(shù)據(jù),2015年檔案資料利用人次為47.52萬人;又根據(jù)國家統(tǒng)計局數(shù)據(jù),浙江省2015年總?cè)丝跒?539萬人,這些數(shù)據(jù)表示浙江省檔案利用人次僅占總?cè)丝诘?.86%,意味著浙江省檔案資源與99%以上的社會大眾無關(guān)。
相對于國外檔案的高開放率,我國檔案自20世紀80年代提出開放以來一直處于比較低的開放率,其主要原因有兩個方面。第一,檔案法律法規(guī)對檔案開放時間起著引導(dǎo)性和約束性作用,基本上要形成滿30年才能開放。第二,開放鑒定困難,由于人力和能力等方面條件約束,無法準確和準時地理解內(nèi)容并做出鑒定,保密過度而開放減少,往往會導(dǎo)致開放數(shù)量減少。如圖3所示,2006年人均管理檔案數(shù)為0.9545萬卷,而到2015年時上升至3.1895萬卷。2006年國家綜合檔案館數(shù)為3154個,專職員工為22689人;而10年后綜合檔案館數(shù)上升至3322個,人員卻降低至18386人(以上數(shù)據(jù)均取自國家統(tǒng)計局)。
開放鑒定困難造成檔案開放率逐年遞減,而法律法規(guī)導(dǎo)致開放的檔案時效性較差,無法滿足社會大眾的需求,也就產(chǎn)生了上一節(jié)檔案資源與99%以上的社會大眾無關(guān)的局面。
圖3 人均管理檔案數(shù)和檔案館平均專職人員數(shù)
隨著近年來人工智能技術(shù)的興起,各行各業(yè)都引入了人工智能的技術(shù)來提升生產(chǎn)力和效率,檔案行業(yè)也不例外。浙江、江蘇、青島等省市陸續(xù)提出了“智慧檔案”并進行了試點探索,而本文旨在探討運用人工智能技術(shù)中的深度學(xué)習(xí)方法來實現(xiàn)檔案的開放鑒定工作。
傳統(tǒng)意義上,計算機使用方式是我們通過鼠標或者鍵盤等輸入裝置給它一連串指令,然后計算機按照指令去執(zhí)行并輸出結(jié)果,一一對應(yīng),非常明確。而人工智能最大的不同點在于,它接受的是數(shù)據(jù),自己分析,然后輸出結(jié)果。
以一個經(jīng)驗豐富的檔案工作者鑒定一份檔案是否開放為例,他首先需要了解這份檔案的內(nèi)容,然后根據(jù)自己的經(jīng)驗來給出鑒定結(jié)果。如圖4所示,我們?nèi)斯ぶ悄芗夹g(shù)的原理就是模擬這種方式,利用已有的歷史數(shù)據(jù),得出某種模型,并利用這種模型來預(yù)測未知屬性。人工智能中計算機學(xué)習(xí)的方式與人腦思維的經(jīng)驗過程是非常相似的,不過計算機能考慮更多的可能性,執(zhí)行更加復(fù)雜的運算,也擁有更快的速度。利用這種技術(shù),我們便可以使用計算機來對檔案做開放鑒定。
圖4 人工智能與人類的對比
在分析數(shù)據(jù)前,首先要讓計算機“讀懂”數(shù)據(jù),也就是自然語言處理。機器處理自然語言的歷史一般認為是從1950年Alan Turing在Mind雜志上發(fā)表的“計算的機器和智能”開始的,經(jīng)過了60多年的發(fā)展,這個領(lǐng)域已經(jīng)取得了實質(zhì)性的突破。機器自然語言處理從用語法規(guī)則去理解自然語言,轉(zhuǎn)變成了基于數(shù)學(xué)模型和統(tǒng)計的方法去分析自然語言(吳軍,2014)。在中文中,詞是表達語義的最小單位,機器處理自然語言是建立在詞的基礎(chǔ)上的,所以中文分詞就是把一整段的句子分成單獨的幾個詞。
自然語言處理包括句法語義分析、信息抽取、文本挖掘、機器翻譯、信息檢索、圖像識別等等,結(jié)合現(xiàn)下jieba分詞、Word2Vec等幾個最流行的工具,機器就能“讀懂”檔案的內(nèi)容了。注意,這里讀懂被加了引號,是因為現(xiàn)階段自然語言處理都是基于統(tǒng)計模型的,而不是基于語義模型。
計算機能讀懂檔案后,就需要進行學(xué)習(xí)。計算機學(xué)習(xí)主要有訓(xùn)練和預(yù)測兩個方面,對應(yīng)于人類的歸納和推測。計算機學(xué)習(xí)的方法有很多種,比較經(jīng)典的有回歸算法、神經(jīng)網(wǎng)絡(luò)、SVM支持向量機、聚類算法、降維算法、推薦算法、樸素貝葉斯等等。按訓(xùn)練的歷史數(shù)據(jù)有無標簽,我們可以將算法基本分為監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法。因為檔案開放只有可開放和不可開放兩種結(jié)果,所以需要使用監(jiān)督學(xué)習(xí)算法,而神經(jīng)網(wǎng)絡(luò)算法是當下非常流行的一種監(jiān)督學(xué)習(xí)算法,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)非常適合運用于自然語言處理,例如Socher et al.(2013c)成功使用了遞推神經(jīng)網(wǎng)絡(luò)來預(yù)測語句情感,并取得了80.7%的準確率。所以,神經(jīng)網(wǎng)絡(luò)算法也非常適合計算機來做檔案開放鑒定。
神經(jīng)網(wǎng)絡(luò)算法是人工智能中的一個新的領(lǐng)域,它的原理是模仿人腦的機制來解釋和處理數(shù)據(jù),建立大腦神經(jīng)網(wǎng)絡(luò)系統(tǒng)傳遞信息,可以用于分析圖像、聲音和文本。所謂深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),就是擁有層數(shù)非常多的神經(jīng)網(wǎng)絡(luò)。舉個例子,想要在圖5的三個圖中讓電腦識別是否有人臉,設(shè)計幾個神經(jīng)元來判斷是否有眼睛,是否有鼻子,是否有嘴巴,是否有頭發(fā),等等,然后依靠最終神經(jīng)元的輸出判斷是否有人臉,如圖6所示。如果想判別是男人的臉還是女人的臉,或者判定其他更復(fù)雜的東西,就需要增加更多的神經(jīng)網(wǎng)絡(luò)層。
神經(jīng)網(wǎng)絡(luò)算法運用到檔案的開放鑒定中分為兩個步驟:訓(xùn)練和預(yù)測。訓(xùn)練的意思就是把已經(jīng)由人工劃分好的歷史數(shù)據(jù)讓機器學(xué)習(xí),得出一個模型。經(jīng)過不斷地參數(shù)調(diào)整,這個模型就可以擁有較高的檔案開放鑒定準確率了。機器鑒定檔案會有以下三個優(yōu)點:鑒定標準統(tǒng)一,效率高,無須相關(guān)專業(yè)知識即可鑒定。
圖5 判別人臉的例子
圖6 簡易神經(jīng)網(wǎng)絡(luò)
運用人工智能技術(shù)中的神經(jīng)網(wǎng)絡(luò)算法來鑒定檔案是否開放,還存在著許多實際操作中的問題。第一,模型訓(xùn)練需要檔案全文數(shù)字化,導(dǎo)致訓(xùn)練數(shù)據(jù)的數(shù)量需求量非常大,至少千萬級別,而2015年全國開放檔案才9266.3萬卷,訓(xùn)練數(shù)據(jù)獲取難。第二,算法設(shè)計和參數(shù)調(diào)整需要相當大的人力和時間,神經(jīng)網(wǎng)絡(luò)是一個非常年輕的領(lǐng)域,理論建立并不完備,很多方面都要摸索著前進。第三,可能會有部分誤判,由于模型預(yù)測過程完全是黑箱模式,無法知道判別的具體依據(jù)。盡管有著諸多困難,但這些在實現(xiàn)“智慧檔案”的道路上是不可避免的,人工智能技術(shù)的引入會加快“智慧檔案”的實現(xiàn)。