《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》指出:“新一代信息技術(shù)廣泛應(yīng)用,檔案工作環(huán)境、對象、內(nèi)容發(fā)生巨大變化,迫切要求創(chuàng)新檔案工作理念、方法、模式,加快全面數(shù)字轉(zhuǎn)型和智能升級?!盵1]黨的十九屆四中全會首次提出將數(shù)據(jù)作為生產(chǎn)要素參與分配,數(shù)據(jù)成為繼土地、勞動力、資本、技術(shù)之后的第五大生產(chǎn)要素。隨著信息技術(shù)水平的不斷提高,社會智能化、數(shù)字化程度也隨之提高,人類生活生產(chǎn)方式的轉(zhuǎn)變導(dǎo)致信息資源空間結(jié)構(gòu)發(fā)生顛覆性變化,傳統(tǒng)的檔案數(shù)字化已經(jīng)不能很好地滿足目前以至未來人們的檔案開發(fā)利用需求,檔案數(shù)據(jù)化已經(jīng)成為檔案事業(yè)數(shù)字轉(zhuǎn)型和全面升級的必要條件。檔案數(shù)據(jù)化的核心在于進一步細(xì)化電子化檔案的信息顆粒度,使得信息顆粒度重組為計算機可識別語義的精細(xì)化數(shù)據(jù)[2],簡單來說就是將電子化的檔案進一步加工成機器可理解識別的機讀數(shù)據(jù)。語料庫是為研究自然語言現(xiàn)象而收集、整理和存儲的文本數(shù)據(jù)集 [3],也是檔案數(shù)據(jù)化的表現(xiàn)形式之一。2024年1月,國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,提出“深入挖掘各類科學(xué)數(shù)據(jù)和科技文獻,通過細(xì)粒度知識抽取和多來源知識融合,構(gòu)建科學(xué)知識資源底座,建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集” [4]。構(gòu)建高質(zhì)量的語料庫是對檔案資源進行深度數(shù)字加工、知識組織、知識發(fā)現(xiàn)的必備條件。目前,我國檔案資源種類繁多,保密期限不同,開放利用的方式也不盡相同,因此,以專題為單位構(gòu)建檔案語料庫可以進一步幫助我國檔案資源開發(fā)與利用。本文在分析面向?qū)n}的檔案語料庫構(gòu)建必要性的基礎(chǔ)上提出語料庫的構(gòu)建原則,并給出了面向?qū)n}的檔案語料庫構(gòu)建方法,以抗美援朝檔案為例,構(gòu)建抗美援朝專題檔案語料庫模型,以期為其他專題檔案語料庫構(gòu)建提供參考。
一、面向?qū)n}的檔案語料庫構(gòu)建的必要性
首先,從國家層面來說,專題檔案語料庫的建立是檔案數(shù)據(jù)化建設(shè)的重要途徑之一,不僅契合將數(shù)據(jù)作為五大生產(chǎn)要素之一合理利用的思想,更推動了數(shù)字中國建設(shè)進程。
其次,從社會層面來說,隨著信息化時代的到來,社會公眾對于信息透明、知識共享的需求日益增長。目前,檔案館的檔案開放工作正在如火如荼地進行,傳統(tǒng)的檔案管理模式通常以紙質(zhì)或電子掃描保存為主,查閱流程復(fù)雜且費時,難以滿足現(xiàn)代社會對檔案高效查閱與利用的需求。面向?qū)n}的檔案語料庫通過數(shù)字化、網(wǎng)絡(luò)化的方式開放檔案資料,使公眾能夠通過互聯(lián)網(wǎng)輕松獲取相關(guān)檔案數(shù)據(jù),尤其是在某些具有廣泛社會影響力的專題領(lǐng)域構(gòu)建檔案語料庫,有助于公眾更好地理解歷史、關(guān)注社會問題。
最后,從文化價值方面來說,檔案是社會歷史和文化的真實記錄,具有獨特的歷史文化價值,每一份檔案都承載著一個時代的印記,是人類社會發(fā)展歷程的重要見證。面向?qū)n}的檔案語料庫能夠?qū)⑴c特定主題相關(guān)的重要檔案資料集中收錄,形成一個結(jié)構(gòu)化的數(shù)字化平臺,有效避免珍貴資料散失、遺忘或被忽略。這不僅有利于檔案的保存和傳承,同時也為后代研究、考證提供了寶貴的資料,從而推動歷史文化的傳承與保護。
因此,面向?qū)n}的檔案語料庫構(gòu)建不僅在國家層面推動數(shù)字化進程,在社會層面滿足公眾的需求,更在文化價值層面保護和傳承了歷史文化。它是實現(xiàn)檔案數(shù)字化管理、信息公開共享、文化保護的重要途徑,也是社會各界進行深入研究、探討歷史與現(xiàn)實問題的堅實基礎(chǔ)。
二、面向?qū)n}的檔案語料庫構(gòu)建原則
(一)真實可靠原則
確保語料庫中收集的檔案資料真實可靠是構(gòu)建檔案語料庫的首要原則,也是構(gòu)建高質(zhì)量檔案語料庫的核心條件。確保語料庫中收集的檔案資料真實、準(zhǔn)確,首先要做到所有檔案資料來源明確,并經(jīng)過仔細(xì)驗證,防止篡改、偽造,以及不準(zhǔn)確、不完整的數(shù)據(jù)進入語料庫。這一原則是為了確保研究人員和其他用戶能夠依賴語料庫中的數(shù)據(jù)進行可信的分析和研究。
(二)全面性原則
以專題為單位對檔案收集齊全,確保同一專題的可開放利用檔案都能進入語料庫,其來源通常并不拘泥于單一的館藏單位,保存在檔案館、圖書館、文化館、史志辦等文化機構(gòu)的相關(guān)材料都應(yīng)該納入收集范圍[5]。這種廣泛的收集方式能夠保證語料庫內(nèi)容的多樣性與豐富性,使其能夠更全面地反映出某一專題的方方面面,為研究者提供一個廣闊的有深度的研究基礎(chǔ)。
(三)安全性原則
語料庫作為一個可供研究和公眾使用的開放性文本數(shù)據(jù)集,安全性是其構(gòu)建過程中必須嚴(yán)肅考慮的重要因素。在構(gòu)建語料庫之前,需要首先檢查檔案資料的保密期限,確保所有納入語料庫的資料都已經(jīng)解密或無保密限制。此外,在數(shù)據(jù)的存儲、傳輸和應(yīng)用過程中,應(yīng)采取必要的安全措施,以保證數(shù)據(jù)載體和內(nèi)容的安全,防止數(shù)據(jù)丟失、泄露或被非法篡改,確保語料庫的長期穩(wěn)定和安全使用。
三、面向?qū)n}的檔案語料庫構(gòu)建方法
(一)數(shù)據(jù)收集
明確收集范圍,在確保真實可靠的基礎(chǔ)上盡可能從不同角度全面地收集專題檔案數(shù)據(jù)資源,以確保語料庫的全面性和適用性。收集過程中,應(yīng)注意不同類型檔案的綜合性和代表性,以便為后續(xù)研究提供豐富、詳細(xì)的數(shù)據(jù)支持。
(二)數(shù)據(jù)預(yù)處理
收集到的數(shù)據(jù)可能存在許多噪聲和無用信息,因此需要進行數(shù)據(jù)清洗和預(yù)處理。首先,可以將文本拆分成單詞或詞組,去掉頻繁出現(xiàn)但沒有實際意義的詞語。其次,可以對文本進行標(biāo)準(zhǔn)化處理,如統(tǒng)一格式、糾正拼寫錯誤等。此外,數(shù)據(jù)預(yù)處理還包括文本的結(jié)構(gòu)化處理,以便更好地進行后續(xù)分析和應(yīng)用。
(三)數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注是指為語料庫中的數(shù)據(jù)添加結(jié)構(gòu)化標(biāo)簽或注釋,以便機器學(xué)習(xí)模型可以使用這些標(biāo)簽進行訓(xùn)練和評估。數(shù)據(jù)標(biāo)注是構(gòu)建高質(zhì)量語料庫的重要環(huán)節(jié),標(biāo)注原則與方法的確定是做好數(shù)據(jù)標(biāo)注工作的重中之重。
在標(biāo)注體系的確定上,常見的標(biāo)注方法有實體標(biāo)注,即標(biāo)注人名、物名、組織名等實體;詞性標(biāo)注以及基于依存句法的標(biāo)注,即標(biāo)注句子中詞與詞之間的語法關(guān)系。目前信息資源領(lǐng)域主流的標(biāo)注方法是實體標(biāo)注,為了更好地體現(xiàn)文本核心語義信息以實現(xiàn)檔案文本的語義計算,可以將語義本體引入數(shù)據(jù)標(biāo)注階段。通過本體建模進而指導(dǎo)數(shù)據(jù)標(biāo)注,構(gòu)建標(biāo)注體系。
在標(biāo)注方法上,目前數(shù)據(jù)標(biāo)注策略主要有人工標(biāo)注、機器標(biāo)注和人機結(jié)合標(biāo)注三種[6]。人工標(biāo)注耗時較多,且需要標(biāo)注人員有一定的行業(yè)知識儲備才能保證標(biāo)注內(nèi)容的準(zhǔn)確,費時費力,適合小型語料庫的標(biāo)注。目前機器標(biāo)注的研究尚未完全成熟,因此可以選擇人機結(jié)合的標(biāo)注方法進行數(shù)據(jù)標(biāo)注。
(四)數(shù)據(jù)存儲
專題的檔案語料庫存儲可以選用非關(guān)系型數(shù)據(jù)庫進行存儲。這些數(shù)據(jù)庫具有高擴展性和靈活性,能夠高效地處理大量的非結(jié)構(gòu)化數(shù)據(jù),并支持復(fù)雜查詢和實時分析。選擇合適的存儲方案,可以確保語料庫的數(shù)據(jù)管理和檢索更為高效、便捷。
四、面向?qū)n}檔案語料庫構(gòu)建模型——以抗美援朝檔案為例
抗美援朝檔案是指在抗美援朝時期形成的,記錄與反映抗美援朝歷史,體現(xiàn)抗美援朝精神的具有保存價值的歷史文化資料[7]。圖1為抗美援朝檔案語料庫構(gòu)建模型,主要分為:檔案數(shù)據(jù)資源層、檔案數(shù)據(jù)處理層和檔案數(shù)據(jù)資產(chǎn)層三個模塊。
(一)檔案數(shù)據(jù)資源層
檔案數(shù)據(jù)資源層主要包括應(yīng)收納進語料庫的抗美援朝檔案資源,語料庫數(shù)據(jù)資源的選取應(yīng)遵循數(shù)量規(guī)模大、覆蓋面廣、真實可靠、來源清晰、合法合規(guī)的原則。在此基礎(chǔ)上將抗美援朝時期電子化文件、抗美援朝口述資料、抗美援朝回憶錄等抗美援朝檔案收集齊全,再通過人工篩查重復(fù)檔案、文本提取等一系列操作手段形成抗美援朝檔案數(shù)據(jù)資源。
(二)檔案數(shù)據(jù)處理層
檔案數(shù)據(jù)處理層是抗美援朝專題檔案語料庫構(gòu)建模型的核心部分,也是抗美援朝專題檔案語料庫構(gòu)建的主要步驟。首先對抗美援朝檔案進行本體建模,明確檔案數(shù)據(jù)的結(jié)構(gòu)和關(guān)系,為后續(xù)的處理和分析提供基礎(chǔ),并構(gòu)建語料標(biāo)注體系。其次,將檔案數(shù)據(jù)資源層得到的抗美援朝檔案數(shù)據(jù)資源進行數(shù)據(jù)清洗、去重、分詞。數(shù)據(jù)清洗是指去除數(shù)據(jù)中的噪聲和錯誤,保證數(shù)據(jù)的質(zhì)量;去重是指消除重復(fù)的檔案記錄,保證數(shù)據(jù)的獨特性;分詞是指將文本數(shù)據(jù)按照詞語進行切分,便于后續(xù)的分析和處理,經(jīng)過一系列操作后得到抗美援朝檔案原始語料。在數(shù)據(jù)預(yù)處理之后,進入數(shù)據(jù)標(biāo)注階段??梢圆扇∪斯?biāo)注的方式根據(jù)構(gòu)建的標(biāo)注體系進行實體標(biāo)注,也可以采用命名實體識別技術(shù)識別出抗美援朝檔案數(shù)據(jù)資源中的實體進行標(biāo)注,標(biāo)注后即得到抗美援朝專題檔案語料庫。
(三)檔案數(shù)據(jù)資產(chǎn)層
將檔案數(shù)據(jù)處理層得到的抗美援朝專題檔案語料庫采用非關(guān)系型數(shù)據(jù)庫進行存儲即得到抗美援朝專題檔案數(shù)據(jù)資產(chǎn)。非關(guān)系型數(shù)據(jù)庫具有高效的存儲和檢索性能,能夠滿足大規(guī)模檔案數(shù)據(jù)的存儲需求,設(shè)計存儲數(shù)據(jù)結(jié)構(gòu)并導(dǎo)入非關(guān)系型數(shù)據(jù)庫中即可進行檢索??姑涝瘜n}檔案語料庫不僅可以作為數(shù)據(jù)資產(chǎn),為檔案管理部門提供高效的數(shù)據(jù)存儲和檢索服務(wù),還可以作為抗美援朝相關(guān)研究的基礎(chǔ)數(shù)據(jù)。將抗美援朝檔案語料進行進一步知識融合與抽取即可構(gòu)建抗美援朝領(lǐng)域知識圖譜。領(lǐng)域知識圖譜又稱為行業(yè)知識圖譜或垂直知識圖譜,是面向某一特定領(lǐng)域,由該領(lǐng)域的專業(yè)數(shù)據(jù)構(gòu)成的行業(yè)知識庫[8]。除此之外,還可以進行抗美援朝檔案的文本挖掘與語義分析。文本挖掘可以從海量的檔案數(shù)據(jù)中提取有價值的信息,語義分析可以深入理解檔案數(shù)據(jù)的內(nèi)容和意義。這些技術(shù)手段的應(yīng)用,可以極大地提升檔案數(shù)據(jù)的利用價值,為抗美援朝相關(guān)研究提供新的視角和方法。
五、結(jié)語
大數(shù)據(jù)時代,數(shù)據(jù)成為國家基礎(chǔ)性戰(zhàn)略資源和關(guān)鍵生產(chǎn)要素,推動經(jīng)濟運行方式、生產(chǎn)生活方式和社會治理方式深刻變革[9]。檔案數(shù)據(jù)已經(jīng)成為了檔案管理的新對象。本文立足于檔案數(shù)據(jù)化背景之下,探究面向?qū)n}的檔案語料庫的實現(xiàn)路徑,以抗美援朝檔案為例,構(gòu)建抗美援朝專題檔案語料庫模型,以期為其他專題檔案語料庫構(gòu)建提供參考。
參考文獻:
[1] 中共中央辦公廳,國務(wù)院辦公廳.“十四五”全國檔案事業(yè)發(fā)展規(guī)劃[EB/OL].(2021-06-09)[2024-07-01]. https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[2]陸國強.檔案信息智能化利用:從數(shù)字化到數(shù)據(jù)化[J].浙江檔案,2023(5):48-50.
[3]周明. 中文語言學(xué)與計算語言學(xué)[M]. 北京:高等教育出版社,2017.
[4] 中華人民共和國國家發(fā)展和改革委員會.國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》[EB/OL].(2024-01-04)[2024-07-02]. https://www.ndrc.gov.cn/xwdt/ztzl/szjj/zcwj/202406/t20240607_1386734.html.
[5]婁麗娜.紅色檔案語料庫構(gòu)建的原則與方法[J].山西檔案,2024(1):70-72.
[6] 黃水清,王東波.國內(nèi)語料庫研究綜述[J].信息資源管理學(xué)報,2021 (3):4-17+87.
[7] 趙彥昌,吉日格勒.抗美援朝檔案資源敘事化開發(fā)研究:紀(jì)念抗美援朝戰(zhàn)爭勝利70周年[J].檔案與建設(shè),2023(12):8-11.
[8] 劉燁宸,李華昱.領(lǐng)域知識圖譜研究綜述[J].計算機系統(tǒng)應(yīng)用,2020 (6):1-12.
[9] 金波,楊鵬.檔案數(shù)據(jù)治理賦能的思維意象與行動具象[J].檔案學(xué)研究,2024(3):4-12.
基金項目:2024年遼寧省教育廳高?;究蒲许椖俊皵?shù)據(jù)要素化背景下數(shù)字檔案資源知識組織與開放利用研究”(LJ112410140076)
作者單位:遼寧大學(xué)信息資源管理學(xué)院