李菁 黃仁彥 徐鴻飛
摘 要:信息技術與經濟的交匯融合使高校檔案數(shù)據(jù)迅猛增長,數(shù)據(jù)資源已成為基礎性資源。隨著知識圖譜的研究和應用逐步深入,在檔案專業(yè)領域的應用也在進一步的研究和探索中。我們需要充分認識知識圖譜技術的優(yōu)勢,利用先進的科技進行數(shù)據(jù)資源管理和利用上的改革創(chuàng)新,構建具高校特色的檔案知識庫模型,提高數(shù)據(jù)管理和利用效率,更好地為高校的管理和發(fā)展服務。
關鍵詞:知識圖譜;檔案知識化;高校檔案
一、引言
隨著計算機及網絡技術的發(fā)展,信息的獲取與傳播發(fā)生本質變革,推動著互聯(lián)網向語義網絡的高速發(fā)展,奠定現(xiàn)代信息社會知識構成的基礎。在這一發(fā)展過程中,將前沿技術的深耕實踐與檔案資源的整合挖掘和深化利用相結合,為檔案資源知識化提供了新的思路和發(fā)展方向。加拿大著名檔案專家特里·庫克(Terry Cook)在1994 年提出,檔案工作者應該“由實體保管員向知識提供者過渡”,需要“從建立數(shù)據(jù)庫到建立知識庫”。美國在2005年啟動ERA(Electronic Records Archives)項目,主要研究數(shù)字檔案資源結構建立,從而進行長期保管;2012年啟動“大數(shù)據(jù)研究和發(fā)展計劃”(Big Data Research and Development Initiative),大力推進從大量的、復雜的數(shù)據(jù)集合中獲取知識和洞見的能力;在此基礎上,2016年發(fā)布“聯(lián)邦大數(shù)據(jù)研發(fā)戰(zhàn)略計劃”(The Federal Big Data Research and Development Strategic Plan)對2012年的計劃做了補充和完善,強調通過優(yōu)化大數(shù)據(jù)分析和信息提取,提高做出決策和發(fā)現(xiàn)的能力。
從美國等國外的數(shù)字檔案資源發(fā)展路徑來看,最近幾年,利用人工智能和大數(shù)據(jù)技術,促進資源的知識化,加強信息分析,提高決策能力成為檔案資源的重要研究方向之一。知識圖譜(Knowledge Graph)技術是新興人工智能技術的重要組成部分之一,具有強大的語義處理和開放互聯(lián)組織能力,是一種應用十分廣泛的知識化組織和智能應用的工具,或許可以成為將來數(shù)字檔案資源知識化的有力工具之一。本文以知識圖譜技術為工具,研究高校數(shù)字檔案資源的知識組織和知識服務問題,通過高校檔案資源的知識化,實現(xiàn)對高校教職員工和學生的思想行為常態(tài)化管理,及時反饋學校的管理、教學、科研等各項信息,動態(tài)了解學生的各種動態(tài)及熱點情況,為高校領導提供決策、育人等輔助功能,最終為學校制定科學的管理策略,為維護學校安全穩(wěn)定提供保障。
二、知識圖譜應用于高校數(shù)字檔案資源知識化的可行性
知識圖譜概念由Google公司2012年提出,Google公司的工程師阿米特·辛格(Amit Singhal)是這樣介紹知識圖譜的:“The world is not made of strings , but is made of things”,就是說,知識圖譜實際就是一張巨大的語義網絡圖,由真實世界中存在的各種實體或概念及其關系構成,節(jié)點表示實體或概念,邊則由屬性或關系構成。知識圖譜的提出是與互聯(lián)網上網絡資源內容呈現(xiàn)爆炸式增長的態(tài)勢密不可分的。由于互聯(lián)網內容逐步呈現(xiàn)的大數(shù)據(jù)特點(體量巨大、類型繁多、處理速度快、組織結構松散等),對人們有效獲取信息提出了挑戰(zhàn)。知識圖譜正是在此背景下逐步形成和發(fā)展,以“實體(Entity)-關系(Relationship)-實體(Entity)”構成的RDF三元組結構為基礎和核心來描述不同對象(包括屬性)以及他們之間的關系,如圖1。
1.知識圖譜將進一步深化高校數(shù)字檔案資源的知識組織。隨著檔案數(shù)字化進程的深入,資源數(shù)量浩大、形式異構、內容繁雜與高效處理的矛盾逐漸顯現(xiàn)。尤其是高校檔案,紙質檔案數(shù)字化基本完成,海量照片、視頻等日益增加,與學校OA系統(tǒng)、教務系統(tǒng)等諸多系統(tǒng)的接口獲取大量數(shù)字資源,對數(shù)字檔案資源的管理能力和利用能力提出了很高的要求。利用知識圖譜的三元組結構,可以對數(shù)字檔案資源進行知識化整理和信息處理,提高檔案利用的查詢速度和效率,解決數(shù)據(jù)結構復雜問題,最終能構成一個語義化的知識網絡。
2.從技術實現(xiàn)看,知識圖譜已經應用于很多知名度較高的大規(guī)模知識庫,是一種比較成熟的工具技術。比如LOD(linked open data)項目中的Freebase大規(guī)模知識庫網站,該知識庫網站由Metaweb創(chuàng)建,2010年谷歌收購Metaweb,在Freebase的基礎上建立Google知識圖譜。到2014年,F(xiàn)reebase在知識圖譜里引入6800萬個實體,建立約10億條關系,構造超過24億條三元組。最近幾年,知識圖譜也逐漸深入各個不用的專門行業(yè)領域的數(shù)據(jù)分析和挖掘,其中不乏檔案資源方面的案例。清華大學研發(fā)的AMiner學術知識服務平臺,集成了學術大數(shù)據(jù)融合、專家檔案智能抽取、專家智能搜索等研究成果,在論文文獻搜索以外,提供了針對研究者信息的強大搜索能力。
三、知識圖譜應用于高校數(shù)字檔案資源知識化實現(xiàn)的總體設計
1.總體設計目標
利用知識圖譜技術, 對黨群類、行政類、學生類、教學類、科研類、基本建設類、儀器設備類、產品生產類、出版物類、外事類等基礎數(shù)據(jù)庫以及其他數(shù)據(jù)資源庫等關系數(shù)據(jù)庫,運用知識抽取技術對基礎數(shù)據(jù)進行知識化和融合, 實現(xiàn)對各類實體的抽取、語義組織和關聯(lián), 再借助大數(shù)據(jù)深度挖掘和融合技術將基礎數(shù)據(jù)和其他來源數(shù)據(jù)進行數(shù)據(jù)融合和數(shù)據(jù)增值, 構建高校檔案領域的知識圖譜,最終以可視化知識圖譜為核心,構建基于高校檔案數(shù)字資源的可視化智能搜索平臺。該平臺可以提供強大的知識索引和校級領導決策分析服務,滿足語義網和知識網絡時代用戶的新需求。
2.數(shù)字檔案資源的知識單元化是知識圖譜的實現(xiàn)的基礎。
知識圖譜描述的是真實世界中存在的各種實體或概念及其關系。實體是指具有可區(qū)別性且獨立存在的某種事物,如某一個人、某一個城市、某一種商品等等。對高校的數(shù)字檔案資源而言,實體應是組成檔案結構和內容的基本要素,是表達一個檔案文件的完整內容的最小單位。知識單元的特點是:第一,知識單元具有唯一性和獨立性,知識單元是每個實體的唯一代表和表示,用于描述共同認可的知識實體。與常用的概念或定義不同,知識單元必須是原始檔案文件中存在的、不可分割的知識表達。第二,知識單元具有共享性。檔案資源從文獻資料的形式轉化為供他人傳遞和利用的知識時,不同知識中的同一實體需要指向同一知識單元。知識單元是知識結構網絡中的一個個節(jié)點,通過點和點之間的關系構成了巨大的知識網鏈。
3.知識圖譜實現(xiàn)的總體架構
基于高校數(shù)字檔案資源的知識圖譜的體系架構如圖2所示,以檔案數(shù)據(jù)和其他來源數(shù)據(jù)作為知識圖譜的數(shù)據(jù)基礎,利用大數(shù)據(jù)挖掘各項技術,完成對數(shù)字檔案資源的抽取和知識原型的分析。同時通過對檔案資源的知識化網絡構建,完成檔案資源知識圖譜庫的構建,實現(xiàn)從檔案文件檢索到檔案知識檢索的方式轉變,優(yōu)化海量檔案資源的檢索,真正實現(xiàn)檔案資源實體關聯(lián)導航。
四、知識圖譜應用于高校數(shù)字檔案資源知識化的體系構成
1.數(shù)據(jù)資源平臺
主要采用基礎數(shù)據(jù)資源庫和檔案知識庫的雙庫設計來實現(xiàn)數(shù)據(jù)資源平臺的搭建,兩庫協(xié)同作業(yè),以基礎數(shù)據(jù)資源庫為數(shù)據(jù)資源,以知識庫為利用服務的數(shù)據(jù)來源,充分挖掘檔案文件的內容關聯(lián),提高檔案資源的利用效率。
目前高校檔案館已基本完成檔案數(shù)字化,數(shù)字資源的數(shù)量龐大,同時每年新增的數(shù)字檔案資源和其他非結構化數(shù)字資源也在不斷遞增,因此,首先需要保證大數(shù)據(jù)平臺下的數(shù)據(jù)的可靠性和準確性。為保證數(shù)字檔案資源的質量,保證來源數(shù)據(jù)的安全可靠,需要按規(guī)范采集和組織檔案數(shù)據(jù)資源,為檔案工作人員進行檔案的加工處理和利用檢索提供有力的數(shù)據(jù)支撐,通過對這些海量的結構、非結構或半結構化數(shù)據(jù)的標準化存儲和管理,實現(xiàn)數(shù)據(jù)管理的高容錯性和擴展性,使數(shù)據(jù)得到高效利用。
當今語義網和知識經濟的大背景下,檔案信息以內容和形式特征為基本組織模式已經不能適應檔案資源搜索的新需求,因此,用最便捷的方式提供信息和知識的高校檔案知識庫是本平臺的另一個十分重要的數(shù)據(jù)資源庫。檔案知識化的整個過程就是對檔案數(shù)字資源的知識提煉過程,通過對知識層面的概念和邏輯關系的提煉,知識庫提供給用戶的不是單獨的檔案文件的內容,而是一個完整、結構化的知識鏈網,有利于對檔案的準確定位,提高檔案利用的效率。檔案知識庫以知識的特點和結構為存儲方式,可以為用戶提供便捷的知識搜索和發(fā)現(xiàn),并且通過檔案知識庫和基礎數(shù)據(jù)資源庫的互聯(lián)和數(shù)據(jù)傳輸,充分挖掘檔案的內在價值,為檔案的利用提供精準、智能和高效的服務。
2.檔案數(shù)據(jù)資源挖掘平臺
對于檔案數(shù)據(jù)資源的挖掘,主要目標是要對基礎數(shù)據(jù)資源庫進行信息抽取、信息融合和加強,確定數(shù)字檔案資源這一專門領域的大量的實體、實體屬性和實體之間的關系,并在此基礎上形成本體化的知識表達,構成高校檔案這一特定領域的知識模型。通過模型的構建,可以有效地對檔案資源進行開發(fā),深度挖掘語義本體的組織結構和關系,為用戶提供準確有效的知識或信息。本平臺主要采用基于本體模型的知識單元分析技術,按照知識組織的規(guī)則和要求,解析檔案資源中的各類實體(知識單元),并發(fā)掘蘊藏其中各類隱性因子,將數(shù)字檔案資源中的知識關系更加顯化,實現(xiàn)知識的聚合,使檔案知識的層次結構更加清晰,從而為檔案資源的智能化搜索建立全面的“知識網”基礎。
在檔案數(shù)據(jù)資源挖掘中引入知識提取等大數(shù)據(jù)挖掘技術,能快速定位檔案資源搜索目標。而知識模型可以通過檔案資源實體和之間的關系為實際應用中的推理提供基本規(guī)則和依據(jù),實現(xiàn)信息瀏覽及檢索等功能。通過知識模型,還可以“通過計算概念之間的相關度,來量化概念間的語義距離,以選取最相近的概念;或者在語義模型中預先定義的一些關系上進行推理檢索”。通過各個檔案本體的顯性和隱性聯(lián)系和關聯(lián),將教職員工和學生的多維信息進行聚合,全面展現(xiàn)多視角全方位的個人“畫像”信息資源,從大數(shù)據(jù)的角度對行為信息進行挖掘處理和分析,通過探究校園行為規(guī)律,準確掌握思想行為動向,為學校的管理提供決策和依據(jù)。
3.檔案數(shù)據(jù)資源可視化平臺
檔案數(shù)據(jù)資源可視化平臺是借助圖形、圖像處理、計算機視覺等技術,將知識模型等語義概念通過圖像或者圖形的方式在計算機、手機等終端的頁面上展現(xiàn)的過程。檔案知識模型的可視化可以提供清晰的溝通方式,使用戶可以能夠更快地理解和處理相關信息,提高檔案資源的服務效率和精確性,同時,隨著時間的變化,知識的實時信息也隨之變化,使信息能得到更快的傳遞和識別;通過收集到的行為習慣的數(shù)據(jù)信息,可以提供一些管理和監(jiān)控的關鍵性指標,可以使學校的管理人員更容易發(fā)現(xiàn)各種大數(shù)據(jù)集的變化趨勢。
五、結論
在當今大數(shù)據(jù)的背景下,隨著技術發(fā)展的不斷深化,對檔案數(shù)據(jù)資源進行大數(shù)據(jù)管理和深度挖掘將成為檔案學的發(fā)展方向之一。通過知識圖譜構建、知識融合、可視化等大數(shù)據(jù)技術的引入,為高校檔案信息資源的科學管理,以及檔案數(shù)據(jù)精細化的進一步發(fā)展提供了可能。通過知識抽取,將檔案資源從傳統(tǒng)檔案的文件級數(shù)據(jù)粒度降低到數(shù)據(jù)級,構建結構化的語義模型,從而來描述高校檔案領域中的概念及其相互關系。高校檔案資源的知識化,能實現(xiàn)知識的快速響應,及時跟進個人檔案資源的變化,能提供對個人習慣和方式精準推理和分析,提高檔案的利用效率和服務水平,為高校教學、科研等業(yè)務的有效管理提供有力保障,同時也能為領導決策和管理提供全面深入的數(shù)據(jù)支持。
參考文獻:
[1]Terry Cook. Electronic Records,Paper Minds:The Revolution in Information Management and Archives in the Post-Custodial and Post-Modernist Era[J].Archives and Manuscripts,1994
[2]Electronic Records Archives.[EB/OL].[2019-8-22].http://www.archives.gov/era/.
[3]The Federal Big Data Research And Development Strategic Plan.[EB/OL].[2019-8-22].https://obamawhitehouse.archives.gov/sites/default/files/microsites/ostp/NSTC/bigdatardstrategicplan-nitrd_final-051916.pdf.
[4] Tang J, Zhang J, Yao L M, et al. AMiner: Extraction and Mining of Academic Social Networks[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD2008). 2008
[5]楊茜雅.中國聯(lián)通電子檔案數(shù)據(jù)挖掘與智能利用的研究[J].檔案學通訊,2018
基金項目:本文系上海市檔案局科技項目《基于知識圖譜的高校數(shù)字檔案資源數(shù)據(jù)挖掘實現(xiàn)研究》(項目編號:滬檔科1914)的研究成果之一。
作者簡介:李菁(1975-),女,漢族,浙江平湖人,館員,碩士,單位:上海師范大學檔案館,研究方向:數(shù)字檔案管理,聲像檔案管理;黃仁彥(1982-),男,漢族,上海人,工程師,碩士,單位:上海師范大學檔案館,研究方向:檔案管理;徐鴻飛(1985-),男,漢族,山東人,工程師,碩士,單位:上海師范大學檔案館,研究方向:檔案管理。