劉永 龐宇飛 荊欣
摘 要:本文基于數(shù)據(jù)智能的理念,提出了檔案數(shù)據(jù)大腦的概念。在對數(shù)據(jù)時(shí)代檔案數(shù)據(jù)大腦構(gòu)建的必要性和可行性論證的基礎(chǔ)上,對檔案數(shù)據(jù)大腦的若干概念和功能進(jìn)行了重新解讀,并對構(gòu)成檔案數(shù)據(jù)大腦的基本單元——檔案數(shù)據(jù)單元的構(gòu)建進(jìn)行了初步分析。最后,探討了基于檔案著錄規(guī)則的數(shù)據(jù)單元解構(gòu)方法和檔案數(shù)據(jù)單元語義與腳本組織方法,并對檔案數(shù)據(jù)大腦的構(gòu)建和數(shù)據(jù)大腦功能的實(shí)現(xiàn)方法給出了初步設(shè)想。
關(guān)鍵詞:檔案數(shù)據(jù)化;數(shù)據(jù)大腦;檔案管理
Abstract: Based on the concept of data intelligence, this paper proposes the concept of archival data brain. On the basis of the necessity and feasibility of the data brain construction of archive in the data age, the concepts and functions of the archive data brain have been reinterpreted, and the construction of the basic unit of archive data, the archive data unit, has been carried out initial analysis. Finally, this paper discusses the data unit deconstruction method based on the archival record rule and the archival data unit semantics and script organization method, and gives a preliminary idea for the construction and implementation method of the archive data brain.
Keywords: Archive dataization; Data brain; Archive management
引言
在IT(Information Technology)向DT(Data Technology)過渡的進(jìn)程中,數(shù)據(jù)化和數(shù)據(jù)智能的時(shí)代特征愈來愈明顯。隨著智能化進(jìn)程的加速,數(shù)據(jù)賦智、軟件賦值、軟件賦能等新提法不斷出現(xiàn),表現(xiàn)出數(shù)據(jù)和支撐數(shù)據(jù)的軟硬件之間的驅(qū)動(dòng)性或依附性關(guān)系逐漸發(fā)生逆轉(zhuǎn)的表征,或顯現(xiàn)出由數(shù)據(jù)和軟硬件的融合浸透逐漸向軟硬件的數(shù)據(jù)依附方向演化的態(tài)勢。
如果將“軟硬件體系與環(huán)境”統(tǒng)稱為“系統(tǒng)”,則存在數(shù)據(jù)與系統(tǒng)依附性逆轉(zhuǎn)的發(fā)展脈絡(luò),即存在由數(shù)據(jù)的系統(tǒng)依附到數(shù)據(jù)的系統(tǒng)獨(dú)立,到數(shù)據(jù)的系統(tǒng)融合,到系統(tǒng)的數(shù)據(jù)滲透,再到系統(tǒng)的數(shù)據(jù)依附的轉(zhuǎn)換過程。這種逆轉(zhuǎn)關(guān)系可簡單描述為由“系統(tǒng)智能”向“數(shù)據(jù)智能”轉(zhuǎn)換的關(guān)系??梢钥闯?,數(shù)據(jù)與技術(shù)已經(jīng)逐漸成為不可分割的有機(jī)整體[1]。
就檔案數(shù)據(jù)化來講,檔案數(shù)據(jù)管理的應(yīng)用技術(shù)老化問題愈來愈嚴(yán)重。可以預(yù)見,傳統(tǒng)的把檔案數(shù)據(jù)僅作為IT加工處理的對象的思維和管理方式會在不久的將來遭受嚴(yán)重沖擊;孤立的檔案數(shù)據(jù)可能遭遇不能被處理和加工的危機(jī);檔案自身也存在因數(shù)據(jù)智能的滯后,成為塵封的歷史或者被遺忘的記錄的可能;更有甚者,無檔可歸、無檔可管和無檔可查的被動(dòng)局面也會逐漸顯現(xiàn)。因此,數(shù)據(jù)化和智能化的緊密融合、數(shù)據(jù)和技術(shù)相互嵌入就成為檔案信息化發(fā)展的必然路徑。為此,本文提出檔案數(shù)據(jù)大腦概念,嘗試探討檔案數(shù)據(jù)大腦構(gòu)建的必要性、可行性和構(gòu)建思路。
1 檔案數(shù)據(jù)大腦概念的提出
1.1 數(shù)據(jù)智能時(shí)代為構(gòu)建數(shù)據(jù)大腦提供推動(dòng)力。近年來,人工智能(AI, Artificial Intelligence)發(fā)展和應(yīng)用速度不斷加快。美國計(jì)算機(jī)學(xué)家約翰·麥卡錫(John McCarthy,1927.9.4~2011.10.24)等人于1956年在美國達(dá)特茅斯學(xué)院(Dartmouth College)研討會上正式提出了人工智能概念[2],概念涵蓋了問題求解、專家系統(tǒng)、機(jī)器學(xué)習(xí)、模式識別、深度學(xué)習(xí)等機(jī)器模擬人腦的智能技術(shù)。目前,人工智能應(yīng)用比較典型的成功案例有SIRI、阿爾法狗和無人駕駛汽車等。
人工智能的快速發(fā)展離不開數(shù)據(jù)智能的支撐。通過文獻(xiàn)調(diào)查發(fā)現(xiàn),數(shù)據(jù)智能正逐漸成為機(jī)器智能的核心。目前,數(shù)據(jù)資源對智能技術(shù)的影響在逐步加大,朝著更加緊密融合的方向發(fā)展。一些專家認(rèn)為,數(shù)據(jù)正逐漸成為智能技術(shù)不可分割的重要組成部分;部分專家甚至認(rèn)為,智能技術(shù)的核心是數(shù)據(jù)而非技術(shù)本身,沒有數(shù)據(jù),智能技術(shù)的作用就會大打折扣。這說明了數(shù)據(jù)賦能對技術(shù)的重要性。
事實(shí)上,信息技術(shù)本身已經(jīng)呈現(xiàn)出智能化、智慧化、擬人化和自我進(jìn)化的特征[3]。世界知名高校如美國麻省理工大學(xué)和頂尖科技公司如谷歌、微軟等,都在不斷探索和研究機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,試圖給機(jī)器賦予類人的思維機(jī)理與行為特征,通過數(shù)據(jù)賦智、賦能、賦值,以創(chuàng)造更大的經(jīng)濟(jì)與社會價(jià)值。
上述分析可以看出,數(shù)據(jù)業(yè)的智能化和智能業(yè)的數(shù)據(jù)化融合趨勢已非常明顯。內(nèi)容產(chǎn)業(yè)深度融合智能技術(shù),通過構(gòu)建數(shù)據(jù)大腦給數(shù)據(jù)賦智,才是可持續(xù)發(fā)展的明智選擇。
對于檔案信息化而言,數(shù)據(jù)智能應(yīng)用同樣是促使檔案數(shù)據(jù)大腦構(gòu)建的動(dòng)力因素,包括政務(wù)微博因素[4]、數(shù)據(jù)量增長提速因素[5]、數(shù)據(jù)智能滯后導(dǎo)致的新信息孤島因素等[6][7][8][9][10][11]。
1.2 智慧化建設(shè)需要檔案數(shù)據(jù)大腦提供支撐力。檔案數(shù)據(jù)大腦構(gòu)建和智慧化建設(shè)具有互相推動(dòng)的作用。智慧化建設(shè)的代表之一是智慧城市建設(shè)。智慧城市的概念最早于2008年由IBM公司正式提出[12],指的是城市發(fā)展的高級形態(tài),其標(biāo)志是新興信息技術(shù)在城市建設(shè)中取得廣泛和深入應(yīng)用。
檔案是與民生和政府工作密切相關(guān)的重要信息資源,智慧+檔案的建設(shè)對智慧城市的發(fā)展具有重要作用。一些學(xué)者認(rèn)為,智慧檔案建設(shè)主要在于借助技術(shù)手段對檔案進(jìn)行智慧化管理并萃取智慧化信息,實(shí)現(xiàn)檔案的智慧化管理與服務(wù)[13]。
智慧和大腦是緊密相關(guān)的概念。顯而易見,智慧檔案的著眼點(diǎn)和落腳點(diǎn)是智慧,要實(shí)現(xiàn)智慧貫通檔案管理服務(wù)全過程就離不開數(shù)據(jù)大腦的構(gòu)建和支撐。建立檔案數(shù)據(jù)大腦,依托數(shù)據(jù)大腦的高度技術(shù)集成性和智能性,能更好地感知、識別、鑒定、挖掘、采集、智慧化轉(zhuǎn)換與服務(wù),為智慧城市建設(shè)提供數(shù)據(jù)大腦支撐力。
1.3 構(gòu)建檔案數(shù)據(jù)大腦的技術(shù)條件趨于成熟。目前,檔案工作已逐漸遠(yuǎn)離人工操作方式。檔案信息資源的技術(shù)植根性、來源多樣性、存量的數(shù)據(jù)化和增量的網(wǎng)絡(luò)化等特質(zhì)越來越突出。檔案數(shù)據(jù)已具備從數(shù)據(jù)內(nèi)容屬性向數(shù)據(jù)智能或數(shù)據(jù)大腦屬性轉(zhuǎn)換的技術(shù)條件。所以,引入檔案數(shù)據(jù)大腦的概念,給檔案數(shù)據(jù)賦智和賦能,更好地挖掘和實(shí)現(xiàn)檔案的價(jià)值,促進(jìn)檔案工作的轉(zhuǎn)型升級,具有新時(shí)代的現(xiàn)實(shí)意義和未來的前瞻意義。
隨著相關(guān)技術(shù)手段快速升級,數(shù)據(jù)支撐環(huán)境越來越健壯,檔案數(shù)據(jù)大腦的構(gòu)建和功能實(shí)現(xiàn)成為可能。檔案數(shù)據(jù)大腦構(gòu)建所需技術(shù),主要包括人工智能、大數(shù)據(jù)、云計(jì)算、云存儲、數(shù)據(jù)庫系統(tǒng)和商業(yè)智能等。其中,人工智能技術(shù)的發(fā)展與應(yīng)用給檔案數(shù)據(jù)大腦功能的增強(qiáng)提供了更大的空間。
2 檔案數(shù)據(jù)大腦相關(guān)概念分析
2.1 關(guān)于檔案數(shù)據(jù)大腦的現(xiàn)有認(rèn)識。根據(jù)現(xiàn)有文獻(xiàn)調(diào)查,相關(guān)主題和研究多集中于智慧城市建設(shè)方面,少數(shù)涉及服務(wù)模式與服務(wù)水平升級、數(shù)據(jù)時(shí)代下大數(shù)據(jù)與檔案的關(guān)系等內(nèi)容。有的認(rèn)為城市數(shù)據(jù)大腦是一個(gè)城市的人工智能中樞,融合多種先進(jìn)的技術(shù)手段,對宏觀層面的城市生命體起到預(yù)測感知控制判斷作用[14];也有的認(rèn)為數(shù)據(jù)大腦是中樞系統(tǒng),是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的智能體[15]。上述觀點(diǎn)具有一定的代表性。
相關(guān)文獻(xiàn)對數(shù)據(jù)大腦的表述,其共性是將不同適用情境和學(xué)科領(lǐng)域的數(shù)據(jù)大腦總結(jié)為中樞系統(tǒng)。結(jié)合檔案學(xué)自身理論和實(shí)際檔案工作的特點(diǎn)與規(guī)律,對檔案數(shù)據(jù)大腦的現(xiàn)有認(rèn)識可以歸納為“檔案智能中樞系統(tǒng)”,即依托大數(shù)據(jù)、云計(jì)算、海量信息檢索技術(shù)以及其他相關(guān)人工智能技術(shù),結(jié)合“互聯(lián)網(wǎng)+檔案”與數(shù)據(jù)化思維,整合匯聚檔案產(chǎn)生主體、檔案利用主體和檔案本體的相關(guān)原生數(shù)據(jù)信息,進(jìn)行分析計(jì)算和存儲,構(gòu)建接收存儲原生檔案數(shù)據(jù)、優(yōu)化檔案資源配置、檔案數(shù)據(jù)智能挖掘、檔案價(jià)值增值、優(yōu)化檔案管理模式與提高檔案服務(wù)利用績效的智能中樞處理系統(tǒng)。
以上學(xué)術(shù)認(rèn)同與生命科學(xué)領(lǐng)域和計(jì)算機(jī)領(lǐng)域?qū)τ诖竽X概念、功能、定位和作用的共性認(rèn)知基本一致。但視數(shù)據(jù)大腦為“智能中樞系統(tǒng)”的認(rèn)識存在兩個(gè)問題,即數(shù)據(jù)的技術(shù)依賴問題和數(shù)據(jù)的技術(shù)割裂問題。這種理解與前文分析的由技術(shù)依賴到數(shù)據(jù)技術(shù)融合,再到數(shù)據(jù)依賴的發(fā)展演化趨勢相悖,故還需作進(jìn)一步探討。
2.2 關(guān)于數(shù)據(jù)內(nèi)涵演化的再認(rèn)識
2.2.1 數(shù)據(jù)資源的再認(rèn)識—由數(shù)值到數(shù)據(jù)體功能化。對數(shù)據(jù)(Data)的傳統(tǒng)認(rèn)識或者狹義上的認(rèn)識,多數(shù)情況下指的是“數(shù)值”或“數(shù)字的值”,有人理解成數(shù)據(jù)值或數(shù)據(jù)內(nèi)容。換句話講,數(shù)據(jù)在多數(shù)情況下被認(rèn)為是人物、事件、事實(shí)、對象和概念等的值或?qū)ζ溥M(jìn)行表示、表達(dá)或描述的內(nèi)容。這些認(rèn)識猶如人們會把數(shù)據(jù)理解成文檔、資料、記錄、記憶、文件材料、檔案材料、案卷材料、史料、文獻(xiàn)、報(bào)刊資料、報(bào)告、手稿等的內(nèi)容一樣,沒有從數(shù)據(jù)體的視角將數(shù)據(jù)結(jié)構(gòu)化和功能化加以重新認(rèn)識。
2.2.2 檔案數(shù)據(jù)的再認(rèn)識—由內(nèi)容集合到數(shù)據(jù)單元。大信息觀或廣義信息觀將信息作為戰(zhàn)略資源看待;廣義的信息資源觀將信息內(nèi)容及其相關(guān)軟硬件環(huán)境一起看待。類似地,狹義的檔案觀主要注重資源內(nèi)容層面的理解;廣義的檔案觀則更注重資源集合層面上的理解。從檔案數(shù)據(jù)資源內(nèi)容上看,檔案是工作活動(dòng)的原始記錄,但是記錄的內(nèi)容需要通過其他各種手段,才能夠得到展示和運(yùn)用。從檔案數(shù)據(jù)資源功能層面上看,如果原始活動(dòng)記錄本身也包含一定的結(jié)構(gòu)和功能,且能夠被調(diào)用和運(yùn)行,這樣的記錄可以看作具備了檔案數(shù)據(jù)的腦功能。
從檔案數(shù)據(jù)大腦的角度認(rèn)識數(shù)據(jù),可以引入數(shù)據(jù)對象的概念。數(shù)據(jù)對象是帶有一定結(jié)構(gòu)和功能的數(shù)據(jù)單元。數(shù)據(jù)對象可大可小。宏觀上講,一切均可視為數(shù)據(jù),包括各類系統(tǒng)和應(yīng)用程序、各類軟硬件環(huán)境等,甚至可以把宇宙、自然和社會進(jìn)行分類并作為數(shù)據(jù)對象進(jìn)行處理;微觀上講,數(shù)據(jù)對象是對事物結(jié)構(gòu)化和功能性的描述,是數(shù)據(jù)大腦的最小數(shù)據(jù)單元、基本數(shù)據(jù)單位或數(shù)據(jù)有機(jī)體。
2.3 關(guān)于大腦內(nèi)涵的再認(rèn)識
2.3.1 大腦概念的一般認(rèn)識。在生命科學(xué)領(lǐng)域,人的大腦是人類對感知信息進(jìn)行加工處理并產(chǎn)生智慧的器官 [16]。大腦控制著人體其它器官,在不同的系統(tǒng)之間發(fā)揮著協(xié)調(diào)組織的功能。
在計(jì)算機(jī)領(lǐng)域,大腦被認(rèn)為是一臺設(shè)備的CPU(Central Processing Unit)[17],具有存取、解釋并執(zhí)行命令、完成各種運(yùn)算和控制并滿足使用者需求等功能,這也是最初計(jì)算機(jī)被稱為電腦的原因。
2.3.2 大腦概念的重新認(rèn)識。本文基于檔案管理視角,認(rèn)為數(shù)據(jù)大腦的概念可以借鑒生命體大腦和計(jì)算機(jī)大腦的原理,但不能簡單類推,或者不能簡單地依據(jù)人腦和電腦,將數(shù)據(jù)大腦看成數(shù)據(jù)的大腦或者處理數(shù)據(jù)的大腦。持這種理解,無異于將數(shù)據(jù)和程序截然分開,孤立地看待數(shù)據(jù)和程序,也就偏離了本文關(guān)于數(shù)據(jù)智能概念的最初認(rèn)識。
對此,本文將數(shù)據(jù)大腦(Data Brain)看成數(shù)據(jù)有機(jī)體集合,即數(shù)據(jù)大腦是由數(shù)據(jù)單元(Data Unit)組成的數(shù)據(jù)有機(jī)體集合,該集合包含了數(shù)據(jù)的“值”和關(guān)于數(shù)據(jù)數(shù)值或數(shù)據(jù)內(nèi)容的各類“腳本”。換句話說,數(shù)據(jù)單元是構(gòu)成數(shù)據(jù)有機(jī)體集合(數(shù)據(jù)大腦)的基本單位或數(shù)據(jù)有機(jī)體集合最基本的結(jié)構(gòu)和功能單位,是數(shù)值和腳本的有機(jī)體,由包含數(shù)值在內(nèi)的關(guān)聯(lián)腳本構(gòu)成。
數(shù)據(jù)單元可看成包含數(shù)據(jù)的子例程子程序或腳本的最小數(shù)據(jù)塊或數(shù)據(jù)模塊,是數(shù)據(jù)有機(jī)體的最小單元。該單元可以通過各類調(diào)用以關(guān)聯(lián)和處理不同的數(shù)據(jù)內(nèi)容。數(shù)據(jù)單元被調(diào)用時(shí),其執(zhí)行的功能包括數(shù)據(jù)共享、數(shù)據(jù)協(xié)同、數(shù)據(jù)整序、數(shù)據(jù)應(yīng)用和價(jià)值實(shí)現(xiàn)等很多方面。
數(shù)據(jù)單元也可稱為數(shù)據(jù)機(jī)、數(shù)據(jù)體、數(shù)據(jù)鏈、數(shù)據(jù)包、數(shù)據(jù)胞、數(shù)據(jù)細(xì)胞(Data Cell)、數(shù)據(jù)小腦、數(shù)據(jù)模塊或數(shù)據(jù)載體等,本文沒有對這些術(shù)語進(jìn)行稱謂上的認(rèn)定,留作以后進(jìn)一步探討和推定。
2.4 檔案數(shù)據(jù)大腦概念和功能。檔案數(shù)據(jù)大腦是指由檔案數(shù)據(jù)單元組成的檔案數(shù)據(jù)有機(jī)體集合。隨著技術(shù)與數(shù)據(jù)的深入融合,檔案數(shù)據(jù)有機(jī)體有望逐步發(fā)展為檔案數(shù)據(jù)智能體(Achieves Data Agent)。
智能體在人工智能領(lǐng)域被視為相對獨(dú)立的軟硬件代理體。自動(dòng)搜索引擎、智能交互分析引擎、智能識別與標(biāo)注、智能語音、智能畫像、智能質(zhì)檢、機(jī)器人水軍、機(jī)器人作者、機(jī)器人翻譯、機(jī)器人客戶服務(wù)、機(jī)器問答、自動(dòng)駕駛、智能制造等等被稱為數(shù)據(jù)智能[18]的技術(shù),智能體是其核心。本文主要針對檔案數(shù)據(jù)單元的概念、功能和組織進(jìn)行討論。
2.4.1 檔案數(shù)據(jù)單元的概念。檔案數(shù)據(jù)單元(Achieves Data Unit)是指由檔案數(shù)據(jù)內(nèi)容及其關(guān)聯(lián)程序代碼(Code)或腳本(Script)共同構(gòu)成的具有特定結(jié)構(gòu)和功能的檔案數(shù)據(jù)有機(jī)體,是檔案數(shù)據(jù)大腦的基本數(shù)據(jù)單位,或者稱為檔案數(shù)據(jù)小腦。
2.4.2 檔案數(shù)據(jù)單元的功能。檔案數(shù)據(jù)單元應(yīng)具有相對獨(dú)立的數(shù)據(jù)處理能力,有輸入、存儲、處理、輸出四個(gè)基本功能。檔案數(shù)據(jù)單元可以通過調(diào)用運(yùn)行并實(shí)現(xiàn)這些功能。數(shù)據(jù)單元智能化程度取決于功能定義的智能化程度,包括感知、采集、運(yùn)算、挖掘、學(xué)習(xí)、畫像、問答、展示、場景化和可視化的各類算法等。檔案數(shù)據(jù)單元的有效組織可以具備數(shù)據(jù)的自組織、自描述、自更新、自處理、自適應(yīng)、自學(xué)習(xí)、自評估和自進(jìn)化等方面的能力。
2.4.3 檔案數(shù)據(jù)大腦的功能。檔案數(shù)據(jù)大腦的功能是檔案數(shù)據(jù)單元在智慧檔案大數(shù)據(jù)平臺上的系統(tǒng)化功能整合,是智慧檔案館建設(shè)的核心,在智慧城市大腦建設(shè)和智慧行業(yè)大腦建設(shè)中具有獨(dú)特地位。如果能夠充分利用人工智能手段對平臺和數(shù)據(jù)單元加以強(qiáng)化,檔案智能化管理和智能化服務(wù)的能力將會大大提升。
檔案數(shù)據(jù)采集能力方面。檔案網(wǎng)絡(luò)信息采集、特殊格式數(shù)據(jù)采集、復(fù)雜關(guān)聯(lián)數(shù)據(jù)采集等還是當(dāng)前的瓶頸問題。有了技術(shù)融合也就消除了技術(shù)滯后,同時(shí)強(qiáng)化了檔案數(shù)據(jù)采集能力,上述瓶頸問題也就隨之解決。在此基礎(chǔ)上,通過檔案數(shù)據(jù)的智能化移交、歸檔、接收、征集等操作,強(qiáng)化檔案數(shù)據(jù)資源智慧化建設(shè)能力。
檔案數(shù)據(jù)處理能力方面。檔案數(shù)據(jù)大腦建設(shè)與各行各業(yè)的數(shù)據(jù)大腦建設(shè)同步進(jìn)行,減少了技術(shù)落差,也具備了檔案大數(shù)據(jù)處理能力,如機(jī)器智能、模式識別、數(shù)據(jù)挖掘、數(shù)據(jù)建模、數(shù)據(jù)聚合、數(shù)據(jù)共享、多維分析、海量處理、機(jī)器學(xué)習(xí)與自然語言處理等。
檔案數(shù)據(jù)管理能力方面。實(shí)現(xiàn)網(wǎng)絡(luò)化、智能化和全息化的檔案行政管理、檔案業(yè)務(wù)管理、檔案分類整理、檔案價(jià)值鑒定、檔案數(shù)據(jù)安全管理、檔案信息統(tǒng)計(jì)和實(shí)體檔案管理,為檔案數(shù)據(jù)管理能力逐步邁上快車道提供數(shù)據(jù)智能推動(dòng)力。
檔案數(shù)據(jù)服務(wù)能力方面。檔案數(shù)據(jù)處理能力的提升是檔案數(shù)據(jù)服務(wù)能力升級的基礎(chǔ)。通過智能化、場景化或可視化的數(shù)據(jù)服務(wù),實(shí)現(xiàn)檔案編研、咨詢和利用的便利化,以擴(kuò)大和提升檔案事業(yè)的影響力。
3 檔案數(shù)據(jù)大腦構(gòu)建與功能實(shí)現(xiàn)的初步設(shè)想
3.1 檔案著錄規(guī)則的數(shù)據(jù)單元解構(gòu)。檔案數(shù)據(jù)單元的構(gòu)建有多種方式,其中一種方式是基于著錄規(guī)則的XML轉(zhuǎn)換。元數(shù)據(jù)描述一般有兩種不同的形式,一是格式化數(shù)據(jù)描述;二是腳本化數(shù)據(jù)描述。兩種描述方式可以相互轉(zhuǎn)換。1985年頒布的《檔案著錄規(guī)則》(GB/T 3792.5-1985),將檔案的著錄項(xiàng)目分為七項(xiàng),包括題名與責(zé)任說明、稿本與文種、密級與保管期限、時(shí)間、載體形態(tài)、附注與提要、排檢與編號等,本文列舉著錄格式示例,如圖1所示。
依據(jù)相關(guān)文書檔案目錄數(shù)據(jù)交換格式與著錄項(xiàng)目細(xì)則的暫行規(guī)定,簡化后的文件級數(shù)據(jù)xml轉(zhuǎn)換格式腳本示例,如圖2所示。
3.2 檔案數(shù)據(jù)單元語義和腳本組織。檔案數(shù)據(jù)單元語義和腳本組織方法有很多種,其中一種是運(yùn)用W3C的資源描述框架(RDF, Resource Description Framework)按XML句法表達(dá)檔案數(shù)據(jù)語義和實(shí)現(xiàn)數(shù)據(jù)功能。XML標(biāo)準(zhǔn)一般包括可擴(kuò)展標(biāo)記語言(XML,eXtented Meta Language)、文檔類型定義(DTD,Document Type Definition)、可擴(kuò)展樣式語言 (XSL,eXtensible Stylesheet language)、文檔對象模型(DOM,Document Object Model)和可擴(kuò)展鏈接語言(XLL,eXtensible Links Language)等定義,分別具有數(shù)據(jù)語義描述與存儲、標(biāo)識解析、輸出發(fā)布、數(shù)據(jù)更新、鏈接定位等功能。
通過基于XML的檔案數(shù)據(jù)單元語義和腳本組織,形成檔案數(shù)據(jù)的結(jié)構(gòu)化和功能化基本單元,完成檔案數(shù)據(jù)大腦最基本的數(shù)據(jù)有機(jī)體的構(gòu)建。產(chǎn)生的檔案數(shù)據(jù)單元可以被HTML語言或其他系統(tǒng)程序調(diào)用。XML自身也可以被直接調(diào)用,使賦予的所有功能得以實(shí)現(xiàn)。
在建立檔案數(shù)據(jù)單元的基礎(chǔ)上,可以利用本體庫和規(guī)則庫方法,依據(jù)檔案數(shù)據(jù)單元構(gòu)建知識圖譜,從中提取知識元并形成檔案知識庫,通過知識推理提供更加智能化的檔案信息服務(wù)。這一問題和檔案內(nèi)容的數(shù)據(jù)單元解構(gòu)問題擬在后續(xù)的研究中加以探討。
3.3 檔案智慧服務(wù)平臺的功能構(gòu)思。構(gòu)建的檔案數(shù)據(jù)大腦智慧服務(wù)平臺,以整合人工智能應(yīng)用技術(shù)為核心,支持批量采集、實(shí)時(shí)采集、交互采集及互聯(lián)網(wǎng)爬蟲采集等方式,匯集各政府部門、事業(yè)單位、行業(yè)系統(tǒng)、局館節(jié)點(diǎn)的各類數(shù)據(jù)及互聯(lián)網(wǎng)數(shù)據(jù)并進(jìn)行結(jié)構(gòu)化和功能化數(shù)據(jù)單元重構(gòu)。以此為基礎(chǔ),將清洗、轉(zhuǎn)換處理后的檔案數(shù)據(jù)單元加載到檔案數(shù)據(jù)大腦系統(tǒng)中,形成智慧化的跨界檔案數(shù)據(jù)交換共享、數(shù)據(jù)智能處理、全息數(shù)據(jù)分析、智慧編研和智能咨詢服務(wù)等方面的系統(tǒng)能力。
*本文系國家社會科學(xué)基金項(xiàng)目“智慧城市背景下的檔案信息化研究(項(xiàng)目編號:14BTQ070)”成果之一。本成果受航空經(jīng)濟(jì)發(fā)展河南省協(xié)同創(chuàng)新中心、河南航空經(jīng)濟(jì)研究中心的資助。
參考文獻(xiàn):
[1]程夢瑤.百分點(diǎn):探索數(shù)據(jù)智能的未來進(jìn)化[J].軟件和集成電路,2017(07):94-97.
[2]鄒蕾,張先鋒.人工智能及其發(fā)展應(yīng)用[J].信息網(wǎng)絡(luò)安全,2012(02):11-13.
[3]閆志明,唐夏夏,秦旋,張飛,段元美.教育人工智能(EAI)的內(nèi)涵、關(guān)鍵技術(shù)與應(yīng)用趨勢——美國《為人工智能的未來做好準(zhǔn)備》和《國家人工智能研發(fā)戰(zhàn)略規(guī)劃》報(bào)告解析[J].遠(yuǎn)程教育雜志,2017,35(01):26-35
[4]宋香蕾.政務(wù)微博檔案化模式研究[J].檔案學(xué)研究,2017(01):51-56.
[5]向立文,李培杰.檔案部門實(shí)施檔案大數(shù)據(jù)戰(zhàn)略的必要性與可行性研究[J].浙江檔案,2018(10):10-12
[6]鄒永利,王春強(qiáng).解析我國電子政務(wù)中的“信息孤島”現(xiàn)象[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2008(03):17-21.
[7]張敏,霍朝光,吳郁松.我國公共圖書館數(shù)字平臺的信息孤島問題研究——基于社會化網(wǎng)絡(luò)的分析視角[J].圖書館建設(shè),2015(11):77-82.
[8]鄭元元,羅艷.智慧圖書館構(gòu)建過程中“信息孤島”問題探究——基于“互聯(lián)性”的視角[J].圖書館工作與研究,2018(06):10-16.
[9]李哲.“檔案信息孤島”現(xiàn)象的產(chǎn)生與消除[J].蘭臺世界,2010(16):9-10.
[10]劉遷.云環(huán)境下檔案信息孤島問題的治理研究[J].蘭臺世界,2015(14):13-14.
[11]蔣美玲.檔案信息共享的邊界問題研究[J].檔案學(xué)研究,2018(05):102-106.
[12]任亮,張海濤,魏明珠,李題印.基于熵權(quán)TOPSIS模型的智慧城市發(fā)展水平評價(jià)研究[J/OL].情報(bào)理論與實(shí)踐:1-12[2019-02-20].http://kns.cnki.net/kcms/detail/11.1762.g3.20190102.1825.002.html.
[13]歸吉官,劉揚(yáng).智慧檔案興起的背景、研究現(xiàn)狀與趨勢[J].中國檔案,2018(02):76-78.
[14]孔萬鋒.杭州“城市數(shù)據(jù)大腦”:交通治堵的探索和實(shí)踐[J].公安學(xué)刊(浙江警察學(xué)院學(xué)報(bào)),2018(01):54-58.
[15]劉柏嵩,豆洪青,楊春艷.從數(shù)字化到數(shù)據(jù)化——關(guān)于“圖書館大腦”的思考[J].數(shù)字圖書館論壇,2018(03):2-6.
[16]梁夏,王金輝,賀永.人腦連接組研究:腦結(jié)構(gòu)網(wǎng)絡(luò)和腦功能網(wǎng)絡(luò)[J].科學(xué)通報(bào),2010,55(16):1565-1583.
[17]芮雪,王亮亮,楊琴.國產(chǎn)處理器研究與發(fā)展現(xiàn)狀綜述[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2014(08):15-19.
[18]郭濤.工業(yè)互聯(lián)網(wǎng)不能沒有數(shù)據(jù)智能[N]. 中國信息化周報(bào),2018-10-15(023).
(作者單位:鄭州航空工業(yè)管理學(xué)院 來稿日期:2019-02-20)