周楓 楊智勇
摘要:從檔案館業(yè)務(wù)及用戶兩個(gè)維度,對(duì)基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)模型進(jìn)行了需求分析,進(jìn)而從核心層、支撐層、表現(xiàn)層三個(gè)方面對(duì)其功能進(jìn)行論述,在此基礎(chǔ)上設(shè)計(jì)了一種基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)體系架構(gòu)。
關(guān)鍵詞:數(shù)字檔案館信息服務(wù)模型大數(shù)據(jù)
Abstract:From the two dimensions of archives business and user, demand analysis is carried on for the information service model of digital archives based on big data, and then, the paper discusses the functions of the model which composed of core lay? er, support layer and presentation layer. Finally, the author puts forward the information service system construction for digital archives based on big data.
Keywords:Digital archives; Information service; Model; Big data
數(shù)字檔案館建設(shè)正經(jīng)歷著從資源主導(dǎo)向服務(wù)導(dǎo)向轉(zhuǎn)變,利用先進(jìn)的信息技術(shù)和理念,構(gòu)建高效、快捷、便利的數(shù)字檔案館信息服務(wù)平臺(tái),為用戶提供精品化、多元化、個(gè)性化的信息服務(wù),已成為當(dāng)前數(shù)字檔案館建設(shè)的重要內(nèi)容。大數(shù)據(jù)為未來檔案館實(shí)現(xiàn)信息服務(wù)內(nèi)容的豐富、信息服務(wù)手段的完善、信息服務(wù)模式的突破等提供了新的思路和解決方案。因此,構(gòu)建一個(gè)基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)模型具有非常重要的理論與現(xiàn)實(shí)意義。
一、需求分析
需求分析是信息系統(tǒng)開發(fā)中最基礎(chǔ)的工作。信息服務(wù)的主要參與者一般為信息服務(wù)者與信息用戶,因此需求分析也主要圍繞兩者展開,分為業(yè)務(wù)需求與用戶需求。
(一)業(yè)務(wù)需求
業(yè)務(wù)需求從總體上描述了為什么要開發(fā)系統(tǒng)(Why),組織希望達(dá)到的目標(biāo)?;诖髷?shù)據(jù)的數(shù)字檔案館信息服務(wù)系統(tǒng)模型的業(yè)務(wù)需求如下:
1.數(shù)字檔案資源建設(shè)。資源建設(shè)是信息服務(wù)的前提與基礎(chǔ),當(dāng)前數(shù)字檔案信息服務(wù)大多是圍繞現(xiàn)有的信息資源展開,通過構(gòu)建基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)系統(tǒng),實(shí)現(xiàn)資源類型多元化、獲取渠道多樣化、資源描述標(biāo)準(zhǔn)化、資源組織專業(yè)化、資源保存完善化,從而真正建立覆蓋人民群眾的檔案資源體系和利用服務(wù)體系。
2.數(shù)字檔案資源開放。透明、參與、合作是開放社會(huì)的核心要素,因此對(duì)信息資源“最后歸宿”的檔案館而言,開放必將成為數(shù)字檔案館的發(fā)展之路。以大數(shù)據(jù)信息服務(wù)系統(tǒng)為平臺(tái),通過數(shù)字檔案資源開放,一方面確保社會(huì)公眾有效獲取及再利用數(shù)字檔案資源的權(quán)利;另一方面形成數(shù)據(jù)擴(kuò)散,為社會(huì)發(fā)展、創(chuàng)新及轉(zhuǎn)型提供資源和動(dòng)力。
3.數(shù)字檔案資源開發(fā)?!皺n案部門的工作就是讓沉睡的檔案醒過來,讓醒過來的檔案站起來,讓站起來的檔案走出去”,[1]通過構(gòu)建基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)系統(tǒng),實(shí)現(xiàn)檔案資源的互聯(lián)互通和深入挖掘,從而將“死檔案”變成“活資源”,將“信息倉庫”變成“知識(shí)海洋”,將“資源密集型服務(wù)”變成“知識(shí)密集型服務(wù)”。
(二)用戶需求
用戶需求必須能夠體現(xiàn)系統(tǒng)將給用戶帶來的業(yè)務(wù)價(jià)值,也就是說用戶需求描述了用戶能使用系統(tǒng)來做什么(What)。研究表明,系統(tǒng)用戶最終參與的有效性被認(rèn)為是影響系統(tǒng)成敗的最主要因素,[2]只有在充分了解用戶需求的基礎(chǔ)上,才能進(jìn)一步對(duì)數(shù)字檔案館信息服務(wù)系統(tǒng)進(jìn)行系統(tǒng)規(guī)劃、分析與設(shè)計(jì),進(jìn)而開發(fā)出滿足用戶需求的服務(wù)系統(tǒng)。
1.信息檢索。“信息過載”時(shí)代,“信息迷航”加劇,在這種數(shù)據(jù)密集型范式下,準(zhǔn)確、快速地發(fā)現(xiàn)資源至關(guān)重要。能否在大量數(shù)字檔案資源中快速而準(zhǔn)確地找到所需信息,能否智能化、人性化地滿足用戶的檢索需求,將是影響用戶繼續(xù)選擇信息服務(wù)的關(guān)鍵。
2.知識(shí)挖掘。大數(shù)據(jù)背景下,用戶對(duì)檔案資源的利用程度不斷加深,通過數(shù)據(jù)挖掘和文本挖掘,深層次發(fā)掘檔案之間的關(guān)聯(lián),將分散在本領(lǐng)域及相關(guān)領(lǐng)域的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)資源予以深度開發(fā)并通過智能化處理平臺(tái)進(jìn)行主動(dòng)推送。
3.決策參考。如果數(shù)據(jù)被賦予背景,它就成了信息;如果數(shù)據(jù)能夠提煉出規(guī)律,它就是知識(shí);如果數(shù)據(jù)能夠借助于各種各樣的工具在分析的基礎(chǔ)之上為我們提供正確的決策,它就是資源。[3]通過提供基于海量分布式資源的精細(xì)化知識(shí)組織輸出,實(shí)現(xiàn)信息+解決方案的“一站式”服務(wù),從而提高用戶的科學(xué)決策水平。
4.數(shù)據(jù)展現(xiàn)。對(duì)用戶而言,總是希望以易于理解的方式來接受服務(wù),而不是一堆生硬抽象的數(shù)據(jù),這就需要系統(tǒng)能夠?qū)Ψ?wù)結(jié)果作出解釋并通過可視化手段予以展現(xiàn),從而提供一個(gè)方便易用的知識(shí)環(huán)境,方便用戶在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解、推理和決策。
5.用戶參與。廣大用戶的參與,不僅使數(shù)據(jù)資源質(zhì)量和信息服務(wù)效果得到有效監(jiān)控,而且為服務(wù)系統(tǒng)的持續(xù)提供了強(qiáng)大的動(dòng)力。通過數(shù)據(jù)資源的分享機(jī)制、定制機(jī)制、交流機(jī)制、個(gè)性化參與機(jī)制,實(shí)現(xiàn)數(shù)據(jù)服務(wù)由靜態(tài)向動(dòng)態(tài)轉(zhuǎn)變,由單向向雙向互動(dòng)轉(zhuǎn)變。[4]
二、功能設(shè)計(jì)
從結(jié)構(gòu)上看,基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)系統(tǒng)應(yīng)該是多層次的。處于核心層的是決策支持功能,通過“數(shù)據(jù)驅(qū)動(dòng)決策”實(shí)現(xiàn)信息服務(wù)需求滿足;處于核心層外圍的是支撐層,包括快速檢索、深度分析、深層交互、跟蹤反饋、安全保障等功能,從而保障核心功能的實(shí)現(xiàn);最外圍的是表現(xiàn)層,包括智慧服務(wù)、趨勢(shì)預(yù)測(cè)、精準(zhǔn)營(yíng)銷、自動(dòng)推送、信息可視化等功能,是核心功能的拓展,也是支撐功能的具化。[5]如圖1所示。
(一)核心層功能
基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)核心理念是基于海量分布式資源的精細(xì)化知識(shí)組織輸出,實(shí)現(xiàn)信息+解決方案的“一站式”智慧服務(wù)。就其本質(zhì)而言,是一項(xiàng)以決策信息保障為中心的信息服務(wù)。因此,基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)系統(tǒng)的核心功能就是通過提供客觀化、知識(shí)化、個(gè)性化、嵌入化的產(chǎn)品和服務(wù),來輔助用戶決策的。
大數(shù)據(jù)時(shí)代是弘揚(yáng)理性精神的時(shí)代,決策行為將日益基于數(shù)據(jù)分析,而不像過去更多地依賴于經(jīng)驗(yàn)甚至直覺?!盎跀?shù)據(jù)驅(qū)動(dòng)的決策方法,政府將更加有效率、更加開放、更加負(fù)責(zé),引導(dǎo)政府前進(jìn)的將是基于實(shí)證的事實(shí),而不是意識(shí)形態(tài),也不是利益集團(tuán)在政府決策過程中施加的影響”。[6]因此,數(shù)字檔案館信息服務(wù)必須提升從數(shù)據(jù)到?jīng)Q策的能力。一方面通過對(duì)海量資源的分析,從中幫助用戶解決問題并提供決策支持;另一方面,將數(shù)據(jù)驅(qū)動(dòng)決策融入到數(shù)字檔案館信息服務(wù)的各環(huán)節(jié)中,保證決策環(huán)節(jié)的準(zhǔn)確性與自適應(yīng)性,實(shí)現(xiàn)由數(shù)據(jù)優(yōu)勢(shì)到?jīng)Q策優(yōu)勢(shì)的轉(zhuǎn)化。
(二)支撐層功能
支撐層是信息服務(wù)系統(tǒng)的中間層,以保障核心層與表現(xiàn)層功能的實(shí)現(xiàn),基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)系統(tǒng)支撐層,其功能主要包括:(1)快速檢索,即在異構(gòu)、分布的海量資源中實(shí)現(xiàn)信息的快速、準(zhǔn)確獲??;(2)深度分析,通過對(duì)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中“檔案館——用戶”關(guān)系進(jìn)行深度挖掘,提供用戶所需服務(wù)并分析預(yù)測(cè)未來需求;(3)深度交互,即在泛在、互聯(lián)的環(huán)境下推動(dòng)用戶需求的智能感知和檔案資源的即時(shí)處理、即時(shí)分析、即時(shí)響應(yīng),實(shí)現(xiàn)用戶需求與檔案資源之間的雙向理想控制;(4)跟蹤反饋,持續(xù)關(guān)注服務(wù)質(zhì)量和用戶需求,對(duì)用戶行為狀態(tài)、行為內(nèi)容、行為習(xí)慣進(jìn)行有效跟蹤并及時(shí)反饋,提升服務(wù)品質(zhì)和用戶忠誠度;(5)安全保障,運(yùn)用相關(guān)技術(shù)與模型提前發(fā)現(xiàn)系統(tǒng)風(fēng)險(xiǎn),使信息安全防護(hù)由被動(dòng)的事中評(píng)估、事后處置模式轉(zhuǎn)變?yōu)橹鲃?dòng)的事前自動(dòng)評(píng)估預(yù)測(cè)和應(yīng)急處理模式。
(三)表現(xiàn)層功能
表現(xiàn)層是核心層與支撐層的外化和具化,是基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)系統(tǒng)服務(wù)的具體表現(xiàn),其主要功能包括:(1)智慧服務(wù),通過對(duì)海量數(shù)據(jù)的收集處理,從中獲得知識(shí)并提升能力,構(gòu)建一個(gè)充滿智慧的數(shù)據(jù)管理、數(shù)據(jù)服務(wù)和數(shù)據(jù)創(chuàng)新時(shí)代;(2)精準(zhǔn)營(yíng)銷,通過用戶定位、群體細(xì)分、行為分析、情緒分析等手段,精準(zhǔn)掌握用戶需求,開展個(gè)性化營(yíng)銷服務(wù),更好地滿足用戶需求;(3)趨勢(shì)預(yù)測(cè),通過對(duì)海量資源的分析,檔案館不僅能滿足用戶當(dāng)前需求,更可以預(yù)測(cè)和分析將來會(huì)發(fā)生什么,從而更好地改進(jìn)自身服務(wù)及應(yīng)對(duì)未來挑戰(zhàn);(4)自動(dòng)推送,通過精準(zhǔn)感知用戶需求,將有效組織的信息和服務(wù)主動(dòng)推送給用戶,提高檔案館對(duì)用戶需求的響應(yīng)能力,促使檔案館由數(shù)據(jù)被索取者向服務(wù)提供者轉(zhuǎn)變;(5)信息可視化,采用相關(guān)的分析模型,將數(shù)據(jù)之間的邏輯關(guān)系和語義關(guān)系以可視化的方式呈現(xiàn),為用戶提供生動(dòng)、易用的知識(shí)服務(wù)環(huán)境。
三、系統(tǒng)架構(gòu)
作為一項(xiàng)系統(tǒng)工程,基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)是信息服務(wù)全生命周期活動(dòng)中用戶、技術(shù)、資源等的有機(jī)集成和優(yōu)化,涉及數(shù)據(jù)生成、采集、傳輸、處理、分析、應(yīng)用等階段。結(jié)合系統(tǒng)及用戶需求、系統(tǒng)功能及運(yùn)行流程,筆者設(shè)計(jì)了一種基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)平臺(tái)構(gòu)建體系架構(gòu),如圖2所示:
(一)物理層
物理層處于該信息服務(wù)架構(gòu)的最底層,用于布置基本的網(wǎng)絡(luò)環(huán)境,包括服務(wù)器、存儲(chǔ)器、網(wǎng)絡(luò)互連設(shè)備等,是該信息服務(wù)系統(tǒng)的后臺(tái),也是保證各部分正常運(yùn)行的必備模塊。大數(shù)據(jù)時(shí)代的到來,對(duì)計(jì)算機(jī)存儲(chǔ)與計(jì)算的要求越來越高,因利用云計(jì)算的“基礎(chǔ)設(shè)施即服務(wù)(IaaS)”來構(gòu)建基于大數(shù)據(jù)的數(shù)字檔案館的存儲(chǔ)及數(shù)據(jù)中心的應(yīng)用環(huán)境,對(duì)資源層的海量數(shù)據(jù)進(jìn)行存儲(chǔ)和計(jì)算,可以更好地為用戶提供各種服務(wù)。
(二)數(shù)據(jù)層
數(shù)據(jù)層是該服務(wù)架構(gòu)的數(shù)據(jù)中心,用于構(gòu)建和整合基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)全生命周期管理過程中的各種數(shù)據(jù)資源。大數(shù)據(jù)時(shí)代,數(shù)字檔案館的數(shù)據(jù)資源主要由三方面構(gòu)成。一是數(shù)字檔案館館藏,主要源于紙質(zhì)檔案數(shù)字化及電子文件的接收進(jìn)館。這是數(shù)字檔案館信息服務(wù)的主體。隨著檔案信息化的發(fā)展,分散異構(gòu)的數(shù)字檔案館將走向互聯(lián)互通的數(shù)字檔案館群,數(shù)字檔案館將成為社會(huì)上最為重要的數(shù)據(jù)中心之一。二是網(wǎng)絡(luò)信息資源,尤其是電子郵件、社交媒體、網(wǎng)頁等價(jià)值重大、形式多樣的數(shù)據(jù)資源,可借助大數(shù)據(jù)技術(shù)強(qiáng)大的檢索能力,使之成為數(shù)字檔案館的“移動(dòng)館藏”,為用戶提供多元化、人性化的“一站式”信息服務(wù)。此外,還有一種數(shù)據(jù)資源即用戶數(shù)據(jù),長(zhǎng)期未得到重視和有效挖掘。通過對(duì)用戶自身特征、不同偏好、習(xí)慣模式等分析與挖掘,創(chuàng)建滿足用戶需求的個(gè)性化信息環(huán)境,數(shù)字檔案館將極大地提升自身的服務(wù)層次。
(三)平臺(tái)層
平臺(tái)層是該服務(wù)架構(gòu)的處理中心,用于對(duì)數(shù)據(jù)資源進(jìn)行快速高效的數(shù)據(jù)處理,是數(shù)字檔案館信息服務(wù)的前提和基礎(chǔ)。依據(jù)數(shù)據(jù)流轉(zhuǎn)規(guī)律,結(jié)合數(shù)據(jù)處理需求,以提供大數(shù)據(jù)集的組織、分析、決策、展現(xiàn)等功能。數(shù)據(jù)組織即數(shù)據(jù)的有序化與優(yōu)質(zhì)化,主要依據(jù)數(shù)據(jù)生命周期理論,對(duì)元數(shù)據(jù)進(jìn)行管理并通過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)監(jiān)護(hù)等手段來保證數(shù)據(jù)的質(zhì)量與安全;數(shù)據(jù)分析則是通過對(duì)相關(guān)數(shù)據(jù)集中結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行常規(guī)、廣度、深度分析,形成不同緯度、不同粒度、不同功能及不同類型的數(shù)據(jù)子集,最大限度地了解用戶需求及數(shù)據(jù)內(nèi)容;建立在相關(guān)關(guān)系基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心,通過對(duì)分析結(jié)果中用戶需求與數(shù)據(jù)資源的匹配,能夠?qū)Ξ?dāng)前的管理及未來的發(fā)展作出有效決策并通過決策反饋分析實(shí)現(xiàn)決策效果的優(yōu)化;數(shù)據(jù)展現(xiàn)則是信息服務(wù)后臺(tái)處理的最后環(huán)節(jié),通過對(duì)數(shù)據(jù)處理結(jié)果進(jìn)行解釋并進(jìn)行可視化,實(shí)現(xiàn)對(duì)處理結(jié)果的理解。
(四)服務(wù)層
服務(wù)層處于該服務(wù)架構(gòu)中的最高層,是基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)內(nèi)容的集中展示層,因此是整個(gè)系統(tǒng)中最重要的一層。用戶通過Web接入數(shù)字檔案館信息服務(wù)系統(tǒng)后,服務(wù)器對(duì)用戶需求進(jìn)行分析并匹配信息服務(wù)平臺(tái)所提供的各種服務(wù)。在數(shù)據(jù)組織的基礎(chǔ)上,建立“一站式”資源服務(wù)平臺(tái)或數(shù)字資源社區(qū),為用戶提供快捷、簡(jiǎn)單、易用的資源發(fā)現(xiàn)及獲取服務(wù)。在這種由檔案資源、用戶、專家構(gòu)成的開放性、創(chuàng)新性的社區(qū)環(huán)境下,利用群體智慧為特定用戶提供信息服務(wù)的眾包服務(wù)將日益重要。在數(shù)據(jù)分析的基礎(chǔ)上,數(shù)字檔案館不僅提供基于海量分布式資源的精細(xì)化知識(shí)組織輸出,即實(shí)現(xiàn)信息+解決方案的“一攬子”服務(wù),不僅獲得知識(shí),更重要的是基于信息服務(wù)全生命周期對(duì)用戶需求及服務(wù)質(zhì)量進(jìn)行持續(xù)關(guān)注,開展關(guān)聯(lián)服務(wù)、跟蹤服務(wù)、宣傳推廣服務(wù),全面提升數(shù)字檔案館服務(wù)品質(zhì)和用戶忠誠度?;诖髷?shù)據(jù)分析、預(yù)測(cè)及智能服務(wù)決策技術(shù)建立各種模型,不僅能夠有效了解用戶需求、科學(xué)預(yù)測(cè)未來發(fā)展趨勢(shì),還能對(duì)數(shù)字檔案館信息服務(wù)進(jìn)行危機(jī)預(yù)警及風(fēng)險(xiǎn)預(yù)測(cè),以應(yīng)對(duì)未來生存危機(jī)。信息可視化則是通過從抽象數(shù)據(jù)到可視化結(jié)構(gòu)的映射來幫助用戶“在大規(guī)模及復(fù)雜內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解、推理和決策”。[7]從當(dāng)前來看,信息可視化主要是一個(gè)輔助手段,而未來則將會(huì)成為一項(xiàng)重要的服務(wù)內(nèi)容。在信息服務(wù)的過程中,難免會(huì)出現(xiàn)一些偏差,而通過基于大數(shù)據(jù)分析的服務(wù)反饋,將使數(shù)字檔案館信息服務(wù)始終保持活力、暢通。
大數(shù)據(jù)時(shí)代的到來,為數(shù)字檔案館信息服務(wù)的發(fā)展提供了契機(jī),實(shí)現(xiàn)了從傳統(tǒng)信息服務(wù)向知識(shí)服務(wù)及智慧服務(wù)的轉(zhuǎn)變?;诖?,筆者構(gòu)建了一個(gè)基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)模型,力圖推動(dòng)數(shù)字檔案館信息服務(wù)朝著服務(wù)個(gè)性化、決策智能化、推送主動(dòng)化、響應(yīng)敏捷化的智慧服務(wù)轉(zhuǎn)型。然而,基于大數(shù)據(jù)的數(shù)字檔案館信息服務(wù)模型是一項(xiàng)系統(tǒng)工程,涉及數(shù)據(jù)管理水平、數(shù)據(jù)處理技術(shù)及數(shù)據(jù)服務(wù)創(chuàng)新等方面,因此其具體效果還有待實(shí)踐的檢驗(yàn),有待我們的進(jìn)一步努力。
*本文為國(guó)家檔案局項(xiàng)目“面向智慧城市的數(shù)字檔案資源服務(wù)研究”(項(xiàng)目編號(hào):2013-X-30)及國(guó)家社科基金青年項(xiàng)目“智慧城市與數(shù)字檔案資源建設(shè)研究”(項(xiàng)目編號(hào):14CTQ036)的階段性研究成果。
注釋及參考文獻(xiàn):
[1]李云波.檔案館,不妨再活躍點(diǎn)[J].中國(guó)檔案,2012(7):1.
[2]邢一亭,王刊良.需求分析中概念模型影響用戶參與有效性實(shí)驗(yàn)室研究[J].情報(bào)雜志,2011(3):156.
[3]張意軒,于洋.大數(shù)據(jù)時(shí)代的大媒體[N].人民日?qǐng)?bào),2013-01-17,第14版.
[4]周志峰,黃如花.國(guó)外政府開放數(shù)據(jù)門戶服務(wù)功能探析[J].情報(bào)雜志,2013(3):147.
[5]黃曉斌,鐘輝新.基于大數(shù)據(jù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型構(gòu)建[J].情報(bào)雜志,2013(3):38.
[6]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學(xué)出版社,2012:61.
[7]李廣建,楊林.大數(shù)據(jù)視角下的情報(bào)研究與情報(bào)研究技術(shù)[J].圖書與情報(bào),2012(6):5.