王蘭成 劉曉亮 黃永勤
(中國人民解放軍南京政治學(xué)院上海校區(qū)信息管理系,上海,200433)
當(dāng)前,全球邁入大數(shù)據(jù)時代,數(shù)據(jù)的重要性已引起整個社會的極大關(guān)注,成為應(yīng)用服務(wù)創(chuàng)新的重要源泉[1,2]。其主要原因是可以廣泛挖掘利用的數(shù)據(jù)量巨大,并迫切需要將這些數(shù)據(jù)轉(zhuǎn)換為可用的信息與知識。與以往相比,大數(shù)據(jù)背景下要求從數(shù)量更為巨大、結(jié)構(gòu)繁多的數(shù)據(jù)中挖掘出隱藏在背后的規(guī)律,揭示數(shù)據(jù)的真實(shí)價值,發(fā)揮數(shù)據(jù)的最大化價值。以互聯(lián)網(wǎng)為代表新媒體中的網(wǎng)站、論壇、博客、微博等提供的海量數(shù)據(jù),同樣受到廣泛關(guān)注,成為檔案開發(fā)與利用的新型資源。
檔案信息化初期,檔案館主要通過檔案網(wǎng)站發(fā)布數(shù)字化加工的檔案信息實(shí)現(xiàn)信息服務(wù),這種方式存在信息資源匱乏,服務(wù)方式單一,資源利用效率不高,編研工作缺乏成效的缺點(diǎn)[3,4]。僅利用檔案網(wǎng)站發(fā)布原生信息的工作服務(wù)模式已難以有效滿足用戶的信息需求。同時,Web信息激增,搜索引擎應(yīng)運(yùn)而生并快速發(fā)展,雖然在一定程度上緩解了查閱檔案信息不便的矛盾。然而,從檔案利用的角度,大多搜索引擎的信息組織與標(biāo)引缺乏控制,冗余重復(fù)信息過多,各類信息容易混雜無序;信息涉及面過廣,缺乏信息深度挖掘;分類標(biāo)準(zhǔn)缺乏系統(tǒng)性與規(guī)律性,都會造成用戶使用不便,并不能有效滿足檔案用戶與工作者的需求,特別是檔案研究者的需求。所以,大數(shù)據(jù)背景下開發(fā)利用互聯(lián)網(wǎng)信息資源既是檔案信息化建設(shè)中的戰(zhàn)略性步驟,也是新媒體環(huán)境下有效建設(shè)與利用檔案信息資源的必然選擇,亟需對互聯(lián)網(wǎng)檔案信息資源的開發(fā)利用進(jìn)行理論研究與應(yīng)用探索。文章面向新媒體檔案資源建設(shè),對互聯(lián)網(wǎng)檔案信息資源整合與利用過程中的方法技術(shù)等相關(guān)問題進(jìn)行研究與分析,為有效開發(fā)利用互聯(lián)網(wǎng)檔案資源,改進(jìn)與完善現(xiàn)有檔案信息化工作的方法模式提供參考與啟示。
傳統(tǒng)檔案服務(wù)工作通過對檔案進(jìn)行收集、整理、編研等過程,將檔案及檔案相關(guān)產(chǎn)品提供給用戶,實(shí)現(xiàn)檔案信息共享。檔案館作為檔案事業(yè)的主體,在檔案文獻(xiàn)(紙質(zhì)或是電子)的組織與服務(wù)方面積累了豐富的經(jīng)驗(yàn),為社會服務(wù)、科研活動和學(xué)術(shù)交流提供了有力支持。隨著信息交流方式的不斷演進(jìn),以互聯(lián)網(wǎng)為代表的新興媒體涌現(xiàn)出海量的網(wǎng)站、論壇、微博等數(shù)據(jù)資源。這就要求檔案館構(gòu)建新型的、分布式的和整合式的具有新媒體信息資源開發(fā)與應(yīng)用功能的數(shù)字檔案館。新媒體下的數(shù)字檔案館既包括傳統(tǒng)數(shù)字檔案館的各類處理、管理、檢索等服務(wù)功能,又包括數(shù)據(jù)采集、數(shù)據(jù)可視化、數(shù)據(jù)抽取、數(shù)據(jù)集成、信息標(biāo)引、文本分類聚類等數(shù)據(jù)分析挖掘服務(wù)功能,其基本結(jié)構(gòu)如圖1所示。一定程度上,新媒體數(shù)字檔案館表現(xiàn)為互聯(lián)網(wǎng)檔案信息資源開發(fā)系統(tǒng)及服務(wù)平臺,并不斷向著數(shù)據(jù)密集型服務(wù)范式轉(zhuǎn)換發(fā)展,數(shù)據(jù)的服務(wù)支撐作用始終作用于整個檔案信息服務(wù)。
圖1 數(shù)字檔案館系統(tǒng)結(jié)構(gòu)
互聯(lián)網(wǎng)檔案信息資源開發(fā)系統(tǒng)及服務(wù)平臺,一般由檔案信息采集工具、檔案信息分析工具、檔案信息發(fā)布平臺和檔案信息服務(wù)引擎 AIS(Archive Information Server)、檔案信息集成接口等五部分組成。其系統(tǒng)架構(gòu)如圖2所示。整個系統(tǒng)的工作流程是:(1)信息采集器從互聯(lián)網(wǎng)大型(檔案)網(wǎng)站、論壇、博客等信息源采集信息,并存儲到AIS;(2)檔案信息分析工具對AIS中的檔案信息進(jìn)行智能分析和加工;(3)檔案信息發(fā)布平臺將經(jīng)過加工處理的檔案信息發(fā)布至Web界面;(4)信息集成接口提供AIS與已有檔案信息網(wǎng)信息資源間的訪問、整合與交互。
數(shù)據(jù)是檔案服務(wù)的核心資源,數(shù)字檔案館必然是以數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)服務(wù)系統(tǒng)。檔案館的核心競爭力不僅僅是對檔案文件信息的競爭,多種類型數(shù)據(jù)的擁有、融合、挖掘與利用水平也是檔案行業(yè)內(nèi)部以及與其他行業(yè)之間競爭的關(guān)鍵因素。新媒體創(chuàng)造了前所未有的數(shù)據(jù)資源,加強(qiáng)新媒體數(shù)據(jù)資源的采集與擁有必然是檔案館資源建設(shè)的重要工作內(nèi)容。新媒體的信息數(shù)量是海量的,信息類型、來源渠道和獲取方式是多元的。面向檔案館信息資源開發(fā)利用,這些數(shù)據(jù)資源主要可分為業(yè)務(wù)數(shù)據(jù)、用戶數(shù)據(jù)和語義數(shù)據(jù)等三種類型。
檔案形成的根本目的是為了對已經(jīng)發(fā)生的事物進(jìn)行記錄,其根本屬性體現(xiàn)為歷史記錄性,是歷史的憑證。不僅檔案本身包含著一定特征信息,而且與形成檔案文件所描述的活動、事件等歷史活動一樣,它是與其他檔案文件密切聯(lián)系在一起的。單靠一個檔案館的人力、物力、財力,難以形成具有完備性、系統(tǒng)化的資源體系。比如,上海檔案信息網(wǎng)的檔案政務(wù)中,上海地方政府的檔案文件相對較多,但不包含制訂這些政策法規(guī)依據(jù)的各類國家級文件,并且這些文件也只是包含上海地區(qū)的部分公開政務(wù)文件。檔案館需要借助互聯(lián)網(wǎng)不斷豐富與自身業(yè)務(wù)服務(wù)目標(biāo)相關(guān)的各類信息資源,擴(kuò)展各類檔案業(yè)務(wù)數(shù)據(jù)。這些信息資源可以來自國家、軍隊、地方政府的官方網(wǎng)站,也可以是大型的知名商業(yè)網(wǎng)站、新聞網(wǎng)站、論壇與博客等。
圖2 新媒體檔案信息服務(wù)平臺系統(tǒng)結(jié)構(gòu)
通過對用戶使用、行為數(shù)據(jù)的分析不僅可以了解用戶行為、意愿、業(yè)務(wù)需求、知識應(yīng)用能力,更可以對用戶的信息需求與行為過程進(jìn)行分析和預(yù)測,從而獲得檔案館所需的決策參考,幫助檔案館應(yīng)對當(dāng)前所面臨的用戶流失、服務(wù)方式匱乏等實(shí)際問題。用戶數(shù)據(jù)主要是指用戶的身份標(biāo)識、查詢關(guān)鍵詞以及各種輸入流與點(diǎn)擊流。這些數(shù)據(jù)是檔案利用者的個人信息與使用記錄,體現(xiàn)著用戶的信息需求與使用習(xí)慣。通過分析這些數(shù)據(jù)能夠發(fā)現(xiàn)檔案利用者的訪問模式,有針對性地進(jìn)行用戶推薦,構(gòu)建與優(yōu)化檔案資源及各種服務(wù)功能。新媒體的不斷應(yīng)用與普及,使得用戶數(shù)據(jù)的來源不單是調(diào)查問卷、檔案網(wǎng)站,而且包含各類可訪問的搜索引擎、微博等社會化媒體中提供的直接與間接用戶數(shù)據(jù)。比如,谷歌全球熱門搜索關(guān)鍵字排行榜、百度風(fēng)云榜等發(fā)布的用戶搜索關(guān)鍵詞與用戶行為記錄,微博用戶關(guān)注的信息類別、社群關(guān)系等等,都可用于檔案信息資源建設(shè)中的主題信息決策,查詢優(yōu)化、用戶推薦服務(wù)的優(yōu)化與改進(jìn)等等。
圖3 新媒體檔案信息的開發(fā)處理流程
任何一個計算機(jī)系統(tǒng),如果希望能夠理解人類自然語言,就必須與人一樣具備語義知識。利用語義知識提高計算機(jī)的語義理解能力,就顯得非常必要[4]?,F(xiàn)有的檔案信息化研究與實(shí)踐工具中,語義支持的缺失是一個普遍問題,應(yīng)用語義資源存在廣泛需求。當(dāng)前著名的有本體知識庫有WordNet、FrameNet等,面向中文的知網(wǎng)HowNet。雖然這些語義知識準(zhǔn)確程度較高,但存在構(gòu)建成本高、數(shù)量有限、更新慢的問題?;ヂ?lián)網(wǎng)時代,信息的來源、數(shù)量和形式發(fā)生了根本性變化,完全人工方式獲取語義知識已經(jīng)不能滿足實(shí)際應(yīng)用的要求。
維基百科、百度百科、互動百科等免費(fèi)的新媒體資源由于覆蓋面廣、準(zhǔn)確度高、結(jié)構(gòu)化信息豐富、獲取成本低、動態(tài)更新等特點(diǎn),已經(jīng)成為知識挖掘、自然語言處理研究以及各種信息處理任務(wù)中可替代傳統(tǒng)語義知識庫的語義知識來源。從百科知識中,能夠自動抽取同義詞、近義詞、相關(guān)詞、上下位以及屬分關(guān)系,可廣泛運(yùn)用于信息檢索、詞義消歧、文本聚類與文本分類等諸多信息處理任務(wù),有效增強(qiáng)信息分析處理的智能化程度,提高用戶獲取知識的效率。
數(shù)據(jù)資源中心的建立為檔案信息資源的開發(fā)利用提供基礎(chǔ)。新媒體數(shù)據(jù)中蘊(yùn)含的檔案價值需要利用一定的技術(shù)進(jìn)行分析、處理與重組,才能從中獲取數(shù)據(jù)再利用與創(chuàng)新的價值。新媒體數(shù)據(jù)來源廣泛,應(yīng)用需求和數(shù)據(jù)類型也都不盡相同,但是最基本的數(shù)據(jù)處理流程基本一致。檔案信息資源的開發(fā)利用處理主要包括以下部分,如圖3所示。
圖4 新媒體檔案信息加工分析中的主要技術(shù)
首先,從廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行清洗、抽取和集成,按照一定標(biāo)準(zhǔn)存儲數(shù)據(jù),構(gòu)成可用于數(shù)據(jù)分析的原始數(shù)據(jù);接著,組織和提取數(shù)據(jù)及其屬性特征,轉(zhuǎn)換數(shù)據(jù)為易于分析的形式并載入文件系統(tǒng)、數(shù)據(jù)倉庫或分布式存儲與處理模型;接著,對數(shù)據(jù)進(jìn)行挖掘分析,從中提取有益的模式或知識。同時,結(jié)合語義知識庫實(shí)現(xiàn)數(shù)據(jù)的語義處理,提高分析質(zhì)量;最后,在系統(tǒng)與用戶之間進(jìn)行交互評估,并以不同的形式對挖掘結(jié)果進(jìn)行可視化,為終端用戶服務(wù)。
這一處理流程需要綜合多種信息技術(shù),利用各種分析挖掘技術(shù)處理各類信息,將各種加工分析結(jié)果存入檔案信息服務(wù)引擎,為用戶提供信息瀏覽檢索服務(wù)以及各類分析挖掘結(jié)果,其中的主要技術(shù)如圖4所示。
數(shù)據(jù)集成把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從中提取出關(guān)系和實(shí)體,并經(jīng)過關(guān)聯(lián)和聚合之后采用指定的標(biāo)準(zhǔn)來存儲數(shù)據(jù),從而為應(yīng)對數(shù)據(jù)來源廣泛、類型繁雜而給數(shù)據(jù)處理帶來的挑戰(zhàn)[3]。為保證數(shù)據(jù)質(zhì)量,同時需要對數(shù)據(jù)進(jìn)行清洗。檔案信息資源集成的現(xiàn)實(shí)目標(biāo)主要是,將采集開發(fā)建設(shè)的互聯(lián)網(wǎng)檔案信息與現(xiàn)有在線的檔案信息網(wǎng)進(jìn)行對接,整合和規(guī)劃互聯(lián)網(wǎng)采集的檔案信息資源與現(xiàn)有檔案信息網(wǎng)中的數(shù)據(jù),使其成為內(nèi)容集中準(zhǔn)確、查詢快速簡捷、利用方便系統(tǒng)的檔案信息資源整體,提高檔案工作者研究交流的水平和實(shí)現(xiàn)檔案網(wǎng)站信息的增值服務(wù)。目前較成熟的數(shù)據(jù)集成方案有:聯(lián)邦數(shù)據(jù)庫、基于中間件模型和數(shù)據(jù)倉庫等方法[5]。數(shù)據(jù)集成技術(shù)不是一項全新的技術(shù),已有較多且成熟的解決方案,這里不作贅述。
傳統(tǒng)的數(shù)據(jù)庫比較適合結(jié)構(gòu)化數(shù)據(jù)的存儲,融合新媒體的檔案信息資源會遠(yuǎn)超單機(jī)容納的數(shù)據(jù)量。并且,在實(shí)際的存儲處理中幾乎不可能“One size fits one”,即一種統(tǒng)一的數(shù)據(jù)存儲方式能夠適應(yīng)所有應(yīng)用。因此,必須在傳統(tǒng)數(shù)據(jù)庫的基礎(chǔ)上融合分布式存儲方式。比如,典型的Hadoop和NoSQL(Not Only SQL)都屬于分布式存儲技術(shù)的范疇。與傳統(tǒng)數(shù)據(jù)庫相互補(bǔ)充,能夠更好地適用于不同應(yīng)用場景[6,7]。在存儲格式上,根據(jù)檔案文件特點(diǎn),盡量采用檔案界通用的EAD(檔案編碼著錄,Electronic Archival Description)著錄標(biāo)準(zhǔn)。按照EAD對檔案的各種特征進(jìn)行記錄,將題名、形成時間、文種、載體、秘級、主題詞、正文等描述特征以元數(shù)據(jù)格式存儲,對于照片、聲像檔案盡量描述其記錄的內(nèi)容。
圍繞檔案信息資源開發(fā)利用的信息分析挖掘任務(wù)主要有:
1.檔案信息聚類。文本聚類是在未知分類的情況下,使文本自動組成有意義分組的數(shù)據(jù)挖掘技術(shù)。通過聚類算法,以檔案不同的屬性作為聚類特征,使檔案文件形成多個不同類別的檔案。通過統(tǒng)計檔案文件的共性特征、分布模式和頻度,幫助用戶快速發(fā)現(xiàn)檔案信息中有價值的信息,提高對檔案記載內(nèi)容的客觀認(rèn)識程度。比如,根據(jù)時間、人物、地點(diǎn)、事件、活動、學(xué)科等檔案特征及其組合聚集為不同的文件集合,對檔案知識間的邏輯聯(lián)系進(jìn)行重組,有助于發(fā)掘隱藏在檔案文件間的邏輯聯(lián)系與隱性價值。
2.檔案信息分類。按照已有分類標(biāo)準(zhǔn),比如《中國檔案分類法》、《中圖法》等,利用分類算法使采集到的互聯(lián)網(wǎng)檔案信息自動劃分入不同類別,自動建立檔案資源分類體系;以用戶指定關(guān)鍵詞組合或者自動抽取的檔案信息中的關(guān)鍵要素作為類別標(biāo)簽,標(biāo)引采集的檔案信息。同時,在檔案聚類分類時,充分利用語義知識減少語義特征稀疏對聚分類所帶來的影響。
3.關(guān)聯(lián)分析。檔案文件之間存在緊密的關(guān)聯(lián)關(guān)系(泛指各種邏輯關(guān)系),利用關(guān)聯(lián)分析挖掘檔案文件中的大量相關(guān)聯(lián)系,發(fā)現(xiàn)檔案中記錄事物間的相互關(guān)聯(lián)性或相互依賴性。自動將檔案的相關(guān)文件關(guān)聯(lián)在一起,幫助用戶多方位、多角度地掌握檔案記錄的各種信息。這些關(guān)聯(lián)分析主要包括:文件注解,按記錄事物的發(fā)生順序、因果關(guān)系、引用關(guān)系、人物關(guān)系等有序組織檔案文件,從不同角度展現(xiàn)檔案文件的內(nèi)在聯(lián)系。比如,將某項地方政策法規(guī)的形成依據(jù)、變化發(fā)展相關(guān)文件關(guān)聯(lián)起來,為用戶提供檔案內(nèi)容上的系統(tǒng)化知識。為檔案文件內(nèi)容中的事件、引用的法規(guī)條例進(jìn)行注解,并與相應(yīng)概念描述文件進(jìn)行關(guān)聯(lián);文件內(nèi)容關(guān)聯(lián),按照內(nèi)容相關(guān)程度顯示關(guān)聯(lián)文件;要素關(guān)聯(lián),主要處理與顯示檔案文件記錄的地點(diǎn)、人物、機(jī)構(gòu)等要素間的關(guān)聯(lián)關(guān)系。
4.專報處理。綜合以上功能形成經(jīng)過分析、篩選過的各種檔案專題或主題信息,為檔案研究工作提供強(qiáng)有力的數(shù)據(jù)支持。
數(shù)據(jù)分析挖掘是檔案信息資源開發(fā)處理中的核心業(yè)務(wù)。然而,數(shù)據(jù)的超高維問題對現(xiàn)有的數(shù)據(jù)分析挖掘技術(shù)造成很大的挑戰(zhàn)。MapReduce是Google最早采用的應(yīng)用于批處理大數(shù)據(jù)的計算模型,實(shí)際中可以將一些經(jīng)典算法,如決策樹、K-Means等移植在MapReduce框架,提高處理海量數(shù)據(jù)與高維計算的效率[9]。同時,新媒體環(huán)境下的檔案數(shù)據(jù)體量大、類型復(fù)雜且混雜噪音,容易增加分類等計算結(jié)果的不穩(wěn)定性。組合方法對于不穩(wěn)定的分類器是一個較好的解決方法。比如,聚集多個分類器的裝袋和提升方法的計算結(jié)果優(yōu)于單個分類器的性能。同時,這種組合方法易于并行處理,為處理海量數(shù)據(jù)時提高訓(xùn)練和測試速度提供了一定便利。
信息檢索是檔案信息化服務(wù)的最基本功能。檔案信息檢索需要滿足精確性和便捷性的目標(biāo)需求。比如,提供多種檢索入口,能夠按照屬性字段檢索、關(guān)鍵詞檢索、布爾邏輯組合檢索、二次檢索(漸進(jìn)檢索)等等。同時,實(shí)踐中需要充分利用查詢轉(zhuǎn)換與語義資源提高檢索性能與用戶體驗(yàn)。
查詢轉(zhuǎn)換包括一系列技術(shù),這些技術(shù)用于在生成排序文檔之前和之后改善初始查詢結(jié)果,主要包括拼寫檢查、查詢推薦、查詢擴(kuò)展等等。拼寫檢查、查詢推薦主要是生成與用戶初始查詢相似的輸出,提供一些候選查詢詞,這些候選查詢是糾正錯誤或者是對用戶信息需求的更規(guī)范描述。這些詞語的來源可以是查詢?nèi)罩?、語義知識庫中的同義詞等等。查詢擴(kuò)展是在用戶查詢詞中增加一些額外的詞匯的技術(shù)。語義知識是查詢擴(kuò)展的有效智力資源。解決同義詞、近義詞問題的一個有效方法就是利用語義知識。利用查詢詞的同義詞、近義詞,能夠提高查詢結(jié)果的召回率;同時,添加查詢的強(qiáng)相關(guān)詞以限定查詢主題范圍,并指定擴(kuò)展查詢詞各項的權(quán)重系數(shù),能夠提高查詢準(zhǔn)確率。這些都是對語義知識的典型應(yīng)用。另外,相關(guān)反饋也是一種常用的擴(kuò)展方法,利用用戶點(diǎn)擊的相關(guān)文件中出現(xiàn)的詞語對查詢進(jìn)行擴(kuò)展[10]。
超大規(guī)模文檔集的索引,需要考慮分布式處理框架。比如,MPI、OpenMP等計算平臺,其中最典型的計算平臺MapReduce為并行計算提供了簡單、高效的計算模型和運(yùn)行環(huán)境,實(shí)際中也較為易用[11,12]。大規(guī)模數(shù)據(jù)的分布式計算可能需要將一些單機(jī)應(yīng)用的串行算法進(jìn)行并行化改造,使其能夠并行地運(yùn)行于計算機(jī)集群中,加快查詢文檔結(jié)果相關(guān)性排序方面的速度,提升對大規(guī)模數(shù)據(jù)的處理能力。另外,文件索引與內(nèi)存索引的分布也是影響查詢速度的重要原因。分布式索引包含文檔式分布與詞項分布式,前者每臺索引服務(wù)器只索引部分文檔集,但共享一些詞項的全局信息。比如,共享詞項在整個文檔集合出現(xiàn)的頻率信息;后者則在整個集群建立單一索引,每臺服務(wù)器包含整個文檔的部分詞項索引信息。詞項分布式較為復(fù)雜,并且一些研究已經(jīng)證實(shí)詞項分布式對于提高檢索效率的貢獻(xiàn)不大。同時,分布式的存儲與索引也符合檔案災(zāi)備體系的構(gòu)建要求[10,13]。
數(shù)據(jù)分析與處理機(jī)制對用戶來講是一個黑匣,用戶無法了解分析方法、分析結(jié)果的局限性或者有效性。而用戶往往更關(guān)心數(shù)據(jù)分析的結(jié)果,如果沒有采用適當(dāng)解釋方法或形式,處理的結(jié)果可能讓用戶難以理解。這類情況會影響檔案信息的使用效能,甚至誤導(dǎo)用戶對各種結(jié)果的理解。數(shù)據(jù)可視化是以圖形或表格的形式顯示信息,有助于用戶直觀理解各類數(shù)據(jù)分析結(jié)果。然而,海量數(shù)據(jù)處理時,分析結(jié)果中的關(guān)聯(lián)關(guān)系可能會極其復(fù)雜,數(shù)據(jù)可視化的功效會受到一些制約。比如,文件關(guān)聯(lián)網(wǎng)絡(luò)太大,并且包含復(fù)雜和稠密的鏈接,用戶僅僅利用可視化的網(wǎng)絡(luò)結(jié)構(gòu)圖從中發(fā)現(xiàn)感興趣特征并不是一件容易的事情。
交互式數(shù)據(jù)可視化是進(jìn)行知識發(fā)現(xiàn)的一種方法,包括數(shù)據(jù)可視化、挖掘結(jié)果與過程可視化和人機(jī)交互功能。在一定程度上,讓用戶了解和參與具體的數(shù)據(jù)分析過程,利用交互式的數(shù)據(jù)分析過程來引導(dǎo)用戶逐步開展檔案查詢與分析任務(wù)。通過數(shù)據(jù)立方體、趨勢圖、標(biāo)簽云等圖形、圖標(biāo)等可視化方式使分析過程和結(jié)果與用戶交互,便于用戶定制處理任務(wù),理解挖掘結(jié)果。比如,限制文檔網(wǎng)絡(luò)圖中節(jié)點(diǎn)的數(shù)量,顯示用戶指定的高權(quán)重節(jié)點(diǎn),使可視化圖形簡化趨于用戶要求并幫助用戶理解。
本文圍繞互聯(lián)網(wǎng)新媒體檔案信息資源建設(shè)與服務(wù),介紹了新媒體數(shù)字檔案館的主要特征,闡述了新媒體檔案信息資源建設(shè)的來源構(gòu)成與特點(diǎn),分析探討了新媒體網(wǎng)上檔案信息資源開發(fā)建設(shè)中的信息采集、信息處理和信息服務(wù)等相關(guān)方法、技術(shù)及其研究重點(diǎn),有助于推進(jìn)檔案信息化理論與應(yīng)用創(chuàng)新發(fā)展,為檔案信息化建設(shè)中應(yīng)用新媒體數(shù)據(jù)資源與相關(guān)服務(wù)提供借鑒與指導(dǎo)。
*本文系國家檔案局2013年科研項目“基于大數(shù)據(jù)分析平臺的檔案資源整合與模式研究”(項目編號:2013-X-38)的研究成果之一。
[1]Viktor Mayer-Sch?nberger,Kenneth Cukier.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].浙江:人民出版社,2012.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013,50(1):146-169.
[3]王運(yùn)彬,王小云,陳燕.檔案信息資源配置的目標(biāo)定位研究[J].檔案學(xué)研究,2012(6):36-38.
[4]戴中秋,趙寧燕.檔案信息化建設(shè)中的數(shù)據(jù)管理[J].檔案與管理,2012(3):23-25.
[5]王蘭成,劉曉亮.維基百科知網(wǎng)的構(gòu)建研究與應(yīng)用進(jìn)展[J].情報資料工作,2012(5):56-60.
[6]王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機(jī)學(xué)報,2011,34(10):1741-1752.
[7] Hadoop[EB/OL].http://hadoop.apache.org/index.html,2012-10-02.
[8]黃哲學(xué),曹付元,李俊杰,等.面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)關(guān)鍵技術(shù)研究[J].網(wǎng)絡(luò)新媒體技術(shù),2012(6):20-26.
[9]陳康,向勇,喻超.大數(shù)據(jù)時代機(jī)器學(xué)習(xí)的新趨勢[J].電信科學(xué),2012(12):88-95.
[10]劉兵.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2010.
[11]Yasin N.Silva,Jason M.Reed:Exploiting MapReduce-based similarity joins[C].Proc of SIGMOD 2012.New York:ACM,2012:693-696.
[12]He Yongqiang,Lee Rubao,Huai Yin,et al.RCFile:A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems[C].Proceeding of the 24th International Conference on Data Engineering.In Hannover,Germany.2011:1199-1208.
[13]唐躍進(jìn),萬麗娟.數(shù)字檔案信息存儲與災(zāi)難恢復(fù)研究[J].檔案學(xué)通訊,2011(2):16-19