国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下海洋檔案數(shù)據(jù)挖掘研究

2017-11-25 10:31:36國家海洋局東海信息中心國家海洋局東海檔案館吳曉文孫杰楊帆
辦公室業(yè)務(wù) 2017年19期
關(guān)鍵詞:國家海洋局檔案館數(shù)據(jù)挖掘

文/國家海洋局東海信息中心(國家海洋局東海檔案館) 吳曉文 孫杰 楊帆

大數(shù)據(jù)背景下海洋檔案數(shù)據(jù)挖掘研究

文/國家海洋局東海信息中心(國家海洋局東海檔案館) 吳曉文 孫杰 楊帆

海洋檔案大數(shù)據(jù)挖掘技術(shù)應(yīng)用于檔案知識(shí)管理是新時(shí)期我國海洋檔案事業(yè)發(fā)展的重要方向。本文闡述了海洋檔案數(shù)據(jù)挖掘的概念,分析其當(dāng)前面臨的問題與挑戰(zhàn),剖析了海洋檔案大數(shù)據(jù)挖掘技術(shù)的表現(xiàn)形式,以滿足海洋檔案多元化信息服務(wù)需求,為探索檔案管理模式由傳統(tǒng)服務(wù)利用向智能化服務(wù)模式的創(chuàng)新和轉(zhuǎn)型提供有益借鑒。

大數(shù)據(jù)技術(shù);海洋檔案;數(shù)據(jù)挖掘

一、引言

伴隨著信息技術(shù)的飛速發(fā)展,各類電子設(shè)備的大量普及,信息化發(fā)展迎來了“大數(shù)據(jù)”時(shí)代。海洋檔案是“藍(lán)色記憶”的守護(hù)者、傳承者,是海洋事業(yè)發(fā)展的重要部分。大數(shù)據(jù)時(shí)代,每個(gè)人都是知識(shí)的生產(chǎn)者、傳播者、利用者,同時(shí)也是檔案的形成者、利用者。檔案不像圖書、文獻(xiàn),所承載的數(shù)據(jù)呈分散形式存在,不會(huì)自動(dòng)形成知識(shí)資源,如何將海量檔案數(shù)據(jù)轉(zhuǎn)變成信息或效用更大的知識(shí)網(wǎng)絡(luò),這就需要海洋檔案工作者和科研工作者共同的勞動(dòng)介入。國家海洋局東海檔案館為我國在三個(gè)海區(qū)設(shè)立的海洋檔案館之一,目前正在尋求與大數(shù)據(jù)開發(fā)公司合作,開發(fā)適合海洋檔案的大數(shù)據(jù)挖掘工具,增強(qiáng)從大數(shù)據(jù)中分析萃取信息的能力,進(jìn)而提高檔案為海洋管理部門決策、業(yè)務(wù)部門科研水平的服務(wù)能力。

二、海洋檔案數(shù)據(jù)挖掘

海洋檔案是各項(xiàng)海洋工作活動(dòng)的記錄和憑證,包含國家機(jī)構(gòu)、社會(huì)組織和個(gè)人在從事海洋管理、科研調(diào)查、資源開發(fā)、公益服務(wù)、對(duì)外合作與交流以及海洋部門黨政工作等活動(dòng)中,直接形成的具有保存價(jià)值的原始記錄,對(duì)服務(wù)國家海洋事業(yè)發(fā)展具有不可替代的作用,是我國檔案界中寶貴的“藍(lán)色財(cái)富”。

大數(shù)據(jù)時(shí)代應(yīng)建立“大檔案”概念,海洋檔案數(shù)據(jù)挖掘(Marine Archives Data Mining),就是從大量的檔案文獻(xiàn)、專業(yè)基礎(chǔ)數(shù)據(jù)、網(wǎng)絡(luò)收集資料、檔案編研資料等不完全的、有噪聲的、模糊的、隨機(jī)的海洋檔案數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解模式的非平凡過程。從廣義上說,數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫的大量數(shù)據(jù)中“挖掘”知識(shí)的過程,能夠有效地解決數(shù)據(jù)和知識(shí)之間的鴻溝,實(shí)現(xiàn)數(shù)據(jù)與知識(shí)的轉(zhuǎn)變、交換。

大數(shù)據(jù)時(shí)代給數(shù)據(jù)挖掘技術(shù)帶來的根本性改變是使數(shù)據(jù)的深度挖掘成為可能,對(duì)大量數(shù)據(jù)進(jìn)行分析處理和智能化挖掘,從管理角度來看,要達(dá)到最優(yōu)的結(jié)果,不僅數(shù)據(jù)要全面、可靠、有價(jià)值,而且需要對(duì)數(shù)據(jù)進(jìn)行深度挖掘。

三、海洋檔案數(shù)據(jù)挖掘面臨的挑戰(zhàn)

數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素。海洋檔案數(shù)據(jù)來源廣泛,業(yè)務(wù)種類繁多,數(shù)據(jù)結(jié)構(gòu)多樣。探索大數(shù)據(jù)挖掘技術(shù)應(yīng)用于海洋檔案,面臨諸多挑戰(zhàn)。

(一)數(shù)據(jù)化與數(shù)字化的辨析與技術(shù)轉(zhuǎn)換。數(shù)據(jù)化是隨著大數(shù)據(jù)技術(shù)的發(fā)展逐漸被人們從數(shù)字化概念中分離并提煉出來的。數(shù)字化檔案在利用檢索上存在一定的局限性,需要用戶明確知道所查找內(nèi)容的出處,并且以數(shù)字圖像呈現(xiàn)的檔案只有依靠用戶閱讀轉(zhuǎn)變?yōu)橛杏玫男畔⒑椭R(shí)。數(shù)據(jù)化檔案則借助OCR光學(xué)字符識(shí)別軟件等數(shù)據(jù)識(shí)別技術(shù)來識(shí)別數(shù)據(jù),使檔案信息能夠被計(jì)算機(jī)處理和分析。我國海洋檔案數(shù)字化建設(shè)經(jīng)過多年的發(fā)展已經(jīng)取得豐碩的成果,各級(jí)海洋檔案館(室)已基本實(shí)現(xiàn)了檔案目錄信息的數(shù)字化甚至檔案信息全文數(shù)字化,例如東海數(shù)字檔案館經(jīng)過5年多的建設(shè)運(yùn)行,已基本實(shí)現(xiàn)電子文件和檔案信息檢索利用。但大多數(shù)的海洋檔案館(室)在檔案數(shù)據(jù)化程度上仍停留在初步探索階段,如何對(duì)紙質(zhì)和數(shù)字圖像等非數(shù)據(jù)化的海洋檔案,通過數(shù)據(jù)識(shí)別技術(shù)轉(zhuǎn)變?yōu)閿?shù)據(jù)化的檔案是大數(shù)據(jù)技術(shù)應(yīng)用于海洋檔案數(shù)據(jù)挖掘亟須解決的難點(diǎn)之一。

(二)海洋檔案中的電子文件在規(guī)范程度上參差不齊。數(shù)據(jù)的輸入形式不統(tǒng)一,涉及語言標(biāo)準(zhǔn)化、數(shù)據(jù)結(jié)構(gòu)規(guī)范化問題對(duì)數(shù)據(jù)深度挖掘產(chǎn)生了阻礙。海洋檔案通常具有信息資源數(shù)據(jù)量大、專業(yè)交叉、融合難度大等特點(diǎn),多數(shù)海洋政企部門現(xiàn)有的海洋檔案業(yè)務(wù)系統(tǒng)與綜合業(yè)務(wù)平臺(tái)、其他應(yīng)用系統(tǒng)之間無法進(jìn)行互聯(lián),形成了信息孤島。同時(shí)越來越多的專業(yè)信息系統(tǒng)、業(yè)務(wù)平臺(tái)和專業(yè)結(jié)構(gòu)數(shù)據(jù)庫無法納入檔案管理范疇或無法提供檔案服務(wù)?!皵?shù)據(jù)海量、信息缺乏”是眾多政企部門在數(shù)據(jù)大集中之后面臨的尷尬問題。目前,大多數(shù)事務(wù)型數(shù)據(jù)庫僅實(shí)現(xiàn)了數(shù)據(jù)錄入、查詢和統(tǒng)計(jì)等較低層次的功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的有用信息,更無法進(jìn)一步通過數(shù)據(jù)分析發(fā)現(xiàn)更高的價(jià)值。這些因素都會(huì)影響到大數(shù)據(jù)挖掘的深度和廣度。

(三)檔案數(shù)據(jù)化方面的行業(yè)技術(shù)規(guī)范仍處于初步探索階段。國家針對(duì)檔案數(shù)字化出臺(tái)了《電子文件歸檔與管理規(guī)范》《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》和《數(shù)字檔案館建設(shè)指南》等標(biāo)準(zhǔn)規(guī)范,但由于海洋學(xué)科和業(yè)務(wù)范圍覆蓋廣泛、縱橫交叉,為檔案數(shù)據(jù)化標(biāo)準(zhǔn)規(guī)范的制定增加了相當(dāng)?shù)碾y度。海洋檔案大數(shù)據(jù)挖掘技術(shù)的應(yīng)用和實(shí)施也因此缺少良好的數(shù)據(jù)質(zhì)量基礎(chǔ)。

四、海洋檔案數(shù)據(jù)挖掘的基礎(chǔ)優(yōu)勢(shì)

在建設(shè)海洋強(qiáng)國戰(zhàn)略目標(biāo)的指引下,我國海洋事業(yè)空前發(fā)展,海洋工作的廣度、頻度和深度不斷拓展,利用海洋檔案的需求也隨之增強(qiáng)。集中統(tǒng)一管理海洋檔案、全面開發(fā)海洋檔案信息資源,已成為國家海洋行政管理和宏觀決策獲取依據(jù)的重要舉措。

傳統(tǒng)的數(shù)據(jù)壁壘、信息孤島對(duì)于新形勢(shì)下海洋檔案應(yīng)用大數(shù)據(jù)挖掘技術(shù)形成難以突破的阻礙和限制。為此,國家海洋局東海檔案館依托我國東海區(qū)“六網(wǎng)合一”的大網(wǎng)絡(luò)格局,探索大數(shù)據(jù)背景下的“大檔案”發(fā)展方向,嘗試在海洋行業(yè)內(nèi)創(chuàng)新性探索建設(shè)區(qū)域性海洋大數(shù)據(jù)中心,當(dāng)好海洋數(shù)據(jù)資料、文獻(xiàn)檔案和信息產(chǎn)品的集成者、加工者、研究者、服務(wù)者??梢?,海洋檔案要實(shí)現(xiàn)數(shù)據(jù)深度挖掘離不開海洋管理和業(yè)務(wù)的“大聯(lián)通”,離不開數(shù)據(jù)與信息的網(wǎng)絡(luò)互通,海洋業(yè)務(wù)及網(wǎng)絡(luò)的互聯(lián)互通對(duì)于打破海洋檔案和檔案信息資源之間存在的傳統(tǒng)數(shù)據(jù)壁壘具有非常大的格局優(yōu)勢(shì)。

五、海洋檔案大數(shù)據(jù)挖掘技術(shù)的表現(xiàn)形式

數(shù)據(jù)挖掘技術(shù)的形式主要分兩種,分別為描述型與預(yù)測(cè)型。在海洋檔案數(shù)據(jù)挖掘中,該兩種表現(xiàn)形式均有重要作用:

(一)描述型數(shù)據(jù)挖掘技術(shù)。描述型數(shù)據(jù)挖掘技術(shù)指的是利用描述的行為將數(shù)據(jù)中存在的規(guī)則進(jìn)行描述,從而根據(jù)數(shù)據(jù)的微觀性特點(diǎn)找出數(shù)據(jù)存在的深層次的、宏觀的知識(shí),并將同一類事物的相同屬性表現(xiàn)在數(shù)據(jù)的概括總結(jié)以及抽象的事物描述中。傳統(tǒng)的海洋檔案服務(wù)比較狹隘和單一,一般情況是在需求明確(如明確知道某份文件)的前提下,檔案人員為其提供一對(duì)一的服務(wù)。通過數(shù)字化手段和數(shù)字檔案館的建設(shè),傳統(tǒng)的海洋檔案服務(wù)開始著重于查全查準(zhǔn),但總的來看服務(wù)單一的現(xiàn)象依然未能得到根本改善。究其原因:一是嚴(yán)重依賴于檔案管理水平,比如著錄的準(zhǔn)確度、詳細(xì)度。二是在跨類別、跨庫檢索上會(huì)有缺陷。通過描述型數(shù)據(jù)挖掘技術(shù)的應(yīng)用,借助聚類和關(guān)聯(lián)手段,可以克服以上缺點(diǎn),實(shí)現(xiàn)館藏信息的主動(dòng)推送和檔案知識(shí)多元服務(wù)。

(二)預(yù)測(cè)型數(shù)據(jù)挖掘技術(shù)。預(yù)測(cè)型數(shù)據(jù)挖掘技術(shù)是指針對(duì)現(xiàn)有的、已存在的數(shù)據(jù)進(jìn)行分析處理,總結(jié)出同一類事物的共同屬性,并預(yù)測(cè)在未來一段時(shí)間內(nèi)事物的規(guī)律。該種方法一方面可以應(yīng)用在海洋專業(yè)數(shù)據(jù)檔案的挖掘分析,針對(duì)海洋專業(yè)數(shù)據(jù),如風(fēng)、浪、潮、流,通過專用的模型對(duì)歷史資料進(jìn)行分析,并發(fā)布各種預(yù)報(bào)類產(chǎn)品。在實(shí)際工作中,這種方法已經(jīng)得到了大量的應(yīng)用,如海洋預(yù)報(bào)中心發(fā)布的海浪預(yù)報(bào)、臺(tái)風(fēng)路徑分析等。另一方面,通過檔案資源的深入挖掘,整合真正意義上的海洋大數(shù)據(jù)庫,對(duì)海洋事務(wù)性檔案進(jìn)行預(yù)測(cè)性挖掘,通過海洋檔案大數(shù)據(jù)庫建立,使用模型工具進(jìn)行挖掘,如根據(jù)海域使用論證檔案、海域管理相關(guān)的文書檔案、海監(jiān)行政執(zhí)法檔案以及調(diào)查檔案中的檔案信息進(jìn)行海域使用論證行為、海域?qū)徟袨椤⒑S蜻`法行為及處罰行為的大數(shù)據(jù)分析,可以為海洋行政管理提供決策支持。

[1]國家海洋局.海洋檔案管理規(guī)定[Z].1999.

[2]張文元,張倩.大數(shù)據(jù)技術(shù)與檔案數(shù)據(jù)挖掘[J].檔案管理,2016(2):33-35.

[3]孔樂佳,盧宏偉.大數(shù)據(jù)思維下的檔案資源數(shù)據(jù)挖掘[J].蘭臺(tái)世界,2016(17):28-29.

[4]於立勇.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用在檔案信息管理系統(tǒng)中的探討[J].電腦知識(shí)與技術(shù),2012(01):33-34.

[5]彭皖民.基于用戶檔案管理的數(shù)據(jù)挖掘分析[J].河南科技,2008(04):89-90.

[6]欒立娟,盧健,劉佳.數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2015(01):35-36.

本文為2016年國家海洋局東海分局青年科技基金“大數(shù)據(jù)技術(shù)與海洋檔案數(shù)據(jù)挖掘應(yīng)用研究”(項(xiàng)目編號(hào):201615)的研究成果】

猜你喜歡
國家海洋局檔案館數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
關(guān)于縣級(jí)檔案館館藏檔案開發(fā)利用的思考
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
全省部分檔案館新館掠影
浙江檔案(2017年10期)2017-03-31 06:27:31
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
when與while檔案館
國家海洋局確定2014年十大海洋科技重點(diǎn)工作
水道港口(2014年1期)2014-04-27 14:14:35
基于GPGPU的離散數(shù)據(jù)挖掘研究
我國主要省份風(fēng)暴潮災(zāi)情損失對(duì)比分析
科隆檔案館突然坍塌
全椒县| 旅游| 乐都县| 灌南县| 资兴市| 安福县| 平顶山市| 富顺县| 鄱阳县| 怀柔区| 平原县| 孟村| 政和县| 伊川县| 罗平县| 大洼县| 阿坝县| 徐水县| 庆安县| 岗巴县| 札达县| 上林县| 揭阳市| 洪湖市| 本溪市| 平定县| 石柱| 寻甸| 南皮县| 罗田县| 安顺市| 顺昌县| 金阳县| 庆阳市| 龙门县| 苏尼特右旗| 辽阳市| 枣庄市| 洪泽县| 淮南市| 宜章县|