魏翠紅
摘 要:文章介紹了大數(shù)據(jù)及大數(shù)據(jù)共享的含義,詳細(xì)介紹了實(shí)現(xiàn)大數(shù)據(jù)共享的硬件及軟件條件。在硬件方面著重介紹了大數(shù)據(jù)中心的模塊建設(shè)方式,在軟件方面比較系統(tǒng)地介紹了大數(shù)據(jù)共享的相關(guān)技術(shù)手段等,對大數(shù)據(jù)相關(guān)立法和政策進(jìn)行了討論和展望,文章緊貼當(dāng)下大數(shù)據(jù)的發(fā)展,在此基礎(chǔ)上積極探索目前還尚未成熟的大數(shù)據(jù)共享領(lǐng)域。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)共享;平臺
1 大數(shù)據(jù)共享的含義
1.1 大數(shù)據(jù)共享介紹
大數(shù)據(jù)共享,是讓不同地方使用不同計(jì)算機(jī)、不同軟件的用戶,即不同終端,按照一定的規(guī)定和安全共享機(jī)制,通過網(wǎng)絡(luò)(局域網(wǎng)或互聯(lián)網(wǎng))等讀取他人共享的數(shù)據(jù)并進(jìn)行各種操作、運(yùn)算、分析和管理的行為。從廣義上理解,大數(shù)據(jù)共享在內(nèi)容上不僅包含了海量數(shù)據(jù)的共享,還涉及到大數(shù)據(jù)軟件程序、大數(shù)據(jù)科學(xué)和工程系統(tǒng)及大數(shù)據(jù)的應(yīng)用實(shí)踐等內(nèi)容。數(shù)據(jù)開放利用程度越高,信息知識作為生產(chǎn)要素就會越高。
1.2 大數(shù)據(jù)共享的意義
大數(shù)據(jù)共享,涉及大數(shù)據(jù)技術(shù)及大數(shù)據(jù)應(yīng)用,在實(shí)際應(yīng)用上大數(shù)據(jù)共享具體體現(xiàn)在海量數(shù)據(jù)的共享、大數(shù)據(jù)平臺的共享、大數(shù)據(jù)技術(shù)的共享和大數(shù)據(jù)應(yīng)用共享。大數(shù)據(jù)共享的特點(diǎn),也更合理地體現(xiàn)了大數(shù)據(jù)自身的重要價(jià)值。大數(shù)據(jù)共享使得不同層次、不同部門信息系統(tǒng)更加合理地進(jìn)行資源配置、節(jié)約社會成本、創(chuàng)造更多價(jià)值,不僅能提高信息資源利用率,避免在信息采集、存貯和管理上的重復(fù)浪費(fèi),有利于更合理安排物力和財(cái)力,發(fā)揮人的更大價(jià)值。從發(fā)展上看,工信部電信研究院政經(jīng)所馬志剛認(rèn)為數(shù)據(jù)開放與共享是提高社會生產(chǎn)力的重要前提,這里所探討的大數(shù)據(jù)共享也更清晰地把數(shù)據(jù)共享這項(xiàng)發(fā)展性的工作落到實(shí)處。
2 大數(shù)據(jù)共享的軟實(shí)力建設(shè)
大數(shù)據(jù)共享軟實(shí)力包含大數(shù)據(jù)共享平臺架構(gòu)之Hadoop技術(shù)、流計(jì)算、數(shù)據(jù)倉庫、信息整合、大數(shù)據(jù)搜索引擎、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用程序開發(fā)、管理系統(tǒng)和共享安全機(jī)制等。
2.1 大數(shù)據(jù)共享平臺架構(gòu)之Hadoop技術(shù)
Hadoop是Apache基金會開發(fā)的一個開源分布式系統(tǒng)基礎(chǔ)架構(gòu)項(xiàng)目, Hadoop主要核心由HDFS、MapReduce組成,包含HBase和Hive等經(jīng)典子項(xiàng)目。Hadoop底部利用分布式存儲系統(tǒng)(HDFS)將文件分布式存儲到硬盤,上部MapReduce將大的數(shù)據(jù)分成小塊逐個分析,再提取出數(shù)據(jù)匯總分析,編寫簡單的需求命令獲得所需數(shù)據(jù)內(nèi)容。
2.2 流計(jì)算
流計(jì)算面對的是存貯在硬盤、內(nèi)存或者其他地方的已存數(shù)據(jù)。流計(jì)算是指數(shù)據(jù)和控制在一個分布式網(wǎng)絡(luò)中以某種流的形式傳遞,網(wǎng)絡(luò)中的節(jié)點(diǎn)對流進(jìn)行處理和分發(fā),同時這些流往往具有高實(shí)時和高流量的特點(diǎn),再形象化一點(diǎn)描述就是在數(shù)據(jù)產(chǎn)生并流入系統(tǒng)時就進(jìn)行處理并馬上得出結(jié)果。因而區(qū)別于以往基于RPC和RMI的分布式系統(tǒng),也區(qū)別于Hadoop的相對靜態(tài)的處理系統(tǒng)。流計(jì)算面對的是沒有存儲下來的實(shí)時的網(wǎng)路數(shù)據(jù)流,計(jì)算意義在于對數(shù)據(jù)挖掘處理后選取可以提取有價(jià)值的信息存儲下來,不會對原始數(shù)據(jù)進(jìn)行存儲,并且數(shù)據(jù)流的價(jià)值隨時間流逝而降低?;趯?shí)時數(shù)據(jù)的流處理是大數(shù)據(jù)發(fā)展到現(xiàn)在已經(jīng)相對成熟的技術(shù)。
2.3 數(shù)據(jù)倉庫
有關(guān)大數(shù)據(jù)的共享,必須依賴一定硬件條件,這里引入數(shù)據(jù)倉庫的概念,數(shù)據(jù)倉庫是一個集成的、面向主題的、隨時間變化、非易失的數(shù)據(jù)集合。數(shù)據(jù)倉庫區(qū)別于數(shù)據(jù)庫,數(shù)據(jù)倉庫相當(dāng)于一個環(huán)境,為用戶提供用于決策支持的非結(jié)構(gòu)化和半結(jié)構(gòu)化的當(dāng)前或歷史數(shù)據(jù)(傳統(tǒng)的操作型數(shù)據(jù)庫中很難或無法得到)組成數(shù)據(jù)倉庫系統(tǒng)的要素簡單概括為數(shù)據(jù)倉庫式數(shù)據(jù)庫、數(shù)據(jù)載入工具、數(shù)據(jù)抽取工具、信息發(fā)布系統(tǒng)、操作型數(shù)據(jù)、外界數(shù)據(jù)、訪問工具、數(shù)據(jù)集市、操縱平臺、元數(shù)據(jù)及管理平臺。
2.4 信息整合
信息整合,是指通過邏輯或者物理的方式把某一范圍內(nèi)多元的、異構(gòu)的、離散的、分布的信息資源,組為一個整體,使其有利于管理、利用和服務(wù)。信息整合包含三種方式,分別是數(shù)據(jù)整合、過程整合及內(nèi)容整合。內(nèi)容整合通過建立一個內(nèi)容管理平臺,進(jìn)而對圖片、多媒體等非結(jié)構(gòu)化信息進(jìn)行編輯、審核、校驗(yàn)以及分類管理,這樣就可以控制信息發(fā)布和與訪問的權(quán)限。數(shù)據(jù)整合將有價(jià)值的數(shù)據(jù)傳遞給分析系統(tǒng)或其他應(yīng)用系統(tǒng),再進(jìn)行信息加工,集合不同的核心業(yè)務(wù)數(shù)據(jù)庫為一個單一的數(shù)據(jù)庫。
2.5 大數(shù)據(jù)搜索引擎
大數(shù)據(jù)搜索引擎基于大數(shù)據(jù)庫,需要具備在大數(shù)據(jù)共享分析中充分發(fā)揮人工智能作用的軟件技術(shù)能力,采用網(wǎng)頁抓取技術(shù)智能地從互聯(lián)網(wǎng)搜集信息,通過對結(jié)構(gòu)化的數(shù)據(jù)、圖表及視頻等非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索,搜索引擎借助Reduce等工具,將數(shù)據(jù)聚合并采取并行處理,供給用戶,構(gòu)建搜索引擎服務(wù)。排序是搜索引擎最關(guān)鍵的技術(shù),排序策略和算法決定了排序效果的優(yōu)劣,其中搜索結(jié)果的排序作用重要,利用關(guān)鍵詞在文檔中出現(xiàn)的頻率和位置以及基于鏈接分析排序等排序。
2.6 大數(shù)據(jù)可視化
大數(shù)據(jù)可視化主要是將收集、存儲的海量數(shù)據(jù)信息通過圖形化等數(shù)據(jù)視覺表現(xiàn)形式進(jìn)行清晰、有效的信息傳遞,在大數(shù)據(jù)共享中既屬于科學(xué)技術(shù)應(yīng)用,也屬于科學(xué)技術(shù)研究,可視化硬件包含圖形工作站及超級可視化計(jì)算機(jī)??梢暬浖?層,分別是操作系統(tǒng)層﹑可視化軟件工具開發(fā)層及行業(yè)性可視化軟件應(yīng)用層。
2.7 大數(shù)據(jù)應(yīng)用程序開發(fā)
大數(shù)據(jù)應(yīng)用程序是指添加、查看、修改和刪除數(shù)據(jù)倉庫指定數(shù)據(jù)庫中數(shù)據(jù)的應(yīng)用程序。大數(shù)據(jù)倉庫應(yīng)用程序一般包括3個部分:一是為應(yīng)用程序提供數(shù)據(jù)的數(shù)據(jù)倉庫;二是實(shí)現(xiàn)與用戶交互的前臺界面;三是實(shí)現(xiàn)具體業(yè)務(wù)的軟件。
2.8 大數(shù)據(jù)共享的管理系統(tǒng)
大數(shù)據(jù)共享的管理系統(tǒng)是大數(shù)據(jù)共享系統(tǒng)的關(guān)鍵系統(tǒng)之一。通過大數(shù)據(jù)共享管理系統(tǒng),可以方便管理者實(shí)現(xiàn)對共享資源的管理、共享關(guān)系的管理及共享行為的管理。其中,共享資源管理包括6類,分別是共享集群命名管理、共享系統(tǒng)模板管理、共享節(jié)點(diǎn)資源管理、共享應(yīng)用命名管理、共享應(yīng)用資源管理、共享用戶狀態(tài)等。
3 結(jié)語
本文主要描述大數(shù)據(jù)共享的平臺軟實(shí)力構(gòu)造,從一個系統(tǒng)化角度去闡述大數(shù)據(jù)共享的技術(shù)需求,為大數(shù)據(jù)共享產(chǎn)業(yè)的運(yùn)作提供了一種建模參考,關(guān)于大數(shù)據(jù)共享的安全保密和法規(guī)政策的研究也會在以后進(jìn)一步討論,本文為大數(shù)據(jù)共享領(lǐng)域的基礎(chǔ)性發(fā)展拋磚引玉。
[參考文獻(xiàn)]
[1]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國防科技,2013(2):18-20.
[2]周楓.大數(shù)據(jù)時代檔案館的特征及發(fā)展策略[J].檔案與建設(shè),2013(8):25-40.
[3]宋永剛.大數(shù)據(jù)時代加快出版業(yè)轉(zhuǎn)型升級的思考[J].中國編輯,2013(5):20-22.
[4]張春磊,楊小牛.大數(shù)據(jù)分析(BDA)及其在情報(bào)領(lǐng)域的應(yīng)用[J].中國電子科學(xué)研究院學(xué)報(bào),2013(1):10-15.
[5]李晨暉,崔建明,陳超泉.大數(shù)據(jù)知識服務(wù)平臺構(gòu)建關(guān)鍵技術(shù)研究[J].情報(bào)資料工作,2013(2):9-13.
[6]王珊,王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011(10):3-15.
Study on Big Data Sharing
Wei Cuihong
(91746 PLA Troops, Beijing 102206, China)
Abstract: This paper analyzes the implement of big data sharing software conditions, actively explore it is not yet mature field of big data sharing, systematically introduces the large data sharing technology, this paper introduces the system, so to speak, science, maneuverability.
Key words: big data; data sharing; platform