国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)研究綜述

2017-01-21 16:37卿勇
軟件導(dǎo)刊 2016年12期
關(guān)鍵詞:三網(wǎng)融合關(guān)鍵技術(shù)大數(shù)據(jù)

卿勇

摘 要:信息技術(shù)的迅速發(fā)展,促使物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)三網(wǎng)融合,并衍生出海量數(shù)據(jù),大數(shù)據(jù)時代已悄然來臨。以幾何倍數(shù)增長的數(shù)據(jù)如何高效率地采集、處理、挖掘是大數(shù)據(jù)領(lǐng)域亟待解決的關(guān)鍵問題。闡述了大數(shù)據(jù)的定義、國內(nèi)外研究現(xiàn)狀及特點、大數(shù)據(jù)的關(guān)鍵技術(shù),提出了大數(shù)據(jù)的發(fā)展趨勢。

關(guān)鍵詞:大數(shù)據(jù);三網(wǎng)融合;關(guān)鍵技術(shù)

DOIDOI:10.11907/rjdk.161834

中圖分類號:TP301

文獻標識碼:A文章編號:1672-7800(2016)012-0175-02

0 引言

在數(shù)據(jù)量以幾何級數(shù)方式迅猛增長的今天,隨著物聯(lián)網(wǎng)數(shù)據(jù)感知、云計算數(shù)據(jù)計算、三網(wǎng)融合以及移動互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)增長快、數(shù)據(jù)類型多、價值密度低,大量的數(shù)據(jù)信息已不能以傳統(tǒng)的計量單位(GB和TB)來衡量,產(chǎn)生更為巨大的計量單位,如PB、EB、ZB、YB等,使用現(xiàn)有的數(shù)據(jù)庫管理工具難以進行數(shù)據(jù)快速獲取、存儲、檢索等操作。通過對大數(shù)據(jù)的抓取、管理和處理,挖掘出有價值的數(shù)據(jù)或信息,可以極大地提升數(shù)據(jù)的有效率和利用率。

1 國內(nèi)外研究現(xiàn)狀

信息與網(wǎng)絡(luò)的飛速發(fā)展,信息量大量增長;計算機硬件成本逐漸降低,使得昂貴的數(shù)據(jù)存儲和處理變得經(jīng)濟。谷歌的MapReduce、GFS和BigTable等核心技術(shù)引起了雅虎、Facebook等互聯(lián)網(wǎng)公司的注意,為目前應(yīng)用最廣泛的開源大數(shù)據(jù)框架Apache Hadoop的誕生奠定了基礎(chǔ)。聯(lián)合國發(fā)布的《大數(shù)據(jù)促進發(fā)展:挑戰(zhàn)與機遇》大數(shù)據(jù)政務(wù)白皮書指出,大數(shù)據(jù)對人類而言是一個歷史性的挑戰(zhàn)和機遇。

美國政府耗費巨資投入大數(shù)據(jù)技術(shù)研究,頒布了《大數(shù)據(jù)研究和發(fā)展計劃》,目標是通過大數(shù)據(jù)技術(shù)實現(xiàn)感知、認知和預(yù)測支持的結(jié)合,增強信息提取分析、情報獲取和對目標的洞察能力,培養(yǎng)該領(lǐng)域的技術(shù)人才。投入155個項目涉及國家多個重要領(lǐng)域,如國防部、能源部以及國家安全及未來發(fā)展戰(zhàn)略等。主要項目包括:多尺度異常檢測項目(ADAMS)、網(wǎng)絡(luò)內(nèi)部威脅計劃(CINDER)、加密數(shù)據(jù)的編程計算項目(PROCEED項目)、視頻與圖像檢索分析工具項目(VIRAT項目)等。為實現(xiàn)決策優(yōu)化,美國還進行了數(shù)據(jù)可視化、信息安全與大數(shù)據(jù)結(jié)合等方面的綜合研究,建立大數(shù)據(jù)中心,對各類大數(shù)據(jù)進行整合、分析,并向相關(guān)領(lǐng)域提供大數(shù)據(jù)分析產(chǎn)品。

我國大數(shù)據(jù)應(yīng)用還處于起步階段,但已有國際知名項目投入使用,如Facebook開發(fā)的社交圖譜數(shù)據(jù)、NSA棱鏡計劃、IBM Waston等項目。2013年,我國開始進行大數(shù)據(jù)專項研究,2014年,國內(nèi)主要互聯(lián)網(wǎng)公司已將大數(shù)據(jù)應(yīng)用于相關(guān)業(yè)務(wù)中,取得了巨大的經(jīng)濟和社會效益。同年,清華大學開設(shè)了大數(shù)據(jù)相關(guān)課程,正式開啟了培養(yǎng)大數(shù)據(jù)領(lǐng)域?qū)I(yè)人才的序幕。

大數(shù)據(jù)作為一個新興的技術(shù)門類,已經(jīng)滲透到國民經(jīng)濟各個領(lǐng)域。大數(shù)據(jù)為人類帶來了無限的機遇和挑戰(zhàn),是一場即將改變未來的信息革命。

2 大數(shù)據(jù)特點

大數(shù)據(jù)無法使用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行處理,具有傳統(tǒng)數(shù)據(jù)所不具備的特點,見表1。

大數(shù)據(jù)定義的5V特征(Volume,Velocity,Variety,Veracity,Value)涵蓋了5個層面。

(1)數(shù)據(jù)量大(Volume)。此為大數(shù)據(jù)最明顯的特點,從傳統(tǒng)的MB、TP躍升至PB或更高的EB、ZP級別。數(shù)據(jù)量的大小決定數(shù)據(jù)價值和潛在信息,數(shù)據(jù)表示各種業(yè)務(wù)活動,推動社會與企業(yè)共同進步。

(2)處理速度快(Velocity)。在數(shù)據(jù)量飛速增長的同時,對數(shù)據(jù)實時分析和處理要求更高。如果海量數(shù)據(jù)未能實時處理,將失去其應(yīng)有價值。

(3)數(shù)據(jù)類型多(Variety)。大數(shù)據(jù)來源復(fù)雜,數(shù)據(jù)類型多種多樣,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)處理工具已不能對類型多且雜的大數(shù)據(jù)進行處理。在如此繁多的數(shù)據(jù)中獲得有價值的潛在信息,正是大數(shù)據(jù)多樣性的重要體現(xiàn)。

(4)數(shù)據(jù)真實性(Veracity)。大數(shù)據(jù)來源于真實世界發(fā)生的各類活動,而高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ)。唯有如此,專業(yè)的數(shù)據(jù)分析工具才能從海量數(shù)據(jù)中提取出隱含的、準確的、有用的信息。

(5)價值密度低,商業(yè)價值(Value)高。在大量的數(shù)據(jù)中只有少數(shù)數(shù)據(jù)具有利用價值。合理運用大數(shù)據(jù),提取出能夠解釋和預(yù)測現(xiàn)實的數(shù)據(jù),以低成本創(chuàng)造高價值。

3 大數(shù)據(jù)技術(shù)

信息無處不在,海量數(shù)據(jù)的產(chǎn)生、共享以及交換應(yīng)用如何實現(xiàn)是大數(shù)據(jù)研究領(lǐng)域的核心問題。

大數(shù)據(jù)技術(shù)能夠?qū)崟r、高效、可視化地處理各種類型數(shù)據(jù),使用戶按需求獲取分析和預(yù)測結(jié)果。大數(shù)據(jù)關(guān)鍵技術(shù)是數(shù)據(jù)的采集與預(yù)處理、數(shù)據(jù)存儲與管理、計算模式與系統(tǒng)和數(shù)據(jù)分析與挖掘,如圖1所示。

(1)大數(shù)據(jù)采集與預(yù)處理。數(shù)據(jù)來源渠道繁多,導(dǎo)致數(shù)據(jù)類型多樣化,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)價值低、異構(gòu)且冗余,故首先要對數(shù)據(jù)進行清洗,以消除相似、重復(fù)或不一致的數(shù)據(jù),為后續(xù)過程提供高質(zhì)量的數(shù)據(jù)集合?,F(xiàn)有的數(shù)據(jù)采集手段主要有以下4種[1]:基于物化或 ETL 引擎方法、基于聯(lián)邦數(shù)據(jù)庫引擎或中間件方法、基于數(shù)據(jù)流引擎方法和基于搜索引擎方法。

(2)數(shù)據(jù)存儲與管理。PB或EB數(shù)量級的大數(shù)據(jù)不僅需要上層應(yīng)用高效的數(shù)據(jù)訪問接口,而且對數(shù)據(jù)實時性和有效性提出了更高標準。為快速高效可靠地處理大數(shù)據(jù),需建立計算編程模式以及相關(guān)的優(yōu)化方法。大數(shù)據(jù)環(huán)境下,目前最適用的技術(shù)是分布式文件系統(tǒng)、分布式數(shù)據(jù)庫以及訪問接口和查詢語言[2]。

(3)計算模式與系統(tǒng)。大數(shù)據(jù)計算模式是指根據(jù)不同的數(shù)據(jù)特征和計算特征,從多樣性的大數(shù)據(jù)計算問題和需求中提煉并建立各種高層次抽象或模型。大數(shù)據(jù)計算與計算算法、數(shù)據(jù)規(guī)模、數(shù)據(jù)分布以及用戶訪問行為密切相關(guān),不僅從多維度建立大數(shù)據(jù)計算程序集合,還分析了計算系統(tǒng)之間的相互影響,建立復(fù)雜條件下大數(shù)據(jù)運行的行為模型。典型的大數(shù)據(jù)計算模式與系統(tǒng)如表2所示。

IBM結(jié)合自主計算和大數(shù)據(jù)技術(shù),提出具備自主能力的“認知計算”,是繼制表計算、編程計算之后的第三代計算模式。

(4)數(shù)據(jù)分析與挖掘。鑒于大數(shù)據(jù)價值密度低、商業(yè)價值高的特點,為提高數(shù)據(jù)質(zhì)量和可信度,要求從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,通過分析數(shù)據(jù)結(jié)構(gòu)、類型及數(shù)據(jù)間的關(guān)聯(lián)度,綜合運用統(tǒng)計和機器學習,從數(shù)據(jù)庫管理系統(tǒng)的大數(shù)據(jù)中提取出隱含其中的潛在信息和知識,這就是數(shù)據(jù)分析與挖掘。在龐大的數(shù)據(jù)中,數(shù)據(jù)呈現(xiàn)形式至關(guān)重要??梢暬柚鷪D形化手段,通過直觀傳達大數(shù)據(jù)關(guān)鍵特征,對數(shù)據(jù)進行可視化表達,呈現(xiàn)數(shù)據(jù)中隱含的信息,挖掘數(shù)據(jù)中所包含的規(guī)律。數(shù)據(jù)可視化分為科學可視化、信息可視化和可視化分析。

4 結(jié)語

大數(shù)據(jù)概念日益完善、特點日益突出、關(guān)鍵技術(shù)日益提高。大數(shù)據(jù)作為近年的新興產(chǎn)業(yè),像互聯(lián)網(wǎng)、云計算及物聯(lián)網(wǎng)一樣,改變了國民經(jīng)濟和生活,已成為新一輪信息技術(shù)革命的發(fā)動機,成為社會經(jīng)濟的支柱,帶來了全新的變革和機遇。但大數(shù)據(jù)核心處理技術(shù)尚不成熟,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展應(yīng)符合國情,科學規(guī)劃,形成良好的發(fā)展環(huán)境,國家要推動大數(shù)據(jù)領(lǐng)域技術(shù)走在世界前列。

參考文獻:

[1] LI X,DONG X L,LYONS K,et al.Truth finding on the deep web:is the problem solved[C].Proceedings of the 39th International Conference on Very Large Data Bases ( VLDB'2013) ,2013:97-108.

[2] 中國計算機學會大數(shù)據(jù)專家委員會.中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書[R].2013.

[3] ARASU A,CHAUDHURI S,CHEN Z,et al.Experiences with using data cleaning technology for bing services[J].IEEE Data Engineering Bulletin,2012,35(2):14-23.

[4] GONZALEZ J E,LOW Y,GU H,et al.Power graph:distributed graph-parallel computation on natural graphs[C].Proceeding of the 10th USENIX Symposium on Operating Systems Design and Implementation,2012:17-30.

[5] KUMAR R.Two computational paradigm for big data[EB/OL].[2014-08-25].http://kdd2012.sigkdd.org / sites /images / summerschool / Ravi-Kumar.pdf.

[6] KANG U,CHAU D H,F(xiàn)ALOUTSOS C.PEGASUS:miningbillion-scale graphs in the cloud[C].IEEE International Conference on Acoustics,Speech,and Signal Processing ( ICASSP ) ,2012:5341-5344.

[7] VICTOR MAYER SCHONBERGER,KENNETH CUKIER.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:193-232.

[8] 李翠平,王敏峰.大數(shù)據(jù)的挑戰(zhàn)和機遇[J].科研信息化技術(shù)與應(yīng)用,2013(1) :12-18.

[9] 劉軍. Hadoop 大數(shù)據(jù)處理[M]. 北京:人民郵電出版社,2013:45-60.

[10] 李紀舟,葉小新,丁云峰.美軍大數(shù)據(jù)技術(shù)發(fā)展現(xiàn)狀及對其信息作戰(zhàn)的影響[J].外軍信息戰(zhàn),2013(6) :34-38.

[11] 陳為,沈則潛,陶煜波,等.大數(shù)據(jù)叢書:數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社,2013:29-37.

(責任編輯:杜能鋼)

猜你喜歡
三網(wǎng)融合關(guān)鍵技術(shù)大數(shù)據(jù)
小麥春季化控要掌握關(guān)鍵技術(shù)
棉花追肥關(guān)鍵技術(shù)
成功育雛的關(guān)鍵技術(shù)
老蘋果園更新改造的關(guān)鍵技術(shù)
融媒體時代三網(wǎng)融合下電視新聞網(wǎng)建設(shè)的思考