董學潤
【摘要】? ? 如今,數(shù)據(jù)越來越成為全球科技競爭的制高點,擁有了海量數(shù)據(jù)就擁有了重要的戰(zhàn)略資源。大數(shù)據(jù)技術在許多領域都發(fā)揮了重要作用,大數(shù)據(jù)技術一般是以大數(shù)據(jù)分析及處理為核心,掌握大數(shù)據(jù)分析及處理技術,能獲取豐富的數(shù)據(jù)資源,也能夠最大限度的開發(fā)數(shù)據(jù)價值。本文重點介紹大數(shù)據(jù)分析與處理技術。
【關鍵詞】? ? 大數(shù)據(jù)? ? 大數(shù)據(jù)分析處理? ? 大數(shù)據(jù)發(fā)展情況
引言
在當今的大數(shù)據(jù)時代背景之下,數(shù)據(jù)發(fā)展的腳步會越來越快,數(shù)據(jù)中包含的信息也會越來越豐富。而要獲取數(shù)據(jù)中的價值,掌握大數(shù)據(jù)分析與處理方法是關鍵,本文的目的就是讓人們了解大數(shù)據(jù)處理的關鍵技術以及大數(shù)據(jù)未來的發(fā)展趨勢。
一、大數(shù)據(jù)的含義
大數(shù)據(jù)是當前社會科技當中的一個熱點概念,各行各業(yè)中我們都會聽到大數(shù)據(jù)這個詞,但是大數(shù)據(jù)到底是什么,大部分人卻不是很了解。我們當前所說的大數(shù)據(jù)包含兩層含義。一是從表意上來看,人們的各種社會行為會產(chǎn)生相應數(shù)據(jù),這些數(shù)據(jù)匯集在一起,成為表意上的“大”數(shù)據(jù),我們也把這樣的數(shù)據(jù)稱為基礎數(shù)據(jù)。二是從技術層面來看,大數(shù)據(jù)是指大數(shù)據(jù)技術,也就是本文的大數(shù)據(jù)分析與處理技術。數(shù)據(jù)資源之所以寶貴,究其原因在于其可以價值化,大數(shù)據(jù)分析與處理技術正是將數(shù)據(jù)價值化的途徑。[1]從釋義上來說,大數(shù)據(jù),它的英文名字是big data,是信息技術領域當中的一個行業(yè)術語,它是一種信息資產(chǎn),具有量大、增長率高等特點。大數(shù)據(jù)的采集和處理沒有辦法使用普通的分析軟件和工具,而需要一個與時俱進的模式才能夠挖掘出它的最大價值。
通俗來說,大數(shù)據(jù)的解釋就是大量的數(shù)據(jù),顧名思義,就是數(shù)量多、范圍廣的意思,而數(shù)據(jù)是信息等各方面的數(shù)據(jù)資料,結(jié)合起來就是量多、范圍廣的信息數(shù)據(jù)資料。
《大數(shù)據(jù)時代》中提出了大數(shù)據(jù)的四個特性:volume、velocity、variety、value,簡稱4V,中文意為海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流動和動態(tài)的數(shù)據(jù)體系、多樣的數(shù)據(jù)類型和巨大的數(shù)據(jù)價值,這正是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的最大特點。[2]
二、大數(shù)據(jù)分析及處理過程
在現(xiàn)在這樣一種任何網(wǎng)絡行為都能被記錄,隨時隨地都能產(chǎn)生數(shù)據(jù)的時代之中,幾乎不存在無意義的數(shù)據(jù)。大數(shù)據(jù)分析與處理包括數(shù)據(jù)的采集、存儲、管理、分析挖掘以及數(shù)據(jù)可視化幾個階段,通過這幾個環(huán)節(jié)我們可以發(fā)現(xiàn)很多有用的信息以及一些有趣的結(jié)論,甚至可能通過數(shù)據(jù)挖掘出極大的商業(yè)價值。
2.1數(shù)據(jù)采集
大數(shù)據(jù)開啟了一個全新的時代,在這個新時代下,大規(guī)模生產(chǎn)、分享應用數(shù)據(jù)隨處可見,大數(shù)據(jù)給技術和商業(yè)帶來了一個巨大的變化。據(jù)麥肯錫的一份數(shù)據(jù)顯示,大數(shù)據(jù)可以使得勞動生產(chǎn)率每年升高0.5-1個百分點,大數(shù)據(jù)的價值不言而喻。然而,調(diào)查顯示,沒有被挖掘、利用的信息比例高達99.4%,這一窘境很大程度上是因為這些含有高價值的數(shù)據(jù)無法采集。如何對有價值的信息數(shù)據(jù)進行采集成為了大數(shù)據(jù)發(fā)展的關鍵一步。
1、含義
數(shù)據(jù)采集的另外一個名字叫做數(shù)據(jù)獲取,是指從傳感器和其他待測設備等模擬和數(shù)字被測單元中自動采集信息的過程。數(shù)據(jù)采集是進行大數(shù)據(jù)分析的先決條件,在整個分析與處理過程中占有十分重要的位置。大數(shù)據(jù)的采集主要有以下三種方式:系統(tǒng)日志采集法、網(wǎng)絡數(shù)據(jù)采集法以及其他數(shù)據(jù)采集法。
2、方法
(1)系統(tǒng)日志采集法。系統(tǒng)日志可以記錄下系統(tǒng)中的硬件、軟件等的信息,同時也可以監(jiān)測系統(tǒng)里的行為。用戶可以通過這一過程來檢查錯誤出現(xiàn)的原因,或者時尋找受到侵入時攻擊者留下的痕跡。系統(tǒng)日志包括系統(tǒng)日志、應用程序日志和安全日志。(百度百科)大數(shù)據(jù)平臺或者說類似于開源Hadoop平臺會產(chǎn)生大量高價值系統(tǒng)日志信息,如何采集成為研究者研究熱點。目前基于Hadoop平臺開發(fā)的Chukwa、Cloudera的Flume以及Facebook的Scribe(李聯(lián)寧,2016)均可成為是系統(tǒng)日志采集法的典范。目前此類的采集技術大約可以每秒傳輸數(shù)百MB的日志數(shù)據(jù)信息,滿足了目前人們對信息速度的需求。一般而言與我們相關的并不是此類采集法,而是網(wǎng)絡數(shù)據(jù)采集法。
(2)網(wǎng)絡數(shù)據(jù)采集法。除了目前已經(jīng)存在的公開數(shù)據(jù)集,用于日常的算法研究外,有時為了滿足項目的實際需求,需要對現(xiàn)實網(wǎng)頁中的數(shù)據(jù)進行采集,預處理和保存,這種方法就叫做網(wǎng)絡數(shù)據(jù)采集法,目前網(wǎng)絡數(shù)據(jù)采集主要是通過API和網(wǎng)絡爬蟲。
(3)其他數(shù)據(jù)采集法。其他采集法是指對于科研院所,企業(yè)政府等擁有機密信息,如何保證數(shù)據(jù)的安全傳遞?可以采用系統(tǒng)特定端口,進行數(shù)據(jù)傳輸任務,從而減少數(shù)據(jù)被泄露的風險。
2.2數(shù)據(jù)存儲
1、概念
大數(shù)據(jù)存儲技術是大數(shù)據(jù)領域的另一個關鍵數(shù)據(jù),人們利用分布式存儲代替集中式存儲,用更廉價的機器代替之前昂貴的機器,讓海量存儲的成本大大降低。大數(shù)據(jù)存儲主要利用各式各樣的存儲引擎,以下就是幾個極具代表性的大數(shù)據(jù)存儲引擎。
2、存儲引擎
HDFS:大規(guī)模分布式數(shù)據(jù)存儲, 對小文件讀寫相對比較困難。HDFS的特點是比較適合對延時不敏感, 吞吐量比較大的業(yè)務, 另外小文件不能太多。
HBASE:HBASE適用于大規(guī)模分布式OLTP, 可以無感知平行擴展, 沒有固定的概要, 讓HBASE增刪列非常靈活。既可以通過主鍵查詢, 也可以通過關鍵字范圍掃描, 由于寫是順序?qū)懀?非常適合寫多讀少的場景。類似于IM的數(shù)據(jù)場景,而且HBASE的數(shù)據(jù)會按照ID聚合放置,非常適合消息上拉和下拉的場景。
2.3數(shù)據(jù)清洗
1、概念
數(shù)據(jù)清洗是一種清除錯誤數(shù)據(jù)、去掉重復數(shù)據(jù)的技術。數(shù)據(jù)經(jīng)過清洗之后,可以還保存到原來的數(shù)據(jù)庫中,也可以和數(shù)據(jù)集成聯(lián)系在一起,最終保存到集成后的數(shù)據(jù)庫里。
2、步驟
預處理:第一是從分析處理工具中導入所需數(shù)據(jù)。一般是用數(shù)據(jù)庫來進行處理,具有SQL環(huán)境為益。如果說數(shù)據(jù)量非常大,可以使用文本文件存儲+Python操作的方式;第二是查看數(shù)據(jù)。這一步又包含兩個部分:一個是查看對數(shù)據(jù)進行描述的信息,比如說字段的解釋以及數(shù)據(jù)來源等。二是抽取樣本數(shù)據(jù),人為觀察,大致了解數(shù)據(jù)的表象,從中發(fā)現(xiàn)一些初步的問題,為以后的工作做準備。
缺失值清洗:數(shù)據(jù)中最常見的問題之一就是數(shù)據(jù)缺失,處理缺失值由四個步驟組成,一是確定數(shù)據(jù)缺失的位置和范圍,計算出每個字段當中數(shù)據(jù)缺失的比例,然后按照缺失比例和字段重要性,分別制定策略;二是去除不需要的字段,直接刪掉不需要字段即可;三是填充缺失內(nèi)容,某些缺失值可以根據(jù)以往的經(jīng)驗或者知識來進行推測、按照同一個指標來進行計算(中位數(shù)、均值等等)或按照不同的指標來進行計算著三種方式來填補;四是重新抓取數(shù)據(jù),如果說一些數(shù)據(jù)對分析來說非常重要,但缺失現(xiàn)象嚴重,就有必要考慮重新制定科學的策略去進行數(shù)據(jù)的重取。
格式內(nèi)容清洗:分析的數(shù)據(jù)如果說是經(jīng)過系統(tǒng)日志得來的,一般情況下格式以及內(nèi)容就會跟元數(shù)據(jù)所表現(xiàn)的一樣。但如果說數(shù)據(jù)是人工采集的,那么就可能需要進行格式內(nèi)容清晰,因為此時數(shù)據(jù)的格式、內(nèi)容極有可能出現(xiàn)很多的問題。? ? 邏輯錯誤清洗:這部分的工作是去掉一些使用簡單邏輯推理就可以直接發(fā)現(xiàn)問題的數(shù)據(jù),防止分析結(jié)果走偏。主要包括去重、去除不合理值。
修正矛盾內(nèi)容:字段相矛盾時,我們有必要考究其數(shù)據(jù)來源,人為的判斷哪個字段中的信息更有意義,刪除重復的、無意義的字段。
非需求數(shù)據(jù)清洗:刪除不需要的字段。
2.4數(shù)據(jù)分析與挖掘
數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理環(huán)節(jié)中的一個核心環(huán)節(jié),要得到數(shù)據(jù)的巨大價值,必須要經(jīng)過專業(yè)的數(shù)據(jù)分析與挖掘過程,這其中涉及到的知識面較廣,需要用到統(tǒng)計學、計算機、數(shù)學模型等知識,對分析人員的專業(yè)性要求較高。數(shù)據(jù)分析與挖掘的統(tǒng)計學方法:描述性分析是最基本的分析統(tǒng)計方法,在實際工作中也是應用最廣的分析方法。描述統(tǒng)計又分為兩大部分:數(shù)據(jù)描述和指標統(tǒng)計。[3]數(shù)據(jù)描述:所謂數(shù)據(jù)描述,是指能夠表現(xiàn)數(shù)據(jù)特點的一些指標,比如數(shù)據(jù)的時間范圍、數(shù)據(jù)的總量、數(shù)據(jù)來源等。倘若我們需要對數(shù)據(jù)進行建模,則所選數(shù)據(jù)的分布情況和離散程度等指標都得囊括在其中。指標統(tǒng)計:對指標進行統(tǒng)計,主要是為了寫分析報告,統(tǒng)計指標可以簡單的劃分為四個類型。第一類是變化,可以參考數(shù)學中的時間序列,指標隨時間的變動而變動,具體表現(xiàn)為增幅或降幅;第二類是分布,比如在空間上的分布:不同的國家,不同城市,由如不同群體的分布:不同的年齡、不同的職業(yè)、不同的性別等等;第三類是對比,比如說內(nèi)部對比;第四類是預測,根據(jù)現(xiàn)有情況,估計下個分析時段的指標值。數(shù)據(jù)分析與挖掘的常用工具:R語言、SQL、Python等。
2.5數(shù)據(jù)可視化
數(shù)據(jù)可視化,就是將分析完的數(shù)據(jù)以直觀的方式呈現(xiàn)出來。數(shù)據(jù)之中盡管隱藏著再高的價值,若是不能以一個直觀易懂的方式呈現(xiàn),也就失去了挖掘的意義。數(shù)據(jù)可視化將數(shù)據(jù)轉(zhuǎn)換成圖或表等,以一種更直觀的方式展現(xiàn)和呈現(xiàn)數(shù)據(jù)。通過“可視化”的方式,我們看不懂的數(shù)據(jù)通過圖形化的手段進行有效地表達,準確高效、簡潔全面地傳遞某種信息,甚至我們幫助發(fā)現(xiàn)某種規(guī)律和特征,挖掘數(shù)據(jù)背后的價值。
三、大數(shù)據(jù)分析及處理發(fā)展情況
我國目前的大數(shù)據(jù)應用環(huán)境和技術相對于美國而言,在整體技術水平、應用環(huán)境、國民意識、商業(yè)環(huán)境、技術廠商、技術平臺上面有一定差距,在大數(shù)據(jù)應用的國家戰(zhàn)略層面也較為落后。2014年,我國召開了兩會,會上提案中,不少人提出建議,將大數(shù)據(jù)業(yè)務作為國際級別的戰(zhàn)略來進行推進。一些知名企業(yè)的創(chuàng)始人紛紛響應,小米創(chuàng)始人雷軍對此大力支持,科大訊飛劉慶峰則創(chuàng)新性的提出了利用聲紋數(shù)據(jù)庫來進行反恐。在國家對大數(shù)據(jù)行業(yè)產(chǎn)業(yè)的重視和推動之下,如今,我國大數(shù)據(jù)產(chǎn)業(yè)行業(yè)發(fā)展態(tài)勢勇猛,向前的勢頭熱烈,以大數(shù)據(jù)為核心的多種新興行業(yè)異軍突起,技術創(chuàng)新的步伐不斷前進,在各級政府和部門的支持和推動之下,大數(shù)據(jù)相關行業(yè)的發(fā)展不僅極大促進了我國的經(jīng)濟增長,還有力地帶動了就業(yè),其支撐能力肉眼可見地逐漸增強。
參? 考? 文? 獻
[1] 蔡江輝,大數(shù)據(jù)分析與處理綜[J],太原科技大學學報.2020.05.30
[2]維克多.邁爾-舍恩伯格,肯尼思.庫克耶.大數(shù)據(jù)時代[M],浙江人民出版社.2019.01.01
[3]威廉.M.門登霍爾,統(tǒng)計學[M],機械工業(yè)出版社,2018.06.08