袁狄 YuanDi
摘? 要:隨著當前社會經(jīng)濟的進步,大數(shù)據(jù)分析技術已經(jīng)成為各個產(chǎn)業(yè)領域所關注的重點技術,科學合理的大數(shù)據(jù)應用可以有效推動各行業(yè)高速發(fā)展;與此同時現(xiàn)階段大數(shù)據(jù)作為可收集整合各種信息,并有效分析計算不同數(shù)據(jù)內容的現(xiàn)代化技術,其價值性是毋庸置疑的,因此了解大數(shù)據(jù)分析特征,掌握其應用要點便顯得極為必要。接下來本文將對大數(shù)據(jù)分析技術及其應用進行一定探討,同時結合實際做好相應整理和總結。
關鍵詞:大數(shù)據(jù)分析;技術;應用
引言
大數(shù)據(jù)分析技術即對當今社會下所產(chǎn)生海量數(shù)據(jù)進行實時分析的一項技術,其雖然發(fā)展時間比較有限,但發(fā)展速度極快,目前各互聯(lián)網(wǎng)企業(yè)也已經(jīng)推出了各種各樣類型不一的大數(shù)據(jù)分析處理系統(tǒng),這都進一步提高了整個大數(shù)據(jù)行業(yè)發(fā)展效益。
一、大數(shù)據(jù)分析技術優(yōu)勢及處理系統(tǒng)
大數(shù)據(jù)分析可看作是一項獨立的可自行清理、轉換、建模數(shù)據(jù)的體系,同時其還具有發(fā)現(xiàn)并提供相應業(yè)務決策的特質。本質上大數(shù)據(jù)分析目的即是從數(shù)據(jù)中提取可用信息,并在此基礎上更進一步的利用信息來進行整合決策,相較于以往的傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)分析技術有著明顯的數(shù)據(jù)規(guī)模更大、響應速度更快、種類更多、識別難度高、低密度高價值等明顯優(yōu)勢。
就現(xiàn)階段而言,大數(shù)據(jù)分析的運作離不開大數(shù)據(jù)處理系統(tǒng),其是大數(shù)據(jù)分析的載體,而目前大數(shù)據(jù)處理系統(tǒng)主要是以分布式處理為主,類型上主要有Hadoop、Spark、Storm等。其中Hadoop所具有的開源屬性,使其在并行批量數(shù)目處理框架以及分布式文件方面效果顯著,Hadoop核心架構及分布式文件系統(tǒng)與規(guī)模較大的并行計算框架。而Spark處理系統(tǒng),則是一種內存計算可擴展的開源集群計算系統(tǒng),本身對于處理不同數(shù)據(jù)結構大規(guī)模數(shù)據(jù)效率極佳,結合實際來看Spark在某種程度上也是對Hadoop系統(tǒng)內部分組件功能的優(yōu)化改進。Storm同樣是分布式實時計算系統(tǒng),其具有十分優(yōu)異的流式計算框架,可開展全內存計算,因此Storm在實時計算方面與Hadoop的批量處理有一定相似性[1]。
二、大數(shù)據(jù)分析技術功能特征
1、先進的機器學習特性
大數(shù)據(jù)分析技術實際實踐期間,仍是以對大數(shù)據(jù)內容做專業(yè)、精準分析計算來體現(xiàn),要完成這一步驟則必須保障大數(shù)據(jù)分析技術功能可以正常運行,因此大數(shù)據(jù)分析技術功能必須具備先進的機器學習特性以及高度智能的可視化場景轉換特征。機器學習作為人工智能的分支技術,其核心價值便是可以快速有效發(fā)掘數(shù)據(jù)價值,作為大數(shù)據(jù)分析技術的主要組成功能,機器學習水平往往也決定著大數(shù)據(jù)分析技術的運作水平。
結合實際來看機器學習主要是以學習模擬人類、計算機系統(tǒng)與人類用戶的自然語言接口交互、不完整信息處理預估、構造可發(fā)現(xiàn)新事物等內容特性來體現(xiàn),因此機器學習之于大數(shù)據(jù)分析,也可看作是以選擇科學算法解析數(shù)據(jù),之后再進行學習并給出業(yè)務決策的功能模式。
除此之外隨著近年來人工智能科學的不斷發(fā)展,對于機器學習研究的不斷加深,監(jiān)督學習、無監(jiān)督學習、強化學習等理論的完善,進一步細分了機器學習類型,其中監(jiān)督學習主要是指人工給定標記數(shù)據(jù)讓機器自行識別分析;無監(jiān)督學習即輸入數(shù)據(jù)無標記,樣本數(shù)據(jù)也沒有類型區(qū)分,機器自行以相似性聚類分析識別其規(guī)律;強化學習則是機器在分析數(shù)據(jù)基礎上可自動予以決策,甚至可按照指令做出連續(xù)性決策[2]。
2、高度智能的可視化場景轉換
高度智能的可視化場景轉換,同樣作為大數(shù)據(jù)分析技術的主要功能,其是發(fā)現(xiàn)數(shù)據(jù)特征,從而理解規(guī)律的必要依據(jù),試想要從海量數(shù)據(jù)中進行比對分析,提取可供決策信息,但沒有可視化處理,整個過程乃至結果則沒有參考依據(jù),即使專業(yè)人員也很難理解數(shù)據(jù)所涵蓋信息。所以可視化之于大數(shù)據(jù)分析技術,也可看作是將數(shù)據(jù)按照人們易于理解的形式完全呈現(xiàn)出來,確保抽象的信息被具象化,從而使終端用戶得以迅速理解信息含義以及來源分析過程,從而按照所得數(shù)據(jù)規(guī)律做出更加科學合理的決策判斷。
目前大數(shù)據(jù)分析技術可視化功能包含了文本可視化、網(wǎng)絡可視化、時空數(shù)據(jù)可視化、多維數(shù)據(jù)可視化四種,其中文本可視化即是將文本數(shù)據(jù)重點、特征充分全面的展現(xiàn)出來;網(wǎng)絡可視化便是將整個大數(shù)據(jù)分析過程各種網(wǎng)絡聯(lián)接項作實時展現(xiàn),突出各種網(wǎng)絡關系,防止邏輯性錯誤的狀況發(fā)生;時空數(shù)據(jù)可視化則是對特定時間標志以及地理位置數(shù)據(jù)能夠予以及時記錄,從而將其作可視化處理;多維數(shù)據(jù)可視化便是對多維度數(shù)據(jù)變量予以分析,確保數(shù)據(jù)庫資源可以高效開發(fā)利用[3]。
三、大數(shù)據(jù)分析技術應用
1、明確系統(tǒng)設置
大數(shù)據(jù)分析技術應用,必須先設置完善的大數(shù)據(jù)處理系統(tǒng),在此基礎上依據(jù)實際情況,假設針對性的推薦系統(tǒng),以解決數(shù)據(jù)分析過程中可能出現(xiàn)的信息過載等,比如協(xié)同過濾系統(tǒng)、基于內容推薦的過濾系統(tǒng)、知識推薦過濾系統(tǒng)等。
2、數(shù)據(jù)安全管理
數(shù)據(jù)安全管理作為大數(shù)據(jù)分析技術得以正常運作所不可或缺的一環(huán),實踐期間則以構筑風險管理大數(shù)據(jù)體系為基準,將個人、外部數(shù)據(jù)、企業(yè)內部詐騙偵察算法作有效連結,并將其置入大數(shù)據(jù)分析處理體系中,以此有效偵查各種信用風險或者非法信息,通過實時數(shù)據(jù)處理,亦可有效防范病毒侵入和線上攻擊行為。
3、數(shù)據(jù)實時分析
以制造業(yè)為例,制造企業(yè)內往往會有傳感器、條形碼、遙測器等產(chǎn)品,這些其實都可看作是大數(shù)據(jù)分析技術的產(chǎn)物,比如分析遙測數(shù)據(jù)便可識別出機器使用模式;利用條形碼則可直接全程跟蹤貨物生產(chǎn)甚至顧客訂購信息,以此得出利于企業(yè)發(fā)展的決策數(shù)據(jù)。再比如衛(wèi)生保健類企業(yè)直接對患者作一系列關鍵指標監(jiān)控測量,便可在大幅降低人工訪問前提下,有效提升患者健康水平;而通過傳感器所得大數(shù)據(jù)信息,相應企業(yè)也能夠及時的予以管控,可以省去大量采集整合時間[4]。
結束語
綜上所述,大數(shù)據(jù)分析技術及其應用本身具有十分多元的功能特征,其對于社會各行業(yè)領域發(fā)展有著不可替代的促進作用,科學利用大數(shù)據(jù)分析技術,也是我國科技生產(chǎn)水平得以不斷提高進步的基礎條件。
參考文獻
[1]? 倪冬云,高寶琪,邢占禮,王志遠,劉玉龍,王坤.基于大數(shù)據(jù)分析的信息系統(tǒng)故障自動修復方法[J].電子設計工程,2020,28(10):84-87+92.
[2]? 張新坤,胡曉曉.銀行大數(shù)據(jù)應用淺析——基于數(shù)據(jù)應用場景化案例分析[J].計算機產(chǎn)品與流通,2020(07):120.
[3]? 張寧,唐嘉儀.大數(shù)據(jù)與輿論研究的“知識圖景”:基于“人與技術”分析框架[J].新聞與傳播評論,2020,73(03):87-99.
[4]? 陳銀娣,王三梅.大數(shù)據(jù)時代裝備科技信息研究系統(tǒng)探索——基于高端需求和信息挖掘技術的裝備科技信息研究方法[J].情報理論與實踐,2020,43(04):14-17.
作者簡介:袁狄,男,四川遂寧,學術研究方向:大數(shù)據(jù)應用與技術。