文/張雪 蘇海濤 陳明瀟 安曉哲 彭濤
隨著大數(shù)據(jù)時代的到來,如何實現(xiàn)企業(yè)核心數(shù)據(jù)資源的統(tǒng)一管控,更好地保障核心數(shù)據(jù)資產(chǎn)的安全和權威,更經(jīng)濟地從高頻率的、大容量的、不同結構和類型的數(shù)據(jù)中獲取價值,基于數(shù)據(jù)中心建設企業(yè)級的數(shù)據(jù)資源管理平臺,顯得尤為必要。面對高數(shù)據(jù)量、高維度與異構化的特點,傳統(tǒng)統(tǒng)計分析工具已經(jīng)難以應對,眾多新的軟件分析工具應運而生。本文分別從大數(shù)據(jù)的存儲、分析、挖掘以及可視化四個方面概述了大數(shù)據(jù)分析常用軟件,并比較了各自的優(yōu)缺點及適用范圍。
聯(lián)合國“全球脈動資深發(fā)展經(jīng)濟學家艾瑪紐爾·勒圖曾提出,大數(shù)據(jù)描述的是海量結構化和非結構化數(shù)據(jù),這些數(shù)據(jù)的容量非常巨大,以至于很難用傳統(tǒng)的數(shù)據(jù)庫和軟件技術處理。在進行大數(shù)據(jù)存儲并建立相應的數(shù)據(jù)庫時,由于大數(shù)據(jù)屬性繁多,數(shù)據(jù)量呈爆炸性增長,常規(guī)標準處理和存儲技術已難以應對。
一段時間以來,全世界數(shù)據(jù)庫市場基本被Oracle,IBM/DB2,Microsoft/SQL Server 壟斷。隨著互聯(lián)網(wǎng)的出現(xiàn)和快速發(fā)展,大量數(shù)據(jù)通過設備、服務器、應用自動產(chǎn)生,其類型呈現(xiàn)出以非結構、半結構化為主的轉變。要實現(xiàn)對各類大數(shù)據(jù)進行整理、交叉分析、比對,進行深度挖掘,對用戶提供自助的即席、迭代分析,并對非結構化數(shù)據(jù)的特征進行提取,以及半結構化數(shù)據(jù)的內(nèi)容檢索、理解等,傳統(tǒng)數(shù)據(jù)庫無論在技術還是功能上都難以應對。Hadoop技術平臺的出現(xiàn),為開源技術的快速發(fā)展提供了良好的發(fā)展機遇和空間,產(chǎn)生了一些面向大數(shù)據(jù)分析的數(shù)據(jù)庫新產(chǎn)品,主要包括基于Hadoop環(huán)境下的各種NoSQL數(shù)據(jù)庫以及基于Shared Nothing架構的NewSQL。
NoSQL數(shù)據(jù)庫代表性軟件有基于Hadoop架構的HBase、Google的Bigtable、Cassandra等。此類數(shù)據(jù)庫摒棄了傳統(tǒng)關系型數(shù)據(jù)庫管理系統(tǒng)的設計思想,采用了不同的解決方案來滿足擴展性方面的需求,沒有固定的數(shù)據(jù)模式并且可以水平擴展,能夠很好地應對海量數(shù)據(jù)的挑戰(zhàn)。相對于關系型數(shù)據(jù)庫而言,NoSQL最大的不同是不使用SQL作為查詢語言,避免了不必要的復雜性、高吞吐量、高水平擴展能力和低端硬件集群以及昂貴的對象-關系映射。
相比NoSQL,NewSQL在實時性、復雜分析、即席查詢和開發(fā)性等方面表現(xiàn)出獨特的優(yōu)勢。具體表現(xiàn)在:
(1)NewSQL整體優(yōu)化較好,實時性較強,而NoSQL相比實時性較差;
(2)NewSQL采用多種索引和分區(qū)技術保證多表關聯(lián),效率較高,而NoSQL缺少高效索引和查詢優(yōu)化,復雜分析差;
(3)NewSQL采用列存儲和智能索引保證了即席查詢性能,而NoSQL只能做精確查詢不能做關聯(lián)查詢;
(4)NewSQL是基于標準的成熟商業(yè)軟件,對用戶的研發(fā)能力要求相對較低,而NoSQL屬于平臺型的模塊,對用戶的研發(fā)能力要求較高。
NewSQL數(shù)據(jù)庫代表性軟件有ΕMC的Greenplum,HP 的Vertica,TD的Asterdata以及南大通用開發(fā)的GBase 8a MPP Cluster等。作為NewSQL的代表數(shù)據(jù)庫,Greenplum是一款基于標準X86極速智能分析數(shù)據(jù)庫,完全無共享的并行處理架構,專門為BI分析、挖掘預測應用優(yōu)化,數(shù)據(jù)跨越所有節(jié)點均勻分布,高度靈活的行+列混合存儲,所有節(jié)點以并行方式工作,支持PB級以上的海量存儲和處理。能夠映射Hadoop集群中的HDFS、HIVΕ、HBASΕ等多種格式數(shù)據(jù)。其局限是列存儲模式有限制,不支持delete/update操作,數(shù)據(jù)庫需要額外的空間清理維護,沒有增量備份。Greenplum 數(shù)據(jù)倉庫解決方案曾為中信銀行信用卡中心提供了統(tǒng)一的客戶視圖,借助客戶統(tǒng)一視圖,中信銀行信用卡中心可以更清楚地了解其客戶價值體系,從而能夠為客戶提供更有針對性和相關性的營銷活動。
南大通用開發(fā)的GBase 8a產(chǎn)品定位就是“行業(yè)大數(shù)據(jù)”,并針對云架構做出的創(chuàng)新。該數(shù)據(jù)庫為超大規(guī)模數(shù)據(jù)管理提供高性價比的通用計算平臺,可廣泛地用于支撐各類數(shù)據(jù)倉庫系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)。GBase 8a MPP Cluster基于現(xiàn)代云架構,與傳統(tǒng)數(shù)據(jù)庫相比在擴展性,處理數(shù)據(jù),靈活性,維護性以及建設成本上更具優(yōu)勢。
綜合各種大數(shù)據(jù)存儲平臺的特點,針對企業(yè)級大數(shù)據(jù)應用,筆者認為Greenplum產(chǎn)品更成熟,編程開發(fā)和用戶訪問以SQL為主,對人員要求低,且購買產(chǎn)品后可以使用所有功能,無論初期投入和后期擴容成本都可以控制,更符合企業(yè)降成本增效益的發(fā)展目標。
工業(yè)大數(shù)據(jù)除了容量大、類型多、存取速度快這些特點,還具有高維度、強非線性、樣本分布不均和低信噪比的特點,所以對工業(yè)大數(shù)據(jù)的分析和挖掘與傳統(tǒng)的大數(shù)據(jù)分析方法也有差異,Chone J等人認為,最好的大數(shù)據(jù)分析系統(tǒng)應具有磁性、靈活性和深刻性。磁性指該系統(tǒng)能抓取所有數(shù)據(jù),不管其結構和質量;靈活性指系統(tǒng)具有適應性和對不同數(shù)據(jù)的應變性;深刻性指該系統(tǒng)能支持傳統(tǒng)的商業(yè)情報以及機器學習和復雜的統(tǒng)計分析。目前常用的分析框架及軟件包括,Hadoop、Storm以及Pentaho BI 平臺等。
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構,以一種可靠、高效、可伸縮的方式進行處理,被認為是時下最流行并有可能為下一代大數(shù)據(jù)處理確定標準的軟件系統(tǒng)。其特點在于,其一假設計算元素和存儲會失敗,維護多個工作數(shù)據(jù)副本,確保能夠針對失敗的節(jié)點重新分布處理;其二以并行的方式工作,通過并行處理加快處理速度,能夠處理PB級數(shù)據(jù);其三Hadoop依賴于社區(qū)服務器,成本低廉,使用便捷。采用Hadoop的案例較多,如中國移動的詳單實時查詢系統(tǒng)。美國AMD半導體公司利用ClouderaHadoop大數(shù)據(jù)分析提高了產(chǎn)品預測能力,通過分析一定時間段內(nèi)芯片出故障的頻率,從而提升生產(chǎn)質量水平。王成輝等人[4]提到,在鋼鐵工業(yè)中,利用HDFS實現(xiàn)海量的能耗數(shù)據(jù)的分布式存儲,通過本體建模技術實現(xiàn)加熱爐本體模型構建與數(shù)據(jù)屬性映射,為大數(shù)據(jù)分析提供數(shù)據(jù)源。在MapReduce分布式分析模型上運用線性回歸、遺傳算法等對Hadoop平臺篩選出來的數(shù)據(jù)進行分析,來挖掘海量數(shù)據(jù)背后隱藏的能耗模型,同時能挖掘出加熱爐的節(jié)能能力,分析加熱爐的最佳工況運行參數(shù),來提高加熱爐的能耗水平,構建加熱爐大數(shù)據(jù)節(jié)能潛力分析系統(tǒng)。
Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統(tǒng),可以非??煽康奶幚睚嫶蟮臄?shù)據(jù)流,用于處理Hadoop的批量數(shù)據(jù)。該軟件支持許多種編程語言,由Twitter開源而來,應用領域包括實時分析、在線機器學習、不停頓的計算、分布式RPC、ΕTL等,經(jīng)測試,Storm的處理速度驚人,每個節(jié)點每秒鐘可以處理100萬個數(shù)據(jù)元組。該軟件曾應用于淘寶雙十一實時流計算實現(xiàn)實時銷售額統(tǒng)計以及電信行業(yè)在重大節(jié)日的實時保障監(jiān)控。
Pentaho BI 平臺是一個以流程為中心的,面向解決方案的框架。其特點在于將一系列企業(yè)級BI產(chǎn)品、開源軟件、API等組件集成起來,方便商務智能應用的開發(fā)。目前,Pentaho的主要組成元素包括報表生成、分析、數(shù)據(jù)挖掘和工作流管理等。這些組件通過 J2ΕΕ、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。
以上大數(shù)據(jù)分析軟件都可以滿足對企業(yè)中的大數(shù)據(jù)進行分析統(tǒng)計,Hadoop擅長批處理、吞吐量大、做全量數(shù)據(jù)的離線分析,對比Hadoop的批處理,Storm是一個實時處理計算框架,是針對在線業(yè)務而存在的計算平臺。同Hadoop一樣,Storm也可以處理大批量的數(shù)據(jù),然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時,節(jié)省了運行時間,提高效率。
大數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫領域研究的熱點問題,是一種決策支持過程,基于人工智能、機器學習、模式識別、可視化技術等高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,幫助企業(yè)領導調整市場策略,減少風險,做出正確的決策。下面介紹四種開源數(shù)據(jù)挖掘軟件工具。
RapidMiner是世界領先的數(shù)據(jù)挖掘解決工具,用 Java 語言編寫,用戶無需寫任何代碼。RapidMiner具有豐富數(shù)據(jù)挖掘分析和算法功能,常用于解決各種的商業(yè)關鍵問題,如營銷響應率、客戶細分、客戶忠誠度及終身價值、資產(chǎn)維護、資源規(guī)劃、預測性維修、質量管理、社交媒體監(jiān)測和情感分析等典型商業(yè)案例。
與RapidMiner相比,WΕKA優(yōu)勢在于通用公共許可證下是免費的,用戶可以按照自己的喜好選擇自定義。WΕKA基于 Java 版本,應用在包括數(shù)據(jù)分析以及預測建模的可視化和算法,支持多種標準數(shù)據(jù)挖掘任務,包括數(shù)據(jù)預處理、收集、分類、回歸分析、可視化和特征選取等。
Orange是一款基于 Python 語言,功能強大的開源工具,對初學者和專家級的大神均適用。它不僅有機器學習的組件,還附加有生物信息和文本挖掘,具備了數(shù)據(jù)分析的絕大部分功能。如以學生的基本信息和成績數(shù)據(jù)作為處理對象,利用Orange軟件中的決策樹分析法學生的成績分布進行數(shù)據(jù)分析,為學校決策者在專業(yè)培養(yǎng)計劃的制定中提供科學依據(jù)。
R語言是一款針對編程語言和軟件環(huán)境進行統(tǒng)計計算和制圖的免費軟件,被廣泛應用于數(shù)據(jù)挖掘以及開發(fā)統(tǒng)計軟件和數(shù)據(jù)分析中。除了數(shù)據(jù),它還提供統(tǒng)計和制圖技術,包括線性和非線性建模,經(jīng)典的統(tǒng)計測試,時間序列分析、分類、收集等。
R語言幾乎覆蓋了整個統(tǒng)計領域最前沿的算法,有廣泛、便捷的數(shù)據(jù)接口,可以通過不同的加載包調用其他開源數(shù)據(jù)挖掘軟件,成為這幾年各大高校和企業(yè)最受歡迎的數(shù)據(jù)挖掘軟件。
一圖勝千言,數(shù)據(jù)可視化以信息圖的方法描述大數(shù)據(jù),可以讓數(shù)據(jù)分析師的發(fā)現(xiàn)更容易被理解和信服。
IBM Cognos Analytics是一種BI工具,實現(xiàn)企業(yè)級的交互式數(shù)據(jù)庫查詢和報表生成,對企業(yè)數(shù)據(jù)進行多維分析和統(tǒng)計匯總,提供豐富的數(shù)據(jù)展現(xiàn)形式,靈活的自助分析能力,主要功能包括元數(shù)據(jù)建模、MOLP建模、內(nèi)存OLAP建模、專業(yè)報表開發(fā)、可擴展的可視化RAVΕ引擎、SDK開發(fā)集成,在提供豐富的前臺展現(xiàn)和分析能力的同時,后臺通過優(yōu)異的查詢引擎和多維分析能力,提升數(shù)據(jù)查詢效率,增強各層次業(yè)務人員分析體驗。如在雅戈爾的供應鏈系統(tǒng)中,Cognos是輔助決策的核心組件,對整條供應鏈系統(tǒng)中的重要數(shù)據(jù)進行抽取和多維分析,通過二維報表和多維數(shù)據(jù)立方體展現(xiàn)出來,供決策者按需定義分析條件,找到問題的關鍵,使雅戈爾對訂單的反應能力及生產(chǎn)周期縮短了50%,庫存周轉率提高一倍以上,節(jié)省了2.5億元的庫存成本。
SAS可視化分析軟件通過交互式數(shù)據(jù)可視化和易于使用的分析探索數(shù)據(jù),設計分發(fā)報表和儀表盤,通過自動繪圖提供一系列先進的數(shù)據(jù)可視化技術和向導式分析,從報告和探索、分析直至通過不同渠道分享信息,可利用單一用戶界面來完成。如XL Group集團應用SAS可視化分析軟件,應對保險行業(yè)新變化,實現(xiàn)了全球保險和再保險業(yè)務新突破。SAS可視化分析能直觀形象地展示信息,同時又能進行先進統(tǒng)計概念的交流,比以往通過大量圖表、數(shù)字和相互關系說明更加有效。
Tableau是一款定位在數(shù)據(jù)可視化的商務智能展現(xiàn)工具,可以用來實現(xiàn)交互地、可視化的分析和儀表盤分析應用。Tableau可視化界面幫助用戶通過數(shù)據(jù)尋找業(yè)務答案,通過普通的硬件環(huán)境,實現(xiàn)上百萬條數(shù)據(jù)的訪問,對內(nèi)存技術的數(shù)據(jù)沒有大小的限制,無需對數(shù)據(jù)進行事先的匯總和計算。它允許普通業(yè)務人員將表格中的數(shù)據(jù)轉變成各種可視化的圖形,強交互性的儀表盤并共享給企業(yè)中的其它用戶,這些通過點擊鼠標即可完成。如中國東方航空公司,以前制作報表需要3周的時間,應用Tableau將制作報表時間縮短至數(shù)分鐘,及時作出決策,營業(yè)額增長了2%。
Smartbi采用最新的互聯(lián)網(wǎng)技術,以簡潔、直觀的界面,展現(xiàn)企業(yè)各環(huán)節(jié)的經(jīng)營數(shù)據(jù),并以豐富的形式為企業(yè)決策者剔紅分析和管理上的幫助,洞察企業(yè)的運營狀況。Smartbi具有儀表盤、靈活查詢、電子表格、OLAP多維分析、移動BI應用、Off i ce分析報告、自助BI分析、數(shù)據(jù)采集填報、數(shù)據(jù)挖掘等功能模塊,適用于領導駕駛艙、KPI監(jiān)控看板、財務分析、銷售分析、市場分析、生產(chǎn)分析、供應鏈分析、風險分析、質量分析、客戶分析、精準營銷等管理領域,增強了企業(yè)的洞察能力、盈利能力,為企業(yè)獲得可持續(xù)的競爭優(yōu)勢提供強大的保障。
Cognos Analytics同時滿足了企業(yè)級BI和敏捷BI分析需求,提供企業(yè)級的數(shù)據(jù)建模分析和報表能力,同時兼顧業(yè)務部門自助服務,針對不同管理層次的用戶業(yè)務進行定位分析,更能滿足企業(yè)的需要,個人認為,Cognos Analytics是企業(yè)大數(shù)據(jù)可視化軟件的首選。
基于工業(yè)4.0要求下的大數(shù)據(jù)管理,需要從數(shù)據(jù)采集、存儲、分析、挖掘、展示等各個階段進行處理。如何將工業(yè)各工序存在的與產(chǎn)品、質量、成本、物流、能源等相關的信息進行大數(shù)據(jù)管理,進而形成決策支撐是當下工業(yè)革命的重要課題。本文在概述了近年來基于hadoop平臺開創(chuàng)后產(chǎn)生的針對大數(shù)據(jù)存儲、分析、挖掘、可視化軟件,旨在為工業(yè)建立適合自身的大數(shù)據(jù)管理體系,實現(xiàn)以效益為目標,精益、精品管理為內(nèi)核的愿景,從而全面提升企業(yè)的運營管理效率,推動企業(yè)的全面發(fā)展。