王眾
“星環(huán)號”能帶著人類逃離太陽系,因為它實現(xiàn)了超光速飛行;星環(huán)科技希望建立數(shù)據(jù)時代的里程碑,則要突破性能極限。
《三體》中,由于太陽系受到未知文明的打擊而降維消失,地球人類僅剩的最后兩人乘 “星環(huán)號” 曲率引擎驅(qū)動飛船離開太陽系,從而保存了地球文明。在2013年的上海,一幫研究大數(shù)據(jù)的專家攜手創(chuàng)辦了一家叫“星環(huán)”的公司,致力于在大數(shù)據(jù)時代打造一艘高速的航空母艦。這不是巧合,創(chuàng)始人兼CTO孫元浩正是因為讀了《三體》,才定下了這個名字。
星環(huán)科技的核心團隊來自于英特爾的研發(fā)團隊,是國內(nèi)最早的大數(shù)據(jù)Apache Hadoop發(fā)行版團隊,從2009年起即開始致力于大數(shù)據(jù)平臺軟件的自主創(chuàng)新和開發(fā);彼時,基于Apache Hadoop開源技術(shù)的數(shù)據(jù)管理及分析平臺提供商Cloudera剛成立一年,如今,Cloudera在“福布斯2016全球最佳云計算公司100強”中排名第五。
國際舞臺新玩家
在“Gartner 2016年數(shù)據(jù)倉庫及數(shù)據(jù)管理解決方案魔力象限”中,星環(huán)科技登上最具遠見象限,且是唯一上榜的中國廠商。讓星環(huán)科技與與老大哥Cloudera并肩而立的功臣產(chǎn)品Transwarp Data Hub (TDH)是基于Apache Hadoop和Apache Spark的分布式內(nèi)存分析引擎和實時在線大規(guī)模計算分析平臺。目前星環(huán)TDH已經(jīng)在恒豐銀行等多個領(lǐng)域有替代傳統(tǒng)技術(shù)數(shù)據(jù)倉庫的落地案例。
2015年,星環(huán)科技的TDH4.0版本全面通過了TPC-DS 100T的99項測試。TPC-DS是TPC(事務(wù)處理性能委員會)評測決策支持系統(tǒng)的測試基準。這個測試集包含了對大數(shù)據(jù)集的統(tǒng)計、報表生成、聯(lián)機查詢、數(shù)據(jù)挖掘等復雜應(yīng)用,與真實場景非常接近,是難度較大的一個測試集,也是目前業(yè)界公認的數(shù)據(jù)倉庫測試準則。到目前為止,能夠通過100T測試的廠商寥寥無幾。孫元浩介紹,TDH相比開源Hadoop版本有10~1000倍的性能提升,可以處理GB到PB級別的數(shù)據(jù)。
“星環(huán)號”之所以能帶著人類逃離太陽系,是因為其實現(xiàn)了超光速飛行;星環(huán)科技希望建立數(shù)據(jù)時代的里程碑,則要努力突破大數(shù)據(jù)存儲、計算和管理的性能極限。事實上,較早啟用大數(shù)據(jù)技術(shù)的金融業(yè),其數(shù)據(jù)量在100TB至1PB級別;數(shù)據(jù)量級龐大的電信業(yè),其數(shù)據(jù)量已經(jīng)達到了PB級。比起數(shù)據(jù)爆炸的速度,目前的大數(shù)據(jù)處理技術(shù)還在追趕中,即便是百倍的提升,也只是一個開端。
開辟無人區(qū)
如今舉國都在數(shù)據(jù)化,基于業(yè)務(wù)差異,不同行業(yè)對大數(shù)據(jù)分析的需求各有側(cè)重,孫元浩分析,后Hadoop時代又回到了解決大數(shù)據(jù)的4個V上,即數(shù)據(jù)量(Volume)、數(shù)據(jù)類型(Variety)、速度(Velocity)和價值(Value)。
目前,金融業(yè)重視海量數(shù)據(jù)處理效率,以及利用機器學習和深度學習為營銷和風控等業(yè)務(wù)提供幫助;政府具有PB級數(shù)據(jù),更看重如何用最低成本建設(shè)搜索引擎;相形之下,電力行業(yè)的要求更多樣。電力行業(yè)的數(shù)據(jù)源來源于電力生產(chǎn)和電能使用的各個環(huán)節(jié),其產(chǎn)業(yè)鏈前端的要求尤為復雜,華風數(shù)據(jù)和星環(huán)科技聯(lián)手為國電電力寧波風電開發(fā)有限公司建立的風電場大數(shù)據(jù)分析平臺就是一例典型應(yīng)用,也造就了第一家成功將大數(shù)據(jù)應(yīng)用于生產(chǎn)的風電場。
首先,風電場通常具有地理環(huán)境惡劣、場站分散的特點,很難留住人才,因此對自動化、遠程集控要求較高。其次,目前發(fā)電機組的數(shù)據(jù)采集和監(jiān)控系統(tǒng)都是由風電機組制造商配套提供的,但是各廠家的系統(tǒng)互不兼容,因此數(shù)據(jù)類型復雜。
另外,風能具有高度的隨機波動性與間歇性,對電力供需平衡、電力系統(tǒng)安全以及電能質(zhì)量帶來了嚴峻挑戰(zhàn)。智能風機上配備有大量的傳感器。以每臺風機每秒反饋1200個傳感器數(shù)據(jù)為例,一個設(shè)有100臺風機的風電場向數(shù)據(jù)中心回傳的數(shù)據(jù)率相當于12萬點/秒。傳統(tǒng)的做法是先存儲再處理;當發(fā)現(xiàn)問題時,為時已晚。這就要求風電企業(yè)及時掌握所有風機的實時數(shù)據(jù)和狀況,以便及時調(diào)整檢修。
所以,寧波風電需要在寧波市區(qū)建立生產(chǎn)集控中心,能夠遠程監(jiān)視、控制、調(diào)度所有的風電場,實現(xiàn)實時報警、在線診斷故障、及時處理故障,降低損失發(fā)電量;以及海量數(shù)據(jù)存儲, 為風機運行優(yōu)化、性能提升提供精準的數(shù)據(jù)支撐;最終實現(xiàn)無人值班、少人值守。這幾乎涵蓋了4個V的挑戰(zhàn)。
針對這些需求,華風數(shù)據(jù)基于星環(huán)科技的TDH設(shè)計了集數(shù)據(jù)整合、系統(tǒng)整合、應(yīng)用整合的統(tǒng)一平臺,采用了多通道數(shù)據(jù)傳輸技術(shù),支持多種通訊協(xié)議;星環(huán)的實時流處理技術(shù)融合了事件驅(qū)動和低延時處理,能夠?qū)γ棵?2萬點數(shù)據(jù)進行實時的處理與分析,當傳感器數(shù)據(jù)值超過閾值時實時報警;數(shù)據(jù)存儲分析集群能存儲海量歷史數(shù)據(jù),并基于風機歷史數(shù)據(jù)做查詢與統(tǒng)計分析。
同時TDH支持R語言無縫對接并提供圖形化界面,使得寧波風電能通過R語言進行數(shù)據(jù)挖掘,并能直接調(diào)用星環(huán)科技TranswarpR的機器學習算法庫,降低了業(yè)務(wù)人員學習時間成本。孫元浩表示,幾年前大家開始關(guān)注機器學習領(lǐng)域,相比傳統(tǒng)利用人工經(jīng)驗去設(shè)定并驗證模型和規(guī)則,利用機器學習的方法分析大數(shù)據(jù)更準確。
隨著大數(shù)據(jù)應(yīng)用的發(fā)展,最終各行業(yè)都會將重心放在挖掘數(shù)據(jù)背后的價值上。目前走在前列的,當屬2016年的當紅炸子雞金融業(yè)。孫元浩介紹,星環(huán)科技提供的深度學習已經(jīng)在金融領(lǐng)域中幫助客戶利用大數(shù)據(jù)做營銷、風險分析、預測壞帳,等等。
對于大數(shù)據(jù)的未來,孫元浩認為有四個發(fā)展方向:第一,替代數(shù)據(jù)庫方面,主要是用新的引擎來處理大規(guī)模數(shù)據(jù),大量的用戶數(shù)據(jù)仍然是結(jié)構(gòu)化數(shù)據(jù);第二,處理非結(jié)構(gòu)化數(shù)據(jù),這塊主要用到深度學習來處理圖像、語音、人機交互等;第三,實時計算,主要是流計算——如何將批處理和事件處理兩個模型融合起來,在非常短的延時內(nèi)完成復雜事務(wù)處理;第四,數(shù)據(jù)挖掘和數(shù)據(jù)分析的工具,目的是將機器學習和深度學習變得普及化。這也是星環(huán)科技深挖的領(lǐng)域。
孫元浩介紹,大數(shù)據(jù)應(yīng)用產(chǎn)業(yè)鏈大致可分為四層:大數(shù)據(jù)平臺基礎(chǔ)軟件層、工具層、應(yīng)用層和專業(yè)服務(wù)層;星環(huán)科技將專注于前兩層。后兩層的行業(yè)屬性較強,他表示,目前大數(shù)據(jù)的行業(yè)應(yīng)用解決方案稀缺,很適合新玩家們作為入口一展身手。