Thor Olavsrud 沈建苗
數(shù)據(jù)分析和相關(guān)的數(shù)據(jù)技術(shù)與社交媒體、移動和云計算一道已成為數(shù)字時代的幾大顛覆者。隨著許多公司從2017年開始從數(shù)據(jù)生成型企業(yè)轉(zhuǎn)向數(shù)據(jù)驅(qū)動型企業(yè),數(shù)據(jù)和分析已成為許多企業(yè)的重心。2018年,這些技術(shù)需要開始實現(xiàn)價值。
多年來數(shù)據(jù)在企業(yè)界迅速積累。隨著數(shù)據(jù)源從互聯(lián)網(wǎng)轉(zhuǎn)移到移動端和機器,物聯(lián)網(wǎng)會進一步加快生成數(shù)據(jù)的速度。
實時流數(shù)據(jù)平臺提供商DataTorrent的首席執(zhí)行官Guy Churchward說:“這迫切需要以一種經(jīng)濟高效的方式來擴展數(shù)據(jù)管道。”
對于許多企業(yè)來說,由Apache Hadoop之類的技術(shù)作為支撐,解決方案就是創(chuàng)建數(shù)據(jù)湖――面向整個企業(yè)的數(shù)據(jù)管理平臺,用于以原生格式存儲企業(yè)的所有數(shù)據(jù)。數(shù)據(jù)湖有望消除信息孤島,因為它提供了單一數(shù)據(jù)存儲庫,整個企業(yè)可以將該存儲庫用于從業(yè)務(wù)分析到數(shù)據(jù)挖掘的各個方面。很多廠商號稱原始、無人管理的數(shù)據(jù)湖是無所不包的大數(shù)據(jù)萬靈藥。
雖然數(shù)據(jù)湖已被證明存儲海量數(shù)據(jù)很有效,可是從這些數(shù)據(jù)中獲取可付諸行動的洞察力卻很難。
Churchward說:“數(shù)據(jù)湖讓許多公司順利地度過了數(shù)據(jù)‘靜態(tài)和‘批處理時代。然而早在2015年,這種架構(gòu)被過度使用的弊端開始顯露出來,現(xiàn)在數(shù)據(jù)湖成了實時數(shù)據(jù)分析的致命弱點。先放置數(shù)據(jù)再分析數(shù)據(jù),這立刻使公司處于極大的劣勢。獲取洞察力,并盡快采取行動,然而依賴過時事件數(shù)據(jù)的公司無法看清情況、應(yīng)采取的行動以及任何可能的即時補救措施。在這個方面,“足夠好”從戰(zhàn)略上來說很致命。
Splice Machine的首席執(zhí)行官Monte Zweben贊同這個觀點。Zweben預(yù)測,2018年,“Hadoop迎來全面幻滅的時代,許多公司喪生于數(shù)據(jù)湖。這是因為把基于Hadoop的計算引擎搭起來很復(fù)雜,無法獲得投資回報?!?/p>
數(shù)據(jù)目錄專業(yè)公司Alation的戰(zhàn)略和聯(lián)盟副總裁Ken Hoang表示,想在2018年生存下去,數(shù)據(jù)湖就得開始證明其商業(yè)價值。
Hoang說:“在過去幾年,數(shù)據(jù)湖(新的數(shù)據(jù)傾倒場)已經(jīng)歷了試驗性部署,除非它證明能實現(xiàn)價值,否則會開始關(guān)閉。成功數(shù)據(jù)湖的特征是擁有這樣一種企業(yè)目錄,可以將信息發(fā)掘、人工智能和信息管理結(jié)合起來,為企業(yè)提供新的洞察力。”
然而,Hoang并不認(rèn)為數(shù)據(jù)湖完全失敗。他預(yù)測,數(shù)據(jù)湖及其他大型數(shù)據(jù)樞紐會通過他所謂的“超級樞紐”(super hub)找到新的生機,“超級樞紐”可以通過機器學(xué)習(xí)提供“環(huán)境即服務(wù)”(context-as-a-service)。
Hoang說:“過去25年部署的大型數(shù)據(jù)樞紐(比如數(shù)據(jù)倉庫、主數(shù)據(jù)管理、數(shù)據(jù)湖、Salesforce和ERP)導(dǎo)致了更多的數(shù)據(jù)孤島,而這些孤島之間無法輕易理解、關(guān)聯(lián)或共享。樞紐中的樞紐能夠跨這些樞紐關(guān)聯(lián)資產(chǎn),因而實現(xiàn)環(huán)境即服務(wù),這反過來會帶來更相關(guān)、更精準(zhǔn)的預(yù)測性洞察力,從而更迅速地獲得更顯著的運營業(yè)務(wù)成效?!?/p>
MapR的首席應(yīng)用架構(gòu)師Ted Dunning預(yù)測會出現(xiàn)類似的轉(zhuǎn)變:由于大數(shù)據(jù)系統(tǒng)成為存儲、訪問和運營等方面的重心,企業(yè)會考慮構(gòu)建一種全局?jǐn)?shù)據(jù)結(jié)構(gòu),以便全面訪問來自多個數(shù)據(jù)源的數(shù)據(jù)和面向真正多租戶的系統(tǒng)的計算資源。
Dunning說:“我們會看到越來越多的企業(yè)將計算當(dāng)成數(shù)據(jù)流,而不是當(dāng)成處理完后存入到數(shù)據(jù)庫中的數(shù)據(jù)。這些數(shù)據(jù)流獲取關(guān)鍵的業(yè)務(wù)事件,體現(xiàn)業(yè)務(wù)結(jié)構(gòu)。統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)將成為構(gòu)建這種大規(guī)模數(shù)據(jù)流系統(tǒng)的基礎(chǔ)?!?/p>
自助服務(wù)數(shù)據(jù)分析專業(yè)公司Alteryx的首席戰(zhàn)略官Langley Eide表示,并非只有IT部門擔(dān)負(fù)起責(zé)任讓數(shù)據(jù)湖實現(xiàn)價值,業(yè)務(wù)部門的分析員和首席數(shù)字官(CDO)也要在2018年擔(dān)負(fù)起責(zé)任。
Eide說:“大多數(shù)分析員并沒有充分利用涌入數(shù)據(jù)湖的大量非結(jié)構(gòu)化資源,比如點擊流數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)和日志數(shù)據(jù)等,主要是由于這些數(shù)據(jù)很難利用起來。而事實上,如果分析員不去處理這些數(shù)據(jù),就沒有盡到責(zé)任。人們普遍認(rèn)為,許多數(shù)據(jù)湖是不良資產(chǎn)――人們不知道有什么數(shù)據(jù)、如何訪問數(shù)據(jù),或者如何從數(shù)據(jù)獲取洞察力。更多的CDO和企業(yè)希望從數(shù)據(jù)湖獲得更高的投資回報,這個現(xiàn)狀在2018年會發(fā)生變化?!?/p>
Eide預(yù)測,2018年我們會看到分析員們將Excel和SQL之類的“蠻力”工具換成更注重編程的方法和技術(shù),比如數(shù)據(jù)編目,從數(shù)據(jù)中發(fā)掘并獲取更多的價值。
由于新的趨勢是從數(shù)據(jù)中獲得更好的洞察力,Edie還預(yù)測CDO的角色在2018年會成熟起來。
“數(shù)據(jù)實質(zhì)上是新的石油,CDO開始被認(rèn)為是解決當(dāng)今企業(yè)最重要的問題:從數(shù)據(jù)中獲取價值的關(guān)鍵角色。由于預(yù)算通常不到1000萬美元,CDO面臨的最大挑戰(zhàn)和機遇之一就是,讓企業(yè)的數(shù)據(jù)資產(chǎn)更貼近業(yè)務(wù)用戶,從而使大加宣傳的自助服務(wù)機會成為現(xiàn)實。2018年,努力在集中式功能與嵌入在業(yè)務(wù)部門的功能之間取得平衡的CDO最終將獲得更多的預(yù)算?!?/p>
Eide認(rèn)為,讓資源、技能和功能能夠在卓越中心和業(yè)務(wù)部門之間迅速轉(zhuǎn)移的CDO將會取得最大的成功。為此,敏捷的平臺和方法是關(guān)鍵。
數(shù)據(jù)分析初創(chuàng)公司Dremio的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Tomer Shiran是Apache Arrow開源項目發(fā)展背后的一大推手,他預(yù)測企業(yè)會需要一種新的角色:數(shù)據(jù)管理員(data curator)。
Shiran表示,數(shù)據(jù)管理員介于數(shù)據(jù)使用者和數(shù)據(jù)工程師之間。數(shù)據(jù)使用者是指使用Tableau和Python等工具,用數(shù)據(jù)來解答重要問題的分析師和數(shù)據(jù)科學(xué)家,而數(shù)據(jù)工程師是指使用腳本語言、Spark、Hive和MapReduce在系統(tǒng)之間移動和轉(zhuǎn)換數(shù)據(jù)的人員。要想獲得成功,數(shù)據(jù)管理員不但要了解運用于數(shù)據(jù)的技術(shù),還要了解數(shù)據(jù)的含義。
Shiran說:“數(shù)據(jù)管理員負(fù)責(zé)了解整個企業(yè)內(nèi)不同的群體需要執(zhí)行的數(shù)據(jù)分析類型,了解哪些數(shù)據(jù)集非常適合于這項工作,并了解需要哪些步驟將數(shù)據(jù)由原始狀態(tài)轉(zhuǎn)換為數(shù)據(jù)使用者執(zhí)行的工作所需的形態(tài)和形式。數(shù)據(jù)管理員使用自助服務(wù)數(shù)據(jù)平臺之類的系統(tǒng),加快讓數(shù)據(jù)使用者便于訪問必要數(shù)據(jù)集的端到端過程,無需制作無數(shù)的數(shù)據(jù)副本。”
歐盟的《通用數(shù)據(jù)保護條例》(GDPR)將于2018年5月25日生效,它如陰霾一般籠罩在數(shù)據(jù)分析領(lǐng)域的上空,可是并非所有企業(yè)做好了準(zhǔn)備。
美富律師事務(wù)所(Morrison & Foerster)全球隱私和數(shù)據(jù)安全部門的多位律師解釋,GDPR將直接適用于歐盟所有成員國,它徹底改變了公司征得同意后才能收集和處理歐盟公民數(shù)據(jù)的方式。這些律師包括:全球隱私業(yè)務(wù)部聯(lián)合主任Miriam Wugmeister、歐洲隱私專家Lokke Moerel以及全球風(fēng)險和危機管理業(yè)務(wù)部主任John Carlin(美國司法部國家安全司前總檢察長助理)。
他們解釋:“那些有賴于征得同意才能開展所有處理工作的公司再也無法這么做,需要具備其他的法律依據(jù)(即必要的合同條文和合法權(quán)益)。公司要實施一套全新的生態(tài)系統(tǒng)來進行通知并征得同意?!?/p>
雖然GDPR處罰金額可能很高――行政罰金可能高達2000萬歐元或全球年營業(yè)額的4%(以金額高者為準(zhǔn)),但許多企業(yè)、尤其是美國企業(yè)并沒有做好準(zhǔn)備。
Hortonworks的首席技術(shù)官Scott Gnau說:“千年蟲問題來臨時,每個人都在為是否真正碰到不好說的問題做準(zhǔn)備。今天,似乎很少有人為2018年5月即將實施的GDPR做準(zhǔn)備。為何如此?我們目前處于這樣一個階段,每個企業(yè)不僅要處理‘接下來的工作,還要努力處理需要解決的問題。許多企業(yè)可能依賴首席安全官來確定規(guī)則、系統(tǒng)和參數(shù)等,幫助全球系統(tǒng)集成商找出最佳的行動方案。但要讓一個人來完成這項工作是不現(xiàn)實的?!?/p>
Gnau表示,正確貫徹GDPR需要企業(yè)高管充分了解,做好準(zhǔn)備,并與本企業(yè)的各部門進行溝通。企業(yè)需要在數(shù)據(jù)資產(chǎn)的整體治理方面有更大的把握。但是重大數(shù)據(jù)泄密(比如2017年曝光的Equifax數(shù)據(jù)泄密)意味著,它們會努力在讓員工自助訪問數(shù)據(jù)與保護同樣這些數(shù)據(jù)免受潛在的威脅之間求得平衡。
因此,Gnau預(yù)測數(shù)據(jù)治理將成為2018年所有企業(yè)關(guān)注的重點?!耙粋€關(guān)鍵的目標(biāo)應(yīng)該是,開發(fā)出一套兼顧數(shù)據(jù)民主化、訪問、自助分析和監(jiān)管的系統(tǒng)。將來我們?yōu)閿?shù)據(jù)安全地設(shè)計架構(gòu)的方式將影響到每個人:美國和海外的客戶、媒體和合作伙伴等?!?/p>
多云數(shù)據(jù)管理專業(yè)公司Veritas Technologies的解決方案營銷主管Zachary Bosin預(yù)測,美國公司會是最先依據(jù)GDPR受到處罰的企業(yè)之一。
Bosin說:“盡管截止日期馬上就到,但Veritas在全球調(diào)查的公司中只有31%認(rèn)為自己符合GDPR。對違規(guī)行為的處罰非常嚴(yán)厲,該法規(guī)將影響到與歐盟公民打交道的任何一家公司?!?h3>元數(shù)據(jù)管理繼續(xù)盛行
當(dāng)然,擺在面前的不僅僅是GDPR。數(shù)據(jù)日益泛濫,全球各國政府因而在制定新的法規(guī)。在企業(yè)內(nèi)部,團隊訪問數(shù)據(jù)的現(xiàn)象比以前普遍得多。這一切使得數(shù)據(jù)治理以及數(shù)據(jù)質(zhì)量、數(shù)據(jù)整合和元數(shù)據(jù)管理顯得更為重要。
分析軟件提供商Infogix的產(chǎn)品管理高級副總裁Emily Washington說:“除了人工智能和物聯(lián)網(wǎng)等早期的趨勢外,現(xiàn)在多了元數(shù)據(jù)管理和確保數(shù)據(jù)隱私以符合GDPR等法規(guī),但2018年一個令人意外的趨勢將是數(shù)據(jù)管理技術(shù)的融合。企業(yè)在日益評估簡化整體技術(shù)架構(gòu)的方式,因為它們想成功地利用大數(shù)據(jù)和分析技術(shù)來打造更好的客戶體驗,實現(xiàn)業(yè)務(wù)目標(biāo),獲得競爭優(yōu)勢,并最終成為市場領(lǐng)導(dǎo)者?!?/p>
Williams表示,獲取有意義的洞察力并提高運營效率需要靈活、整合的工具,好讓用戶迅速獲取、準(zhǔn)備、分析和治理數(shù)據(jù)。尤其是,元數(shù)據(jù)管理對于滿足企業(yè)數(shù)據(jù)環(huán)境中的數(shù)據(jù)治理、法規(guī)遵從和數(shù)據(jù)管理需求將至關(guān)重要。
隨著數(shù)據(jù)項目進入到生產(chǎn)環(huán)境,數(shù)據(jù)質(zhì)量日益受到關(guān)注。隨著物聯(lián)網(wǎng)進一步打開數(shù)據(jù)閘門,尤為如此。Infogix表示,2018年企業(yè)會借助機器學(xué)習(xí)算法,改善數(shù)據(jù)質(zhì)量異常檢測。通過利用歷史模式來預(yù)測未來的數(shù)據(jù)質(zhì)量結(jié)果,企業(yè)可以動態(tài)檢測原本被忽略的異常情況,或者只有通過手動干預(yù)才能在后期階段發(fā)現(xiàn)的異常情況。
Washington說:“由于更多的數(shù)據(jù)通過物聯(lián)網(wǎng)等技術(shù)而生成,管理和利用數(shù)據(jù)變得越來越難。集成的自助工具提供了全面的企業(yè)數(shù)據(jù)視圖,以便得出及時而有意義的結(jié)論。進入到2018年,企業(yè)的數(shù)據(jù)資產(chǎn)做到完全透明對于成功的數(shù)據(jù)分析項目將至關(guān)重要,以便滿足數(shù)據(jù)治理和隱私要求、用數(shù)據(jù)資產(chǎn)來賺錢等等?!?/p>