馬文方
術(shù)業(yè)有專攻。21年的專注,讓Informatica在Gartner有關(guān)iPaaS(企業(yè)集成平臺(tái)即服務(wù))、結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)脫敏、產(chǎn)品數(shù)據(jù)解決方案、客戶數(shù)據(jù) 解決方案、數(shù)據(jù)質(zhì)量工具、數(shù)據(jù)集成工具等魔力四象限中,都位居領(lǐng)導(dǎo)者的第一象限。大數(shù)據(jù)時(shí)代的來臨,讓Informatica逐步從后臺(tái)走出來,為更多的企業(yè)所知曉。
“Informatica成立于1993年,1999年在納斯達(dá)克上市。21年來,我們只做一件事情,那就是專注于數(shù)據(jù)集成和數(shù)據(jù)治理?!?這是7月10日在貴陽舉辦的“生態(tài)貴陽國(guó)際論壇”上的“云上貴州:大數(shù)據(jù)國(guó)際年會(huì)”分論壇上,Informatica大中華區(qū)總裁王晨杰接受本報(bào)記者采訪時(shí)介紹說。
大數(shù)據(jù)的誤區(qū)
IT市場(chǎng)不乏炒作熱點(diǎn),物聯(lián)網(wǎng)曾經(jīng)被認(rèn)為是包治企業(yè)百病的神器,大家爭(zhēng)先恐后開展物聯(lián)網(wǎng)業(yè)務(wù),唯恐被落下。如今,大數(shù)據(jù)又重現(xiàn)當(dāng)初物聯(lián)網(wǎng)的熱潮,仿佛具有藥到病除的神奇功效,因此當(dāng)前IT市場(chǎng)言必談大數(shù)據(jù)。
大數(shù)據(jù)等于決策,這是當(dāng)前市場(chǎng)上很流行的一種觀點(diǎn)。
王晨杰認(rèn)為,大數(shù)據(jù)帶給企業(yè)兩大好處:一是幫助企業(yè)降低成本,不僅可以節(jié)省數(shù)據(jù)占用的IT資源,而且可以降低決策成本;二是通過對(duì)數(shù)據(jù)的深度挖掘和充分利用,幫助企業(yè)實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新和轉(zhuǎn)型。但所有這些的前提是數(shù)據(jù)必須準(zhǔn)確,如果都是垃圾數(shù)據(jù),結(jié)果只會(huì)適得其反。
要想知道大數(shù)據(jù)的能與不能,應(yīng)該從認(rèn)識(shí)數(shù)據(jù)和數(shù)據(jù)處理開始。王晨杰介紹說:“Informatica從3個(gè)層面理解大數(shù)據(jù):一是交易數(shù)據(jù),也就是我們常說的結(jié)構(gòu)化數(shù)據(jù),常用于基于模型的分析;二是交互數(shù)據(jù),這指的是由互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的快速發(fā)展帶來的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),對(duì)交互數(shù)據(jù)可以采用關(guān)聯(lián)分析,也可以經(jīng)過提取進(jìn)行模型分析;三是大數(shù)據(jù),大數(shù)據(jù)處理涉及如何高效與更加經(jīng)濟(jì)地處理大數(shù)據(jù)的問題?!?/p>
“交易數(shù)據(jù)最能準(zhǔn)確地反映事實(shí),交互數(shù)據(jù)可以擴(kuò)展和完善交易數(shù)據(jù),并且常常對(duì)業(yè)務(wù)產(chǎn)生預(yù)想不到的影響,大數(shù)據(jù)處理是對(duì)大數(shù)據(jù)充分、合理的利用?!蓖醭拷苎a(bǔ)充說。
最能反映事實(shí)的數(shù)據(jù),也應(yīng)該是最有價(jià)值的數(shù)據(jù)。企業(yè)戰(zhàn)術(shù)層面的決策,比如說呼叫中心對(duì)用戶的響應(yīng),可能用不上結(jié)構(gòu)化數(shù)據(jù)。但企業(yè)在戰(zhàn)略層面的決策是離不開結(jié)構(gòu)化數(shù)據(jù)的。如果企業(yè)沒有一定時(shí)間和規(guī)模的結(jié)構(gòu)化數(shù)據(jù)積累,是難以做出戰(zhàn)略層面的決策的。而過往基于流程應(yīng)用造成的信息孤島,以及實(shí)時(shí)性差這兩項(xiàng)因素,造成結(jié)構(gòu)化數(shù)據(jù)的價(jià)值難以充分發(fā)揮出來。
“企業(yè)信息化建設(shè)在中國(guó)至少有20年了,任何一個(gè)上了IT系統(tǒng)的企業(yè)都會(huì)有很多數(shù)據(jù)積累下來,但這些結(jié)構(gòu)化數(shù)據(jù)都是按照一個(gè)一個(gè)應(yīng)用系統(tǒng)積累起來的——企業(yè)需要解決一個(gè)問題,就會(huì)根據(jù)特定的流程上一個(gè)系統(tǒng),而相關(guān)的數(shù)據(jù)就被封裝在特定的流程中,于是在企業(yè)內(nèi)部形成了多個(gè)信息孤島,流程之間的數(shù)據(jù)無法共享。”王晨杰表示,“如果企業(yè)無法從信息孤島中抽取數(shù)據(jù),在很大程度上是無法通過數(shù)據(jù)得到企業(yè)的經(jīng)營(yíng)狀況的,更不能通過商業(yè)智能軟件展現(xiàn)出來,進(jìn)而幫助企業(yè)做出決策。這樣的數(shù)據(jù)是雜亂的,我們把它叫做‘垃圾進(jìn)去,垃圾出來”。
大數(shù)據(jù)的實(shí)時(shí)性和更廣泛的數(shù)據(jù)來源,彌補(bǔ)了結(jié)構(gòu)化數(shù)據(jù)的這一弱點(diǎn),而且這些大數(shù)據(jù)經(jīng)過結(jié)構(gòu)化處理后,與企業(yè)原有的結(jié)構(gòu)化數(shù)據(jù)一道,經(jīng)過基于模型的分析,為企業(yè)關(guān)鍵決策提供依據(jù)。
需要提醒的是,由于SOA(面向服務(wù)的架構(gòu))和云計(jì)算的普及,顯著緩解了企業(yè)信息孤島問題,同時(shí)也加速了結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生,結(jié)構(gòu)化數(shù)據(jù)的價(jià)值不斷體現(xiàn)出來。
大數(shù)據(jù)不完全等同于決策,還因?yàn)闆Q策需要專家系統(tǒng)的支持。俗話說胳膊擰不過大腿,企業(yè)的興衰與所在行業(yè)的景氣度和行業(yè)發(fā)展趨勢(shì)密切相關(guān)。20年前,尋呼機(jī)曾是人們最重要的移動(dòng)通信工具。時(shí)至今日,尋呼機(jī)市場(chǎng)早已不復(fù)存在。正所謂“皮之不存,毛之焉附”。
“大數(shù)據(jù)帶來的最大改變不只是數(shù)據(jù)量的增加,更重要的是帶來了分析決策模式的創(chuàng)新。大數(shù)據(jù)的分析方法類似于數(shù)據(jù)挖掘,即通過對(duì)大量數(shù)據(jù)的分析,找出潛在的業(yè)務(wù)規(guī)律。專家系統(tǒng)和傳統(tǒng)的決策分析,更傾向于基于行業(yè)決策模型和行業(yè)知識(shí),分析和總結(jié)業(yè)務(wù)結(jié)果是否符合業(yè)務(wù)預(yù)期,以指導(dǎo)后續(xù)的決策過程。無論采用哪種分析形式和方法,都會(huì)有意、無意地加入人們對(duì)行業(yè)的理解?!蓖醭拷鼙硎?,“首先,在數(shù)據(jù)選擇上,我們絕不會(huì)將完全無關(guān)的數(shù)據(jù)作為本行業(yè)的決策依據(jù);其次,分析的方法雖然是通用的數(shù)學(xué)和統(tǒng)計(jì)算法,但是不同行業(yè)和不同場(chǎng)景需要進(jìn)行不同的解讀。所以說,分析離不開行業(yè)知識(shí),同時(shí)要結(jié)合合理的分析方法,才能做到?jīng)Q策的精準(zhǔn)化?!?/p>
上馬大數(shù)據(jù)應(yīng)用前要先評(píng)估
當(dāng)前,市場(chǎng)上各色I(xiàn)T廠商關(guān)于大數(shù)據(jù)鋪天蓋地的宣傳,弄得很多企業(yè)認(rèn)為不用大數(shù)據(jù)就趕不上時(shí)代的潮流。而Informatica卻認(rèn)為,并非所有的企業(yè)都能立即從大數(shù)據(jù)應(yīng)用中得到回報(bào)。
王晨杰認(rèn)為:“企業(yè)現(xiàn)在是否需要采用大數(shù)據(jù)應(yīng)用,主要取決于3個(gè)方面:一是企業(yè)是否擁有大量各種類型的數(shù)據(jù),二是自身尚無大數(shù)據(jù)的企業(yè)是否可以獲得相關(guān)的大數(shù)據(jù);三是大數(shù)據(jù)能否對(duì)業(yè)務(wù)產(chǎn)生價(jià)值。”
“在對(duì)上述3個(gè)方面進(jìn)行評(píng)估后,企業(yè)還應(yīng)根據(jù)自身業(yè)務(wù)和IT設(shè)施的現(xiàn)狀,決定如何上大數(shù)據(jù)項(xiàng)目?!蓖醭拷鼙硎?,“具備條件的企業(yè)實(shí)施大數(shù)據(jù)時(shí),如果在較小范圍內(nèi)做,可能在三五個(gè)月內(nèi)就能見效;如果在整個(gè)企業(yè)內(nèi)全面鋪開,可能需要一兩年時(shí)間才能見到效果?!?/p>
通常,企業(yè)要想將數(shù)據(jù)用于挖掘和決策,最好應(yīng)該有3到5年的數(shù)據(jù)積累,數(shù)據(jù)規(guī)模大致是PB量級(jí)的。 “企業(yè)以前不重視數(shù)據(jù),可能是覺得這些數(shù)據(jù)暫時(shí)用不上。但從現(xiàn)在開始,企業(yè)就必須認(rèn)真對(duì)待自己的數(shù)據(jù)了?!蓖醭拷苷f,“我們跟客戶說,不要因?yàn)橹暗臄?shù)據(jù)支離破碎,現(xiàn)在就不去匯總了。要相信這些數(shù)據(jù)的價(jià)值總有一天會(huì)體現(xiàn)出來。”
構(gòu)建企業(yè)自己的解決方案
21年的專注,讓Informatica在數(shù)據(jù)集成和數(shù)據(jù)治理方面底氣十足。
“數(shù)據(jù)集成指的是獨(dú)立于所有的硬件平臺(tái)、數(shù)據(jù)庫(kù)平臺(tái)對(duì)數(shù)據(jù)進(jìn)行集成,無論企業(yè)后臺(tái)有多少個(gè)數(shù)據(jù)庫(kù),環(huán)境有多復(fù)雜。事實(shí)上,環(huán)境越復(fù)雜,我們就越得心應(yīng)手,我們處理的速度就會(huì)比競(jìng)爭(zhēng)對(duì)手更快?!?王晨杰說,“從企業(yè)不同的信息孤島中抓取包括Word文檔、Excel文檔,甚至是PDF文檔,對(duì)Informatica來說都不是問題。”
數(shù)據(jù)集成解決的是數(shù)據(jù)的抽取問題,接下來要做的是數(shù)據(jù)質(zhì)量管理,也就是數(shù)據(jù)治理。“數(shù)據(jù)質(zhì)量涉及數(shù)據(jù)的統(tǒng)一性、完整性和規(guī)范性。數(shù)據(jù)質(zhì)量管理業(yè)務(wù)近年來成長(zhǎng)得非常快。這也是我們的優(yōu)勢(shì)所在。”王晨杰說,“大數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)性帶來了越來越嚴(yán)重的隱私泄露問題,從而使得主數(shù)據(jù)管理成為數(shù)據(jù)治理市場(chǎng)上的熱點(diǎn),這也是Informatica最為擅長(zhǎng)之處?!?/p>
王晨杰認(rèn)為,企業(yè)實(shí)施大數(shù)據(jù)應(yīng)用是一個(gè)很長(zhǎng)的過程,Informatica的建議是,“一次開發(fā),多次部署”。用戶可以先購(gòu)買一個(gè)簡(jiǎn)單的工具,把現(xiàn)有的應(yīng)用系統(tǒng)整合到一個(gè)平臺(tái)上,在未來新的應(yīng)用系統(tǒng)上線后自動(dòng)連接上,從而實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)積累。
“數(shù)據(jù)本身不能決策,數(shù)據(jù)需要專家來分析。這些專家除了應(yīng)具有行業(yè)背景外,還必須對(duì)數(shù)據(jù)具有深刻的認(rèn)識(shí),以及對(duì)數(shù)據(jù)的高度敏感。這樣才能使大數(shù)據(jù)真正落地?!蓖醭拷苎a(bǔ)充說,“一些客戶直接問我們應(yīng)該怎么做大數(shù)據(jù)。我告訴客戶,如果照搬別人經(jīng)驗(yàn)的話,做出來并不是你的大數(shù)據(jù)應(yīng)用。我們?cè)诮鉀Q方案中詳細(xì)介紹了相關(guān)用戶在其行業(yè)內(nèi)的成功應(yīng)用,而你要看到這些成功應(yīng)用時(shí),受到啟發(fā)后用自己的數(shù)據(jù)去解決問題。這樣,才能真正構(gòu)建屬于你自己的大數(shù)據(jù)解決方案?!眅ndprint