杜曉夢
大數(shù)據(jù)時代,不少企業(yè)面臨選擇大數(shù)據(jù)還是小數(shù)據(jù)的矛盾。事實上,選擇什么樣的數(shù)據(jù)戰(zhàn)略,需要基于企業(yè)的現(xiàn)狀和目標(biāo)進行判斷,建設(shè)最能支撐企業(yè)業(yè)務(wù)發(fā)展的數(shù)據(jù)戰(zhàn)略。
在大數(shù)據(jù)炙手可熱的時代,眾多企業(yè)紛紛引入和擁抱大數(shù)據(jù),然而小數(shù)據(jù)對企業(yè)的價值同樣不可忽視。那么,在面臨大數(shù)據(jù)和小數(shù)據(jù)時,企業(yè)究竟該何去何從呢?
大數(shù)據(jù)和小數(shù)據(jù)的優(yōu)勢
“大數(shù)據(jù)”這一概念自從被提出之后,得到了業(yè)界廣泛的關(guān)注和討論。那么大數(shù)據(jù)的概念是什么呢?維基百科對大數(shù)據(jù)的定義是“所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過傳統(tǒng)方式,在合理時間內(nèi)進行截取、管理、處理,并整理成為人類所能解讀的信息”。這個概念主要在描述大數(shù)據(jù)體量大這一特征。而美國白宮在2014年發(fā)布的《大數(shù)據(jù)白皮書》中這樣定義:“大數(shù)據(jù)集是龐大的、多樣化的、復(fù)雜的、縱深的和分布式的,它由各類儀器設(shè)備、傳感器、網(wǎng)上交易、電子郵件、視頻、點擊流以及現(xiàn)在與未來所有可以利用的其他數(shù)字化信號源產(chǎn)生?!蹦壳埃髷?shù)據(jù)的概念沒有一個權(quán)威而統(tǒng)一的定義,但普遍認(rèn)為大數(shù)據(jù)具有四大特征:
1.體量大(Volume):事無巨細(xì)的數(shù)據(jù)記錄,過程數(shù)據(jù)遠(yuǎn)多于結(jié)果數(shù)據(jù);
2.速度快(Velocity):數(shù)據(jù)稍縱即逝,需要實時采集;商機時不再來,必須實施應(yīng)用;
3.多樣化(Variety):多種數(shù)據(jù)來源,內(nèi)容五花八門;多種數(shù)據(jù)結(jié)構(gòu),標(biāo)準(zhǔn)無法統(tǒng)一;
4.價值高(Value):可以幫助企業(yè)提高收入、降低成本;通過提升預(yù)測力帶來價值。
而“小數(shù)據(jù)”是指什么呢?大體上來說,小數(shù)據(jù)或者傳統(tǒng)數(shù)據(jù),和大數(shù)據(jù)相比,體量比較小;實時性偏低,離線采集數(shù)據(jù)比較多,如問卷數(shù)據(jù);沒有大數(shù)據(jù)多源異構(gòu)的特征。一方面,小數(shù)據(jù)基本采集于單一數(shù)據(jù)源,例如CRM系統(tǒng)或財務(wù)系統(tǒng)等,而大數(shù)據(jù)傾向于采集多種數(shù)據(jù)源,打破企業(yè)信息系統(tǒng)之間存在的數(shù)據(jù)孤島。另一方面,小數(shù)據(jù)基本以結(jié)構(gòu)化數(shù)據(jù)為主,而大數(shù)據(jù)涵蓋了企業(yè)里種種非結(jié)構(gòu)化數(shù)據(jù),如圖片數(shù)據(jù)、客服系統(tǒng)的語音留言、網(wǎng)站日志數(shù)據(jù)等。小數(shù)據(jù)與大數(shù)據(jù)相比有什么優(yōu)勢呢?首先,小數(shù)據(jù)一般來說都比較準(zhǔn)確,信息含金量高,分析成本較低;而大數(shù)據(jù)價值密度較低,需要沙里淘金,分析成本也比較高,一般需要服務(wù)器集群進行支撐。其次,大數(shù)據(jù)涉及的維度比較多,多數(shù)情況只能研究和解決相關(guān)性問題,而不是因果性問題。例如在大數(shù)據(jù)應(yīng)用的較廣的個性化推薦、互聯(lián)網(wǎng)廣告領(lǐng)域,業(yè)界經(jīng)常會利用機器學(xué)習(xí)算法構(gòu)建各種“黑盒”模型,目標(biāo)是為消費者推薦他可能購買的商品,或者展示給消費者他可能感興趣的廣告,但很少有模型能揭示出其內(nèi)在的機制和原理。而小數(shù)據(jù)研究就能精確衡量某些因素對消費者行為的影響,無論是學(xué)界還是業(yè)界,都可以通過實驗室、問卷、A/B組等研究方法解釋消費者的偏好和選擇,小數(shù)據(jù)的研究和應(yīng)用更具備可解釋性。最后,小數(shù)據(jù)專注于研究消費者的心理、態(tài)度、品牌認(rèn)知等這種看不見、不完全由行為體現(xiàn)的問題。
企業(yè)是否需要大數(shù)據(jù)?
企業(yè)是否應(yīng)該引入和擁抱大數(shù)據(jù)呢?這個問題需要因行業(yè)而定,因企業(yè)而定,具體問題具體分析。我們看到有些行業(yè)在大數(shù)據(jù)應(yīng)用上走得很快,例如金融行業(yè)利用大數(shù)據(jù)解決征信問題、輔助反欺詐業(yè)務(wù);廣告行業(yè)利用大數(shù)據(jù)做精準(zhǔn)廣告投放、消費者觸達;零售快消行業(yè)利用大數(shù)據(jù)做用戶畫像、標(biāo)簽體系等。而另一些行業(yè)則發(fā)展得慢一些,如建材、環(huán)保等行業(yè)。另一方面,一般來說規(guī)模大、數(shù)據(jù)多的企業(yè)在大數(shù)據(jù)使用方面比較得心應(yīng)手,而規(guī)模小、數(shù)據(jù)少的企業(yè)在這方面的投入要少一些。很多企業(yè)在看到大數(shù)據(jù)給其他企業(yè)、行業(yè)帶來很高的價值時,都會急于想要引入這一流行的技術(shù)方案,而沒有做充分的研究和論證。那么,基于企業(yè)現(xiàn)狀,我們應(yīng)該如何去應(yīng)用大數(shù)據(jù)呢?在這里建議企業(yè)在做大數(shù)據(jù)選型之前先回答以下幾個問題:
1.企業(yè)有哪些數(shù)據(jù)?只有盤點好自己的數(shù)據(jù)資產(chǎn)才能意識到自己的數(shù)據(jù)現(xiàn)狀和存在的問題。從生產(chǎn)、銷售、營銷、財務(wù)等領(lǐng)域做綜合的盤點,將歷史數(shù)據(jù)盤算清楚,這是第一步。在做數(shù)據(jù)資產(chǎn)盤點的過程中,要注意核實數(shù)據(jù)的質(zhì)量、價值、準(zhǔn)確性和有效性,對內(nèi)外部數(shù)據(jù)的所有權(quán)進行定義,整理出企業(yè)目前的數(shù)據(jù)資產(chǎn)列表。
2.企業(yè)的哪些業(yè)務(wù)需要大數(shù)據(jù)支撐?這是一個非常關(guān)鍵的問題。很多不太成功的大數(shù)據(jù)項目大多忽略了一個問題,就是我們的業(yè)務(wù)是否需要大數(shù)據(jù)的支撐。如果只是為了做大數(shù)據(jù)而做大數(shù)據(jù)是沒有意義的。相反,如果企業(yè)在引入大數(shù)據(jù)技術(shù)之前,能夠先召集業(yè)務(wù)部門進行探討,傾聽業(yè)務(wù)部門的困難和訴求,對日后引入大數(shù)據(jù)技術(shù)是非常有幫助的。企業(yè)需要堅信一點,最好的大數(shù)據(jù)應(yīng)用一定是為業(yè)務(wù)服務(wù)的。
3.企業(yè)需要構(gòu)建的大數(shù)據(jù)應(yīng)用是否有足夠的數(shù)據(jù)支撐?在回答完第二個問題之后,企業(yè)可能會意識到,我們需要解決的業(yè)務(wù)問題,目前并沒有足夠的數(shù)據(jù)進行支撐。這時候,就需要通過某些方式增加、積累企業(yè)需要的數(shù)據(jù)了。補充數(shù)據(jù)有很多種方式,例如利用爬取技術(shù)獲取互聯(lián)網(wǎng)公開網(wǎng)頁的數(shù)據(jù),又如采購一些對口的外部數(shù)據(jù)等。
4.企業(yè)需要的大數(shù)據(jù)應(yīng)用優(yōu)先級是怎樣的?大多數(shù)企業(yè)需要的不僅是一個大數(shù)據(jù)應(yīng)用,而是通過構(gòu)建一系列的大數(shù)據(jù)應(yīng)用,全面提升企業(yè)的技術(shù)能力,同時支撐不同業(yè)務(wù)部門不同的訴求。大部分企業(yè),尤其是大型企業(yè)在推進大數(shù)據(jù)規(guī)劃的時候都采取“平臺先行、應(yīng)用跟上”的思路,先在整個企業(yè)內(nèi)部構(gòu)建一個匯聚全渠道數(shù)據(jù)的大數(shù)據(jù)平臺,或稱數(shù)據(jù)湖,將企業(yè)多源異構(gòu)、零散的數(shù)據(jù)孤島進行打通,建立基于消費者、產(chǎn)品等不同領(lǐng)域的統(tǒng)一視圖。在此基礎(chǔ)上,有針對性地構(gòu)建面向生產(chǎn)、銷售、營銷、服務(wù)等不同業(yè)務(wù)部門的大數(shù)據(jù)應(yīng)用。
大數(shù)據(jù)+小數(shù)據(jù)=智能數(shù)據(jù)
企業(yè)在積極擁抱大數(shù)據(jù)的同時,亦不能忽略了小數(shù)據(jù)對于企業(yè)業(yè)務(wù)的價值。舉例來說,寶潔、聯(lián)合利華等大型快消品廠商,每年在問卷收集這種小數(shù)據(jù)項目上的投入是巨大的,通過對小數(shù)據(jù)的分析,有利于他們的市場部門準(zhǔn)確定位品牌、細(xì)分消費者、開發(fā)新產(chǎn)品、把握消費者心理等。
傳統(tǒng)的市場研究領(lǐng)域曾是小數(shù)據(jù)的天下,而這種格局隨著互聯(lián)網(wǎng)的興起和大數(shù)據(jù)技術(shù)的普及正在逐漸被改變。如今的市場研究領(lǐng)域正流行將大數(shù)據(jù)和小數(shù)據(jù)結(jié)合在一起進行分析。例如老牌市場研究公司尼爾森與中國電信合作開發(fā)的產(chǎn)品,依托于中國電信的線上行為數(shù)據(jù),結(jié)合尼爾森的市場研究方法,提供不同品牌的消費者特征、線上表現(xiàn)等信息。再如擁有中國最大在線樣本庫之一的極速洞察公司,與京東云聯(lián)合開發(fā)的Zeus洞察系統(tǒng),結(jié)合了百萬級消費者的問卷信息與京東億級規(guī)模的消費者行為大數(shù)據(jù),為品牌商更好地了解他們商品的受眾群體、競爭態(tài)勢和線上購物路徑提供了完整的解決方案。對于快消品牌的市場部來說,這無疑是升級了的新型武器—大小數(shù)據(jù)結(jié)合的智能數(shù)據(jù)工具。
同樣的例子在金融行業(yè)也逐漸盛行起來。傳統(tǒng)的銀行業(yè)也開始嘗試將大數(shù)據(jù)與小數(shù)據(jù)結(jié)合起來進行深入分析,以指導(dǎo)業(yè)務(wù)。銀行業(yè)傳統(tǒng)線下業(yè)務(wù)產(chǎn)生的小數(shù)據(jù)包括客戶基本信息、資產(chǎn)信息、財務(wù)信息等,金融屬性強、價值密度高,但卻單一,只體現(xiàn)了消費者在金融維度的特征。而隨著電子銀行和手機銀行的興起,銀行客戶的行為逐漸向線上轉(zhuǎn)型,這使得銀行的營銷部門、零售部門不得不思考,如何結(jié)合線上大數(shù)據(jù)更好地對客戶進行分析和提供差異化的服務(wù)。如今越來越多的銀行開始打造線上線下大小數(shù)據(jù)結(jié)合的用戶畫像標(biāo)簽體系,結(jié)合客戶在銀行網(wǎng)點注冊時留下的小數(shù)據(jù),以及在線上渠道留下的瀏覽、點擊、收藏等行為大數(shù)據(jù),建立維度完整的用戶畫像,為客戶提供更加個性化的服務(wù)。
在一個案例中,某大型連鎖經(jīng)營銀行將第三方大數(shù)據(jù)引入,與行內(nèi)小數(shù)據(jù)結(jié)合進行建模分析,發(fā)現(xiàn)“近三個月有過金融相關(guān)互聯(lián)網(wǎng)媒體網(wǎng)站瀏覽行為”的客戶對這款貸款產(chǎn)品更感興趣,而這一洞察如果沒有結(jié)合三方大數(shù)據(jù)是不能被認(rèn)知到的。最終經(jīng)過大小數(shù)據(jù)融合的營銷建模分析,使得營銷效果響應(yīng)率由20%提升至45%,單個客戶的營銷成本節(jié)省50元,極大地提高了銀行的營銷效能。
大數(shù)據(jù)時代,不少企業(yè)面臨選擇大數(shù)據(jù)還是小數(shù)據(jù)的矛盾。事實上,選擇什么樣的數(shù)據(jù)戰(zhàn)略,需要基于企業(yè)的現(xiàn)狀和目標(biāo)進行判斷,建設(shè)最能支撐企業(yè)業(yè)務(wù)發(fā)展的數(shù)據(jù)戰(zhàn)略。在推進大數(shù)據(jù)規(guī)劃之前,企業(yè)一定要深入思考和規(guī)劃,而不是盲目投入。大數(shù)據(jù)和小數(shù)據(jù)各有所長,有機地整合在一起能發(fā)揮更大的價值,相信在可預(yù)見的未來,我們能看到更多行業(yè)產(chǎn)生“大數(shù)據(jù)+小數(shù)據(jù)”的智能數(shù)據(jù)應(yīng)用。