袁 波
中國電信股份有限公司江陰分公司
隨著《Nature》和《Science》等相繼出版??接懘髷?shù)據(jù)在未來的應(yīng)用,大數(shù)據(jù)逐漸成為社會各界關(guān)注的熱點。大數(shù)據(jù)被譽為“未來的新石油”,甚至被認(rèn)為將決定著國家的競爭力,因此數(shù)據(jù)所有權(quán)的爭奪和數(shù)據(jù)處理技術(shù)的發(fā)展將成為新的戰(zhàn)略焦點。
屬性定義:2011年,大數(shù)據(jù)研究的先驅(qū)國際數(shù)據(jù)中心(IDC)在報告中定義大數(shù)據(jù):“大數(shù)據(jù)技術(shù)描述了一個技術(shù)和體系的新時代,被設(shè)計于從大規(guī)模多樣化的數(shù)據(jù)中通過高速捕獲、發(fā)現(xiàn)和分析技術(shù)提取數(shù)據(jù)的價值”。這個定義把大數(shù)據(jù)特征歸納為“4Vs”,即大容量(volume)、多樣性(variety)、更新快(velocity)和高價值低密度。毛波認(rèn)為大數(shù)據(jù)應(yīng)該符合數(shù)據(jù)量大、相互關(guān)聯(lián)、場景多、實時性高、對未來有影響5個特點。大數(shù)據(jù)的大體現(xiàn)在數(shù)據(jù)的關(guān)聯(lián)性和連通性。大數(shù)據(jù)是前向傾銷后向變現(xiàn)的手段。工業(yè)界普遍認(rèn)為從關(guān)注交易數(shù)據(jù)到關(guān)注行為數(shù)據(jù)是推動大數(shù)據(jù)發(fā)展的重要原因,由于交易數(shù)據(jù)和行為數(shù)據(jù)為1:100的關(guān)系,這時數(shù)據(jù)容量是傳統(tǒng)的工具無法處理。大數(shù)據(jù)表現(xiàn)為行為數(shù)據(jù)的一致性并不重要,缺失10%沒有很大關(guān)系,大數(shù)據(jù)是解決那些采樣后處理結(jié)果迅速下降的問題,一般為個性化問題。大數(shù)據(jù)的結(jié)果一般不是給人看的,是給機器看的。
比較定義:2010年Apache Hadoop組織將大數(shù)據(jù)定義為“普通的計算機軟件無法在可接受的時間范圍內(nèi)捕捉、管理、處理的規(guī)模龐大的數(shù)據(jù)集”。2011年麥肯錫(McKinsey)定義為:“超過了典型數(shù)據(jù)庫軟件工具捕獲、存儲、管理和分析數(shù)據(jù)能力的數(shù)據(jù)集”。研究機構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力,洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”。
菲利浦·科特勒教授把細(xì)分市場視為具有相似需要和欲望的顧客組成的群體。
市場細(xì)分的策略很多,按照地理變量、人口統(tǒng)計變量或者心理變量等。除此之外,有兩種特殊的細(xì)分場景:利基營銷和個體營銷。
1993年唐舒·爾茨、史丹利·田納及羅伯特·勞特朋提出了以客戶為中心的理念最終合著《整合營銷傳播》。在市場細(xì)分方面,整合營銷傳播理論是建立在客戶或潛在客戶的“行為”上,以可以分辨的個人為起點,然后把他們歸類成行為近似的團體,稱之為“集中”。
大數(shù)據(jù)技術(shù)作為革命性力量推動科技進(jìn)步、提升生產(chǎn)效率的同時,在社會各行業(yè)必定創(chuàng)造巨大的商業(yè)價值。大數(shù)據(jù)“商品”,大數(shù)據(jù)服務(wù)和大數(shù)據(jù)軟件應(yīng)用將進(jìn)入競爭市場銷售,為大數(shù)據(jù)價值鏈中的企業(yè)創(chuàng)造價值。市場細(xì)分策略主要是為大數(shù)據(jù)價值鏈下游企業(yè)確定技術(shù)采購和營銷方案提供理論依據(jù)。
當(dāng)前大數(shù)據(jù)技術(shù)仍處于成長期,大數(shù)據(jù)應(yīng)用的市場正在逐步形成但還沒有成熟,對于市場的細(xì)分主要還是采用傳統(tǒng)做法。本節(jié)在大量文獻(xiàn)基礎(chǔ)上,將歸納幾種目前常用的細(xì)分方法。
(1)按行業(yè)或領(lǐng)域細(xì)分
工信部將大數(shù)據(jù)應(yīng)用按照行業(yè)分為:工業(yè)領(lǐng)域、能源電力、政務(wù)服務(wù)、金融財稅、資源環(huán)保、交通運輸、醫(yī)療健康、農(nóng)林畜牧、科教文體、旅游服務(wù)和商貿(mào)服務(wù)等。麥肯錫提出了五個潛在的大數(shù)據(jù)應(yīng)用領(lǐng)域:醫(yī)療康護(hù)、公眾部門管理、零售、全球制造和個人位置信息。大數(shù)據(jù)應(yīng)用可以分為企業(yè)內(nèi)部的大數(shù)據(jù)應(yīng)用、物聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用、社交網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用、醫(yī)療健康大數(shù)據(jù)、群智感知。
按照領(lǐng)域細(xì)分簡潔直觀,易于理解。但是,由于領(lǐng)域和行業(yè)這兩個概念較為寬泛,使得這種分類方法過于靈活,無法形成一個公認(rèn)的標(biāo)準(zhǔn),找不到一個統(tǒng)一的依據(jù)。大數(shù)據(jù)應(yīng)用是一個龐大的知識和產(chǎn)品體系,它的應(yīng)用對象涵蓋所有行業(yè),并且呈現(xiàn):相同行業(yè)具有不同應(yīng)用需求以及不同行業(yè)的特定業(yè)務(wù)可能具有相同需求的特點,因此基于行業(yè)或者領(lǐng)域的分類有很大局限性。
(2)按數(shù)據(jù)源細(xì)分
聯(lián)合國統(tǒng)計署大數(shù)據(jù)工作組將大數(shù)據(jù)按照數(shù)據(jù)源進(jìn)行分類(詳見表1),包括人類數(shù)據(jù)、傳統(tǒng)業(yè)務(wù)系統(tǒng)產(chǎn)生數(shù)據(jù)、物聯(lián)網(wǎng)和機器生成數(shù)據(jù)。
表1 聯(lián)合國統(tǒng)計署大數(shù)據(jù)分類及編碼
大數(shù)據(jù)一般分為以下四類:互聯(lián)網(wǎng)數(shù)據(jù)、科研數(shù)據(jù)、感知數(shù)據(jù)和企業(yè)數(shù)據(jù)。以大數(shù)據(jù)分析的視角,可以分為六類:結(jié)構(gòu)化數(shù)據(jù)分析、文本數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、Web數(shù)據(jù)分析、社交網(wǎng)絡(luò)數(shù)據(jù)分析和移動數(shù)據(jù)分析。
由此可見,按照數(shù)據(jù)源分類劃分標(biāo)準(zhǔn)清晰,容易達(dá)成統(tǒng)一。然而,數(shù)據(jù)源與市場變量之間沒有直接的關(guān)聯(lián)性,無法在營銷過程中運用。
(3)按數(shù)據(jù)處理模式細(xì)分
程學(xué)旗、靳小龍和王元卓等學(xué)者將大數(shù)據(jù)應(yīng)用按照采用的處理技術(shù)類型進(jìn)行分類,批量處理系統(tǒng)應(yīng)用于社交網(wǎng)絡(luò)中關(guān)系和主題推薦,電子商務(wù)領(lǐng)域的產(chǎn)品推薦,搜索引擎廣告投放效果提升,金融領(lǐng)域欺詐行為預(yù)警等等。
流式處理系統(tǒng)應(yīng)用在日志信息挖掘、動態(tài)提醒與預(yù)警,物聯(lián)傳感信息采集挖掘?qū)崟r分析動態(tài)信息展示,Web數(shù)據(jù)采集、網(wǎng)絡(luò)爬蟲程序抓取互聯(lián)網(wǎng)內(nèi)容挖掘價值等。
交互式數(shù)據(jù)處理系統(tǒng)應(yīng)用于政府、醫(yī)療以及對操作序列有嚴(yán)格要求的工業(yè)控制領(lǐng)域,如搜索引擎、電子郵件、即時通訊工具、社交網(wǎng)絡(luò)等互聯(lián)網(wǎng)交互式業(yè)務(wù)。
圖數(shù)據(jù)處理系統(tǒng)解決社區(qū)發(fā)現(xiàn),信息傳播與影響力最大化問題,網(wǎng)頁PageRank評分,分子查找和DNA測序,城市交通規(guī)劃,郵路優(yōu)化等。
按照處理系統(tǒng)分類,必須要求所有營銷人員熟悉大數(shù)據(jù)技術(shù)原理,顯然,這種分類不會是最優(yōu)方案。但是,上面論述中不難發(fā)現(xiàn),每種分類標(biāo)簽中又存在基于領(lǐng)域的再細(xì)分,因此提供了一種二維細(xì)分的思路。
(4)按算法細(xì)分
不同的算法對應(yīng)于不同的應(yīng)用場景,因此基于算法細(xì)分可以很好契合市場需求。Manimom等對數(shù)據(jù)挖掘算法進(jìn)行了分類,將其分為描述性(descriptive)、預(yù)測性和驗證性(veryfying)。Blackett等根據(jù)數(shù)據(jù)分析深度將數(shù)據(jù)分析分為三個層次:描述性(descriptive)分析,預(yù)測性分析和規(guī)則性(prescriptive)分析。大數(shù)據(jù)分析可以分為探索性數(shù)據(jù)分析技術(shù)、描述統(tǒng)計、數(shù)據(jù)可視化。
按算法分類可以關(guān)聯(lián)到客戶需求體現(xiàn)出一定的優(yōu)越性,但是文獻(xiàn)研究多集中在算法本身,并未將算法關(guān)聯(lián)市場變量進(jìn)行合理分類。
哈佛大學(xué)商學(xué)院訪問教師托馬斯·H·達(dá)文波特(Thomos H.Davenport)說:“大數(shù)據(jù)及其分化將會在未來10年改變幾乎每一個行業(yè)的業(yè)務(wù)功能。任何一個組織,如果早一點著手大數(shù)據(jù)的工作,都可以獲得明顯的競爭優(yōu)勢”。大數(shù)據(jù)應(yīng)用將滲透到所有行業(yè)和所有組織,因此提供了一個廣闊的市場前景。深入研究大數(shù)據(jù)應(yīng)用的細(xì)分策略勢在必行,綜合上一節(jié)各細(xì)分策略的特點,大數(shù)據(jù)應(yīng)用的市場細(xì)分策略應(yīng)該遵循以下條件:
(1)為了讓選擇的維度與市場變量相關(guān)聯(lián),應(yīng)該以潛在客戶的行為為考察對象進(jìn)行細(xì)分,即從行為出發(fā)歸納出行為背后的需求,然后對不同需求進(jìn)行分類;
(2)所選的細(xì)分維度應(yīng)具有閉合性易于形成普適性的“范本”;
(3)細(xì)分的維度盡量使用通用詞語,避免太過專業(yè)的用語帶來晦澀難懂和溝通障礙;
(4)大數(shù)據(jù)應(yīng)用內(nèi)涵及其豐富,一個維度無法達(dá)到細(xì)致分類的情況下,可以采用相關(guān)性較弱的二維模式細(xì)分。
經(jīng)過上一節(jié)的討論得到了細(xì)分選取細(xì)分維度的原則,本節(jié)將確定一個基于大數(shù)據(jù)應(yīng)用的市場細(xì)分的普適性模板。
基于算法的細(xì)分在關(guān)聯(lián)市場需求方面體現(xiàn)出天然的優(yōu)越性,并且公認(rèn)的主流算法并不多所以也滿足閉合性要求。聯(lián)合國統(tǒng)計署在對大數(shù)據(jù)進(jìn)行初步分類時,采用數(shù)據(jù)源的維度。數(shù)據(jù)源劃分簡明并且易于表達(dá)。算法和數(shù)據(jù)源是合適的維度,但細(xì)分規(guī)則有待完善。
(1)以算法作為細(xì)分維度研究
2006年ICDM國際會議上總結(jié)了影響力最高的10種數(shù)據(jù) 挖 掘 算 法,包 括C4.5,k-means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,樸素貝葉斯和CART。根據(jù)算法的功能和形式的類似性可以把具體的算法分為:回歸分析、分類算法、聚類算法、關(guān)聯(lián)分析。如表2所示,回歸分析和分類算法屬于監(jiān)督學(xué)習(xí)算法,回歸問題是對數(shù)值型特征進(jìn)行預(yù)測,例如:搜索量與票房趨勢預(yù)測、紅酒品質(zhì)的判斷等;分類問題是對類別性問題進(jìn)行預(yù)測,比如:垃圾郵件判別、信用貸款資質(zhì)審核等。聚類算法和關(guān)聯(lián)分析屬于無監(jiān)督學(xué)習(xí)算法,聚類算法通常被用于探索性分析,以“物以類聚”為主要思路,適合識別客戶群體對市場細(xì)分的應(yīng)用;關(guān)聯(lián)分析是找出對象之間存在的強相互關(guān)系,協(xié)助商家進(jìn)行捆綁銷售,除了探索物物之間的關(guān)系,關(guān)聯(lián)分析還可以尋找人物之間的關(guān)聯(lián),比如“猜你喜歡”、“為您推薦”等應(yīng)用,主要采用協(xié)同過濾算法,它可以視為關(guān)聯(lián)算法的特殊情況。
表2 算法的細(xì)分規(guī)則
(2)以數(shù)據(jù)源作為細(xì)分維度研究
大數(shù)據(jù)應(yīng)用要求數(shù)據(jù)源間開放共享,打通各數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)存儲系統(tǒng)之間的壁壘,因此根據(jù)數(shù)據(jù)的來源分,可以更好的指向使用者所采集的主要數(shù)據(jù)集來源同時指明數(shù)據(jù)的應(yīng)用場景。
20世紀(jì)90年代的商業(yè)智能(BI)被稱為大數(shù)據(jù)應(yīng)用的雛形,21世紀(jì)出現(xiàn)了Web搜索引擎,之后大數(shù)據(jù)技術(shù)突飛猛進(jìn)滲透到各學(xué)科各領(lǐng)域,縱觀歷史和應(yīng)用現(xiàn)狀可以把大數(shù)據(jù)應(yīng)用根據(jù)數(shù)據(jù)來源分為:結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、移動數(shù)據(jù),進(jìn)一步可分為:結(jié)構(gòu)化數(shù)據(jù)、個人文檔數(shù)據(jù)、計算機日志數(shù)據(jù)、Web文本數(shù)據(jù)、多媒體數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、定位數(shù)據(jù)、傳感數(shù)據(jù)。數(shù)據(jù)源的細(xì)分規(guī)則,詳見表3。
表3 數(shù)據(jù)源的細(xì)分規(guī)則
綜上所述,本文采用算法和數(shù)據(jù)源兩個細(xì)分維度變量對大數(shù)據(jù)服務(wù)和大數(shù)據(jù)應(yīng)用的市場進(jìn)行細(xì)分,最終建立二維細(xì)分模型。模型說明:
維度一:算法;
細(xì)分規(guī)則:回歸分析、分類算法、聚類算法和關(guān)聯(lián)分析。
維度二:數(shù)據(jù)源;
細(xì)分規(guī)則:結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)和移動數(shù)據(jù)。
按照以上模型便可以對市場進(jìn)行便捷細(xì)分,例如:客戶需求是預(yù)測銷售量,那么提供的大數(shù)據(jù)應(yīng)用圍繞回歸分析和Web數(shù)據(jù)獲取開發(fā);客戶需求是特定學(xué)科研究熱點分析,那么提供的大數(shù)據(jù)應(yīng)用系統(tǒng)要滿足聚類算法和文本數(shù)據(jù);如果客戶的需求是出行線路優(yōu)化,那么提供的大數(shù)據(jù)應(yīng)用可以用分類算法、移動數(shù)據(jù)和Web數(shù)據(jù)進(jìn)行標(biāo)識。如表4所示,典型應(yīng)用實例。
表4 基于大數(shù)據(jù)應(yīng)用的市場細(xì)分模型的典型示例
數(shù)據(jù)是對自然和客觀世界的記錄和觀測的量化,是人、機、物三元世界互動的痕跡,隨著人類認(rèn)識水平的不斷提高,今后數(shù)據(jù)的生成和應(yīng)用會和人對客觀世界的認(rèn)識一樣沒有終點。大數(shù)據(jù)從產(chǎn)生的那一刻起,就必定成為人類歷史中不可或缺的角色,本文在大量有關(guān)大數(shù)據(jù)技術(shù)及應(yīng)用文獻(xiàn)基礎(chǔ)上,找出了大數(shù)據(jù)應(yīng)用市場化過程中有待完善的環(huán)節(jié),通過維度變量的研究找到了適合目前大數(shù)據(jù)應(yīng)用發(fā)展要求的市場細(xì)分規(guī)則的模板,建立了基于大數(shù)據(jù)應(yīng)用的市場細(xì)分模型。