張玉忠,袁立宇,徐 雄
(中國電信股份有限公司廣東研究院 廣州510630)
2011年2月John Doerr首次提出“SoLoMo”概念后,由 social(社交)、local(本地化)和 mobile(移動(dòng))所標(biāo)識(shí)的這一新的移動(dòng)互聯(lián)網(wǎng)發(fā)展趨勢被業(yè)界廣泛認(rèn)可,認(rèn)為SoLoMo模式是用戶消費(fèi)模式、基礎(chǔ)信息建設(shè)、移動(dòng)技術(shù)變革等多方面的融合和統(tǒng)一。中國電信集團(tuán)公司(以下簡稱中國電信)在向現(xiàn)代化“綜合信息服務(wù)提供商”的轉(zhuǎn)型過程中,業(yè)務(wù)模式互聯(lián)網(wǎng)化的特性逐步顯現(xiàn)并越來越明顯;特別是在移動(dòng)互聯(lián)網(wǎng)進(jìn)入高速發(fā)展時(shí)期后,根據(jù)中國電信對移動(dòng)互聯(lián)網(wǎng)時(shí)代發(fā)展的精準(zhǔn)解讀和定位而提出的 “新三者”戰(zhàn)略目標(biāo)表明,移動(dòng)業(yè)務(wù)應(yīng)用的一個(gè)重要方向就是要站在移動(dòng)互聯(lián)網(wǎng)時(shí)代的前列,并加強(qiáng)了其在價(jià)值高端區(qū)域的地位。
在SoLoMo趨勢下,成功的移動(dòng)互聯(lián)網(wǎng)應(yīng)用再次證明,要以戰(zhàn)略性的高度來重視客戶的需求和體驗(yàn),技術(shù)和應(yīng)用兩手抓,更多地激發(fā)用戶在應(yīng)用中互動(dòng)性、實(shí)時(shí)性的參與意識(shí),充分運(yùn)用數(shù)據(jù)挖掘理念,精確聚焦用戶需求,為用戶提供個(gè)性化、差異化的服務(wù);以產(chǎn)品的生命周期理論為指導(dǎo),適時(shí)更新產(chǎn)品功能或開發(fā)出新產(chǎn)品,持續(xù)刺激用戶對產(chǎn)品的興趣,增加用戶黏性,實(shí)現(xiàn)用戶價(jià)值最大化。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶的規(guī)?;?jīng)營愈發(fā)重要,沒有市場份額作基礎(chǔ)就難言生存,更別談發(fā)展。工業(yè)和信息化部發(fā)布的統(tǒng)計(jì)數(shù)據(jù)顯示,截至2011年年底,我國的3G用戶總數(shù)達(dá)1.28億戶,其中,中國電信的3G用戶超過 3 700萬戶,且有近一半的3G用戶使用中國電信天翼智能終端。這些智能終端為移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的興起和發(fā)展奠定了強(qiáng)有力的基礎(chǔ),除手機(jī)移動(dòng)終端外,其他各種平板電腦、電子閱讀器、移動(dòng)導(dǎo)航等設(shè)備終端同樣也承載著大量的移動(dòng)應(yīng)用。
相比于傳統(tǒng)的固話、PC互聯(lián)網(wǎng)業(yè)務(wù),移動(dòng)互聯(lián)網(wǎng)時(shí)代是個(gè)性化更明顯的時(shí)代,用戶提出了更高的能動(dòng)性需求:用戶不再滿足于被動(dòng)地接受信息瀏覽、信息推送等服務(wù)模式,而是希望以參與者的身份與內(nèi)容提供商一起通過自制或定制的方式來展示自己的獨(dú)特個(gè)性,這也是SNS、UGC等在社交媒體網(wǎng)站火爆的重要原因。因此,移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)更需要收集這些用戶的行為特征,以新穎的創(chuàng)意和可持續(xù)的功能優(yōu)化來吸引用戶,以極致的用戶體驗(yàn)來提高用戶的黏性,并在規(guī)模化的基礎(chǔ)上,提供便捷新穎的交互性產(chǎn)品,促進(jìn)移動(dòng)互聯(lián)網(wǎng)類業(yè)務(wù)的創(chuàng)新和發(fā)展。
在移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)中,以滿足用戶個(gè)性化需求為關(guān)鍵出發(fā)點(diǎn),成功把握移動(dòng)互聯(lián)網(wǎng)時(shí)代個(gè)性化、差異化的市場先機(jī),甚至成為業(yè)務(wù)規(guī)則的制定者,需要把移動(dòng)互聯(lián)網(wǎng)的內(nèi)容、產(chǎn)品與用戶的年齡、身份、職業(yè)等自然屬性和消費(fèi)特點(diǎn)、個(gè)性偏好、動(dòng)態(tài)需求等特點(diǎn)相關(guān)聯(lián),結(jié)合下面描述的移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)特點(diǎn),以數(shù)據(jù)挖掘的技術(shù)手段,如挖掘潛在用戶、提供用戶分群和進(jìn)行交叉營銷等,做大做強(qiáng)整個(gè)產(chǎn)業(yè)鏈。
SoLoMo應(yīng)用的基礎(chǔ)是個(gè)性化信息的整合,因此建立具備能力開放功能的移動(dòng)用戶行為知識(shí)庫平臺(tái)是SoLoMo應(yīng)用的必要前提。
首先,快速圈住一批用戶是產(chǎn)品成功的先決條件。中國電信的基礎(chǔ)業(yè)務(wù)積淀了大量的真實(shí)用戶屬性和行為特征,如八大基地?cái)?shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)日志、號(hào)百查詢記錄、用戶話務(wù)清單、電信CRM資料等,而云計(jì)算技術(shù)框架為這些海量數(shù)據(jù)的整合提供了可能。根據(jù)確定的主題領(lǐng)域分析建模后可得到綜合的用戶社交圈、興趣偏好、消費(fèi)能力,建立一個(gè)最基礎(chǔ)的用戶知識(shí)庫平臺(tái)。
其次,還應(yīng)該提供一個(gè)能力開放平臺(tái),使移動(dòng)用戶、終端提供商、應(yīng)用軟件商、電信運(yùn)營商、第三方平臺(tái)都可以通過靈活的接口豐富與修正用戶知識(shí)庫,構(gòu)建一個(gè)共贏的生態(tài)價(jià)值鏈。
移動(dòng)應(yīng)用產(chǎn)生的數(shù)據(jù)以碎片化的形式填滿用戶的24 h。用戶體驗(yàn)正日益成為驅(qū)動(dòng)互聯(lián)網(wǎng)行業(yè)發(fā)展的原動(dòng)力,未來的業(yè)務(wù)也將以“On-Demand”體驗(yàn)為主,以Apple的產(chǎn)品為例,“簡潔是蘋果被認(rèn)識(shí)最為普遍的美學(xué)特點(diǎn)”,其目的就是把用戶體驗(yàn)做到極致,增加用戶黏性。
另外,從產(chǎn)品的內(nèi)容本身來看,產(chǎn)品要不斷注入搶眼球的新玩法才能夠使產(chǎn)品不斷延續(xù)生命,保持核心競爭力。否則新鮮感過后,用戶容易產(chǎn)生體驗(yàn)疲勞而逐步邁入寒冬。目前大多數(shù)SoLoMo應(yīng)用,用戶群規(guī)模相對較窄,用戶活躍度更低,產(chǎn)品的同質(zhì)化競爭激烈。故需要通過多種方式吸引用戶,提升產(chǎn)品的用戶體驗(yàn),用戶的深度參與反過來進(jìn)一步刺激新的創(chuàng)意型產(chǎn)品。除了常規(guī)的界面動(dòng)效設(shè)計(jì)、內(nèi)容定期更新外,精確的屏幕適配性(屏幕尺寸、屏幕分辨率)、便捷的輸入輸出(如話音交互、手勢指令)都會(huì)給用戶的體驗(yàn)得以升級(jí)。
移動(dòng)用戶的使用技能差異很大,因此提供合理的用戶引導(dǎo)可以幫助用戶更好地使用產(chǎn)品,最終提升用戶滿意度。不同于PC界面,移動(dòng)終端的界面多受屏幕尺寸、適配繁瑣等條件所限,再加上產(chǎn)品功能的不斷膨脹,在簡化設(shè)計(jì)界面和追求功能豐富的二難選擇之間,需要輔助以必要的引導(dǎo),告之產(chǎn)品的主要功能和獨(dú)有特色,從而引導(dǎo)用戶正確的操作和完成產(chǎn)品的主要功能,而不至于迷失在應(yīng)用中而放棄產(chǎn)品。這些引導(dǎo)要建立在收集大量用戶行為特征的基礎(chǔ)上,綜合分析用戶的多種差異而得出的,甚至可以為了某類用戶而定制。
硬件功能:本地化位置服務(wù) (location based services,LBS)是目前階段移動(dòng)互聯(lián)網(wǎng)產(chǎn)品中應(yīng)用最廣和最容易接受的服務(wù),它與社交網(wǎng)絡(luò)、移動(dòng)支付、移動(dòng)廣告、數(shù)字內(nèi)容發(fā)行等諸多移動(dòng)互聯(lián)網(wǎng)重點(diǎn)業(yè)務(wù)領(lǐng)域的融合深度和廣度正在與日俱增。充分利用終端提供的定位、圖像等特性,對產(chǎn)品提供方便快捷的輸入方式、輸出滿足用戶需求的精確內(nèi)容等方面都起到非常重要的作用,特別是以“簽到”類服務(wù)為代表的LBS應(yīng)用中,地理信息以及用戶身份及狀態(tài)跟商業(yè)消費(fèi)更容易契合而創(chuàng)造商機(jī)。
軟件功能:以終端定制為例,除了進(jìn)一步繁榮軟件應(yīng)用商店類似的模式之外,還需要關(guān)注當(dāng)前現(xiàn)狀。由于終端的種類繁多,給軟件的適配造成很大困難;同時(shí)仍有部分智能終端用戶在軟件的選擇、安裝、升級(jí)維護(hù)過程存在一定程度的困難,因此采用終端定制成為電信運(yùn)營商備受青睞的選擇,可以將電信主推服務(wù)與移動(dòng)終端深度整合,大幅度提升用戶體驗(yàn)的同時(shí),還可以盡可能圈進(jìn)部分非智能手機(jī),避免失掉這部分用戶群。
移動(dòng)、社交和云技術(shù),作為一種綜合的驅(qū)動(dòng)力,改變了人們的聯(lián)系內(nèi)容、聯(lián)系方式以及交易方式,單獨(dú)的垂直搜索類服務(wù)已經(jīng)很難滿足用戶的需求。信息獲取、信息分享、一鍵支付這類需求要求應(yīng)用的綜合化,使得用戶從一個(gè)入口進(jìn)入后可以享受多種服務(wù)(如導(dǎo)航門戶、應(yīng)用商店、搜索引擎、社區(qū)門戶、音樂、視頻、游戲等),進(jìn)而實(shí)現(xiàn)精準(zhǔn)廣告投放、流量經(jīng)營、交叉營銷等盈利模式。
本節(jié)重點(diǎn)分析基于商業(yè)和開源的挖掘工具、算法的特點(diǎn)及優(yōu)劣,以及基于移動(dòng)業(yè)務(wù)建立面向精確營銷的智能化用戶模型所面對的關(guān)鍵問題及解決方案。
據(jù)Rexer Analytics 2010年度數(shù)據(jù)挖掘調(diào)查的結(jié)果顯示,當(dāng)前數(shù)據(jù)挖掘的主要特點(diǎn)呈現(xiàn)如下特征[1]。
·從挖掘算法上來看,決策樹、回歸和聚類分析依然是最常用的算法,且主要應(yīng)用領(lǐng)域?yàn)镃RM、市場營銷。
·從數(shù)據(jù)存儲(chǔ)來看,數(shù)據(jù)挖掘依然主要發(fā)生在個(gè)人電腦上,數(shù)據(jù)一般也是存儲(chǔ)在本地,近幾年興起的云技術(shù)遠(yuǎn)未達(dá)到普及。
·從關(guān)鍵疑難問題來看,臟數(shù)據(jù)、數(shù)據(jù)挖掘概念的普及、對數(shù)據(jù)的訪問依然是數(shù)據(jù)挖掘人員面臨的最大挑戰(zhàn)。
·從挖掘工具來看,開源數(shù)據(jù)挖掘軟件R-Project已經(jīng)成為挖掘人員的首選 (被調(diào)查者的比例高居43%),其次是 Statistica(18%)。而且 Statistica、IBM SPSS Modeler和 R-Project在 2009、2010年被參與調(diào)查人員給了最高滿意得分。
·從挖掘結(jié)果來看,模型輸出依然主要依賴于軟件本身,只有13%的挖掘人員給自己的公司的分析能力評為“優(yōu)秀”,只有8%的人認(rèn)為他們的數(shù)據(jù)質(zhì)量可以被認(rèn)為“很強(qiáng)”,可見這個(gè)領(lǐng)域仍存在很大上升空間。
如圖1所示,2007年Gartner“客戶數(shù)據(jù)挖掘魔力象限”的客戶數(shù)據(jù)挖掘工具評估中[2,3],SAS和SPSS還被評為處于領(lǐng)先地位,但跟2011年的報(bào)告對比后就會(huì)發(fā)現(xiàn),經(jīng)過幾年的技術(shù)和軟件發(fā)展后,該領(lǐng)域發(fā)生了很大的變化:主流的元數(shù)據(jù)管理軟件廠商(如Oracle、IBM)進(jìn)入領(lǐng)導(dǎo)行列,而數(shù)據(jù)發(fā)現(xiàn)供應(yīng)商(如 Quiterian、Tibco、Tableau)正逐漸嶄露頭角并占據(jù)重要角色。因此Gartner給出的結(jié)論是,目前商業(yè)智能(BI)市場分裂為截然不同的兩個(gè)陣營,一方由傳統(tǒng)的BI平臺(tái)供應(yīng)商組成,另一方由數(shù)據(jù)發(fā)現(xiàn)供應(yīng)商組成。以Quiterian的動(dòng)態(tài)數(shù)據(jù)網(wǎng)絡(luò)(DDWeb)產(chǎn)品為例,核心價(jià)值在于它使數(shù)據(jù)挖掘和統(tǒng)計(jì)分析簡單易行,從而使這些工具更容易在以市場為導(dǎo)向的企業(yè)得到利用,后者雖然市場份額不是很大,但對前者的挑戰(zhàn)正逐步加強(qiáng)。
目前數(shù)據(jù)挖掘相關(guān)的工具主要有以下系列:SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照SEMMA(抽樣、探索、轉(zhuǎn)換、建模、評估)的方法進(jìn)行數(shù)據(jù)挖掘,性能較高,但SAS的軟件許可證的成本及開發(fā)預(yù)測分析的人力成本對其普及造成很大阻礙;而Clementine作為一種可視化數(shù)據(jù)挖掘工具,提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決辦法,提出了CRISPDM(業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、評估建模、模型發(fā)布)的6步方法論;另外還有數(shù)據(jù)庫產(chǎn)品內(nèi)置的數(shù)據(jù)挖掘模塊,如:SAP NetWear 7.0DataMiningWorkbench、Oracle 11gData Mining、Microsoft SQL Server 2005 Analysis Services等。
開源 (open source)數(shù)據(jù)挖掘軟件有 R-Project、Weka、Mahout等,但從實(shí)際應(yīng)用來看相對成熟、完整、現(xiàn)成的開源解決方案較少:R-Project有很強(qiáng)的面向?qū)ο蠊δ?可通過下載用戶撰寫的擴(kuò)展包進(jìn)一步增強(qiáng),但由于R-Project需要較扎實(shí)的統(tǒng)計(jì)知識(shí),造成了其學(xué)習(xí)曲線非常陡峭。Mahout是作為推薦引擎的一種實(shí)現(xiàn)框架,可以把常用的Content-Based推薦算法及協(xié)同過濾算法(Item-Based、User-Based)相結(jié)合,但在實(shí)際應(yīng)用中要解決冷啟動(dòng)、大數(shù)據(jù)量的性能下降等問題。
根據(jù)Gartner的預(yù)測,盡管云計(jì)算的市場仍處于早期階段,但“云”作為一種顛覆力量,對多數(shù)的產(chǎn)業(yè)可能具有廣闊的、長期的影響。下一代的分析必然面對數(shù)據(jù)規(guī)模、復(fù)雜格式和交付速度的挑戰(zhàn),甚至從傳統(tǒng)的離線分析轉(zhuǎn)向在線嵌入式分析。
云計(jì)算的MapReduce計(jì)算模型適合結(jié)構(gòu)一致的海量數(shù)據(jù),但像點(diǎn)擊流數(shù)據(jù)、互聯(lián)網(wǎng)訪問日志、社交網(wǎng)絡(luò)評論等非結(jié)構(gòu)化數(shù)據(jù)更適合把云計(jì)算作為一種ETL工具來構(gòu)建用戶行為庫;而對于大量的數(shù)據(jù)密集型應(yīng)用(如數(shù)據(jù)挖掘任務(wù)),往往涉及數(shù)據(jù)降維、程序迭代、近似求解等復(fù)雜的算法,用云計(jì)算的方式實(shí)現(xiàn)比較困難。
LBS提供了移動(dòng)互聯(lián)網(wǎng)時(shí)代聚攏用戶的基礎(chǔ)能力,其核心概念(精準(zhǔn)營銷、信息定位、區(qū)域受眾、位置服務(wù))在SoLoMo模式下被廣泛應(yīng)用,并形成了多種新型的創(chuàng)意產(chǎn)品的試驗(yàn)田和新產(chǎn)品體驗(yàn)的促成物。隨著移動(dòng)定位技術(shù)的發(fā)展,不同精度的位置服務(wù)提供者相繼出現(xiàn),服務(wù)的“本地化”概念也將呈現(xiàn)從米級(jí)到城市級(jí)多種尺度,但關(guān)鍵核心其實(shí)是服務(wù)和內(nèi)容,“位置”在這里只是服務(wù)的一種載體形式。LBS應(yīng)用的關(guān)鍵在于把移動(dòng)互聯(lián)網(wǎng)的線上用戶和線下商店聯(lián)系起來并形成良性互動(dòng),重點(diǎn)應(yīng)用模型有基于位置信息推送實(shí)時(shí)服務(wù)、基于協(xié)同過濾進(jìn)行消費(fèi)智能推薦、基于偏好構(gòu)建虛擬社交圈等。
誠如Thomas Husson“移動(dòng)位置趨于無形”[4]報(bào)告中提到的LBS應(yīng)用范疇所述:當(dāng)位置和地圖越來越成為新移動(dòng)產(chǎn)品和服務(wù)的標(biāo)配功能之后,基本信息的提供已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足用戶的需求了,用戶生成內(nèi)容(UGC)、實(shí)時(shí)數(shù)據(jù)(交通信息、優(yōu)惠券和促銷等)、動(dòng)態(tài)數(shù)據(jù)(評論和促銷)、虛擬現(xiàn)實(shí)等與用戶環(huán)境耦合的精準(zhǔn)本地?cái)?shù)據(jù)需求愈發(fā)顯著,把地理信息及其附屬的時(shí)間信息、行為預(yù)測引入商業(yè)模式中,必然帶給用戶全新的體驗(yàn)?;ヂ?lián)網(wǎng)時(shí)代,數(shù)據(jù)量呈爆炸式增長,數(shù)據(jù)來源多樣化,如何把海量數(shù)據(jù)處理和挖掘算法結(jié)合起來,“淘金式”地尋找有價(jià)值的用戶信息成為關(guān)鍵,把消費(fèi)者行為和本地?cái)?shù)據(jù)連接起來的新模式,會(huì)產(chǎn)生與用戶環(huán)境耦合的更多精準(zhǔn)本地?cái)?shù)據(jù)。通過把線下和線上活動(dòng)嫁接起來,帶動(dòng)整合產(chǎn)業(yè)鏈的良性循環(huán)。
基于海量數(shù)據(jù)處理的LBS業(yè)務(wù)框架模型,按照處理流程可分為多源數(shù)據(jù)獲取層、云計(jì)算ETL處理層、用戶行為分析層、業(yè)務(wù)建模及應(yīng)用層等邏輯架構(gòu),如圖2所示。該模型已經(jīng)在“中國電信愛音樂”的相關(guān)項(xiàng)目應(yīng)用,其中基于用戶已聽歌曲的內(nèi)容推薦、基于當(dāng)前位置的友鄰聽等功能的應(yīng)用,在用戶的黏性和活躍度提高方面取得了良好效果。多源數(shù)據(jù)獲取層主要靠離線方式收集用戶在業(yè)務(wù)消費(fèi)過程中產(chǎn)生的歷史明細(xì)、行為習(xí)慣以及電信CRM用戶資料數(shù)據(jù)。這些數(shù)據(jù)因?yàn)閬碓从诓煌臉I(yè)務(wù)系統(tǒng),其業(yè)務(wù)標(biāo)志、數(shù)據(jù)真實(shí)性、數(shù)據(jù)重復(fù)性等需要建立一套數(shù)據(jù)過濾規(guī)則來初步清洗。在海量數(shù)據(jù)ETL過程中,其大量的運(yùn)算、臨時(shí)存儲(chǔ)等會(huì)產(chǎn)生嚴(yán)重的性能問題,可以借助云計(jì)算技術(shù)解決這一難題。在項(xiàng)目中,使用了基于Hadoop的開源分布式數(shù)據(jù)處理框架,通過幾臺(tái)廉價(jià)的PC Server即可處理“億×億”級(jí)的數(shù)據(jù)關(guān)聯(lián)。云計(jì)算的結(jié)果是已經(jīng)格式化的用戶行為、興趣偏好等通用行為知識(shí)數(shù)據(jù),通常存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,根據(jù)業(yè)務(wù)主題的需求即可構(gòu)建對應(yīng)的用戶模型并應(yīng)用于移動(dòng)位置業(yè)務(wù)。
本文從SoLoMo業(yè)務(wù)特點(diǎn)和數(shù)據(jù)挖掘技術(shù)應(yīng)用相結(jié)合的角度,以LBS為代表的典型移動(dòng)互聯(lián)網(wǎng)應(yīng)用,探索其業(yè)務(wù)框架及前景,但是受新算法復(fù)雜性和高效性的限制以及流量費(fèi)用、隱私習(xí)慣等問題的影響,要實(shí)現(xiàn)更廣泛的應(yīng)用還有很長的路要走。但隨著云計(jì)算技術(shù)的初現(xiàn)成效和更多數(shù)據(jù)挖掘工具、算法的改善,數(shù)據(jù)挖掘在移動(dòng)互聯(lián)網(wǎng)時(shí)代的用戶行為分析、精確營銷以及市場預(yù)測中必然會(huì)發(fā)揮更大作用。
1 http://www.bjt.name/2011/03/rexer-analytics-2010-survey/,2011
2 http://www.chinabi.net/cio/knowledge/200707/505.html,2007
3 http://www.gartner.com/technology/media-products/reprints/oracle/article180/article180.html
4 http://de.appchina.com/reports/how-mobile-location-services-willfade-nto-the-background/