国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于運營商大數(shù)據(jù)的APP潛在用戶挖掘研究

2022-06-13 03:00劉卉芳歐陽秀平李勇路中國聯(lián)通廣東省分公司廣東廣州510627
郵電設(shè)計技術(shù) 2022年5期
關(guān)鍵詞:跨界運營商樣本

劉卉芳,廖 娟,歐陽秀平,林 敏,李勇路(中國聯(lián)通廣東省分公司,廣東廣州 510627)

0 引言

隨著人口紅利的消失,以及提速降費政策的影響,傳統(tǒng)通信業(yè)務(wù)收入呈下滑態(tài)勢,運營商的營業(yè)收入和凈利潤增長較為緩慢。在此大背景下,運營商不斷探索新的商業(yè)模式以尋求業(yè)務(wù)增長點,其中,通過跨界合作促進流量增長,提升用戶黏性,增加后向收入成為近年來運營商不斷探索的新模式,也是未來運營商發(fā)展的重要途徑。

跨界合作是指由2 個或2 個以上不同行業(yè)的企業(yè),為達到共同的戰(zhàn)略目標,交換、共享或共同開發(fā)新產(chǎn)品或服務(wù)的合作模式[1]。運營商的跨界合作主要以開拓新市場、增加后向收入為目標,合作模式主要有以下2種。

a)互相引流:合作雙方結(jié)合自身優(yōu)勢共同開發(fā)出新的產(chǎn)品,通過優(yōu)惠、讓利使雙方用戶互相滲透,促進雙方業(yè)務(wù)增長,較為典型的案例就是中國聯(lián)通和騰訊公司共同推出的騰訊王卡產(chǎn)品[2]。

b)精準營銷:運營商利用自身大數(shù)據(jù)優(yōu)勢為合作方挖掘潛在用戶,并通過自有渠道、觸點、外呼等方式進行營銷,以抽取提成、傭金為目標,增加運營商后向收入,例如運營商與手機終端廠商合作,構(gòu)建換機模型[3-4],對有換機需求的用戶進行精準營銷。

本文著重探索第2 種跨界合作模式,且著重關(guān)注互聯(lián)網(wǎng)APP 的合作推廣,例如在線教育、游戲、打車等行業(yè)的APP,均在快速成長期,推廣需求迫切。本文通過對運營商大數(shù)據(jù)進行挖掘,提出構(gòu)建APP 潛在用戶識別模型,為運營商充分利用APP 大數(shù)據(jù)、實現(xiàn)異業(yè)合作、精準營銷提供參考。

1 跨界合作體系框架

運營商跨界合作首先需要確定合作對象并了解對方用戶規(guī)模與發(fā)展前景,同時分析潛在目標用戶。當前異業(yè)生態(tài)產(chǎn)品配置相對主觀,運營商選擇較為被動,多數(shù)情況為等待合作方上門。圈選目標用戶也主要利用年齡、性別等基礎(chǔ)信息和流量、語音等傳統(tǒng)通信數(shù)據(jù),產(chǎn)品轉(zhuǎn)化率不高。針對上述現(xiàn)狀,本文提出以下解決方法。

a)提出運營商跨界合作體系構(gòu)建的流程和方法。分析各垂直行業(yè)發(fā)展趨勢,實現(xiàn)熱門行業(yè)、成長行業(yè)自動監(jiān)控,為異業(yè)產(chǎn)品創(chuàng)新提供數(shù)據(jù)參考。

b)提出基于上網(wǎng)日志數(shù)據(jù)構(gòu)建潛在用戶模型的方法。構(gòu)建APP 貢獻度衡量算法,從1 萬多個APP 中挖掘出貢獻度最大的APP 和行業(yè),避免人為指定行業(yè)和APP的主觀因素。

運營商跨界合作體系構(gòu)建的流程和方法如圖1所示。首先,通過上網(wǎng)日志數(shù)據(jù)監(jiān)控用戶規(guī)模較大的熱門行業(yè)以及復(fù)合增長率較高的成長型行業(yè),如圖2 所示。成長行業(yè)的判斷依據(jù)為當月用戶規(guī)模5 萬戶以上,近1 年復(fù)合增長率大于0,且近半年的平均增長率大于0,對滿足上述條件的行業(yè)計算近半年的復(fù)合增長率并從高到低進行排序。

圖1 跨界合作體系框架

圖2 熱門行業(yè)和成長行業(yè)洞察監(jiān)控示例

其次,選擇一個目標行業(yè)重點分析,通過使用量分析各APP 的市場份額,通過使用流量分析各APP 的用戶黏性,通過復(fù)合增長率分析各APP 的成長性和衰退性,最終圈定合作價值高的APP 進行產(chǎn)品創(chuàng)新,評估成本效益。接著,通過機器學(xué)習(xí)挖掘潛在用戶,進行精準營銷,降低營銷成本,提升轉(zhuǎn)化率。目前關(guān)于潛在用戶挖掘的研究很多[6-7],但都是基于主觀指定的幾個行業(yè)或者熱門APP 的使用數(shù)據(jù),并沒有針對所有APP 進行篩選研究,可能會忽略掉一些貢獻度大的APP或者行業(yè)數(shù)據(jù)。本文將重點給出潛在用戶挖掘的流程方法,并在此過程中構(gòu)建用戶的多維度偏好標簽,具體實現(xiàn)方式可參考文獻[5]。最后,本文通過用戶偏好標簽和潛在用戶標簽生成用戶畫像,為后續(xù)精準營銷、維系挽留等策略提供參考

2 潛在用戶模型構(gòu)建

本文以推廣作業(yè)幫APP 為例闡述運營商挖掘潛在用戶的全流程方法。

2.1 數(shù)據(jù)準備

隨機抽取某運營商200萬個用戶的基礎(chǔ)信息數(shù)據(jù)(性別、年齡、終端品牌、產(chǎn)品、出賬收入等)和2020 年某月的上網(wǎng)日志DPI 解析數(shù)據(jù)(APP 名稱、所屬行業(yè)、訪問次數(shù)、使用流量等)。以作業(yè)幫APP流量大于0的用戶為正樣本,共計28.12 萬,其余為負樣本,共計171.88萬。

從業(yè)務(wù)經(jīng)驗上來說,作業(yè)幫用戶和非作業(yè)幫用戶的APP 偏好存在差異,而這些差異有利于運營商識別潛在用戶。因此,本文首先處理分析上網(wǎng)日志數(shù)據(jù),統(tǒng)計正負樣本中使用各種APP 的用戶數(shù),比較正負樣本的上網(wǎng)行為差異。一些熱門APP(如微信)對識別潛在用戶的貢獻微乎其微,因為正負樣本均有97%以上的用戶使用微信。本文需要挖掘的是正樣本特有的偏好特征。例如,52.5%的正樣本使用了百度貼吧,而僅有22.4%的負樣本使用了百度貼吧,差值為30.1%,說明使用百度貼吧的用戶更有可能是作業(yè)幫的潛在用戶。55.6%的正樣本使用了教育學(xué)習(xí)類APP(不包含作業(yè)幫),而僅有23.6%的負樣本使用了教育學(xué)習(xí)類APP,差值為31.9%,說明使用教育學(xué)習(xí)類APP 的用戶更有可能是作業(yè)幫的潛在用戶。

從圖3 和圖4 可以得出使用了教育學(xué)習(xí)、詞典翻譯、手機閱讀類APP 的“學(xué)習(xí)愛好者”,以及使用了動漫、手機游戲類APP 的用戶都有可能是作業(yè)幫的潛在用戶。但是,本文不能簡單地判斷只要使用了上述APP 的用戶都有使用作業(yè)幫APP 的需求,還需要加入年齡、性別等基礎(chǔ)信息,并且綜合各種APP 的使用組合判斷,因此,需要通過機器學(xué)習(xí)建模更精準地挖掘潛在用戶。

圖3 正負樣本偏好差異最大的TOP10APP

圖4 正負樣本偏好差異最大的TOP10行業(yè)

2.2 特征選擇

特征選擇的步驟如下。

步驟1,計算正負樣本對各個APP 的偏好差異:正樣本中某APP 用戶的比例減去負樣本中某APP 用戶的比例,選取差異值最大的前30 個APP,如百度貼吧、微云、百度文庫、釘釘?shù)取?/p>

步驟2,將每個APP歸屬到一個行業(yè),共計73個細分行業(yè)。按上述方法計算正負樣本中對各個行業(yè)的偏好差異:正樣本中某行業(yè)用戶的比例減去負樣本中某行業(yè)用戶的比例,選取差異值最大的前20 個行業(yè),如教育學(xué)習(xí)、手機動漫、金融理財、詞典翻譯等。

步驟3,提取步驟1 中的30 個APP 的用戶流量使用值,步驟2 的20 個行業(yè)中各個行業(yè)使用的APP 個數(shù),以及用戶性別、年齡、終端品牌、月使用流量、產(chǎn)品、月出賬收入等56個因子作為建模的基礎(chǔ)因子。

2.3 特征工程

建模的基礎(chǔ)因子選擇好之后,對因子進行進一步加工。

2.3.1 連續(xù)變量WOE分箱

WOE 表示證據(jù)權(quán)重,用于衡量各個箱體對目標變量的影響度。IV 指標基于WOE 計算,可以反映基于當前分箱下,正負樣本分布之間的差異性,IV 值越大表示差異越大。一般認為IV<0.02,變量基于當前分箱幾乎沒有貢獻;IV<0.5 時,IV 值越大說明分箱效果越好;IV>0.5時,由于表現(xiàn)太好,可能存在“陷阱”,需要再次確認變量信息以及分箱數(shù)量是否合適。

本文對年齡、流量、月出賬收入、步驟2 的20 個行業(yè)中各個行業(yè)使用的APP 個數(shù)、30 個APP 的流量值共計53 個變量進行WOE 分箱,通過調(diào)節(jié)分箱個數(shù)和合并箱體的方式令I(lǐng)V 值達到最大,從而確定分箱。主要實現(xiàn)步驟如下。

a)將數(shù)據(jù)集D 等頻劃分為10 份,記錄各劃分點,計算不進行任何劃分時的IV0。

b)遍歷各劃分點,計算利用各劃分點進行二分時的IV 值。此處可選擇設(shè)定箱體樣本個數(shù)的最小值,且必須同時包含正負樣本,如若不滿足則不在該點劃分,分別計算IV值,比較得出最大值MAX(IV)。

c)設(shè)定一個閾值BETA,若MAX(IV)>IV0×(1+BETA),則進行劃分,且MAX(IV)對應(yīng)的點確定為實際劃分點,小于該劃分點的數(shù)據(jù)集定為DL,大于該點的數(shù)據(jù)集定為DR;若MAX(IV)≤IV0×(1+BETA),則停止。

d)分別令D=DL,D=DR,重復(fù)步驟a、b、c。

以年齡為例進行分箱,結(jié)果如表1 所示。IV=0.1,認為年齡字段有一定貢獻,且在年齡≤24 和35~49 的區(qū)間,WOEi>0,說明該年齡段的用戶更傾向于使用作業(yè)幫APP,由于學(xué)生年齡在7 歲以上,其父母年齡大多在35 歲以上,二胎父母年齡更高,因此分箱結(jié)果可以解釋為孩子用自己手機或家長手機使用作業(yè)幫APP,符合現(xiàn)實意義。

表1 對“年齡”進行WOE分箱的結(jié)果

2.3.2 one-hot變換

one-hot 的基本思想是將離散型特征的每一種取值都看成一種狀態(tài),若這一特征中有N個不同的取值,那么本文就可以將該特征抽象成N種不同的狀態(tài),one-hot 編碼保證了每一個取值只會使一種狀態(tài)處于“激活態(tài)”,也就是說這N種狀態(tài)中只有一個狀態(tài)位值為1,其他狀態(tài)值都是0。

本文對分箱后的年齡、流量、月出賬收入變量、行業(yè)數(shù)據(jù)、APP流量、性別、終端品牌、產(chǎn)品數(shù)據(jù)進行onehot 變換,從一個權(quán)重變?yōu)槎鄠€權(quán)重,提升模型的非線性能力。

經(jīng)過特征工程后,每條樣本的特征維度擴展為319維。

2.4 模型訓(xùn)練與應(yīng)用

本文將樣本數(shù)據(jù)按7∶2∶1 比例分為3 份,分別作為訓(xùn)練集、驗證集、測試集。其中訓(xùn)練集用于訓(xùn)練模型,驗證集用于調(diào)節(jié)算法的參數(shù)并對模型效果進行初評估,測試集用來評估各模型的泛化能力。本文分別采用邏輯回歸、隨機森林、GBDT 和LightGBM 4 種算法進行建模,其ROC 曲線如圖5 所示,AUC 值分別為0.864 1、0.846 5、0.869 5、0.879 2。相對來說LightGBM模型效果最好。

圖5 各算法模型ROC曲線對比

單純用上述評估指標并不能很好地評價精準營銷模型的應(yīng)用效果,精準營銷的目標是降本增效,本文設(shè)定評判模型效果的標準如下。

a)正樣本的召回率盡可能高。即盡量覆蓋潛在用戶,避免遺漏太多。

b)在相同的召回率下,正樣本的準確率盡可能高。即在相同的成交用戶下,推廣用戶成本盡量小,即用盡量小的推廣成本獲取最大的用戶轉(zhuǎn)化率。

為了模擬實際應(yīng)用效果,本文使用沒有參與模型訓(xùn)練的測試數(shù)據(jù)集進行評估,圖6 比較了采用各算法模型輸出潛在用戶的應(yīng)用效果。從營銷成本來說,如果轉(zhuǎn)化的用戶數(shù)相同(即正樣本召回率一樣),準確率越低意味著需要向更多的用戶推廣,即成本越高。圖6 中曲線越往右意味著所需要的推廣成本越低。從效益成果來說,在保證用戶的轉(zhuǎn)化率的前提下,召回率越高意味著銷量越高,即效益越好。圖6 中曲線越往上所產(chǎn)生的效益越好。因此,應(yīng)用效果的優(yōu)劣排序如下:LightGBM≥GBDT>邏輯回歸>隨機森林。為了比較基于機器學(xué)習(xí)模型和基于業(yè)務(wù)規(guī)則模型的效果差異,本文增加了基于百度貼吧篩選用戶群和基于教育學(xué)習(xí)類APP 篩選用戶群2個規(guī)則模型?;诮逃龑W(xué)習(xí)類APP 的規(guī)則模型準確率為0.16,召回率為0.36。基于百度貼吧APP 的規(guī)則模型準確率為0.11,召回率為0.34。規(guī)則模型效果遠不如機器學(xué)習(xí)算法模型。

圖6 各算法模型應(yīng)用效果對比

3 結(jié)束語

跨界合作是未來運營商增加后向收入和提升用戶黏性的重要途徑,而實現(xiàn)降本增效的關(guān)鍵在于精準圈選目標用戶。與傳統(tǒng)互聯(lián)網(wǎng)公司相比,運營商的優(yōu)勢是掌握各個APP 的流量數(shù)據(jù),可以更全面地了解用戶的上網(wǎng)偏好。本文提出運營商跨界合作體系構(gòu)建的流程和方法,監(jiān)控?zé)衢T行業(yè)和成長行業(yè),挖掘產(chǎn)品合作商機。以作業(yè)幫APP 為例,使用邏輯回歸、隨機森林、GBDT、LightGBM 4 種機器學(xué)習(xí)算法構(gòu)建潛在用戶模型,AUC值分別為0.864 1、0.846 5、0.869 5、0.879 2,并且從成本和效益2 個維度分析得出LightGBM 模型效果最好的結(jié)論,且機器學(xué)習(xí)模型優(yōu)于基于百度貼吧和基于教育學(xué)習(xí)類APP 的業(yè)務(wù)規(guī)則模型。本文的處理流程和方法可以推廣至其他APP的潛在用戶挖掘。

猜你喜歡
跨界運營商樣本
周鵬飛:大鵬展翅 跨界高飛
牙醫(yī)跨界冬奧會裁判
陳黎貞 數(shù)次跨界唯有初心不變
一張圖看三運營商政企業(yè)務(wù)
學(xué)霸也是人 那些跨界的大拿們①
規(guī)劃·樣本
人大專題詢問之“方城樣本”
微評
隨機微分方程的樣本Lyapunov二次型估計
運營商們的4G時代—急需向消費者證明自己
临潭县| 哈密市| 洪江市| 岳普湖县| 莱阳市| 武宣县| 武陟县| 巨野县| 阿鲁科尔沁旗| 瑞昌市| 高雄市| 临澧县| 客服| 广昌县| 广安市| 桃园市| 沙田区| 建平县| 全南县| 洞口县| 凯里市| 泊头市| 桦南县| 黑龙江省| 孙吴县| 宣化县| 永昌县| 青河县| 崇文区| 南华县| 攀枝花市| 大新县| 杨浦区| 雅安市| 沧州市| 巩义市| 肃北| 渭源县| 灵石县| 安平县| 安新县|