邢紹艷 朱學(xué)芳
(南京大學(xué)信息管理學(xué)院,南京,210023)
網(wǎng)絡(luò)直播是一種借助互聯(lián)網(wǎng)信息技術(shù)發(fā)展起來的新的內(nèi)容呈現(xiàn)形式,支持音頻、視頻、圖文等多種信息形態(tài)的實(shí)時(shí)傳輸[1],具有強(qiáng)互動(dòng)性和高轉(zhuǎn)化性等優(yōu)勢(shì)。知識(shí)直播依附于網(wǎng)絡(luò)直播的技術(shù)手段,實(shí)現(xiàn)知識(shí)生產(chǎn)主體與知識(shí)接收主體之間的即時(shí)互動(dòng),不同于電商直播、游戲直播,知識(shí)直播具備獨(dú)特的知識(shí)和教育屬性,打破了傳統(tǒng)的知識(shí)靜態(tài)展現(xiàn)的單一傳播模式,支持多方互動(dòng)與交流,營(yíng)造共同學(xué)習(xí)的良好氛圍。國(guó)內(nèi)影響力較高的付費(fèi)知識(shí)直播平臺(tái)有千聊、知乎Live、美時(shí)美客、荔枝微課等;國(guó)外有OpenEnglish、LiveEdu、CreativeLive等,常見付費(fèi)形式包括按時(shí)間長(zhǎng)度付費(fèi)、周期訂閱式付費(fèi)、單次付費(fèi)。
在經(jīng)歷了2016年的概念風(fēng)口和2017—2020年的發(fā)展積淀后,付費(fèi)知識(shí)直播行業(yè)整體增速下降,逐漸步入平復(fù)、梳理的冷靜期,各類付費(fèi)知識(shí)直播平臺(tái)均出現(xiàn)了用戶訪問率下滑、活躍度下降的趨勢(shì),其內(nèi)容質(zhì)量參差不齊、販賣焦慮等弊端日益顯現(xiàn),導(dǎo)致付費(fèi)知識(shí)直播平臺(tái)新用戶增加緩慢、老用戶復(fù)購(gòu)率低、流失率高,這些問題一直困擾著知識(shí)付費(fèi)平臺(tái)和知識(shí)付費(fèi)產(chǎn)品提供者,而用戶持續(xù)付費(fèi)是充分發(fā)揮知識(shí)商業(yè)價(jià)值的前提條件,是知識(shí)付費(fèi)市場(chǎng)穩(wěn)定發(fā)展的原動(dòng)力。因此,探尋在線知識(shí)付費(fèi)用戶流失的內(nèi)在機(jī)制,建立高效、可靠的用戶流失預(yù)警體系對(duì)于知識(shí)付費(fèi)市場(chǎng)的穩(wěn)態(tài)發(fā)展具有巨大作用,是充分發(fā)揮知識(shí)付費(fèi)市場(chǎng)商業(yè)潛力的重要保障。
通過對(duì)相關(guān)文獻(xiàn)的梳理與歸納發(fā)現(xiàn),現(xiàn)階段學(xué)者們對(duì)知識(shí)直播平臺(tái)或產(chǎn)品的細(xì)分研究關(guān)注度較低,研究成果較少,已有研究也局限于平臺(tái)商業(yè)模式與發(fā)展策略、用戶行為研究?jī)纱蠓矫?,少有研究關(guān)注其用戶流失問題。例如,在針對(duì)平臺(tái)的研究中,趙鑫等[2]從傳播、運(yùn)營(yíng)、宣傳模式三方面分析了國(guó)內(nèi)外知識(shí)直播平臺(tái)內(nèi)容創(chuàng)業(yè)的異同,并為國(guó)內(nèi)知識(shí)直播平臺(tái)的發(fā)展指明了方向;齊托托等[3]構(gòu)建了付費(fèi)知識(shí)直播產(chǎn)品描述的語言風(fēng)格對(duì)產(chǎn)品銷量影響的理論模型,并采集知乎Live數(shù)據(jù)驗(yàn)證假設(shè),協(xié)助平臺(tái)重新定位產(chǎn)品描述在營(yíng)銷中的作用;蔡舜等[4]基于信號(hào)理論構(gòu)建了Live講座銷量影響因素模型,并基于知乎Live運(yùn)營(yíng)數(shù)據(jù)驗(yàn)證假設(shè)。在針對(duì)用戶的研究中,趙楊等[5]基于社會(huì)資本理論構(gòu)建知識(shí)直播用戶付費(fèi)行為影響因素模型,并爬取知乎Live數(shù)據(jù)驗(yàn)證模型;鄧勝利等[6]以知乎Live用戶的社會(huì)交互行為數(shù)據(jù)為依托,研究不同類型、不同程度的交互行為對(duì)預(yù)測(cè)用戶付費(fèi)行為的貢獻(xiàn)度;張莉曼等[7]設(shè)計(jì)了知識(shí)直播平臺(tái)群體畫像概念模型,使用密度峰值聚類算法對(duì)知乎Live付費(fèi)用戶進(jìn)行了群體劃分。
現(xiàn)階段用戶流失預(yù)測(cè)研究多基于用戶個(gè)人基礎(chǔ)信息、用戶行為記錄與交易記錄選取用戶流失的關(guān)鍵特征因素,運(yùn)用機(jī)器學(xué)習(xí)算法建立分類或回歸預(yù)測(cè)模型,用于新用戶樣本的流失預(yù)測(cè)。目前用戶流失預(yù)測(cè)研究主要集中在電信[8-9]、金融[10-11]、電子商務(wù)[12-13]等領(lǐng)域,在音樂流媒體[14]、移動(dòng)圖書館[15]、社交媒體[16]等具體場(chǎng)景下也有一定應(yīng)用,有著重要的學(xué)術(shù)價(jià)值和商用前景;用戶流失預(yù)測(cè)的具體研究?jī)?nèi)容主要是針對(duì)特征選擇[8-10]及預(yù)測(cè)算法[12,17]進(jìn)行優(yōu)化,以得到更高的預(yù)測(cè)準(zhǔn)確度、更優(yōu)的泛化性能為目的。
機(jī)器學(xué)習(xí)算法可以從大量經(jīng)驗(yàn)數(shù)據(jù)中學(xué)得某種潛在規(guī)律,并致力于提高新樣本的適用性,獲得具有強(qiáng)泛化能力的模型,因而受到廣泛青睞。現(xiàn)階段用戶流失預(yù)測(cè)使用頻率較高的機(jī)器學(xué)習(xí)算法有邏輯回歸[17]、BP神經(jīng)網(wǎng)絡(luò)[18]、支持向量機(jī)[19]、樸素貝葉斯[20]、決策樹[17]、AdaBoost[21]、GBDT[21]、XGBoost[22]、隨機(jī)森林[23]等。
現(xiàn)階段用于流失預(yù)測(cè)的用戶關(guān)鍵特征數(shù)據(jù)多由網(wǎng)絡(luò)爬蟲或平臺(tái)數(shù)據(jù)庫(kù)直接采集得來,主要涉及用戶人口統(tǒng)計(jì)學(xué)信息、日志行為及交易信息,少有研究將用戶評(píng)分及評(píng)論文本中的情感因素納入流失預(yù)測(cè)體系,而用戶評(píng)分可以直觀表達(dá)用戶對(duì)知識(shí)直播的體驗(yàn)評(píng)價(jià),用戶評(píng)論則更開放自由,蘊(yùn)含了豐富的個(gè)人情感。因此,本研究基于文本情感分析技術(shù)分析用戶評(píng)論,識(shí)別用戶的積極與消極情感,與用戶打分結(jié)合,應(yīng)用于用戶流失預(yù)測(cè)。
鑒于以上分析,本研究從用戶價(jià)值特征和用戶評(píng)價(jià)特征(評(píng)分與評(píng)論情感)兩方面切入,采集付費(fèi)知識(shí)直播平臺(tái)用戶數(shù)據(jù),發(fā)揮機(jī)器學(xué)習(xí)算法在分類預(yù)測(cè)方面的優(yōu)勢(shì),通過實(shí)證研究探索基于機(jī)器學(xué)習(xí)的付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)模型,比較不同模型在本研究場(chǎng)景下的準(zhǔn)確率,選擇最優(yōu)預(yù)測(cè)模型。與此同時(shí),為探究更深層次的付費(fèi)知識(shí)直播用戶流失行為,對(duì)預(yù)測(cè)用戶流失的各個(gè)特征變量進(jìn)行重要性排序,劃分流失用戶類型,為用戶留存管理提供決策依據(jù)。
RFM[24]模型包括消費(fèi)近度(recency)、消費(fèi)頻率(frequency)及消費(fèi)金額(monetary)三項(xiàng)指標(biāo)。在現(xiàn)有研究中,該模型多用于綜合考量用戶活躍度、忠誠(chéng)度及消費(fèi)能力,進(jìn)一步實(shí)現(xiàn)用戶價(jià)值識(shí)別與價(jià)值群體細(xì)分。一般認(rèn)為,最近一次消費(fèi)時(shí)間間隔較短、近期消費(fèi)次數(shù)及金額較大的用戶對(duì)產(chǎn)品及服務(wù)的認(rèn)可度較高,因此流失傾向較低;反之,最近一次消費(fèi)時(shí)間間隔較長(zhǎng)、近期消費(fèi)頻率及金額較小的用戶有較高的流失傾向,對(duì)平臺(tái)的價(jià)值也較低。
目前,RFM模型已經(jīng)在用戶流失預(yù)測(cè)方面有了一定的應(yīng)用[25-26]。本研究在RFM模型的基礎(chǔ)上加以修正,引入首次參與付費(fèi)知識(shí)直播距今的時(shí)間間隔L(length)表征用戶關(guān)系長(zhǎng)度,根據(jù)羅亮生等[27]、朱雅彬[15]及張莉曼等[28]的研究可知,用戶關(guān)系長(zhǎng)度影響用戶忠誠(chéng)度評(píng)價(jià),即用戶關(guān)系長(zhǎng)度越大,表示用戶接觸付費(fèi)知識(shí)直播平臺(tái)的時(shí)間越長(zhǎng),從而積累了更多的使用經(jīng)驗(yàn),相較于用戶關(guān)系長(zhǎng)度較短的用戶有較低的流失傾向。因此,將該指標(biāo)作為傳統(tǒng)RFM模型的補(bǔ)充與拓展,構(gòu)成RFML模型,從而較為全面地衡量用戶價(jià)值特征,更加精準(zhǔn)地對(duì)用戶流失傾向做出預(yù)測(cè)。與此同時(shí),本研究將RFM模型中的總消費(fèi)金額改為次均消費(fèi)金額,旨在消除消費(fèi)頻次與總消費(fèi)金額之間的線性關(guān)系對(duì)用戶價(jià)值評(píng)估所造成的影響。
本研究情境下的用戶評(píng)價(jià)具體是指用戶在參與付費(fèi)知識(shí)直播后,在評(píng)論系統(tǒng)中針對(duì)直播內(nèi)容、主講人及平臺(tái)給出的數(shù)值及文本形式的評(píng)價(jià)。數(shù)值或星級(jí)式打分簡(jiǎn)練直接,操作便捷;文本評(píng)論因其開放性與自由性,可以更為細(xì)致全面地表達(dá)用戶的知識(shí)付費(fèi)服務(wù)感受,是用戶情感、態(tài)度的體現(xiàn)。評(píng)論文本情感傾向越積極的用戶,知識(shí)服務(wù)滿意度越高,持續(xù)付費(fèi)的可能性越大,流失風(fēng)險(xiǎn)越低;反之,評(píng)論文本情感傾向越消極的用戶,滿意度越低,持續(xù)付費(fèi)的可能性越小,流失風(fēng)險(xiǎn)越高。因此,剖析評(píng)論中隱含的個(gè)人情感,并將其融入用戶流失預(yù)測(cè)模型具有一定價(jià)值。
文本情感分析[29]是對(duì)主觀文本進(jìn)行分析和量化的計(jì)算研究?,F(xiàn)階段已有不少學(xué)者以用戶評(píng)論為對(duì)象展開研究,如鄭麗娟等[30]以手機(jī)評(píng)論為對(duì)象,基于本體理論展開情感分析,進(jìn)而推斷用戶對(duì)產(chǎn)品的認(rèn)可程度;馮坤等[31]構(gòu)建生鮮電商領(lǐng)域?qū)S星楦性~典,制定評(píng)論文本情感的計(jì)算規(guī)則,并將其作為判斷顧客滿意度的依據(jù)。
文本情感分析主要基于詞典[32-33]或機(jī)器學(xué)習(xí)[34-35]方法展開。鑒于付費(fèi)知識(shí)直播用戶評(píng)論多為短語、句子級(jí)文本,文本長(zhǎng)度較短,與復(fù)雜的基于機(jī)器學(xué)習(xí)的方法相比,基于詞典的方法可以快速準(zhǔn)確地進(jìn)行情感量化,因此本研究采用詞典的方式實(shí)現(xiàn)情感分析。
本研究以大連理工大學(xué)情感詞匯本體庫(kù)[36]為基礎(chǔ)情感詞典,在該詞典中,每個(gè)情感詞的極性分為0-中立、1-積極、2-消極三類,每個(gè)情感詞的初始情感強(qiáng)度被設(shè)置為1、3、5、7、9五個(gè)等級(jí),相較其他詞典而言,強(qiáng)度劃分得更為細(xì)致。為便于后續(xù)計(jì)算,本研究將1、3、5、7、9五個(gè)等級(jí)的情感強(qiáng)度分別賦予1、3、5、7、9分的分值,并將代表消極的極性值修改為-1。情感詞的情感值量化方式見式(1):
word_sentiment=polarity*degree
(1)
其中,word_sentiment表示情感詞的情感值,polarity表示情感極性,degree表示情感強(qiáng)度。
為了使情感值計(jì)算更加準(zhǔn)確,需要提取評(píng)論中較高頻的情感專有詞和一些常用的網(wǎng)絡(luò)流行用語等,并對(duì)其標(biāo)注情感極性與強(qiáng)度,構(gòu)建付費(fèi)知識(shí)直播領(lǐng)域?qū)S星楦性~典,進(jìn)而結(jié)合通用情感詞典,形成付費(fèi)知識(shí)直播領(lǐng)域情感詞典。
鑒于程度副詞、否定詞對(duì)情感詞情感強(qiáng)度及極性的影響,需要制定合理的規(guī)則加以修正。本研究參考王敏等[32]的研究,以《〈知網(wǎng)〉情感分析用詞語集(beat版)》[37]中的189個(gè)程度級(jí)別詞語為基礎(chǔ),將“極其/最”“很”“較”“稍”“欠”這五組程度詞分別賦予不同的權(quán)重,表征其對(duì)極性加強(qiáng)或減弱的程度。在情感詞的上下文中設(shè)置一個(gè)大小為5的檢測(cè)窗口,在情感詞原始情感極性與強(qiáng)度的基礎(chǔ)上乘以檢測(cè)窗口內(nèi)程度副詞及否定詞對(duì)應(yīng)的權(quán)重,具體權(quán)重設(shè)置及部分詞語示例見表1。
表1 程度副詞、否定詞詞語示例及對(duì)應(yīng)權(quán)重
綜合上述規(guī)則,每條評(píng)論文本的情感值計(jì)算方法見式(2):
word_sentimenti
(2)
其中,text_sentiment表示評(píng)論文本情感值,n表示情感詞個(gè)數(shù),p表示否定詞個(gè)數(shù),weightadv表示程度副詞權(quán)重,word_sentimenti表示第i個(gè)情感詞的情感值。
用戶流失預(yù)測(cè)問題的本質(zhì)是二值分類問題,分類的核心在于分類算法的選取?,F(xiàn)階段使用頻率較高的機(jī)器學(xué)習(xí)分類器介紹見表2。其中,多分類器系統(tǒng)通??梢垣@得比單分類器更優(yōu)越的泛化性能[38-39],因此受到越來越多學(xué)者的青睞。
表2 常用機(jī)器學(xué)習(xí)分類器介紹
為了選擇最合適的機(jī)器學(xué)習(xí)算法用于付費(fèi)知識(shí)直播平臺(tái)用戶流失預(yù)測(cè),本研究分別基于決策樹、支持向量機(jī)、樸素貝葉斯、卷積神經(jīng)網(wǎng)絡(luò)、XGBoost、隨機(jī)森林六種機(jī)器學(xué)習(xí)算法構(gòu)建分類模型進(jìn)行對(duì)比實(shí)驗(yàn),篩選出綜合表現(xiàn)最優(yōu)的模型。
本研究基于二分類問題的混淆矩陣選取評(píng)價(jià)指標(biāo)對(duì)付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)模型進(jìn)行綜合評(píng)價(jià)?;煜仃嚾绫?所示。
直觀分析二分類模型優(yōu)劣最常用的性能曲線有ROC(Receiver Operating Characteristic)曲線與PR(Precision-Recall)曲線,但是當(dāng)樣本數(shù)據(jù)極不均衡的情況下,PR曲線對(duì)數(shù)據(jù)不平衡更加敏感,更能反映數(shù)據(jù)不平衡條件下分類器的性能優(yōu)劣,而在本文的研究背景下,付費(fèi)知識(shí)直播平臺(tái)中流失用戶遠(yuǎn)少于非流失用戶,樣本分布極不均衡,因此PR曲線相比ROC曲線更適合評(píng)價(jià)模型效果[40]。其中,PR曲線的縱、橫坐標(biāo)分別為精確率(預(yù)測(cè)為流失的用戶中實(shí)際流失用戶的比例)與召回率(實(shí)際流失用戶中被正確預(yù)測(cè)的比例)。由于PR曲線不便于直觀、定量地評(píng)價(jià)分類器的性能,因此,以PR曲線下方的面積AUC(Area Under Curve)作為數(shù)值化的評(píng)價(jià)標(biāo)準(zhǔn),AUC值越大,說明分類器性能越好。
表3 混淆矩陣
付費(fèi)知識(shí)直播平臺(tái)用戶流失預(yù)測(cè)模型框架見圖1。
圖1 付費(fèi)知識(shí)直播平臺(tái)用戶流失預(yù)測(cè)模型框架
本文的研究數(shù)據(jù)來源于知識(shí)直播語音互動(dòng)平臺(tái)“知乎Live”。在知乎Live中,事先通過資格審核的主講人可以創(chuàng)建自己的Live直播并設(shè)定價(jià)格,然后感興趣的用戶購(gòu)買后便可在對(duì)應(yīng)時(shí)間參與直播。目前知乎Live的知識(shí)直播內(nèi)容涵蓋科學(xué)、財(cái)商、文學(xué)、藝術(shù)、社科等領(lǐng)域,學(xué)習(xí)門檻較低、受眾較廣。
本研究使用Python語言編寫爬蟲代碼,收集知乎Live用戶的兩部分?jǐn)?shù)據(jù):第一部分是用戶價(jià)值特征數(shù)據(jù),包括用戶最近一次參與付費(fèi)知識(shí)直播的日期、平均每月參與付費(fèi)知識(shí)直播的次數(shù)、平均每次付費(fèi)金額以及首次參與付費(fèi)知識(shí)直播的日期;第二部分是付費(fèi)知識(shí)直播用戶評(píng)價(jià),包括針對(duì)主講人、知識(shí)直播內(nèi)容、平臺(tái)服務(wù)等給出的評(píng)分與評(píng)論文本。其中用戶價(jià)值特征數(shù)據(jù)無法直接爬取得到,需要先爬取用戶動(dòng)態(tài)列表中的付費(fèi)Live行為記錄,采集每次付費(fèi)Live行為對(duì)應(yīng)的日期及付費(fèi)金額,然后進(jìn)行簡(jiǎn)單統(tǒng)計(jì)及計(jì)算,得到用戶首次、末次參與Live的日期、參與總次數(shù)及付費(fèi)總金額,進(jìn)一步計(jì)算得到月均消費(fèi)次數(shù)、次均消費(fèi)金額、用戶關(guān)系長(zhǎng)度。部分?jǐn)?shù)據(jù)爬取結(jié)果見表4,變量具體說明見表5。
表5 變量說明
對(duì)獲取的樣本數(shù)據(jù)進(jìn)行清洗,刪除包含無實(shí)際意義字段的樣本(如評(píng)論文本僅由若干標(biāo)點(diǎn)或數(shù)字組成),最后共保留3123個(gè)用戶樣本。
基于初步調(diào)研及付費(fèi)知識(shí)直播平臺(tái)用戶使用行為特性,本研究將用戶流失時(shí)間閾值設(shè)定為180天,即若某付費(fèi)知識(shí)直播用戶在最近的180天內(nèi)沒有發(fā)生購(gòu)買行為,則將其判定為流失用戶。按此規(guī)則對(duì)用戶流失情況進(jìn)行標(biāo)注,1代表流失,0代表非流失。
在實(shí)際情況下,付費(fèi)知識(shí)直播平臺(tái)中的流失用戶比例遠(yuǎn)小于非流失用戶,導(dǎo)致這兩個(gè)類別的樣本分布不均衡,會(huì)影響分類器的分類效果,因此本研究基于SMOTE[41](Synthetic Minority Oversampling Technique)這一合成少數(shù)類過采樣技術(shù)進(jìn)行數(shù)據(jù)采樣,解決訓(xùn)練數(shù)據(jù)集樣本不均衡問題,降低數(shù)據(jù)類別比例不平衡對(duì)分類器性能的影響。
表4 數(shù)據(jù)爬取結(jié)果(部分)
(3)
其中rand(0,1)表示(0,1)內(nèi)的隨機(jī)數(shù)。以k=5為例,SMOTE算法圖示見圖2。
圖2 SMOTE過采樣
首先對(duì)文本數(shù)據(jù)進(jìn)行降噪處理,具體包括將部分繁體中文轉(zhuǎn)換為簡(jiǎn)體中文、去除用各種線條及特殊符號(hào)組成的顏文字表情、將語句中的個(gè)別英文單詞如good、nice、great等轉(zhuǎn)換為中文、將語句中的個(gè)別拼音如hao(好)等轉(zhuǎn)換為相應(yīng)文字。本研究借助Python中的Jieba中文分詞模塊編寫程序?qū)Φ玫降脑u(píng)論文本進(jìn)行斷句、分詞、停用詞過濾與詞性標(biāo)注。
本研究對(duì)評(píng)論分詞結(jié)果中具有顯著情感傾向的詞語進(jìn)行人工篩選,依據(jù)大連理工大學(xué)情感詞匯本體庫(kù)的標(biāo)識(shí)格式,對(duì)其極性及強(qiáng)度進(jìn)行人工標(biāo)注,得到付費(fèi)知識(shí)直播領(lǐng)域的補(bǔ)充情感詞典,部分示例見表6。
最后基于完整情感詞典及3.2節(jié)中的計(jì)算步驟,得到評(píng)論情感量化分值。
5.4.1 模型訓(xùn)練與測(cè)試結(jié)果
本研究以四個(gè)用戶價(jià)值層面特征(近期消費(fèi)時(shí)間間隔、月均消費(fèi)次數(shù)、次均消費(fèi)金額、用戶關(guān)系長(zhǎng)度)以及兩個(gè)用戶評(píng)價(jià)層面特征(評(píng)分、評(píng)論文本情感)為全部特征變量。對(duì)所有變量下的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,采用分層劃分的方式,取30%的流失樣本和30%的非流失樣本共同作為測(cè)試集,將剩余的各70%的樣本經(jīng)過SMOTE處理成為平衡樣本,作為訓(xùn)練集,分別基于決策樹、支持向量機(jī)、樸素貝葉斯、卷積神經(jīng)網(wǎng)絡(luò)、XGBoost、隨機(jī)森林六種機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型,采用十折交叉驗(yàn)證的方法對(duì)預(yù)測(cè)模型的性能進(jìn)行評(píng)價(jià)。本研究涉及的預(yù)測(cè)模型的建立、訓(xùn)練與測(cè)試借助sklearn、xgboost開源機(jī)器學(xué)習(xí)工具包,在Python3.7.6及PyCharm 2019.3.2(社區(qū)版)上實(shí)現(xiàn)。
表6 擴(kuò)充情感詞示例
首先,為了驗(yàn)證在用戶價(jià)值特征的基礎(chǔ)上融合評(píng)分與評(píng)論文本情感特征用于用戶流失預(yù)測(cè)的有效性,本研究在兩種不同的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。數(shù)據(jù)集1為付費(fèi)知識(shí)直播用戶價(jià)值特征下的數(shù)據(jù),數(shù)據(jù)集2為全部特征數(shù)據(jù)。分析數(shù)據(jù)集1與數(shù)據(jù)集2在同一機(jī)器學(xué)習(xí)模型上的表現(xiàn)差異,PR-AUC值計(jì)算結(jié)果見表7。由表7可知,數(shù)據(jù)集2下的PR-AUC均在不同程度上高于數(shù)據(jù)集1,平均提升6.98%。也就是說,在付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)問題上,融合評(píng)分與評(píng)論文本情感特征的預(yù)測(cè)模型的效果更優(yōu),評(píng)分與評(píng)論文本情感特征在用戶流失預(yù)測(cè)中的重要作用得到了驗(yàn)證。其次,在融合全部特征變量的前提下,對(duì)于單分類器模型,樸素貝葉斯算法和決策樹算法相對(duì)比其他算法效果最差,卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法效果相當(dāng);對(duì)于集成學(xué)習(xí)模型,XGBoost算法的效果最好,隨機(jī)森林次之,兩者均優(yōu)于單分類器模型,且比單分類器學(xué)習(xí)模型的PR-AUC值平均高出18.06%(XGBoost)、10.32%(隨機(jī)森林)。以上結(jié)論說明XGBoost算法在付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)這一應(yīng)用場(chǎng)景中具有最優(yōu)的分類能力。
表7 不同模型PR-AUC值對(duì)比
5.4.2 特征變量重要性
基于上述訓(xùn)練得到的XGBoost模型,還可以在其訓(xùn)練過程中識(shí)別和判定各特征變量在用戶流失預(yù)測(cè)中的貢獻(xiàn)度大小,輸出特征變量重要性排名,進(jìn)而對(duì)關(guān)鍵特征變量展開分析。本研究以各特征變量在所有決策樹中的平均增益為重要性評(píng)估指標(biāo),平均增益越大,重要性越高。借助sklearn模塊中的feature_importances_()方法,計(jì)算并輸出各特征變量重要度及排名,如圖3所示。
由圖3可知,對(duì)用戶流失預(yù)測(cè)貢獻(xiàn)最大的特征變量為月均消費(fèi)次數(shù),比較符合日常經(jīng)驗(yàn)和常識(shí),即一般用戶平均每月付費(fèi)參與知識(shí)直播的次數(shù)越多,說明用戶粘性較大,流失風(fēng)險(xiǎn)較低。其中,前兩名特征變量的重要度之和為61%,前三名特征變量的重要度之和為79%,前四名特征變量的重要度之和為93%,且各特征變量重要度分布較為均衡,既沒有出現(xiàn)重要度過大的特征變量,也沒有出現(xiàn)重要度為0的特征變量,說明本研究提取的特征變量具有一定合理性,可以很好地對(duì)用戶流失情況作出預(yù)測(cè)。
圖3 特征變量重要度
5.4.3 流失用戶類型及留存策略
根據(jù)以上幾個(gè)關(guān)鍵特征因素,借助K-Means聚類幫助探尋付費(fèi)知識(shí)直播流失用戶間的相似性,以此形成不同的流失用戶群組,便于針對(duì)不同的流失用戶群組提出個(gè)性化的留存策略。K-Means聚類是按照樣本之間的距離大小,將樣本集劃分為若干個(gè)群組,讓組內(nèi)的點(diǎn)的距離盡量小,而讓組間的距離盡量大。本文借助SPSS 21.0提供的K-Means聚類功能完成這一步驟,最后得到四個(gè)流失用戶群體。聚類中心點(diǎn)是各群組的中心,可以作為群組的代表。通過對(duì)比分析各群組中心點(diǎn)各特征因素上的取值(見表8),可以分析各流失用戶群體差異化的屬性特征。
表8 各流失用戶群組中心點(diǎn)
(1)試用型用戶(群組1)
此類用戶占比約為22%,是一個(gè)規(guī)模不小的流失群體,其顯著特征是用戶生命周期較短,平均在24天左右,即用戶在初次參與付費(fèi)知識(shí)直播后的較短時(shí)間內(nèi)就會(huì)迅速流失。這說明付費(fèi)知識(shí)直播產(chǎn)品在試用期的快速體驗(yàn)階段缺乏第一眼就抓住用戶的能力,無法在第一眼試用階段吸引用戶,導(dǎo)致用戶未能對(duì)產(chǎn)品的價(jià)值和功能有基本的認(rèn)可,消費(fèi)需求還未能被激發(fā)出來,就已經(jīng)拋棄了該產(chǎn)品,造成大量用戶流失。因此,應(yīng)高度重視用戶與付費(fèi)知識(shí)直播平臺(tái)的第一次接觸,優(yōu)化界面設(shè)計(jì);突出知識(shí)直播的功能亮點(diǎn),幫助新用戶在第一時(shí)間輕松匹配滿足自身需求的直播講座;設(shè)計(jì)人性化的新手任務(wù),幫助用戶在簡(jiǎn)單易學(xué)的操作中輕松理解和掌握查找及購(gòu)買直播講座的交互界面與操作流程,使用戶快速感知付費(fèi)知識(shí)直播產(chǎn)品的易用性、有用性。
(2)注重使用體驗(yàn)型用戶(群組2)
此類用戶占比較多,約為26%,其顯著特征是用戶評(píng)分較低,評(píng)論文本情感較為消極,即用戶滿意度不高,導(dǎo)致用戶流失。其中,評(píng)分低于3分的用戶群體的流失率約為63%,顯著高于評(píng)分大于3分的用戶群體的流失率。這說明在用戶全面體驗(yàn)和感知付費(fèi)知識(shí)直播產(chǎn)品及服務(wù)的細(xì)節(jié)后,未能實(shí)現(xiàn)預(yù)期的知識(shí)或技能方面的自我改善需求,感知實(shí)用價(jià)值與預(yù)期不符,繼而未能產(chǎn)生持續(xù)付費(fèi)的內(nèi)生動(dòng)力,堅(jiān)持付費(fèi)或者持續(xù)獲得技能的意向弱化,最終放棄付費(fèi)參與。因此,要致力于提升知識(shí)直播產(chǎn)品的品質(zhì)與內(nèi)在效用;知識(shí)直播講座簡(jiǎn)介、用戶評(píng)論與講師簡(jiǎn)介是用戶獲取直播信息的全部來源,但這些信息并不足以讓用戶對(duì)直播內(nèi)容有足夠了解和認(rèn)識(shí),因此,要力求客觀、準(zhǔn)確、詳實(shí)的直播介紹和描述,減少信息不對(duì)稱;定期針對(duì)用戶參與付費(fèi)知識(shí)直播情況進(jìn)行回訪,調(diào)查用戶對(duì)知識(shí)直播內(nèi)容、講師以及平臺(tái)服務(wù)質(zhì)量和知識(shí)傳遞能力等方面的滿意度,主動(dòng)收集用戶意見和建議,打通用戶反饋溝通渠道,針對(duì)用戶反映強(qiáng)烈的問題,及時(shí)優(yōu)化升級(jí),提升用戶體驗(yàn)進(jìn)而留住用戶。
(3)長(zhǎng)期沉睡型用戶(群組3)
此類用戶所占比例接近一半,約為46%,其顯著特點(diǎn)是首次消費(fèi)時(shí)間多為一年以前甚至更久,屬于老客戶群體,但最近一次消費(fèi)時(shí)間間隔長(zhǎng),往期月均消費(fèi)次數(shù)少,多為每月消費(fèi)3次及以下,說明這一類別的用戶長(zhǎng)期保持著較低的活躍度,對(duì)付費(fèi)知識(shí)直播的興趣缺失。其中月均消費(fèi)次數(shù)為3次及以下的用戶群體的流失率高達(dá)71%,說明付費(fèi)知識(shí)直播用戶消費(fèi)頻率過低時(shí)流失風(fēng)險(xiǎn)極高,應(yīng)引起高度重視。導(dǎo)致此類用戶群體流失的原因可能是平時(shí)缺少感興趣直播的精準(zhǔn)推送,或是碎片化知識(shí)無法滿足系統(tǒng)學(xué)習(xí)的需求。鑒于此,付費(fèi)知識(shí)直播平臺(tái)應(yīng)該注重對(duì)老用戶群體的客戶關(guān)懷,適當(dāng)通過消息提醒、直播講座推送等方式與用戶建立聯(lián)系,激發(fā)用戶對(duì)知識(shí)講座的興趣,預(yù)防用戶流失;增加用戶間互動(dòng),開設(shè)專題興趣小組,倡導(dǎo)知識(shí)分享,激發(fā)用戶求知欲;不拘泥于某一垂直領(lǐng)域,而是適當(dāng)拓寬用戶的知識(shí)關(guān)注范圍,為用戶進(jìn)行不同主題的講座推送,逐步探尋用戶的興趣點(diǎn),避免知識(shí)窄化,使用戶喪失求知欲望。
(4)經(jīng)濟(jì)型用戶(群組4)
此類用戶人數(shù)較少,僅占6%,其顯著特點(diǎn)是次均消費(fèi)金額小,但月均消費(fèi)次數(shù)較高,評(píng)分與評(píng)論文本情感居中,說明此類用戶對(duì)付費(fèi)知識(shí)直播存在需求,而且使用體驗(yàn)并不差,但是在金錢投入方面比較謹(jǐn)慎,對(duì)知識(shí)直播講座的價(jià)值認(rèn)同較低。對(duì)此類用戶可不定期發(fā)放優(yōu)惠券、推送折扣活動(dòng),刺激消費(fèi);以積分、等級(jí)等方式提高用戶的身份價(jià)值,進(jìn)一步通過情感營(yíng)銷、會(huì)員制營(yíng)銷等提高用戶對(duì)知識(shí)講座的價(jià)值認(rèn)同,增強(qiáng)其消費(fèi)意愿;優(yōu)化直播講座“免費(fèi)試聽”功能,讓用戶大膽探索自己感興趣的知識(shí)話題,為用戶消除后顧之憂,增加后續(xù)購(gòu)買的可能性。
為實(shí)現(xiàn)付費(fèi)知識(shí)直播平臺(tái)用戶流失預(yù)測(cè),本研究選擇知乎Live作為數(shù)據(jù)來源,從用戶價(jià)值特征及評(píng)價(jià)特征兩個(gè)維度出發(fā),獲取用戶最近一次消費(fèi)時(shí)間間隔、月均消費(fèi)次數(shù)、次均消費(fèi)金額、用戶關(guān)系長(zhǎng)度以及評(píng)分、評(píng)論文本情感等特征數(shù)據(jù),基于六種不同的機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型,比較不同模型的預(yù)測(cè)效果,研究結(jié)果表明:
(1)在預(yù)測(cè)因素的選取方面,本研究提取的付費(fèi)知識(shí)直播用戶評(píng)分與評(píng)論文本情感特征對(duì)用戶流失預(yù)測(cè)具有重要作用,融入評(píng)價(jià)特征后的用戶流失預(yù)測(cè)模型擁有更優(yōu)的表現(xiàn)。
基于RFML模型提取的用戶價(jià)值特征僅僅是用戶行為序列的綜合體現(xiàn),是客觀數(shù)據(jù),無法反映用戶知識(shí)付費(fèi)的體驗(yàn)與感受,因此在用戶流失預(yù)測(cè)方面具有一定的局限;而用戶評(píng)分與評(píng)論文本是用戶主觀情緒與感受的表達(dá),可以在一定程度上反映用戶的知識(shí)服務(wù)滿意度與持續(xù)付費(fèi)意愿,因此對(duì)流失預(yù)測(cè)具有一定作用。這說明在預(yù)測(cè)付費(fèi)知識(shí)直播用戶的流失傾向時(shí),應(yīng)積極挖掘用戶流失行為背后的深層影響因素,通過用戶特征的有效選取來優(yōu)化預(yù)測(cè)效果,而非一味地針對(duì)預(yù)測(cè)算法做出改進(jìn)。
(2)在機(jī)器學(xué)習(xí)分類算法的選擇方面,在本研究引入的六種機(jī)器學(xué)習(xí)算法中,與傳統(tǒng)的單一分類器相比,以XGBoost與隨機(jī)森林為代表的基于集成學(xué)習(xí)的多分類器系統(tǒng)具有顯著優(yōu)越的預(yù)測(cè)能力,集成學(xué)習(xí)優(yōu)越的泛化性能在本實(shí)驗(yàn)數(shù)據(jù)集上得到了很好的驗(yàn)證。在本研究數(shù)據(jù)集上建立的XGBoost付費(fèi)知識(shí)直播用戶流失預(yù)測(cè)模型的PR-AUC值為0.732,表現(xiàn)出較好的可靠性,可以在實(shí)際應(yīng)用中發(fā)揮一定效用。
(3)在流失用戶類型劃分與留存策略討論方面,本研究依據(jù)關(guān)鍵特征變量將流失用戶劃分為試用型、注重使用體驗(yàn)型、長(zhǎng)期沉睡型、經(jīng)濟(jì)型四類,并針對(duì)性提出用戶留存策略,供付費(fèi)知識(shí)直播平臺(tái)運(yùn)營(yíng)者參考。
在今后的研究中,可進(jìn)一步探索如何在所有平臺(tái)用戶的大樣本數(shù)據(jù)集上構(gòu)建預(yù)測(cè)模型,并延續(xù)小樣本數(shù)據(jù)集的良好預(yù)測(cè)效果及模型性能;融合進(jìn)化計(jì)算、模糊邏輯等其他人工智能方法,探尋更高效的模型融合方法,進(jìn)一步優(yōu)化預(yù)測(cè)算法;關(guān)注用戶行為數(shù)據(jù)及用戶生成內(nèi)容,從服務(wù)體驗(yàn)的視角理解用戶行為,進(jìn)一步發(fā)掘出更多可能影響用戶流失的因素,形成一個(gè)更為完整、科學(xué)的預(yù)測(cè)框架,提高預(yù)測(cè)準(zhǔn)確率。