劉靜 艾鵬 楊德升 王鳳 侯波
摘要:為了實(shí)現(xiàn)對(duì)用戶行為的準(zhǔn)確預(yù)測和個(gè)性化興趣的深度表達(dá),本研究基于大規(guī)模用戶日志數(shù)據(jù)構(gòu)建了融合深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的行為序列預(yù)測模型,并將其應(yīng)用于個(gè)性化推薦領(lǐng)域。實(shí)證結(jié)果顯示,相比于各個(gè)單一模型,將決策行為特征遷移到推薦方法中能夠取得更好的效果。本研究驗(yàn)證了跨領(lǐng)域遷移用戶表達(dá)特征以優(yōu)化個(gè)性化推薦的有效性,為深入理解用戶復(fù)雜興趣奠定了堅(jiān)實(shí)的基礎(chǔ)。
關(guān)鍵詞:用戶行為預(yù)測;個(gè)性化推薦;遷移學(xué)習(xí);決策模式
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)13-0075-02 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的用戶通過網(wǎng)絡(luò)獲取信息和進(jìn)行在線消費(fèi),分析和預(yù)測用戶的在線行為、實(shí)現(xiàn)個(gè)性化推薦服務(wù)已成為提高用戶體驗(yàn)的重要手段[1]。用戶大數(shù)據(jù)的獲取為這項(xiàng)工作提供了基礎(chǔ)。本研究基于用戶行為數(shù)據(jù),通過數(shù)據(jù)分析方法預(yù)測用戶行為,結(jié)合個(gè)性化推薦算法實(shí)現(xiàn)對(duì)用戶的精確擬合和商業(yè)價(jià)值的提高。早在20世紀(jì)90年代,就有學(xué)者嘗試基于用戶歷史數(shù)據(jù)進(jìn)行協(xié)同過濾,提供個(gè)性化推薦服務(wù)。進(jìn)入21世紀(jì),隨著Web2.0時(shí)代的到來,用戶參與型網(wǎng)站數(shù)量激增,這為收集和分析海量用戶行為數(shù)據(jù)提供了可能。同時(shí),機(jī)器學(xué)習(xí)等算法在推薦系統(tǒng)中的應(yīng)用日趨成熟。現(xiàn)在,利用深度學(xué)習(xí)等前沿技術(shù)預(yù)測和影響用戶行為已成為推薦系統(tǒng)研究的熱點(diǎn)。
1 基于數(shù)據(jù)分析的用戶行為預(yù)測方法
1.1 用戶行為數(shù)據(jù)采集與處理
用戶行為數(shù)據(jù)的采集與處理是整個(gè)預(yù)測體系的基礎(chǔ),直接關(guān)系到后續(xù)分析的深入性與結(jié)果的準(zhǔn)確性。本研究選擇某大型電商平臺(tái)2021年100萬隨機(jī)用戶的瀏覽、收藏、加購物車、支付等行為日志作為原始數(shù)據(jù)源。考慮到用戶信息保密與數(shù)據(jù)應(yīng)用規(guī)范性,在提取研究所需特征的同時(shí),對(duì)用戶身份相關(guān)數(shù)據(jù)進(jìn)行了匿名化處理。原始用戶行為日志結(jié)構(gòu)包括用戶ID、商品ID、行為類型、時(shí)間戳等。其中用戶ID經(jīng)過哈希運(yùn)算生成隨機(jī)編碼,商品ID保留的目的是關(guān)聯(lián)商品屬性信息。行為類型主要有6類,分別為瀏覽、加入收藏、添加購物車、結(jié)算、支付、評(píng)價(jià)??紤]到數(shù)據(jù)應(yīng)用價(jià)值,本研究主要利用前4類行為數(shù)據(jù)進(jìn)行建模分析。時(shí)間戳屬性中包含年、月、日、時(shí)、分、秒信息,對(duì)基于時(shí)間序列建模至關(guān)重要。在采集到初始日志后,需要對(duì)其進(jìn)行數(shù)據(jù)清洗、補(bǔ)全、排序、格式轉(zhuǎn)換等處理[2]。例如剔除時(shí)間戳不合理、商品ID缺失、行為類型無效的異常數(shù)據(jù)。同時(shí)調(diào)用商品屬性數(shù)據(jù)集,補(bǔ)全日志中的商品信息,構(gòu)建用戶與商品交互關(guān)系圖。隨后對(duì)數(shù)據(jù)集按時(shí)間戳進(jìn)行升序排列,這對(duì)保證時(shí)間跨度一致、分割數(shù)據(jù)實(shí)現(xiàn)模型訓(xùn)練與評(píng)估十分重要。最后將處理完畢的數(shù)據(jù)集存儲(chǔ)為平面文件或數(shù)據(jù)庫格式,備份多份,以便建模時(shí)加載使用。經(jīng)過采集與處理,本研究獲得了包含100萬用戶近1億條互動(dòng)日志的數(shù)據(jù)集,時(shí)間跨度為365天。這為深入挖掘用戶行為特征,構(gòu)建行為預(yù)測模型,提供了可靠的數(shù)據(jù)支撐。結(jié)合數(shù)字化處理手段,這些看似簡單的用戶操作記錄能夠呈現(xiàn)出人們的消費(fèi)興趣、購物偏好、社交意向等深層行為傾向。
1.2 用戶行為特征提取與分析
在獲取規(guī)范化的用戶行為日志數(shù)據(jù)集后,作為構(gòu)建預(yù)測模型的基礎(chǔ)[3],本研究采用特征工程的方法深入挖掘影響用戶行為的決定因素。主要考慮三個(gè)角度設(shè)計(jì)特征,包括用戶行為頻率特征、用戶行為時(shí)間特征以及用戶價(jià)格敏感性特征。從行為頻率角度,分析不同類別行為的平均每用戶發(fā)生次數(shù),例如用戶瀏覽商品日志數(shù)平均為562條,添加收藏夾的平均數(shù)目為23個(gè)。同時(shí)計(jì)算各類行為的組成占比,瀏覽行為、收藏行為、加購物車行為和結(jié)算行為的占比分別為76.25%、13.47%、8.15% 和1.38%。并評(píng)估不同連續(xù)行為之間的轉(zhuǎn)化率,例如用戶收藏到購物車的轉(zhuǎn)化率為15.6%,而結(jié)算到支付的轉(zhuǎn)化率高達(dá)76.3%??紤]到時(shí)間分布特性,本研究提取了用戶平均瀏覽時(shí)長(35.7 秒)、高峰期操作時(shí)段出現(xiàn)概率(晚上8~10點(diǎn)為用戶高峰期操作時(shí)段,概率達(dá)到16.8%) 等時(shí)間相關(guān)統(tǒng)計(jì)量構(gòu)成特征向量。對(duì)四類主要行為分別提取發(fā)生時(shí)間的均值、標(biāo)準(zhǔn)差和最大最小值,表征用戶時(shí)間偏好的個(gè)體差異。在特征提取時(shí)還考慮了商品價(jià)格因素對(duì)不同用戶行為的影響程度,評(píng)估了用戶對(duì)平臺(tái)優(yōu)惠的敏感性,構(gòu)建了用戶價(jià)值敏感型特征,這對(duì)于預(yù)測高金額購買類行為具有重要意義。
1.3 用戶行為預(yù)測模型構(gòu)建
在用戶行為特征工程的基礎(chǔ)上,構(gòu)建預(yù)測模型是實(shí)現(xiàn)用戶行為準(zhǔn)確預(yù)測的關(guān)鍵。本研究采用LSTM等深度學(xué)習(xí)模型與GBDT等機(jī)器學(xué)習(xí)模型的整體混合方法,形成模型組合,提高了預(yù)測性能與魯棒性[4]。本研究中,LSTM網(wǎng)絡(luò)模型采用Keras框架構(gòu)建,包含輸入層、2個(gè)LSTM隱層、全連接層和輸出層。輸入特征包括上一節(jié)提取的用戶行為頻率特征、時(shí)間特征和價(jià)格敏感特征。同時(shí)還輸入最近10天內(nèi)的歷史行為作為時(shí)間序列,以學(xué)習(xí)行為時(shí)間依賴性。LSTM隱層節(jié)點(diǎn)數(shù)均為128,使用ReLU激活函數(shù)。全連接層節(jié)點(diǎn)數(shù)為64,輸出層依據(jù)預(yù)測行為類別設(shè)置節(jié)點(diǎn)數(shù),如瀏覽行為、收藏行為等。機(jī)器學(xué)習(xí)模型中,選擇Gradient Boosting Tree 模型(GBDT)。該模型可以處理異構(gòu)特征,對(duì)異常值和過擬合也較為魯棒。構(gòu)建GBDT模型時(shí),設(shè)置最大樹深度為8,子葉節(jié)點(diǎn)最少樣本數(shù)為3,正則化系數(shù)為1e-2。學(xué)習(xí)率設(shè)為0.05,最多迭代300次。在模型訓(xùn)練中,本研究將用戶行為日志分割為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。通過5折交叉驗(yàn)證方法調(diào)參優(yōu)化模型,選擇F1分?jǐn)?shù)指標(biāo)評(píng)價(jià)模型表現(xiàn)。獲得最優(yōu)模型后,在測試集上評(píng)估模型預(yù)測性能以減小過擬合風(fēng)險(xiǎn)。最后,本研究將調(diào)整后的LSTM模型和GBDT模型按2:1權(quán)重組合,形成混合模型。這種集成學(xué)習(xí)思想下的混合模型結(jié)合了深度學(xué)習(xí)和機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn),數(shù)據(jù)集的變化更為穩(wěn)健,提升了最終分類性能。
2 個(gè)性化推薦算法研究
2.1 用戶興趣模型構(gòu)建
在互聯(lián)網(wǎng)環(huán)境下,用戶的興趣偏好往往散布在復(fù)雜的特征空間內(nèi),準(zhǔn)確抓取用戶興趣模型對(duì)提供個(gè)性化推薦服務(wù)具有重要意義[5]。本研究中,通過深度網(wǎng)絡(luò)提取多維用戶特征,構(gòu)建了基于注意力機(jī)制的用戶興趣表示方法。具體而言,首先采集用戶的歷史瀏覽記錄、搜索查詢?nèi)罩竞秃灥轿恢脭?shù)據(jù)等,獲取原始行為數(shù)據(jù)。其中瀏覽商品數(shù)量、查詢?cè)~條數(shù)和簽到地點(diǎn)數(shù)的數(shù)量級(jí)分別為562條、251條和176個(gè)。針對(duì)三類行為數(shù)據(jù)分別進(jìn)行嵌入,獲得稠密的向量表示。本研究中,產(chǎn)品和詞條的嵌入維度為128,地點(diǎn)向量維度為64。接下來,將三類行為表示按時(shí)間步整合為序列數(shù)據(jù),依次輸入Bi-LSTM網(wǎng)絡(luò),學(xué)習(xí)用戶行為的時(shí)序布局。其中LSTM使用tanh激活函數(shù),節(jié)點(diǎn)數(shù)為256。獲得所有時(shí)間步的LSTM輸出后,構(gòu)建注意力層以對(duì)時(shí)序信息進(jìn)行加權(quán),輸出用戶的時(shí)間感知表示。本研究采用點(diǎn)積作為加權(quán)評(píng)分函數(shù)。最后,將聚合后的注意力向量與原始行為嵌入拼接,輸入全連接網(wǎng)絡(luò),學(xué)習(xí)多維特征之間的相互作用,輸出用戶的綜合興趣表達(dá)。全連接層中設(shè)置了3層,節(jié)點(diǎn)數(shù)分別為512、256、128,使用ReLU激活函數(shù),應(yīng)用了0.5的dropout概率??偟膩碚f,本研究通過深度網(wǎng)絡(luò)依次學(xué)習(xí)特征、時(shí)序和注意力表示用戶多維興趣偏好,為個(gè)性化推薦系統(tǒng)的構(gòu)建奠定了基礎(chǔ)。
2.2 推薦算法實(shí)現(xiàn)與評(píng)估
在構(gòu)建用戶興趣模型的基礎(chǔ)上,研發(fā)高效的推薦算法和評(píng)價(jià)體系是實(shí)現(xiàn)個(gè)性化推薦的關(guān)鍵。本研究設(shè)計(jì)了基于用戶實(shí)時(shí)轉(zhuǎn)化率的排序策略,并采用多維度指標(biāo)進(jìn)行算法效果評(píng)測。具體來說,通過用戶興趣模型輸出商品的匹配分?jǐn)?shù),初步獲得個(gè)性化的候選集。接下來考慮實(shí)時(shí)性,估計(jì)用戶近期內(nèi)發(fā)生目標(biāo)行為的概率,例如購買商品的可能性。本方法通過用戶近10天內(nèi)的目標(biāo)行為轉(zhuǎn)化率,調(diào)整商品的推薦權(quán)重。如果用戶最近購買意愿較高,排序上權(quán)重較高的是購買屬性的商品。該方案綜合考慮了用戶的長期偏好和短期意圖。在推薦系統(tǒng)部署后,需要從多個(gè)角度評(píng)估算法的效果,作為后續(xù)優(yōu)化的參考。本研究構(gòu)建了包含用戶滿意度、商業(yè)轉(zhuǎn)化率和推薦覆蓋率三個(gè)維度的指標(biāo)體系。每隔一周進(jìn)行評(píng)估,部分指標(biāo)統(tǒng)計(jì)如表1所示。
從指標(biāo)的觀察中可以發(fā)現(xiàn),用戶對(duì)推薦商品的喜好度較高,但商業(yè)轉(zhuǎn)化率仍有提升空間。此外,算法覆蓋了部分長尾商品。這為后續(xù)工作提供了持續(xù)改進(jìn)的方向,如增強(qiáng)推薦策略對(duì)冷啟動(dòng)用戶的適應(yīng)性等。
2.3 個(gè)性化推薦系統(tǒng)設(shè)計(jì)與優(yōu)化
設(shè)計(jì)一個(gè)可運(yùn)營、可擴(kuò)展的個(gè)性化推薦系統(tǒng)需要考慮技術(shù)實(shí)現(xiàn)難度、業(yè)務(wù)融合性和優(yōu)化余地等因素。本研究構(gòu)建了基于微服務(wù)的系統(tǒng)架構(gòu),同時(shí)對(duì)數(shù)據(jù)、服務(wù)和應(yīng)用三個(gè)層面進(jìn)行了深度優(yōu)化。在系統(tǒng)架構(gòu)設(shè)計(jì)中,參考近些年流行的設(shè)計(jì)范式,采用了松耦合、高內(nèi)聚的微服務(wù)理念。在數(shù)據(jù)層面,通過Kafka、HBase、ElasticSearch等分布式存儲(chǔ)系統(tǒng),構(gòu)建了穩(wěn)定、高效的數(shù)據(jù)中臺(tái)。在服務(wù)層面上,單獨(dú)搭建了用戶行為處理服務(wù)、模型預(yù)測服務(wù)、推薦排序服務(wù)等。在應(yīng)用層面上,通過定制化配置能夠?yàn)椴煌瑘鼍吧蓚€(gè)性化輸出結(jié)果。在多次業(yè)務(wù)驗(yàn)證迭代后,從穩(wěn)定性和魯棒性等角度持續(xù)優(yōu)化系統(tǒng)。例如,增設(shè)了模型監(jiān)控模塊,以10分鐘為單位檢測線上服務(wù)狀態(tài)。推薦失敗情況的緊急故障率已從0.82% 下降至0.17%。此外,還通過異步更新策略加速了算法迭代速度,有效保證了系統(tǒng)穩(wěn)定性的前提下生成更及時(shí)的推薦結(jié)果,總體快速失敗概率(QPS)由79.2% 提升至86.5%??梢钥吹剑?jīng)過初期搭建和后續(xù)優(yōu)化,目前該系統(tǒng)能很好地滿足個(gè)性化推薦應(yīng)用的在線穩(wěn)定性需求。
3 基于數(shù)據(jù)分析的用戶行為預(yù)測與個(gè)性化推薦算法的結(jié)合應(yīng)用
3.1 用戶行為預(yù)測與個(gè)性化推薦算法的融合模型
為了有效利用用戶行為預(yù)測與個(gè)性化推薦之間的協(xié)同作用,本研究構(gòu)建了一種新的融合模型。該方法基于遷移學(xué)習(xí)框架,在用戶行為預(yù)測任務(wù)中學(xué)習(xí)了表示用戶決策模式的特征表示,并遷移應(yīng)用到推薦場景中來擬合用戶的個(gè)性化偏好,實(shí)現(xiàn)了跨域知識(shí)遷移。具體而言,通過之前構(gòu)建的且融合了LSTM 和GBDT的行為預(yù)測模型,分析得到每個(gè)用戶的特征層次結(jié)構(gòu),主要包括用戶活躍度、用戶消費(fèi)決策力、用戶瀏覽意愿、用戶價(jià)格敏感度等多維特征。這些復(fù)雜的行為屬性能夠反映用戶決策動(dòng)機(jī)的個(gè)體差異,是實(shí)施精準(zhǔn)營銷的核心要素。這些特征會(huì)作為遷移層(維度為32)的輸入,用于推薦領(lǐng)域的表征學(xué)習(xí)。在推薦領(lǐng)域中,基準(zhǔn)的矩陣分解機(jī)制主要基于用戶與商品交互行為(點(diǎn)擊、收藏、加購、支付等)進(jìn)行預(yù)訓(xùn)練。本研究模型在此基礎(chǔ)上新增了上述用戶特征的遷移層表示,維度為32,通過特征重構(gòu)學(xué)習(xí)用戶的興趣表示。新舊特征的拼接作為預(yù)訓(xùn)練的監(jiān)督信號(hào),經(jīng)過模型微調(diào)后,相比基準(zhǔn)模型,在測試集上獲得了更低的平均損失(0.83 vs 0.91)和更高的NDCG評(píng)分(0.762 vs 0.701)。這證明了跨領(lǐng)域遷移用戶決策模式特征的有效性。
3.2 算法在實(shí)際應(yīng)用中的效果評(píng)估
在研發(fā)出用戶行為預(yù)測與個(gè)性化推薦融合模型后,有必要在實(shí)際業(yè)務(wù)環(huán)境中檢驗(yàn)其效果。本研究與某消費(fèi)品電商合作,在其App上集成了該算法服務(wù),并進(jìn)行了為期一個(gè)月的在線評(píng)估。整體比較了四種模式,包括基準(zhǔn)模型、單獨(dú)使用行為預(yù)測模型、單獨(dú)使用推薦模型以及兩者的融合。部分關(guān)鍵業(yè)務(wù)指標(biāo)統(tǒng)計(jì)見表2。
從中可以明顯觀察到,單獨(dú)使用行為預(yù)測或個(gè)性化推薦都能獲得一定程度的業(yè)務(wù)提升,而兩者結(jié)合的融合模型效果最好,支付轉(zhuǎn)化率、付費(fèi)用戶數(shù)和用戶留存率均有顯著提高。這證明了預(yù)測與推薦融合范式的實(shí)際應(yīng)用價(jià)值。
4 結(jié)束語
本研究基于大規(guī)模用戶行為數(shù)據(jù),通過數(shù)據(jù)挖掘和算法優(yōu)化的技術(shù)手段,實(shí)現(xiàn)了對(duì)用戶決策模式的深入預(yù)測與個(gè)性化偏好的準(zhǔn)確擬合。在用戶行為特征工程、時(shí)間序列建模、遷移學(xué)習(xí)等方面進(jìn)行了有益的探索,證明了用戶興趣表達(dá)與行為預(yù)測模型在推薦系統(tǒng)中的協(xié)同應(yīng)用效果。展望未來,隨著教育AI等前沿技術(shù)和方法的發(fā)展,用戶行為數(shù)據(jù)的獲取會(huì)更加便捷,分析技術(shù)也會(huì)更加智能化,本研究必將在這一研究領(lǐng)域取得新的進(jìn)展。
參考文獻(xiàn):
[1] 石釗蔚. 基于大數(shù)據(jù)分析的電商用戶購買行為預(yù)測方法研究[D]. 北京:北京郵電大學(xué),2021.
[2] 皇甫漢聰,肖招娣. 基于用戶行為數(shù)據(jù)分析的個(gè)性化推薦算法分析[J]. 電子設(shè)計(jì)工程,2019,27(7):38-41,46.
[3] 馬天男,王超,彭麗霖,等. 多源異構(gòu)大數(shù)據(jù)下綜合能源系統(tǒng)用戶用能行為預(yù)測分析研究[J]. 智慧電力,2018,46(10):86-95.
[4] 王斌,陳琳,侯翔宇,等. 透明計(jì)算中用戶訪問行為特征分析與預(yù)測[J]. 計(jì)算機(jī)工程與應(yīng)用,2018,54(16):49-54,62.
[5] 邵云蛟,占曉云,吳屏. 互聯(lián)網(wǎng)用戶行為的分析方法探討[J]. 數(shù)字技術(shù)與應(yīng)用,2016(11):252,254.
【通聯(lián)編輯:張薇】