基于回歸模型的公司營銷活動用戶群挖掘

2018-11-30 01:47:40葉敏

商情 2018年49期

關(guān)鍵詞：R語言

葉敏

【摘要】某銷售公司想通過用戶的歷史數(shù)據(jù)，預(yù)剛下次營銷活動最有可能參與營銷活動的人群。本文通過構(gòu)建Logistic模型，基于用戶的歷史購買數(shù)據(jù)和用戶基本信息，使用R語言進行計算，預(yù)瀏用戶是否會參與營銷活動。

【關(guān)鍵詞】Logistic模型營銷活動 R語言

一、引言

某零售公司目前有約3000萬的活躍用戶，市場部門有30萬美元的預(yù)算，其希望挖掘出最有可能在30天內(nèi)購買該公司產(chǎn)品的用戶群，本文討論用邏輯回歸建模對產(chǎn)品的購買預(yù)測，得到優(yōu)化模型，并進行了模型評估。

二、基于Logisstic回歸方法的營銷用戶群的挖掘建模

（一）Logistic回歸模型原理介紹

Logistic回歸模型是研究因變量非連續(xù)型變量情況的分析模型。其中，解決這個問題的核心方法稱為極大似然估計法：

（1）引入?yún)?shù)e。

（2）引入Logisic函數(shù)的激活函數(shù)，也叫做越階函數(shù)，例如：sogfllod激活函數(shù)hθ（x）=g（θ_Tx）=1/（1+e^-θ^Tx）

（3）計算P（y=1|x：θ）和P（y=0|x：θ），一般來說激活函數(shù)計算得到p=1和。兩類，需要計算他們的聯(lián)合概率函數(shù)P（y|x：θ）。

（4）最大似然函數(shù)，求出合適的參數(shù)8。

（5）計算hθ（X），根據(jù)該值對樣本進行分類。

（二）構(gòu)建Logistic模型

（1）候選變量。候選變量包括用戶的基本情況和一些購物信息。本項目一共包括如下26個自變量和1個因變量（是否有購買行為）。如下圖1所示：

（2）相關(guān)性分析。相關(guān)性分析包括自變量之間，和自變量和因變量之間的相關(guān)性分析。通常而言，自變量與因變量越強，說明該自變量對因變量越重要，而自變量之間的相關(guān)性越強，改善兩者之間的共線性強，多重共線性會影響模型的準確度，需要優(yōu)化模型的變量。

（3）初步建模，變量篩選。該項目的特征值有26個，根據(jù)前面的相關(guān)性分析和數(shù)據(jù)缺失情況，去掉11個特質(zhì)變量（變量與被解釋變量相關(guān)程度非常低和缺失率過高），然后用逐步回歸法自動篩選剩下的變量，選出的特征變量先進行顯著性檢驗，再使用VIF進行多重共線性分析，一般來說VIF值小于2，另外計算R^{^}2的值，如R^{^}2<0.5，說明這些變量解釋模型不夠，需要引入更多變量。最終篩選的變量如下：

（4）模型評估。該模型采用ROC Curce圖和AUC值進行模型評估。下圖2是ROC Curce圖：

從圖中可以看到該ROC曲線是往左上角凸的，而AUC值（ROC曲線下方的面積）為0.7613，說明該模型的預(yù)測結(jié)果的分類效果是不錯的。

三、結(jié)論及建議

本文通過構(gòu)建Logistic模型，基于用戶的歷史購買數(shù)據(jù)和用戶基本信息，使用R語言進行計算分析，預(yù)測用戶是否會參與營銷活動。先進行變量之間的相關(guān)性分析，然后初步建模，使用逐步回歸法，篩選變量，最終得到符合模型要求的變量，最后進行模型評估。Logistic模型的優(yōu)點在于可解釋性強，但是相對于其他機器學習模型來說，準確率不是很高。該項目的主要是為了得到最有可能在30天內(nèi)購買該公司產(chǎn)品的用戶群，我認為分析完是否購買該產(chǎn)生的用戶后，可以用其他預(yù)測模型判斷購買用戶可能會消費多少金額，這樣可以得到更加優(yōu)質(zhì)的用戶群。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于回歸模型的公司營銷活動用戶群挖掘