張茜
【摘 要】logistic回歸分析是一種研究二分類或多分類問題的有效方法,適用于卷煙定制接受度分析及預測。通過調(diào)查問卷數(shù)據(jù)構建企業(yè)信息維度與接受度的logistic回歸方程并檢驗模型系數(shù),可以用于分析預測不同類型企業(yè)對定制卷煙的接受度,為精準市場推廣提供數(shù)據(jù)參考。
【關鍵字】logistic回歸;定制卷煙;商務市場
中圖分類號: TS411 文獻標識碼: A 文章編號: 2095-2457(2018)28-0272-002
DOI:10.19694/j.cnki.issn2095-2457.2018.28.127
【Abstract】Logistic regression analysis is an effective method to study the problem of binary classification or multiple classification,which is applicable to the analysis and prediction of cigarette customization acceptability.The logistic regression equation of enterprise information dimension and acceptability was constructed based on the questionnaire data and the model coefficient was tested,which could be used to analyze and predict the acceptability of customized cigarettes of different types of enterprises and provide data reference for accurate market promotion.
【Key words】Logistic regression;Customized cigarettes;The business market
為了滿足消費者私人定制需求,全省創(chuàng)客工作室推出了卷煙定制服務并在前期進行廣泛的市場調(diào)研,目的是挖掘消費者需求,改進定制產(chǎn)品。
問卷數(shù)據(jù)由消費者信息和消費者意愿兩個維度組成,兩者之間會存在一定的聯(lián)系,不同類型的消費者對卷煙定制的接受會有所不同。如果從問卷數(shù)據(jù)中挖掘出不同類型的消費者對卷煙定制的接受度,創(chuàng)客工作室就能對接受度高的消費者進行精準宣傳。
1 模型的建立
商務市場的消費者是企業(yè)商家,企業(yè)的信息維度包括行業(yè)類別、地區(qū)等企業(yè)的基本信息,企業(yè)的意愿是對定制卷煙的接受度。分析各維度數(shù)據(jù)之間的相關關系有多種算法,關聯(lián)分析、決策樹分析等算法都可實現(xiàn),但是關聯(lián)分析算法和決策樹算法建立的是關系模型并非數(shù)值模型。
數(shù)值化研究兩種或兩種以上變量之間定量關系需要運用回歸分析的方法。但是在構建企業(yè)信息與企業(yè)意愿的回歸模型時會存在因變量是二分類變量而非數(shù)值變量的情況。企業(yè)意愿存在“高”或“低”兩種情況,這是二分類問題。logistic回歸就是研究二分類或多分類的問題的回歸分析方法。
1.1 維度選取
設企業(yè)對定制卷煙的接受度為因變量Y,Y是一個二分類變量,“很感興趣”、“可以考慮”為“接受度高”,取值為1;“說不好”、“不感興趣”為“接受度低”,取值為0。影響因變量Y的自變量記為X,代表企業(yè)的信息維度,包括:企業(yè)所處地區(qū)x1、行業(yè)類別x2、員工規(guī)模x3、集團消費用煙是否有卷煙x4、有無定制先例x5、年卷煙采購量x6。
1.2 logistic回歸模型
logistic回歸模型發(fā)掘的是不同類型企業(yè)接受卷煙定制(Y為1)的條件概率:
P=P(Y=1|x1,x2,…,x6)
logistic回歸模型在用于研究變量之間數(shù)值關系時具有明顯優(yōu)勢。首先它對自變量沒有明確要求,可以是連續(xù)變量,也可以是離散變量或是虛擬變量,而且不需要正態(tài)性假設。當被解釋變量是二分類變量時,logistic回歸是研究解釋變量與被解釋變量的常用方法。消費者對定制卷煙接受度是一個二分類變量,logistic回歸可以很好解決這類問題。
3 數(shù)據(jù)預處理
3.1 數(shù)據(jù)清洗
用于建立模型的數(shù)據(jù)來源于調(diào)查問卷,但是由于填寫問卷人員的知識水平、細心程度的不同,調(diào)查中收集的調(diào)查問卷并不能全部用來分析,需要對異常的問卷進行清洗,對缺失值進行補充。無效問卷主要為選項矛盾問卷、重復性問卷、不符合邏輯關系問卷。通過建立邏輯判斷規(guī)則對整體的問卷數(shù)據(jù)進行清洗、篩選。
3.2 數(shù)據(jù)轉(zhuǎn)換
離散變量通常是用虛擬變量進行處理,而問卷數(shù)據(jù)大多數(shù)都是離散變量。如果虛擬變量進行處理,則6個維度自變量數(shù)據(jù)可以表示為阿拉伯數(shù)字,比如員工規(guī)模x3可以分類為“50人及以下”、“50-500人”、“500人以上”,分別用0,1,2表示。但是虛擬變量并不能代表原始數(shù)據(jù)的含義,眾多虛擬變量的使用會造成分析結果不易解讀并降低準確率。
從模型中可以看出,在所有自變量中,企業(yè)的員工規(guī)模、是否有無定制先例和地區(qū)分布對預測企業(yè)對定制卷煙接受度時有重要影響。結合woe值分析,經(jīng)濟發(fā)達地區(qū)、中等規(guī)模(50-500人)、有定制先例的企業(yè)對個性化定制卷煙的接受度更高。其它指標影響雖不是關鍵因素,但也存在影響,結合woe值分析,零售餐飲業(yè)、集團消費用品有卷煙、年卷煙采購量中等(50-200條)的企業(yè)對定制卷煙接受概率更高。
通過logistic回歸模型,可以估計預測某企業(yè)對定制卷煙接受的程度,根據(jù)概率的高低決定是否值得宣傳,精準定位企業(yè)的同時提高了推廣效率,應用性很強。假設衢州地區(qū)有一家300人的制造業(yè)企業(yè),集團消費用品有卷煙但無定制先例,年卷煙采購量在100天左右。創(chuàng)客工作室通過logistic回歸模型可以推算出此企業(yè)接受卷煙定制的概率為84%(大于50%),判斷此企業(yè)值得宣傳推薦,可以重點關注。
5 總結與展望
目前,卷煙定制服務還處在起步階段,市場行為研究不充分,市場宣傳推廣具有盲目性。通過logistic回歸方法構建的模型不僅充分挖掘了調(diào)查問卷數(shù)據(jù),定量分析市場環(huán)境的同時還可以推算預測未知的市場,為市場推廣提供依據(jù)。通過市場的完善、樣本數(shù)據(jù)的積累,logistic回歸模型可以進行拓展,提高精確度,更好得分析預測市場。
【參考文獻】
[1]Keating K A,Cherry S.Use and Interpretation of Logistic Regression in Habitat-Selection Studies[J].Journal of Wildlife Management,2011,68(4):774-789.
[2]Gude J A,Mitchell M S, Ausband D E, et al. Internal Validation of Predictive Logistic Regression Models for Decision-Making in Wildlife Management[J]. Wildlife Biology, 2017, 15(4):352-369.
[3]姜廣輝,張鳳榮,陳軍偉,等.基于Logistic回歸模型的北京山區(qū)農(nóng)村居民點變化的驅(qū)動力分析[J].農(nóng)業(yè)工程學報, 2007,23(5):81-87.