張峰 張麗娜 張程
隨著汽車(chē)產(chǎn)業(yè)的發(fā)展,國(guó)內(nèi)家庭汽車(chē)擁有量不斷攀升,而汽車(chē)的尾氣排放對(duì)生態(tài)環(huán)境造成嚴(yán)重的破壞。2012年7月,國(guó)務(wù)院印發(fā)《節(jié)能與新能源汽車(chē)產(chǎn)業(yè)發(fā)展規(guī)劃(2012—2020年)》[1],提出“以純電驅(qū)動(dòng)為新能源汽車(chē)發(fā)展和汽車(chē)工業(yè)轉(zhuǎn)型的主要戰(zhàn)略取向,當(dāng)前重點(diǎn)推進(jìn)純電動(dòng)汽車(chē)和插電式混合動(dòng)力汽車(chē)產(chǎn)業(yè)化”。新能源汽車(chē)產(chǎn)業(yè)成為戰(zhàn)略性新興產(chǎn)業(yè),大力發(fā)展以電動(dòng)汽車(chē)為代表的新能源汽車(chē)是解決能源環(huán)境問(wèn)題的有效途徑,市場(chǎng)前景廣闊。但是,電動(dòng)汽車(chē)作為一個(gè)新興的事物,與傳統(tǒng)汽車(chē)相比,消費(fèi)者在擁有購(gòu)買(mǎi)意愿的同時(shí),對(duì)于諸如電池等一些方面仍存有顧慮,對(duì)電動(dòng)汽車(chē)行業(yè)的發(fā)展產(chǎn)生了極大的影響。因此,對(duì)消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿影響因素進(jìn)行挖掘分析,預(yù)測(cè)消費(fèi)者的未來(lái)需求,有利于政府或企業(yè)制定更有效的營(yíng)銷(xiāo)策略,做出更加科學(xué)合理的決策,服務(wù)于電動(dòng)汽車(chē)產(chǎn)業(yè)化,促進(jìn)電動(dòng)汽車(chē)產(chǎn)業(yè)的健康發(fā)展。
通過(guò)文獻(xiàn)分析發(fā)現(xiàn),針對(duì)電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的影響因素挖掘研究已有一些進(jìn)展,如Hidrue等[2]通過(guò)研究發(fā)現(xiàn)行駛里程、燃料成本節(jié)約和充電時(shí)間是影響消費(fèi)者購(gòu)買(mǎi)電動(dòng)汽車(chē)的重要因素。田園和卓慧娟[3]對(duì)電動(dòng)汽車(chē)的性能、便利性等12 個(gè)影響因素使用SPSS 進(jìn)行分析,結(jié)果表明電動(dòng)汽車(chē)的性能和便利性是電動(dòng)汽車(chē)購(gòu)買(mǎi)的重要影響因素。楊洪寶和干宏程[4]通過(guò)確定產(chǎn)品屬性、經(jīng)濟(jì)補(bǔ)償以及消費(fèi)者態(tài)度等3類(lèi)對(duì)消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿有著重要影響的變量,結(jié)合Logistic 回歸,建立消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的預(yù)測(cè)模型,結(jié)果驗(yàn)證了影響變量的可靠性。姬丹丹等[5]對(duì)消費(fèi)者購(gòu)買(mǎi)汽車(chē)意愿影響因素進(jìn)行研究,引入燃料成本和持有者總成本信息,結(jié)合排序Logit方法,對(duì)數(shù)據(jù)建模分析,結(jié)果表明燃料成本和持有者總成本信息對(duì)電動(dòng)汽車(chē)的銷(xiāo)售具有顯著影響。
綜上所述,國(guó)內(nèi)外學(xué)者對(duì)電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿影響因素的研究取得了一定的成果,但也存在一些不足之處。即當(dāng)前多數(shù)研究考慮的影響因素比較單一,并未從消費(fèi)者的角度出發(fā),考慮到消費(fèi)者自身的個(gè)人特征信息。鑒于此,本文從電動(dòng)汽車(chē)的產(chǎn)品屬性、消費(fèi)者個(gè)人信息特征進(jìn)行綜合分析,同時(shí)結(jié)合消費(fèi)者電動(dòng)汽車(chē)體驗(yàn)數(shù)據(jù),使用極端梯度提升(Extreme gradient boosting,XGBoost)對(duì)消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的影響因素進(jìn)行挖掘,并運(yùn)用支持向量機(jī)(Support Vector Machine,SVM)建立消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的預(yù)測(cè)模型,驗(yàn)證影響消費(fèi)者購(gòu)買(mǎi)的因素的有效性和可行性。
極端梯度提升(XGBoost)是一種改進(jìn)的梯度提升樹(shù)。其基本思想是先訓(xùn)練生成一個(gè)弱分類(lèi)能力的模型,在生成新模型時(shí),學(xué)習(xí)前一模型的殘差,通過(guò)最小化目標(biāo)函數(shù),生成新的模型,如此迭代進(jìn)行,最終由多個(gè)簡(jiǎn)單模型組合為強(qiáng)分類(lèi)能力的新模型。該模型為
其中
支持向量機(jī)(SVM)是一種經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)方法。在處理分類(lèi)問(wèn)題時(shí),SVM 既可以處理線性可分問(wèn)題,又可以處理非線性可分問(wèn)題。
因此,得到具體優(yōu)化問(wèn)題為:
通過(guò)文獻(xiàn)分析,首先確定可能的影響因素;其次,通過(guò)對(duì)已體驗(yàn)電動(dòng)汽車(chē)的消費(fèi)者發(fā)放問(wèn)卷進(jìn)行調(diào)查,問(wèn)卷由三部分組成,具體有消費(fèi)者對(duì)電動(dòng)汽車(chē)的滿意程度,包括電池技術(shù)性能、舒適性等8 項(xiàng)特征變量;消費(fèi)者個(gè)人特征信息,包括消費(fèi)者的戶(hù)口情況、駕齡、居住區(qū)域等17 項(xiàng)特征變量;消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿情況,如表1 所示。問(wèn)卷共計(jì)發(fā)放2000份,回收1964份,回收率98.2%。
表1 消費(fèi)者電動(dòng)汽車(chē)體驗(yàn)數(shù)據(jù)特征變量
由于獲取的原始數(shù)據(jù)中存在大量異常、缺失等情況,因此對(duì)消費(fèi)者電動(dòng)汽車(chē)體驗(yàn)數(shù)據(jù)進(jìn)行挖掘和預(yù)測(cè),必須對(duì)其進(jìn)行數(shù)據(jù)清洗,從而進(jìn)一步提高數(shù)據(jù)集的質(zhì)量。
首先,對(duì)原始數(shù)據(jù)中的異常值進(jìn)行刪除。異常值主要是指在數(shù)據(jù)記錄中存在不符合邏輯或?qū)嶋H情況的數(shù)據(jù)。比如消費(fèi)者對(duì)體驗(yàn)的電動(dòng)汽車(chē)的電池技術(shù)性能的滿意度打分值超過(guò)100 分,如分?jǐn)?shù)“753.07”,對(duì)電動(dòng)汽車(chē)的經(jīng)濟(jì)性打分出現(xiàn)“703.00”等異常情況;此外,在消費(fèi)者個(gè)人特征信息數(shù)據(jù)中存在個(gè)人的出生年與居住時(shí)間、出生年與工作年限、家庭年收入與個(gè)人年收入以及個(gè)人婚姻情況與子女?dāng)?shù)等多種不切實(shí)際的情況,將這些異常數(shù)據(jù)進(jìn)行刪除,剩余有效數(shù)據(jù)共計(jì)1836條。
其次,對(duì)原始數(shù)據(jù)中的缺失值進(jìn)行處理。缺失數(shù)據(jù)是指數(shù)據(jù)集中存在空白或未知數(shù)據(jù)的情況。在目標(biāo)客戶(hù)的個(gè)人特征信息中的“子女?dāng)?shù)”字段存在缺失值,缺失占比25.65%。針對(duì)該字段的缺失問(wèn)題,本文分兩種情況進(jìn)行處理,包括:第一,關(guān)系填補(bǔ),主要通過(guò)目標(biāo)客戶(hù)的個(gè)人婚姻類(lèi)型與子女?dāng)?shù)的關(guān)系進(jìn)行填補(bǔ),如婚姻類(lèi)型為1、2、3、4所對(duì)應(yīng)的子女?dāng)?shù)應(yīng)為0;第二,對(duì)于無(wú)法確定的缺失部分,本文通過(guò)眾數(shù)填補(bǔ)的方法進(jìn)行填補(bǔ)。
為在清洗后的數(shù)據(jù)中挖掘出對(duì)不同品牌電動(dòng)汽車(chē)銷(xiāo)售的影響因素,本文需對(duì)其進(jìn)行特征選擇。在特征選擇的過(guò)程中,主要采用相關(guān)變量法和XGBoost特征選擇對(duì)數(shù)據(jù)進(jìn)行特征處理。
相關(guān)變量法,主要是指依據(jù)皮爾遜相關(guān)系數(shù)來(lái)衡量特征間的相關(guān)程度,刪除相關(guān)程度強(qiáng)的特征。假設(shè)(x1,x2,L,xn)是一個(gè)n 維隨機(jī)變量,對(duì)于任意xi與xj的相關(guān)系數(shù)存在,有
對(duì)于兩個(gè)強(qiáng)相關(guān)特征xi和xj,比較ri與rj值,如果ri>ri,則保留xi,否則保留xj通過(guò)上述方法刪除強(qiáng)相關(guān)性的特征,最后剩余15個(gè)特征變量。
XGBoost 特征選擇,是指利用XGBoost 輸出特征的重要度,特征重要度數(shù)值越大,表示特征的重要性越大。使用清洗后數(shù)據(jù)集構(gòu)建XGBoost模型,計(jì)算各特征變量的相對(duì)重要性,該模型輸出的15 個(gè)重要特征變量,如圖1所示。
圖1 特征變量的重要度排序
圖1中,房貸占收入比、車(chē)貸占收入比、動(dòng)力性表現(xiàn)得分的特征重要度在10%以上,對(duì)于消費(fèi)者購(gòu)買(mǎi)電動(dòng)汽車(chē)具有重要影響;品牌類(lèi)型、家庭年收入、居住時(shí)間、家庭成員數(shù)、居住區(qū)域類(lèi)型、單位性質(zhì)、職位類(lèi)型、最高學(xué)歷、戶(hù)口類(lèi)型、駕齡、工作年限以及子女?dāng)?shù),對(duì)于消費(fèi)者購(gòu)買(mǎi)電動(dòng)汽車(chē)也具有一定的影響??梢钥闯觯瑳Q定消費(fèi)者是否購(gòu)買(mǎi)電動(dòng)汽車(chē)的重要影響因素有電動(dòng)汽車(chē)本身的因素,也有消費(fèi)者個(gè)人特征的因素。因此在模型的構(gòu)建過(guò)程中要考慮不同特征的影響,避免遺失重要的特征。
消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的預(yù)測(cè)結(jié)果即為消費(fèi)者是否會(huì)選擇購(gòu)買(mǎi)電動(dòng)汽車(chē),這是一個(gè)典型的二分類(lèi)任務(wù)。因此,本文使用二分類(lèi)問(wèn)題中常用的評(píng)估指標(biāo),即準(zhǔn)確率(Accuracy,ACC)和F1值,來(lái)評(píng)估模型性能[7]。
其中,F(xiàn)N表示正類(lèi)樣本(即標(biāo)簽“1”)預(yù)測(cè)為負(fù)類(lèi)(即標(biāo)簽“0”)的樣本數(shù),TP表示正類(lèi)樣本預(yù)測(cè)為正類(lèi)的樣本數(shù),F(xiàn)P 表示負(fù)類(lèi)樣本預(yù)測(cè)為正類(lèi)的樣本數(shù),TN表示負(fù)類(lèi)樣本預(yù)測(cè)為負(fù)類(lèi)的樣本數(shù)。
經(jīng)過(guò)數(shù)據(jù)清洗和特征選擇,有效數(shù)據(jù)共計(jì)1836條,包含特征15 個(gè),其中未購(gòu)買(mǎi)的客戶(hù)數(shù)據(jù)樣本有1744個(gè),已購(gòu)買(mǎi)的客戶(hù)數(shù)據(jù)樣本有92個(gè),存在著嚴(yán)重的類(lèi)別不平衡問(wèn)題。因此,本文采用過(guò)采樣技術(shù)從數(shù)據(jù)層面上進(jìn)行處理,以平衡正負(fù)類(lèi)樣本數(shù)量。在類(lèi)別不平衡處理方法中,SMOTE(Synthetic minority over-sampling technique)算法[8]是應(yīng)用最為廣泛的過(guò)采樣技術(shù),但該算法在采樣過(guò)程中會(huì)產(chǎn)生樣本重疊問(wèn)題,容易導(dǎo)致過(guò)擬合現(xiàn)象。因此,本文采用其改進(jìn)算法Borderline-SMOTE[9],來(lái)處理類(lèi)別不平衡問(wèn)題,該方法能夠有效克服上述問(wèn)題。消費(fèi)者電動(dòng)汽車(chē)體驗(yàn)數(shù)據(jù)平衡情況,如表2所示。
表2 消費(fèi)者電動(dòng)汽車(chē)體驗(yàn)數(shù)據(jù)平衡情況
為驗(yàn)證消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的影響因素的有效性,本文在處理后的數(shù)據(jù)集基礎(chǔ)上,運(yùn)用SVM的方法,構(gòu)建消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的預(yù)測(cè)模型。具體地,本文將處理后的數(shù)據(jù)集按7∶3的比例隨機(jī)劃分訓(xùn)練集與測(cè)試集,并按照XGBoost模型輸出的特征重要性分?jǐn)?shù)從高到低,將特征輸入到SVM 模型中。同時(shí),為使模型達(dá)到最佳的分類(lèi)效果,本文使用網(wǎng)格搜索算法進(jìn)行優(yōu)化,尋找最優(yōu)參數(shù)。
為對(duì)比所構(gòu)建模型的可行性,本文將所構(gòu)建模型與Logistic、隨機(jī)森林(Random forest)以及XGBoost等常用分類(lèi)方法在測(cè)試集上進(jìn)行對(duì)比,如圖2所示。
圖2 XGBoost特征選擇下的不同分類(lèi)方法的分類(lèi)效果比較
從圖2 中可以看出,當(dāng)特征個(gè)數(shù)為8~13 時(shí),SVM的分類(lèi)效果優(yōu)于其他分類(lèi)方法,并且特征個(gè)數(shù)為9時(shí),SVM 的分類(lèi)效果最佳,即當(dāng)特征個(gè)數(shù)為9 的特征子集為最優(yōu)特征子集。不同分類(lèi)模型在最優(yōu)特征子集上的分類(lèi)效果,如表3所示。
表3 中,可以看出SVM 在輸入特征個(gè)數(shù)為9 時(shí),其準(zhǔn)確率達(dá)到97.99%,F(xiàn)1值為97.95%,明顯優(yōu)于其他模型在其最優(yōu)特征個(gè)數(shù)下的分類(lèi)效果。進(jìn)一步驗(yàn)證了房貸占收入比、車(chē)貸占收入比、動(dòng)力性表現(xiàn)得分、品牌類(lèi)型、家庭年收入、居住時(shí)間、家庭成員數(shù)、居住區(qū)域類(lèi)型、單位性質(zhì)等9個(gè)特征是決定消費(fèi)者是否購(gòu)買(mǎi)電動(dòng)汽車(chē)的重要影響因素。在這些因素中不僅有電動(dòng)汽車(chē)本身的因素,也有消費(fèi)者個(gè)人特征的因素,都是影響消費(fèi)者購(gòu)買(mǎi)電動(dòng)汽車(chē)的重要影響因素。
本文通過(guò)對(duì)消費(fèi)者電動(dòng)汽車(chē)體驗(yàn)數(shù)據(jù)進(jìn)行清洗、滿意度分析,結(jié)合XGBoost 對(duì)消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿的影響因素的挖掘,建立了基于SVM 的消費(fèi)者電動(dòng)汽車(chē)購(gòu)買(mǎi)意愿預(yù)測(cè)模型,通過(guò)模型的分類(lèi)效果驗(yàn)證了影響消費(fèi)者電動(dòng)汽車(chē)是否購(gòu)買(mǎi)的因素不僅在于電動(dòng)汽車(chē)產(chǎn)品本身的屬性,也由消費(fèi)者自身的個(gè)人特征決定?;诖丝蔀殡妱?dòng)汽車(chē)行業(yè)企業(yè)制定有針對(duì)性的營(yíng)銷(xiāo)策略提供良好的借鑒。