麥繼芳, 崔 霞
(廣州大學(xué) 經(jīng)濟(jì)統(tǒng)計(jì)學(xué)院, 廣東 廣州 510006)
面向大數(shù)據(jù)的淘寶賣家信用度的影響因素分析
麥繼芳, 崔 霞
(廣州大學(xué) 經(jīng)濟(jì)統(tǒng)計(jì)學(xué)院, 廣東 廣州 510006)
消費(fèi)者在電商平臺(tái)上購(gòu)買商品時(shí),并不能獲得關(guān)于消費(fèi)品的所有信息,只能通過(guò)賣家信用、商品圖片和購(gòu)買評(píng)價(jià)等指標(biāo)來(lái)判定所選的網(wǎng)店以及商品是否可靠.其中,賣家信用對(duì)于消費(fèi)者的參考尤其重要.對(duì)賣家信用度建模能夠在一定程度上保護(hù)交易雙方的合法利益,提高交易的成功率.文章基于部分線性可加模型,結(jié)合社會(huì)資本數(shù)據(jù)(如新浪微博),對(duì)淘寶賣家信用度進(jìn)行建模分析:①對(duì)數(shù)據(jù)進(jìn)行相關(guān)分析、異常值剔除、多重共線性消除等預(yù)處理;②利用集群Lasso變量選擇方法,識(shí)別出對(duì)賣家信譽(yù)有顯著影響的因素;③對(duì)識(shí)別出來(lái)的因素與賣家信用做簡(jiǎn)單線性擬合,得出的結(jié)果與實(shí)際情況相違背,故又使用廣義可加模型實(shí)現(xiàn)對(duì)賣家信譽(yù)的預(yù)測(cè)分析.該信用度模型能夠很好地識(shí)別刷單賣家,幫助買家防范賣家的欺詐行為.
部分線性可加模型; 大數(shù)據(jù); 半?yún)?shù)模型; Lasso;R語(yǔ)言
電子商務(wù)的迅速發(fā)展給人們的生活帶來(lái)了極大的方便.通過(guò)網(wǎng)絡(luò)和現(xiàn)代物流,人們足不出戶就可以方便購(gòu)買來(lái)自全國(guó)各地的各種商品.淘寶網(wǎng)作為B2C電子商務(wù)的龍頭老大,憑借其產(chǎn)品的豐富和信譽(yù)評(píng)價(jià)機(jī)制的安全優(yōu)勢(shì),獲得了越來(lái)越多在線消費(fèi)者的信任.然而,由于賣家的逐利性,刷單和刷信譽(yù)的行為越來(lái)越多.對(duì)賣家信用度建模能夠在一定程度上保護(hù)交易雙方的合法利益,提高交易成功率.現(xiàn)行使用的信用度評(píng)價(jià)系統(tǒng)一般采用簡(jiǎn)單累加得出賣家的信用度值,過(guò)度依賴于好評(píng)率,缺少對(duì)影響交易其他因素的考慮,如退款率、寶貝數(shù)等.另外,目前使用的信用評(píng)價(jià)系統(tǒng)主要依賴淘寶平臺(tái)內(nèi)部數(shù)據(jù),卻未涉及大數(shù)據(jù)中的社會(huì)資本數(shù)據(jù).因此,建立有效、實(shí)用的網(wǎng)絡(luò)購(gòu)物網(wǎng)站信用評(píng)價(jià)模型,具有重要的理論意義和現(xiàn)實(shí)意義.
電子商務(wù)信用的研究還是一個(gè)相對(duì)較新的領(lǐng)域,文獻(xiàn)[1-2]是國(guó)內(nèi)學(xué)者對(duì)淘寶網(wǎng)商家信用度評(píng)價(jià)模型的研究.在國(guó)外,中小企業(yè)的信用評(píng)價(jià)是對(duì)其品德、聲望、資格、資金實(shí)力、擔(dān)保以及經(jīng)營(yíng)條件等進(jìn)行分析,來(lái)測(cè)度違約可能性并且對(duì)違約風(fēng)險(xiǎn)進(jìn)行分類.這種信用評(píng)價(jià)技術(shù)目前主要是依賴于一些統(tǒng)計(jì)模型,如線性概率模型、分對(duì)數(shù)模型和線性判別式分析.國(guó)外目前常用的信用評(píng)價(jià)方法有:5C法等要素法[3]、財(cái)務(wù)比率綜合分析法、信用度量分析模型[4].
本文基于部分線性可加模型[5],結(jié)合社會(huì)資本數(shù)據(jù)(如新浪微博),對(duì)淘寶賣家信用度進(jìn)行建模分析.在該模型中設(shè)計(jì)變量有28個(gè),包括好評(píng)率、差評(píng)率、退換貨速度、是否為微博達(dá)人等.本文探索了影響賣家信用的主要因素及其影響方式,即在模型主要部分中是以線性函數(shù)的方式還是非參數(shù)函數(shù)的方式呈現(xiàn).當(dāng)變量個(gè)數(shù)很多時(shí),可能會(huì)包括一些冗余的變量.變量選擇方法能夠去掉冗余變量,精簡(jiǎn)模型,從而提高模型預(yù)測(cè)的準(zhǔn)確性和模型的解釋性.
1996年,TIBSHIRANI[6]提出了一種新型的變量選擇方法,即Least absolute shrinkage and selection operator(Lasso).Lasso方法是一種基于懲罰范式的變量選擇方法,與現(xiàn)有變量選擇方法比較, Lasso 不僅能夠準(zhǔn)確地選擇出重要變量, 同時(shí)還具備變量選擇的穩(wěn)定性.Lasso方法能夠同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì),可適度壓縮參數(shù).文獻(xiàn)[7]探討了Lasso 方法用于高維度、強(qiáng)相關(guān)、小樣本的生存資料分析.近年來(lái),有些學(xué)者在Lasso算法的改進(jìn)上做了研究.2004年,EFRON等[8]提出了Least angle regression(Lar),該算法使得Lasso的計(jì)算更加簡(jiǎn)單,應(yīng)用更加廣泛.ZOU等[9]在2005年提出了Elastic Net,該方法能夠更好地處理變量數(shù)目p遠(yuǎn)遠(yuǎn)大于樣本容量n的情形,而且有較好的自變量分組效應(yīng).FAN等[10]于2001年提出了SCAD方法,該方法克服了Lasso有偏估計(jì)的缺點(diǎn),改善了其參數(shù)估計(jì)的一致性和變量選擇一致性. 2011年,何曉群等[11]提出了Adaptive Lasso 方法,該方法的自適應(yīng)性通過(guò)對(duì)不同系數(shù)采用不同程度的壓縮來(lái)實(shí)現(xiàn).
在對(duì)本文中的淘寶數(shù)據(jù)進(jìn)行分析時(shí),①剔除異常值、進(jìn)行相關(guān)性分析、多重共線性消除等預(yù)處理.②對(duì)數(shù)據(jù)使用多元線性回歸模型做擬合,由于變量個(gè)數(shù)過(guò)多,筆者使用了Lasso做變量選擇.遺憾的是,從擬合結(jié)果看線性模型擬合這組數(shù)據(jù)時(shí)有一些問(wèn)題,如賣家信用與關(guān)注人數(shù)呈負(fù)相關(guān),這與現(xiàn)實(shí)經(jīng)驗(yàn)不相符.③使用部分線性可加模型分析這組數(shù)據(jù),并且使用集群Lasso方法對(duì)影響賣家信用度的因素進(jìn)行選擇.從擬合結(jié)果看,該模型是充分的.
部分線性可加模型是一類應(yīng)用廣泛的半?yún)?shù)模型[5].其形式:
(1)
其中,Yi為被解釋變量,模型中有p+1個(gè)解釋變量{X0i,X1i,…,Xpi},其中X0i=1;q個(gè)解釋變量{Z1i,…,Zqi}.βk是線性部分的未知參數(shù),fk(.)是未知的光滑函數(shù),εi為均值為零的隨機(jī)誤差.為了保證模型中未知參數(shù)的可識(shí)別性,假設(shè)E{fk(Zki)}=0.為了方便估計(jì)fk(·),不妨設(shè){Z1i,…,Zqi}的支撐是[0,1].
其中,{tkj,j=1,…,pk}是第k個(gè)函數(shù)展開(kāi)時(shí)所用的節(jié)點(diǎn).
(2)
上述近似模型(2)的集群Lasso估計(jì)可以定義為如下極小化問(wèn)題的解:
(3)
Lasso方法通過(guò)選取不同的懲罰參數(shù)的值得到不同變量系數(shù)的組合,將其反應(yīng)到圖形中,即得到解路徑,從而看出變量進(jìn)入活動(dòng)變量的先后順序,并以此為依據(jù)對(duì)變量的重要性做出判斷. 模型(3)本質(zhì)上是一個(gè)最優(yōu)化問(wèn)題.在Lasso被提出的前幾年,因?yàn)槿鄙賹?duì)其高效求解的算法,所以一直沒(méi)有廣泛流行.直到Lars算法,使得Lasso的求解方便而快捷,從此Lasso相關(guān)的方法被廣泛的研究.文獻(xiàn)[8]指出,在一定條件下,Lar算法的解路徑與Lasso的解路徑一致,因而可以通過(guò)Lar算法來(lái)求解Lasso的解.求解算法大致上有2類,即坐標(biāo)下降方法(coordinate descent method)和近似梯度方法(proximal gradient method).對(duì)于模型(3)的求解直接利用組坐標(biāo)下降法即可,但是需要2層迭代的結(jié)構(gòu)才行,其中外層迭代為針對(duì)λ2懲罰部分的組坐標(biāo)下降算法,內(nèi)層迭代為針對(duì)λ1懲罰部分的坐標(biāo)下降算法.而另一種方法,近似梯度算法包括梯度方法、投影梯度法、ISTA算法和著名的稀疏優(yōu)化問(wèn)題求解軟件包SLEP(Sparse Learning with Efficient Projections)中的算法基本上都采用了近似梯度方法及其變形來(lái)求解.模型(3)中參數(shù)λ1,λ2的確定方法主要有交叉驗(yàn)證、廣義交叉驗(yàn)證和BIC準(zhǔn)則等.本文中采取交叉驗(yàn)證方法.
本研究于2015年4月份在淘寶網(wǎng)頁(yè)上隨機(jī)收集了299個(gè)淘寶商家和對(duì)應(yīng)每個(gè)商家的新浪微博信息.樣本收集區(qū)域覆蓋了14 個(gè)省.設(shè)淘寶網(wǎng)賣家信用度為因變量Y,協(xié)變量包括: 主營(yíng)占比(X1)、買家信用(X2)、最近半年好評(píng)數(shù)(X3)、最近半年中評(píng)數(shù)(X4)、最近半年差評(píng)數(shù)(X5)、半年前好評(píng)數(shù)(X6)、半年前中評(píng)數(shù)(X7)、半年前差評(píng)數(shù)(X8)、寶貝與描述相符(X9)、賣家服務(wù)態(tài)度(X10)、賣家發(fā)貨速度(X11)、平均退款速度(X12)、近30 d退款率(X13)、近30 d糾紛率(X14)、近30 d處罰數(shù)(X15)、月銷量(X16)、寶貝數(shù)(X17)、開(kāi)店時(shí)長(zhǎng)(X18)、保證金額度(X19)、淘字號(hào)(X20)、認(rèn)證信息(個(gè)人或企業(yè))(X21)、微博會(huì)員(X22)、微博達(dá)人(X23)、關(guān)注人數(shù)(X24)、粉絲數(shù)(X25)、微博數(shù)(X26)、活躍天數(shù)(X27)和當(dāng)前等級(jí)(X28)等共計(jì)28個(gè).其中,X20~X23是定性變量(本文中設(shè)為0,1變量),其他變量為定量變量.
首先刪除信用度過(guò)高,表現(xiàn)非常離群的賣家,剩下289個(gè)樣本.由于定量變量的單位不盡相同,需對(duì)這些變量對(duì)應(yīng)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.
圖1是賣家信用(因變量)的密度函數(shù)的圖像,深色線是基于核密度函數(shù)估計(jì)得到的,灰色圖是基于直方圖得到的.從圖1可見(jiàn),賣家信用的分布是有嚴(yán)重左偏的表現(xiàn),因而筆者在分析數(shù)據(jù)時(shí),對(duì)因變量做了對(duì)數(shù)變換,即Y=log(賣家信用).
圖1 賣家信用分布情況
使用線性回歸模型對(duì)賣家信用與最近半年好評(píng)數(shù)、賣家信用與半年以前好評(píng)數(shù)分別進(jìn)行擬合,結(jié)果見(jiàn)圖2,表1和表2.圖2可見(jiàn),淘寶網(wǎng)計(jì)算信用度的規(guī)則幾乎完全依賴于賣家信用與最近半年好評(píng)數(shù)(X3)、半年以前好評(píng)數(shù)(X6).表1和表2可見(jiàn),2個(gè)模型的決定系數(shù)R2分別為0.728和0.987時(shí),調(diào)整后的R2分別為0.727和0.987,且F-統(tǒng)計(jì)量都很大,分別為751.900、22 070.000,2模型的P值都小于0.05,可見(jiàn),模型顯著.故只用好評(píng)數(shù)(最近半年好評(píng)數(shù)或者半年以前好評(píng)數(shù))就可以很好模擬賣家信用.因而,賣家可以通過(guò)作弊行為獲得更多的好評(píng)數(shù).如果加入好評(píng)數(shù)變量來(lái)建立關(guān)于賣家信用的模型,所得結(jié)果就不能顯示其他因素對(duì)賣家信用的影響.因而在分析數(shù)據(jù)時(shí),先刪除X3和X6,再構(gòu)建模型.
圖2 最近半年好評(píng)數(shù)和半年以前好評(píng)數(shù)分別與賣家信用的散點(diǎn)圖
Fig.2 Plots of sellers’s credit and the number of good evaluations
表1 最近半年好評(píng)數(shù)和半年前好評(píng)數(shù)分別與賣家信用做線性回歸的結(jié)果
Table 1 The linear regression result of the sellers’s credit and the number of good evaluations
模型系數(shù)估計(jì)值標(biāo)準(zhǔn)誤t值P值1截距54340241802.2480.025*最近半年好評(píng)數(shù)4.5990.16827.420<2e-16**2截距824452211.5790.115半年以前好評(píng)數(shù)1.1680.008148.553<2e-16**
顯著準(zhǔn)則: 0‘***’ 0.001 ‘**’0.01 ‘*’ 0.05‘.’ 0.1‘ ’1
表2 模型的擬合優(yōu)度檢驗(yàn)表
若變量之間存在較高的相關(guān)性,所得擬合結(jié)果的可信度會(huì)大大降低.因而,應(yīng)找出變量與變量之間相關(guān)性較高的變量,將它們劃分為一組,再?gòu)母鹘M中找出一個(gè)代表性變量(各組中對(duì)賣家信用影響最大的因素).我們計(jì)算了所有變量的相關(guān)系數(shù)矩陣,發(fā)現(xiàn)“賣家服務(wù)態(tài)度”、“賣家發(fā)貨速度”、“寶貝與描述相符”之間的兩兩相關(guān)系數(shù)超過(guò)了0.9,故剔除了變量“賣家服務(wù)態(tài)度”;另外,微博數(shù)據(jù)中的“活躍天數(shù)”和“當(dāng)前等級(jí)”的相關(guān)系數(shù)高達(dá)0.97,因而刪除了“當(dāng)前等級(jí)”.數(shù)據(jù)經(jīng)過(guò)上面的預(yù)處理,最后剩下24個(gè)的變量.其中包括4個(gè)定性變量和20個(gè)定量變量.
首先使用線性模型對(duì)這組數(shù)據(jù)進(jìn)行分析,并且使用R軟件中的程序包Matrix,Grpreg和Ncvreg進(jìn)行變量選擇和擬合.最后輸出的結(jié)果就會(huì)得到Lasso方法的解路徑[6],見(jiàn)圖3.
圖3 解路徑圖
且各變量的系數(shù)估計(jì)見(jiàn)表3.
表3 24個(gè)變量對(duì)應(yīng)的系數(shù)
圖3和表3可見(jiàn),最近半年差評(píng)數(shù)、近30 d糾紛率、近30 d處罰數(shù)、月銷量、粉絲數(shù)、微博會(huì)員和微博數(shù)等7個(gè)變量的系數(shù)都為零,故只剩下17個(gè)變量,分別為主營(yíng)占比、買家信用、最近半年中評(píng)數(shù)、半年前中評(píng)數(shù)、半年前差評(píng)數(shù)、寶貝與描述相符、賣家發(fā)貨速度、平均退款速度、近30 d退款率、寶貝數(shù)、開(kāi)店時(shí)長(zhǎng)、保證金額度、淘字號(hào)、認(rèn)證信息、微博達(dá)人、關(guān)注人數(shù)和活躍天數(shù).
利用統(tǒng)計(jì)軟件R語(yǔ)言將這些變量與Y進(jìn)行簡(jiǎn)單的線性擬合,所得回歸分析結(jié)果分析見(jiàn)表4.
表4反映了置信水平在0.05以下的顯著變量有8個(gè),分別為:主營(yíng)占比、買家信用、最近半年中評(píng)數(shù)、平均退款速度、開(kāi)店時(shí)長(zhǎng)、淘字號(hào)、微博達(dá)人和活躍天數(shù);此時(shí)的殘差標(biāo)準(zhǔn)差為1.885,R2為0.749,調(diào)整的R2為0.734,F(xiàn)值較大,P值很小.然而以上結(jié)果反映了賣家信用與微博達(dá)人和關(guān)注人數(shù)呈負(fù)相關(guān),這與現(xiàn)實(shí)經(jīng)驗(yàn)不相符.
為了改善線性模型的擬合結(jié)果,筆者采用如下部分線性可加模型:
賣家信用=β0+β1*淘字號(hào)+β2*認(rèn)證信息+β3*微博會(huì)員+β4*微博達(dá)人+f1(主營(yíng)占比)+f2(買家信用)+f3(最近半年中評(píng)數(shù))+f4(最近半年差評(píng)數(shù))+f5(半年以前中評(píng)數(shù))+f6(半年以前差評(píng)數(shù))+f7(寶貝與描述相符)+f8(賣家發(fā)貨速度)+f9(平均退款速度)+f10(近30 d退款率)+f11(近30 d糾紛率)+f12(近30 d處罰數(shù))+f13(月銷量)+f14(寶貝數(shù))+f15(開(kāi)店時(shí)長(zhǎng))+f16(保證金額度)+f17(關(guān)注人數(shù))+f18(粉絲數(shù))+f19(微博數(shù))+f20(活躍天數(shù))+ε(其中E(ε|X)=0).
筆者使用統(tǒng)計(jì)軟件R軟件中的“mgcv”包實(shí)現(xiàn)部分線性可加模型擬合,所得回歸分析結(jié)果見(jiàn)表5.
表4 回歸分析結(jié)果
自由度為271的殘差標(biāo)準(zhǔn)誤=1.885;多元R2=0.749;調(diào)整R2=0.734;自由度是17和271的F值=47.65;P值<2.2e-16.
顯著準(zhǔn)則: 0‘**’ 0.001 ‘**’0.01 ‘*’ 0.05‘.’ 0.1‘ ’1.
表5可見(jiàn),置信水平在水平0.05下時(shí),顯著的變量總共10個(gè),其中線性部分有4個(gè),分別是淘字號(hào)、 近30 d退款率、月銷量和活躍天數(shù);非參數(shù)部分有6個(gè),分別為主營(yíng)占比、最近半年中評(píng)數(shù)、賣家發(fā)貨速度、平均退款速度、寶貝數(shù)和開(kāi)店時(shí)長(zhǎng).上面結(jié)果顯示調(diào)整R2=0.877,調(diào)整R2=0.895,說(shuō)明模型有良好的解釋能力.另外,部分線性可加模型得到的結(jié)果與簡(jiǎn)單線性模型相比更符合現(xiàn)實(shí)情況.比如說(shuō),對(duì)商家信用度有影響的因素——開(kāi)店時(shí)長(zhǎng).開(kāi)店的時(shí)間長(zhǎng)短能反映出商家的信譽(yù)好壞,反過(guò)來(lái),只有商家信譽(yù)好,得到顧客的信賴,店家才能長(zhǎng)期地經(jīng)營(yíng)下去.因此,建議購(gòu)買者在網(wǎng)上購(gòu)買商品時(shí),可以通過(guò)參考開(kāi)店時(shí)間這個(gè)指標(biāo)來(lái)判斷哪家商品質(zhì)量更加可靠,這樣更容易在網(wǎng)上淘到滿意的商品.當(dāng)然,除了開(kāi)店時(shí)長(zhǎng),還可以參考月銷量、寶貝數(shù)、店家新浪微博、活躍天數(shù)和店家是否有淘字號(hào)等指標(biāo)來(lái)判斷哪個(gè)商家最可靠,而不像以往那樣僅僅參考好評(píng)數(shù)而被商家欺騙.
表5 部分線性可加模型回歸分析結(jié)果
Table 5 The partically linear additive model regression analysis
參數(shù)系數(shù)估計(jì)值標(biāo)準(zhǔn)誤t值P值截距8.8780.15656.897<2e-16**淘字號(hào)0.8080.2373.4110.001**認(rèn)證信息-0.1230.227-0.5420.588微博會(huì)員-0.1780.217-0.8180.414微博達(dá)人-0.4500.286-1.5710.117買家信用0.0870.0900.9670.334最近半年差評(píng)數(shù)0.0600.4930.1220.903半年前中評(píng)數(shù)0.4970.3131.5900.113半年前差評(píng)數(shù)0.1790.3600.4970.619寶貝與描述相符-0.0930.186-0.5000.618近30d退款率-0.1940.084-2.3040.022*近30d糾紛率0.0580.0840.6900.491近30d處罰數(shù)-0.1340.081-1.6560.099月銷量-0.5350.268-1.9910.048*保證金額度-0.1200.097-1.2370.217關(guān)注人數(shù)-0.1190.088-1.3590.175微博數(shù)0.0170.1000.1660.868活躍天數(shù)0.6990.1335.2523.26e-07**顯著的光滑項(xiàng)估計(jì)值自由度參考自由度F值P值主營(yíng)占比5.34482.0640.00479**最近半年中評(píng)數(shù)7.172811.4326.87e-16**賣家發(fā)貨速度4.44686.6095.68e-11**平均退款速度3.53288.5147.03e-15**寶貝數(shù)1.20180.5830.02542*開(kāi)店時(shí)長(zhǎng)3.677810.236<2e-16**
調(diào)整R2=0.877;離差解釋能力=89.5%;廣義交叉驗(yàn)證值=1.926;尺度參數(shù)=1.637;n=289.
顯著準(zhǔn)則: 0‘**’ 0.001 ‘**’0.01 ‘*’ 0.05‘.’ 0.1‘ ’1.
模型可以精簡(jiǎn)為
賣家信用=8.878 41+0.807 87*淘字號(hào)-0.194 05*近30 d退款率-0.534 52*月銷量+0.699 13*活躍天數(shù)+f1(主營(yíng)占比)+f2(最近半年中評(píng)數(shù))+f3(賣家發(fā)貨速度)+f4(平均退款速度) +f5(寶貝數(shù))+f6(開(kāi)店時(shí)長(zhǎng)) +ε.
以下為非參數(shù)部分相應(yīng)函數(shù)的擬合及其置信帶的圖(圖4).
圖4可見(jiàn),非參數(shù)部分中“主營(yíng)占比” 呈現(xiàn)上下波動(dòng)的形式; “最近半年中評(píng)數(shù)”先呈現(xiàn)上下波動(dòng),后呈現(xiàn)上升的趨勢(shì);“賣家發(fā)貨速度”是先上升后下降,再上升,最后呈現(xiàn)下降的趨勢(shì);“寶貝數(shù)”對(duì)賣家信用的影響是上升的趨勢(shì);而“平均退款速度”和“開(kāi)店時(shí)長(zhǎng)”是先上升后下降的趨勢(shì).
圖4 非參數(shù)部分相應(yīng)函數(shù)的擬合及其置信帶
圖5是擬合后的殘差結(jié)果.
圖5 擬合值
部分線性可加模型殘差圖的點(diǎn)的分布比較均勻,沒(méi)有明顯的趨勢(shì),與線性模型相比,擬合效果有明顯的提高.
基于淘寶網(wǎng)信息和淘寶商家的新浪微博信息,本文使用部分線性可加模型,深入探討了對(duì)淘寶賣家信用度的影響因素,發(fā)現(xiàn)對(duì)淘寶信用度有顯著影響的因素有10個(gè).其中,與賣家信用呈線性關(guān)系的變量是淘字號(hào)、 近30 d退款率、月銷量和活躍天數(shù);呈非線性的變量是主營(yíng)占比、最近半年中評(píng)數(shù)、賣家發(fā)貨速度、平均退款速度、寶貝數(shù)和開(kāi)店時(shí)長(zhǎng).由此,可以知道影響淘寶買家信用的因素:主營(yíng)占比、最近半年中評(píng)數(shù)、賣家發(fā)貨速度、平均退款速度、寶貝數(shù)、開(kāi)店時(shí)長(zhǎng)、淘字號(hào)、 近30 d退款率、月銷量和活躍天數(shù).因此,建議顧客在網(wǎng)上購(gòu)物時(shí)可以通過(guò)參考商家的這些指標(biāo),去判斷哪個(gè)商家更加可靠.例如,如果顧客要買的商品在該家淘寶店的主營(yíng)占比較大,該商家開(kāi)店時(shí)間較長(zhǎng),且有淘字號(hào)的標(biāo)志、寶貝數(shù)較多和保證金額較高等特征,那么可以認(rèn)為該商家信用度較好,可以考慮在該商店購(gòu)買該商品.
此外,活躍天數(shù)這個(gè)變量對(duì)賣家信用有正的影響,近30 d退款率有負(fù)的影響.由此可見(jiàn),如果該淘寶商家的新浪微博的上線活躍次數(shù)較多,說(shuō)明賣家服務(wù)更加周到,也更加靠譜.如果該店鋪退款率較少,可以推測(cè)商品質(zhì)量較好,得到顧客的認(rèn)可,因此,該賣家的信用度也會(huì)相對(duì)較高.
本文所研究的方法和思路雖然比較科學(xué),但也有需要改進(jìn)的空間.例如,需要擴(kuò)大對(duì)淘寶商家信用度有影響的因素范圍和綜合考慮買家的評(píng)論內(nèi)容等.另外,因?yàn)橘I家評(píng)論雖然對(duì)賣家信用有一定的影響,但難保沒(méi)有作假的可能,所以也應(yīng)對(duì)這個(gè)因素做一些處理.
為更深入地挖掘淘寶賣家信用的影響因素,只是收集一次數(shù)據(jù)是不夠的.在未來(lái)的研究中,計(jì)劃按月份跟蹤收集相關(guān)淘寶賣家的數(shù)據(jù),使用縱向數(shù)據(jù)模型分析該組數(shù)據(jù).隨著數(shù)據(jù)的豐富,所得研究結(jié)果會(huì)更可靠.
[1] 吳培紅.淘寶網(wǎng)賣家信譽(yù)影響因素研究[D].天津: 河北工業(yè)大學(xué),2011.
WU P H. The research of taobao sellers’ reputation affecting factors[D]. Tianjin: Hebei University of Technology, 2011.
[2] 劉博.淘寶網(wǎng)商的信用評(píng)價(jià)模型研究[D].北京:對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué),2009.
LIU B. The research of taobao credit evaluation model[D]. Beijing: Foreign Economic and Trade University,2009.
[3] 孔松泉.基于銀行微觀信貸風(fēng)險(xiǎn)管理的理論與方法研究[D].南京:東南大學(xué),2002.
KONG S Q. Study on the theory and method of the micro credit risk management of banks[D]. Nanjing: Southeast University, 2002.
[4] 陳珺.基于灰色多層次評(píng)價(jià)方法的中小企業(yè)信用評(píng)級(jí)研究[D].南昌:南昌大學(xué),2010.
CHEN J. On the multi-level gray evaluation method of the small and medium-sized enterprise credit rating research[D]. Nanchang: Nanchang University, 2010.
[5] CUI X, WEN S Q, PENG H, et al. Component selection in the additive regression model[J]. Scandin J Stat, 2013, 40(3): 491-510.
[6] TIBSHIRAN R. Regression shrinkage and selection via the lasso[J]. J Royal Stat Soc Ser B,1996,58(1): 267-288.
[7] 閆麗娜,覃婷,王彤. LASSO 方法在 Cox 回歸模型中的應(yīng)用[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì),2012, 29(1):58-64.
YAN L N, QIN T, WANG T. The application of Lasso method in the Cox regression model[J]. China Health Stat, 2012,29(1).
[8] EFRON B, HASTIE T, JOHNSTONE I, et al. Least angle regression[J].J Math Stat, 2004, 32(2):407-499.
[9] ZOU H, TREVOR H. Regularization and variable selection via the elastic net[J].J Royal Stat Soc, 2005,67(2):301-320.
[10]FAN J, LI R. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. J Am Statist Ass, 2001, 96(456): 1348-1360.
[11]何曉群,劉文卿.應(yīng)用回歸分析[M].3版. 北京:中國(guó)人民大學(xué)出版社,2011.
HE X Q, LIU W Q. The application of regression analysis[M]. 3rd ed. Beijing: Chinese University Press, 2011.
[12]MAMMEN E, VAN D G S. Penalized quasi-likelihood estimation in partial linear models[J]. Ann Statist, 1997,25(3): 1014-1035.
【責(zé)任編輯: 陳 鋼】
Taobao sellers credit evaluation based on mass data
MAIJi-fang,CUIXia
(School of Economic & Statistics, Guangzhou University, Guangzhou 510006, China)
In this paper, we model the credit of Taobao seller based on the partially linear additive model and social communication data (such as Sina weibo). To control the impact of “good evaluation”, we do not use it in our model. First, we delete the noisy data and the related variables which result in multicollinearity. A natural choice is to use linear model to fit the data, however, we find that linear model is not adequate. Then we apply the partially linear additive model to analyze the data, and it indicates that this model performs better than traditional linear model.
partially linear additive model; mass data; semiparametric model; Lasso; R language
2016-05-03;
2016-05-16
麥繼芳(1991-),女,碩士研究生.E-mail:1542178467@qq.com
1671- 4229(2016)05-0035-07
O 212
A