吳才琴
福建警察學(xué)院,福建 福州 350007
刷單行為是指商家的虛假交易行為,一般是由商家通過付費(fèi)給刷單手或刷單軟件的經(jīng)營者,批量生成虛假交易記錄和用戶評價(jià),從而提高銷量數(shù)據(jù)和信譽(yù)度,進(jìn)而提高網(wǎng)店的搜索排名。在眾多同業(yè)、同行的激烈競爭中,為了爭取更多消費(fèi)者的關(guān)注和成交機(jī)會(huì),部分電商選擇通過刷單行為提高網(wǎng)店在電商平臺上的搜索排名,既誤導(dǎo)消費(fèi)者,又損害同業(yè)競爭者的合法權(quán)利。刷單這一虛假交易行為,違反了《網(wǎng)絡(luò)交易管理辦法》第十四、十九、五十三條[1]及《中華人民共和國反不正當(dāng)競爭法》第二十四條的規(guī)定[2]。近年來,刷單這一違法行為已經(jīng)引起市場監(jiān)管、公安及其他相關(guān)部門的重視。如今年伊始,市場監(jiān)管總局在全國范圍內(nèi)加大對網(wǎng)絡(luò)不正當(dāng)競爭行為監(jiān)管力度,嚴(yán)厲打擊“刷單炒信”、虛假宣傳等不正當(dāng)競爭行為,截至上半年,共查辦各類不正當(dāng)競爭案件3128件[3]。
在相關(guān)部門如公安部門打擊刷單行為的過程中,對刷單行為的研判是關(guān)鍵環(huán)節(jié),然而刷單行為具有極大的隱蔽性,除了物流包裹是空包裹,其他交易記錄、商品評價(jià)和物流信息均由電商平臺和物流平臺真實(shí)生成,因此當(dāng)消費(fèi)者、電商平臺和相關(guān)監(jiān)督管理部門面對電商平臺上的海量數(shù)據(jù)時(shí),難以對刷單行為進(jìn)行全面而系統(tǒng)的人工研判。本文基于數(shù)據(jù)治理的思想,通過本福特統(tǒng)計(jì)學(xué)定律對電商的大量銷售和評價(jià)數(shù)據(jù)進(jìn)行檢測,為今后公安及相關(guān)部門針對刷單行為的大數(shù)據(jù)治理及相關(guān)案件的電子物證痕跡偵測提供參考。
本福特定律又稱為“首位數(shù)字定律”。它是指當(dāng)統(tǒng)計(jì)數(shù)據(jù)足夠多時(shí),開頭數(shù)字是1的數(shù)據(jù)最多,大約占了所有數(shù)據(jù)的1/3,開頭數(shù)字是2的數(shù)據(jù)其次,往后依此減少[4]。該定律通常用于財(cái)務(wù)審計(jì)、金融、選舉投票、人口統(tǒng)計(jì)、實(shí)驗(yàn)數(shù)據(jù)等方面的異常和規(guī)律的檢測,為查處造假和舞弊提供依據(jù)。
根據(jù)本福特定律首位數(shù)字d的概率公式[4]可以開發(fā)出用于檢測數(shù)據(jù)造假的程序。目前,相關(guān)程序有在線測試和可供下載的xls、VBA等形式。這些程序通常要求輸入待檢的數(shù)據(jù)為十進(jìn)制,且待測數(shù)據(jù)達(dá)到足夠數(shù)量,統(tǒng)計(jì)學(xué)理論上要求3000個(gè)以上為佳,數(shù)據(jù)量越大判斷結(jié)果越準(zhǔn)確,因此適合于對大數(shù)據(jù)進(jìn)行初步檢測。在實(shí)際操作中,這些程序通常僅要求輸入30個(gè)以上數(shù)據(jù),以超過100個(gè)為宜。人為編造的大數(shù)據(jù)不符合本福特定律,如按一定規(guī)則生成的價(jià)格、電話號碼、郵政編碼等,因此將人為編造的大數(shù)據(jù)輸入本福特檢驗(yàn)程序,輸出結(jié)果將顯示不能通過驗(yàn)證,由此可以判斷數(shù)據(jù)是自然生成還是人為編造。相關(guān)程序輸出結(jié)果通常為曲線圖形式,當(dāng)數(shù)據(jù)不符合本福特定律時(shí),輸出曲線會(huì)明顯偏離標(biāo)準(zhǔn)曲線。此外,還有一些檢驗(yàn)程序會(huì)進(jìn)一步通過KS檢驗(yàn)、Z檢驗(yàn)和余弦相似性檢驗(yàn)直接輸出檢測結(jié)果是真是假。通常KS檢驗(yàn)、Z檢驗(yàn)過于嚴(yán)格,數(shù)據(jù)量沒有達(dá)到數(shù)學(xué)理論值或有些許偏差就會(huì)被判定為不符合本福特定律。所以當(dāng)數(shù)據(jù)量較少、影響因素較多時(shí),這兩種檢驗(yàn)結(jié)果只能作為參考,建議結(jié)合余弦相似性檢驗(yàn)結(jié)果綜合判斷[5]。
電商平臺上有海量的公開數(shù)據(jù),這些數(shù)據(jù)可能成為證明刷單行為的電子物證。數(shù)據(jù)的海量性不僅體現(xiàn)在數(shù)據(jù)量的巨大,也體現(xiàn)在數(shù)據(jù)的多樣性,如電商平臺上有評價(jià)日期、追評數(shù)目、銷量、成交量、評價(jià)者昵稱、評價(jià)字?jǐn)?shù)、評價(jià)圖片數(shù)目、評價(jià)詞匯和圖片的相似度等多維度的數(shù)據(jù)。本文基于易于獲得、便于統(tǒng)計(jì)的原則,篩選出了評價(jià)日期和銷量數(shù)據(jù)這兩組具有檢驗(yàn)價(jià)值的數(shù)據(jù)進(jìn)行檢測。
隨機(jī)選擇淘寶自動(dòng)推薦的一款手機(jī)殼(該款手機(jī)上架時(shí)間短,價(jià)格沒有明顯波動(dòng),手機(jī)殼銷售也不受季節(jié)影響且數(shù)據(jù)時(shí)間僅選擇一個(gè)月之內(nèi)的短跨度,盡量減少了波動(dòng)),將最近一個(gè)月的用戶評價(jià)日期(共計(jì)200條,日期選用淘寶顯示的“X天前”中的X值末兩位數(shù),即數(shù)值范圍在0~29)輸入本福特定律.xls格式檢測程序,輸出結(jié)果如圖1所示,檢測程序判斷數(shù)據(jù)不符合本福特定律,余弦相似性約為0.86,相似程度分值為0,其中,評價(jià)日期尾數(shù)為1、4、5的小數(shù)值占比與本福特分布的標(biāo)準(zhǔn)值偏差較大,且尾數(shù)為1的評價(jià)日期占比顯著低于標(biāo)準(zhǔn)值。
圖1 某款手機(jī)殼用戶評價(jià)日期的本福特定律檢測結(jié)果
作為對照,選擇手機(jī)在天貓官網(wǎng)的評價(jià)日期(官網(wǎng)評價(jià)僅有78條)進(jìn)行測評,結(jié)果如圖2所示。檢測程序判斷數(shù)據(jù)不符合本福特定律,但余弦相似性約為0.89,在數(shù)據(jù)量遠(yuǎn)小于圖1的情況下,手機(jī)評價(jià)的余弦相似性仍高于上述手機(jī)殼,相似程度分值為0。其中,評價(jià)日期尾數(shù)為1、2、3、4的小數(shù)值占比與本福特分布的標(biāo)準(zhǔn)值偏差較大,且尾數(shù)為1、2的評價(jià)日期占比顯著高于標(biāo)準(zhǔn)值。
圖2 某款手機(jī)天貓官網(wǎng)用戶評價(jià)日期的本福特定律檢測結(jié)果
隨機(jī)選擇一款淘寶推薦的熱銷女裝,打開該款女裝的售賣網(wǎng)店,將該店所有商品按銷量排序,記錄成交量千位和百位兩位數(shù)字,共計(jì)199組數(shù)據(jù),可得到如圖3所示的本福特定律檢測結(jié)果。雖然檢測程序判斷數(shù)據(jù)不符合本福特定律,但余弦相似性約為0.94,相似程度分值為43,成交量尾數(shù)為1的數(shù)字占比顯著高于本福特分布標(biāo)準(zhǔn)值,其它數(shù)值分布的誤差均在5%左右。
圖3 某網(wǎng)紅女裝店月成交量的本福特定律檢測結(jié)果
再選擇一家曾經(jīng)因虛假宣傳某品牌女包而下架該品牌箱包類產(chǎn)品的電商。該電商雖然不再售賣某品牌女包,而是改賣其他女性用品,但依舊經(jīng)常被淘寶平臺強(qiáng)力推廣其直播間,在其直播間,可以發(fā)現(xiàn)同一件商品月銷量數(shù)據(jù)顯示上萬件,而真正付款的只有600多件,雖然這種顯著異常情況在該網(wǎng)店所有在售商品中占比不高,但仍可以在本福特定律檢測結(jié)果中體現(xiàn)出來,如圖4所示。檢測結(jié)果顯示該店所有在售商品月成交量的余弦相似性僅約為0.83,相似程度分值為0,成交量尾數(shù)為1、2、5、6的數(shù)字占比均與本福特分布標(biāo)準(zhǔn)值相差較大,其中,成交量尾數(shù)為1的數(shù)值顯著低于標(biāo)準(zhǔn)值。
圖4 某直播網(wǎng)店月成交量的本福特定律檢測結(jié)果
通過檢驗(yàn)其他類型網(wǎng)紅和天貓電商數(shù)據(jù),發(fā)現(xiàn)結(jié)果和上述4例相似,即應(yīng)用本福特定律可以初步檢測電商的銷售量和評價(jià)數(shù)據(jù)是否異常,檢測結(jié)果最好根據(jù)余弦相似性及尾數(shù)為1的數(shù)據(jù)占比是否低于本福特標(biāo)準(zhǔn)值進(jìn)行評價(jià)。關(guān)于余弦相似性用于判斷真假的數(shù)值,應(yīng)通過大量計(jì)算同類商家的數(shù)據(jù)后進(jìn)行選擇判斷。如果能結(jié)合商家的銷量和成交量之間的差異綜合考慮,評價(jià)結(jié)果將更有證明力。此外,還要注意考量數(shù)據(jù)量及某些商品受季節(jié)性降價(jià)促銷時(shí)段等可能的影響因素。
目前,常見的本福特定律檢測程序在刷單行為方面的檢測還不夠準(zhǔn)確和智能,不能給出適合大多數(shù)網(wǎng)店銷量和評價(jià)值的擬合結(jié)果,只能人工通過對比同類商家進(jìn)行初步判斷。此外,一旦該檢測方法被廣泛應(yīng)用,不法商家完全有可能通過編輯算法,自動(dòng)生成符合本福特定律的大批量數(shù)據(jù),實(shí)現(xiàn)符合統(tǒng)計(jì)學(xué)規(guī)律的刷單造假。
本福特定律檢測程序可以方便快捷地檢測電商銷量和評價(jià)數(shù)據(jù)的異常,對電商平臺的數(shù)據(jù)質(zhì)量進(jìn)行初步研判,為相關(guān)案件的電子物證痕跡檢測提供依據(jù),且所檢測數(shù)據(jù)均為公開性質(zhì)的,不侵犯隱私權(quán),相關(guān)部門可以合法地大批量獲得,為實(shí)現(xiàn)大數(shù)據(jù)治理刷單行為提供借鑒和參考。常見的本福特定律檢測程序在KS和Z檢驗(yàn)上設(shè)定過于嚴(yán)格,不符合大多數(shù)網(wǎng)店正常銷售的實(shí)情,必須通過余弦相似性結(jié)果及尾數(shù)為1的數(shù)據(jù)占比進(jìn)行綜合判斷。另外,相似程度分值和數(shù)據(jù)組數(shù)通常不產(chǎn)生根本性影響。本福特定律檢測程序的編程人員可以進(jìn)一步改進(jìn)程序設(shè)計(jì),使之更適合刷單行為的智能化檢測,便于相關(guān)部門利用大數(shù)據(jù)對不法交易行為進(jìn)行更精準(zhǔn)的研判和處置,實(shí)現(xiàn)對電商平臺生態(tài)環(huán)境的大數(shù)據(jù)治理。