国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

易逝品在線銷售數(shù)據(jù)的稀疏性問(wèn)題及處理

2023-01-09 01:41吳宇平
統(tǒng)計(jì)理論與實(shí)踐 2022年12期
關(guān)鍵詞:銷售價(jià)格銷售收入置信度

吳宇平 李 磊

(新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,新疆 烏魯木齊 830000)

一、引言

隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的高速發(fā)展,數(shù)據(jù)量迅猛增長(zhǎng),數(shù)據(jù)形式越來(lái)越多樣化。其中,稀疏數(shù)據(jù)這一特殊形式的數(shù)據(jù)成為研究者越來(lái)越關(guān)注的話題。稀疏數(shù)據(jù)絕對(duì)不是無(wú)用的數(shù)據(jù),只是信息不完全的數(shù)據(jù),通過(guò)適當(dāng)?shù)募夹g(shù)方法,可以從中挖掘出所需的有效信息[1]。

稀疏數(shù)據(jù)廣泛存在于各種應(yīng)用場(chǎng)景中。應(yīng)用場(chǎng)景不同,稀疏數(shù)據(jù)表現(xiàn)出的特點(diǎn)不同,適用的稀疏性處理方法也不同。根據(jù)數(shù)據(jù)表現(xiàn)出的特點(diǎn),可將稀疏數(shù)據(jù)分為三種類型:

第一種類型的稀疏數(shù)據(jù)指由于某些原因?qū)е缕渲幸徊糠謹(jǐn)?shù)據(jù)值缺失的數(shù)據(jù),也稱為缺失數(shù)據(jù)[2]。例如,在數(shù)據(jù)收集的過(guò)程中,采用不恰當(dāng)?shù)挠^測(cè)手段或錄入數(shù)據(jù)時(shí)發(fā)生錯(cuò)誤,導(dǎo)致在問(wèn)卷調(diào)查、醫(yī)學(xué)研究、社會(huì)經(jīng)濟(jì)研究及其他科學(xué)研究中經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)缺失的現(xiàn)象,使信息被遺漏。Tutz 和Ramzan(2015)[3]針對(duì)高維的缺失數(shù)據(jù),提出了基于距離的加權(quán)最近鄰插補(bǔ)法。針對(duì)缺失數(shù)據(jù)較多的情況,Silv 和Perera(2016)[4]提出了進(jìn)化KNN 插補(bǔ)法。Galan 和Lasheras 等(2017)[5]基于遺傳算法,提出適用于測(cè)試和問(wèn)卷的缺失數(shù)據(jù)處理方法。

第二種類型的稀疏數(shù)據(jù)指數(shù)據(jù)本身不存在缺失,但可利用的有效數(shù)據(jù)不足[6]。例如,在亞馬遜或YouTube的推薦系統(tǒng)中,產(chǎn)品數(shù)量非常龐大,但網(wǎng)站上較活躍的用戶群只對(duì)其中不到1%的產(chǎn)品有過(guò)消費(fèi)記錄,所以推薦系統(tǒng)可利用的消費(fèi)記錄數(shù)據(jù)非常稀少。數(shù)據(jù)的稀疏性問(wèn)題會(huì)對(duì)推薦結(jié)果的準(zhǔn)確性產(chǎn)生影響。對(duì)此,王喜智[6]提出了結(jié)合巴氏距離與雅克比距離的稀疏數(shù)據(jù)用戶相似度模型,以提高推薦質(zhì)量。在商品的最優(yōu)定價(jià)研究中,針對(duì)歷史銷售數(shù)據(jù)中可利用的有效數(shù)據(jù)點(diǎn)較少的問(wèn)題,Bauer 和Jannach(2018)[7]采用BootStrap 和核回歸相結(jié)合的稀疏性處理方法來(lái)估計(jì)一個(gè)價(jià)格點(diǎn)是否是最優(yōu)的概率。

第三種類型的稀疏數(shù)據(jù)指具有稀疏分布特性的數(shù)據(jù),即數(shù)據(jù)的分布是稀疏的。例如,大氣腐蝕數(shù)據(jù)的分布是嚴(yán)重稀疏的,其絕大部分?jǐn)?shù)據(jù)集中在ISO 9223:1992(E)中少數(shù)等級(jí)上,數(shù)據(jù)分布嚴(yán)重不均,李志平和付冬梅等(2016)[8]針對(duì)大氣腐蝕等級(jí)數(shù)據(jù)的稀疏分布特性,提出了一種基于稀疏數(shù)據(jù)歸約的CMAC大氣腐蝕數(shù)據(jù)補(bǔ)償方法。李穩(wěn)和劉伊克等(2016)[9]針對(duì)井下微震監(jiān)測(cè)數(shù)據(jù)的稀疏分布特征,提出將圖像處理領(lǐng)域適宜稀疏分布信號(hào)降噪處理的稀疏碼收縮方法應(yīng)用于井下微震監(jiān)測(cè)數(shù)據(jù)處理。時(shí)空數(shù)據(jù)的稀疏分布是當(dāng)前大數(shù)據(jù)挖掘面臨的普遍問(wèn)題,程詩(shī)奮和彭澎等(2020)[10]針對(duì)地理時(shí)空數(shù)據(jù)的稀疏分布特性,提出了時(shí)空數(shù)據(jù)重構(gòu)解決方案。

在電子商務(wù)領(lǐng)域,受季節(jié)、特殊節(jié)日、需求不確定性以及商品自身特性等多種因素的影響,收集到的易逝品在線銷售數(shù)據(jù)常常具有稀疏性,給易逝品的定價(jià)研究帶來(lái)一定困難。為了從易逝品在線銷售數(shù)據(jù)中挖掘出關(guān)于最優(yōu)價(jià)格的有效信息,為易逝品定價(jià)提供決策支持,本文圍繞易逝品在線銷售數(shù)據(jù)的稀疏性問(wèn)題展開研究,根據(jù)易逝品在線銷售數(shù)據(jù)表現(xiàn)出的稀疏性特點(diǎn),將適宜于此類稀疏性問(wèn)題處理的BootStrap 和核回歸相結(jié)合的方法應(yīng)用于易逝品在線銷售數(shù)據(jù)處理。

二、易逝品在線銷售數(shù)據(jù)的稀疏性問(wèn)題

為展現(xiàn)易逝品在線銷售數(shù)據(jù)的稀疏性,本文選用李磊和宋建偉(2020)[11]使用的數(shù)據(jù)集中的部分?jǐn)?shù)據(jù),并對(duì)其進(jìn)行描述性統(tǒng)計(jì)分析。該數(shù)據(jù)集是大棗、葡萄干、巴旦木3 種新疆特色農(nóng)產(chǎn)品的相關(guān)數(shù)據(jù),主要通過(guò)Python 網(wǎng)絡(luò)爬蟲程序和人工抓取相結(jié)合的方法從淘寶和天貓平臺(tái)獲得。從2018年4月6日到2018年10月27日,每3 天收集一次數(shù)據(jù),共69 個(gè)觀測(cè)時(shí)點(diǎn)。

本文選取規(guī)格為500g 的大棗作為研究對(duì)象。首先,選取該規(guī)格大棗的觀測(cè)時(shí)間、銷售價(jià)格和銷售量3個(gè)變量;其次,用銷售價(jià)格乘以相應(yīng)的銷售量得到銷售收入,由于數(shù)據(jù)集中各銷售量觀測(cè)值指的是近30 天的銷量,故這里計(jì)算得到的各銷售收入值也是近30 天的收入;最后,將該易逝品的銷售價(jià)格、觀測(cè)時(shí)間(即銷售價(jià)格保持不變的時(shí)長(zhǎng))、銷售量、銷售收入4個(gè)變量對(duì)應(yīng)的共2546 條數(shù)據(jù)作為本文的數(shù)據(jù)集,該數(shù)據(jù)集中各變量的描述性統(tǒng)計(jì)見表1。

表1 數(shù)據(jù)的描述性統(tǒng)計(jì)

由表1可知,銷售價(jià)格在11.80—49.90 元之間變動(dòng);銷售價(jià)格保持不變的時(shí)長(zhǎng)在9.00—204.00 天之間變動(dòng),銷售價(jià)格保持不變的平均時(shí)長(zhǎng)為85.92 天,中位數(shù)為85.50 天,其平均值和中位數(shù)均接近3 個(gè)月。

圖1是各銷售價(jià)格保持不變的時(shí)長(zhǎng)的頻數(shù)分布直方圖,橫坐標(biāo)表示銷售價(jià)格保持不變的時(shí)長(zhǎng),縱坐標(biāo)表示頻數(shù),可以看出,各銷售價(jià)格保持不變的時(shí)長(zhǎng)長(zhǎng)短不一,最長(zhǎng)的時(shí)長(zhǎng)達(dá)到了204 天。由于易逝品的價(jià)值會(huì)隨時(shí)間的增加逐漸減少,從而導(dǎo)致消費(fèi)者的購(gòu)買欲望下降,因此易逝品銷售價(jià)格的變動(dòng)相較于其他商品理應(yīng)更為頻繁,即隨著時(shí)間的增加,商家可適當(dāng)調(diào)整銷售價(jià)格,以適應(yīng)不斷變化的市場(chǎng)需求,實(shí)現(xiàn)利潤(rùn)最大化。但從表1和圖1可以看出,本文研究所選取的易逝品的在線銷售數(shù)據(jù)具有價(jià)格長(zhǎng)時(shí)間保持不變的特點(diǎn),即價(jià)格變動(dòng)并不頻繁。若要對(duì)某商家的商品進(jìn)行動(dòng)態(tài)定價(jià)研究,可利用的價(jià)格數(shù)據(jù)點(diǎn)較少,該特點(diǎn)與第二種類型稀疏數(shù)據(jù)的特點(diǎn)一致。

圖1 銷售價(jià)格保持不變的時(shí)長(zhǎng)的頻數(shù)分布直方圖

圖2是銷售價(jià)格-平均銷售收入散點(diǎn)圖,橫坐標(biāo)表示銷售價(jià)格,縱坐標(biāo)表示平均銷售收入,銷售價(jià)格對(duì)應(yīng)的平均銷售收入指該價(jià)格保持不變的時(shí)長(zhǎng)內(nèi),所觀測(cè)到的銷售收入的平均值。圖中水平虛線代表所有銷售價(jià)格對(duì)應(yīng)的平均銷售收入的均值,從圖中可以看出:大部分的點(diǎn)分布在虛線附近,平均銷售收入隨銷售價(jià)格變化的趨勢(shì)和規(guī)律并不明顯。表現(xiàn)銷售價(jià)格如何影響平均銷售收入的有效數(shù)據(jù)點(diǎn)較少,該特點(diǎn)與第二種類型稀疏數(shù)據(jù)的特點(diǎn)一致。

從圖2還可以看出,區(qū)間(10,20)內(nèi)有16 個(gè)價(jià)格點(diǎn)、區(qū)間(20,30)內(nèi)有18 個(gè)價(jià)格點(diǎn)、區(qū)間(30,40)內(nèi)有13 個(gè)價(jià)格點(diǎn),而區(qū)間(40,50)內(nèi)只有3 個(gè)價(jià)格點(diǎn)。(10,20)、(20,30)、(30,40)3 個(gè)區(qū)間內(nèi)的價(jià)格點(diǎn)數(shù)量較為接近,均在10 以上,而(40,50)內(nèi)的價(jià)格點(diǎn)數(shù)量與前3 個(gè)區(qū)間相比差距較大,且區(qū)間(10,20)、(20,30)、(30,40)內(nèi)的點(diǎn)較密集,而區(qū)間(40,50)內(nèi)的點(diǎn)非常稀疏。參考李志平和付冬梅等(2016)[8]的研究,在區(qū)間大小相同的情況下,各區(qū)間內(nèi)的數(shù)據(jù)點(diǎn)數(shù)量相差大,且分布不均,稀疏密度差距大,說(shuō)明數(shù)據(jù)是稀疏分布的,故本文研究所選取的價(jià)格數(shù)據(jù)是稀疏分布的,該特點(diǎn)與第三種類型稀疏數(shù)據(jù)的特點(diǎn)一致。

圖2 銷售價(jià)格-平均銷售收入散點(diǎn)圖

三、易逝品在線銷售數(shù)據(jù)的稀疏性處理方法

針對(duì)易逝品在線銷售數(shù)據(jù)表現(xiàn)出的稀疏性特點(diǎn),本文采用BootStrap 和核回歸相結(jié)合的方法處理易逝品在線銷售數(shù)據(jù)的稀疏性問(wèn)題。首先,運(yùn)用BootStrap方法計(jì)算各離散價(jià)格點(diǎn)對(duì)應(yīng)的BootStrap 置信度;其次,運(yùn)用核回歸方法對(duì)離散價(jià)格點(diǎn)的BootStrap 置信度進(jìn)行擬合,從而得到整個(gè)定價(jià)區(qū)間上連續(xù)價(jià)格水平與其對(duì)應(yīng)的BootStrap 置信度之間的非線性函數(shù)關(guān)系。由于每個(gè)價(jià)格水平對(duì)應(yīng)的BootStrap 置信度可作為該價(jià)格水平是最優(yōu)價(jià)格的概率估計(jì),故對(duì)易逝品在線銷售數(shù)據(jù)進(jìn)行稀疏性處理后,可初步得到定價(jià)區(qū)間內(nèi)任意價(jià)格水平是最優(yōu)價(jià)格的概率估計(jì)值。

(一)離散價(jià)格點(diǎn)的BootStrap 置信度計(jì)算

BootStrap 方法是統(tǒng)計(jì)學(xué)中一種重要的非參數(shù)估計(jì)方法,該方法在數(shù)據(jù)分析方面有著廣泛應(yīng)用。BootStrap方法的基本思想是在原始數(shù)據(jù)基礎(chǔ)上進(jìn)行有放回抽樣,從而產(chǎn)生一系列樣本量相同的BootStrap 樣本,并利用這些樣本對(duì)總體進(jìn)行推斷。當(dāng)數(shù)據(jù)分布未知或樣本容量較小時(shí),BootStrap 方法仍然是有效的。BootStrap方法的具體步驟為:假設(shè)一個(gè)數(shù)據(jù)樣本的總體分布F未知,但已知有一個(gè)來(lái)自分布F 的數(shù)據(jù)樣本D,其樣本容量為N,從該樣本中進(jìn)行有放回的抽樣,抽取后樣本容量仍為N。相繼獨(dú)立地從原始樣本中抽取多個(gè)BootStrap 樣本,然后利用這些樣本對(duì)整體進(jìn)行統(tǒng)計(jì)推斷[12]。

假設(shè)真實(shí)觀測(cè)到的售價(jià)集合為{pn|n=1,2,…,N},Hn表示真實(shí)銷售價(jià)格pn保持不變的時(shí)長(zhǎng);Rn1,Rn2,…,Rnk表示在時(shí)長(zhǎng)Hn內(nèi),售價(jià)pn所對(duì)應(yīng)的k 個(gè)真實(shí)觀測(cè)到的日銷售收入;Rn=(Rn1+Rn2+…+Rnk)/k 表示在時(shí)長(zhǎng)Hn內(nèi),售價(jià)pn對(duì)應(yīng)的日平均銷售收入。現(xiàn)用R%表示事先設(shè)置的閾值,根據(jù)Bauer 和Jannach(2018)[7]的研究,可使商家獲得最大利潤(rùn)的價(jià)格稱為最優(yōu)價(jià)格,若要對(duì)售價(jià)pn是最優(yōu)價(jià)格的概率進(jìn)行估計(jì),可運(yùn)用非參數(shù)BootStrap 方法計(jì)算pn所對(duì)應(yīng)的Rn值大于或等于閾值R%的BootStrap 置信度Cn。Cn的值即為pn是最優(yōu)價(jià)格的概率估計(jì)值,可表示為:

由于BootStrap 置信度Cn描述了真實(shí)銷售價(jià)格pn是最優(yōu)價(jià)格的概率,故Cn越大,越有理由認(rèn)為pn是最優(yōu)價(jià)格。

對(duì)于閾值R%,最直接的選擇方式是由于商家在銷售的過(guò)程中,可能會(huì)采取一定的促銷手段銷售商品,從而使某一時(shí)間段內(nèi)的銷量突增,這就會(huì)導(dǎo)致該時(shí)間段內(nèi)收入的最大值偏離正常水平,從而影響閾值的大小,過(guò)高的閾值可能會(huì)導(dǎo)致Cn的估計(jì)結(jié)果為0,故可適當(dāng)降低該閾值。參考已有研究對(duì)閾值的取值方法,可將閾值R%設(shè)置為的90%分位數(shù)。

下面對(duì)BootStrap 置信度Cn的計(jì)算步驟進(jìn)行說(shuō)明,具體步驟如下:

①首先設(shè)定抽樣次數(shù)W,每次抽樣的樣本數(shù)據(jù)量為Dn,對(duì)Rn1,Rn2,…,Rnk進(jìn)行反復(fù)W 次有放回抽樣,得到W 個(gè)BootStrap 樣本,將每次抽樣后得到的BootStrap 樣本中的Dn個(gè)數(shù)據(jù)記為R'n1,R'n2,…,R'nk。

②對(duì)每一個(gè)BootStrap 樣本,計(jì)算其Dn個(gè)數(shù)據(jù)的均值,如式(2)所示:

③統(tǒng)計(jì)W 個(gè)BootStrap 樣本中均值大于或等于閾值R%的樣本數(shù)量,記為Xn,則Cn的計(jì)算公式如式(3)所示:

④對(duì){pn|n=1,2,…,N}中的每一個(gè)銷售價(jià)格,均按照步驟①、②、③計(jì)算其對(duì)應(yīng)的BootStrap 置信度,則可得N 個(gè)BootStrap 置信度,即C1,C2,…,CN。

(二)基于核回歸的BootStrap 置信度擬合

Nadaraya 和Watson 于1964年提出了著名的Nadaraya-Watson 核估計(jì)。由于Nadaraya-Watson 核估計(jì)有且僅有一個(gè)參數(shù),相較于其他參數(shù)較多的估計(jì)方法,該方法不易發(fā)生過(guò)擬合。

本文使用Nadaraya-Watson 核估計(jì)對(duì)上一節(jié)中的BootStrap 置信度C1,C2,…,CN進(jìn)行擬合,目的是得到連續(xù)價(jià)格水平與其對(duì)應(yīng)的BootStrap 置信度之間的非線性函數(shù)關(guān)系。對(duì)給定的核函數(shù)K,其Nadaraya-Watson核估計(jì)定義如下:

其中,p 表示解釋變量;pn表示真實(shí)觀測(cè)到的價(jià)格點(diǎn);N 表示價(jià)格點(diǎn)的數(shù)量;Cn表示價(jià)格點(diǎn)pn所對(duì)應(yīng)的BootStrap 置信度的估計(jì);K(·)表示已知核函數(shù),本文選取應(yīng)用較廣的高斯核函數(shù)作為本文的核函數(shù);h 表示根據(jù)數(shù)據(jù)所估計(jì)出的窗寬,窗寬h 可以看作是處理偏方差權(quán)衡的平滑參數(shù)。如果窗寬太小,可能導(dǎo)致數(shù)據(jù)的過(guò)擬合。反之,如果窗寬太大,可能會(huì)導(dǎo)致估計(jì)過(guò)度平均化,偏差和殘差較大,因此窗寬h 的選取尤為重要。本文的最優(yōu)窗寬選取漸進(jìn)積分均方誤差方法獲得。

四、實(shí)證分析

為驗(yàn)證上述數(shù)據(jù)稀疏性處理方法的有效性,本文將分別對(duì)模擬生成的稀疏數(shù)據(jù)和真實(shí)的稀疏數(shù)據(jù)進(jìn)行稀疏性處理和分析。

(一)稀疏數(shù)據(jù)生成方法

1.稀疏數(shù)據(jù)模擬步驟

在對(duì)數(shù)據(jù)進(jìn)行稀疏性處理前,首先根據(jù)易逝品在線銷售數(shù)據(jù)的特點(diǎn),模擬生成稀疏數(shù)據(jù),具體步驟如下:

①假設(shè)商家在線銷售某種易逝商品,其定價(jià)區(qū)間為[a,b),在[a,b)范圍內(nèi)采樣N 個(gè)不同的數(shù)值,記為p1,p2,…,pN,其中p1<p2<…<pN,這N 個(gè)數(shù)值分別代表該易逝品的N 個(gè)銷售價(jià)格。

②假設(shè)該商品的銷售價(jià)格pn保持不變的時(shí)長(zhǎng)Hn在(0,m)范圍內(nèi)變動(dòng),在(0,m)范圍內(nèi)隨機(jī)采樣N 個(gè)不同的整數(shù),記為H1,H2,…,HN,這N 個(gè)整數(shù)分別代表N 個(gè)銷售價(jià)格各自保持不變的天數(shù)。

③假設(shè)每個(gè)銷售價(jià)格pn(n=1,…,N)對(duì)應(yīng)的日銷售量υn服從參數(shù)為λn的泊松分布,即υn~P(λn)。參考Gallego 和Ryzin[13]的研究中關(guān)于需求的假設(shè):需求隨著價(jià)格的升高逐漸降低,即當(dāng)p1<p2<…<pN時(shí),有λ1>λ2>…>λN。假設(shè)每個(gè)銷售價(jià)格pn對(duì)應(yīng)的日銷售量均值λn在范圍(c,d)內(nèi)變動(dòng),先在范圍(c,d)內(nèi)采樣N 個(gè)不同的數(shù)值,記為λ1,λ2,…,λN,其中λ1>λ2>…>λN,然后根據(jù)N 個(gè)泊松分布υ1~P (λ1),υ2~P (λ2),…,υN~P(λN),分別模擬生成N 組數(shù)據(jù),每組數(shù)據(jù)表示每個(gè)銷售價(jià)格在其價(jià)格保持不變的時(shí)長(zhǎng)內(nèi)的若干個(gè)日銷售量值。在模擬過(guò)程中,要保證這N 組數(shù)據(jù)中各組數(shù)據(jù)的數(shù)據(jù)量與H1,H2,…,HN的值對(duì)應(yīng)相等。

④將步驟③中模擬生成的N 組銷售量分別與N個(gè)銷售價(jià)格對(duì)應(yīng)相乘,得到N 組銷售收入數(shù)據(jù),每組收入數(shù)據(jù)表示每個(gè)銷售價(jià)格在其保持不變的時(shí)長(zhǎng)內(nèi)的若干個(gè)日銷售收入值。

2.參數(shù)設(shè)置

為更好模擬出具有易逝品在線銷售數(shù)據(jù)特點(diǎn)的稀疏數(shù)據(jù)集,本文將基于前文選取的真實(shí)數(shù)據(jù)集中各變量的數(shù)值,對(duì)上述模擬步驟中的各參數(shù)進(jìn)行合理設(shè)置。由前文可知,在真實(shí)數(shù)據(jù)集中,銷售價(jià)格在11.80—49.90 元之間變動(dòng),銷售價(jià)格的總數(shù)量為50 個(gè),銷售價(jià)格保持不變的時(shí)長(zhǎng)Hn在9—204 天之間變動(dòng),日銷售量的均值大約為197 件。現(xiàn)參考真實(shí)數(shù)據(jù)集中的數(shù)值,對(duì)即將生成的模擬數(shù)據(jù)集中的參數(shù)進(jìn)行設(shè)置,其設(shè)置原則為:與真實(shí)數(shù)據(jù)集有一定差異,但不能完全脫離實(shí)際。由于數(shù)據(jù)模擬過(guò)程中可能會(huì)受到隨機(jī)因素的干擾導(dǎo)致達(dá)不到較為理想的效果,為增加數(shù)據(jù)稀疏性處理結(jié)果的可信度,本文將通過(guò)不同的參數(shù)設(shè)置及價(jià)格采樣方式生成兩個(gè)有一定差異的模擬數(shù)據(jù)集,使第一個(gè)模擬數(shù)據(jù)集(模擬數(shù)據(jù)集1)具有第二類稀疏數(shù)據(jù)的特點(diǎn),即銷售價(jià)格如何影響平均銷售收入的有效數(shù)據(jù)點(diǎn)較少,而第二個(gè)模擬數(shù)據(jù)集(模擬數(shù)據(jù)集2)具有第三類稀疏數(shù)據(jù)的特點(diǎn),即價(jià)格數(shù)據(jù)點(diǎn)是稀疏分布的。

假設(shè)商家在線銷售的某種易逝品的定價(jià)區(qū)間為[50,100),商家將各售價(jià)保持不變的時(shí)長(zhǎng)Hn控制在(0,100)范圍內(nèi),故設(shè)置a=50,b=100,m=100。對(duì)模擬數(shù)據(jù)集1,借鑒王芷陽(yáng)[14]在研究中使用的數(shù)據(jù)采樣方式,在[50,100)上均勻采樣30 個(gè)不同的數(shù)值pi(i=1,2,…,30),并假設(shè)模擬數(shù)據(jù)集1 中日銷售量均值λn在(100,200)內(nèi)變動(dòng),故參數(shù)設(shè)置為:N=30,c=100,d=200。對(duì)模擬數(shù)據(jù)集2,借鑒周啟堃[15]在模擬稀疏分布的數(shù)據(jù)時(shí)的采樣方法,在[50,100)上抽取50 個(gè)不同的數(shù)值pi(i=1,2,…,50),其中區(qū)間(50,60)、(60,70)、(80,90)和(90,100)各有5 個(gè)樣本數(shù)據(jù),而區(qū)間(70,80)內(nèi)有30 個(gè)樣本數(shù)據(jù),并假設(shè)模擬數(shù)據(jù)集2 中日銷售量均值λn在(150,250)范圍內(nèi)變動(dòng),故參數(shù)設(shè)置為:N=50,c=150,d=250。

3.稀疏數(shù)據(jù)生成效果展示及分析

為檢驗(yàn)使用上述方法生成的兩個(gè)模擬數(shù)據(jù)集是否具有各自不同的稀疏性特點(diǎn),下面對(duì)模擬數(shù)據(jù)集1和模擬數(shù)據(jù)集2 的生成效果進(jìn)行展示與分析。

圖3是模擬數(shù)據(jù)集1 中各銷售價(jià)格保持不變的時(shí)長(zhǎng)Hn的分布直方圖,Hn的均值為51.9 天。從圖3可以看出,各價(jià)格保持不變的時(shí)長(zhǎng)Hn的取值分布在0—100 天內(nèi),大部分價(jià)格保持不變的時(shí)長(zhǎng)均超過(guò)一個(gè)月。由此可見,模擬數(shù)據(jù)較好地模擬出了易逝品售價(jià)長(zhǎng)時(shí)間保持不變的特點(diǎn)。

圖3 銷售價(jià)格保持不變的時(shí)長(zhǎng)的分布直方圖(模擬數(shù)據(jù)集1 )

圖4是根據(jù)模擬數(shù)據(jù)集1 中各銷售價(jià)格及其對(duì)應(yīng)的平均銷售收入繪制的散點(diǎn)圖,這里的平均銷售收入指某銷售價(jià)格在其保持不變的時(shí)長(zhǎng)內(nèi)的日銷售收入平均值。圖中水平虛線代表所有銷售價(jià)格對(duì)應(yīng)的平均銷售收入的均值。從圖4可以明顯看出,絕大部分的點(diǎn)較為均勻地分布在虛線上下400 元范圍內(nèi),平均銷售收入的波動(dòng)范圍較小,且數(shù)據(jù)點(diǎn)整體沒(méi)有明顯上升或下降的趨勢(shì),只有個(gè)別數(shù)據(jù)點(diǎn)對(duì)應(yīng)的平均銷售收入波動(dòng)較大,無(wú)法得出銷售價(jià)格與平均銷售收入之間的關(guān)系,表現(xiàn)銷售價(jià)格如何影響銷售收入的有效數(shù)據(jù)點(diǎn)很少。由此可見,模擬數(shù)據(jù)集1 較好地模擬出了第二類稀疏數(shù)據(jù)的特點(diǎn)。

圖4 銷售價(jià)格-平均銷售收入散點(diǎn)圖(模擬數(shù)據(jù)集1 )

圖5是根據(jù)數(shù)據(jù)集2 中各銷售價(jià)格及其對(duì)應(yīng)的平均銷售收入繪制的散點(diǎn)圖,這里的平均銷售收入指某銷售價(jià)格在其保持不變的時(shí)長(zhǎng)內(nèi)的日銷售收入平均值。圖中水平虛線代表所有銷售價(jià)格對(duì)應(yīng)的平均銷售收入的均值。從圖5可以明顯看出,銷售價(jià)格區(qū)間(50,60)、(60,70)、(80,90)和(90,100)內(nèi)各有5 個(gè)數(shù)據(jù)點(diǎn),而(70,80)內(nèi)有30 個(gè)數(shù)據(jù)點(diǎn),數(shù)據(jù)點(diǎn)分布嚴(yán)重不均。銷售價(jià)格區(qū)間(70,80)內(nèi)的數(shù)據(jù)點(diǎn)明顯較密集,而其他區(qū)間內(nèi)的數(shù)據(jù)點(diǎn)非常稀疏,數(shù)據(jù)點(diǎn)分布差距大,價(jià)格數(shù)據(jù)是稀疏分布的。由此可見,模擬數(shù)據(jù)集2較好地模擬出了第三類稀疏數(shù)據(jù)的特點(diǎn)。

圖5 銷售價(jià)格-平均銷售收入散點(diǎn)圖(模擬數(shù)據(jù)集2 )

(二)數(shù)據(jù)稀疏性處理及分析

本文將運(yùn)用前文所述的數(shù)據(jù)稀疏性處理方法對(duì)模擬數(shù)據(jù)集1、模擬數(shù)據(jù)集2 以及真實(shí)銷售數(shù)據(jù)集進(jìn)行處理和分析,其中BootStrap 抽樣次數(shù)W 設(shè)置為W=1000。

1.模擬數(shù)據(jù)集的稀疏性處理結(jié)果

圖6是對(duì)模擬數(shù)據(jù)集1 進(jìn)行稀疏性處理后的結(jié)果,其中,核回歸的窗寬是根據(jù)漸進(jìn)積分均方誤差方法計(jì)算得到的最優(yōu)窗寬,即h=8.57。從圖6可以看出,經(jīng)過(guò)稀疏性處理后,銷售價(jià)格與其對(duì)應(yīng)的BootStrap 置信度之間呈現(xiàn)出非線性關(guān)系,隨著銷售價(jià)格水平的升高,其對(duì)應(yīng)的BootStrap 置信度先增大后減小。

圖6 銷售價(jià)格-BootStrap 置信度擬合圖(模擬數(shù)據(jù)集1 )

圖7是對(duì)模擬數(shù)據(jù)集2 進(jìn)行稀疏性處理的結(jié)果,其窗寬是根據(jù)漸進(jìn)積分均方誤差方法計(jì)算得到的最優(yōu)窗寬,即h=2.52。從圖7可以看出,經(jīng)過(guò)稀疏性處理后,銷售價(jià)格與其對(duì)應(yīng)的BootStrap 置信度之間呈現(xiàn)出非線性關(guān)系。當(dāng)銷售價(jià)格大約處于58—68 元之間和80—90 元之間時(shí),隨著銷售價(jià)格水平的升高,其對(duì)應(yīng)的BootStrap 置信度逐漸增大;當(dāng)銷售價(jià)格大約處于68—80 元之間、90—100 元之間時(shí),隨著銷售價(jià)格水平的升高,其對(duì)應(yīng)的BootStrap 置信度逐漸減小。

圖7 銷售價(jià)格-BootStrap 置信度擬合圖(模擬數(shù)據(jù)集2 )

2.真實(shí)銷售數(shù)據(jù)集的稀疏性處理結(jié)果

圖8是對(duì)前文描述的真實(shí)銷售數(shù)據(jù)集進(jìn)行稀疏性處理后得到的結(jié)果,其核回歸函數(shù)的窗寬是根據(jù)漸進(jìn)積分均方誤差方法獲得的最優(yōu)窗寬,即h=5.15。從圖8可以看出,隨著價(jià)格水平的升高,其對(duì)應(yīng)的BootStrap置信度先逐漸增大后逐漸減小,通過(guò)核回歸曲線可以清晰地看到價(jià)格水平與其對(duì)應(yīng)的BootStrap 置信度之間的非線性關(guān)系。

圖8 銷售價(jià)格-BootStrap 置信度擬合圖(真實(shí)數(shù)據(jù)集)

隨著價(jià)格水平的升高,其對(duì)應(yīng)的BootStrap 置信度先增大后減小的原因可能為:大部分消費(fèi)者所能接受的最高售價(jià)大約為23 元,當(dāng)商品的售價(jià)超出23 元時(shí),消費(fèi)者通常不會(huì)購(gòu)買商品,導(dǎo)致商品在售價(jià)達(dá)到23 元以后,銷售量急劇下降,銷售收入隨之下降。BootStrap置信度是基于對(duì)銷售收入觀測(cè)值反復(fù)抽樣作出的估計(jì),故BootStrap 置信度隨價(jià)格水平變化的規(guī)律與銷售收入隨價(jià)格水平變化的規(guī)律具有一定的相似性。

五、結(jié)論

實(shí)際銷售過(guò)程中,商家的銷售收入是實(shí)時(shí)產(chǎn)生和變化的,因此具有較大的不確定性。本文對(duì)易逝品銷售數(shù)據(jù)的稀疏性處理中,運(yùn)用BootStrap 方法估計(jì)每個(gè)價(jià)格點(diǎn)對(duì)應(yīng)的BootStrap 置信度,相當(dāng)于利用概率思維量化了這種不確定性,之后又運(yùn)用Nadaraya-Watson核回歸擬合各離散價(jià)格點(diǎn)對(duì)應(yīng)的BootStrap 置信度,Nadaraya-Watson 核回歸不僅能夠平滑相鄰點(diǎn)之間較大的波動(dòng)。增加結(jié)果的可靠性,還將真實(shí)數(shù)據(jù)集中沒(méi)有但又處于定價(jià)區(qū)間內(nèi)的價(jià)格點(diǎn)的BootStrap 置信度都作出了估計(jì),不遺漏定價(jià)區(qū)間內(nèi)的任何一個(gè)價(jià)格。通過(guò)核回歸擬合結(jié)果不僅可以清晰地看到價(jià)格水平與其對(duì)應(yīng)的BootStrap 置信度之間的非線性函數(shù)關(guān)系,還可以看出整個(gè)定價(jià)區(qū)間中價(jià)格的優(yōu)劣,從而為商家制定定價(jià)策略提供一定的決策依據(jù),也為后續(xù)的定價(jià)研究奠定了基礎(chǔ)?!?/p>

猜你喜歡
銷售價(jià)格銷售收入置信度
置信度輔助特征增強(qiáng)的視差估計(jì)網(wǎng)絡(luò)
一種基于定位置信度預(yù)測(cè)的二階段目標(biāo)檢測(cè)方法
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
2020年12月70個(gè)大中城市二手住宅銷售價(jià)格指數(shù)
2021年10月70個(gè)大中城市二手住宅銷售價(jià)格指數(shù)
5月份商品住宅銷售價(jià)格環(huán)比略有上漲
2019年1—7月中國(guó)酒業(yè)經(jīng)濟(jì)指標(biāo)
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
70大中城市房?jī)r(jià)同比下跌城市增多
陜西法士特年銷售收入超百億2014
富蕴县| 乡宁县| 宝丰县| 东乡| 古浪县| 合水县| 平昌县| 邵武市| 锡林郭勒盟| 甘孜| 常州市| 鲁甸县| 海城市| 淮阳县| 襄樊市| 宜良县| 潞城市| 宁安市| 凤台县| 绩溪县| 平邑县| 光山县| 安岳县| 双牌县| 宜昌市| 南漳县| 和顺县| 陕西省| 临桂县| 高邮市| 乐都县| 丰城市| 正定县| 三台县| 平乡县| 金沙县| 高青县| 礼泉县| 靖边县| 尖扎县| 绥德县|