李清華,王 旭,朱義九,李浩遠(yuǎn)
(煙臺(tái)大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,山東 煙臺(tái) 264005)
隨著網(wǎng)絡(luò)的快速發(fā)展以及人們生活水平的提高,我國(guó)出現(xiàn)了一些新興的產(chǎn)業(yè).“拍照賺錢(qián)”自助式服務(wù)模式隨即產(chǎn)生.這種基于移動(dòng)互聯(lián)網(wǎng)的自助式勞務(wù)眾包平臺(tái),為企業(yè)提供各種信息搜集和商業(yè)檢查,與傳統(tǒng)的市場(chǎng)調(diào)查方式相比,有著顯著的優(yōu)點(diǎn),所以APP成為該平臺(tái)的運(yùn)行核心,而APP中的任務(wù)定價(jià)又是重中之重.為了避免因?yàn)槎▋r(jià)不合理而導(dǎo)致任務(wù)失敗,合理定價(jià)是一個(gè)亟待解決的問(wèn)題.本文建立多元回歸模型對(duì)任務(wù)合理定價(jià)問(wèn)題進(jìn)行研究.
任務(wù)定價(jià)問(wèn)題就是對(duì)APP上需要拍照的任務(wù)進(jìn)行合理定價(jià),要解決該問(wèn)題需要研究如何確定影響該任務(wù)定價(jià)的因素.本文將任務(wù)經(jīng)緯度、附近會(huì)員數(shù)量、限額總數(shù)以及人口密集程度考慮在內(nèi),利用最小二乘估計(jì)建立多元回歸模型,并對(duì)任務(wù)完成度進(jìn)行比較,從而解決任務(wù)定價(jià)問(wèn)題.
了解到對(duì)于不同的任務(wù),人們總是優(yōu)先考慮距離自己較近的,因此可將任務(wù)地理位置按照一定要求進(jìn)行聚類(lèi),得到不同區(qū)域的任務(wù)情況.本文以文獻(xiàn)[1]中的任務(wù)定價(jià)問(wèn)題為研究對(duì)象,對(duì)材料中所給出的數(shù)據(jù)進(jìn)行描點(diǎn)作圖,“·”代表已完成任務(wù),“×”代表未完成任務(wù),如圖1所示.然后將所給任務(wù)地理位置按照行政區(qū)域中的地級(jí)市進(jìn)行聚類(lèi),分別得到廣州市、東莞市、佛山市和深圳市4個(gè)區(qū)域的任務(wù)數(shù)量,如圖2所示.
以深圳市為例進(jìn)行分析,通過(guò)最近一次全國(guó)人口普查數(shù)據(jù)[2]顯示深圳常住人口(含戶(hù)籍人口)1 190.84萬(wàn),非戶(hù)籍人口有806.32萬(wàn),由Zipf定律[3]可以得到人口分布函數(shù)
h(r)=cr-q,
(1)
用來(lái)表示相應(yīng)于位序r的人口規(guī)模大小,式中c為常數(shù),q為待定參數(shù),r為該地區(qū)在深圳市的位序.通過(guò)人口普查數(shù)據(jù)可以得到深圳市所有地區(qū)的位序,運(yùn)用Matlab軟件對(duì)參數(shù)進(jìn)行擬合,最終得到人口分布函數(shù)為
h(r)=1 086·r1.65.
(2)
圖1 任務(wù)經(jīng)緯度散點(diǎn) 圖2 4個(gè)地級(jí)市的任務(wù)數(shù)量Fig.1 Mission latitude and longitude scatter plot Fig.2 The number of tasks in four prefectur-level cities
建立多元回歸模型[4]的一般形式為:
w=β0+β1x1+β2x2+…+βpxp.
(3)
令
y=β0+β1x1+β2x2+…+βpxp+ε,
(4)
其中ε為隨機(jī)誤差,且服從于N(0,σ2),將處理過(guò)的觀測(cè)值數(shù)據(jù)代入可得
yi=β0+β1xi1+β2xi2+…+βpxip+εi,i=1,2,…,N,
(5)
其中εi為第i組觀測(cè)值數(shù)據(jù)的隨機(jī)誤差,且相互獨(dú)立同服從于N(0,σ2).為了方便,引入矩陣記號(hào)[5]:
其中X稱(chēng)為模型設(shè)計(jì)矩陣,是常數(shù)矩陣,Y與ε是隨機(jī)向量,且Y~NN(Xβ,σ2I),ε~NN(0,σ2I)(I為N階單位矩陣),ε是不可觀測(cè)的隨機(jī)誤差向量,β是由未知待定回歸系數(shù)構(gòu)成的常數(shù)向量.
(6)
寫(xiě)成分量形式
(7)
則
(8)
(9)
將本題4個(gè)影響因素任務(wù)地點(diǎn)與市中心的距離L、任務(wù)地點(diǎn)附近會(huì)員總數(shù)n、附近任務(wù)限額總數(shù)m以及人口分布情況h代入模型,整理得
即
(10)
(11)
(12)
通過(guò)查閱相關(guān)資料[7],可以確定任務(wù)定價(jià)與任務(wù)地點(diǎn)、任務(wù)附近會(huì)員數(shù)量、附近任務(wù)限額總數(shù)以及人口分布情況的關(guān)系如下:
w=a+bL+cn+dm+eh.
(13)
本研究中深圳市已完成任務(wù)數(shù)量為35,深圳市任務(wù)地點(diǎn)附近會(huì)員數(shù)量如表 1所示,深圳市任務(wù)地點(diǎn)附近任務(wù)限額總數(shù)如表2所示.
表1 深圳市任務(wù)地點(diǎn)附近會(huì)員數(shù)量Tab.1 The number of members near the mission site in Shenzhen
表2 深圳市任務(wù)地點(diǎn)附近任務(wù)限額總數(shù)Tab.2 Total number of mission quotas near the mission site in Shenzhen
使用Matlab軟件進(jìn)行多元回歸擬合可以得到各個(gè)參數(shù)如下:
a=1.1,b=23.292,c=-1.896,d=-0.26,e=-1.41.
因此,任務(wù)定價(jià)與自變量之間的關(guān)系為:
w=1.1+23.92L-1.896n-0.26m-1.41h.
(14)
通過(guò)對(duì)數(shù)據(jù)的預(yù)處理可以得出任務(wù)總數(shù)為589、已完成任務(wù)數(shù)量為379,任務(wù)完成率為64.35%.然后,將任務(wù)經(jīng)緯度、附近會(huì)員數(shù)量、任務(wù)限額總數(shù)以及人口密集程度代入模型中,重新得出一組新的任務(wù)定價(jià)方案,在新定價(jià)方案中,任務(wù)總數(shù)為589、完成數(shù)量為492、預(yù)測(cè)完成率為83.53%.
通過(guò)對(duì)比可以發(fā)現(xiàn),新的定價(jià)方案對(duì)任務(wù)預(yù)測(cè)完成率有明顯的提高,因此說(shuō)明模型較為理想.
定義相關(guān)系數(shù)[8]
(15)
(16)
可以證明:當(dāng)假設(shè)η=β0時(shí),由于yi~N(0,σ2),則
(17)
(18)
取顯著性水平α(0.01或0.05),查表得到Fα(m-1,n-m),計(jì)算F(m-1,n-m)與Fα(m-1,n-m),做出比較.
通過(guò)計(jì)算可得U= 2 208 827.94,Q=1 495 164.45.其中,回歸平方和U反應(yīng)任務(wù)地點(diǎn)與市中心的距離L、任務(wù)地點(diǎn)附近會(huì)員總數(shù)n、附近任務(wù)限額總數(shù)m以及人口分布情況h有關(guān).然而殘差平方和Q反映的卻是除了因素L,n,m,h對(duì)任務(wù)定價(jià)的線性影響,其他的因素對(duì)任務(wù)定價(jià)的影響.因?yàn)槎嘣貧w方程效果檢驗(yàn)是通過(guò)檢驗(yàn)觀測(cè)參數(shù)和理論參數(shù)之間差異的大小,從而確定建立的多元回歸模型是否具有實(shí)際意義.因此需要將相關(guān)的數(shù)據(jù)代入多元回歸方程效果檢驗(yàn)的公式中進(jìn)行參數(shù)檢驗(yàn).在實(shí)際問(wèn)題中,一般選擇顯著水平α=0.01[10].本文的檢驗(yàn)結(jié)果為
F=4.49>F0.01(3 831)=3.78.
因此確定建立的任務(wù)定價(jià)多元回歸模型的擬合是合理的,是顯著的.
模型w中其他所有因素的影響誤差為殘差平方和SSE減去SSe,記為SSMe,即
因此
即為擬合檢驗(yàn)的統(tǒng)計(jì)量.
取顯著性水平α=0.01,檢驗(yàn)結(jié)果為
F=0.6 因此說(shuō)明模型擬合是合理的,是不顯著的,即模型的省略項(xiàng)所造成的誤差影響可以忽略不計(jì). 在任務(wù)定價(jià)的回歸模型中,將求解出的定價(jià)數(shù)據(jù)作為目標(biāo)值引入神經(jīng)網(wǎng)絡(luò)模型.首先,將相關(guān)數(shù)據(jù)代入模型,得出樣本點(diǎn)對(duì)應(yīng)的定價(jià)方案,并將定價(jià)方案作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練目標(biāo).然后對(duì)其進(jìn)行訓(xùn)練,并對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)的設(shè)置.最后運(yùn)行程序得出結(jié)果如下:任務(wù)總數(shù)為589、完成數(shù)量為476、預(yù)測(cè)完成率為80.81%.由于利用多元回歸模型得出任務(wù)完成數(shù)量為492、預(yù)測(cè)完成率為83.53%,高于神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)完成率,故多元線性回歸模型更為有效. 多元回歸模型在分析多種因素時(shí),更加簡(jiǎn)單和方便.運(yùn)用多元回歸模型,只要采用的模型和數(shù)據(jù)是相同的,通過(guò)標(biāo)準(zhǔn)的統(tǒng)計(jì)方法可以計(jì)算出唯一的結(jié)果.同時(shí)多元回歸模型可以精確地計(jì)量出各個(gè)影響因素之間的相關(guān)性和回歸擬合程度的高低. 但是在多元回歸模型中,所選用的因素影響了模型的多樣性和某些因素的不可預(yù)測(cè)性,使得多元回歸模型在某些情況下受到限制. 任務(wù)定價(jià)多元回歸方程效果顯著,但是同樣并不排除其中存在著與任務(wù)定價(jià)沒(méi)有線性關(guān)系因子的可能性.因此,根據(jù)任務(wù)定價(jià)實(shí)際數(shù)據(jù)進(jìn)行分析選擇因素,是建立合理的任務(wù)定價(jià)模型的必要條件,顯著性檢驗(yàn)同樣也是模型預(yù)測(cè)質(zhì)量的保證.本文以多元回歸分析為理論依據(jù),通過(guò)構(gòu)建模型框架推廣回歸分析的合理應(yīng)用,使得網(wǎng)上定價(jià)更有科學(xué)性、可行性以及時(shí)效性.不足的是,在對(duì)于模型求解時(shí),做了必要的簡(jiǎn)化假設(shè),在建立任務(wù)定價(jià)模型時(shí),忽略了任務(wù)本身的一些因素,這可能會(huì)對(duì)模型的精確性產(chǎn)生影響.但是,當(dāng)任務(wù)定價(jià)較為合理時(shí),任務(wù)本身一些因素不足以對(duì)結(jié)果產(chǎn)生影響,可以忽略不計(jì).本文建立多元回歸模型,利用多方面知識(shí),對(duì)任務(wù)設(shè)計(jì)了科學(xué)的定價(jià),提高了任務(wù)的完成度,具有一定的實(shí)際應(yīng)用價(jià)值.5 相較神經(jīng)網(wǎng)絡(luò)方法的優(yōu)勢(shì)
6 結(jié)束語(yǔ)