王 婷,朱 磊,張?jiān)吕?,貢楊?/p>
(1.安徽財(cái)經(jīng)大學(xué) 金融學(xué)院;2.安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,安徽 蚌埠 233030)
“拍照賺錢”是移動(dòng)互聯(lián)網(wǎng)下的一種自助式服務(wù)模式.這種基于移動(dòng)互聯(lián)網(wǎng)的自助式勞務(wù)眾包平臺(tái),為企業(yè)提供各種商業(yè)檢查和信息搜集,相比傳統(tǒng)的市場(chǎng)調(diào)查方式可以大大節(jié)省調(diào)查成本,而且有效地保證了調(diào)查數(shù)據(jù)真實(shí)性,縮短了調(diào)查的周期.App成為該平臺(tái)運(yùn)行的核心,而App中的任務(wù)定價(jià)又是其核心要素.因此本文主要通過貪婪算法模型,對(duì)原來定價(jià)進(jìn)行修正后并制定新的定價(jià)方案,為任務(wù)發(fā)布者以及實(shí)行者提供合理的參考依據(jù).
本文做出以下模型的假設(shè):⑴假設(shè)會(huì)員在執(zhí)行任務(wù)時(shí),選擇任務(wù)時(shí)是理性的,優(yōu)先選擇離自己近的,價(jià)格高的任務(wù).⑵假設(shè)會(huì)員的定位是會(huì)員自身的位置定位,而不是居住的IP定位.⑶假設(shè)會(huì)員獲得任務(wù)的渠道是一致的,不存在時(shí)間上的延遲.
首先將地圖無憂所收集已結(jié)束項(xiàng)目的任務(wù)位置數(shù)據(jù)在地圖上可視化,通過觀察地圖上任務(wù)完成分布情況,結(jié)合會(huì)員信息分布情況,然后將任務(wù)完成分布情況分成四類,找到聚類中心點(diǎn)[2],在不同類中將已完成任務(wù)與任務(wù)標(biāo)價(jià)進(jìn)行相關(guān)性進(jìn)行分析,進(jìn)行分區(qū),找出定價(jià)規(guī)律.最后通過經(jīng)緯度轉(zhuǎn)換找出分布情況,通過分析任務(wù)完成情況所在位置,結(jié)合任務(wù)定價(jià)和會(huì)員屬性,分析得出任務(wù)未被完成的原因.
將已結(jié)束項(xiàng)目的任務(wù)位置信息利用R語言可視化,將完成任務(wù)和未完成任務(wù)和會(huì)員聚集情況[3]同時(shí)將任務(wù)定位導(dǎo)入到地圖無憂中,分別得到圖1、2.
結(jié)合圖1、2進(jìn)行分析,得到如下現(xiàn)象:大部分會(huì)員聚集的地方,任務(wù)完成度較高,但是仍存在會(huì)員很少但任務(wù)卻完成;會(huì)員離任務(wù)很近,但任務(wù)卻未被完成;某一區(qū)會(huì)員眾多,卻存在任務(wù)未被完成的情況.因此可能存在定價(jià)問題.針對(duì)所挖掘的信息,建立出聚類分析模型,研究定價(jià)規(guī)律和未完成的原因.
圖1 任務(wù)完成情況熱力圖
圖2 任務(wù)在地圖上可視化
對(duì)任務(wù)的位置進(jìn)行聚類分析,觀察圖2,可以發(fā)現(xiàn)任務(wù)完成情況存在明顯的分區(qū)現(xiàn)象.因此選擇軟件進(jìn)行K-mean將其分為四類將任務(wù)經(jīng)緯度數(shù)據(jù)導(dǎo)入MATLAB中進(jìn)行處理得到四個(gè)中心點(diǎn)位置分別為:(23.014861,113.184759);(22.663103,114.046420);(23.278157,113.326456);(22.956052,113.749090).
利用EXCEL表對(duì)全部任務(wù)經(jīng)緯度進(jìn)行轉(zhuǎn)換成距離.為進(jìn)一步求解出任務(wù)完成度和會(huì)員的關(guān)系,利用轉(zhuǎn)換出的距離本文等分成大小相同的正方形,將數(shù)據(jù)置于網(wǎng)格化量化得到圖3.
圖3 會(huì)員信息網(wǎng)格化
圖例說明格網(wǎng)顏色代表會(huì)員人數(shù),紅色越深代表人數(shù)越少,越偏向黑色代表人數(shù)越多,格網(wǎng)的數(shù)字右下角黃色標(biāo)簽表示該網(wǎng)內(nèi)會(huì)員數(shù),左下角綠色代表完成任務(wù)人數(shù),左上角白色標(biāo)簽代表未完成的任務(wù)的人數(shù).根據(jù)圖中所反應(yīng)的信息,雖然會(huì)員分布在較多黑格子中,但是任務(wù)完成度并不樂觀,白色標(biāo)簽未完成的任務(wù)大部分分布在灰色盒子中.任務(wù)未被完成的原因可能由于定價(jià)偏低,影響會(huì)員積極性.
結(jié)合圖1、2、3行比較分析,發(fā)現(xiàn)不同區(qū)任務(wù)完成分布不同,同時(shí)不同區(qū)域的定價(jià)和中心點(diǎn)的距離,存在不同的變化關(guān)系.因此必須進(jìn)行分區(qū)計(jì)算定價(jià)和距離的相關(guān)系數(shù),分析兩者之間的相關(guān)關(guān)系.
令對(duì)已完成項(xiàng)目任務(wù)數(shù)據(jù)中各區(qū)相關(guān)系數(shù)分別為:ρ1;ρ2;ρ3;ρ4.
通過分區(qū)進(jìn)行相關(guān)性分析,不同區(qū)的相關(guān)性還是存在明顯差異,這與其經(jīng)濟(jì)發(fā)展情況密切相關(guān),由于不同地區(qū)經(jīng)濟(jì)發(fā)展情況不同,會(huì)員對(duì)任務(wù)定價(jià)接受程度不同,可能即使存在任務(wù),也不愿接單.
2.3.1 任務(wù)定價(jià)規(guī)律:針對(duì)不同區(qū),任務(wù)定價(jià)存在差異,從圖中可以看出,部分偏離中心點(diǎn)很遠(yuǎn)處,定價(jià)比較高.可能是為了鼓勵(lì)更多人注冊(cè)會(huì)員;在會(huì)員集中的地方,任務(wù)定價(jià)偏低;但是由于存在限制單數(shù)的情況,因此在集中的區(qū)域也會(huì)有未完成的任務(wù);由于經(jīng)濟(jì)環(huán)境的差異,商家所給出的價(jià)格并不能滿足參與者所接受的價(jià)格,因此可能存在任務(wù)無法完成的情況.
2.3.2 任務(wù)未完成的原因:任務(wù)與會(huì)員距離太遠(yuǎn),成本太高;部分地區(qū)會(huì)員數(shù)太少,不能與任務(wù)達(dá)到供需平衡;任務(wù)所給出的定價(jià),不能滿足參與者的需求;預(yù)定任務(wù)開始時(shí)間的間斷性,使得部分任務(wù)無法完成;會(huì)員預(yù)定任務(wù)限額,使會(huì)員集中區(qū)也可能存在任務(wù)無法完成的情況.
對(duì)項(xiàng)目設(shè)計(jì)新的定價(jià)方案,分3個(gè)步驟,第一步根據(jù)會(huì)員信息中的每個(gè)會(huì)員的信譽(yù)值估計(jì)出他們完成任務(wù)的質(zhì)量;第二步根據(jù)那些區(qū)域附近已完成任務(wù)的定價(jià)估計(jì)會(huì)員完成任務(wù)所需的成本和每個(gè)會(huì)員預(yù)定任務(wù)的限額,對(duì)任務(wù)進(jìn)行定價(jià);第三步根據(jù)會(huì)員完成任務(wù)的質(zhì)量(對(duì)信譽(yù)值處理)進(jìn)行降序排序,采用貪婪算法[4]進(jìn)行任務(wù)分配,再通過類比推理得出定價(jià)范圍.
發(fā)布者通過自助式勞務(wù)眾包平臺(tái)發(fā)布任務(wù),并進(jìn)行定價(jià).但影響定價(jià)的因素有很多,在這里主要考慮會(huì)員本身因素[5](完成任務(wù)的質(zhì)量、成本、最大完成任務(wù)數(shù)量)、會(huì)員密度、任務(wù)密度、區(qū)域經(jīng)濟(jì)發(fā)展水平.根據(jù)已完成項(xiàng)目任務(wù)的經(jīng)度、緯度數(shù)據(jù),得出任務(wù)分布在4個(gè)地級(jí)市,具體到區(qū)(或者縣級(jí)市、縣)共有25個(gè)區(qū)域.經(jīng)過EXCEL篩選得到不同區(qū)域任務(wù)完成度(見表1).
表1 不同區(qū)域任務(wù)完成度
佛山市南海區(qū)、廣州市南沙區(qū)、東莞市東莞市、佛山市高明區(qū)、佛山市三水區(qū)、廣州市從化市、廣州市增城市、清遠(yuǎn)市佛岡縣任務(wù)完成情況均達(dá)到92%以上,說明這些地區(qū)定價(jià)結(jié)構(gòu)比較合理,只需考慮其他地區(qū)的定價(jià)方案即可.
有界貪婪算法[6]:
(1)選取區(qū)域內(nèi)部分會(huì)員,取得“任務(wù)預(yù)算(即某個(gè)會(huì)員能夠完成的最大任務(wù)個(gè)數(shù)及位置范圍)”Bp=εB,設(shè)置t=1(2)在情況下重復(fù)以下步驟.(3)給會(huì)員分配任務(wù).(4).(5)結(jié)束當(dāng)前步驟.(6)結(jié)束當(dāng)前循環(huán).(7)對(duì)會(huì)員按照ci進(jìn)行升序排序.(8)在最后一輪中,重復(fù)以下步驟.(9)判斷剩余“任務(wù)預(yù)算”BP<minci.(10)如果成立跳出循環(huán).(11)否則,選擇剩余會(huì)員中符合條件的會(huì)員.(12)BP=BP-ci.(13)結(jié)束當(dāng)前步驟.(14)結(jié)束當(dāng)前循環(huán).(15)對(duì)會(huì)員進(jìn)行完成任務(wù)質(zhì)量估值:多次探索取平均值的方法.(16)根據(jù)上一步驟得出的結(jié)果,得出函數(shù):μi=f(ci).(17)利用函數(shù)得到剩余會(huì)員的任務(wù)質(zhì)量估值.(18)算法結(jié)束.
通過C++貪婪算法編程,求得區(qū)域會(huì)員與任務(wù)的一種對(duì)應(yīng)關(guān)系.
深圳市福田區(qū)任務(wù)完成度0%,由表2知,該區(qū)域的任務(wù)標(biāo)價(jià)較低,然而該區(qū)域內(nèi)會(huì)員數(shù)量較多,因此應(yīng)合理地提高任務(wù)價(jià)格.同理也可以分析得出:廣州增城區(qū)、南沙區(qū)和佛山市三水區(qū)的任務(wù)定價(jià)均較高,但是這些區(qū)域任務(wù)位置離會(huì)員平均距離較遠(yuǎn),因此對(duì)定價(jià)也有影響.
綜上知,以深圳市福田區(qū)、廣州市天河區(qū)等17個(gè)區(qū)(除佛山市南海區(qū)、廣州市南沙區(qū)、東莞市東莞市、佛山市高明區(qū)、佛山市三水區(qū)、廣州市從化市、廣州市增城區(qū)、清遠(yuǎn)市佛岡縣之外),應(yīng)適當(dāng)提高定價(jià),在考慮其他地區(qū)會(huì)員位置與任務(wù)位置的關(guān)系后,覺得將這些地區(qū)的任務(wù)定價(jià)范圍確定在70~75.
把任務(wù)聯(lián)合在一起打包發(fā)布[7],對(duì)任務(wù)點(diǎn)進(jìn)行篩選后,再對(duì)會(huì)員的經(jīng)緯度聚類分析.最后以貪婪算法定價(jià)模型為基礎(chǔ)進(jìn)行擴(kuò)展得出任務(wù)分配及其完成情況的變化,并且分析任務(wù)完成率的高低變化情況.
首先篩選出信譽(yù)度較高且任務(wù)限額大于10的會(huì)員,得出符合要求的會(huì)員共有252個(gè);接著根據(jù)市場(chǎng)的供求關(guān)系,并且結(jié)合圖1和圖3分析任務(wù)與會(huì)員的大致位置后,將任務(wù)位置通過MATLAB聚類分析得到252個(gè)“聯(lián)合任務(wù)”的位置.
任務(wù)發(fā)布者往往追求任務(wù)能夠全部完成,因此本文將“聯(lián)合任務(wù)”與會(huì)員一一對(duì)應(yīng),以期望得到任務(wù)完成度最大,但現(xiàn)實(shí)情況中有些任務(wù)離會(huì)員較遠(yuǎn),對(duì)已完成項(xiàng)目任務(wù)的數(shù)據(jù)進(jìn)行處理,計(jì)算出原始數(shù)據(jù)中的任務(wù)完成情況,通過統(tǒng)計(jì)完成任務(wù)個(gè)數(shù)與總?cè)蝿?wù)個(gè)數(shù)對(duì)比得到任務(wù)的完成率:
其中q為任務(wù)完成情況,Xi表示任務(wù)完成的個(gè)數(shù),Xn表示為總的任務(wù)個(gè)數(shù).
對(duì)于打包分布情況下數(shù)據(jù)處理——經(jīng)緯度轉(zhuǎn)化為距離,根據(jù)歐氏距離公式:
考慮到任務(wù)個(gè)數(shù)和會(huì)員個(gè)數(shù)較多,將兩組數(shù)據(jù)導(dǎo)入Excel軟件中,選擇出所有中的最短距離.
通過App軟件數(shù)據(jù)分析可以得到,一般在距離在3000米以內(nèi)的任務(wù)幾乎都被實(shí)行,在3000米之外除了現(xiàn)實(shí)中一些偶然因素,一般情況下任務(wù)都沒有得得到完成.這恰好與圖表中的呈現(xiàn)的會(huì)員與任務(wù)點(diǎn)集聚分布相似相符.根據(jù)所搜集到的數(shù)據(jù),統(tǒng)計(jì)出任務(wù)點(diǎn)與會(huì)員點(diǎn)之間的距離在3000米以內(nèi)的個(gè)數(shù)為200,因此方案的完成率為P=200/252=79.365%
通過對(duì)于打包分布情況下任務(wù)完成率與不打包分布的情況下的任務(wù)完成率對(duì)比可以發(fā)現(xiàn),在對(duì)任務(wù)進(jìn)行打包后得到的任務(wù)完成率有所提高,減少了由于用戶互相選擇出現(xiàn)了任務(wù)無人選擇的情況.
本文選取已完成任務(wù)的定價(jià)價(jià)格、經(jīng)度、緯度會(huì)員密度、會(huì)員信譽(yù)度作為指標(biāo),進(jìn)行回歸擬合[8].
將新項(xiàng)目任務(wù)數(shù)據(jù)導(dǎo)入到地圖進(jìn)行可視化分析,得到圖4.
圖4 任務(wù)分布位置圖
可以觀察到待處理數(shù)據(jù)大部分分布在廣州市,還有零散的點(diǎn)分布在深圳市及附近.因此分區(qū)進(jìn)行處理.由于前面的分析結(jié)論,得知雖然深圳市會(huì)員密度高,但是會(huì)員活躍度不高.由于經(jīng)濟(jì)發(fā)展水平不同,導(dǎo)致定價(jià)水平存在差異.因此本文首先對(duì)廣州市進(jìn)行回歸擬合分析,然后將深圳市及附近的數(shù)據(jù)通過類比前面已建立的模型,進(jìn)行定價(jià).由于并沒有搜集到會(huì)員所完成的具體任務(wù),因此將會(huì)員信譽(yù)度作為虛擬變量引入.
經(jīng)過幾個(gè)函數(shù)的擬合優(yōu)度、模型顯著性進(jìn)行對(duì)比,本文選取擬合優(yōu)度最好,模型通過顯著性檢驗(yàn)的數(shù)據(jù).通過Stata進(jìn)行回歸擬合,Y代表任務(wù)定價(jià)、C代表經(jīng)度,V代表緯度、M代表會(huì)員密度、ξ代表隨機(jī)干擾項(xiàng)得到如下模型:
各個(gè)t值所對(duì)應(yīng)的p值均小于0.05,拒絕原假設(shè),各變量顯著.同時(shí)F(3,125)=13.45,模型顯著.R2=0.875,模型擬合優(yōu)度較高.
將廣州區(qū)已經(jīng)完成的任務(wù),利用EXCEL將數(shù)據(jù)帶入回歸方程,通過計(jì)算預(yù)測(cè)值和實(shí)際定價(jià)的差值,用STATA做出誤差散點(diǎn)圖,如圖5所示.
圖5 誤差散點(diǎn)圖
根據(jù)圖5可以看出誤差大部分分布在0-3中,誤差范圍并不大,在實(shí)際情況實(shí)行中,誤差可能來自會(huì)員信譽(yù)度,可以根據(jù)任務(wù)發(fā)布點(diǎn),會(huì)員信譽(yù)情況引入虛擬變量Di,根據(jù)會(huì)員信息中的信譽(yù)值,將信譽(yù)值進(jìn)行分段:
極差=Max信譽(yù)-Min信譽(yù),采用等距分組,將區(qū)間分為:
將虛擬變量賦值為0.75;1.5;2.25;3,并且引入回歸函數(shù)中,其中bi表示接受任務(wù)會(huì)員的信譽(yù)水平:
經(jīng)過廣州市已完成任務(wù)誤差散點(diǎn)圖分析,證明模型可行性較好,加入有關(guān)會(huì)員信譽(yù)的虛擬變量,回歸函數(shù)針對(duì)位于廣州市地區(qū)的任務(wù)做出了較為準(zhǔn)確的定價(jià)方案.根據(jù)新方案中所給的經(jīng)緯度信息,將所處廣州市的經(jīng)度、緯度、會(huì)員密度一一對(duì)應(yīng),便可求出所求定價(jià).
已經(jīng)看到深圳任務(wù)完成度在15%以下,但是在地圖上深圳所在地區(qū)會(huì)員數(shù)量并不低.針對(duì)此現(xiàn)象,本文將數(shù)據(jù)利用R語言進(jìn)行可視化,得到會(huì)員與完成任務(wù)的疊加圖如圖6,會(huì)員與未完成任務(wù)疊加圖如圖7所示.
結(jié)合圖6針對(duì)深圳市寶安區(qū),即圖6中深圳市左下角處,黃色點(diǎn)較小,完成任務(wù)的定價(jià)處于[65,67],因此進(jìn)行定價(jià),同時(shí)為了調(diào)動(dòng)會(huì)員的積極性,可以對(duì)價(jià)格進(jìn)行正方向的微調(diào).同時(shí)在深圳市右上方紅色集中區(qū),對(duì)比之前會(huì)員完成圖注:黃色點(diǎn)代表未完成的會(huì)員疊加,紅色點(diǎn)代表完成任務(wù),點(diǎn)越大標(biāo)價(jià)越高,格網(wǎng)代表會(huì)員數(shù),紅色人少,黑灰色人多.情況定價(jià),黃色點(diǎn)較大,價(jià)格普遍在[76,80]之間.
圖6 任務(wù)完成疊加圖
圖7 未完成任務(wù)疊加圖
本文的特色是運(yùn)用R語言強(qiáng)大的視圖功能,結(jié)合多種統(tǒng)計(jì)軟件,使復(fù)雜的問題借助圖形得到較為準(zhǔn)確和完整的結(jié)果,以深圳市福田區(qū)、廣州市天河區(qū)等17個(gè)區(qū)價(jià)格作為參考依據(jù),在考慮其他地區(qū)會(huì)員位置與任務(wù)位置的關(guān)系后,覺得將這些地區(qū)的任務(wù)定價(jià)范圍確定在70~75.