楊非非 袁晨輝 湯仕星 邱淑芳
摘要:針對“拍照賺錢”的任務定價問題,文章選取了影響任務定價的幾個主要因素,研究它們與任務定價之間的函數(shù)關系,建立多元線性回歸模型和Logistic回歸模型,在此基礎上分析任務未完成的原因。然后,利用支持向量機算法引入?yún)^(qū)域修正參數(shù),得到新的任務定價模型。最后,依據(jù)任務被完成的概率建立最大團“打包”定價模型,從而得到打包后的任務定價方案。
Abstract: For the task pricing problem of "making money by taking pictures", this paper studies the relationship between the task pricing and its several main influencing factors, and then establishes multivariate linear regression model and logistic regression model to analyze the reason of unfinished tasks. Then, region corrected parameters are introduced by using the support vector machine algorithm and the new task pricing model is obtained. Finally, the maximum group "packing" pricing model is establishedbased on the probability of completing the task, and the "packing"task pricing scheme is obtained.
關鍵詞: 任務定價;多元線性回歸;Logistic回歸;最大團;支持向量機
Key words: task pricing;linear regression;logisticregression;maximalgroup;support vector machine
中圖分類號:O29 文獻標識碼:A 文章編號:1006-4311(2018)29-0194-04
“拍照賺錢”是移動互聯(lián)網(wǎng)下的一種自助式服務模式。這種基于移動互聯(lián)網(wǎng)的自助式勞務眾包平臺,為企業(yè)提供各種商業(yè)檢查和信息搜集,相比傳統(tǒng)的市場調查方式可以大大節(jié)省調查成本,而且有效地保證了調查數(shù)據(jù)真實性,縮短了調查的周期?,F(xiàn)針對該APP中的任務定價問題進行研究,為科學決策提供定量依據(jù),并建立數(shù)學模型解決以下問題[1]。
問題1:研究項目的任務定價規(guī)律,分析任務未完成的原因。問題2:為項目設計新的任務定價方案,并和原方案進行比較。問題3:實際情況下,多個任務可能因為位置比較集中,導致用戶會爭相選擇,一種考慮是將這些任務聯(lián)合在一起打包發(fā)布。在這種考慮下,如何修改前面的定價模型,對最終的任務完成情況又有什么影響?
數(shù)據(jù)來自2017年高教社杯全國大學生數(shù)學建模競賽(CUMCM)題目B題所給的附件,從全國大學生數(shù)學建模競賽網(wǎng)站下載(http://www.mcm.edu.cn/)。
1.1 位置確定
根據(jù)給出的數(shù)據(jù),利用MATLAB軟件進行處理后,可以發(fā)現(xiàn)任務和會員的位置(經(jīng)緯度)絕大部分都集中在廣東地區(qū),只有少數(shù)個別情況零散分布在外,可忽略不計,故可以確定會員執(zhí)行任務的地區(qū)主要為廣東。
1.2 任務周邊的其他任務數(shù)和會員數(shù)
定義一個任務的周邊為以該任務為中心、邊為5000m的正方形區(qū)域,大約橫跨0.05經(jīng)度與0.05緯度。為此,計算以任務為中心的0.05經(jīng)度×0.05緯度的曲面內的任務數(shù)和會員數(shù),記為該任務周邊的其他任務數(shù)和會員數(shù),結果如圖1與圖2所示。
1.3 任務之間的實際距離d
假設任務A、任務B的地理坐標分別為(X1,Y1)、(X2,Y2),過A、B兩點的大圓的劣弧長即為兩點的實際距離。 以地心為坐標原點O,以赤道平面為XOY平面,以0度經(jīng)線圈所在的平面為XOZ平面建立三維直角坐標系[2]。則A與B點的直角坐標分別為
為了便于解決問題,提出以下假設:①所有任務的性質相同;②會員信譽值越高,任務完成的可能性越高,領取任務時的積極性就越高;③用戶選擇任務時只考慮任務的標價和任務的位置,無其他影響因素(比如交通、天氣等);④任務被打包后,會員在選擇任務包時可以看到任務要求。
1.4 影響任務定價因素的選取
根據(jù)已結束項目任務和會員信息數(shù)據(jù)可以分析,在同一區(qū)域范圍內,如果任務分布相對較為集中,而且任務附近分布的會員數(shù)較多,則會員之間可能會存在競爭關系,與任務定價的變化都可能存在間接聯(lián)系。因此,在問題1中選取經(jīng)緯度、任務周邊的其他任務數(shù)以及任務周邊的會員數(shù)作為任務定價的影響因素。在問題2中,我們又引入了兩個變量因素“預定限額總和”與“平均信譽值”,確定問題2中影響任務定價的因素為新引進的兩個因素、任務周邊的其他任務數(shù)以及任務周邊的會員數(shù),如圖3所示。
2.1 多元線性回歸模型
根據(jù)上一節(jié)關于任務定價影響因素的討論,我們假設項目任務定價y與任務緯度x1、任務經(jīng)度x2、周邊的其他任務數(shù)x3、周邊的會員數(shù)x4存在線性關系,為此建立多元線性回歸模型:
對式的回歸系數(shù)進行假設檢驗[4],可以得到檢驗統(tǒng)計量平均相對殘差為4.3%,F(xiàn)=26.4899,p=0.000<0.001。F值遠遠超過了F檢驗的臨界值,p遠小于置信區(qū)間水平0.05,故模型從一定角度來說是可行的。
從式可以看出任務定價的基本規(guī)律為:任務的經(jīng)緯度對任務的定價影響不顯著,任務周邊的其他任務數(shù)和任務周邊的會員數(shù)對任務定價具有顯著性影響,即任務定價隨著任務周邊其他任務數(shù)的增加而增大,而隨著任務周邊會員數(shù)的增加而減小。
2.2 任務完成概率的Logistic回歸模型
2.3 任務未完成的原因
通過上述建立的模型,我們可以初步分析出任務未完成的原因。
①從任務完成概率的Logistic回歸模型(3)的各項系數(shù)可以看出:任務的經(jīng)緯度系數(shù)較大,從而得出任務的地理位置在很大程度上決定任務是否被完成;而對于“任務周邊會員數(shù)”和“任務周邊其他任務數(shù)”兩個指標來說,周邊其他任務數(shù)越多(周邊任務之間存在競爭關系)就越不容易被預定,任務周邊會員數(shù)越多任務被預定的概率也就越大。
②從定價指標的系數(shù)我們也可以看出,雖然模型(2)得出任務的經(jīng)緯度、任務周邊的會員數(shù)和任務周邊的其他任務數(shù)都會影響到任務的定價,而任務的定價又會對任務是否完成產(chǎn)生影響。將任務定價的回歸系數(shù)與任務完成概率Logistic回歸模型得到的系數(shù)進行對比,相同指標系數(shù)的正負號相同,說明任務的經(jīng)緯度、任務周邊的會員數(shù)和任務周邊的其他任務數(shù)等指標影響定價與影響任務完成具有一致性,且定價越高,任務越容易被預定。
③通過給出的已結束項目任務數(shù)據(jù),發(fā)現(xiàn)還存在大量的未被完成的任務,雖然考慮了任務周邊的會員數(shù),但周邊會員的質量也是決定任務是否被完成的關鍵所在。任務周邊會員數(shù)越多,信譽低的會員數(shù)量相對也變多,就使得任務被信譽低的會員預定而沒被完成的概率變大。另外,雖然考慮了任務周邊的其他任務的競爭影響,但沒有考慮任務周邊會員能預定任務的總額大小,因為信譽高的會員具有預定多個任務的優(yōu)先權,可能導致先預定的會員將自己周邊的任務預定完,使得周邊其他會員不得不選擇位置相對較遠的任務,從而增加了任務未被預定的可能性,使得任務沒有被完成。
3.1 基于區(qū)域修正參數(shù)x*的模型
假設任務定價y與項目任務周邊的其他任務數(shù)量x3、任務周邊的會員數(shù)量x4、任務周邊會員的預定限額總和x5、任務周邊會員的平均信譽值x6為線性關系時,并利用已給的數(shù)據(jù)及MATLAB軟件,得到一個新的任務定價回歸模型:
另外,考慮到緯度和經(jīng)度對任務定價的影響,為此我們引入一個區(qū)域修正參數(shù)x*,依據(jù)任務所在區(qū)域分別對修正參數(shù)進行賦值。按任務完成率對項目數(shù)據(jù)進行初步分類,可分為東莞市、深圳市與其他城市三大類,并將其他城市的修正參數(shù)設為0。再利用支持向量機將深圳市,東莞市區(qū)域的任務進行分類,結果如圖4所示。任務完成率高的區(qū)域(多為東莞市)修正參數(shù)取-1,任務完成率低的區(qū)域(多為深圳市)修正參數(shù)取1。可以得到修正的任務定價模型為
若將修正參數(shù)x*的系數(shù)逐漸增大,由定價方案(5)計算出的定價總額逐漸減小,將新的標價帶入問題1的任務完成概率的Logistic回歸模型所得到的任務完成概率均值逐漸增大。但是,如果修正參數(shù)的系數(shù)過大,將會造成標價異常。通過權衡原來方案的標價區(qū)間,將系數(shù)k定為10。
3.2 利用Logistic模型進行分類[5]
根據(jù)新的定價方案(5),可以計算出新的任務標價,將任務定價帶入由問題1建立的任務完成概率的Logistic回歸模型(3),計算出任務完成的概率p。 然后,將任務的完成情況按任務被完成的概率進行分類,即
從而可以根據(jù)新的定價方案依概率判斷任務是否被完成。通過計算可以得到新方案的任務被完成的概率大于0.5的數(shù)量比原方案多,計算結果見表1。
由表1可知,新方案與原方案相比,任務的平均標價提高了0.58元,即增加了0.84%;但是任務的完成率提高了11.86%。相對于原方案來說,新方案更為合理。
4.1 基于“打包”后的任務定價模型
利用問題2中的Logistic分類模型得出打包定價后的任務完成率為76.8%,包中任務的定價總額為12799元;打包前包中任務的完成率為78.4%,包中任務的定價總額為14467元。因此,較打包前包中任務的定價總額減少了11.53%,任務完成率減少了1.6%。
本文討論了“拍照賺錢”的任務定價問題,根據(jù)選取出的影響任務定價的主要因素,建立了任務定價的多元線性回歸模型,分析了任務定價的規(guī)律;將任務是否完成定義為一個0-1變量,依據(jù)所給任務完成與否的數(shù)據(jù),建立了任務完成概率的Logistic回歸模型。隨后,我們將隱含的“任務周邊會員的預定限額總和”、“任務周邊會員的平均信譽值”兩個因素作為新的定價模型變量,并引進一個區(qū)域修正參數(shù),建立了新的任務定價模型,并用問題1中建立的任務完成概率的Logistic回歸模型對新方案進行評價,評價結果表明新的定價方案更優(yōu)。最后,將相近任務進行打包,建立了最大團“打包”定價模型,從而得到打包后的任務定價方案,計算結果表明最大團“打包”定價模型更優(yōu)。但是,由于使用的最大團搜索算法時間復雜度比較高,所以任務打包的程序運行時間比較長。
致謝:
感謝東華理工大學理學院王澤文教授的寶貴建議和意見。
[1]全國大學生數(shù)學建模競賽組委會.2017高教社杯全國大學生數(shù)學建模競賽(CUMCM)題目B題[EB/OL].[2017-09-14].http://www.mcm.edu.cn
[2]司守奎,孫兆亮,等.數(shù)學建模算法與應用[M].北京:國防工業(yè)出版社,2017.
[3]王澤文,樂勵華,等.數(shù)學實驗與數(shù)學建模案例[M].高等教育出版社,2012.
[4]姜啟源,謝金星,葉俊.數(shù)學模型[M].四版.高等教育出版社,2003.
[5]陶卿,曹進德,孫德敏.基于支持向量機分類的回歸方法[J].軟件學報,2002,13(5):1024-1028.
[6]一種快速求解最大團問題的算法.http://blog.csdn.net/qiutubushenghan
[7]周陽.最大團問題的精確算法研究[D].華中科技大學, 2015.