, , *,
(安徽財經大學 a金融學院;b.會計學院;c.統(tǒng)計與應用數(shù)學學院,安徽 蚌埠 233030)
隨著我國經濟的快速發(fā)展,互聯(lián)網及智能手機的普及,能夠充分利用網絡資源,幫助企業(yè)節(jié)省資金的“勞務眾包”模式也就快速發(fā)展起來。而“拍照賺錢”則是在此概念下衍生出來的,企業(yè)為有效低廉進行商品檢查和信息搜集而利用手機用戶完成相關任務的APP。該平臺的核心要素是任務定價。任務定價是否合理,決定了任務的執(zhí)行情況以及該平臺的收益情形。如果定價不合理,有的任務會無人問津,而導致商品檢查的失敗,以及由此而帶來的平臺信譽受損。因此,研究任務定價的相關規(guī)律具有十分重要的意義?!芭恼諉栴}”APP任務定價問題是一類復雜的聚類分析與回歸分析問題。合理的定價方案應該在完成任務消耗成本盡可能低的情況下完成盡可能多的任務。在處理此問題時,設計合理定價方案并綜合考慮位置、會員等情況對定價產生的影響,建立模型判斷新定價方案下任務的完成情況是否發(fā)生變化,然后通過對任務完成度和消耗成本的變化,比較兩種定價方案的優(yōu)劣。
數(shù)據來源于2017年全國大學生數(shù)學建模競賽B題。為了便于解決問題提出如下假設:(1)會員對于任務的選擇只受地點和價格影響,排除天氣與個人因素影響;(2)假設企業(yè)將調查任務全部發(fā)給平臺且資金到位;(3)假設平臺對于各個企業(yè)的任務發(fā)布等級平等且不存在拖欠用戶資金問題。
首先繪出任務價格梯度散點圖直觀地分析任務定價與位置的關系,發(fā)現(xiàn)價格分布具有明顯的分區(qū)特征;接著運用K均值聚類分析,將所有任務點分成三個區(qū)域,并求出中心點坐標,得到各區(qū)域的任務點的價格分布具有相似規(guī)律;最后運用回歸分析,構建各區(qū)域任務點價格與距中心點距離的函數(shù)模型,即價格-距離曲線。結合計算和圖像分析,推斷任務未完成的原因。
K均值聚類算法是先隨機選取K個對象作為初始的聚類中心[1]。然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的聚類中心會根據聚類中現(xiàn)有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。終止條件可以是沒有(或最小數(shù)目)對象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化[2],誤差平方和局部最小。
首先采用K-均值聚類分析,設各區(qū)域的中心點坐標為
將所有任務點分成三類,運用MATLAB求出各區(qū)域中心點坐標(詳見表1)。
表1 中心點坐標
接著,運用回歸分析[3],分別構建各個區(qū)域內任務點定價與其區(qū)域中心點距離的函數(shù),從而得到各區(qū)域內的任務定價規(guī)律。中心點m1區(qū)域內定價與位置的關系如圖1所示,其回歸方程為。
p1=a[sin(x-π)]+b[(x-10)2]+c
圖1 價格——距離回歸圖
最后,將數(shù)據帶入回歸方程中進行驗證,發(fā)現(xiàn)大多數(shù)數(shù)據點比較靠近回歸曲線,并且波動情況相似或在回歸曲線附近波動情況相似,因而擬合程度較好,可以用該回歸方程對任務未完成的原因進行結果分析[4]。
圖2 會員及任務完成度分布規(guī)律
(紅色——會員分布,黃色——未完成任務,藍色——已完成任務)
由圖2可知, 大部分未完成任務的地區(qū)距離中心點遠,而且這些地區(qū)定價普遍較低,推斷任務未完成的原因是任務定價不合理。
考慮到會員密度對定價方案有影響,建立密度與距離之間的關系。將緯度均分為三個區(qū)間,在每個分段區(qū)間中,剔除分散的數(shù)據點,剩余區(qū)間根據經緯度坐標轉換成距離[5],計算每一段距離對應的人數(shù),即會員密度;由聚類分析和回歸分析得出密度與距離的關系。將上文中定價與距離的關系,轉化為定價與密度的關系;最后運用SVM模型[6],根據任務是否完成進行分類,將會員密度,地點的經度,地點的緯度,任務定價作為各指標變量;將會員信息數(shù)據的80%作為測試樣本[7],剩余的作為訓練模型來預測新方案的有效性并與原方案進行比較[8]。
首先,建立會員密度與經緯度的回歸方程。首先計算每一段距離對應的人數(shù),即會員密度。由聚類分析和回歸分析得出密度與距離的關系。其中,中心點密度為d1時密度與距離的關系如圖3所示,其回歸方程為
d1=a×[sin(s-π)]+b×[(s-10)2]+c
b=33.06×(-56.15,122.3)
圖3 會員-密度距離圖
其次,由于會員密度因距離存在關系,所以密度與任務定價也存在著關系。假設會員密度與任務定價關系為p=g(m),通過MATLAB得出各中心點會員密度與任務定價的關系如圖4所示,其回歸方程為
p=a[sin(d-π)]+b[(d-10)2]+c
a=0.1106×(-0.84,1.061)
b=0.000786×(0.000331,0.0001219)
c=3.703×(2.722,4.683),R2=0.06106
圖4 定價-密度圖
首先對訓練模型與測試樣本進行正向歸一化處理
選取高斯核函數(shù)sigmoid和參數(shù)c,g;參數(shù)c,g的取值范圍為[4.365×10-6,6.244×10-6],步長20.5,構造最優(yōu)化問題模型:
分類函數(shù)表達式:
如圖5所示,新建立的模型對應的新方案任務完成度為86.7%而舊方案的任務完成度為62.5%,由此可見新方案比原方案任務完成度更高。
圖5 第一區(qū)域內的任務定價方案檢測圖
首先運用最短路徑法將會員點分在三個區(qū)域內;然后通過MATLAB模擬計算出每一個會員中心點所在的一定區(qū)域,并將其中任務的個數(shù)作為一個打包任務,價格進行折扣計算;最后運用SVM模型對新的定價模型進行預測評價[9],得出新的模型任務完成度更高。
首先根據最短路徑法,將隊員分別劃分到三個中心點所在的范圍[10]。其中中心點密度為d1時距離與密度的關系:
p1={a×[sin(d-π)]}+b×[(d-10)2]+c}×80%
a=0.03919 (-0.2328,0.3112)
b=9.394×10-7(4.365×10-6,6.244×10-6)
結合定價與距離的關系式,可得打包后定價新方案:
f(x)={p1*x+p2}*85%
p1=-0.0002778 (-0.0003126,-0.0002429)
再利用SVM模型,對新的定價方案進行檢驗,如圖6所示得出打包之后完成度為94.3%,相比原方案有所提高[11]。
圖6 打包后的任務定價方案檢測
所述模型是定義在具有一定理想性的假設下,對于實際任務定價的指導仍具有不完全適合性。但是模型求解后的R2在誤差允許的范圍內,對實際問題具有一定參考性;在建立模型的過程中引用了聚類分析以及回歸方程模型等經典的數(shù)學模型并加以改進,大大減輕了建模過程的工作量[12];建模方法從簡單到復雜,變量從單一到豐富,容易入手,利于理解,便于推廣;價格梯度模型可以用于許多眾包類型的實際問題;SVM模型在驗證與識別、分類、圖像處理等領域擁有廣泛的應用。