徐娜 張紅娟 行嘉盈
[摘 要]采用k-means聚類算法將數(shù)據(jù)分為四類,精確求出每一個聚類的中心點任務(wù)的理想定價。計算理想定價與實際定價之差的算數(shù)平均,有一個較大的正數(shù)偏差,這是造成任務(wù)未完成的主要原因。對logistic回歸模型進(jìn)行改進(jìn),得到新的多元線性回歸模型。并利用粒子群算法優(yōu)化模型中的參數(shù),得到其中一簇聚類的參數(shù)值。
[關(guān)鍵詞]聚類算法;多元線性回歸模型;粒子群算法
中圖分類號:S837 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2018)18-0400-01
1.研究現(xiàn)狀
隨著我國經(jīng)濟(jì)快速發(fā)展,基于移動互聯(lián)網(wǎng)下的自助式勞務(wù)眾包平臺發(fā)展迅猛,“拍照賺錢”是其中的一種模式。用戶在APP上領(lǐng)取任務(wù),完成任務(wù)賺取酬勞。目前許多任務(wù)因為定價不合理而無人問津。本文通過研究任務(wù)未完成的原因,來達(dá)到優(yōu)化定價模型使任務(wù)盡可能多的被完成的目的。
2.1 基于K-means聚類算法的定價分析
K-means算法是將事先輸入的n個數(shù)據(jù)對象以空間中k個點為中心進(jìn)行聚類,。本文利用K-means算法對附件一中已結(jié)束項目任務(wù)的經(jīng)緯度做聚類分析,得到了4個聚類簇以及對應(yīng)的聚類中心。
2.2 logistic回歸模型分析未完成的原因
任務(wù)完成度是一個二分類變量,取值為=1和=0。在本文的四個聚類簇中,選取聚類簇一為例計算任務(wù)完成情況與經(jīng)緯度、定價以及距離的關(guān)系。
利用spss對四簇數(shù)據(jù)分別進(jìn)行l(wèi)ogistic回歸分析,可知,在聚類1中,任務(wù)完成情況與經(jīng)緯度、定價以及距離的關(guān)系式為:
3.1 多元回歸模型
假定被解釋變量Y與多個解釋變量之間具有線性關(guān)系,本文通過考慮定價與緯度,經(jīng)度,離心距離之間的關(guān)系,來建立新的定價模型。由相關(guān)系數(shù)圖可知離心距離、經(jīng)度、緯度與定價之間的線性關(guān)系如下:
由R2的值可知,直接進(jìn)行多元線性分析的效果并不佳。利用改進(jìn)POS算法,搜索回歸系數(shù)的最優(yōu)值,由此得到離心距離、經(jīng)度、緯度與定價之間的線性關(guān)系的最優(yōu)解。
3.2 PSO算法
粒子群優(yōu)化算法的基本思想是通過群體中個體之間的協(xié)作和信息共享來尋找最優(yōu)解,由n個粒子組成的群體0.對Q維空間進(jìn)行搜索。
(1)定義適應(yīng)度函數(shù):用來評價種群中的每個粒子,當(dāng)適應(yīng)度函數(shù)的取值越小,則有因變量定價Y與自變量緯度X1,經(jīng)度X2和離心距離X3的之間的擬合度越好。
(2)種群大小的選擇N:一般粒子數(shù)取粒子自身維數(shù)的5-10倍時可搜索足夠的解空間。在本文中,分別嘗試M=25,30,35,40,45,50,通過分別求解,得出M的最合適的值為30。
(3)慣性權(quán)重W:在慣性權(quán)重PSO模型中w為定值0.7298.
(4)粒子的維度:在本問題中,所求目標(biāo)函數(shù)帶有四個未知量,所以粒子的維度為4.
(5)終止條件:在本文中最小誤差可以設(shè)定為10-8,最大迭代次數(shù)設(shè)定為1000。終止條件為目標(biāo)函數(shù)取到最小值時,得到的最適合解。
參考文獻(xiàn)
[1] 汪曉銀,鄒庭榮,周保平,數(shù)學(xué)軟件與數(shù)學(xué)實驗(第二版),北京:科學(xué)出版式,2012.8.
[2] 馬立新,單冠華,屈娜娜.基于改進(jìn)粒子群算法的電力系統(tǒng)無功優(yōu)化[J],控制工程,2012,19(6):34-39.