黃錦成, 楊 蘋, 呂 茵, 張 臻
(華南理工大學電力學院, 廣東省綠色能源技術重點實驗室, 廣東 廣州 510640)
隨著我國移動通訊行業(yè)的快速發(fā)展以及移動通訊企業(yè)之間的競爭日趨激烈,各個移動通訊運營商對移動通訊資費進行了頻繁的調整,希望利用各類優(yōu)惠資費政策刺激業(yè)務量增長.從對移動通訊運營商和消費者產生影響的角度來看,資費調整的目的在于通過下調移動通訊資費來促進市場規(guī)模的擴大和業(yè)務量的提高,并且增加消費者的利益以及提高移動通訊運營商的盈利.然而,某一個資費政策可以帶來多少業(yè)務量的增加,這個增加是否能夠持續(xù),也就是資費政策的變動到底與業(yè)務量之間存在著怎樣的定量關系,在移動通訊業(yè)界還沒有確切的定論.文獻[1]針對目前資費套餐設計中存在的一些問題,運用數據挖掘的方法提出了移動資費套餐設計的模型.然而,資費套餐以及資費政策的變動,對業(yè)務量的促進效果如何,文中沒有提出定量的分析.文獻[2]針對移動通訊企業(yè)中客戶流失的現象,應用數據挖掘的方法,建立了客戶流失的預測模型,當中提及資費政策對于業(yè)務量增長以及避免客戶流失的定性影響.目前,針對資費政策和業(yè)務量的關系所進行的研究,大多是探索資費政策與業(yè)務量之間的定性關系,由于無法分離引起業(yè)務量變化的各類影響因素,因此難以進行資費政策與業(yè)務量之間的定量關系分析,然而,資費政策與業(yè)務量之間的定性關系,對移動通訊運營商進行決策幫助不大,決策者更加需要定量分析結果.
為此,本文提出采用數據挖掘的方法對資費政策和業(yè)務量之間的關系進行定量分析,并以某移動通訊運營商的全網數據為基礎,嘗試運用數據挖掘的方法分離引起業(yè)務量變化的各類影響因素,建立并求解資費政策與業(yè)務量的關系模型,為資費政策的建立和調整提供參考依據.
移動通訊運營商針對不同的客戶以及不同的市場策略,設計了各種各樣的資費政策.按照資費政策內容的不同,大致可以將其分成4類:(1)通話類資費政策,如:通話資費的下降.(2)IP類資費政策,如:17951IP閑時優(yōu)惠政策.(3)漫游類資費政策,如:漫游資費的下降.(4)數據類資費政策,如:GPRS日套餐.移動通訊運營商所推出的資費政策繁多,而且往往在同一時期內推出多種資費政策.資費政策通常具有一定的時效性,移動通訊運營商通常會根據業(yè)務量的波動情況以及不同的市場策略對資費政策進行頻繁的調整.因此,分析資費政策對業(yè)務量的影響時,需要針對不同類型的資費政策建立統(tǒng)一的量化標準.
為了建立資費政策與業(yè)務量之間的關系模型,需要收集與資費政策生效期間的業(yè)務量數據.這些數據可以分為以下2類:(1)語音業(yè)務類數據.(2)數據業(yè)務類數據.其中,每一類數據又包括了許多數據點,例如:語音類業(yè)務中的H話務(半速率話務)、F話務(全速率話務)等.數據點一般每小時保存一次,每個數據點每天有24個數據.假如歷史數據庫中包含各類數據共100個數據點,則每個基站每天需要保存的數據為24×100個數值.移動通訊運營商的基站數量龐大,以廣州移動公司為例,其基站數目超過了5 000個.由此可見,移動通訊運營商每年獲得的數據量十分龐大,而且業(yè)務量的波動與資費政策有著確定的對應關系,然而,對于移動通訊運營商的工作人員而言,僅靠經驗很難發(fā)現資費政策與這些數據之間的定量關系.面對如此龐大的數據量,可以考慮采用數據挖掘的方法去尋找業(yè)務量的波動與資費政策之間的關系.數據挖掘(Data Mining)是一個利用各種分析方法和工具,在大量的數據中發(fā)現數據變量之間關系模型和數據間關系的過程.
不過,建立資費政策與業(yè)務量之間的關系模型的困難不僅僅在于數據量大,還因為引起業(yè)務量變化的因素很多.移動通訊領域與國計民生有著密切的聯系,因此業(yè)務量不僅受資費政策的影響,還受到節(jié)假日以及經濟發(fā)展等因素的影響.隨著國民經濟的發(fā)展和人民生活水平的提高,移動通訊的用戶數不斷增加,業(yè)務量也隨之增加.與此同時,人們相互之間的聯系也因為經濟的發(fā)展而變得更加緊密.對節(jié)假日的業(yè)務量以及其前后兩周的業(yè)務量平均值進行對比,分析節(jié)假日區(qū)間中由于用戶行為而引起的業(yè)務量波動,可以知道業(yè)務量在節(jié)假日前期會有較大幅度的上升,而在節(jié)假日后期會有一定幅度的下降,如圖1所示(以五一勞動節(jié)為例).
圖1 2004~2008年五一勞動節(jié)期間某移動運營商全網語音業(yè)務量波動分析圖
因此,要得到某一個資費政策與業(yè)務量之間的關系,必須對引起業(yè)務量波動的各類因素進行分離,去除資費政策之外的因素對業(yè)務量產生的影響,才能得到資費政策與業(yè)務量之間的關系模型.
根據移動通訊行業(yè)資費政策變動頻繁以及業(yè)務數據量大的特點,可以將數據挖掘的方法用于建立資費政策與業(yè)務量關系模型.采用數據挖掘的方法來進行資費政策與業(yè)務量之間的關系模型研究,應當包括以下步驟:(1)數據挖掘目標描述與數據準備.(2)數據預處理.(3)數據挖掘.(4)目標評估.
其中,第三步數據挖掘可以采用的方法很多.本文采用關聯分析的方法,按照資費政策與業(yè)務量的時間序列曲線的相對變化勢態(tài)的接近程度來計算兩者的關聯度,求解資費政策與業(yè)務量之間的定量關系模型.
在數據挖掘之前,首先應確定數據挖掘的內容,即確定采用數據挖掘方法建立資費政策與業(yè)務量關系模型的目標,并對數據挖掘目標進行描述,以便據此準備數據.數據挖掘目標描述包括:(1)資費政策數據和業(yè)務量數據的集合.(2)采用數據挖掘的方法,建立資費政策與業(yè)務量的關系模型,描述資費政策對業(yè)務量產生的定量影響.
為了達到以上目標,收集某市移動通訊運營商2004~2008年的全網語音業(yè)務量以及該市2004~2008年人均GDP增長量,利用2005年8月至2006年3月的資費政策以及業(yè)務量數據建模,通過求解模型,得到了各個資費政策對話務量的定量影響.
通過對資費政策以及語音業(yè)務量數據進行分析,可以發(fā)現語音業(yè)務量的增長主要受到節(jié)假日、經濟發(fā)展、移動電話用戶數上升和資費政策等因素的影響.現在設法把前3個因素對語音業(yè)務量的影響隔離,可以更加準確地分析資費政策與語音業(yè)務量的關系.隔離前3個影響因素的具體實施步驟為:
(1)去除節(jié)假日對語音業(yè)務量的影響.根據上一節(jié)分析得到的語音業(yè)務量曲線,對應各個節(jié)假日的時間,提取業(yè)務量受用戶行為影響比較大的節(jié)假日.假定每周的同一天的業(yè)務量是線性增長的,可以將每個節(jié)假日前后的平穩(wěn)期語音業(yè)務量數據進行加權平均來代替該節(jié)假日的語音業(yè)務量.如第n日為節(jié)假日,距離第n日星期相同且相隔最近的兩天為n-7j和n+7k,j、k為自然數,則用以下公式計算填補后的業(yè)務量:
在此,將經過了去節(jié)假日影響以后所得到的某移動通訊運營商2004~2008年的全網語音業(yè)務量曲線定義為y1i(i=04,05,…,08).
(2)去除經濟發(fā)展因素對語音業(yè)務量的影響.某市2004年到2008年人均GDP 增長率分別為8.66%、11.5%、11.9%、12.4%、10%,假設每年的語音業(yè)務量受到經濟發(fā)展因素影響也出現了同樣的增幅,則利用每年的第一周平均每天的語音業(yè)務量為起始點,以每年的第一周平均每天的語音業(yè)務量乘以(1+當年經濟增長率)為終點作直線,可以作出只受經濟發(fā)展因素影響而產生的語音業(yè)務量直線.再用該直線上每一點的值減去該年的第一周平均每天的語音業(yè)務量,可以得出由于經濟發(fā)展因素影響而產生的語音業(yè)務量增量Δy1i(i=04,05,…,08).將去除經濟發(fā)展因素對語音業(yè)務量的影響后,實際語音業(yè)務量曲線定義為y2i(i=04,05,…,08),則:
y2i=y1i-Δy1i
圖2 去除影響因素效果分析圖(影響因素1:節(jié)假日;影響因素2:經濟發(fā)展;影響因素3:用戶數增長)
(3)去除移動電話用戶數的增長對語音業(yè)務量的影響.用某市2005年8月到2006年3月每月累計開機用戶數,除以該段時間每月累計用戶數的平均值,可以求出2005年8月到2006年3月每月累計用戶數歸一化曲線.從y2i截取出2005年8月到2006年3月的語音業(yè)務量數據,并求出其月平均值.用此語音業(yè)務量數據月平均值乘以每月累計用戶數歸一化曲線可以得出只受用戶增長因素影響而呈現的語音業(yè)務量曲線,用只受用戶增長因素影響的語音業(yè)務量曲線中每一個點都減去2005年8月的語音業(yè)務量值,可以得出只受用戶增長因素影響的語音業(yè)務量Δy2i(i=1,2,…,8,其中1,2,…,8分別代表2005年8月,2005年9月,…,2006年3月),因此,去除移動電話用戶數的增長對語音業(yè)務量的影響后,實際語音業(yè)務量曲線為:y3i=y2i-Δy2i(i=1,2,…,8,其中1,2,…,8分別代表2005年8月,2005年9月,…,2006年3月).
根據上一節(jié)的分析,資費政策可以劃分為4類:(1)通話資費類優(yōu)惠政策;(2)IP類優(yōu)惠政策;(3)漫游類優(yōu)惠政策;(4)數據類優(yōu)惠政策.根據各類資費政策的特點,需要制定與其相適應的量化規(guī)則.
(1)通話資費類優(yōu)惠政策的量化規(guī)則
其中:l1為當月通話優(yōu)惠量;ai為第i個優(yōu)惠前的本地通話費;bi為第i個優(yōu)惠后的本地通話費;ci為第i個優(yōu)惠前的長途通話費;di為第i個優(yōu)惠后的長途通話費;ri為第i個修正系數.
(2)IP類優(yōu)惠政策的量化規(guī)則
其中:l2為當月IP優(yōu)惠量;mi為第i個IP優(yōu)惠的打折數;ti為第i個IP政策每天優(yōu)惠小時數.
(3)漫游類優(yōu)惠政策的量化規(guī)則
其中:l3為當月漫游優(yōu)惠量;ei為第i個優(yōu)惠前的漫游主撥話費;fi為第i個優(yōu)惠后的漫游主撥話費;gi為第i個優(yōu)惠前的漫游接聽話費;hi為第i個優(yōu)惠后的漫游接聽話費;ri為修正系數.
(4)數據類優(yōu)惠政策的量化規(guī)則
根據某數據優(yōu)惠政策的出臺而導致的每兆數據流量所減少的資費,對數據優(yōu)惠政策的優(yōu)惠程度進行劃分:
其中:l4為當月數據優(yōu)惠量;ji為第i個優(yōu)惠政策前每兆數據流量所需資費;ki為第i個優(yōu)惠政策后每兆數據流量所需資費;ri為修正系數.
經過對語音業(yè)務量數據的預處理和各種資費政策的量化后,可以得到兩者的時間序列曲線,根據兩者的時間序列曲線的相對變化態(tài)勢來計算關聯度.所謂兩曲線的相對變化勢態(tài)的接近程度,是指兩時間序列在對應各時段Δtk=tk-tk-1(k=2,3,…,n)間原始變量經標準化后的增量的大小來判定的,若在時段Δtk間兩增量相等或接近于相等,則這兩時間序列在時段Δtk間的關聯系數就大;反之,就小.
對于時間區(qū)間[g,h],h>g≥0,預處理后的語音業(yè)務量數據以及量化后的各種資費政策的時間序列在[g,h]上各點的取值分別為:
y={y(t1),y(t2),…,y(tn)}
l1={l1(t1),l1(t2),…,l1(tn)}
l2={l2(t1),l2(t2),…,l2(tn)}
l3={l3(t1),l3(t2),…,l3(tn)}
l4={l4(t1),l4(t2),…,l4(tn)}
(1)標準化.通過標準化可以使語音業(yè)務量與各種資費政策的時間序列之間具有可比性.
其中,Y為語音業(yè)務量標準化之后的時間序列;L1為通話類資費政策標準化之后的時間序列.
(2)求增量序列.
ΔY={ΔY(tk)=Y(tk)-Y(tk-1),k=2,3,…,n}
ΔL1={ΔL1(tk)=L1(tk)-L1(tk-1),k=2,3,…,n}
(3)計算各時段的關聯系數.
在上式中,sgn(ΔY(tk),ΔL1(tk))確定關聯系數ξ(tk)的符號,即當sgn(ΔY(tk),ΔL1(tk))>0時,關聯系數ξ(tk)>0,表示y與l1在tk-1時點到tk時點這一時段間Δtk是同方向變化的,即正關聯;當sgn(ΔY(tk),ΔL1(tk))<0時,關聯系數ξ(tk)<0,表示y與l1在tk-1時點到tk時點這一時段間Δtk是反方向變化的,即負關聯;當sgn(ΔY(tk),ΔL1(tk))=0時,關聯系數ξ(tk)=0,表示y與l1在tk-1時點到tk時點這一時段間Δtk是不關聯的.
(4)計算關聯度.記預處理后的語音業(yè)務量數據以及量化后的通話類資費政策的時間序列的關聯度為:r(y,l1),則:
記預處理后的語音業(yè)務量數據以及量化后的IP類優(yōu)惠資費政策的時間序列的關聯度為:r(y,l2);記預處理后的語音業(yè)務量數據以及量化后的漫游類優(yōu)惠資費政策的時間序列的關聯度為:r(y,l3);記預處理后的語音業(yè)務量數據以及量化后的數據類優(yōu)惠資費政策的時間序列的關聯度為:r(y,l4).r(y,l2)、r(y,l3)以及r(y,l4)的求解方法與r(y,l1)類似.通過求解語音業(yè)務量與各種資費政策的關聯度,可以得到兩者的關系模型為:
y=r(y,l1)l1+r(y,l2)l2+r(y,l3)l3+r(y,l4)l4
利用資費政策與語音業(yè)務量關系模型,可以算出某一時期語音業(yè)務量的計算值.在考慮經濟發(fā)展因素影響的基礎上,將其與該時期實際語音業(yè)務量相比較,可以檢驗資費政策與語音業(yè)務量關系模型的精度.
表1 2007年1~3月的語音業(yè)務量特征數據
上文中,利用2005年8月至2006年3月的數據建模,通過求解模型,得出了各個資費政策對話務量的定量影響,下面以2007年1~3月的數據為樣本進行模型驗證.2007年1~3月的語音業(yè)務量特征數據如表1所示.
根據資費政策與語音業(yè)務量關系模型y=r(y,l1)l1+r(y,l2)l2+r(y,l3)l3+r(y,l4)l4可以得出:
表2 模型精度分析表
由以上的驗證結果可以看出,該模型具有較高的精度,并且具有良好的數據無偏性.
本文在對移動通信資費政策與業(yè)務量歷史數據特點進行詳細分析的基礎上,運用數據挖掘的方法,分離出引起業(yè)務量波動的除資費政策之外的因素,采用關聯分析法建立了資費政策和業(yè)務量之間的定量關系模型,并對其精度進行了驗證.驗證結果表明,該模型能夠較準確地反映業(yè)務量與資費政策之間的定量關系,為移動通訊運營商進行資費政策決策提供依據.同時,本研究方法也適用于數據業(yè)務.
參考文獻
[1] 呂志國. 基于數據挖掘的移動資費套餐設計模型的建立與實現[J].中國管理信息化, 2007,10(12):23-26.
[2] 林向陽. 基于數據挖掘的移動大客戶流失分析[D].北京:清華大學碩士學位論文,2008:30-50.
[3] 楊 蘋, 吳 捷.火電廠鍋爐常見故障的數據挖掘診斷方法[J].儀器儀表學報,2005:26(7):696-701.
[4] 全小曼. 基于數據挖掘技術的電信資費套餐設計[J]. 現代電信科技,2007,(11):28-32.
[5] 王正新, 黨耀國, 曹明霞. 基于灰熵優(yōu)化的加權灰色關聯度[J]. 系統(tǒng)工程與電子技術,2010,32(4):774-777.
[6] 唐五湘. T型關聯度及其計算方法[J]. 數理統(tǒng)計與管理,1995,14(1):34-38.
[7] 陳 鋼.數據挖掘技術在移動通訊領域的應用研究[D].北京:北京郵電大學碩士學位論文,2007:18-71.
[8] 謝 萌.關于我國移動電信資費套餐制定的研究[D].南京:南京航天航空大學碩士學位論文,2007:20-53.
[9] 李 丹.基于粗糙集的數據挖掘屬性約簡算法的研究[D].哈爾濱:哈爾濱工程大學碩士學位論文,2008:26-39.
[10] 李寧寧.基于粗糙集理論的數據挖掘應用研究[D].大連:大連理工大學碩士學位論文,2007:25-47.