顧純棟(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444)
基于ε-SVR的用戶視聽(tīng)在線人數(shù)預(yù)測(cè)
顧純棟
(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444)
預(yù)測(cè)視聽(tīng)在線人數(shù)能夠幫助廠商提供有價(jià)值的信息,獲取更大效益.從時(shí)間序列分析出發(fā),經(jīng)過(guò)特征調(diào)整,利用支持向量回歸對(duì)用戶視聽(tīng)在線人數(shù)進(jìn)行準(zhǔn)確預(yù)測(cè).首先,對(duì)數(shù)據(jù)進(jìn)行時(shí)間序列分析建模并預(yù)測(cè);然后,將模型視為線性回歸對(duì)用戶視聽(tīng)在線人數(shù)作進(jìn)一步改進(jìn),結(jié)合時(shí)間與實(shí)際生活中的特征進(jìn)行調(diào)整,并添加了新的特征;接著,對(duì)新特征組成的樣本進(jìn)行支持向量回歸,通過(guò)社會(huì)認(rèn)知優(yōu)化尋找徑向基函數(shù)中的最優(yōu)參數(shù);最后,得到比較理想的預(yù)測(cè)效果.
自回歸滑動(dòng)平均模型;線性回歸;支持向量回歸
多媒體視聽(tīng)點(diǎn)播是現(xiàn)今生活中主流的娛樂(lè)方式之一,也是非常重要的一種信息傳播媒介.與傳統(tǒng)電視臺(tái)串行連續(xù)流(serial continuous flow)不同,觀眾可以通過(guò)點(diǎn)播自由選擇需要觀賞的視聽(tīng)節(jié)目,而不受播出時(shí)間的限制,并通過(guò)機(jī)頂盒等設(shè)備記錄此類多媒體視聽(tīng)點(diǎn)播數(shù)據(jù).
點(diǎn)播平臺(tái)在線人數(shù)和傳統(tǒng)收視率調(diào)查數(shù)據(jù)相比,受眾的偏好等主觀因素已經(jīng)反映在其主動(dòng)選擇點(diǎn)播的節(jié)目?jī)?nèi)容中,因而在線人數(shù)的記錄已經(jīng)不再含有主觀偏好因素.主要原因在于此類視聽(tīng)內(nèi)容已經(jīng)不再是連續(xù)流播放模式,而是以數(shù)據(jù)庫(kù)的形式存儲(chǔ)并播放,可默認(rèn)視聽(tīng)內(nèi)容在數(shù)據(jù)庫(kù)中保持較恒定的狀態(tài),即單一用戶的選擇不受時(shí)間限制,在機(jī)頂盒打開(kāi)的前提下,用戶在線時(shí)長(zhǎng)較少受到其對(duì)節(jié)目?jī)?nèi)容喜好變化的影響.相比節(jié)目?jī)?nèi)容,在線人數(shù)的數(shù)據(jù)變化更加依賴時(shí)間走勢(shì),因此在線人數(shù)數(shù)量能從一定程度上反映出人們的生活作息、點(diǎn)播平臺(tái)活躍情況等有價(jià)值的信息.預(yù)測(cè)未來(lái)的在線人數(shù)能為廠商提供有效的商業(yè)決策依據(jù),調(diào)整點(diǎn)播內(nèi)容,并且對(duì)當(dāng)前平臺(tái)流量占用情況及時(shí)偵測(cè)并預(yù)警,合理控制擁塞風(fēng)險(xiǎn),以更好地為用戶提供服務(wù),從而獲取更大效益.
同時(shí),若需評(píng)估基于用戶偏好的收視趨勢(shì),則可以基于某個(gè)特定收視內(nèi)容的數(shù)據(jù)記錄,通過(guò)橫向比較,以及從此類海量數(shù)據(jù)入手挖掘相應(yīng)的時(shí)間段、年齡段、地域段等的潛在關(guān)系,最終得出不同收視內(nèi)容對(duì)用戶吸引力的評(píng)價(jià)指數(shù)(evaluation index,EI),從而為制作商提高節(jié)目質(zhì)量提供參考依據(jù).因而,通過(guò)機(jī)頂盒等設(shè)備記錄此類多媒體視聽(tīng)點(diǎn)播數(shù)據(jù),比傳統(tǒng)收視率調(diào)查更具主動(dòng)性、準(zhǔn)確性和多樣性.
本研究以上海某公司機(jī)頂盒對(duì)上海市全市用戶在一定時(shí)間段內(nèi)的記錄數(shù)據(jù)為樣本,對(duì)基于時(shí)間軸的在線人數(shù)數(shù)據(jù)進(jìn)行處理.首先,對(duì)原始數(shù)據(jù)進(jìn)行清理并獲得每一時(shí)刻的在線人數(shù),對(duì)在線人數(shù)進(jìn)行時(shí)間序列分析建模并預(yù)測(cè);然后,將模型視為線性回歸作進(jìn)一步改進(jìn),結(jié)合時(shí)間與實(shí)際生活中的特征進(jìn)行調(diào)整,并添加新的特征;接著,對(duì)新特征組成的樣本進(jìn)行支持向量回歸,通過(guò)社會(huì)認(rèn)知優(yōu)化尋找徑向基函數(shù)中的最優(yōu)參數(shù);最后,得到比較理想的預(yù)測(cè)效果.
1.1時(shí)間序列分析
自回歸滑動(dòng)平均(auto-regressive and moving average,ARMA)模型適用于對(duì)平穩(wěn)序列的預(yù)測(cè).ARMA模型把時(shí)間序列看作白噪聲殘差與滯后時(shí)間序列的線性組合.隨著時(shí)間的推移,線性方程中的參數(shù)不變,一段連續(xù)的白噪聲殘差和數(shù)據(jù)隨時(shí)間向后滑動(dòng)更新.p階滯后自回歸與q階滑動(dòng)組合的ARMA(p,q)模型表達(dá)式[1]如下:
文獻(xiàn)[2]就使用ARMA模型預(yù)測(cè)了某電視臺(tái)的收視率.針對(duì)具有明顯周期性的數(shù)據(jù),在ARMA模型上增加季節(jié)s滯后時(shí)間點(diǎn)就演變成了乘法季節(jié)ARMA(seasonal autoregressive and moving average,SARMA)模型,這些時(shí)間點(diǎn)具有周期性且可以不連續(xù).乘法季節(jié)ARMA(p,q)×(P,Q)S模型表達(dá)式如下:
1.2線性回歸
線性回歸(linear regression,LR)是監(jiān)督式機(jī)器學(xué)習(xí)中的一種基本方法.線性回歸是一組線性方程,數(shù)據(jù)中的樣本值被視為多個(gè)變量的加權(quán)和.這些指定的變量被稱為特征向量,線性回歸認(rèn)為樣本值的大小與這些特征向量有關(guān).從幾何意義上看,這些數(shù)據(jù)對(duì)應(yīng)的樣本點(diǎn)都在某個(gè)多維平面上,通過(guò)線性回歸要找到一組與變量對(duì)應(yīng)的最佳參數(shù),使得方程能夠盡可能擬合該多維平面,匹配樣本值.擬合線性回歸可以通過(guò)對(duì)代價(jià)函數(shù)求導(dǎo)取極小值,從而得到一個(gè)最優(yōu)解作為參數(shù),具體步驟如下[3].
已知n×1維樣本向量y,n×d維特征矩陣X,1×d維參數(shù)向量θ,n×1維擬合向量y′,則線性回歸方程為
代價(jià)函數(shù)為
求代價(jià)函數(shù)E(θ)關(guān)于參數(shù)向量θ的導(dǎo)數(shù):
進(jìn)一步換算可得
從而得到參數(shù)向量θ的最優(yōu)解為
1.3ε-支持向量回歸
支持向量回歸結(jié)合支持向量機(jī)(support vector machine,SVM)與線性回歸對(duì)數(shù)據(jù)進(jìn)行擬合.SVM分類器是支持向量的線性組合,通過(guò)訓(xùn)練出的參數(shù)來(lái)指定哪些向量為支持向量,以及這些支持向量的線性組合方式.由于樣本可能會(huì)有噪聲而難免產(chǎn)生誤差,因此在多維擬合平面允許出現(xiàn)一個(gè)上下浮動(dòng)的范圍ε,此模型就稱為ε支持向量回歸(ε support vector regression,ε-SVR)[4].
與僅最小化現(xiàn)有樣本的誤差不同,支持向量回歸嘗試最小化泛化誤差,以達(dá)到更佳的泛化效果.支持向量回歸的思想基于高維特征空間內(nèi)的線性回歸計(jì)算,高維特征空間可以把輸入樣本映射到非線性方程,具體表達(dá)式如下:
當(dāng)所有樣本擬合在一個(gè)超平面上時(shí),SVM從這些樣本中找到離超平面最近的樣本作為支持向量,并使得支持向量與超平面的距離保持最大.由此可得參數(shù)w的優(yōu)化表達(dá)式如下:
參數(shù)w的表達(dá)式由L2正則化嶺回歸模型演變而來(lái),通過(guò)參數(shù)C來(lái)調(diào)整對(duì)誤差的懲罰程度.參數(shù)w實(shí)質(zhì)是樣本x的線性組合,將參數(shù)w分解為βTx,其中x高維度映射的內(nèi)積可由核函數(shù)K(x,x′)完成,轉(zhuǎn)換后變?yōu)樽钚《酥С窒蛄繖C(jī)(least-squares SVM,LSSVM),其訓(xùn)練優(yōu)化表達(dá)式如下:
為了稀疏化參數(shù)β,由ξ∧和ξ∨表示樣本與超平面的上下偏離程度,從而軟化邊界,并加入寬容度為ε的管道結(jié)合KKT(Karush-Kuhn-Tucker)條件來(lái)進(jìn)一步提高容錯(cuò),轉(zhuǎn)換后的模型成為ε-SVR,其訓(xùn)練優(yōu)化表達(dá)式如下:
1.4社會(huì)認(rèn)知優(yōu)化
目前常見(jiàn)的集群智能算法有蟻群算法、遺傳算法、粒子群優(yōu)化(particle swarm optimization,PSO)算法等.2002年,Xie等[5]設(shè)計(jì)了一種基于社會(huì)認(rèn)知理論的群集智能優(yōu)化算法——社會(huì)認(rèn)知優(yōu)化(social cognitive optimization,SCO).
SCO算法的步驟如下.
(1)初始化:建立公共知識(shí)庫(kù)L(library),將nl個(gè)隨機(jī)生成的待優(yōu)化樣本作為知識(shí)點(diǎn),另建立ns個(gè)社會(huì)代理SA(social agent),社會(huì)代理?yè)碛凶陨淼闹R(shí)點(diǎn).
(2)進(jìn)入學(xué)習(xí)周期:每個(gè)SA從知識(shí)庫(kù)L中隨機(jī)選取n個(gè)知識(shí)點(diǎn)進(jìn)行競(jìng)爭(zhēng)選擇.
(3)選出的知識(shí)點(diǎn)再和SA自身的知識(shí)點(diǎn)進(jìn)行比較,將較好的知識(shí)點(diǎn)作為基準(zhǔn)點(diǎn)xb,將另一個(gè)知識(shí)點(diǎn)作為參考點(diǎn)xr.SA基于二者重新生成新知識(shí)點(diǎn)xn,生成規(guī)則如下:
(4)將SA更新的新知識(shí)點(diǎn)放回知識(shí)庫(kù)L.
(5)學(xué)習(xí)周期完成:更新知識(shí)庫(kù)L,淘汰掉末尾最差的若干個(gè)知識(shí)點(diǎn),一般淘汰的數(shù)量與SA的數(shù)量相同,然后進(jìn)入下一輪學(xué)習(xí)周期.
經(jīng)過(guò)數(shù)次循環(huán)更新后,知識(shí)庫(kù)中最優(yōu)的知識(shí)點(diǎn)便是所求最優(yōu)解.對(duì)于一些優(yōu)化問(wèn)題的求解,SCO算法在效率與收斂穩(wěn)定性上比蟻群算法、遺傳算法、PSO算法等都有一定的提高[6].
2.1數(shù)據(jù)清理
原始數(shù)據(jù)記錄了每秒用戶的操作日志,并按日期保存在若干文本文件中.數(shù)據(jù)內(nèi)容包含用戶設(shè)備MAC地址、點(diǎn)播流文件、租看時(shí)間、過(guò)期時(shí)間等信息.數(shù)據(jù)時(shí)間跨度為從2013年1月起的170天.將日志載入數(shù)據(jù)庫(kù)內(nèi)進(jìn)行整理,剔除空記錄亂碼等無(wú)效數(shù)據(jù).將最終數(shù)據(jù)以每10 min為一組,對(duì)此時(shí)間段內(nèi)在線的用戶計(jì)數(shù),時(shí)間段內(nèi)無(wú)記錄的以零補(bǔ)齊.經(jīng)過(guò)處理后輸出的最終樣本為n×1維向量y,時(shí)間跨度為5個(gè)月.
2.2模型建立
2.2.1SARMA模型定階
觀察時(shí)間序列是否平穩(wěn),通過(guò)樣本自相關(guān)函數(shù)(auto correlation function,ACF)檢驗(yàn)拒絕不存在單位根的零假設(shè),拒絕樣本不平穩(wěn)假設(shè),由此判斷樣本是平穩(wěn)的,可以無(wú)需拆分而直接使用ARMA模型.觀察樣本的自相關(guān)和偏相關(guān)系數(shù),根據(jù)前300個(gè)時(shí)間點(diǎn)的樣本ACF(見(jiàn)圖1)可知,樣本拖尾明顯.每隔144個(gè)時(shí)間點(diǎn),樣本就會(huì)出現(xiàn)一次明顯的強(qiáng)相關(guān),這里假定季節(jié)s為144.
圖1 前300個(gè)時(shí)間點(diǎn)的樣本ACFFig.1 Sample ACF for 300 time points in front
如圖2所示,每7個(gè)假設(shè)季節(jié)段(1 008個(gè)時(shí)間點(diǎn))中,強(qiáng)相關(guān)的幅度遵循由高到低再由低到高的周期性變化,每一個(gè)周期的起始點(diǎn)由符號(hào)“X”標(biāo)出,由此推斷還存在一個(gè)更加廣泛的季節(jié)周期,從而得到季節(jié)s為1 008.
圖2 前10 000個(gè)時(shí)間點(diǎn)的樣本ACFFig.2 Sample ACF for 10 000 time points in front
根據(jù)樣本偏自相關(guān)分析函數(shù)(partial auto correlation function,PACF)(見(jiàn)圖3)可知,當(dāng)時(shí)間滯后超過(guò)5個(gè)時(shí)間點(diǎn)時(shí),后續(xù)樣本的偏自相關(guān)系數(shù)均不再顯著超過(guò)指定閾值,由此可見(jiàn)時(shí)間滯后長(zhǎng)度為5時(shí)PACF值出現(xiàn)了明顯截尾.結(jié)合ACF明顯拖尾的情況,給出自回歸(auto-regressive,AR)的階數(shù)p為5,滑動(dòng)平均(moving average,MA)的階數(shù)q為0[2].由此得到定階后的ARMA(5,0)×(1,0)1008模型.
圖3 樣本PACFFig.3 Sample PACF
2.2.2線性回歸模型特征選取
為了更準(zhǔn)確地預(yù)測(cè)數(shù)據(jù)走勢(shì),除了使用理論模型,還需要與實(shí)際情況相結(jié)合.ARMA模型只適合平穩(wěn)數(shù)據(jù),所預(yù)測(cè)的數(shù)據(jù)只會(huì)依照某種規(guī)律發(fā)生機(jī)械性變化,不會(huì)考慮到實(shí)際情況下的一些不具有明顯時(shí)間規(guī)律性的因素.而且如果預(yù)測(cè)時(shí)間跨度過(guò)大,準(zhǔn)確度會(huì)出現(xiàn)較大偏差,使用范圍有限.通過(guò)觀察發(fā)現(xiàn),可將SARMA模型視為某種線性回歸模型,含有特征向量et,Yt-i,Yt-1 008-i(i∈[0,5]).增加有效特征向量后,線性回歸的擬合度會(huì)明顯上升,可以根據(jù)實(shí)際情況再添加某些特征向量.這里根據(jù)時(shí)間特性分別添加了當(dāng)前數(shù)據(jù)的日期、時(shí)間、節(jié)假日信息、每段時(shí)間影響因子等特征,具體涵義如下.
x1:日期,當(dāng)前數(shù)據(jù)在某月中的第幾天;
x2:小時(shí),24小時(shí)制,當(dāng)前數(shù)據(jù)在一天中的幾點(diǎn);
x3:分鐘,時(shí)間最小以每10 min為一段;
x4:樣本所在這天是星期幾;
x5:樣本所在這天的屬性,1為正常工作日,2為節(jié)假日調(diào)整工作日,3為正常雙休日,4為節(jié)假日調(diào)整休息日;
x6:對(duì)應(yīng)x1影響因子,每月同一天總?cè)藬?shù)樣本均值;
x7:對(duì)應(yīng)x2影響因子,每天同一小時(shí)總?cè)藬?shù)樣本均值;
x8:對(duì)應(yīng)x3影響因子,每小時(shí)同一時(shí)間段總?cè)藬?shù)樣本均值;
x9:對(duì)應(yīng)x4影響因子,每周同一天總?cè)藬?shù)樣本均值;
x10:對(duì)應(yīng)x5影響因子,同一屬性的時(shí)間里總?cè)藬?shù)樣本均值;
x11:每天變化均值;
x12:每周變化均值.
為提高計(jì)算效率,時(shí)間序列特征僅保留季節(jié)一階滯后Yt-1008,在實(shí)際中對(duì)準(zhǔn)確率造成的影響有限,整個(gè)線性回歸模型的特征數(shù)為13.
2.2.3ε-SVR模型參數(shù)選定
支持向量回歸相比線性回歸有更強(qiáng)的泛化能力來(lái)擬合任意函數(shù).本研究選用ε支持向量回歸,核函數(shù)K(x,x′)選擇徑向基函數(shù)(radical basis function,RBF)對(duì)特征向量進(jìn)行無(wú)窮高次冪映射.RBF表達(dá)式如下:
指定懲罰因子C,通過(guò)SCO算法尋找最優(yōu)RBF參數(shù)γ[7],參數(shù)γ的優(yōu)劣評(píng)價(jià)準(zhǔn)則由SVR模型2-fold交叉驗(yàn)證得到的誤差平方和來(lái)決定.在實(shí)驗(yàn)中調(diào)整SVR模型參數(shù)時(shí)發(fā)現(xiàn),雖然懲罰系數(shù)C越大,擬合效果越好,但時(shí)間代價(jià)呈幾何級(jí)數(shù)增長(zhǎng),擬合度提高程度卻非常有限.參數(shù)γ在給定的一個(gè)足夠廣的范圍內(nèi)具有凸優(yōu)化性質(zhì),能夠通過(guò)SCO算法在這個(gè)范圍內(nèi)找到全局最優(yōu)解.但系數(shù)C不同,最優(yōu)參數(shù)γ也會(huì)不同.最后,通過(guò)實(shí)驗(yàn)將參數(shù)C確定為1.0×104,模糊邊界ε的上下浮動(dòng)范圍各為50,將選定模型通過(guò)SCO算法優(yōu)化后得到最優(yōu)參數(shù)γ約為1.7737×10-7.
處理后的數(shù)據(jù)為2013年1月至5月每10 min用戶在線人數(shù)的訓(xùn)練樣本,樣本數(shù)約為23000條.通過(guò)這些樣本預(yù)測(cè)2013年6月前7天的在線人數(shù),預(yù)測(cè)數(shù)據(jù)量約為1000.原2013 年6月的數(shù)據(jù)用以檢驗(yàn)預(yù)測(cè)結(jié)果.在線性回歸和支持向量回歸中,訓(xùn)練和檢測(cè)樣本的特征向量x6,x7,···,x12均只通過(guò)訓(xùn)練樣本產(chǎn)生.已知實(shí)際結(jié)果y和預(yù)測(cè)結(jié)果y′,模型預(yù)測(cè)準(zhǔn)確度(精確到小數(shù)點(diǎn)后兩位)為
通過(guò)ARMA(5,0)×(1,0)1008模型、線性回歸、ε-SVR預(yù)測(cè)的結(jié)果如圖4所示.
圖4 用ARMA(5,0)×(1,0)1 008模型、線性回歸和ε-SVR預(yù)測(cè)未來(lái)一周在線人數(shù)Fig.4 Prediction number of online users in next week by ARMA(5,0)×(1,0)1 008model,LR and ε-SVR
從圖4可以看出,3種模型都可以對(duì)未來(lái)的數(shù)據(jù)走向作出預(yù)測(cè),部分時(shí)間段內(nèi)每個(gè)模型的預(yù)測(cè)值與實(shí)際值的差異各有優(yōu)劣.為了能夠明確作出比較,分別通過(guò)平均絕對(duì)誤差、準(zhǔn)確率等指標(biāo)計(jì)算3種模型預(yù)測(cè)的準(zhǔn)確度(見(jiàn)表1).
表1 3種模型預(yù)測(cè)準(zhǔn)確度比較Table 1 Comparison of prediction accuracy of three methods
經(jīng)過(guò)計(jì)算對(duì)比得出,ε-SVR預(yù)測(cè)出的結(jié)果無(wú)論在誤差范圍還是準(zhǔn)確率上都要優(yōu)于其他兩種模型.
下面對(duì)3種模型進(jìn)行對(duì)比分析.從表達(dá)式上不難看出,ARMA模型是一類有著特定特征向量的線性回歸方程.ARMA模型中的預(yù)測(cè)數(shù)據(jù)將被作為新樣本特征值,而誤差會(huì)成為噪聲存在于新樣本中,隨著時(shí)間的推移,噪聲越來(lái)越強(qiáng).雖然一開(kāi)始有不錯(cuò)的預(yù)測(cè)效果,但之后的預(yù)測(cè)準(zhǔn)確度明顯降低,數(shù)據(jù)的走勢(shì)非常機(jī)械化.所以,時(shí)間序列分析中的ARMA模型只能根據(jù)已有數(shù)據(jù)的走勢(shì)來(lái)預(yù)測(cè)短期趨勢(shì)[8].為了減少預(yù)測(cè)數(shù)據(jù)和殘差對(duì)新樣本的噪聲影響,本研究對(duì)原有ARMA模型作出改進(jìn),將其視為線性回歸模型,在去除殘差和部分滯后時(shí)間序列的基礎(chǔ)上,結(jié)合實(shí)際情況中的節(jié)假日、影響因子等因素增加新的特征向量,而不再拘束于時(shí)間序列本身.盡管線性回歸比ARMA模型更能結(jié)合實(shí)際情況進(jìn)行預(yù)測(cè),但其泛化能力有限.支持向量回歸是一種理想的非線性模型,通過(guò)核函數(shù)將特征向量映射到高維度空間,結(jié)合模糊邊界提高樣本容錯(cuò)度,在實(shí)際應(yīng)用中取得了較為理想的效果.
對(duì)比3種預(yù)測(cè)方法,除了模型選擇,特征向量的選取也會(huì)影響預(yù)測(cè)效果.雖然本研究基于原始數(shù)據(jù)對(duì)在線人數(shù)進(jìn)行預(yù)測(cè),較為充分地考慮了多種與時(shí)間有關(guān)的變化因素,但部分時(shí)間段的預(yù)測(cè)準(zhǔn)確度仍然有比較大的提升空間,推測(cè)還可能存在其他原始數(shù)據(jù)中未能記錄的環(huán)境特征變化因素.
[1]CRYER J D,CHAN K S,潘紅宇.時(shí)間序列分析及應(yīng)用:R語(yǔ)言[M].北京:機(jī)械工業(yè)出版社,2011.
[2]劉輝,杜秀華.基于ARMA模型的電視臺(tái)收視率預(yù)測(cè)方法設(shè)計(jì)和實(shí)現(xiàn)[J].控制工程,2009(S1):9-11.
[3]CHERKASSKY V,MULIER F M.Learning from data:concepts,theory,and methods[M].NY:John Wiley&Sons,2007.
[4]SMOLA A J,SCH¨OLKOPF B.A tutorial on support vector regression[J].Statistics and Computing,2004,14(3):199-222.
[5]XIE X F,ZHANG W J,YANG Z L.Social cognitive optimization for nonlinear programming problems[C]//Proceeding of the First International Conference on Machine Learning and Cybernetics.2002:779-783.
[6]XIE X F,ZHANG W J.Solving engineering design problems by social cognitive optimization[C]// Genetic and Evolutionary Computation—GECCO 2004.2004:261-262.
[7]李童,毛力,吳濱.基于改進(jìn)PSO優(yōu)化SVR的交通事故預(yù)測(cè)模型[J].計(jì)算機(jī)與現(xiàn)代化,2014(5):28-32.
[8]潘紅宇.時(shí)間序列分析[M].北京:對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2006.
Predicting number of online users by ε-SVR
GU Chundong
(School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China)
Predicting the number of online audio-visual users can provide valuable information to help manufacturers get more profits.Based on time series analysis,support vector regression is used to make accurate prediction with adjusted feature.The time series is first modeled and predicted,a linear regression model used to make further improvement,and then,by combining time and real-life characteristics,adding a new feature.Samples of the new feature are trained with support vector regression.Optimal parameters of the radial basis function are sought using the social cognitive optimization.A good prediction result can be obtained using the proposed method.
auto-regressive and moving average(ARMA);linear regression;support vector regression
TP274;O212
A
1007-2861(2016)01-0097-08
10.3969/j.issn.1007-2861.2015.05.001
2015-11-30
國(guó)家自然科學(xué)基金青年資助項(xiàng)目(11501352)
顧純棟(1990—),男,碩士研究生,研究方向?yàn)閿?shù)據(jù)分析.E-mail:gcd9073@163.com