邱望仁,劉曉東,賀建軍
(1.景德鎮(zhèn)陶瓷學院 信息工程學院,江西 景德鎮(zhèn) 333403;2.大連理工大學 控制科學與工程學院,遼寧 大連 116024;3.大連民族學院 信息與通信工程學院,遼寧 大連 116602)
自從1993年Song等提出了模糊時間序列預測模型[1-2]以來,人們對這種模型進行了深入廣泛的研究.應用方面,它已經(jīng)被應用于招生人數(shù)[1-6]、股指[7-11]、溫度[12]、外匯交易[13]、文化衛(wèi)生[14-15]等各個領域的預測工作中.理論方面,對模型中模糊關系的建立與利用[3-4,9,11]、模糊規(guī)則的挖掘[10]等方面有了大量的研究成果.
然而,不同領域問題千差萬別,即使在同一領域,面對的是同一問題,由于看待問題的角度、處理問題的方式均可能不同,則對待它的態(tài)度也不一定相同.故人們對模糊時間序列模型的研究工作遠沒結束.傳統(tǒng)模型只考慮觀測值對應的隸屬度最大的模糊子集,它在哲學上可以理解為抓主要矛盾.然而,據(jù)辯證法的思想,次要矛盾在一定的條件下也可能轉變?yōu)橹饕埽@要求人們在處理問題時要考慮次要矛盾的影響.該思想在模糊時間序列模型中體現(xiàn)為在預測過程中要考慮觀測值的模糊子集某一個適當?shù)淖蛹瘜︻A測結果的影響,從而得到合理、可靠的結果.基于這種考慮,文獻[9]提出了廣義模糊時間序列模型.
由于廣義模型提出的時間較短,對它的研究還有待于深入.根據(jù)人們對傳統(tǒng)模型的研究得知,模糊區(qū)間的劃分對模型的預測效果有很大的影響,所以本文以3種不同模糊區(qū)間的劃分方法為基礎,建立廣義模糊時間序列模型,并對模型的預測結果進行分析.
下面在傳統(tǒng)模糊時間序列模型的框架下,介紹幾個必要的定義和廣義模糊時間序列模型.
定義1 設U為論域,用區(qū)間表示為[a,b],給定U的一個次序分割集為U={u1,u2,…,un},定義A為論域U上的語義變量集(即模糊集),并記為
式中:fA是定義在A上的模糊隸屬函數(shù),fA:U→[0,1];fA(ui)表示ui在模糊集A上的模糊隸屬度的值,1≤i≤n.
在模糊時間序列模型中,常用如下三角函數(shù)來定義模糊集:
對模糊概念Ai的隸屬度函數(shù)常用下式來計算:
其中l(wèi)in表示子區(qū)間的長度,t為時刻.
定義2 對任意一個固定的Y(t)(t=…,0,1,2,…),設Y(t)R,即為實數(shù)域的子集,Y(t)上定義了一組模糊集fi(t)(i=1,2,…),且F(t)={f1(t),f2(t),…},則稱F(t)為定義在Y(t)上的模糊時間序列.
這里的F(t)為語言變量,fi(t)為F(t)中可能的語言值(即定義1中的fA(ui)).設它有n個模糊子集,經(jīng)典模糊時間序列模型的相關定義可以作如下推廣.
定義3 設(μ1(t),μ2(t),…,μn(t))、(μ1(t+1),μ2(t+1),…,μn(t+1))分別為t和t+1時刻的觀測值F(t)、F(t+1)在給定模糊子集上的隸屬度.μi(t)和μj(t+1)分別對應著模糊集Ati和At+1j,則在相鄰兩個觀測點可以得到n2個邏輯關系,它們可以表示為Ati→At+1j(i,j=1,2,…,n),稱這些關系為廣義模糊邏輯關系.這里的Ati也被稱為模糊關系的左件(或者前件),At+1j被稱為模糊關系的右件(或者后件).
這個定義包括觀測值的模糊集構成的全部模糊關系,而傳統(tǒng)定義中只考慮觀測值中隸屬度最大值模糊集生成的模糊關系.
定義4 設(μ1(t),μ2(t),…,μn(t))、(μ1(t+1),μ2(t+1),…,μn(t+1))分別為t和t+1時刻的觀測值F(t)、F(t+1)在給定模糊子集上的隸屬度.μi(t+1)和μj(t+1)分別對應著模糊集Ati和Atj+1.如果(t)是(μ1(t),μ2(t),…,μn(t))的最大值(t)是(μ1(t+1),μ2(t+1),…,μn(t+1))的最大值,則稱為第一主要模糊關系,其中對應的模糊集.當(t)是(μ1(t),μ2(t),…,μn(t))的第k大值時,稱為第k主要模糊關系.
根據(jù)該定義,第k主要模糊關系記為GL(1,k).這里1是指兩樣本之間只隔一個時間段,對于隔多個時間段的關系則是高階模型研究的內容.因此該定義中的兩類模糊關系可以分別記為GL(1,1)和GL(1,k).由于人們在分析問題時次要矛盾不會考慮太多,k在實際應用中的取值一般比較小.
根據(jù)定義4,模型的模糊關系非常多,且不是同一層次的,在理論上需要一個運算將不是同一層次但又都包含對決策有影響的信息的關系綜合起來.因此,下面給出一個初步的運算,為建立模型作準備.
定義5 設A(j)tj為第j個主模糊邏輯關系(即GL(1,j))中的前件,R(j)(tj,i)是根據(jù)訓練集得到的模糊邏輯關系矩陣中邏輯關系Atj→Ai的個數(shù).則定義∧k為綜合各層次模糊關系矩陣信息的運算:
詳細的計算過程可參見文獻[9].本文模型即采用該運算進行信息綜合而得到的預測結果.
下面將參考傳統(tǒng)模型,以上述5個定義為基礎,介紹建立廣義模糊時間序列模型的過程.
步驟1 對論域進行模糊劃分.
這一步和傳統(tǒng)模型一樣,要做的工作就是確定論域和各模糊子集的劃分.本文中的模糊集和模糊隸屬度函數(shù)分別選用式(2)和(3).
步驟2 建立模糊關系集合和模糊關系矩陣.
利用式(3),求樣本數(shù)據(jù)對每個模糊集的隸屬度,從而確定相應的模糊概念.這一步要根據(jù)k的取值情況,記錄與每個觀測數(shù)據(jù)相對應的模糊集,然后再根據(jù)定義4確定相鄰兩樣本的廣義模糊邏輯關系.這里可以得到k類模糊關系集合,它們分別是GL(1,1),…,GL(1,k)層次下的模糊關系.最后,根據(jù)步驟2得到的全體廣義模糊邏輯關系,按模糊關系矩陣的建立方法得到模糊關系矩陣.
步驟3 求出觀測值對給定的模糊集的隸屬度值.
先對觀測樣本利用式(3)求出它對各模糊集的隸屬度,根據(jù)k的取值確定各層次下的樣本在模糊關系矩陣中預測下一時刻數(shù)據(jù)的依據(jù).這里要注意的是GL(1,k)層次下模糊關系矩陣中要選取的行就是觀測數(shù)據(jù)中隸屬度值為第k大的那個模糊集對應的行.因此,不同層次下的模糊關系矩陣為下一時刻預測提供的信息可能會在不同的行中得到體現(xiàn).這點反映了在實踐中不同因素對于作決策的方式和影響程度可能不一樣的事實.
步驟4 綜合各層次模糊關系的信息,進行預測.
在這一步中,要利用定義5中的運算把觀測樣本所反映的各種需要考慮的信息綜合起來,為模型的預測做準備.模型預測的數(shù)學公式為
式中:Vf(t+1)是時刻t+1 最終的預測值;是根據(jù)觀測值求得的綜合信息;mi為第i個模糊區(qū)間ui的中心值(i=1,2,…,n).符號“?!贝碇撃P蛯︻A測規(guī)則的運用方法,可以總結為如下兩點:(1)如果向量全體元素都是0,則A(1)t1所對應區(qū)間的中心值作為預測值;(2)其他情況下,預測值就是模糊集對應區(qū)間中心值的加權和,權重就是歸一化后得到的向量.
至此,建立了基于廣義模糊邏輯的模糊時間序列模型.
由于模糊區(qū)間是模糊時間序列模型建立的基石,它對于模型的計算過程和預測精度有很大影響,這方面常常是模型理論研究的第一個重點.自從Song等提出模糊時間序列模型以來,這個問題就得到了很多研究人員的重視,并在這方面有了大量的研究成果.本文將基于均勻劃分、模糊C均值聚類和自動聚類等3種方法建立廣義模糊時間序列模型.
該方法是Song等[1-2]在1993年提出模糊時間序列模型時提出來的,它可以分成3 步:第一步,根據(jù)樣本數(shù)據(jù)中的最小、最大值,分別向下、向上取整,來確定模型的論域;第二步,根據(jù)論域的大小,取一個整數(shù)作為區(qū)間的長度;最后,以該長度為基礎,對論域進行均勻劃分.如果論域U=[a,b],設l為給定的區(qū)間長度,則它的劃分為ui
這種方法的思想是根據(jù)樣本數(shù)據(jù)的分布情況對區(qū)間進行劃分.其中代表性的有Huarng等[8]、Yu[5]的統(tǒng)計法和Li等[12]提出的用優(yōu)化算法尋找最優(yōu)模糊子集的劃分方法.本文研究的是用模糊C均值聚類劃分法對樣本數(shù)據(jù)進行劃分,以得到的各類中心為分界點對論域進行分割.
設FCM 的目標函數(shù)如下:
這里uij介于0到1;zi為模糊組i的聚類中心;dij=zi-xj,為第i個聚類中心與第j個數(shù)據(jù)點間的歐幾里得距離,是一個加權指數(shù).
如果論域U=[a,b],設zi<zi+1,它的劃分為
這類方法的基本思路是利用適當?shù)乃惴ɑ驒C器學習的新方法對樣本數(shù)據(jù)進行聚類分析,然后根據(jù)聚類結果確定各子區(qū)間的劃分.該方法可以分為以下3步:
(1)將數(shù)據(jù)按升序排序,并去除其中的重復數(shù)據(jù),結果形如d1,d2,d3,…,di,…,dn,并用下式計算相鄰兩數(shù)據(jù)差分的平均值.
(2)將步驟(1)處理后的數(shù)據(jù)中的最小值作為當前類.根據(jù)決定下一個數(shù)據(jù)是放在當前類里,或是產(chǎn)生新類;
(3)根據(jù)樣本數(shù)據(jù)的特征調整由步驟(2)產(chǎn)生的聚類.
其中第(2)步中分3種情況構建數(shù)據(jù)的類別,第(3)步中包含一些具體的操作規(guī)則,詳細的算法步驟可以參見文獻[6].
總的來說,研究模糊區(qū)間分類的方法越來越多,并且新技術和方法也常被應用于這方面的研究工作中.這些方法能有效地提高模型的預測效果,特別是如果它采用了模糊聚類技術,則可以通過對聚類中心的解釋來說明各個子區(qū)間所代表的實際意義.因而更符合人們的理解習慣,應用也較廣,已經(jīng)成為當前的研究熱點.
就上述3種方法而言,基于均勻劃分的方法,計算簡單,應用方便.特別是在計算隸屬度時,隸屬函數(shù)的設置非常簡單,計算比較快.該方法是模糊時間序列模型區(qū)間劃分方法的“始祖”,其創(chuàng)新意義非常大,后來的很多模型都是以它為基礎或是對它作些改進.基于FCM 的方法比第一類方法在預測精度上有很大的提高,劃分后得到的區(qū)間的意義需要根據(jù)聚類結果和聚類中心進行相應的分析才能更好地理解它在模糊時間序列模型中的具體意義.然而,有些機器學習的方法對區(qū)間劃分的過程是“黑箱”形式,劃分的結果不容易被人們的自然語言所解釋,這削弱了模糊理論在模型應用方面的優(yōu)勢.基于自動聚類的方法是Chen提出來的,它能根據(jù)樣本數(shù)據(jù)的特征,有效地調整模糊區(qū)間的個數(shù),提高模型的預測精度.但是它對樣本數(shù)據(jù)的具體值及分布非常敏感,因而模型的穩(wěn)定性不高;同時,它劃分得到的區(qū)間數(shù)決定于數(shù)據(jù)本身,因而對預測結果的自然解釋也不容易區(qū)分.
Alabama大學從1971 到1992年22 年間招生人數(shù)的數(shù)據(jù)是Song等提出模糊時間序列模型時用的一組數(shù)據(jù),后來研究模糊時間序列模型的學者常將該數(shù)據(jù)作為模型的測試集.數(shù)據(jù)中最小值為13 055,最大值為19 337,常將討論的論域定義為[13 000,20 000].
上海股票交易綜合指數(shù)是一種典型的時間序列數(shù)據(jù),由于它數(shù)據(jù)量大,具有代表性,且股票數(shù)據(jù)也常被應用于對模型的研究,本文選擇它作為第2個測試集.數(shù)據(jù)的選擇范圍為1997年1月1日至2006年12月31日共10年間的數(shù)據(jù),并以每年的數(shù)據(jù)作為一個測試集,根據(jù)當年數(shù)據(jù)情況確定討論區(qū)間的上下界,得到模型的論域,共有10組測試集.
在建立模糊關系矩陣的過程中有3種常用的方法,為了更深入地研究廣義模型的特點,下面簡單介紹它們,并在后面的實驗中分別討論在這些方法下模型的預測效果.
第1種是Song等的模型[1-2]中的方法,其先定義了一個“乘”運算,將運算結果得到的矩陣表示模糊關系,然后用取最大值的方法將這些關系矩陣合成為一個模糊關系矩陣.第2 種是Chen提出的模型[3]中的方法,其建立的模糊關系矩陣R是由模糊關系是否存在而定的,即存在就定義相應位置元素為1,否則為0.這種方法計算簡便,是第一種方法的改進.第3種方法中的模糊關系矩陣的元素用關系“Ai→Aj”在訓練集中出現(xiàn)的次數(shù)取代了.
本文討論的是在廣義模糊時間序列模型的框架下,分別用均勻劃分、FCM 和自動聚類3種方法對模糊區(qū)間進行劃分,用Song等[1]、Chen[3]和Lee等[4]的方法建立模糊關系矩陣,然后根據(jù)對各模糊區(qū)間中心值加權的方法進行預測.實驗將對模型在這3種區(qū)間劃分方法和3種建立關系矩陣方法下的預測結果進行深入分析.
廣義模型是一個新的模型,它同以往的模型有較大的不同,所以在對實驗結果評估方面,本文采用了多種標準同時進行,它們分別是均方根誤差(erms)、平均絕對誤差(ema)和平均百分比誤差(emap).
表1列出了傳統(tǒng)模型和廣義模型在3種建立模糊關系矩陣方法下對入學人數(shù)預測結果的誤差.3種建立模糊關系矩陣方法在表中分別記為MM1、MM2和MM3.表2中列出模型對滬市股指10年數(shù)據(jù)預測結果的平均誤差.所有表的最后一行是不同建立關系矩陣方法得到結果的平均值.
從表1可以看出,廣義模型采用MM1 時得到的預測誤差erms分別是535.9和544.4,它們遠小于原模型的932.4.即使是采用其他兩種方法(MM2和MM3),也有類似的結果.這說明廣義模型的預測效果要好于傳統(tǒng)模型.從表中另外兩個標準emap和ema,也能得到這樣的結論.
表2也說明廣義模型的預測結果要好于傳統(tǒng)模型.此外,廣義模型中參數(shù)k取2或3時,對預測結果影響不大,這是由模糊隸屬度函數(shù)的定義決定的.
表3列出了傳統(tǒng)模型和廣義模型在3種建立模糊關系矩陣方法下對入學人數(shù)預測結果的誤差.對比該表與表1和2可知,這3個評估標準所反映模型的預測效果基本相似,所以為了簡便,下面只列出erms標準下模型的預測誤差結果.圖1描繪了基于FCM 的模型預測誤差erms在股指10年數(shù)據(jù)的分布情況.
從圖中可以看出,廣義模型的預測結果絕大多數(shù)情況下取得更小的誤差(除了廣義模型(k=3)在2004年時的情況).但經(jīng)過實驗分析發(fā)現(xiàn),這是由于FCM 在聚類過程中陷入局部最優(yōu)時取的區(qū)間分布不合理造成的,可以通過對FCM 的改進來避免這種情況的發(fā)生.
表4和5列出了傳統(tǒng)模型和廣義模型在3種建立模糊關系矩陣方法下對入學人數(shù)和股指預測結果的erms.
表1 均勻劃分時入學人數(shù)預測誤差Tab.1 Forecasting performances by using average partition on enrollment
表2 均勻劃分時滬市股指預測的平均誤差Tab.2 Mean forecasting performances by using average partition on SSECI
表3 FCM 劃分時入學人數(shù)預測誤差Tab.3 Forecasting performances by using FCM on enrollment
圖1 FCM 劃分時模型在滬市股指的預測誤差ermsFig.1 erms Comparison of forecasted SSECI by using FCM
表4和5再次證明廣義模型的預測效果要優(yōu)于傳統(tǒng)模型.此外,由于自動聚類方法對論域的劃分較細,即模糊概念較多,這種情況下能更好地體現(xiàn)廣義模型的優(yōu)勢.如表4所示,k=3時3種關系矩陣計算方法下的誤差分別是317.41、210.17、210.17,而k=2 時 分 別 是335.69、210.17、210.17.該結果所反映的k=3時優(yōu)于k=2時要較前面兩種情況下明顯.由于股指數(shù)據(jù)較豐富,表5更能明確顯現(xiàn)廣義模型在k=3時的優(yōu)勢.
表4 自動聚類劃分時入學人數(shù)預測誤差ermsTab.4 ermsComparison of forecasted enrollment by using automatic clustering technique
表5 自動聚類劃分時滬市股指預測誤差ermsTab.5 ermsComparison of forecasted SSECI by using automatic clustering technique
本文分別建立了模糊區(qū)間采用均勻劃分、FCM 聚類和自動聚類劃分時廣義模糊時間序列預測模型,應用Alabama大學入學人數(shù)和滬市股指數(shù)據(jù)對廣義模型與傳統(tǒng)模型進行了深入的分析.實驗結果證明廣義模型能取得較傳統(tǒng)模型更好的預測效果,而且說明模糊區(qū)間的劃分對模型預測結果有較大的影響.在上述3種區(qū)間劃分方法下,基于自動聚類方法的劃分能得到最好的預測結果,更能體現(xiàn)廣義模型的優(yōu)勢.
由于廣義模糊時間序列模型的研究才剛開始,它的性質還有待于進一步研究,如模糊隸屬度函數(shù)的定義對預測結果的影響,如何利用機器學習中的新算法改進廣義模糊時間序列模型等.總之,對廣義模糊時間序列模型的研究還有很大的空間.
[1] SONG Qiang,Chissom B S.Forecasting enrollments with fuzzy time series.Part Ⅰ [J].Fuzzy Sets and Systems,1993,54(1):1-9.
[2] SONG Qiang,Chissom B S.Forecasting enrollments with fuzzy time series.Part Ⅱ [J].Fuzzy Sets and Systems,1994,62(1):1-8.
[3] Chen Shyi-ming.Forecasting enrollments based on fuzzy time series[J].Fuzzy Sets and Systems,1996,81(3):311-319.
[4] Lee M H,Efendi R,Ismail Z.Modified weighted for enrollment forecasting based on fuzzy time series[J].Matematika,2009,25(1):67-78.
[5] Yu Hui-kuang.A refined fuzzy time-series model for forecasting[J].Physica A:Statistical Mechanics and Its Applications,2005,346(3-4):657-681.
[6] Chen Shyi-ming,Wang Nai-yi,Pan Jeng-shyang.Forecasting enrollments using automatic clustering techniques and fuzzy logical relationships [J].Expert Systems with Applications,2009,36(8):11070-11076.
[7] Liu Tung-kuan,Chen Yeh-peng,Chou Jyh-h(huán)orng.Extracting fuzzy relations in fuzzy time series model based on approximation concepts [J].Expert Systems with Applications,2011,38(9):11624-11629.
[8] Huarng Kun-h(huán)uang.Ratio-based lengths of intervals to improve fuzzy time series forecasting [J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2006,36(2):328-340.
[9] QIU Wang-ren,LIU Xiao-dong,WANG Li-dong.Forecasting in time series based on generalized fuzzy logical relationship[J].ICIC Express Letters,2010,4(5):1431-1438.
[10] QIU Wang-ren,LIU Xiao-dong,WANG Li-dong.Forecasting Shanghai Composite Index based on fuzzy time series and improvedC-fuzzy decision trees[J].Expert Systems with Applications,2012,39(9):7680-7689.
[11] 邱望仁,劉曉東.基于證據(jù)理論的模糊時間序列模型[J].控制與決策,2012,27(1):99-103.QIU Wang-ren,LIU Xiao-dong.Fuzzy time series model for forecasting based on Dempster-Shafer theory[J].Control and Decision,2012,27(1):99-103.(in Chinese)
[12] LI Sheng-tun,CHENG Yi-chung,LIN Su-yu.A FCM-based deterministic forecasting model for fuzzy time series[J].Computers and Mathematics with Applications,2008,56(12):3052-3063.
[13] Leu Yung-h(huán)o,Lee Chien-pang,Jou Yie-zu.A distance-based fuzzy time series model for exchange rates forecasting [J].Expert Systems with Applications,2009,36(4):8107-8114.
[14] Chou Hung-lieh,Chen Jr-shian,Cheng Chinghsue,etal.Forecasting tourism demand based on improved fuzzy time series model[J].Lecture Notes in Computer Science,2010,5990(1):399-407.
[15] 張 韜,馮子健,楊維中,等.模糊時間序列分析在腎綜合征出血熱發(fā)病率預測的應用初探[J].中國衛(wèi)生統(tǒng)計,2011,28(2):146-149.ZHANG Tao,F(xiàn)ENG Zi-jian,YANG Wei-zhong,etal.Preliminary discussion on fuzzy time series analysis for predicting the incidence rate of HFRS in China [J].Chinese Journal of Health Statistics,2011,28(2):146-149.(in Chinese)