陳 輝
(淮南職業(yè)技術(shù)學(xué)院,安徽 淮南 232001)
在方法評(píng)估過程中設(shè)計(jì)了三個(gè)階段:數(shù)據(jù)挖掘階段,將收集得到的數(shù)據(jù)集進(jìn)行預(yù)處理后,并從中挖掘出潛在價(jià)值數(shù)據(jù),此時(shí)就需要從經(jīng)典分類算法中初始化評(píng)估結(jié)果;多目標(biāo)決策階段,根據(jù)優(yōu)化得到的權(quán)重值計(jì)算方式分析不同決策方法來獲取得到分類算法的評(píng)估結(jié)果值,以此來提升決策精確性和可信度;二次挖掘階段,基于多目標(biāo)決策階段更深層次的獲取得到潛在價(jià)值數(shù)據(jù)??蚣茉O(shè)計(jì)如圖1所示。
圖1 評(píng)估框架圖
AHP是經(jīng)典的多目標(biāo)決策方法,它分解復(fù)雜問題為簡(jiǎn)單問題,并通過專家對(duì)不同問題之間的關(guān)系進(jìn)行決策結(jié)構(gòu)的打分,并以此來構(gòu)成兩兩判斷矩陣,并在經(jīng)過了計(jì)算后得出最佳方案的權(quán)向量,由此可知在當(dāng)前的最佳方案判斷中最為重要的則是決策指令的發(fā)出。[1]決策指令受到了專家個(gè)人背景以及知識(shí)構(gòu)成等各個(gè)方面的影響,因此單一的決策缺乏科學(xué)性。[2]群決策理論則能夠充分融合多個(gè)領(lǐng)域的專家理論知識(shí),避免了決策過程中個(gè)人因素的影響,由此文章提出了在AHP中融合專家知識(shí)和領(lǐng)域知識(shí)的優(yōu)化算法,提升決策的客觀性和科學(xué)性。
AHP算法的決策流程主要包含以下幾個(gè)步驟:
(1)確定層次目標(biāo)。將復(fù)雜分體分解為簡(jiǎn)單問題,并提出層次目標(biāo)。
(2)構(gòu)建決策層級(jí)結(jié)構(gòu)。將得出的層次目標(biāo)按照某些規(guī)則分解為不同層次結(jié)構(gòu),如圖2所示。
圖2 決策層級(jí)結(jié)構(gòu)
(3)構(gòu)造兩兩矩陣。通常專家在各個(gè)層次結(jié)構(gòu)中元素以及屬性重要性進(jìn)行打分后,并基于此得出每個(gè)屬性的標(biāo)度,從而構(gòu)造兩兩對(duì)比矩陣。[3]屬性重要性程度確定基本是根據(jù)1—9標(biāo)度表,如表1所示。
表1 1-9標(biāo)度表
由此可以獲取得到兩兩對(duì)比判斷矩陣:
A=(aij)n×n
上式中aij為元素ui,uj的重要性標(biāo)度值,且它具備以下性質(zhì):
(4)層次排序。從兩兩判斷矩陣A就可以獲取得到權(quán)重值W=(w1,w2,...,wn),并將其表示為向量形式w=(w1,w2,...,wn),并由此應(yīng)用特征根法來計(jì)算求解A特征根問題[4]:
AW=λmaxw
上式中λmax則是A的最大特征根。
(6)層次總排序。將計(jì)算得到的權(quán)重值進(jìn)行綜合分析,并從下而上逐層判斷一致性檢驗(yàn),由此就可以得到方案設(shè)計(jì)。
AHP算法主要單個(gè)專家對(duì)判斷矩陣的決策,而在解決具體的實(shí)踐問題時(shí)則會(huì)由于專家個(gè)人學(xué)識(shí)、經(jīng)驗(yàn)等各個(gè)方面差異性,這就會(huì)導(dǎo)致評(píng)估結(jié)果存在主觀性。AHP群決策算法則是綜合多人進(jìn)行決策,并取平均值作為矩陣權(quán)重,這就具備較好的客觀性和科學(xué)性。
AHP群決策算法的關(guān)鍵之處在于要結(jié)合單個(gè)專家的個(gè)人意見,以此來形成群體共識(shí)。文章應(yīng)用目前較為常見的方式則是應(yīng)用集結(jié)個(gè)體判斷矩陣或個(gè)體排序來計(jì)算得到群排序,集結(jié)方式采用數(shù)據(jù)模型:
分別應(yīng)用個(gè)體判斷矩陣、個(gè)體排序集結(jié)方式得出判斷矩陣時(shí),兩種方式存在內(nèi)在聯(lián)系,由此提出了專家權(quán)重的定量化研究,且在判斷群決策矩陣中使用最小二乘法來優(yōu)化AFP的權(quán)重計(jì)算過程,具體如下:
(1)構(gòu)建初始判斷矩陣Ak=(aij)m×m。設(shè)有k(1≤k≤n)個(gè)專家,每個(gè)專家都基于表1進(jìn)行打分,以此來獲取得到元素的評(píng)分值,由此可以得到初始化判斷矩陣。
(2)計(jì)算專家權(quán)重。傳統(tǒng)的權(quán)重計(jì)算方式均采用主觀方式,這就會(huì)導(dǎo)致判斷矩陣的主觀性很強(qiáng),由此設(shè)計(jì)專家權(quán)重的定量化計(jì)算方式。設(shè)當(dāng)前已經(jīng)得到了k個(gè)專家的權(quán)重打分值,且獲取得到得矩陣數(shù)量為t(1≤t≤T),且λk表示為當(dāng)前第k個(gè)專家得出打分值,定量化計(jì)算過程如下:
②確定初始化專家權(quán)重。在當(dāng)前研究理論中可得知一致性比率取值區(qū)間為(0,0.1),設(shè)計(jì)的初始化專家權(quán)重λk計(jì)算方式為:
當(dāng)前研究理論可知,當(dāng)α=10時(shí)具備比較好的系統(tǒng)穩(wěn)定性和區(qū)分效率。
B=(λ1A1+λ2A2+…+λnAn)=(bij)m×m
(4)優(yōu)化群決策判斷矩陣。傳統(tǒng)的群決策判斷矩陣是通過算術(shù)均值法計(jì)算獲取的,該種方式下計(jì)算得到群決策判斷矩陣體B的互正反矩陣屬性無法得知,因此設(shè)計(jì)了最小二乘法來改進(jìn)群決策判斷矩陣體B,以此來獲取得到較為精確的判斷矩陣B*,詳細(xì)過程為:
確定最小二乘的數(shù)學(xué)規(guī)劃問題:
根據(jù)AHP群策判斷矩陣特點(diǎn),將上述目標(biāo)函數(shù)調(diào)整為:
s.t.xij>0(1≤i≤m,1≤j≤m)
并將上述問題劃分為子問題:
s.t.xij>0(1≤i≤m,1≤j≤m)
通過計(jì)算后可得到:
以此求解得到滿足f(x)的所有最小值正解值。
(5)排序備選方案。
決策樹是一種樹形結(jié)構(gòu)的預(yù)測(cè)分析模型,它映射了數(shù)據(jù)對(duì)象和其屬性值之間的關(guān)系。[5]它具有樹的結(jié)構(gòu),由根節(jié)點(diǎn)、分支節(jié)點(diǎn)、葉子節(jié)點(diǎn)構(gòu)成;根節(jié)點(diǎn)位于頂端;分支節(jié)點(diǎn)是上一節(jié)點(diǎn)判斷后新的屬性;葉子節(jié)點(diǎn)無法在進(jìn)行判斷,是樹的判斷結(jié)果。決策樹的主要優(yōu)勢(shì)為簡(jiǎn)單、直觀、 分類效果較好。較為經(jīng)典的分類方法有貝葉斯網(wǎng)絡(luò)、C4.5決策樹算法、ID3決策樹算法、邏輯回歸、樸素貝葉斯算法等,文章以C4.5決策樹和ID3為例進(jìn)行詳細(xì)介紹。
C4.5決策樹算法使用信息增益或熵降低的概念來選擇最優(yōu)劃分[6],從而以此來更好地實(shí)現(xiàn)構(gòu)造決策樹:
(1)屬性列的選擇依據(jù)為信息增益率;
(2)樹的剪枝過程發(fā)生在樹的構(gòu)造過程中;
(3)對(duì)于連續(xù)屬性的數(shù)據(jù)應(yīng)用離散化的方式來進(jìn)行處理;
(4)對(duì)于非完整的數(shù)據(jù)也采用樹的剪枝構(gòu)造。
在C4.5算法中能夠有效地處理離散化連續(xù)型的屬性,具體的過程如下:
獲取連續(xù)性屬性的最小值,并將其存儲(chǔ)在MIN中,同樣地以最大值存儲(chǔ)在MAX中;
②將[MIN,Ai]為區(qū)間值時(shí)與(Ai,MAX]兩者計(jì)算得到的增益值進(jìn)行對(duì)比;
③選定斷點(diǎn)中的最大增益值記錄為Ak,并把[MIN,Ai]、(Ai,MAX]設(shè)置為屬性的區(qū)間值;
假設(shè)數(shù)據(jù)庫中的每個(gè)變量都有兩個(gè)不同的值A(chǔ)和B,該變量的概率分布為:
a:若P(A)=1,P(B)=0,則表示這個(gè)變量的值肯定是A,不可能是B;
b:若P(A)=0.5,P(B)=0.5,則需要計(jì)算平均信息量,并以此實(shí)現(xiàn)對(duì)最佳數(shù)據(jù)量的不確定性評(píng)估,即信息熵:
集合S中的屬性A中存在V個(gè)不同的數(shù)據(jù)值,且用A將S劃分為v個(gè)子集{S1,S2,...,Sv},且Sj中已經(jīng)包含了集合S,即Sj?S,并在劃分時(shí)計(jì)算信息增益率:
ID3算法是自上而下通過訓(xùn)練屬性中得最高信息增益,進(jìn)而來構(gòu)造決策樹。因其總是選擇最高增益信息的屬性來劃分規(guī)則,所以該算法分類速度快,樹的深度平均,且劃分規(guī)則簡(jiǎn)單。[7]
ID3算法的概念基礎(chǔ)為:在構(gòu)造決策樹的過程中,非葉子節(jié)點(diǎn)映射非類別屬性,節(jié)點(diǎn)分支映射屬性值,葉子節(jié)點(diǎn)的生成路徑映射了類別屬性值;信息增益值最大的非葉子節(jié)點(diǎn)都將和剩余的節(jié)點(diǎn)相關(guān)聯(lián);熵用來表示非葉子節(jié)點(diǎn)的信息量大小。
ID3算法在構(gòu)造決策樹的過程中重要的是:屬性確定、劃分集合。確定屬性的過程為從選取的數(shù)據(jù)中,選取增益信息值最大的屬性作為根節(jié)點(diǎn),并以該節(jié)點(diǎn)的屬性值構(gòu)造分支,將選取數(shù)據(jù)劃分為幾個(gè)互不相關(guān)的子集;非葉子節(jié)點(diǎn)分支后就將對(duì)子集值二次進(jìn)行屬性的確定,然后繼續(xù)分支直至分支到葉子節(jié)點(diǎn)。
表2 ID3算法的主要思想
實(shí)驗(yàn)數(shù)據(jù)集采用某銀行信用卡數(shù)據(jù)信息,采用UCI機(jī)器學(xué)習(xí)得到,信用卡信息中主要包含了500個(gè)用戶,變量有10個(gè)。其中信用差的用戶有38%,剩余的則是信用好的用戶。
在實(shí)驗(yàn)過程中要從經(jīng)典的5種分類算法中評(píng)估選擇一種最佳的分類方式,以此來提升挖掘信用數(shù)據(jù)的效率,具體流程如下:
(1)將收集得到的信用數(shù)據(jù)集進(jìn)行預(yù)處理操作,包含了數(shù)據(jù)清洗、集成、轉(zhuǎn)換等;
(2)采用五折較差驗(yàn)證方式訓(xùn)練和測(cè)試5個(gè)分類算法;
(3)各個(gè)專家采用應(yīng)用以下多目標(biāo)決策方法評(píng)估分類效率:TOPSIS、VIKOR、GRA,多目標(biāo)決策方法評(píng)估的輸入?yún)?shù)為(1)中得到的度量指標(biāo)值;
(4)計(jì)算得到數(shù)據(jù)集下的初始排序結(jié)果值;
(5)計(jì)算各個(gè)多目標(biāo)決策方法的權(quán)重值;
(6)輸出優(yōu)先級(jí)的最終排序結(jié)果值。
數(shù)據(jù)挖掘階段計(jì)算得到的5個(gè)經(jīng)典績(jī)效指標(biāo)結(jié)果值如表3所示。通過分析表3可知,每個(gè)分類算法都有最優(yōu)結(jié)果值,因此在初始階段中并較好的分類算法評(píng)估。[8]
表3 數(shù)據(jù)挖掘階段數(shù)據(jù)集評(píng)估結(jié)果
接下來則應(yīng)用多目標(biāo)決策方法融合來評(píng)估分類性能,并在三種多目標(biāo)決策算法的權(quán)重定義采用文章優(yōu)化的權(quán)重計(jì)算方式,由此可得到多目標(biāo)決策的分類方法排序,如表4所示。
表4 多目標(biāo)決策的分類算法排序
通過分析表4可知,在當(dāng)前的多決策算法中TOPSIS具備較好的算法效率,并基于此可得到最終的分類效率排序結(jié)果如表5可知。
表5 最終排序結(jié)果
通過分析可知,數(shù)據(jù)集分析中排序值較高的為ID3決策樹算法,這就表明在當(dāng)前聚類分類算法中采用ID3決策樹算法可以獲取最佳的分類效率。
AHP是經(jīng)典的多目標(biāo)決策方法,它分解復(fù)雜問題為簡(jiǎn)單問題,但單個(gè)專家的決策指令受到了專家的背景及知識(shí)構(gòu)成等各個(gè)方面的影響,因此缺乏科學(xué)性。群決策理論則能夠充分融合多個(gè)領(lǐng)域的專家理論知識(shí),避免了決策過程中個(gè)人因素的影響,由此文章提出了在AHP中融合專家領(lǐng)域知識(shí)的優(yōu)化算法,提升決策的客觀性和科學(xué)性,在群決策目標(biāo)中采用最小二乘法來獲取最佳的權(quán)重值。
貴陽學(xué)院學(xué)報(bào)(自然科學(xué)版)2020年3期