數(shù)據(jù)挖掘評(píng)估中融合多目標(biāo)決策算法應(yīng)用研究

2020-11-24 03:25陳輝

貴陽學(xué)院學(xué)報(bào)(自然科學(xué)版) 2020年3期

陳輝

(淮南職業(yè)技術(shù)學(xué)院,安徽淮南 232001)

1 多目標(biāo)決策評(píng)估框架

在方法評(píng)估過程中設(shè)計(jì)了三個(gè)階段：數(shù)據(jù)挖掘階段，將收集得到的數(shù)據(jù)集進(jìn)行預(yù)處理后，并從中挖掘出潛在價(jià)值數(shù)據(jù)，此時(shí)就需要從經(jīng)典分類算法中初始化評(píng)估結(jié)果；多目標(biāo)決策階段，根據(jù)優(yōu)化得到的權(quán)重值計(jì)算方式分析不同決策方法來獲取得到分類算法的評(píng)估結(jié)果值，以此來提升決策精確性和可信度；二次挖掘階段，基于多目標(biāo)決策階段更深層次的獲取得到潛在價(jià)值數(shù)據(jù)?？蚣茉O(shè)計(jì)如圖1所示。

圖1 評(píng)估框架圖

2 優(yōu)化AHP權(quán)重算法

AHP是經(jīng)典的多目標(biāo)決策方法，它分解復(fù)雜問題為簡(jiǎn)單問題，并通過專家對(duì)不同問題之間的關(guān)系進(jìn)行決策結(jié)構(gòu)的打分，并以此來構(gòu)成兩兩判斷矩陣，并在經(jīng)過了計(jì)算后得出最佳方案的權(quán)向量，由此可知在當(dāng)前的最佳方案判斷中最為重要的則是決策指令的發(fā)出。[1]決策指令受到了專家個(gè)人背景以及知識(shí)構(gòu)成等各個(gè)方面的影響，因此單一的決策缺乏科學(xué)性。[2]群決策理論則能夠充分融合多個(gè)領(lǐng)域的專家理論知識(shí)，避免了決策過程中個(gè)人因素的影響，由此文章提出了在AHP中融合專家知識(shí)和領(lǐng)域知識(shí)的優(yōu)化算法，提升決策的客觀性和科學(xué)性。

2.1 AHP算法

AHP算法的決策流程主要包含以下幾個(gè)步驟：

(1)確定層次目標(biāo)。將復(fù)雜分體分解為簡(jiǎn)單問題，并提出層次目標(biāo)。

(2)構(gòu)建決策層級(jí)結(jié)構(gòu)。將得出的層次目標(biāo)按照某些規(guī)則分解為不同層次結(jié)構(gòu)，如圖2所示。

圖2 決策層級(jí)結(jié)構(gòu)

(3)構(gòu)造兩兩矩陣。通常專家在各個(gè)層次結(jié)構(gòu)中元素以及屬性重要性進(jìn)行打分后，并基于此得出每個(gè)屬性的標(biāo)度，從而構(gòu)造兩兩對(duì)比矩陣。[3]屬性重要性程度確定基本是根據(jù)1—9標(biāo)度表，如表1所示。

表1 1-9標(biāo)度表

由此可以獲取得到兩兩對(duì)比判斷矩陣：

A=(aij)n×n

上式中aij為元素ui,uj的重要性標(biāo)度值，且它具備以下性質(zhì)：

(4)層次排序。從兩兩判斷矩陣A就可以獲取得到權(quán)重值W=(w1,w2,...,wn)，并將其表示為向量形式w=(w1,w2,...,wn)，并由此應(yīng)用特征根法來計(jì)算求解A特征根問題[4]：

AW=λmaxw

上式中λmax則是A的最大特征根。

(6)層次總排序。將計(jì)算得到的權(quán)重值進(jìn)行綜合分析，并從下而上逐層判斷一致性檢驗(yàn)，由此就可以得到方案設(shè)計(jì)。

2.2 AHP群決策方法

AHP算法主要單個(gè)專家對(duì)判斷矩陣的決策，而在解決具體的實(shí)踐問題時(shí)則會(huì)由于專家個(gè)人學(xué)識(shí)、經(jīng)驗(yàn)等各個(gè)方面差異性，這就會(huì)導(dǎo)致評(píng)估結(jié)果存在主觀性。AHP群決策算法則是綜合多人進(jìn)行決策，并取平均值作為矩陣權(quán)重，這就具備較好的客觀性和科學(xué)性。

AHP群決策算法的關(guān)鍵之處在于要結(jié)合單個(gè)專家的個(gè)人意見，以此來形成群體共識(shí)。文章應(yīng)用目前較為常見的方式則是應(yīng)用集結(jié)個(gè)體判斷矩陣或個(gè)體排序來計(jì)算得到群排序，集結(jié)方式采用數(shù)據(jù)模型：

2.3 優(yōu)化AHP權(quán)重方法

分別應(yīng)用個(gè)體判斷矩陣、個(gè)體排序集結(jié)方式得出判斷矩陣時(shí)，兩種方式存在內(nèi)在聯(lián)系，由此提出了專家權(quán)重的定量化研究，且在判斷群決策矩陣中使用最小二乘法來優(yōu)化AFP的權(quán)重計(jì)算過程，具體如下：

(1)構(gòu)建初始判斷矩陣Ak=(aij)m×m。設(shè)有k(1≤k≤n)個(gè)專家，每個(gè)專家都基于表1進(jìn)行打分，以此來獲取得到元素的評(píng)分值，由此可以得到初始化判斷矩陣。

(2)計(jì)算專家權(quán)重。傳統(tǒng)的權(quán)重計(jì)算方式均采用主觀方式，這就會(huì)導(dǎo)致判斷矩陣的主觀性很強(qiáng)，由此設(shè)計(jì)專家權(quán)重的定量化計(jì)算方式。設(shè)當(dāng)前已經(jīng)得到了k個(gè)專家的權(quán)重打分值，且獲取得到得矩陣數(shù)量為t(1≤t≤T)，且λk表示為當(dāng)前第k個(gè)專家得出打分值，定量化計(jì)算過程如下：

②確定初始化專家權(quán)重。在當(dāng)前研究理論中可得知一致性比率取值區(qū)間為(0，0.1)，設(shè)計(jì)的初始化專家權(quán)重λk計(jì)算方式為：

當(dāng)前研究理論可知，當(dāng)α=10時(shí)具備比較好的系統(tǒng)穩(wěn)定性和區(qū)分效率。

B=(λ1A1+λ2A2+…+λnAn)=(bij)m×m

(4)優(yōu)化群決策判斷矩陣。傳統(tǒng)的群決策判斷矩陣是通過算術(shù)均值法計(jì)算獲取的，該種方式下計(jì)算得到群決策判斷矩陣體B的互正反矩陣屬性無法得知，因此設(shè)計(jì)了最小二乘法來改進(jìn)群決策判斷矩陣體B，以此來獲取得到較為精確的判斷矩陣B*，詳細(xì)過程為：

確定最小二乘的數(shù)學(xué)規(guī)劃問題：

根據(jù)AHP群策判斷矩陣特點(diǎn)，將上述目標(biāo)函數(shù)調(diào)整為：

s.t.xij>0(1≤i≤m,1≤j≤m)

并將上述問題劃分為子問題：

s.t.xij>0(1≤i≤m,1≤j≤m)

通過計(jì)算后可得到：

以此求解得到滿足f(x)的所有最小值正解值。

(5)排序備選方案。

3 分類評(píng)估算法

決策樹是一種樹形結(jié)構(gòu)的預(yù)測(cè)分析模型，它映射了數(shù)據(jù)對(duì)象和其屬性值之間的關(guān)系。[5]它具有樹的結(jié)構(gòu)，由根節(jié)點(diǎn)、分支節(jié)點(diǎn)、葉子節(jié)點(diǎn)構(gòu)成；根節(jié)點(diǎn)位于頂端；分支節(jié)點(diǎn)是上一節(jié)點(diǎn)判斷后新的屬性；葉子節(jié)點(diǎn)無法在進(jìn)行判斷，是樹的判斷結(jié)果。決策樹的主要優(yōu)勢(shì)為簡(jiǎn)單、直觀、分類效果較好。較為經(jīng)典的分類方法有貝葉斯網(wǎng)絡(luò)、C4.5決策樹算法、ID3決策樹算法、邏輯回歸、樸素貝葉斯算法等，文章以C4.5決策樹和ID3為例進(jìn)行詳細(xì)介紹。

3.1 C4.5 決策樹

C4.5決策樹算法使用信息增益或熵降低的概念來選擇最優(yōu)劃分[6]，從而以此來更好地實(shí)現(xiàn)構(gòu)造決策樹：

(1)屬性列的選擇依據(jù)為信息增益率；

(2)樹的剪枝過程發(fā)生在樹的構(gòu)造過程中；

(3)對(duì)于連續(xù)屬性的數(shù)據(jù)應(yīng)用離散化的方式來進(jìn)行處理；

(4)對(duì)于非完整的數(shù)據(jù)也采用樹的剪枝構(gòu)造。

在C4.5算法中能夠有效地處理離散化連續(xù)型的屬性，具體的過程如下：

獲取連續(xù)性屬性的最小值，并將其存儲(chǔ)在MIN中，同樣地以最大值存儲(chǔ)在MAX中；

②將[MIN,Ai]為區(qū)間值時(shí)與(Ai,MAX]兩者計(jì)算得到的增益值進(jìn)行對(duì)比；

③選定斷點(diǎn)中的最大增益值記錄為Ak，并把[MIN,Ai]、(Ai,MAX]設(shè)置為屬性的區(qū)間值；

假設(shè)數(shù)據(jù)庫中的每個(gè)變量都有兩個(gè)不同的值A(chǔ)和B，該變量的概率分布為：

a:若P(A)=1,P(B)=0，則表示這個(gè)變量的值肯定是A，不可能是B；

b:若P(A)=0.5,P(B)=0.5，則需要計(jì)算平均信息量，并以此實(shí)現(xiàn)對(duì)最佳數(shù)據(jù)量的不確定性評(píng)估，即信息熵：

集合S中的屬性A中存在V個(gè)不同的數(shù)據(jù)值，且用A將S劃分為v個(gè)子集{S1,S2,...,Sv}，且Sj中已經(jīng)包含了集合S，即Sj?S，并在劃分時(shí)計(jì)算信息增益率：

3.2 ID 3算法

ID3算法是自上而下通過訓(xùn)練屬性中得最高信息增益，進(jìn)而來構(gòu)造決策樹。因其總是選擇最高增益信息的屬性來劃分規(guī)則，所以該算法分類速度快，樹的深度平均，且劃分規(guī)則簡(jiǎn)單。[7]

ID3算法的概念基礎(chǔ)為：在構(gòu)造決策樹的過程中，非葉子節(jié)點(diǎn)映射非類別屬性，節(jié)點(diǎn)分支映射屬性值，葉子節(jié)點(diǎn)的生成路徑映射了類別屬性值；信息增益值最大的非葉子節(jié)點(diǎn)都將和剩余的節(jié)點(diǎn)相關(guān)聯(lián)；熵用來表示非葉子節(jié)點(diǎn)的信息量大小。

ID3算法在構(gòu)造決策樹的過程中重要的是：屬性確定、劃分集合。確定屬性的過程為從選取的數(shù)據(jù)中，選取增益信息值最大的屬性作為根節(jié)點(diǎn)，并以該節(jié)點(diǎn)的屬性值構(gòu)造分支，將選取數(shù)據(jù)劃分為幾個(gè)互不相關(guān)的子集；非葉子節(jié)點(diǎn)分支后就將對(duì)子集值二次進(jìn)行屬性的確定，然后繼續(xù)分支直至分支到葉子節(jié)點(diǎn)。

表2 ID3算法的主要思想

4 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)數(shù)據(jù)集采用某銀行信用卡數(shù)據(jù)信息，采用UCI機(jī)器學(xué)習(xí)得到，信用卡信息中主要包含了500個(gè)用戶，變量有10個(gè)。其中信用差的用戶有38%，剩余的則是信用好的用戶。

在實(shí)驗(yàn)過程中要從經(jīng)典的5種分類算法中評(píng)估選擇一種最佳的分類方式，以此來提升挖掘信用數(shù)據(jù)的效率，具體流程如下：

(1)將收集得到的信用數(shù)據(jù)集進(jìn)行預(yù)處理操作，包含了數(shù)據(jù)清洗、集成、轉(zhuǎn)換等；

(2)采用五折較差驗(yàn)證方式訓(xùn)練和測(cè)試5個(gè)分類算法；

(3)各個(gè)專家采用應(yīng)用以下多目標(biāo)決策方法評(píng)估分類效率：TOPSIS、VIKOR、GRA，多目標(biāo)決策方法評(píng)估的輸入?yún)?shù)為(1)中得到的度量指標(biāo)值；

(4)計(jì)算得到數(shù)據(jù)集下的初始排序結(jié)果值；

(5)計(jì)算各個(gè)多目標(biāo)決策方法的權(quán)重值；

(6)輸出優(yōu)先級(jí)的最終排序結(jié)果值。

數(shù)據(jù)挖掘階段計(jì)算得到的5個(gè)經(jīng)典績(jī)效指標(biāo)結(jié)果值如表3所示。通過分析表3可知，每個(gè)分類算法都有最優(yōu)結(jié)果值，因此在初始階段中并較好的分類算法評(píng)估。[8]

表3 數(shù)據(jù)挖掘階段數(shù)據(jù)集評(píng)估結(jié)果

接下來則應(yīng)用多目標(biāo)決策方法融合來評(píng)估分類性能，并在三種多目標(biāo)決策算法的權(quán)重定義采用文章優(yōu)化的權(quán)重計(jì)算方式，由此可得到多目標(biāo)決策的分類方法排序，如表4所示。

表4 多目標(biāo)決策的分類算法排序

通過分析表4可知，在當(dāng)前的多決策算法中TOPSIS具備較好的算法效率，并基于此可得到最終的分類效率排序結(jié)果如表5可知。

表5 最終排序結(jié)果

通過分析可知，數(shù)據(jù)集分析中排序值較高的為ID3決策樹算法，這就表明在當(dāng)前聚類分類算法中采用ID3決策樹算法可以獲取最佳的分類效率。

5 結(jié)論

AHP是經(jīng)典的多目標(biāo)決策方法，它分解復(fù)雜問題為簡(jiǎn)單問題，但單個(gè)專家的決策指令受到了專家的背景及知識(shí)構(gòu)成等各個(gè)方面的影響，因此缺乏科學(xué)性。群決策理論則能夠充分融合多個(gè)領(lǐng)域的專家理論知識(shí)，避免了決策過程中個(gè)人因素的影響，由此文章提出了在AHP中融合專家領(lǐng)域知識(shí)的優(yōu)化算法，提升決策的客觀性和科學(xué)性，在群決策目標(biāo)中采用最小二乘法來獲取最佳的權(quán)重值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡