王卓君
(解放軍國(guó)際關(guān)系學(xué)院,江蘇 南京 210039)
自動(dòng)化情報(bào)分析系統(tǒng)就是在情報(bào)分析的若干環(huán)節(jié)應(yīng)用計(jì)算機(jī)軟件,幫助情報(bào)分析人員做出情報(bào)研判的自動(dòng)化系統(tǒng)。其中,分類分析法是計(jì)算機(jī)輔助情報(bào)分析的方法之一。常用的分類分析算法有決策樹(shù)算法、最近鄰算法、Bayes算法和神經(jīng)網(wǎng)絡(luò)算法等。決策樹(shù)算法[1]是一種從訓(xùn)練樣本集中推理出判定樹(shù)表示形式的分類規(guī)則的方法。其優(yōu)點(diǎn)在于直觀性和易理解性。該算法不僅能做出分類和預(yù)測(cè),而且它的生成過(guò)程、分類、預(yù)測(cè)以及從中所提取的分類規(guī)則都具有很強(qiáng)的可理解性。但決策樹(shù)算法同時(shí)也存在著不足。在計(jì)算樹(shù)節(jié)點(diǎn)熵屬性時(shí),計(jì)算量大、復(fù)雜度高、訓(xùn)練集過(guò)大,從而可能造成計(jì)算機(jī)內(nèi)存無(wú)法運(yùn)行。神經(jīng)網(wǎng)絡(luò)算法可用于數(shù)據(jù)挖掘的分類、聚類、特征挖掘、預(yù)測(cè)和模式識(shí)別等方面。其優(yōu)點(diǎn)包括對(duì)噪音數(shù)據(jù)的高承受能力,以及它對(duì)未訓(xùn)練數(shù)據(jù)的分類能力。神經(jīng)網(wǎng)絡(luò)最大的不足是需要較長(zhǎng)的訓(xùn)練時(shí)間并且可解釋性較差。最近鄰算法也稱KNN(K Nearest Neighbors)算法[2]。該算法的不足之處是計(jì)算量較大,因?yàn)閷?duì)每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離,才能求得它的K個(gè)最近鄰點(diǎn)。Bayes算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,如NB (Naive Bayes)算法[3]。樸素貝葉斯分類算法是基于一個(gè)簡(jiǎn)單的假定:在給定分類特征條件下,屬性值之間是相互條件獨(dú)立的[4]。其薄弱環(huán)節(jié)在于實(shí)際情況下,類別總體的概率分布和各類樣本的概率分布函數(shù)常常是未知的。為了獲得它們,就要求樣本足夠大。
其中,決策樹(shù)算法和神經(jīng)網(wǎng)絡(luò)算法以其直觀性、易理解性、對(duì)噪音數(shù)據(jù)的高承受能力和對(duì)未訓(xùn)練數(shù)據(jù)的分類能力顯著優(yōu)勢(shì)被廣為應(yīng)用。本文嘗試應(yīng)用決策樹(shù)算法中ID3算法[5]和神經(jīng)網(wǎng)絡(luò)算法中的Boltzmann機(jī)[6]對(duì)軍事情報(bào)系統(tǒng)進(jìn)行組合建模,并針對(duì)Boltzmann機(jī)和ID3算法存在的不足,分別對(duì)Boltzmann機(jī)的Sigmoid函數(shù)和ID3算法中的信息熵進(jìn)行改進(jìn),從而改善Boltzmann機(jī)在訓(xùn)練過(guò)程中易出現(xiàn)網(wǎng)絡(luò)麻痹與溫度訓(xùn)練過(guò)擬合等問(wèn)題,同時(shí)降低ID3的計(jì)算復(fù)雜度,加快了建模的速度。
軍事情報(bào)分析系統(tǒng)以情報(bào)數(shù)據(jù)分類算法(IDC Information Data Classifying Agorithm)為核心,主要包括情報(bào)數(shù)據(jù)預(yù)處理模塊、IDC數(shù)據(jù)分類模塊、規(guī)則庫(kù)模塊。其中,IDC情報(bào)數(shù)據(jù)分類模塊是其核心模塊。
軍事情報(bào)分析系統(tǒng)采用雙層分類算法對(duì)情報(bào)數(shù)據(jù)進(jìn)行分析處理。系統(tǒng)的業(yè)務(wù)處理流程簡(jiǎn)述如下。流程圖如圖1所示。
作為第一層數(shù)據(jù)快速計(jì)算層中的核心算法,依據(jù)情報(bào)數(shù)據(jù)自身的特點(diǎn),這里選擇Boltzmann機(jī)是較為合適的,Boltzmann行動(dòng)選擇策略適于求解非精確狀態(tài)信息下的順序決策過(guò)程問(wèn)題的行動(dòng)選擇策略。具體算法原理如圖2所示:
圖1 情報(bào)處理系統(tǒng)基本業(yè)務(wù)流程圖
圖2 Boltzmann機(jī)算法原理圖
雖然 Boltzmann機(jī)能夠用來(lái)求解組合優(yōu)化等問(wèn)題,但仍存在訓(xùn)練時(shí)間長(zhǎng)和對(duì)統(tǒng)計(jì)錯(cuò)誤敏感的問(wèn)題。在實(shí)際應(yīng)用中,收斂速度和推廣能力會(huì)受到影響。對(duì)網(wǎng)絡(luò)模型改進(jìn)的主要目標(biāo)有兩個(gè):一是防止網(wǎng)絡(luò)訓(xùn)練過(guò)程中麻痹現(xiàn)象的出現(xiàn),提高網(wǎng)絡(luò)的訓(xùn)練速度;二是提高網(wǎng)絡(luò)的泛化能力,避免過(guò)擬合現(xiàn)象。
由于 Boltzmann機(jī)是基于梯度下降法進(jìn)行訓(xùn)練的,所以網(wǎng)絡(luò)的激活函數(shù)要求連續(xù)可微。參數(shù)導(dǎo)數(shù)的存在性對(duì)學(xué)習(xí)至關(guān)重要,因此Boltzmann機(jī)網(wǎng)絡(luò)一般不采用閾值函數(shù)和符號(hào)函數(shù)作為 sigmoid激活函數(shù)。Boltzmann機(jī)的激活函數(shù)一般要求非線性,否則多層網(wǎng)絡(luò)將不提供高于兩層網(wǎng)絡(luò)之上的任何計(jì)算能力。有界性也是激活函數(shù)的一個(gè)條件,這可以限定權(quán)值和單元輸出的上下邊界,使訓(xùn)練次數(shù)也有限。如果輸出是代表一個(gè)概率時(shí),有界性尤其重要。單調(diào)性也是激活函數(shù)的一個(gè)期望的性質(zhì),因?yàn)槿绻せ詈瘮?shù)在定義域中不是單調(diào)的,存在一個(gè)或多個(gè)極值,則會(huì)延長(zhǎng)訓(xùn)練時(shí)間并對(duì)錯(cuò)誤敏感。
當(dāng) sigmoid函數(shù)的輸出接近飽和值時(shí),其梯度很小,相應(yīng)的權(quán)值調(diào)節(jié)量也很小,學(xué)習(xí)速度很慢,這就是麻痹現(xiàn)象產(chǎn)生的原因。一旦產(chǎn)生網(wǎng)絡(luò)麻痹,則會(huì)不斷地對(duì)采集過(guò)程中產(chǎn)生的演習(xí)過(guò)程數(shù)據(jù)中的某些屬性值進(jìn)行退火降溫,從而拉長(zhǎng)數(shù)據(jù)學(xué)習(xí)時(shí)間,降低整個(gè)數(shù)據(jù)分類效率。為了防止產(chǎn)生這種現(xiàn)象,本文提出了對(duì) sigmoid函數(shù)的輸出進(jìn)行限制的方法,限制其最大輸出值小于飽和值,改進(jìn)sigmoid函數(shù)為
ID3基本原理是基于二叉分類問(wèn)題,但很容易將其擴(kuò)展到多叉分類上。假設(shè)訓(xùn)練集中有m個(gè)樣本,樣本分別屬于c個(gè)不同的類,每個(gè)類的預(yù)設(shè)訓(xùn)練實(shí)例集為X,學(xué)習(xí)的目的是將訓(xùn)練實(shí)例分為n類,記為C={X1,X2…Xn}。設(shè)第i類的訓(xùn)練實(shí)例個(gè)數(shù)是|Xi|=Ci,X中總的訓(xùn)練實(shí)例個(gè)數(shù)為|X|,記一個(gè)實(shí)例屬于第i類的概率為P(Xi),則有
此時(shí)決策樹(shù)對(duì)劃分C的不確定程度為I(X,C),簡(jiǎn)記為I(X):
對(duì)熵壓縮的度量過(guò)程就是縮小對(duì)數(shù)據(jù)劃分不確定程度的過(guò)程。若選擇屬性A進(jìn)行測(cè)試,設(shè)屬性A具有性質(zhì)a1,a2,a3,…at,在A=aj的情況下屬于第i類的實(shí)例個(gè)數(shù)為,即為測(cè)試屬性。A的取值為aj時(shí),它屬于第i類的概率。記為A= aj時(shí)的實(shí)例集。此時(shí)決策樹(shù)對(duì)分類的不確定程度就是訓(xùn)練實(shí)例集對(duì)屬性A的條件熵:
葉結(jié)點(diǎn)Xj對(duì)于分類信息的信息熵為
即屬性A的熵壓縮為
其中,I( X|A)越小, G ain( A)的值越大。說(shuō)明選擇測(cè)試屬性A對(duì)于分類提供的信息越大,選擇A之后對(duì)分類的不確定程度越小。該算法是把信息熵作為選擇測(cè)試屬性的標(biāo)準(zhǔn),即樹(shù)結(jié)點(diǎn)的選擇策略。但在計(jì)算基于屬性的信息熵時(shí),公式比較復(fù)雜,計(jì)算量較大,相應(yīng)的復(fù)雜度也高,當(dāng)數(shù)據(jù)量很大時(shí)很耗費(fèi)硬件資源,計(jì)算花費(fèi)的時(shí)間也長(zhǎng)。
改進(jìn)后的ID3算法結(jié)合洛倫茨曲線思想,設(shè)屬性劃分絕對(duì)平等曲線和實(shí)際屬性劃分曲線之間的面積為A,實(shí)際屬性劃分曲線右下方的面積為B,并以A除以A+B的商表示不平等程度。如果A為零,系數(shù)為零,表示屬性劃分完全平等;如果B為零,則系數(shù)為1,屬性劃分絕對(duì)不平等。曲線的弧度越大,那么系數(shù)也越大。具體曲線關(guān)系如圖3所示。
圖3 絕對(duì)平等曲線與實(shí)際屬性劃分曲線圖
此算法區(qū)別于傳統(tǒng)決策樹(shù)計(jì)算期望信息的方法,以往在計(jì)算不同類的信息概率后,首先將計(jì)算后的所有值進(jìn)行相減,得出分類期望信息隨后,再分別計(jì)算對(duì)類中不同的屬性的熵,對(duì)這些熵進(jìn)行相加,得出子集的熵最后,在將期望信息與子集的熵相減得出這個(gè)分支上的編碼信息:
這樣的計(jì)算步驟繁雜,在計(jì)算機(jī)語(yǔ)言中難以表達(dá),因此,本文提出了一種反向熵壓縮度量法。該算法對(duì)的定義進(jìn)行了改進(jìn),縮小了分析的粒度,立足點(diǎn)設(shè)立在每個(gè)集合中的屬性分布情況,從而降低了測(cè)試復(fù)雜度,減少了計(jì)算時(shí)間。下面對(duì)反向熵度量做出介紹。
在反向熵度量法中,I ( s1+ s2+ . ..+ sm)是一個(gè)計(jì)算根節(jié)點(diǎn)分裂的關(guān)鍵要素,是類中每個(gè)屬性的信息值。當(dāng)對(duì)根節(jié)點(diǎn)進(jìn)行分裂時(shí),直接計(jì)算數(shù)據(jù)集合中每個(gè)類中不同屬性的熵值,根據(jù)每個(gè)類中屬性值總和的大小對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分裂。熵值越小,子集劃分純度越高。
其中,Pi是屬性i在屬性集中出現(xiàn)的相對(duì)頻率。
如果類I按照某個(gè)劃分點(diǎn)分成I1和I2,則劃分后的屬性信息和為
情報(bào)數(shù)據(jù)分類算法(IDC Information Data Classifying Agorithm)由兩層組合而成:第一層是基于改進(jìn)后的Boltzmann機(jī)的快速計(jì)算層;第二層是基于改進(jìn)后的ID3算法的精確分析層。當(dāng)經(jīng)過(guò)預(yù)處理的情報(bào)數(shù)據(jù)進(jìn)入IDC計(jì)算第一層后,對(duì)實(shí)戰(zhàn)過(guò)程情報(bào)數(shù)據(jù)、參戰(zhàn)單位編成情報(bào)數(shù)據(jù)、裝備相關(guān)情報(bào)數(shù)據(jù)、地理位置情報(bào)數(shù)據(jù)進(jìn)行加權(quán)計(jì)算,權(quán)值是由輸入和輸出的相關(guān)性決定。相關(guān)性越大,則它們的相關(guān)權(quán)越大。然后采用Boltzmann機(jī)算法進(jìn)行粗粒度地快速分類處理,得出分類結(jié)果。當(dāng)數(shù)據(jù)粗分類結(jié)果進(jìn)入第二層時(shí),數(shù)據(jù)開(kāi)始重新根據(jù)屬性集中各個(gè)屬性出現(xiàn)的相對(duì)頻率進(jìn)行決策樹(shù)節(jié)點(diǎn)分裂計(jì)算,選擇屬性出現(xiàn)頻率最大的作為決策樹(shù)節(jié)點(diǎn)分裂值。對(duì)進(jìn)入第二層的情報(bào)數(shù)據(jù)屬性集進(jìn)行反復(fù)計(jì)算,形成決策樹(shù),得出當(dāng)前作戰(zhàn)的決策和規(guī)則。IDC算法流程如圖4所示。
圖4 IDC算法原理示意圖
3.1.1數(shù)據(jù)預(yù)處理
在數(shù)據(jù)挖掘的前期數(shù)據(jù)準(zhǔn)備階段,需要對(duì)等待挖掘的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)維歸約等操作,將之轉(zhuǎn)化為高質(zhì)量的訓(xùn)練樣本數(shù)據(jù)。以作戰(zhàn)過(guò)程中的陸戰(zhàn)編成數(shù)據(jù)中的部分屬性為例:
采集數(shù)據(jù)以數(shù)組的形式接收進(jìn)來(lái),其中D1為編成序號(hào),D2為單位序號(hào),D3為X軸坐標(biāo)值上的參戰(zhàn)部隊(duì)坐標(biāo)值,D4為Y軸上的參戰(zhàn)部隊(duì)坐標(biāo)值。
為了使網(wǎng)絡(luò)達(dá)到較好的訓(xùn)練效果,需要對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間,如[0,1]或[-1,1]之間。
本文采用最小-最大規(guī)范化對(duì)原始數(shù)據(jù)進(jìn)行線性轉(zhuǎn)換。假定minA和maxA分別為屬性A的最小和最大值。最小-最大規(guī)范化通過(guò)計(jì)算:
將A的值v映射到區(qū)間[n ew _ minA,n ew _ maxA]中的 v'。例如屬性編制人數(shù)的最小與最大值分別是0和8006,如果想映射編制人數(shù)到區(qū)間[0, 1],根據(jù)最小-最大規(guī)范化,編制人數(shù)1280將轉(zhuǎn)變?yōu)?/p>
當(dāng)數(shù)據(jù)預(yù)處理結(jié)束后,將所有規(guī)格化數(shù)據(jù)根據(jù)不同的屬性劃入不同的計(jì)算節(jié)點(diǎn)。節(jié)點(diǎn)劃分策略是根據(jù)數(shù)據(jù)屬性來(lái)確定節(jié)點(diǎn)的數(shù)量,數(shù)據(jù)屬性,節(jié)點(diǎn)= { n1, n2,...,nn}。隨后采用情報(bào)數(shù)據(jù)分類算法進(jìn)行下一步的分類工作。
3.1.2數(shù)據(jù)快速分類層
當(dāng)情報(bào)數(shù)據(jù)進(jìn)入數(shù)據(jù)快速計(jì)算層時(shí),采用抽取主表進(jìn)行分析的策略。這里選擇陸戰(zhàn)編成情報(bào)數(shù)據(jù)和陸戰(zhàn)當(dāng)前狀態(tài)情報(bào)數(shù)據(jù)這兩類情報(bào)數(shù)據(jù)作為數(shù)據(jù)快速計(jì)算層分析的主要內(nèi)容,對(duì)其進(jìn)行布爾量化,量化結(jié)果如表1所示。
表1 布爾量化結(jié)果表
首先設(shè)定網(wǎng)絡(luò)權(quán)值、初始溫度。預(yù)置權(quán)值不能為0,否則學(xué)習(xí)過(guò)程將不可能開(kāi)始,一般權(quán)值選定在[0,-1]或[-1,1]之間。任取初始權(quán)值w1= 0 .5,w2=0.4,w3=0.2,w4=0.3。訓(xùn)練集由狀態(tài){0000,0100,0101,0110,1000,1100,1101} 組成,它們的閾值分別為-0.9,-0.2,-0.3,0.7,初始溫度為0.25,0.5,1。
隨后根據(jù)各個(gè)節(jié)點(diǎn)單元激活函數(shù)值計(jì)算出各個(gè)狀態(tài)的轉(zhuǎn)移概率。當(dāng)屬性狀態(tài)從0轉(zhuǎn)移至1時(shí),
在初始設(shè)定溫度為 0.25時(shí),當(dāng) φ ( s )< 3 .992,??;當(dāng) φ ( s )> 3 .992,取ρ值。ρ取{0,3.992}之間的一個(gè)值,這里定為3.9;當(dāng)初始設(shè)定溫度為0.5時(shí),ρ取{0,3.994}之間的一個(gè)值,這里也定為3.9;當(dāng)在初始設(shè)定溫度為1時(shí),則ρ取{0,3.968}之間的一個(gè)值,這里同樣定為3.9。
對(duì)陸戰(zhàn)情報(bào)數(shù)據(jù)中的火力打擊能力進(jìn)行情報(bào)分析需要根據(jù)P(1)的綜合指標(biāo)指數(shù)來(lái)判定火力打擊的水平 PSD。P(1)綜合值越高,打擊水平越強(qiáng)。根據(jù) P(0)的綜合指標(biāo)指數(shù)初步判定危險(xiǎn)級(jí)別DL。P(0)綜合值越小,危險(xiǎn)級(jí)別越高,結(jié)果見(jiàn)表3。
3.1.3數(shù)據(jù)精確分類層
當(dāng)數(shù)據(jù)從上一層分析完畢后,進(jìn)入精確分類層的數(shù)據(jù)已經(jīng)形成初步的分類數(shù)據(jù)模型,隨后展開(kāi)進(jìn)一步的精確數(shù)據(jù)分類處理。這里需要確定能夠生成一棵簡(jiǎn)單決策樹(shù)的分裂屬性。
已分析過(guò)的數(shù)據(jù)中包含{zbx,zby,xtk,xhp,xdd,pbwql,bcxh,f}屬性。其中,xtk表示坦克,xhp表示火炮,xdd表示地點(diǎn),pbwql表示武器,bcxh表示消耗量,f表示類型。下面展開(kāi)對(duì)這些屬性反向熵值的計(jì)算。類標(biāo)號(hào) f有兩個(gè)不同的值(即{1,2},1代表我軍,2代表敵軍),因此有兩個(gè)不同類 C=2。設(shè)C1對(duì)應(yīng)1,C2對(duì)應(yīng)2。類1中有12個(gè)樣本,類2中有8個(gè)樣本,隨后基于C中不同的類別開(kāi)始計(jì)算屬性的反向熵值。首先從陸戰(zhàn)編成情報(bào)數(shù)據(jù)和陸戰(zhàn)當(dāng)前狀態(tài)情報(bào)數(shù)據(jù)中的屬性開(kāi)始,如表4。
表2 第一層Boltzmann機(jī)網(wǎng)絡(luò)訓(xùn)練結(jié)果表
表3 評(píng)估結(jié)果表
根據(jù)式(8)、式(9)對(duì)每一個(gè)屬性的反向熵值進(jìn)行計(jì)算:
目前最小的反向熵值屬性是 xhp,所以在決策樹(shù)的根節(jié)點(diǎn)處選擇xhp作為其分裂節(jié)點(diǎn)。隨后對(duì)我軍編成情報(bào)數(shù)據(jù)、敵軍編成情報(bào)數(shù)據(jù)中的數(shù)據(jù)進(jìn)行屬性熵值分析。這時(shí)需要重新劃分類C。我軍編成情報(bào)數(shù)據(jù)、敵軍編成情報(bào)數(shù)據(jù)中的類標(biāo)號(hào)屬性 bcxh有兩類不同的值,分別是{001001001000001,…, 001001001001000}和{001001001001001,…, 001001001002000},這時(shí)也存在兩個(gè)不同的類 C=2。設(shè) C1對(duì)應(yīng){001001001000001,…, 001001001001000},C2 對(duì)應(yīng){001001001001001,…, 001001001002000}。計(jì)算我軍編成情報(bào)數(shù)據(jù)中的屬性熵值,如表5。
表4 陸戰(zhàn)屬性計(jì)算表
表5 我軍編成屬性計(jì)算表
計(jì)算敵軍編成情報(bào)數(shù)據(jù)中的屬性熵值,如表6。
表6 敵軍編成屬性計(jì)算表
故此部隊(duì)編號(hào)屬性為決策樹(shù)的子節(jié)點(diǎn)的屬性。
隨后計(jì)算我軍部隊(duì)編成準(zhǔn)備情報(bào)數(shù)據(jù)、敵軍部隊(duì)編成準(zhǔn)備情報(bào)數(shù)據(jù)的屬性熵值,這時(shí)劃分類C不用發(fā)生改變。下面計(jì)算我軍部隊(duì)編成準(zhǔn)備情報(bào)數(shù)據(jù)中的屬性熵值,如表7。
表7 我軍部隊(duì)編成準(zhǔn)備屬性計(jì)算表
故此裝備編碼屬性為決策樹(shù)子節(jié)點(diǎn)的屬性。所有采集的數(shù)據(jù)都依次推算,最終得到一顆完整的決策樹(shù)。
3.1.4生成規(guī)則
部分得到的規(guī)則如表8所示,表中的DL分別取值“High”、“Normal”和“Low”,代表指定單位實(shí)時(shí)威脅評(píng)估的風(fēng)險(xiǎn)等級(jí)。
表8 第二層得到的規(guī)則表
首先采用改進(jìn)sigmoid函數(shù)的Boltzmann機(jī)對(duì)問(wèn)題進(jìn)行訓(xùn)練,sigmoid函數(shù)采用公式(1)中的函數(shù),ρ取1.5。訓(xùn)練目標(biāo)采用區(qū)間[-1.7,-1.0]或[1.0,1.7],訓(xùn)練方法采用隨機(jī)訓(xùn)練法。隨后采用改進(jìn)熵函數(shù)的ID3算法對(duì)經(jīng)過(guò)改進(jìn)后的Boltzmann機(jī)訓(xùn)練后的問(wèn)題進(jìn)行分類。同時(shí),也采用沒(méi)有改進(jìn)的Boltzmann機(jī)和ID3算法對(duì)問(wèn)題進(jìn)行訓(xùn)練和分類。為了直觀的比較兩種情況的效果,我們分別做出了它們的訓(xùn)練曲線,實(shí)驗(yàn)結(jié)果如下。
實(shí)驗(yàn)分別采用了83-53-13結(jié)構(gòu)的Boltzmann機(jī)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,然后利用ID3算法對(duì)訓(xùn)練結(jié)果進(jìn)行分類,例如圖 5是利用改進(jìn)后的 Boltzmann機(jī)與未改進(jìn)Boltzmann機(jī)進(jìn)行問(wèn)題訓(xùn)練曲線圖。
圖5 改進(jìn)后的Boltzmann機(jī)與未改進(jìn)Boltzmann機(jī)問(wèn)題訓(xùn)練曲線圖
圖6是利用改進(jìn)后的ID3算法和未改進(jìn)的ID3算法進(jìn)行問(wèn)題分類的曲線圖。
圖6 改進(jìn)后的ID3算法與未改進(jìn)ID3算法問(wèn)題分類曲線圖
圖7是采用改進(jìn)后的 Boltzmann機(jī)和改進(jìn)后的ID3算法-未做改進(jìn)的Boltzmann機(jī)和ID3算法進(jìn)行問(wèn)題訓(xùn)練分類曲線圖。如圖所示,在三種情況下,用改進(jìn)后的 Boltzmann機(jī)和 ID3算法明顯比未做改進(jìn)的Boltzmann機(jī)和ID3算法訓(xùn)練分類速度快。
圖7 改進(jìn)后的Boltzmann機(jī)和ID3算法和未做改進(jìn)的Boltzmann機(jī)和ID3算法問(wèn)題訓(xùn)練分類曲線圖
本文利用兩種情報(bào)數(shù)據(jù)分類算法構(gòu)建出一種新的情報(bào)數(shù)據(jù)分類算法用于軍事情報(bào)分析系統(tǒng)的設(shè)計(jì)開(kāi)發(fā)之中,針對(duì)原有算法的不足做出改進(jìn),并借助情報(bào)數(shù)據(jù)對(duì)整個(gè)系統(tǒng)進(jìn)行了實(shí)例分析與驗(yàn)證。從分析結(jié)果中發(fā)現(xiàn),新的情報(bào)數(shù)據(jù)分類算法在數(shù)據(jù)訓(xùn)練、分類的速度上要優(yōu)于未做改進(jìn)的算法。
[1]王旅,彭宏,胡勤松.基于判定樹(shù)歸納分類的土質(zhì)分類定名方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(11):1929-1931.
[2]王燕,李睿,李明.數(shù)據(jù)挖掘技術(shù)應(yīng)用研究[J].甘肅科技,2001,17(1):49-50.
[3]Witten I H,Frank E.Data Mining:Practical Machine Learning Tools and Techniques with Java Implementations[M]. Seattle: Morgan Kaufmann Publishers,2000:265-314.
[4]張璠.多策略改進(jìn)樸素貝葉斯分類器[J].微機(jī)發(fā)展,2004(4):35-36.
[5]賈世樓.信息理論基礎(chǔ)[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,1986.
[6]D.E.Culler, R.Karp, D.Patterson, A.Sahay, K.E.Schauser,E.Santos,R.Subramonian,T.Voneicken[A].LogP: Towards a Realistic Model of Parallel Computation. Proc.ACM Symp.on Principles and Practice of Parallel Programming,1993:1-12.