吳尚智,周 運(yùn),王歡歡,徐丹丹
(西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070)
小麥?zhǔn)且环N在世界各地廣泛種植的三大谷類作物之一,我國(guó)是世界上小麥消費(fèi)大國(guó),優(yōu)質(zhì)小麥的需求量越來(lái)越大[1-2]。為了實(shí)現(xiàn)小麥豐量不減產(chǎn)的目標(biāo),選育具有更好抗病蟲害性且能適應(yīng)各地環(huán)境,高產(chǎn)品質(zhì)雙重保障的小麥種子迫在眉睫。 研究者從試驗(yàn)田中選取樣本進(jìn)行品種改良,可能因動(dòng)物傳播者污染試驗(yàn)樣本源等不可抗力因素影響,提取到錯(cuò)誤待培育品種,與原試驗(yàn)對(duì)象無(wú)法做改進(jìn)后對(duì)比。目前主要防治措施有物理防控和化學(xué)防治,但此類方法耗時(shí)耗力,急需一種快速且簡(jiǎn)便的小麥品種分類途徑[3]。 針對(duì)在小麥品種識(shí)別、分類的應(yīng)用問(wèn)題,已有圖像處理、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等學(xué)科方面開展研究。 孟惜等[4]以6 個(gè)小麥品種為對(duì)象,對(duì)籽粒圖像進(jìn)行中值濾波閾值預(yù)處理,特征提取并且結(jié)合PCA 降維,避免BP 網(wǎng)絡(luò)陷入多點(diǎn)局部極小,用PSO 算法優(yōu)化網(wǎng)絡(luò)權(quán)值。 VHRMHULHN 等[5]對(duì)抽取的77 份DW 和 180CW 小麥樣品做區(qū)分,形態(tài)學(xué)方法與近紅外(NIR)光譜方法相結(jié)合,偏最小二乘法判別分析,準(zhǔn)確率達(dá)99%。 CHARYTANOWICZ 等[6]利用x射線圖像進(jìn)行小麥籽粒分類的幾何特征評(píng)價(jià),主成分分析和多元因子分析相結(jié)合的方法,使用多變量統(tǒng)計(jì)方法,前3 個(gè)因子解釋的籽粒變異率達(dá)到89.97%。 上述研究表明,針對(duì)小麥籽粒識(shí)別和分類的研究已經(jīng)有所成果,但由于實(shí)際生產(chǎn)中所獲取信息的不確定、強(qiáng)干擾性,需要確保多維度樣本試驗(yàn)結(jié)果的高準(zhǔn)確率,良好的識(shí)別效果。
本研究將粗糙集和雙隱層BP 神經(jīng)網(wǎng)絡(luò)結(jié)合的方法應(yīng)用于小麥種子品種識(shí)別中, 協(xié)助試驗(yàn)者完成品種培育、改良,更好地投入各地方生產(chǎn),達(dá)到更加有效地抗病蟲害、高產(chǎn)豐收目的。
粗糙集(rough set,RS)作為數(shù)值分析理論由波蘭數(shù)學(xué)家PAWLAK 于1982 年提出,用于處理模糊和不確定性知識(shí)的數(shù)學(xué)工具[7]。
定義1:知識(shí)與知識(shí)庫(kù)。 所研究的對(duì)象所組成的非空有限集合為論域U,對(duì)?X?U,稱為U 中一個(gè)概念(包括空集Ф),論域中任何概念族通常簡(jiǎn)稱知識(shí)。 對(duì)于一個(gè)完整的知識(shí)表達(dá)系統(tǒng),即為一個(gè)知識(shí)庫(kù)。
在粗糙集理論中,將信息表知識(shí)表達(dá)系統(tǒng)定義為S=<U,R,V,f>,其中U 為論域;R=C∪D 為屬性集合(C數(shù),通過(guò)函數(shù)f 可以確定U 中每一個(gè)對(duì)象Xi的屬性值。
定義2:屬性的上近似和下近似。 根據(jù)X 關(guān)于屬性集合R 的上、下近似值概念,定義式(1)和式(2):
定義3:知識(shí)的核。 知識(shí)庫(kù)K(U,R),屬性集合R=C∪D,核描述為所有約簡(jiǎn)的交集,若有一等價(jià)關(guān)系族P∈R,滿足core(P)=∩red(P),則記為等價(jià)關(guān)系族集P 的核。簡(jiǎn)單來(lái)說(shuō),核即為等價(jià)關(guān)系族中所有重要屬性的集合。
定義 4:約簡(jiǎn)。 定義決策表 S=(U,C∪D),其中屬性 C∩D=Ф。 令 Ф?X?C,Ф?Y?D,U/Y≠U/δ={U}(δ 是全體劃分)。 若有X0?X 滿足:(1)SX0(Y)=SX(Y),即決策屬性Ф?Y?D 關(guān)于條件屬性Ф?X?C 的支持子集相等于決策屬性 Y?D 關(guān)于條件屬性 X0?X 的支持子集。 (2)SX(Y)?SX'(Y),若 X'?X0?X。
圖1 粗糙近似圖Figure 1 Rough approximation diagram
按照上述描述,總能找到X 的一個(gè)極小子集X0,即稱X0是X 的一個(gè)約簡(jiǎn)。 空集Ф 的約簡(jiǎn)為Ф。
在粗糙集理論中,用上下近似集對(duì)不精確范疇近似定義,通過(guò)對(duì)模糊、不確定知識(shí)以集合定義、逼近方式達(dá)到知識(shí)判斷的目的。 信息熵是系統(tǒng)不確定信息的量化指標(biāo)[8]。 通俗說(shuō),熵越大,事件發(fā)生概率越低,表明信息所攜帶的不確定性越大;熵越小,結(jié)論與前述相反。
設(shè)有隨機(jī)試驗(yàn),X1,X2,…,Xn是論域 U 的一個(gè)劃分,實(shí)驗(yàn)結(jié)果中每個(gè) Xi有概率 pi=P(Xi)出現(xiàn),簡(jiǎn)記 X=(p1,p2,…,pn)。 信息源 X 的信息熵定義公式為:
條件熵:知識(shí)Q 相對(duì)于知識(shí)P 的條件熵定義公式為:
通常單計(jì)算層感知器可以通過(guò)增加隱層節(jié)點(diǎn)數(shù),構(gòu)建任意形狀凸域,輸出層節(jié)點(diǎn)對(duì)域內(nèi)域外樣本分類。通過(guò)增加第二個(gè)隱層,判斷域形狀能夠任意組合,多層感知器能夠處理任何復(fù)雜模型下的線性不可分問(wèn)題。正因其表現(xiàn)優(yōu)越的多維函數(shù)映射能力、魯棒性、自學(xué)習(xí)能力,BP 神經(jīng)網(wǎng)絡(luò)如今仍被廣泛使用[9-11]。
1.2.1 數(shù)據(jù)預(yù)處理 感知器輸入輸出數(shù)據(jù)預(yù)處理操作, 對(duì)具有不同量綱的BP 神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)規(guī)劃變化范圍至[0,1]或[-1,1],避免密集數(shù)據(jù)區(qū)分量取值太過(guò)集中,可有效使樣本分布均勻,拉開距離。
式中:xmin、xmax為矩陣 x 的最小值、 最大值;x 為矩陣原屬性值;x*為歸一化后BP 網(wǎng)絡(luò)輸入樣本。
1.2.2 模型設(shè)計(jì) BP 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)由信號(hào)的正向傳播和誤差的反向傳播兩個(gè)過(guò)程組成。 使用反向傳播算法逐步優(yōu)化,依據(jù)最小化損失函數(shù)不斷調(diào)整,得到每個(gè)感知器的權(quán)向量[12]。 其給出結(jié)構(gòu)為N1-N2-N3-3 的雙隱層網(wǎng)絡(luò)圖2。
圖2 雙隱層BP 網(wǎng)絡(luò)結(jié)構(gòu)圖Figure 2 BP network structure diagram of double hidden layer
本研究結(jié)合粗糙集和雙隱層BP 神經(jīng)網(wǎng)絡(luò)建立小麥籽粒品種分類的模型。 由神經(jīng)元作為信息處理單元,能對(duì)多個(gè)輸入樣本的模式向量組成的空間完成非線性映射,且具有較強(qiáng)的容錯(cuò)性、自適應(yīng)性、泛化能力,但面對(duì)大維度空間數(shù)據(jù)處理效率較低。 粗糙集無(wú)法描繪屬性值間的非線性關(guān)系,但在處理多維度空間信息時(shí),能對(duì)冗余、無(wú)價(jià)值信息判斷,簡(jiǎn)化得到有用信息。 兩者優(yōu)勢(shì)互補(bǔ),能有效提升神經(jīng)網(wǎng)絡(luò)整體性能。
首先選取試驗(yàn)數(shù)據(jù)樣本,構(gòu)建原始決策表。設(shè)置聚類數(shù)目、迭代次數(shù),用K-Means 方法聚類離散化,待質(zhì)心不顯著移動(dòng),表明聚類已經(jīng)收斂,獲得離散化后的決策表。其次用基于條件信息熵的啟發(fā)式知識(shí)約簡(jiǎn)算法約簡(jiǎn)已經(jīng)離散化后的決策表,剔除冗余屬性,避免因訓(xùn)練樣本數(shù)目過(guò)多而耗時(shí)過(guò)長(zhǎng)。最后將約簡(jiǎn)的最小屬性集充作BP 神經(jīng)網(wǎng)絡(luò)輸入層指標(biāo), 決策屬性D 作為輸出指標(biāo),BP 作為對(duì)非線性可微分函數(shù)權(quán)系數(shù)優(yōu)化的多層前饋網(wǎng)絡(luò),需在設(shè)置參數(shù)和確定網(wǎng)絡(luò)結(jié)構(gòu)后,確定雙隱層BP 網(wǎng)絡(luò)模型。 建模流程圖如圖3。
圖3 RS+BP 神經(jīng)網(wǎng)絡(luò)建模流程圖Figure 3 RS+BP neural network modeling flow chart
基于條件信息熵的約簡(jiǎn)算法將條件熵作為啟發(fā)知識(shí),針對(duì)不一致信息決策表,以決策表核為出發(fā)點(diǎn),從非核屬性集att 中依次挑選剩余屬性集合,條件熵較小屬性移入核屬性集core,并隨之將先前挑選出的屬性從非核屬性集att 中剔除。特殊情況下,可能發(fā)生多個(gè)屬性含有相同決策的參考重要度,此時(shí),則選擇與約簡(jiǎn)結(jié)果集B 組合數(shù)最小的屬性[13-14]。 若核屬性集合存在,屬性約簡(jiǎn)后的結(jié)果集條件熵H(D|B)=H(D|C),集合B便存放著試驗(yàn)結(jié)果集。
算法時(shí)間復(fù)雜度主要是通過(guò)可辨識(shí)矩陣計(jì)算決策表核,以及從非核屬性集att 中依次計(jì)算決策屬性D 相對(duì)每個(gè)條件屬性core∪{Vi}的條件熵。 步驟1~5 為屬性約簡(jiǎn)描述。
Step1:求解全局條件熵H(D|C),用于終止條件的判斷。 同時(shí),對(duì)離散化后的決策表S,分別設(shè)置核屬性集core和非核屬性集att 為空集。
Step2:計(jì)算可辨識(shí)矩陣[15],挑選決策屬性不等時(shí)條件屬性組合數(shù)目為1 的屬性作為核。 算法以此為起點(diǎn),令約簡(jiǎn)結(jié)果集B=core。
Step3:從非核屬性集att 中挑選每個(gè)屬性Vi∈att,計(jì)算條件熵H(D|B∪{Vi}) 。
Step4:尋找出條件熵最小的那個(gè)屬性(熵越小,表示含有的信息不確定性越小)。 每挑選出一個(gè)核屬性Vi,即將該屬性從非核屬性集att 中減去。
Step5:挑選完整個(gè)條件屬性集合后,記錄核屬性集合B。終止條件是判斷初始條件屬性集合的條件熵相等于約簡(jiǎn)后屬性集合的條件熵,若H(D|C)=H(D|B)任務(wù)完成,否則轉(zhuǎn)Step2。
原始決策表中樣本經(jīng)離散化預(yù)處理后,再由基于條件熵的屬性約簡(jiǎn)算法降維,去除掉知識(shí)表達(dá)系統(tǒng)冗余、相互干擾的樣本,使得雙隱層BP 網(wǎng)絡(luò)具有更佳逼近能力,泛化能力更強(qiáng)。 經(jīng)上述步驟處理后,約簡(jiǎn)后最小屬性集作為BP 網(wǎng)絡(luò)輸入層樣本訓(xùn)練。 步驟6~步驟10 為BP 算法描述。
Step6:初始化權(quán)值矩陣 W1i1,W2j2,W3k3,并設(shè)置閾值 θi1,θj2,θk3,網(wǎng)絡(luò)精度 ε,學(xué)習(xí)率 η。
Step7:將約簡(jiǎn)整理后的決策表作為BP 網(wǎng)絡(luò)的訓(xùn)練樣本。 前一層輸入向量與連接權(quán)重的乘積,經(jīng)激勵(lì)函數(shù)轉(zhuǎn)換后作為下一層的輸入值,即前一層的輸出作為下一層的輸入。
Step8:計(jì)算每層輸出值、網(wǎng)絡(luò)輸出誤差。 每層神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行變換處理,變換函數(shù)f(x)采用單極性Sig鄄moid 函數(shù),即:
隱含層1:隱層 1 上第i 個(gè)節(jié)點(diǎn)的總輸入、輸出分別為si1、zi1,隱層 1 總輸出y1。
隱含層2:隱層 2 上第j 個(gè)節(jié)點(diǎn)的總輸入、輸出分別為si2、zj2,隱層 1 總輸出y2。
輸出層:輸出層的第K 個(gè)節(jié)點(diǎn)的輸出ok。
均方誤差定義
Step9:獲得神經(jīng)元的誤差信號(hào)后,利用誤差反向調(diào)整每層權(quán)值、閾值,直至網(wǎng)絡(luò)性能達(dá)到預(yù)設(shè)精度。 權(quán)值調(diào)整公式為:
備注:δi為隱含層誤差項(xiàng),xij為結(jié)點(diǎn) i 到結(jié)點(diǎn) j 的輸入,wij表示對(duì)應(yīng)的權(quán)值,系數(shù) η∈(0,1)為學(xué)習(xí)率。隱含層 1,2 總輸出記為 y1,y2。
Step10:判斷網(wǎng)絡(luò)的總輸出誤差是否達(dá)到預(yù)期精度要求。 若E總≤ε,則算法結(jié)束;否則轉(zhuǎn)至7 步,開始BP 算法新一輪。
小麥種子數(shù)據(jù)集(Wheat Seeds DataSet)來(lái)源于UCI 數(shù)據(jù)庫(kù)。 用軟X 射線技術(shù)和和顆粒包給定種子的計(jì)量數(shù)據(jù),涉及對(duì)不同品種的小麥種子幾何特征測(cè)定,用于分類、聚類任務(wù)。數(shù)據(jù)表1 中,一共210 個(gè)觀察值,7個(gè)輸入變量和 1 個(gè)輸出變量。 變量名解釋,V1:區(qū)域;V2:周長(zhǎng);V3:壓實(shí)度;V4:籽粒長(zhǎng)度;V5:籽粒寬度;V6:不對(duì)稱系數(shù);V7:籽粒腹溝長(zhǎng)度,構(gòu)成決策表?xiàng)l件屬性集合 C。 決策屬性 D 分為(1,2,3)3 類。
對(duì)表1 決策表應(yīng)用IBM SPSS Statistics 20.0 統(tǒng)計(jì)軟件對(duì)條件屬性值離散化。 試驗(yàn)需將小麥樣本品種分為3 類,故選用K-means 聚類數(shù)目3,設(shè)置迭代次數(shù)為10,當(dāng)且僅當(dāng)聚類中心更改為.000,說(shuō)明聚類已經(jīng)達(dá)到收斂,中心的最大絕對(duì)坐標(biāo)不再發(fā)生改變。 初始、最終聚類中心變化如表2。
表1 原始信息決策表Table 1 Original information decision table
表2 初始、最終聚類中心Table 2 Initial and final clustering center
選用基于劃分的K-means 聚類算法,以歐氏距離計(jì)算簇內(nèi)對(duì)象間相似度,將兩兩相似度大的對(duì)象歸于同一類簇,并用1,2,3 數(shù)字標(biāo)記實(shí)際連續(xù)數(shù)值,實(shí)現(xiàn)連續(xù)屬性離散化[16]。 基于條件信息熵的屬性約簡(jiǎn)對(duì)小麥種子樣本預(yù)處理,并且在不影響整體分類能力的情況下,剔除冗余屬性,加快網(wǎng)絡(luò)收斂速度。 離散化并約簡(jiǎn)后的決策如表3。
決策表中離散化后的數(shù)據(jù)若作為雙隱層神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本輸入,需要通過(guò)單極性Sigmoid 變化函數(shù)歸一化處理,避免因?yàn)檫B續(xù)型數(shù)值過(guò)大導(dǎo)致神經(jīng)元輸出飽和,且造成隨著訓(xùn)練次數(shù)增加,在最佳訓(xùn)練時(shí)刻之后,訓(xùn)練誤差持續(xù)下降而測(cè)試誤差呈現(xiàn)相反現(xiàn)象。
信號(hào)的正向傳播學(xué)習(xí)過(guò)程中,輸出信號(hào)會(huì)與教師信號(hào)做差值比對(duì),依照誤差值反向計(jì)算輸出層、雙隱含層誤差信號(hào)并調(diào)整權(quán)值。 若不做調(diào)整,可能產(chǎn)生的結(jié)果為:(1)具有不同量綱的網(wǎng)絡(luò)輸入分量因變化范圍不一致,造成感知器每個(gè)節(jié)點(diǎn)無(wú)法很好地接收外來(lái)信息。 (2)對(duì)于實(shí)際信號(hào)的輸出會(huì)偏離教師信號(hào),一輪網(wǎng)絡(luò)訓(xùn)練結(jié)束后,可能結(jié)果是總輸出誤差H 中所屬比例大的輸出分量相對(duì)誤差小。
表3 離散化后的決策表Table 3 Discretized decision table
由于單隱含層網(wǎng)絡(luò)非線性映射能力較弱,對(duì)于線性不可分?jǐn)?shù)據(jù),通過(guò)添加含有多個(gè)線性二分類器的隱含層,使得難以可視化的高維數(shù)據(jù)變得線性可分[17]。 設(shè)計(jì)雙隱層BP 網(wǎng)絡(luò),主要考慮到當(dāng)單層感知器無(wú)法改善網(wǎng)絡(luò)性能且不具有降低網(wǎng)絡(luò)訓(xùn)練誤差的能力,雙隱層結(jié)構(gòu)在處理不連續(xù)函數(shù)逼近問(wèn)題時(shí),呈現(xiàn)出擬合能力強(qiáng)、訓(xùn)練誤差小、辨識(shí)精度高等優(yōu)點(diǎn),但不是所有雙隱層結(jié)構(gòu)網(wǎng)絡(luò)都有優(yōu)越性能,與此同時(shí)不足在于:多層感知器結(jié)構(gòu)的設(shè)計(jì)更加復(fù)雜,樣本訓(xùn)練時(shí)間加長(zhǎng)。 因此,應(yīng)依據(jù)具體網(wǎng)絡(luò)模型進(jìn)行結(jié)構(gòu)設(shè)計(jì)。
由于雙隱層神經(jīng)元個(gè)數(shù)的選擇具有主觀性,通過(guò)“試湊法”,為表現(xiàn)不同節(jié)點(diǎn)下同一樣本的網(wǎng)絡(luò)性能,本研究中通過(guò)訓(xùn)練結(jié)果的MSH(均方差)多次調(diào)整尋找隱含層個(gè)數(shù),最終確定網(wǎng)絡(luò)結(jié)構(gòu)為:5-10-3-3。 部分測(cè)試結(jié)果如表4。
表4 部分不同雙隱含層神經(jīng)元個(gè)數(shù)時(shí)的網(wǎng)絡(luò)性能Table 4 Network performance of some neurons with different double hidden layers
在科學(xué)和工程問(wèn)題中, 希望通過(guò)直線或者多項(xiàng)式方程擬合平面上大量散落的數(shù)據(jù)點(diǎn),MATLAB 中可以用函數(shù)plotfit、curvefit 進(jìn)行曲線擬合。 網(wǎng)絡(luò)訓(xùn)練預(yù)測(cè)時(shí),MATLAB 自動(dòng)將數(shù)據(jù)分為訓(xùn)練、驗(yàn)證、測(cè)試,回歸系數(shù)R 越接近1,表示試驗(yàn)效果越好。 但與此同時(shí),可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,即出現(xiàn)學(xué)習(xí)過(guò)程過(guò)于精確,對(duì)訓(xùn)練數(shù)據(jù)外的數(shù)據(jù)泛化能力降低。 原因通常有很多,如訓(xùn)練數(shù)據(jù)量不夠,無(wú)法對(duì)待測(cè)試數(shù)據(jù)擬合;或者樣本含有噪聲,對(duì)網(wǎng)絡(luò)性能有影響。 常見解決方法有:提前停止法、隱層節(jié)點(diǎn)自生成法、正則化等[18]。 此次試驗(yàn)并未出現(xiàn)過(guò)擬合現(xiàn)象,且表現(xiàn)性能良好。 具體擬合情況如圖4。
在確定雙隱層BP 網(wǎng)絡(luò)參數(shù)選擇和結(jié)構(gòu)設(shè)計(jì)后,需要抽取樣本數(shù)據(jù)通過(guò)多個(gè)周期測(cè)試除訓(xùn)練集合外的待預(yù)測(cè)樣本,倘若網(wǎng)絡(luò)模型下的數(shù)據(jù)擬合能力較差勁,對(duì)非規(guī)律樣本內(nèi)容預(yù)測(cè)能力同樣很差,此時(shí)即為訓(xùn)練過(guò)度[19]。 若因樣本數(shù)過(guò)少或網(wǎng)絡(luò)模型復(fù)雜性過(guò)低造成的欠擬合現(xiàn)象,可通過(guò)減少正則化參數(shù)、換用非線性模型等方法避免。
圖4 回歸分析圖Figure 4 Regression analysis diagram
本研究中設(shè)定網(wǎng)絡(luò)性能目標(biāo)均方誤差MSE 為0.005,試驗(yàn)在迭代19 次后終止,用時(shí)1.513s。 為驗(yàn)證所選模型的泛化能力, 將樣本數(shù)據(jù)分割出交叉驗(yàn)證集合,用來(lái)檢驗(yàn)所選BP 網(wǎng)絡(luò)模型優(yōu)劣與否。 圖5 顯示最佳驗(yàn)證性能0.041381, 小于設(shè)定值并在迭代次數(shù)為第13 次時(shí)停止訓(xùn)練??v坐標(biāo)最小均方誤差表示實(shí)際輸出值與真實(shí)數(shù)據(jù)輸出的擬合程度,性能圖中訓(xùn)練集開始時(shí)誤差較小只有0.035,驗(yàn)證集誤差0.063,兩者相差大,低方差表示模型穩(wěn)定選擇合適; 測(cè)試集誤差0.03 與訓(xùn)練集相差不大,為低偏差,說(shuō)明模型擬合程度較高。
為證明RS+雙隱層BP 神經(jīng)網(wǎng)絡(luò)相比于傳統(tǒng)BP網(wǎng)絡(luò)具有可行性, 在保證使用相同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的前提下,對(duì)相同數(shù)據(jù)(樣本的30%)進(jìn)行測(cè)試,對(duì)比準(zhǔn)確率并將效果圖可視化, 可知約簡(jiǎn)后分類準(zhǔn)確率有明顯提高,約簡(jiǎn)前后分類對(duì)比圖6 和圖7。
圖5 性能圖Figure 5 Performance diagram
圖6 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)測(cè)試樣本分類效果Figure 6 Traditional neural network test sample classification renderings
圖7 RS+BP 神經(jīng)網(wǎng)絡(luò)測(cè)試樣本分類效果圖Figure 7 Classification effect diagram of RS+BP neural network test samples
針對(duì)神經(jīng)網(wǎng)絡(luò)無(wú)法對(duì)冗余信息進(jìn)行有效判斷的缺陷,運(yùn)用基于條件信息熵的屬性約簡(jiǎn)算法,將初始決策表7 個(gè)條件屬性約簡(jiǎn)至5 個(gè),降低數(shù)據(jù)集維度,使其對(duì)大維度空間信息具有更好適應(yīng)性。 表5 給出約簡(jiǎn)前后比較結(jié)果。
由表5 可知, 約簡(jiǎn)后的數(shù)據(jù)樣本應(yīng)用RS+雙隱層BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練,與傳統(tǒng)BP 網(wǎng)絡(luò)訓(xùn)練原始數(shù)據(jù)比,7維特征屬性約簡(jiǎn)至5 維,數(shù)據(jù)集維度降低,訓(xùn)練樣本所需運(yùn)行時(shí)間減少和分類準(zhǔn)確率大幅度提高。
表5 約簡(jiǎn)樣本前后效果對(duì)比Table 5 Comparison of effect before and after reduction samples
數(shù)據(jù)挖掘作為信息時(shí)代從大量數(shù)據(jù)中獲取有價(jià)值信息進(jìn)行數(shù)據(jù)分析的必要步驟,通過(guò)相關(guān)性分組、分類、聚類、描述和可視化等方法,應(yīng)用于模式識(shí)別、數(shù)據(jù)分析等諸多領(lǐng)域。 BASATI 等[20]使用基于監(jiān)督和非監(jiān)督模式識(shí)別方法的Vis/NIR 光譜(波長(zhǎng)范圍350~1000nm)分析了健康和5%、10%、15%和20%不健康5 類樣品,研究用PCA 建模的SIMCA 模式分類健康、不健康兩類樣品,準(zhǔn)確率達(dá)100%。 陳文根等[21]利用深度卷積神經(jīng)網(wǎng)絡(luò)提取小麥特征參數(shù),用Softmax 分類器識(shí)別,針對(duì)大樣本下的學(xué)習(xí)過(guò)程,具有很強(qiáng)的泛化性,該方法平均識(shí)別準(zhǔn)確率達(dá)97.78%。 樊超等[22]對(duì)采集到的小麥顆粒圖像進(jìn)行中值濾波后,采用迭代式閾值法分割圖像,提取出特征,然后通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)研究了小麥品種的識(shí)別準(zhǔn)確率與品種數(shù)量之間的關(guān)系。本試驗(yàn)研究發(fā)現(xiàn),預(yù)處理?xiàng)l件屬性,剔除對(duì)分類準(zhǔn)確率有干擾的冗余數(shù)據(jù),經(jīng)BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,可以明顯降低運(yùn)行時(shí)間且提高分類準(zhǔn)確率,有效選育出優(yōu)質(zhì)的小麥籽粒品種。 若神經(jīng)網(wǎng)絡(luò)因輸入量大,使得網(wǎng)絡(luò)泛化能力差、分類精度低、收斂速度大幅度降低,就需要降低神經(jīng)網(wǎng)絡(luò)的輸入維度,簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
粗糙集與神經(jīng)網(wǎng)絡(luò)結(jié)合,在小麥籽粒品種分類的試驗(yàn)過(guò)程中,針對(duì)傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)處理多維冗余信息表現(xiàn)出的擬合誤差大,分類精度較低缺陷。 首先K-means 聚類預(yù)處理數(shù)據(jù),粗糙集約簡(jiǎn)算法簡(jiǎn)化數(shù)據(jù)集、降低維度,同時(shí)改變神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),使用雙隱層BP 網(wǎng)絡(luò)提升訓(xùn)練精度、縮短訓(xùn)練時(shí)間。 試驗(yàn)表明,該方法使得分類準(zhǔn)確率由88.889%提升至 95.238%,運(yùn)行時(shí)間 1.574s 縮短至1.513s,具有更佳的準(zhǔn)確率保證,避免人力識(shí)別的資源浪費(fèi),訓(xùn)練過(guò)程中快速地做出品種判斷,在農(nóng)業(yè)生產(chǎn)中小麥種子品種分類應(yīng)用中具有很好的實(shí)用價(jià)值。