張莉,陳昊
(1.湖北大學(xué)知行學(xué)院,湖北 武漢430011;2.湖北大學(xué)計(jì)算機(jī)與信息工程學(xué)院,湖北 武漢430062)
定量分析和定性分析是兩種最常見的評(píng)價(jià)事物的方法.前者主要用數(shù)學(xué)語(yǔ)言描述,依據(jù)統(tǒng)計(jì)數(shù)據(jù),建立相應(yīng)的數(shù)學(xué)模型,并用數(shù)學(xué)模型計(jì)算出分析對(duì)象的各項(xiàng)指標(biāo)及其數(shù)值;后者主要用自然語(yǔ)言描述,是利用決策者的經(jīng)驗(yàn)對(duì)評(píng)價(jià)對(duì)象的狀態(tài)、行為及相關(guān)信息進(jìn)行細(xì)致的觀察和分析,直接給出其水平等級(jí)等定性結(jié)論的方法.定量評(píng)價(jià)雖然具有客觀化、標(biāo)準(zhǔn)化和精確化的特征,但是人腦的思維基本上不是純數(shù)學(xué)的,自然語(yǔ)言才是思維的載體,因此基于自然語(yǔ)言的定性評(píng)價(jià)在人類活動(dòng)中有著更廣泛的應(yīng)用.
現(xiàn)有的定性分析方法不足之處主要表現(xiàn)在缺乏客觀的定量分析以及對(duì)定量數(shù)據(jù)硬性劃分.定性分析與評(píng)價(jià)涉及用自然語(yǔ)言描述定性概念,而自然語(yǔ)言中概念具有不確定性,主要體現(xiàn)在模糊性和隨機(jī)性.為了使得定性評(píng)價(jià)更加科學(xué)準(zhǔn)確,現(xiàn)代定性評(píng)價(jià)方法在定量數(shù)據(jù)基礎(chǔ)上,建立了從數(shù)據(jù)到概念的轉(zhuǎn)換模型,即定量表示的數(shù)值與定性描述的基本語(yǔ)言值之間的不確定轉(zhuǎn)換模型.云模型是進(jìn)行定量性轉(zhuǎn)換的有效工具[1],李德毅院士提出的云模型能描述自然語(yǔ)言中概念的隨機(jī)性、模糊性及其關(guān)聯(lián)性[2].云模型通過正向云發(fā)生器和逆向云發(fā)生器實(shí)現(xiàn)定性概念與其定量數(shù)值之間的相互轉(zhuǎn)換[3].正向云發(fā)生器是從定性到定量的映射,實(shí)現(xiàn)了定性概念的定量數(shù)據(jù)的范圍和分布規(guī)律.而逆向云發(fā)生器則恰恰相反,是實(shí)現(xiàn)從定量值到定性概念的轉(zhuǎn)換模型,將一定數(shù)量的精確數(shù)值有效轉(zhuǎn)化為恰當(dāng)?shù)亩ㄐ愿拍睿虼四嫦蛟瓢l(fā)生器算法能有效的應(yīng)用于各種定性評(píng)價(jià).
1.1 云模型定義 概念是人腦的高級(jí)產(chǎn)物,是客體在人腦中的反映,自然語(yǔ)言中的概念是定性的,而且具有不確定性.定性概念的不確定性主要體現(xiàn)在概念的隨機(jī)性和模糊性,云模型是在概率論和模糊集合論兩種理論基礎(chǔ)上,通過特定構(gòu)造算法,統(tǒng)一刻畫概念的隨機(jī)性、模糊性及其關(guān)聯(lián)性.設(shè)C是論域U上的概念,若x∈U是概念C的一次隨機(jī)實(shí)現(xiàn),x對(duì)C的確定度μ(x)∈[0,1]是有穩(wěn)定傾向的隨機(jī)數(shù):μ(x):U→[0,1]?x∈U,則x在論域U 上的分布稱為云模型[4].
云模型的數(shù)字特征用期望Ex、熵En、超熵He 3個(gè)數(shù)值表示,它把概念的模糊性和隨機(jī)性關(guān)聯(lián)在一起,反映了定性概念整體特征.期望Ex是論域空間中最能代表這個(gè)定性概念的數(shù)值,熵En反映了在論域中可被概念接受的數(shù)域范圍,是定性概念亦此亦彼性的度量,即模糊性.通常熵越大,表示定性概念的可度量粒度越大,概念越宏觀.超熵He是熵不確定性的度量,它代表了定性概念的樣本出現(xiàn)的隨機(jī)性,通常超熵越大,云滴離散程度也越大,確定度的隨機(jī)性也越大.
正態(tài)云是一種最基本的云模型,具有普遍適用性[5].正態(tài)云的期望曲線是一條正態(tài)曲線.正態(tài)云的正向云發(fā)生器是從概念表達(dá)的定性信息中獲取定量數(shù)據(jù)的范圍和分布情況,一維正態(tài)云實(shí)現(xiàn)算法如下:
輸入:一維定性概念的數(shù)字特征(Ex,En,He)及云滴數(shù)N.
輸出:N個(gè)云滴的定量值x以及代表概念的確定度y.
1)生成以En為期望值、He為均方差的正態(tài)隨機(jī)數(shù)En′;
2)生成以Ex為期望值、En′為均方差的正態(tài)隨機(jī)數(shù)x;
4)(x,y)成為論域中1個(gè)云滴;
5)重復(fù)步驟1)~4)直至產(chǎn)生N個(gè)云滴.
圖1 一維正態(tài)云及期望曲線
例如用云模型表示定性概念“青年人”,根據(jù)生活經(jīng)驗(yàn),將20歲定為完全屬于青年人概念即期望Ex,熵En和超熵He可以定為5和0.3,圖1是用正向云發(fā)生器算法生成的青年人云.云的整體形狀反映了定性概念的基本特征,云的厚度表現(xiàn)為中間分散,說明了距離概念中心不近不遠(yuǎn)的位置隨機(jī)性大,體現(xiàn)了人們對(duì)此區(qū)間的年齡是否屬于青年人的認(rèn)識(shí)差異較大;兩頭凝聚,說明靠近概念中心或遠(yuǎn)離概念中心位置隨機(jī)性小,體現(xiàn)人們對(duì)此區(qū)間的年齡是否屬于青年人的主觀認(rèn)識(shí)差異小.圖1中的曲線表示的是云模型的期望曲線,所有云滴都在期望曲線附近隨機(jī)波動(dòng),波動(dòng)程度是由超熵He控制,單個(gè)云滴并不影響云的整體形狀[6-7].
在一維正態(tài)云模型基礎(chǔ)上,很容易推廣到二維乃至多維正態(tài)云[8],從而表示兩個(gè)或者多個(gè)定性概念組合而成的復(fù)雜定性概念.比如通常用“身高、體重”兩個(gè)指標(biāo)評(píng)價(jià)兒童身體發(fā)育狀況,以兒童身高和體重的期望Ex,熵En和超熵He為數(shù)字特征利用二維正態(tài)云發(fā)生器算法就能得到兒童身體發(fā)育狀態(tài)云.
1.2 逆向云算法 逆向云發(fā)生器是將一定數(shù)量的精確數(shù)據(jù)轉(zhuǎn)換為以數(shù)字特征期望Ex,熵En和超熵He表示的定性概念,從而實(shí)現(xiàn)了定量數(shù)據(jù)到定性概念的轉(zhuǎn)換.文獻(xiàn)[9]中提出一種基于確定度信息的逆向云擬合算法,該算法不僅需要云滴的定量值,而且還需要每個(gè)云滴的確定度信息,而在實(shí)際應(yīng)用中,往往只有一組表示某個(gè)概念的定量值,難以獲得概念的確定度信息,因此基于確定度信息的逆向云算法具有很大局限性.文獻(xiàn)[10]中根據(jù)云的統(tǒng)計(jì)特征,僅利用云滴的定量值還原云表示概念的數(shù)字特征,算法簡(jiǎn)單,實(shí)用性強(qiáng),易于推廣到高維逆向云算法.由于該算法是基于統(tǒng)計(jì)原理的,實(shí)際計(jì)算過程中不同的云滴樣本會(huì)導(dǎo)致相應(yīng)的計(jì)算誤差,尤其在計(jì)算超熵He過程中,如果云滴樣本的S2-E^n2<0,則計(jì)算得到超熵值為虛數(shù),如果超熵為虛數(shù),則意味著本次計(jì)算失敗,需要選擇新的云滴樣本從新計(jì)算.我們對(duì)算法做了改進(jìn),保證任何云滴樣本輸入計(jì)算得到的超熵值都是正實(shí)數(shù),減小了計(jì)算誤差.算法具體步驟如下:
輸入:N 個(gè)云滴樣本的定量值xi(i=1,…,N).
輸出:云滴樣本表示的定性概念的數(shù)字特征(Ex,En,He)的估計(jì)值.
1)根據(jù)N個(gè)云滴定量值xi計(jì)算樣本均值
通常,人們更習(xí)慣于用自然語(yǔ)言而不是用精確的數(shù)值對(duì)事物進(jìn)行分析和評(píng)價(jià).正態(tài)逆向云能將一定數(shù)量的精確數(shù)值有效轉(zhuǎn)化為用3個(gè)數(shù)字特征描述的定性概念,概念提升操作可以將用數(shù)字特征表示的原子概念組合成粗粒度的綜合概念,從而能在粗細(xì)不同的粒度對(duì)事物的本質(zhì)進(jìn)行定性分析.利用正態(tài)云模型對(duì)客觀事物進(jìn)行定性分析與評(píng)價(jià)的具體步驟如下:
1)將實(shí)際的若干定量數(shù)值作為一個(gè)個(gè)云滴,且根據(jù)實(shí)際應(yīng)用場(chǎng)合劃分為若干相互獨(dú)立的云滴團(tuán);
2)針對(duì)每個(gè)云滴團(tuán)采用逆向云算法提取出一系列由正態(tài)云的3個(gè)數(shù)字特征表示的基本原子概念;
3)采用正態(tài)云概念提升策略,將細(xì)粒度的概念爬升到粗粒度概念,構(gòu)造一個(gè)泛概念樹結(jié)構(gòu).
以下采用二維正態(tài)云方法定性分析兒童健康發(fā)育狀況,通過兩個(gè)實(shí)際應(yīng)用進(jìn)一步解釋正態(tài)云定性分析與評(píng)價(jià)方法.
通常用體重和身高兩項(xiàng)指標(biāo)評(píng)價(jià)兒童健康發(fā)育狀況.目前傳統(tǒng)的評(píng)價(jià)方法一般是對(duì)各個(gè)地區(qū)按年齡對(duì)兒童的體重和身高采樣,然后求體重和身高樣本值的均值,通過體重平均值和身高平均值衡量地區(qū)的兒童發(fā)育情況.這種評(píng)價(jià)方法顯得粗糙簡(jiǎn)單,可以通過二維正態(tài)云評(píng)價(jià)方法分析兒童的健康狀況.
每個(gè)兒童的體重和身高信息可以看作是一個(gè)二維的云滴,則某個(gè)地區(qū)的若干兒童的體重和身高采樣信息是一個(gè)二維云滴團(tuán).將二維云滴團(tuán)作為輸入,首先通過二維正態(tài)逆向云算法得到反映整個(gè)云滴團(tuán)的3個(gè)數(shù)字特征,3個(gè)數(shù)字特征相對(duì)一個(gè)均值更能全面評(píng)價(jià)某個(gè)地區(qū)的兒童發(fā)育情況.多個(gè)地區(qū)的數(shù)字特征可看成若干個(gè)由二維正態(tài)云描述的原子概念,通過概念提升操作可以得到全局的兒童發(fā)育情況.
以少量的實(shí)際數(shù)據(jù)為基礎(chǔ),通過產(chǎn)生隨機(jī)數(shù)的方法生成大量模擬數(shù)據(jù),驗(yàn)證二維逆向云算法和概念提升思想在兒童身體發(fā)育狀況定性評(píng)價(jià)中的應(yīng)用.兒童體重和身高采樣信息源于華南、華中和華北3個(gè)地區(qū),表1為部分采樣數(shù)據(jù).
利用二維正態(tài)逆向云算法可以計(jì)算出每個(gè)地區(qū)兒童的體重和身高的特征參數(shù)(Ex,En,He),從而能得到每個(gè)地區(qū)兒童身體發(fā)育狀況的評(píng)價(jià)結(jié)果,體重和身高的期望Ex最能表現(xiàn)該地區(qū)兒童發(fā)育狀況的整體水平,熵En和超熵He反映地區(qū)內(nèi)兒童發(fā)育不平衡性,如表2所示.
表2 地區(qū)兒童發(fā)育狀況數(shù)字特征
根據(jù)二維正態(tài)逆向云求出每個(gè)地區(qū)的兒童體重和身高發(fā)育狀況的特征參數(shù)后,再通過二維正態(tài)正向云發(fā)生器就可以得到如圖2所示的3個(gè)地區(qū)兒童生長(zhǎng)發(fā)育狀況的云圖.從中可以看出華南地區(qū)兒童體型偏小,華北地區(qū)兒童體型較大,華中地區(qū)介于二者之間,華中地區(qū)內(nèi)部?jī)和陌l(fā)育情況較華南和華北地區(qū)相對(duì)平衡.
圖2 地區(qū)兒童發(fā)育狀況正態(tài)云圖
圖3 全國(guó)兒童身體發(fā)育水平正態(tài)云圖
將二維正態(tài)逆向云算法得到的3個(gè)地區(qū)兒童發(fā)育狀況的數(shù)字特征作為關(guān)聯(lián)的3個(gè)原子概念,通過二維正態(tài)云概念提升操作,生成更高層次的復(fù)合概念,反映全國(guó)兒童的生長(zhǎng)發(fā)育水平.根據(jù)每個(gè)地區(qū)兒童發(fā)育狀況的實(shí)際物理意義,可利用基于邏輯運(yùn)算的概念組合法得到全國(guó)兒童的生長(zhǎng)發(fā)育水平,如表3所示.通過二維正態(tài)正向云發(fā)生器算法就可以得到如圖3所示的全國(guó)兒童的生長(zhǎng)發(fā)育水平云圖.
表3 全國(guó)兒童身體發(fā)育評(píng)價(jià)結(jié)果
正態(tài)逆向云能有效實(shí)現(xiàn)從定量數(shù)值到定性概念的自然轉(zhuǎn)化,用3個(gè)數(shù)字特征有效表示定性概念.給定若干實(shí)際一維或高維的定量數(shù)值,利用正態(tài)逆向云算法可能得到一系列用數(shù)字特征表示的一維或高維的原子定性概念.利用基于邏輯運(yùn)算或算術(shù)運(yùn)算的概念提升操作可以將原子概念組合成粗粒度的綜合概念,從整體上把握事物的本質(zhì)特征.通過兒童身體發(fā)育水平評(píng)價(jià)實(shí)例,驗(yàn)證了將正態(tài)逆向云和概念提升兩種方法相結(jié)合進(jìn)行定性評(píng)價(jià)的實(shí)用性和有效性,與傳統(tǒng)的定性評(píng)價(jià)方法相比較,基于云模型的定性評(píng)價(jià)方法實(shí)用性強(qiáng),而且評(píng)價(jià)結(jié)果全面深刻.
[1]馮向榮,吳俊.基于模型的支持向量機(jī)的入侵檢測(cè)特征選擇方法[J].華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2013,47(1):23-26.
[2]李德毅.知識(shí)表示中的不確定性[J].中國(guó)工程科學(xué),2000,2(10):73-79.
[3]李德毅,杜鹢.不確定性人工智能[M].北京:國(guó)防工業(yè)出版社,2005.
[4]李德毅,孟海軍,史學(xué)梅.隸屬云和隸屬云發(fā)生器[J].計(jì)算機(jī)研究與發(fā)展,1995,32(6):15-20.
[5]李德毅,劉常昱.論正態(tài)云模型的普適性[J].中國(guó)工程科學(xué),2004,6(8):28-33.
[6]劉常昱,李德毅,杜鹢,等.正態(tài)云模型的統(tǒng)計(jì)分析[J].信息與控制,2005,34(2):236-239.
[7]羅自強(qiáng),張光衛(wèi),李德毅.一維正態(tài)云的概率統(tǒng)計(jì)分析[J].信息與控制,2007,36(4):471-475.
[8]楊朝暉,李德毅.二維云模型及其在預(yù)測(cè)中的應(yīng)用[J].計(jì)算學(xué)報(bào),1998,21(11):961-969.
[9]呂輝軍,王曄,李德毅,等.逆向云在定性評(píng)價(jià)中的應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2003,26(8):1009-1014.
[10]劉常昱,馮芒,戴曉軍,等.基于云 X信息的逆向云新算法[J].系統(tǒng)仿真學(xué)報(bào),2004,16(11):2417-2420.