胥新政,強 毅,傅華棟
(1.機械科學研究總院集團有限公司,北京 100044;2.中國合格評定國家認可中心,北京 100062)
大數(shù)據(jù)時代,如何有效處理龐雜的不確定性信息從而獲得規(guī)律性認知是人們所面臨的一大難題?!安淮_定性”是指我們對事物“不能完全確信”的狀態(tài),一般包括固有不確定性和認知不確定性。前者源于事物固有的隨機性,后者源于人們所掌握知識和信息的局限性[1]。其中,認知不確定性作為一種特定的不確定性,在各個學科領域已引起足夠重視。因此,需要采用新方法新思路來定性、定量地分析各個環(huán)境系統(tǒng)的不確定性。
貝葉斯(Bayes)方法是以概率論為基礎的一種統(tǒng)計學方法,與傳統(tǒng)統(tǒng)計學理論的最大不同在于貝葉斯理論將所有參數(shù)作為隨機變量,并根據(jù)專家經(jīng)驗賦予其先驗分布,以使參數(shù)估計更可靠[2]。近年來,該方法已被成功地引用到各個學科領域處理不確定性信息。鑒于此,本文系統(tǒng)地闡述了貝葉斯方法的基本思想、應用和展望。
貝葉斯方法是聯(lián)系先驗知識和后驗知識的橋梁。它以貝葉斯公式、貝葉斯統(tǒng)計推斷及貝葉斯網(wǎng)絡為基礎,使用先驗概率和樣本信息得出后驗概率,主要用于處理不確定性信息中的隨機信息。
貝葉斯定理描述了條件概率及其逆概率的關系,公式如下:
其中,P(A)為事件 A 的先驗概率,P(A|B)為在事件 B條件下事件A的后驗概率,P(A|B)/P(B)為事件A發(fā)生對事件B的支持程度,即似然函數(shù)。
貝葉斯統(tǒng)計推斷的基本過程如圖1所示[3]:首先通過實驗獲得樣本信息 X1、X2、X3……Xn,估計先驗分布 π(θ)反映先驗信息,同時構建似然函數(shù) L(θ|X1、X2…、Xn)反映樣本信息;再結合貝葉斯定理得到待估計量的后驗概率分布 h(θ|X1、X2…、Xn);最后利用后驗分布得到預報概率分布。公式如下:
圖1 貝葉斯統(tǒng)計推斷的基本過程Fig.1 The primary process of the bayesian method for statistical inference
(1)貝葉斯網(wǎng)絡概念與組成。貝葉斯網(wǎng)絡是貝葉斯方法的擴展,又稱貝葉斯信度網(wǎng)絡(BBN),是以圖形化的方式表達不確定性信息的概率模型,能直觀地表達系統(tǒng)內(nèi)各元素之間的相互影響關系[4]。貝葉斯網(wǎng)絡的組成:一是有向無環(huán)圖(DAG),由代表變量節(jié)點及連接這些節(jié)點有向邊構成;二是變量之間因果影響強度的條件概率表(CPT)。其中,節(jié)點代表隨機變量,節(jié)點間的有向邊代表節(jié)點間的互相關系(由父節(jié)點指向其子節(jié)點);條件概率表達關系強度,沒有父節(jié)點的用先驗概率表達。
(2)貝葉斯網(wǎng)絡的構建。首先,確定目標領域的變量集,即貝葉斯網(wǎng)絡的節(jié)點集。目標問題應被變量集中所有的特征變量完全描述,并確定每個變量的狀態(tài)和取值范圍;其次,根據(jù)變量之間的概率依賴關系或先驗依賴關系確定網(wǎng)絡結構。對具備大量專家知識的問題領域,根據(jù)專家對變量之間存在因果依賴關系的認知,連接自變量與因變量。最后,估計參數(shù),計算每個節(jié)點的概率分布。概率分布包括根節(jié)點的先驗概率分布和中間節(jié)點的條件概率分布。
(3)基于貝葉斯網(wǎng)絡的推理。貝葉斯網(wǎng)絡的推理是指在給定一組證據(jù)變量概率值的條件下,計算一組查詢變量的概率分布,包括精確推理和近似推理。即對原始數(shù)據(jù)進行數(shù)據(jù)挖掘,找出符合原始數(shù)據(jù)的定性網(wǎng)絡圖關系,然后根據(jù)各節(jié)點之間的因果關系,利用Bayes公式中條件概率的計算方法,計算出所感興趣的查詢節(jié)點(query node)發(fā)生概率。
(4)基于貝葉斯網(wǎng)絡的學習。貝葉斯網(wǎng)絡學習是指利用樣本數(shù)據(jù)更新網(wǎng)絡原有參數(shù)或結構的先驗分布,即尋找一種最能真實反映數(shù)據(jù)集中各變量間的依賴關系,并能按某種測度較好地與給定實例數(shù)據(jù)集擬合。給定離散變量集{X1、X2、X3……Xn}上的數(shù)據(jù)樣本 D,學習的目的是找到與D匹配程度最高的貝葉斯網(wǎng)絡。
可見,貝葉斯網(wǎng)絡既能將先驗知識和后驗數(shù)據(jù)有機結合,也能客觀的表達與處理目標問題,以從不完全、不精確或不確定的知識或信息中做出推理,被認為是表達不確定性問題最有效的模型之一。
貝葉斯方法結合先驗信息和觀測數(shù)據(jù)下的似然信息得到參數(shù)的后驗概率分布。近年來,采用貝葉斯方法耦合輸入不確定性、結構不確定性以及數(shù)據(jù)不確定性,在評價、模擬及預報的不確定性分析方面取得了系列成果,使得不確定性信息處理理論日臻完善,并在諸多領域廣泛應用?,F(xiàn)就其在醫(yī)療衛(wèi)生、氣候地理、信息技術和經(jīng)濟管理等領域的應用闡述如下:
貝葉斯方法在醫(yī)療衛(wèi)生領域的應用主要表現(xiàn)在貝葉斯網(wǎng)絡的應用。它通過對疾病案例建立貝葉斯網(wǎng)絡,編碼各種癥狀與疾病之間的因果關系,計算病人患有某種疾病的概率。國外,如TakeHeart II系統(tǒng)是基于貝葉斯網(wǎng)絡的心血管疾病診斷臨床支持決策系統(tǒng) (Clinical Decision Support System,CDSS),具有良好的人機接口,能夠?qū)崟r提供決策并做出風險評估[5]。國內(nèi),南開大學徐曼等人在不確定性與非平衡性條件下,通過構建考慮穩(wěn)態(tài)與隨機態(tài)關聯(lián)性的貝葉斯網(wǎng)絡學習模型,研究了基于規(guī)則/案例(CBR/RBR)融合推理模式在醫(yī)療決策方面的應用。
2.2.1 空間地理知識表達和推理
在定性地理空間知識表達和推理中,存在各種不確定性問題,如位置表達的不精確性、地物的模糊性、空間關系的模糊性及空間陳述的不確定性等。目前,貝葉斯方法越來越廣泛的應用于地理空間數(shù)據(jù)不確定性的處理。國外,如Aspinall[6]在GlS系統(tǒng)中用貝葉斯方法結合大量的數(shù)據(jù)集,預測蘇格蘭北部格蘭扁地區(qū)紅鹿的分布情況;國內(nèi),北京大學鄔倫等人利用貝葉斯定理,建立了根據(jù)地理位置描述確定地物分布的概率方法,并研究了定性地理空間知識不確定性表達和推理及其在地理信息檢索中的應用。
2.2.2 氣候預測
環(huán)境生態(tài)系統(tǒng)模擬和預估的不確定性研究是氣候預測的研究重點。氣候變化模擬的不確定性是影響環(huán)境生態(tài)系統(tǒng)模擬不確定性的一個重要的因素。中國科學院地理科學與資源研究所何洪林等人結合現(xiàn)有的觀測數(shù)據(jù)和研究基礎,構建了貝葉斯神經(jīng)網(wǎng)絡,模擬了站點尺度凈CO2交換量(NEE)的時間動態(tài)及環(huán)境變量對NEE的影響,并量化了NEE的不確定性。
2.3.1 數(shù)據(jù)挖掘
隨著數(shù)據(jù)庫技術的迅速發(fā)展和廣泛應用,數(shù)據(jù)挖掘已經(jīng)成為數(shù)據(jù)庫知識發(fā)現(xiàn)的重要途徑。由于貝葉斯網(wǎng)絡的預測能力,并且其能夠顯示變量間最直接的關聯(lián)關系,貝葉斯網(wǎng)絡已成為大規(guī)模數(shù)據(jù)庫中數(shù)據(jù)挖掘的重要手段。國外,Sebastian等人用貝葉斯網(wǎng)為慈善機關的客戶建模,較好地預測了捐贈人的特征和希望得到的禮物,幫助慈善機構獲得了最大的效率[7]。國內(nèi),慕春棣等人對貝葉斯網(wǎng)學習方法的數(shù)學推導進行了分析總結,并介紹了貝葉斯網(wǎng)絡在數(shù)據(jù)挖掘中的應用[8]。
2.3.2 故障診斷與決策
在故障診斷技術中,所獲得的觀測信息或樣本具有一定的有限性和不確定性。貝葉斯網(wǎng)絡是一種有效的診斷決策模型,具有不確定性問題的表達能力。國外,Nicholson AE等人[9]將動態(tài)貝葉斯網(wǎng)絡作為傳感器故障診斷模型,研究了傳感器故障預測和診斷的方法。國內(nèi),西北工業(yè)大學的傅軍等在柴油機動力裝置的故障診斷中,采用貝葉斯網(wǎng)絡故障診斷模型,提高了故障診斷的精度和速度[10]。
綜上所述,通過建立系統(tǒng)模型,達到輔助決策、特征融合及數(shù)據(jù)分析等目的是貝葉斯方法的基本應用過程,并以其獨特的綜合先驗知識的增量學習特性和卓越的推理性能被廣泛應用到不同領域中,并取得令人矚目的效果,成為國內(nèi)外研究的熱點。其中,貝葉斯網(wǎng)絡作為一種基于概率的不確定性推理工具,在醫(yī)療診斷、統(tǒng)計決策、專家系統(tǒng)、學習預測等方面得以成功應用,已成為處理不確定性信息的最重要途徑。
人工智能的目的是建立最接近人類認知水平的智能模型,隨著相關理論和技術的日益成熟,其應用領域也不斷擴大,具有廣闊的發(fā)展空間。不確定性知識的推理和決策,是人工智能技術中的關鍵環(huán)節(jié)。貝葉斯方法因具備在不確定環(huán)境下知識表示與推理的優(yōu)勢,已成為人工智能重要的研究熱點之一。目前,基于人工智能的計算機視覺、自然語言處理等技術發(fā)展日新月異;未來,貝葉斯方法在人工智能技術中仍具有廣闊的發(fā)展空間。但是,貝葉斯方法在機器深度學習及數(shù)據(jù)挖掘技術方面的研究成果較少,建議加強該方面的應用與研究。