王明微 ,韓紹歡,劉曉晨,李曙光
WANG Ming-wei1 , HAN Shao-huan2 , LIU Xiao-chen3, LI Shu-guang1
(1.西北工業(yè)大學(xué) 現(xiàn)代設(shè)計與集成制造技術(shù)教育部重點實驗室,西安 710072;2.中國空間技術(shù)研究院,北京 100094;3.航天人才開發(fā)交流中心,北京 100830)
目前,在我國以衛(wèi)星、飛機為代表的飛行器總體設(shè)計中對功能分析、技術(shù)要求分配等設(shè)計活動,仍然主要依賴于個人經(jīng)驗進行主觀判斷與協(xié)調(diào);嚴格的評審程序只能保證最終設(shè)計結(jié)果的正確性,而忽略了設(shè)計整體實現(xiàn)過程,難以追溯問題產(chǎn)生根源。因此,獲取復(fù)雜產(chǎn)品設(shè)計過程中設(shè)計元素之間的因果知識,將產(chǎn)品開發(fā)過程從依賴個人經(jīng)驗轉(zhuǎn)變?yōu)閲乐敗⒂幸?guī)律可循的科學(xué)實踐,對于提高產(chǎn)品設(shè)計效率和質(zhì)量具有重要意義和作用。
貝葉斯網(wǎng)絡(luò)(Bayesian networks)[1,2]作為數(shù)據(jù)挖掘技術(shù)中的最重要理論工具之一,能夠以條件概率方式確定變量之間的因果依賴關(guān)系,直觀和全面地綜合分析影響決策的所有因素。目前,國內(nèi)外學(xué)者在不同領(lǐng)域?qū)谪惾~斯網(wǎng)絡(luò)的因果知識表達、獲取和推理展開了大量的研究。例如文獻[3]嘗試利用因果圖構(gòu)建貝葉斯網(wǎng)絡(luò),并比較二者異同;文獻[4]給出常見的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)因果關(guān)系知識模型的假設(shè)條件;文獻[5]通過貝葉斯網(wǎng)建立了設(shè)備故障原因與故障模型的因果關(guān)系;文獻[6]針對海岸安全評估問題建立了一個貝葉斯網(wǎng)絡(luò)模型用于表述問題中的因果關(guān)系,并提出了一個五層結(jié)構(gòu)框架用于預(yù)測潛在風(fēng)險。
由于復(fù)雜產(chǎn)品設(shè)計過程是一個涉及多約束、多問題域復(fù)雜問題,在因果傳播機理、內(nèi)部關(guān)聯(lián)關(guān)系及決策過程等方面都有其自身特點,很難直接利用貝葉斯網(wǎng)絡(luò)模型描述復(fù)雜開發(fā)開發(fā)過程,影響了因果知識提取的效果,迫切需要解決以下關(guān)鍵問題:
1)隨著開發(fā)活動的深入,設(shè)計元素間的耦合程度急劇上升,單純依靠設(shè)計人員認知能力無法準確分析出各種設(shè)計狀態(tài)和設(shè)計結(jié)果之間的內(nèi)涵和關(guān)聯(lián)。如何將貝葉斯網(wǎng)絡(luò)的基本要素(節(jié)點、有向邊、概率分布、狀態(tài)、事件等)與復(fù)雜的產(chǎn)品開發(fā)過程關(guān)聯(lián)起來,能夠準確且簡潔地描述設(shè)計元素間不確定的因果關(guān)系,是需要解決的基本問題。
2)雖然一些顯性映射規(guī)則能夠直接建立設(shè)計元素之間的因果聯(lián)系,但是總體來說設(shè)計元素之間的因果映射需要設(shè)計人員根據(jù)設(shè)計原理和自身經(jīng)驗才能建立。這種經(jīng)驗規(guī)則蘊含在設(shè)計實例中,具有模糊性和不確定性。如何將設(shè)計人員的經(jīng)驗信息與歷史設(shè)計數(shù)據(jù)相融合,并充分利用產(chǎn)品開發(fā)特點(例如具有一定的層次性),是提高知識獲取效果的關(guān)鍵。
因此,本文基于分層映射的產(chǎn)品開發(fā)過程思想[7,8],提出基于貝葉斯網(wǎng)絡(luò)的產(chǎn)品開發(fā)過程因果知識表達模型和知識獲取方法,通過融合設(shè)計人員先驗知識和已有產(chǎn)品設(shè)計數(shù)據(jù),從定量和定性二個角度實現(xiàn)設(shè)計要素之間隱含因果關(guān)系的顯性化。
分層映射模型是最常用的產(chǎn)品開發(fā)過程的形式化表達和規(guī)律性描述,它通過將產(chǎn)品開發(fā)過程進行層次劃分,將復(fù)雜問題的求解分解為多個子問題域并進行層次化推理求解[8]。這意味著產(chǎn)品開發(fā)過程因果知識具有一定的層次性。同時,從飛行器總體設(shè)計過程全局角度來看,不僅僅單純關(guān)注于設(shè)計元素間的兩兩映射,總體設(shè)計過程所有設(shè)計元素的因果聯(lián)系呈現(xiàn)出網(wǎng)狀拓撲結(jié)構(gòu)。因此,本文在貝葉斯網(wǎng)絡(luò)的基礎(chǔ)上進行功能擴展,提出一種面向復(fù)雜產(chǎn)品總體設(shè)計的產(chǎn)品開發(fā)過程因果知識模型PDCKM(Product Development Causal Knowledge Model),表達不同問題域各設(shè)計元素的因果影響、因果影響傳遞以及因果影響程度,通過前向節(jié)點對后向節(jié)點狀態(tài)的遞推作用來實現(xiàn)產(chǎn)品開發(fā)過程的模擬。
定義1[產(chǎn)品設(shè)計過程因果知識模型](Product Development Causal Knowledge Model)采用有向圖方式表達開發(fā)過程中各種設(shè)計要素以及其因果關(guān)系的一種知識模型,以三元組
本文基于經(jīng)典的功能-行為-結(jié)構(gòu)層次模型[7],將PDCKM中的節(jié)點變量X劃分為3個無交集的集合:需求域變量子集R、功能域變量子集F、結(jié)構(gòu)域變量子集S,即X=R∪F∪S。
1)需求域變量:需求域節(jié)點表達了用戶對產(chǎn)品的設(shè)計要求,通過質(zhì)量功能配置(QFD)等方法用一組可度量的參數(shù)來明確地描述產(chǎn)品應(yīng)具有的基本需求特性。
2)功能域變量:功能域變量是為完成產(chǎn)品設(shè)計需求所必需具有的最小功能需求元素集合,表達了達到產(chǎn)品設(shè)計需求所必需的一系列行動。
3)結(jié)構(gòu)域變量:結(jié)構(gòu)域變量是滿足功能域變量要求的產(chǎn)品物理結(jié)構(gòu)元素的集,包括硬件類和軟件類。結(jié)構(gòu)域中的每一個元素至少應(yīng)滿足一項功能要求,或功能要求的一部分。當(dāng)然一個結(jié)構(gòu)元素也可滿足多項功能要求。
PDCKM模型中的有向邊集合E表示父節(jié)點Pa(Xi)對子節(jié)點具有直接因果影響,有向邊的方向是進行決策推理的依據(jù)。為保證使PDCKM內(nèi)含的條件獨立性假設(shè)更為合適,本文基于分層映射模型思想,確定PDCKM中有向邊取向規(guī)則如下:需求域變量只受其他需求變量的影響(即發(fā)生需求分解);功能域變量可以受所有需求域變量以及其他功能域變量影響(即發(fā)生功能分解);需求域變量和功能域變量將共同影響結(jié)構(gòu)域變量。因此,確定PDCKM中有向邊取向規(guī)則如下:
PDCKM采用為節(jié)點變量計算以其父節(jié)點的狀態(tài)取值為條件的概率分布,表示節(jié)點之間因果關(guān)系的連接強度,對于沒有父節(jié)點的節(jié)點則需要給出其先驗概率。如果有n個設(shè)計要素變量,并且當(dāng)所有的設(shè)計要素變量均取二值時,需要2n-1個參數(shù)才能確定其聯(lián)合概率分布,此計算量相當(dāng)巨大。因此在PDCKM中可以充分利用變量間的條件獨立關(guān)系,將聯(lián)合分布分解成多個復(fù)雜度較低的條件概率分布,有如式(1)所示的聯(lián)合概率計算公式,從而降低概率參數(shù)的表達復(fù)雜度,提高知識獲取效率。
基于數(shù)據(jù)的貝葉斯結(jié)構(gòu)學(xué)習(xí)已經(jīng)證明為NP-hard問題,本文采用最廣泛應(yīng)用的基于評分-搜索的結(jié)構(gòu)學(xué)習(xí)算法。為在聯(lián)合概率密度函數(shù)逼近程度和有向圖模型復(fù)雜度之間取折衷,采用基于附加懲罰函數(shù)的最大互信息作為評分函數(shù)[9],以改進的爬山算法獲得最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。
設(shè):Bs是基于數(shù)據(jù)集D構(gòu)建的一個貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),ri是變量Xi是的取值數(shù),是父節(jié)點集Pa(Xi)的配置數(shù)目,則基于附加懲罰函數(shù)的最大互信息評分函數(shù)如式(2)所示:
其中,MI(Xi,Pa(Xi))為Xi和Pa(Xi)的條件互信息,如式(3)所示,文獻[9]已證明使MI(Xi,Pa(Xi))最大的網(wǎng)絡(luò)結(jié)構(gòu)是對聯(lián)合密度p(X1,…,Xn)的最佳逼近;dim(S)指拓撲結(jié)構(gòu)Bs的復(fù)雜度,定義為拓撲結(jié)構(gòu)Bs下有向圖模型參數(shù)的最小數(shù)目
雖然完全基于專家經(jīng)驗建立PDCKM是不現(xiàn)實的,但是我們可以很容易利用專家已有經(jīng)驗知識,提高PDCKM獲取的準確度和速度。這些先驗知識主要包括:1)一個設(shè)計元素將受幾個因素影響,即最大父節(jié)點數(shù)目,記為max(Pa(Xi)) ;2)部分設(shè)計要素變量間的偏序關(guān)系,從而判斷節(jié)點之間的指向。所以本文除了采用爬山算法的加邊算子、減邊算子、換向算子,引入了修正算子,對候選PDCKM的拓撲結(jié)構(gòu)進行修正。修正算子包括3個:1)消除環(huán)狀回路算子:根據(jù)分層映射的產(chǎn)品開發(fā)過程思想,一般不考慮有回路的因果關(guān)系,如圖1(a)所示;2)最大父節(jié)點算子:根據(jù)先驗知識判斷一個設(shè)計要素最大有多少個父節(jié)點,這樣有利于減少搜索空間,如圖1(b)所示;3)修正偏序關(guān)系算子:為了保證因果關(guān)系正確性,改正與先驗知識不符的父子節(jié)點關(guān)系。
圖1 PDCKM參數(shù)學(xué)習(xí)
對于PDCKM參數(shù)學(xué)習(xí),當(dāng)訓(xùn)練樣本集完整時可以采用最大似然估計MLE進行參數(shù)估計,但是當(dāng)樣本數(shù)據(jù)不完整時,如當(dāng)父結(jié)點樣本數(shù)目為0時,MLE算法就會產(chǎn)生溢出問題,從而無法計算。在實際產(chǎn)品開發(fā)過程中,難免有些數(shù)據(jù)缺失。文獻[10]證明了期望最大化算法EM從不完整的數(shù)據(jù)中進行參數(shù)學(xué)習(xí)比較有效,因此本文采用EM算法進行PDCKM參數(shù)學(xué)習(xí)。
在EM算法中第t次迭代過程中,第一步根據(jù)式(4)計算期望對數(shù)似然函數(shù)Q(θ|θt),第二步是求得使Q(θ|θt)最大時候的θ。
當(dāng)θ取以下值時,Q(θ|θt)達到最大其中,其中是修補后數(shù)據(jù)中所有滿足Xi=k和Pa(Xi)=j的樣本的權(quán)重之和。
本文以信標機系統(tǒng)為例,選取設(shè)計人員感興趣的一組11個設(shè)計要素變量,通過收集國內(nèi)外設(shè)計成功案例,提取出46個樣本作為數(shù)據(jù)集。同時,根據(jù)領(lǐng)域?qū)<医?jīng)驗確定部分先驗知識,包括有向邊的方向(如X1→X6)和最大父節(jié)點數(shù)目(如max(Pa(Xi)=5)。
采用基于最大互信息的啟發(fā)式搜索算法得到PDCKM拓撲結(jié)構(gòu),如圖2所示,可以看出天線(X7)只會載噪比(X8)參數(shù)。
基于所獲取的PDCKM拓撲結(jié)構(gòu),采用EM算法進行PDCKM參數(shù)學(xué)習(xí),獲得PDCKM參數(shù)分布P,部分參數(shù)如表2所示,定量化的描述節(jié)點之間的因果依賴程度。
圖2 PDCKM拓撲結(jié)構(gòu)學(xué)習(xí)結(jié)果
通過實驗結(jié)果,可以全面綜合而直觀的確定產(chǎn)品開發(fā)過程中各設(shè)計因素的因果關(guān)聯(lián)關(guān)系,為進行正確決策奠定基礎(chǔ)。同時,也可以提取概率較大的變量狀態(tài)作為典型設(shè)計案例,為產(chǎn)品開發(fā)過程有規(guī)律可循的科學(xué)實踐。
表2 PDCKM的部分參數(shù)
復(fù)雜產(chǎn)品開發(fā)過程各種設(shè)計元素因果關(guān)系具有模糊性和不確定性,本文提出了一種基于貝葉斯網(wǎng)絡(luò)的產(chǎn)品開發(fā)過程過程知識提取方法。闡述了產(chǎn)品開發(fā)過程過程因果知識模型基本概念及模型組成部分,然后詳細描述了模型結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)過程,從而能夠依次提取概率較大的變量狀態(tài)作為典型設(shè)計案例,為產(chǎn)品開發(fā)有規(guī)律可循的實現(xiàn)途徑。
[1]Kim K Y,Kim Y S.Causal design knowledge:Alternative representation method for product development knowledge management[J].Computer-Aided Design,2011,43(9):1137-1153.
[2]慕春棣,戴劍彬,葉俊.用于數(shù)據(jù)挖掘的貝葉斯網(wǎng)絡(luò)[J].軟件學(xué)報,2000,11(5):660-666.
[3]Nadkarni S,Shenoy P P.A causal mapping approach to constructing Bayesian networks[J].Decision Support Systems,2004,38(2):259-281.
[4]Eckerman D.A tutorial on learning with Bayesian networks[M].Springer Berlin Heidelberg,2008.
[5]蔡志強,孫樹棟,司書賓,王寧.基于貝葉斯網(wǎng)絡(luò)的不確定環(huán)境裝備故障推理模型[J].西北工業(yè)大學(xué)學(xué)報,2011,29(4):509-514.
[6]Ren J,Jenkinson I,Wang J,Xu D L,Yang J B.A methodology to model causal relationships on offshore safety assessment focusing on human and organizational factors.Journal of Safety Research,2008,39:87-100.
[7]Qian L,Gero J S.Function-Behavior-Structure path and their role in analogy-based design[J].AI EDAM,1996,10(4):289-312.
[8]王玉新,毛曉輝,李添益.功能-結(jié)構(gòu)雙向創(chuàng)新商空間模型關(guān)鍵技術(shù)研究[J].浙江大學(xué)學(xué)報(工學(xué)版),2010,44(8):1570-1578.
[9]李剛.知識發(fā)現(xiàn)的圖模型方法[D].2000.
[10]M.Drudzzel.Qualitative Verbal Explanations Byaesian Belief Networks.In Artificial Intelligence and Simulation of Behaviour Quarterly[J].Special Issue on Bayesian Belief Networks.1996.94:43-54.