華爾天,劉科紅,肖軍軍,陳 穎
浙江工商大學(xué) 計算機(jī)與信息工程學(xué)院,杭州 310018
信息和知識要素增值是現(xiàn)代產(chǎn)品設(shè)計中決定新產(chǎn)品競爭力的重要因素。隨著數(shù)據(jù)庫技術(shù)和現(xiàn)代產(chǎn)品設(shè)計技術(shù)不斷發(fā)展,來自企業(yè)內(nèi)外的產(chǎn)品信息不斷增加,在缺乏強(qiáng)有力的管理工具支持下,已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的理解和概括能力。因此,如何利用有效的方法管理已有的設(shè)計知識以及準(zhǔn)確地從海量的產(chǎn)品數(shù)據(jù)中提取對產(chǎn)品設(shè)計具有指導(dǎo)意義的規(guī)則和知識,已成為提高產(chǎn)品開發(fā)速度,縮短開發(fā)周期的關(guān)鍵。
從海量數(shù)據(jù)中有效提取出對產(chǎn)品設(shè)計有價值的知識一直是學(xué)界關(guān)注的重要問題。目前這一問題的研究主要集中在數(shù)據(jù)挖掘方法的優(yōu)化方面,如趙靜嫻等提出一種大規(guī)模數(shù)據(jù)庫的組合優(yōu)化決策樹算法,有效地解決了處理大規(guī)模高維數(shù)據(jù)庫問題的效率和精度之間的矛盾[1];汪中等利用優(yōu)化初始中心點(diǎn)的K-means算法,使得初始中心的質(zhì)量和聚類結(jié)果得到了改善[2];周麗娟等提出一種基于聚類的模糊遺傳關(guān)聯(lián)規(guī)則挖掘算法,降低了掃描數(shù)據(jù)庫的次數(shù)[3];范敏等提出層次樸素貝葉斯分類器,該分類器在達(dá)到分類精度的同時還能聚集節(jié)點(diǎn)獲取相應(yīng)實(shí)例的分類規(guī)則[4]。但對處理不確定、不精確、不完全的設(shè)計知識信息尚缺乏有效手段。
本文引入知識挖掘的思想,提出了一種基于粗糙集理論的產(chǎn)品設(shè)計規(guī)則提取技術(shù),通過Skowron差別矩陣算法,較好地解決了數(shù)據(jù)約簡問題,并以銷售量為決策屬性,利用分類一致性算法從顧客的角度進(jìn)行產(chǎn)品設(shè)計規(guī)則的挖掘,建立可行的產(chǎn)品設(shè)計知識規(guī)則庫。通過嬰幼兒手推車實(shí)例,驗(yàn)證了該方法的有效性。
隨著信息技術(shù)的迅猛發(fā)展和各類先進(jìn)制造理念的產(chǎn)生,企業(yè)內(nèi)的產(chǎn)品開發(fā)信息和市場信息日益膨脹,形成了大量與產(chǎn)品相關(guān)的數(shù)據(jù)。產(chǎn)品數(shù)據(jù)泛指對產(chǎn)品的數(shù)量、屬性及其相互關(guān)系的抽象表示,未經(jīng)過任何加工、對決策毫無價值的符號。設(shè)計人員根據(jù)一定目的對產(chǎn)品數(shù)據(jù)進(jìn)行系統(tǒng)組織、整理和分析,找出其中的聯(lián)系,即形成對決策有價值的產(chǎn)品信息。通過對設(shè)計信息的歸納和提取,并與已存在的知識體系相結(jié)合,最終形成設(shè)計知識。設(shè)計知識是從設(shè)計教育和工作經(jīng)驗(yàn)中得來的可以產(chǎn)生設(shè)計的知識,是對設(shè)計實(shí)踐活動經(jīng)驗(yàn)性的總結(jié)和積累[5]。產(chǎn)品設(shè)計過程中,設(shè)計人員的經(jīng)驗(yàn)、已存在的產(chǎn)品信息、海量的用戶反饋意見等知識,綜合構(gòu)成了豐富的設(shè)計知識。上海交通大學(xué)謝友柏院士將設(shè)計知識的來源劃分為六個方面[6-7]:已有知識、市場信息、數(shù)字仿真或虛擬現(xiàn)實(shí)、物理模型試驗(yàn)、樣機(jī)試驗(yàn)及已有產(chǎn)品運(yùn)行中的表現(xiàn)(用戶反映)。設(shè)計知識來源的多樣性,進(jìn)而形成種類繁多的設(shè)計知識,從邏輯抽象的角度分,有設(shè)計對象屬性及其關(guān)系的知識,對象發(fā)展規(guī)律及設(shè)計控制進(jìn)程知識,技巧或經(jīng)驗(yàn)類知識,設(shè)計常識和設(shè)計知識的組織;從知識屬性分,有描述設(shè)計對象的靜態(tài)知識和描述設(shè)計過程的動態(tài)知識;從獲取途徑來分,有工程示例知識、工程規(guī)范知識和設(shè)計經(jīng)驗(yàn)知識等[8]。針對機(jī)械產(chǎn)品設(shè)計過程,可以將產(chǎn)品設(shè)計的多種知識源歸結(jié)為設(shè)計原理(包括設(shè)計向?qū)?、設(shè)計手冊、設(shè)計方法學(xué)等)、設(shè)計經(jīng)驗(yàn)、設(shè)計規(guī)范、設(shè)計過程、已有的產(chǎn)品及模型、試驗(yàn)與檢測數(shù)據(jù)、市場及客戶反饋信息。
產(chǎn)品設(shè)計知識是一個復(fù)雜動態(tài)的信息系統(tǒng),用戶反饋信息的變化、設(shè)計人員經(jīng)驗(yàn)的增加、市場環(huán)境的變化都會引起設(shè)計知識的不斷變化。如何從海量的產(chǎn)品數(shù)據(jù)中提取有效的設(shè)計知識已成為企業(yè)產(chǎn)品設(shè)計知識管理的關(guān)鍵。
設(shè)計規(guī)則是指產(chǎn)品設(shè)計過程中根據(jù)所獲得的知識進(jìn)行分析、對比,并結(jié)合企業(yè)自身的約束,找出解決問題的實(shí)際方案。竺紅衛(wèi)[9]認(rèn)為電路設(shè)計規(guī)則是表達(dá)集成電路版圖元素幾何尺寸大小及相互之間距離關(guān)系的一組數(shù)值,以保證集成電路制造成品率和電氣性能。隨著企業(yè)產(chǎn)品設(shè)計目標(biāo)的改變,產(chǎn)品設(shè)計規(guī)則也在不斷地更新。在產(chǎn)品設(shè)計中,每個子系統(tǒng)的設(shè)計必須遵照某些明確標(biāo)準(zhǔn)——設(shè)計規(guī)則,以保證這些小系統(tǒng)能夠構(gòu)成一個和諧、完整的大系統(tǒng)。企業(yè)如何在產(chǎn)品設(shè)計過程中針對自身發(fā)展的要求,從設(shè)計知識中提取出解決實(shí)際問題的方案——設(shè)計規(guī)則,是企業(yè)進(jìn)行安排科學(xué)生產(chǎn)的關(guān)鍵。
產(chǎn)品數(shù)據(jù)是客觀存在的海量無序的符號,對其進(jìn)行系統(tǒng)組織、整理和分析,即形成對產(chǎn)品設(shè)計有價值的設(shè)計信息;設(shè)計信息經(jīng)過歸納、演繹、比較等手段進(jìn)行挖掘,使其有價值的內(nèi)容沉淀下來,即形成設(shè)計知識;企業(yè)根據(jù)自身發(fā)展的要求,從設(shè)計知識中提取出解決實(shí)際問題的方案,即設(shè)計規(guī)則。產(chǎn)品數(shù)據(jù)包含的信息量最大,其次為設(shè)計信息,再次為設(shè)計知識,最精煉的是設(shè)計規(guī)則。企業(yè)為了提高產(chǎn)品開發(fā)速度,縮短開發(fā)周期,必須將產(chǎn)品數(shù)據(jù)經(jīng)過層層挖掘最終得到設(shè)計規(guī)則。現(xiàn)階段設(shè)計規(guī)則提取的主要算法有遺傳算法、Johnson算法、動態(tài)約簡算法。
近年來,在研究不完整數(shù)據(jù)及不精確知識的表達(dá)、學(xué)習(xí)、歸納等方法的基礎(chǔ)上,波蘭科學(xué)家帕拉克(Z.Pawlak)基于“知識(人的智能)就是一種分類能力”的觀點(diǎn),于1982年提出了粗糙集理論(rough sets)。粗糙集理論具有很強(qiáng)的定性分析能力,能夠有效地表達(dá)不確定的或不精確的知識,善于從數(shù)據(jù)中獲取知識,并能利用不確定、不完整的經(jīng)驗(yàn)知識進(jìn)行推理等,它在知識獲取、規(guī)則生成、決策分析等領(lǐng)域獲得了廣泛應(yīng)用,特別是在數(shù)據(jù)挖掘領(lǐng)域,獲得了巨大成功[10]。粗糙集中通過上下近似利用數(shù)據(jù)約簡算法實(shí)現(xiàn)數(shù)據(jù)約簡,去除某些不必要的數(shù)據(jù),為產(chǎn)品設(shè)計知識挖掘提供有效的數(shù)據(jù)集。本文的研究中涉及的知識約簡和知識核定義如下[10]:
定義1(知識的約簡)給定一個知識庫K=(U ,S)和知識庫中的一個等價關(guān)系族P?S,對任意的G?P,若G滿足以下兩條:(1)G 是獨(dú)立的;(2)IN D(G)=IN D(P)。則稱G是P的一個約簡,記為G∈R E D(P ),其中 R E D(P)表示P的全體約簡組成的集合。
定義2(知識的核)給定一個知識庫K=(U ,S)和知識庫中的一個等價關(guān)系族P?S,對任意的R∈P,若R滿足IN D(P -{R} )≠IN D(P ),則稱R為P中必要的,P中所有必要的知識組成的集合稱為P的核,記為C O R E(P)。
核與約簡之間的關(guān)系可以描述為:C O R E(P)=∩R E D(P)。
產(chǎn)品設(shè)計規(guī)則的提取中需要利用粗糙集理論中的知識約簡來實(shí)現(xiàn)數(shù)據(jù)約簡,去除不重要,甚至是冗余的信息,得到產(chǎn)品信息;產(chǎn)品信息通過知識挖掘來獲取設(shè)計知識,最后通過規(guī)則獲取得到產(chǎn)品設(shè)計規(guī)則,并將其作為生產(chǎn)標(biāo)準(zhǔn)指導(dǎo)企業(yè)的最終生產(chǎn)。
在現(xiàn)代產(chǎn)品設(shè)計過程中,面對復(fù)雜無序的產(chǎn)品數(shù)據(jù),設(shè)計人員依據(jù)粗糙集理論,參考具體的設(shè)計參數(shù)在不同維度下的相互影響,以提取出更多潛在的有價值信息——產(chǎn)品設(shè)計知識,并依據(jù)企業(yè)的自身發(fā)展要求提取出產(chǎn)品設(shè)計規(guī)則,最終形成指導(dǎo)產(chǎn)品設(shè)計的規(guī)則型知識。設(shè)計規(guī)則的提取主要從三個方面來進(jìn)行:數(shù)據(jù)約簡、知識挖掘和規(guī)則提取。具體的研究框架如圖1所示。
圖1 基于粗糙集理論的設(shè)計規(guī)則提取模型圖
(1)數(shù)據(jù)約簡
產(chǎn)品數(shù)據(jù)約簡是指利用約簡算法從大量的屬性中找出對決策屬性影響最大的屬性,約簡的方法主要有盲目法和啟發(fā)式算法[6,11]。利用盲目法進(jìn)行數(shù)據(jù)約簡時,窮盡搜索所需要的時間和空間代價都很高,實(shí)際約簡過程中主要使用啟發(fā)式約簡算法。本文采用基于Skowron差別矩陣的屬性約簡算法[10],算法描述如下:
輸入:一個決策表D T=(U,C∪D,V,f)。
輸出:決策表D T的所有相對核C O R EC(D)。
步驟1根據(jù)決策表的差別矩陣的定義,寫出Mn×n(D T)=(cij)n×n的下三角矩陣(或上三角矩陣),其中i,j=1,2,…,n。
步驟2搜索差別矩陣的所有元素,若沒有?,則轉(zhuǎn)到第3步,否則退出。
步驟3搜索決策表差別矩陣中的所有單屬性元素,將其賦給C O R EC(D),輸出C O R EC(D)={α|(α ∈C ) ∧ (?cij((cij∈Mn×n(D T)) ) ∧ ( cij={α} ))}算法結(jié)束。
(2)知識挖掘
通過對產(chǎn)品數(shù)據(jù)約簡,設(shè)計人員可以參考必需的參數(shù)在不同層次、不同角度上的相互影響,以挖掘出更多有價值的潛在信息——設(shè)計知識。決策知識獲取的主要方法有:基于核值的方法[12],基于布爾推理最小決策算法[13],考慮覆蓋度方法[14],確定性規(guī)則和概率性規(guī)則方法[15-16]。本文采用一種例化方向的算法——分類一致率算法[17],即從空集開始逐步將條件屬性加入到知識的條件部分,使得條件部分所包含的條件屬性數(shù)目增加,最終得到所需知識。算法描述如下:
步驟1初始化階段
步驟2知識挖掘階段
①當(dāng)G≠?,Knowled ge=?,計算所有待引入條件屬性集的
④當(dāng)所有對象全部覆蓋后,簡化知識,算法結(jié)束。
(3)規(guī)則提取
產(chǎn)品設(shè)計過程中根據(jù)所獲得的知識進(jìn)行分析、對比,并結(jié)合企業(yè)自身的發(fā)展要求,找出解決問題的實(shí)際方案,即提取出特定的設(shè)計規(guī)則來具體指導(dǎo)設(shè)計師進(jìn)行產(chǎn)品設(shè)計。
為驗(yàn)證本文提出方法的有效性,以市場上收集到的20款嬰幼兒手推車為例進(jìn)行設(shè)計規(guī)則提取,企業(yè)設(shè)計下一款童車的目的是實(shí)現(xiàn)市場的額最大占有率。表1為某品牌嬰幼兒手推車銷售原始數(shù)據(jù)表,選擇嬰幼兒手推車8個主要變量,C={推車承重 x1,輪子大小 x2,外形尺寸 x3,座椅有效寬度 x4,靠背可調(diào)整性 x5,推桿方向 x6,價格 x7,適用年齡段 x8},D={銷售量Y}。
步驟1利用Skowron差別矩陣進(jìn)行數(shù)據(jù)簡化。先采用等距離的方法對連續(xù)型屬性進(jìn)行離散化,離散規(guī)則如下:
推車承重 x1:1:[1 5 ,20),2:[2 0,25),3:[2 5,30):。
輪子大小x2:1:[4 ,5),2:[5 ,6),3:[6 ,7),4:[7 ,8),5:[8 ,9)。
外形尺寸(依據(jù)長度離散化)x3:1:[7 00,800),2:[8 00,900),3:[9 00,1 000)。
座椅有效寬度x4:1:[0 ,300),2:[3 00,350),3:[3 50,400)。
價格 x7:1:[0 ,500),2:[5 00,1 000),3:[1 000,1 500)。
銷 售 量 Y:1:[0 ,200),2:[2 00,400),3:[4 00,600),4:[6 00,800)。
利用Skowron差別矩陣得到條件屬性相對核為{x2,x5,x7,x8},即嬰幼兒手推車銷售量相關(guān)的重要設(shè)計參數(shù)是輪子大小、外形尺寸、座椅有效寬度、靠背可調(diào)整性、價格和適用年齡段。約簡的結(jié)果如表2。
步驟2在刪除表2中的不相容知識的基礎(chǔ)上利用分類一致性算法挖掘嬰幼兒手推車設(shè)計知識。經(jīng)屬性值約簡后的設(shè)計知識離散化進(jìn)行還原,合并,得到結(jié)果如下:
表1 嬰幼兒手推車知識系統(tǒng)原始數(shù)據(jù)
表2 知識約簡結(jié)果
R1:(輪子大小,[4,5)or[7,9))→(銷售量,[0,200))。
R2:(輪子大小,[6,7))∧(靠背可調(diào)整性,三檔)→(銷售量,[400,600))。
R3:(輪子大小,[6,7))∧(靠背可調(diào)整性,多檔)→(銷售量,[200,400))。
R4:(輪子大小,[5,6))∧(靠背可調(diào)整性,三檔)→(銷售量,[0,200))。
R5:(輪子大小,[6,7))∧(靠背可調(diào)整性,二檔)→(銷售量,[0,200))。
R6:(輪子大小,[5,6))∧(靠背可調(diào)整性,二檔)→(銷售量,[600,800))。
R7:(輪子大小,[5,6))∧(靠背可調(diào)整性,一檔)∧(適用年齡段,0~36)→(銷售量,[600,800))。
R8:(輪子大小,[5,6))∧(靠背可調(diào)整性,多檔)∧(適用年齡段,0~36)→(銷售量,[200,400))。
R9 :(輪子大小,[5,6))∧(靠背可調(diào)整性,一檔or多檔)∧(適用年齡段,7~36)→(銷售量,[0,200))。
步驟3鑒于企業(yè)設(shè)計下一款童車的目標(biāo)是為了實(shí)現(xiàn)市場最大占有率,因此,提取最大銷售量所對應(yīng)的規(guī)則R6和R7作為企業(yè)下一階段設(shè)計產(chǎn)品的設(shè)計標(biāo)準(zhǔn),設(shè)計人員根據(jù)設(shè)計標(biāo)準(zhǔn)設(shè)計產(chǎn)品,縮短產(chǎn)品的開發(fā)和生產(chǎn)周期,快速響應(yīng)用戶的需求,進(jìn)而提高產(chǎn)品的銷售量,最終達(dá)到占領(lǐng)和擴(kuò)大市場的根本目的。
常見的知識挖掘算法有遺傳算法、Johnson算法和動態(tài)約簡算法,算法比較如表3。
表3 不同規(guī)則提取算法比較
從表3中可以看出,遺傳算法、Johnson算法和動態(tài)約簡算法得到相對核的個數(shù)為5,本文算法得到6個屬性,在最大程度上防止了關(guān)鍵屬性的丟失。另外,其他幾個算法得到的規(guī)則數(shù)量均多于本文算法得到的知識數(shù),表明了該算法對知識挖掘和規(guī)則提取的高效性。
嬰幼兒手推車在實(shí)際的研發(fā)和設(shè)計過程當(dāng)中缺乏對已有信息的深度挖掘和重復(fù)使用,本文的研究將粗糙集理論應(yīng)用于嬰幼兒手推車設(shè)計規(guī)則的提取中,獲取了設(shè)計中最關(guān)鍵的設(shè)計參數(shù)和相應(yīng)的設(shè)計知識,并依據(jù)企業(yè)發(fā)展要求提取出具體的設(shè)計規(guī)則,較好地解決了設(shè)計知識挖掘和規(guī)則提取問題。在未來的研究當(dāng)中可以對各規(guī)則的質(zhì)量評價、優(yōu)化和應(yīng)用進(jìn)行深入的研究。
[1]趙靜嫻,倪春鵬,詹原瑞,等.一種大規(guī)模數(shù)據(jù)庫的組合優(yōu)化決策樹算法[J].系統(tǒng)工程與電子技術(shù),2009,31(3):583-587.
[2]汪中,劉貴全,陳恩紅.一種優(yōu)化初始中心點(diǎn)的K-means算法[J].模擬識別與人工智能,2009,22(2):299-304.
[3]周麗娟,石倩,葛學(xué)彬,等.基于聚類的模糊遺傳挖掘算法的研究[J].計算機(jī)工程與應(yīng)用,2010,46(13):118-121.
[4]范敏,石為人.層次樸素貝葉斯分類器構(gòu)造算法及應(yīng)用研究[J].儀器儀表學(xué)報,2010,31(4):776-781.
[5]劉征,孫守遷.潘云鶴.面向設(shè)計知識重用的產(chǎn)品外觀分類[J].機(jī)械工程學(xué)報,2009,45(4):19-25.
[6] 謝友柏.現(xiàn)代設(shè)計與知識獲取[J].中國機(jī)械工程,1996,7(6):36-40.
[7]謝友柏.現(xiàn)代設(shè)計理論中的若干基本概念[J].機(jī)械工程學(xué)報,2007,43(11):7-15.
[8]馬輝.產(chǎn)品設(shè)計知識建模與演化關(guān)鍵技術(shù)研究[D].杭州:浙江大學(xué),2006.
[9]竺紅衛(wèi).設(shè)計規(guī)則驅(qū)動的多層布線算法[J].微電子學(xué)與計算機(jī),2005,22(10):30-33.
[10]苗奪謙,李道國.粗糙集理論、算法與應(yīng)用[M].北京:清華大學(xué)出版社,2008.
[11]Baldwin C Y.設(shè)計規(guī)則:模塊化的力量[M].北京:中信出版社,2006.
[12]楊明,楊萍.基于廣義差別矩陣的核和屬性約簡算法[J].控制與決策,2008,23(9):1049-1055.
[13]安利平,仝凌云.基于粗糙集理論的約簡、決策規(guī)則與模式[J].計算機(jī)工程與設(shè)計,2008,29(7):1773-1778.
[14]姜峰,范玉順.基于覆蓋度函數(shù)的概念格約簡[J].電子與信息學(xué)報,2010,32(2):405-413.
[15]管延勇,薛佩軍,王洪凱.不完備信息系統(tǒng)的可信決策規(guī)則提取與E-相對約簡[J].系統(tǒng)工程理論與實(shí)踐,2005,25(12):76-87.
[16]Stefanowski J.Rough set based rule induction techniques for classication problems[C]//Porc 6th European Congress on Intelligent Techniques and Soft Computing.Aachen:[s.n.],1998,1:109-113.
[17]代建華,潘云鶴.一種基于分類一致性的決策規(guī)則獲取算法[J].控制與決策,2004,19(10):1086-1096.