鄂旭,王彬,侯建,沈德海,馮冠
(1.渤海大學食品科學研究院,遼寧錦州 121001;2.渤海大學信息科學與技術學院,遼寧錦州 121001;3.北京交通大學中國產(chǎn)業(yè)安全研究中心,北京 100044)
近年來,國內外不斷發(fā)生“瘋牛病”、“三鹿奶粉”等重大食品安全問題,嚴重影響了人民的身心健康,同時也充分暴露出食品安全管理體系的薄弱。食品安全問題非常復雜,它涉及從“農(nóng)田”到“餐桌”的整個過程,是一個涉及多個領域、多個環(huán)節(jié)的動態(tài)問題。食品安全既受到系統(tǒng)內部因素的影響,如食品衛(wèi)生政策、食品生產(chǎn)條件、食品科技水平等,又受到系統(tǒng)外部因素的影響,如自然災害、環(huán)境污染等。這些因素的影響程度,需要準確測度出來,并且需要對這些因素之間的關聯(lián)程度進行準確衡量。為此,國內外學者對食品安全評價問題進行了深入的研究。目前,國內外大多數(shù)食品安全指標體系的內容是圍繞導致食品不安全的主要因素來進行設計的,主要包括兩個方面的內容:一個是食品中微生物污染程度,另一個是食品中有害物質含量。當前對食品安全評價的主流方法有相對評價和絕對評價相結合、排序評價和分類評價相結合、動態(tài)評價和靜態(tài)評價相結合三種方法,但這些方法都需要食品安全評價的先驗知識做基礎,有待進一步提高[1-2]。
粗糙集理論為此提供了有效的處理技術和方法。由于它無需提供所處理數(shù)據(jù)之外的任何先驗信息,因此在智能信息處理研究中發(fā)揮著越來越重要的作用[3-5]。粗糙集(Rough Sets)理論是由波蘭數(shù)學家Pawlak 于1982 年首先提出,它提供了一套嚴格處理知識發(fā)現(xiàn)中基本分類問題的數(shù)學方法,是一種刻畫模糊地、不完整性和不確定性的數(shù)學工具[6-8]。
本文基于粗糙集理論提出了一種食品安全評價指標精簡算法。
粗粗糙集及其在應用中所涉及的一些基本概念如下[3-6]。
定義1:一個信息系統(tǒng)被定義為一個四元組
其中,U={x1,x2,…,xn}是一組對象的有限集合,U稱為論域;A 是屬性的有限集合,它又可分為不相交的兩個集合:條件屬性集C 和決策屬性集D,即A=C∪D,且C∩D=?;V 是一組屬性值的集合,V=Ua∈AVa,Va是屬性a 的值域;f 為信息函數(shù),有f(x,a)∈Va,任意a∈A,任意x∈U。
令X?U,且R 為一等價關系。當X 為某些R 基本范疇的并時,我們稱X 是R 可定義的,否則X 為R不可定義的。R 可定義集是論域的子集,它可在知識庫K 中被精確的定義,而R 不可定義集不能在這個知識庫中被定義。R 可定義集稱為R 精確集,而R 不可定義集稱為非精確集或R 粗集。
定義2:假設給定的知識庫K=(U,R),對于每個子集X∈U 和一個等價格關系R∈Ind(K),可以根據(jù)R 的基本集合的描述來劃分集合X。為了衡量{des(Yi),Yi∈R}精確的說明X 中對象的隸屬度情況,考慮兩個子集:
分別稱它們?yōu)閄 的R 下近似和R 上近似。
上近似和下近似也可以用下面的等式表達:
posR(X)=R_(X)稱為X 的R 正域,把negR(X)=UR_(X)稱為X 的R 負域,把bnR(X)稱為X 的邊界域。正域是粗糙集理論中一個相當重要的概念,在以后屬性和屬性值的約簡中都要用到。用圖例描述一個二維近似空間中集合X 的上近似、下近似概念。這個空間是由劃分成基本區(qū)域的長方塊構成的(U,R)定義,每個基本區(qū)域代表R 的一個等價類,陰影區(qū)域代表X 的邊界,是X 的不可確定區(qū)域,除R_(X)以外所有的區(qū)域是負域。
定義3:信息系統(tǒng)S=(U,A,V,f),設P?A 而且x,y∈U,稱x,y 關于P 是不可分辨的,如果滿足:f(x,a)=f(y,a),Va∈P,由屬性P 產(chǎn)生的不可分辨關系定義為:Ind(P)={(x,y)∈U×U f(x,a)=f(y,a)任意a∈P}不可分辨關系也稱等價關系,它將U 劃分為若干個等價類,記為U/Ind(P)。
定義4:若Q?P 是獨立的,并且ind(Q)=ind(P),則稱Q 是關系族集P 的一個約簡。在P 中所有不可省的關系集合稱為P 的核,記為core(P)。也就是說P 的核等于P 中所有約簡的交集,即:core(P)=∩red(P)。
定義5:設系統(tǒng)S=(U,A,V,f),其中A=C∪D,a(x)是x 在屬性a 上的值,分辨矩陣M 為:
同時分辨矩陣中的核就是組合數(shù)為1 的屬性。
定義6:屬性的重要性 在分辨矩陣M=(Cij)N×N中,相應的屬性重要性計算公式為:
輸入:決策表(U,A∪syggg00),其中A=∪ai,i=1,…,n。
輸出:約簡集reduct。
步驟:
1)令約簡后得到的屬性集合等于條件屬性集合,即reduct=R;
2)計算可辨識矩陣M,并找出所有不包含核屬性的屬性組合S;
3)將所有不包含核屬性的屬性組合表示析取范式的形式,即
4)將P 轉化為析取范式的形式,并按照公式(2)計算屬性的重要性。
5)選擇其中重要性最小的屬性a,使得reduct-re duct-{a};
6)判斷約簡操作是否成立,若成立,刪除因條件屬性約簡而引入的冗余樣本和不相容樣本,i=i+1,轉(5);否則恢復約簡該屬性前的樣本數(shù)據(jù),結束約簡。
第(6)步中的判斷條件為p1/p0<α。式中p0為執(zhí)行本次約簡操作前知識表中樣本的數(shù)量,p1為執(zhí)行約簡后引入的不相容樣本數(shù)。α 為閾值,根據(jù)實際需要確定,取=5%。
利用系統(tǒng)默認生成的窗體作為主窗體(Dm_Main-Form.cs),并為其添加一個MenuStrip(主菜單)控件和一個StatusStrip(狀態(tài)欄)控件,各個控件布局如圖1所示。
數(shù)據(jù)分析窗口如圖2 所示。
圖1 系統(tǒng)主界面Fig.1 Main interface of system
圖2 數(shù)據(jù)分析界面Fig.2 Data analysis interface
本文針對食品安全評價指標的選定與精簡問題進行了研究,利用可分辨矩陣和和正域概念提出了一種精簡食品安全評價指標的新方法。該方法不但能夠準確選定食品安全評價指標,而且能夠在保持原有信息系統(tǒng)分類能力不變的情況下精簡食品安全評價指標,發(fā)現(xiàn)數(shù)據(jù)中蘊涵的知識模式。但本算法也存在算法時間復雜度較高等缺點,有待于以后進一步研究。
[1]鄧聰文,朱雪冬,王俊能.食品安全評價及其方法簡述[J].畜禽業(yè),2009,19(12):8-10
[2]鄂旭,韓芳,侯建,等.面向食品安全評價的屬性約簡方法研究[J].吉林大學學報,2013,31(3):1-6
[3]Pawlak Z.Rough Sets and Fuzzy Sets[J].Fuzzy Sets and Systems,1985,17:99-102
[4]Krysikiewicz M.Rough Set Approach to Incomplete Information System[J].Information Sciences,1998,112:39-49
[5]王國胤.Rough 集理論與知識獲取[M].西安:西安交通大學出版社,2005
[6]張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法[M].北京:科學出版社,2006
[7]曾黃麟.粗糙集理論及其應用[M].重慶:重慶大學出版社,1996
[8]E Xu,Yang Yuqiang,Ren Yongchang.A new method of attribute reduction based on information quantity in an incomplete system[J].Journal of software,2012,7(8):1881-1888