王 恒,楊淑群
(上海工程技術(shù)大學 電子電氣工程學院,上海 201620)
本體是描述一個事物的本質(zhì),許多本體可以構(gòu)成一個知識庫,知識庫是可共享的包含各個領(lǐng)域內(nèi)規(guī)則以及所聯(lián)系的數(shù)據(jù)及事實,有利于領(lǐng)域內(nèi)部進行數(shù)據(jù)分析、數(shù)據(jù)調(diào)用等工作。本體知識庫廣泛地應(yīng)用于制造業(yè),為了適應(yīng)制造業(yè)領(lǐng)域數(shù)據(jù)的動態(tài)變化性,相關(guān)學者構(gòu)建了大量的制造業(yè)動態(tài)本體知識庫[1,2]。
傳統(tǒng)的制造業(yè)動態(tài)本體知識庫可以進行簡單的數(shù)據(jù)更新以及數(shù)據(jù)關(guān)系,但是隨著制造業(yè)本體的日益增多,手動更新動態(tài)本體數(shù)據(jù),會影響制造業(yè)的工作效率。因此本文分析基于形式概念分析的制造業(yè)動態(tài)本體知識庫,實現(xiàn)知識庫自動獲取動態(tài)制造業(yè)本體信息,根據(jù)約束條件和本體關(guān)系,進行合理的動態(tài)本體數(shù)據(jù)更新,促進本體知識庫的發(fā)展。
本體最早被應(yīng)用于哲學領(lǐng)域,常被用來描述事物的本質(zhì),后被用于計算機、大數(shù)據(jù)領(lǐng)域,用于說明概念模型的明確規(guī)范[3]。本體是一個領(lǐng)域知識的整體架構(gòu),能夠明確規(guī)劃各種概念之間的關(guān)系。通過利用本體,能夠?qū)崿F(xiàn)數(shù)據(jù)庫、存儲器之間的資源共享,構(gòu)建數(shù)據(jù)量龐大的知識領(lǐng)域,并且通過融合Web信息集成技術(shù),精確定義概念的含義和概念之間的關(guān)系,為由異構(gòu)數(shù)據(jù)源構(gòu)成的動態(tài)本體提供統(tǒng)一的概念和術(shù)語標準,減少制造業(yè)動態(tài)本體因不同數(shù)據(jù)源采用不同命名方式造成的概念不明或語義沖突,進一步保證數(shù)據(jù)共享和數(shù)據(jù)交換的可實施性[4]。因此,構(gòu)建基于形式概念分析的制造業(yè)動態(tài)本體,能夠進一步實現(xiàn)數(shù)據(jù)共享,為用戶提供更便捷且有價值的信息服務(wù)。
在本體的實踐應(yīng)用中需經(jīng)過本體構(gòu)建原則的指導,其中最具影響的構(gòu)建原則是必須保證動態(tài)本體的清晰性、一致性、可擴展性、最小編碼偏好程度性以及本體最小性。清晰性指的是本體所描述的概念和關(guān)系必須是準確清晰的,所表達的邏輯公理必須是形式化的。一致性是動態(tài)本體所推出的結(jié)論必須與術(shù)語本身的含義保持一致,不能發(fā)生矛盾和沖突[5,6]??蓴U展性是本體應(yīng)支持在原有的術(shù)語概念上定義新的概念,并能夠擴展概念之間的關(guān)系體系。最小編碼偏好程度性指的是保持編碼偏好最小化,在知識層面上對概念進行說明,獨立表示某一種特殊符合的層次標碼。本體最小化是對構(gòu)建本體的規(guī)模進行約束,以滿足知識共享需求為前提,遵循本體構(gòu)建最小化原則。編碼過程如圖1所示。
本體既能夠描述簡單的分類層次結(jié)構(gòu),也能夠通過增加公理、規(guī)則來描述復(fù)雜的概念關(guān)系和概念內(nèi)涵。構(gòu)成動態(tài)本體的主要元素包括類、關(guān)系、函數(shù)、公理和實例五種[7]。函數(shù)動態(tài)本體元素概括如表1所示。
圖1 編碼過程
表1 函數(shù)動態(tài)本體元素
構(gòu)建本體通常應(yīng)用于OWL語言作為描述語言。OWL語言是一種標準的XML語言,能夠較好的解決本體的描述問題,能夠精準的描述文件和實例之間的關(guān)系,并加強在web環(huán)境下描述對象的語義內(nèi)涵,且相比較于其他描述語言,OWL語言的表達能力更強,且更容易被機器理解和識別[8,9]。OWL語言為本體提供了三種表達能力不同的子語言,分別針對三種不同類別的描述對象,從而提升本體的描述能力,滿足用戶的不同需求,而且每個子語言都能對前一種語言進行擴展,使對對象的描述更加深入[10~12]。描述過程如圖2所示。
本體的構(gòu)建是一個循環(huán)往復(fù)的復(fù)雜過程,具體步驟如圖3所示。
1)建立規(guī)格說明書[13]。建立一份采用自然語言書寫的包含本體描述范圍、程度的非格式化的規(guī)格說明書。
2)獲取知識。從不同的數(shù)據(jù)庫以及書籍、報刊等實體資料獲取構(gòu)建本體所需的知識,并對獲取的知識進行分析,總結(jié)知識之間的關(guān)聯(lián)。
圖2 描述過程
圖3 制造業(yè)動態(tài)本體的構(gòu)建流程
3)概念化。根據(jù)知識關(guān)系構(gòu)成知識概念模型,并根據(jù)規(guī)格說明書采用合適的領(lǐng)域詞匯描述對象概念和內(nèi)涵,然后集成相近本體對同一描述對象的概念,實現(xiàn)概念描述的一致性。
4)在合適的開發(fā)環(huán)境下,采用形式化的編碼進行運行,實現(xiàn)本體的使用,并在本體運行期間,采用參考框架對本體各階段的運行情況進行判斷,評價本體的運行效果,便于后期對本體的更新和完善。參考框架如圖4所示。
圖4 參考框架
形式概念分析方法是一種融合了數(shù)學基礎(chǔ)和圖像基礎(chǔ)的一個具有數(shù)據(jù)分析和規(guī)則提取的分析方法,其作用是分析出事物動態(tài)本體之間結(jié)構(gòu)的關(guān)系。形式概念分析的原理是根據(jù)事物之間的關(guān)系,建立合法的動態(tài)約束條件[14]。為了輔助形式概念分析的可視化,本文借助Hasse圖對分析的結(jié)果進行表示,使分析結(jié)果更加直觀。Hasse圖如圖5所示。
圖5 Hasse圖
對于本文分析的制造業(yè)動態(tài)本體知識庫,形式概念分析主要的任務(wù)是在原有動態(tài)本體知識庫的基礎(chǔ)上,定期對本體的新生概念和數(shù)據(jù)進行分析,根據(jù)分析結(jié)果對本體數(shù)據(jù)庫進行數(shù)據(jù)更新,保證知識庫的實時性和有效性。
知識庫是數(shù)據(jù)庫和人工智能管理的集成品,其功能是模擬數(shù)據(jù)庫通過人工智能技術(shù)進行相應(yīng)的操作,方便管理者對本體數(shù)據(jù)的收集、整理和提取。同時動態(tài)本體知識庫是具有層次、結(jié)構(gòu)化、模塊化、多變的一個特殊數(shù)據(jù)庫,知識庫最終的表現(xiàn)形式是以文檔的格式存儲,在不同的領(lǐng)域,根據(jù)領(lǐng)域特點和需求,對于知識庫的理解不同,但是統(tǒng)一的理解都是一個可以存儲、查詢、調(diào)用的多功能數(shù)據(jù)庫。
結(jié)合上文分析的制造業(yè)動態(tài)本體的構(gòu)成元素和語音,以及形式概念分析方法,本文總結(jié)出基于形式概念的制造業(yè)動態(tài)本體知識庫構(gòu)建的流程,主要分為七個步驟,具體過程如圖6所示。
圖6 基于形式概念分析制造業(yè)動態(tài)本體知識庫構(gòu)建流程
1)首先對制造業(yè)本體進行需求分析,主要過程是將提供的信息進行關(guān)鍵字抽取以及總結(jié)。需求分析的目的是確定本次制造業(yè)本體所構(gòu)建的知識庫所面向的用戶類型、目的以及相關(guān)知識的有關(guān)內(nèi)容、體系等,確定正確知識庫的構(gòu)建方向;
2)根據(jù)需求分析的內(nèi)容,本文根據(jù)關(guān)鍵字進行最重要本體知識的獲取,此過程關(guān)系到知識庫體系的數(shù)據(jù)內(nèi)容,因此要在專業(yè)人員指導下完成。主要是對知識源進行加工處理,以便后期對最重要本體知識庫的調(diào)用;
3)在專業(yè)人士的指導下,將獲取的知識源進行知識推理。知識推理的目的是理清制造業(yè)本體知識點之間的關(guān)系,為知識庫內(nèi)各個知識點的約束條件提供構(gòu)建依據(jù),知識推理是構(gòu)建制造業(yè)本體知識庫的關(guān)鍵步驟之一,因此本文在知識推理部分完成四次推理,保證知識庫內(nèi)的數(shù)據(jù)關(guān)系具有條理性。四次推理分別為演繹推理、不精確推理、非單調(diào)推理、形式推理;
4)根據(jù)對制造業(yè)動態(tài)本體知識庫的知識源進行推理后,對特殊知識源進行標記。語義標記首先將所示本體知識庫內(nèi)知識源進行檢索,然后將具有兩個或者多個屬性的知識源進行語義標記,方便制造業(yè)動態(tài)本體知識庫的信息更新;
5)最終根據(jù)形式概念分析將語義標記和知識推理按照邏輯構(gòu)建制造業(yè)動態(tài)本體知識庫,達到目的。
將實現(xiàn)的制造業(yè)本體知識庫進行初次運行試驗,檢查構(gòu)建的本體知識庫是否達到了構(gòu)建要求,如果發(fā)現(xiàn)不足,則立即進行優(yōu)化整理。
構(gòu)建的知識庫如圖7所示。
圖7 知識庫結(jié)構(gòu)
因為試驗存在誤差性,所以試驗次數(shù)必須滿足要求,才能投放市場。在構(gòu)建的制造業(yè)本體知識庫使用過程中,定期進行知識數(shù)據(jù)更新[15]。
為了驗證本文提出的基于形式概念分析的制造業(yè)動態(tài)本體知識庫的有效性,與傳統(tǒng)的基于多維多值概念格的制造業(yè)動態(tài)本體知識庫(方法1),基于數(shù)據(jù)分析的制造業(yè)動態(tài)本體知識庫(方法2)進行實驗對比。
設(shè)定實驗參數(shù)表2所示。
表2 實驗參數(shù)
根據(jù)所得實驗參數(shù),選用本文知識庫與傳統(tǒng)知識庫進行實驗對比,得到的構(gòu)建時間如圖8所示。
圖8 構(gòu)建時間實驗結(jié)果
根據(jù)圖8可知,三種不同的知識庫中,所提方法速度最快,在整個抽取過程中,都更加穩(wěn)定、直觀,即使是面對開放的文本,知識庫也可以與其它知識庫進行協(xié)作,因此具有更強的適應(yīng)性,知識庫的表達結(jié)果也更加符合人類的理解?;诙嗑S多值概念格的制造業(yè)動態(tài)本體知識庫的構(gòu)建時間相對較慢,主要是由于迭代訓練速度較慢,主題抽取速度較快,因此知識庫的劃分與人類的理解結(jié)果存在一定的偏差。方法2的速度最慢,耗費時間最長,內(nèi)部主題詞較為離散,需要花費更多的時間進行整理,因此知識庫內(nèi)部的數(shù)據(jù)也非常離散和孤立。
進行十次實驗,得到的知識庫準確率實驗結(jié)果如表3所示。
根據(jù)表3可知,所提方法的知識庫準確率高于方法1和方法2,所提方法引入了關(guān)系形式概念背景知識,具有很強的計算能力,能夠很好地分析出實體詞條的關(guān)系形式,通過綜合考慮的方式確定制造業(yè)動態(tài)。知識庫內(nèi)部的離散主體和文本主題擁有有效的獲取路徑,能夠更為簡單地表達語義。除此之外所提方法還引入了局部特征分析法,提高了概念的連貫性,更好地確定語言要素,提高了分析過程的靈活性。
表3 知識庫準確率
本文首先了解制造業(yè)動態(tài)本體知識庫的概念、構(gòu)造元素和構(gòu)成語言,根據(jù)這些基本概念總結(jié)制造業(yè)動態(tài)本體的構(gòu)建流程,為動態(tài)本體知識庫的構(gòu)建奠定基礎(chǔ)。然后進行形式概念分析,完善制造業(yè)本體知識庫的構(gòu)建流程,最終實現(xiàn)本文的研究,達到研究目的,使制造業(yè)動態(tài)本體知識庫可以自動獲取數(shù)據(jù)更新本體信息,提高本體知識庫的功能性。