劉志 郝克俊
摘 要:基于本體編輯工具Protégé,設(shè)計(jì)了人工影響天氣術(shù)語(yǔ)本體知識(shí)庫(kù)。按照本體構(gòu)造的“七步法”,定義了術(shù)語(yǔ)類,明確了術(shù)語(yǔ)類層次關(guān)系,定義了術(shù)語(yǔ)類的對(duì)象屬性和數(shù)據(jù)屬性;基于自定義的對(duì)象屬性,利用HermiT推理機(jī)對(duì)本體進(jìn)行了一致性檢查。文章系統(tǒng)組織了人工影響天氣領(lǐng)域的專業(yè)術(shù)語(yǔ),為該領(lǐng)域術(shù)語(yǔ)研究、人機(jī)翻譯、基于語(yǔ)義的信息檢索奠定了基礎(chǔ)。
關(guān)鍵詞:人工影響天氣術(shù)語(yǔ);本體知識(shí)庫(kù);本體一致性;Protégé
中圖分類號(hào):H083;P48文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2019.06.003
Abstract:Based on the edit tool Protégé, we designed the ontology knowledge base of weather modification terminology. According to the “seven-step” method of ontology construction, we defined the term class, the hierarchical relationship, the object properties, and data properties. Based on the custom object properties, we used HermiT Reasoner to check the ontology consistency. The terms in the field of weather modification were organized, which could provide a basis for the term research, human-computer translation and semantic-based information retrieval in this field.
Keywords:weather modification terminology;knowledge ontology base;ontology consistency;Protégé
本體又稱為“實(shí)體”[1],源于哲學(xué)概念,用于研究客觀事物的抽象本質(zhì),本體的作用是表達(dá)知識(shí),方便知識(shí)的重用和交互。在本體中,知識(shí)可以被正式地表達(dá)為一系列的領(lǐng)域相關(guān)概念,以及這些概念之間的相互關(guān)系。本體組織結(jié)構(gòu)是層次結(jié)構(gòu)化的,Gruber提出 “本體是概念模型的明確的規(guī)范說(shuō)明” [2]。本體可以當(dāng)作某個(gè)領(lǐng)域內(nèi)不同主體(人、機(jī)器等)之間進(jìn)行交流的一種語(yǔ)義基礎(chǔ)[3],即由本體提供明確定義的詞匯表,描述概念和概念之間的關(guān)系,作為使用者之間達(dá)成的共識(shí)。
本體可以被用來(lái)為一個(gè)知識(shí)領(lǐng)域建立模型,并且支持對(duì)這個(gè)模型中的實(shí)體進(jìn)行推理。目前,本體已經(jīng)被廣泛應(yīng)用于知識(shí)工程、自然語(yǔ)言處理、數(shù)字圖書館、信息檢索和Web異構(gòu)信息的處理、軟件復(fù)用、面向?qū)ο蠹夹g(shù)和語(yǔ)義Web等領(lǐng)域。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對(duì)象類型或概念及其屬性和相互關(guān)系;或者說(shuō),本體就是一種特殊類型的術(shù)語(yǔ)集,具有結(jié)構(gòu)化的特點(diǎn),且更加適合于在計(jì)算機(jī)系統(tǒng)中使用[4]。
目前術(shù)語(yǔ)的應(yīng)用范圍從純語(yǔ)言學(xué)研究拓展到機(jī)器翻譯、信息檢索、數(shù)據(jù)挖掘等領(lǐng)域[2]。對(duì)術(shù)語(yǔ)進(jìn)行抽取和標(biāo)注需要構(gòu)建語(yǔ)料庫(kù)。本體描述概念和概念之間的關(guān)系,通過本體知識(shí)庫(kù),能夠描述術(shù)語(yǔ)間關(guān)系和術(shù)語(yǔ)的屬性信息,將某一領(lǐng)域的術(shù)語(yǔ)系統(tǒng)合理整合起來(lái)。
一 人工影響天氣術(shù)語(yǔ)本體知識(shí)庫(kù)
人工影響天氣是指在一定的有利時(shí)機(jī)和條件下,通過人工催化等技術(shù)手段,對(duì)局部區(qū)域內(nèi)大氣中的物理過程施加影響,使其發(fā)生某種變化,從而達(dá)到減輕或避免氣象災(zāi)害目的的一種科技措施[5]。例如,在我國(guó)很多地區(qū)利用飛機(jī)或高炮、火箭等運(yùn)載工具向云中播撒碘化銀、干冰等催化劑進(jìn)行的人工增雨、防雹作業(yè)。目前,中國(guó)還沒有人工影響天氣術(shù)語(yǔ)本體知識(shí)庫(kù),本文嘗試?yán)脤I(yè)資料構(gòu)建該領(lǐng)域的術(shù)語(yǔ)本體知識(shí)庫(kù),對(duì)人工影響天氣領(lǐng)域相關(guān)術(shù)語(yǔ)及術(shù)語(yǔ)間的關(guān)系進(jìn)行描述,以實(shí)現(xiàn)對(duì)人工影響天氣領(lǐng)域知識(shí)的系統(tǒng)組織,為該領(lǐng)域術(shù)語(yǔ)研究、人機(jī)翻譯、基于語(yǔ)義的信息檢索提供基礎(chǔ)。
1.本體知識(shí)庫(kù)構(gòu)建方法
本體知識(shí)庫(kù)的構(gòu)造過程稱為“本體工程”,需要完整的工程化、系統(tǒng)化的方法來(lái)支持,Gruber從實(shí)踐出發(fā)提出了有益于構(gòu)建本體的標(biāo)準(zhǔn):明確性、一致性、可擴(kuò)展性、最小編碼偏好和最小承諾[6],基于該標(biāo)準(zhǔn),研究者提出了多種構(gòu)建本體的方法,有KACTUS法、七步法、“骨架”法、TOVE法、MethOntolog法。其中美國(guó)斯坦福大學(xué)醫(yī)學(xué)院提出的七步法[7]應(yīng)用最廣泛,基本流程見圖1。
本文設(shè)計(jì)的本體知識(shí)庫(kù)的領(lǐng)域術(shù)語(yǔ)部分參考了氣象行業(yè)標(biāo)準(zhǔn)《人工影響天氣作業(yè)術(shù)語(yǔ)》(QX/T 151-2012),部分來(lái)源于從文獻(xiàn)、專業(yè)書籍中抽取的術(shù)語(yǔ)。
2.本體編輯工具
Protégé軟件[8]是斯坦福大學(xué)醫(yī)學(xué)院生物信息研究中心基于Java語(yǔ)言開發(fā)的本體編輯工具,提供了本體概念類、關(guān)系、屬性和實(shí)例的構(gòu)建界面,屏蔽了具體的本體描述語(yǔ)言,用戶只需在概念層次上進(jìn)行領(lǐng)域本體模型的構(gòu)建。有可自行設(shè)置的數(shù)據(jù)輸入模式,可以將Protégé的內(nèi)部表示轉(zhuǎn)制成多種形式的文本表示格式,如:XML、RDF(S)、OIL、DAML、DAML+OIL、OWL等系統(tǒng)語(yǔ)言。Protégé 工具本身沒有嵌入推理工具,不能實(shí)現(xiàn)推理,但它具有很強(qiáng)的可擴(kuò)展性,可以插入插件來(lái)擴(kuò)展一些特殊的功能,如推理、提問、XML轉(zhuǎn)換等。目前最新版本是Protégé 5.5.0 beta 8[8]。
3.本體描述語(yǔ)言
本體描述語(yǔ)言通過定義類以及類的屬性來(lái)形式化某個(gè)領(lǐng)域,并說(shuō)明它們之間的屬性,以便對(duì)類和個(gè)體進(jìn)行推理。本體描述語(yǔ)言有RDFS、OWL,都是W3C(World Wide Web Consortium)的推薦標(biāo)準(zhǔn)[9],用于對(duì)本體進(jìn)行語(yǔ)義描述。資源描述框架(Resource Description Framework,RDF)[10]使用XML語(yǔ)法和RDF Schema(RDFS)將元數(shù)據(jù)描述成為數(shù)據(jù)模型。 通過RDF,人們可以使用自己的詞匯表描述任何資源。一個(gè)RDF文件包含多個(gè)資源描述,而一個(gè)資源描述是由多個(gè)語(yǔ)句構(gòu)成,一個(gè)語(yǔ)句是由資源、屬性類型、屬性值組成的三元組,表示資源具有的一個(gè)屬性。RDFS,即“Resource Description Framework Schema”,是最基礎(chǔ)的模式語(yǔ)言,RDFS本質(zhì)上就是RDF詞匯的一個(gè)擴(kuò)展。RDFS比較重要的詞匯見表1。
OWL(Ontology Web Language)[11]是一種本體語(yǔ)言,是RDFS的一個(gè)擴(kuò)展,其添加了額外的預(yù)定義詞匯, 常用的詞匯見表2。
二 術(shù)語(yǔ)類設(shè)計(jì)及編碼
1.類及其層級(jí)
為了準(zhǔn)確定義人工影響天氣領(lǐng)域中各個(gè)術(shù)語(yǔ)的位置,為術(shù)語(yǔ)進(jìn)行語(yǔ)義限定和語(yǔ)義擴(kuò)展奠定基礎(chǔ),需要明確術(shù)語(yǔ)層次關(guān)系,就是明確類的層次關(guān)系,使類之間的語(yǔ)義關(guān)系更加清晰。本文以人工影響天氣(weather_modification)作為根節(jié)點(diǎn),根節(jié)點(diǎn)下添加雷達(dá)觀測(cè)(radar_meteorology_observation)、作業(yè)監(jiān)測(cè)(operation_monitor)、作業(yè)裝備(operation_equipment)、作業(yè)技術(shù)(operation_technology)、地面作業(yè)(ground_operation)、飛機(jī)作業(yè)(plane_operation)、催化技術(shù)(seeding_technology)、效果評(píng)估(performance_evaluation)、業(yè)務(wù)管理(business_management)、技術(shù)研發(fā)(technology_development)10個(gè)大類。作業(yè)裝備分為飛機(jī)(plane)、高炮(antiaircraft_gun)、火箭(rocket)、發(fā)生器(ground_generator)4個(gè)類,業(yè)務(wù)管理類下面又分作業(yè)人員(operator)、作業(yè)設(shè)施(facility)、相關(guān)機(jī)構(gòu)(institution)、規(guī)章制度(regulations)4個(gè)類。其中,相關(guān)機(jī)構(gòu)下面分為業(yè)務(wù)管理機(jī)構(gòu)(business_management_organization)、作業(yè)指揮機(jī)構(gòu)(operation_command_organization)、空域申報(bào)部門(airspace_declare_organization)、民爆物品管理部門(industrial_explosive_management_organization)4個(gè)類;作業(yè)設(shè)施下面分作業(yè)點(diǎn)(operating_spot)、硬件設(shè)施(hardware_facility)、軟件條件(software_conditon)3個(gè)類。硬件設(shè)施下面分休息室(waiting_room)、值班室(duty_room)、射擊平臺(tái)(fire_platform)、彈藥庫(kù)(ammunition_depot)、裝備庫(kù)(equipment_dept)5個(gè)類。軟件條件下面分作業(yè)點(diǎn)編碼(code)、安全射界圖(safety_shot_chart_cartographic)2個(gè)類。Protégé可以將層級(jí)結(jié)構(gòu)可視化,圖2為上述部分的層次結(jié)構(gòu)。
2.對(duì)象屬性
除了明確類之間的層級(jí),還需要限定類之間的關(guān)系,將類之間的語(yǔ)義信息顯性地表現(xiàn)出來(lái)。對(duì)象屬性就是指類之間的關(guān)系,對(duì)象屬性是自行定義的,屬性與屬性之間的關(guān)系由本體描述語(yǔ)言詞匯限定。
對(duì)前文描述的術(shù)語(yǔ)部分,定義“裝備配備”(be equipped with),說(shuō)明作業(yè)點(diǎn)配備了哪些作業(yè)裝備。該屬性是屬于作業(yè)點(diǎn)(rdfs:domain),取值范圍(rdf:range)是裝備。
定義“強(qiáng)制性具備”(mandatory),說(shuō)明作業(yè)點(diǎn)必須配備硬件設(shè)施。該屬性是屬于固定作業(yè)點(diǎn)(rdfs:domain),取值范圍(rdf:range)是硬件設(shè)施。
定義“下轄”(have jurisdiction over),說(shuō)明管理部門管轄的業(yè)務(wù)管理部門或作業(yè)指揮部門或作業(yè)點(diǎn),該屬性具有傳遞性(owl:TransitiveProperty):若A下轄B,B下轄C,那么A肯定下轄C。
定義“隸屬”(be subordinated to),說(shuō)明管理部門或作業(yè)點(diǎn)的上級(jí)機(jī)構(gòu),該屬性與“下轄”是相反的(owl:inverseOf)。
“業(yè)務(wù)往來(lái)”(related)是指業(yè)務(wù)管理部門與相關(guān)機(jī)構(gòu)之間有業(yè)務(wù)往來(lái)關(guān)系,說(shuō)明管理部門下轄所有作業(yè)點(diǎn)都向某個(gè)空域管制部門申請(qǐng)作業(yè)空域,下轄所有作業(yè)點(diǎn)都向某個(gè)民爆物品部門申請(qǐng)彈藥儲(chǔ)運(yùn)許可。定義對(duì)象屬性見圖3,“related”屬性的參數(shù)設(shè)置見圖4。
“related”屬性設(shè)置對(duì)應(yīng)的OWL描述為:
rdf:resource="….#operating_spot"/> 根據(jù)自定義的對(duì)象屬性,部分類的關(guān)系結(jié)構(gòu)見圖5。 3.數(shù)據(jù)屬性 要完整描述類本身的特性,還需要定義類的數(shù)據(jù)屬性。為了對(duì)數(shù)據(jù)屬性的屬性值進(jìn)行規(guī)范,Protégé提供了6種數(shù)據(jù)類型,分別是布爾型(boolean)、整數(shù)型(int)、單精度浮點(diǎn)型(float)、字符型(string)、時(shí)間型(date)、日期時(shí)間型(date Time)。