基于主題詞表的數(shù)字出版領(lǐng)域本體構(gòu)建

2015-12-10 04:25司莉陳雨雪莊曉喆

出版科學(xué) 2015年6期

司莉　陳雨雪　莊曉喆

[摘要] 領(lǐng)域本體在知識管理和語義網(wǎng)中起到越來越重要的作用，本文按照從提取主題詞、概念的篩選與取舍、概念名稱的規(guī)范化處理、概念分類體系的調(diào)整與概念歸類、主題詞表的編制與修訂、確定概念間的語義關(guān)系、領(lǐng)域本體的形式化建模等程序構(gòu)建了數(shù)字出版領(lǐng)域本體，并利用保護(hù)軟件（Prot€間€椋┩瓿篩帽咎宓男問交涂墑踴允盡=ǔ珊蟮謀咎寰弒肝謀咀遠(yuǎn)暌⑽南仔畔⒂鏌寮燜饔肟墑踴燜鰲⑹跤鋟竦裙δ堋？

[關(guān)鍵詞] 數(shù)字出版領(lǐng)域本體主題詞表

[中圖分類號] G237 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1009-5853 （2015） 06-0080-05

The Construction of a Digital Publishing Domain Ontology Based on Thesaurus

Si Li Chen Yuxue Zhuang Xiaozhe

（Information Resource Research Center，Wuhan University，Wuhan，430072）（School of Information Management，Wuhan University，430072）

[Abstracts] Domain ontology plays a more and more important role in knowledge management and semantic web.This article explores the methods and the process of building a digital publishing ontology knowledge base based on thesaurus.The extraction and selection of descriptors，the establishment and revision of thesaurus，the building of semantic relationship between concepts， and the modeling of domain ontology are discussed.The modeling and visual display of the domain ontology is realized by Prot€間€？The system can provide a series of functions，including text automatic indexing，documental informations semantic and visual retrieval，term service，etc.

[Key words] Digital publishing Domain ontology Thesaurus

1 引言

隨著出版產(chǎn)業(yè)與數(shù)字技術(shù)、信息網(wǎng)絡(luò)技術(shù)的加速融合，傳統(tǒng)出版與數(shù)字出版并重發(fā)展的格局已逐步形成，出版產(chǎn)業(yè)發(fā)展方式發(fā)生了根本轉(zhuǎn)變[1]。如何對數(shù)字出版領(lǐng)域的概念及概念間的關(guān)系進(jìn)行明晰的表達(dá)與描述，成為數(shù)字出版發(fā)展過程中面臨的重要課題，而構(gòu)建數(shù)字出版領(lǐng)域本體是解決該問題的有效舉措。

在表達(dá)知識結(jié)構(gòu)方面，本體和主題詞表有著與生俱來的聯(lián)系。主題詞表包含豐富的主題詞與清晰的語義結(jié)構(gòu)，易于從中提取概念與關(guān)系，為本體的建立提供了極為便利的條件；本體使用受控詞表中的受控詞及它們之間的關(guān)系來對某一知識領(lǐng)域的信息進(jìn)行組織和正式地概念化[2]。因此，國內(nèi)外一些學(xué)術(shù)機(jī)構(gòu)和團(tuán)體都在開展利用主題詞表建立本體的研究。美國國家癌癥研究所（National Cancer Institute，NCI）和馬里蘭大學(xué)帕克分校合作將NCI主題詞表（The NCI Th€閟aurus）轉(zhuǎn)換為一個OWL本體[3]；植物本體聯(lián)盟（The Plant Ontology Consortium，POC）基于其創(chuàng)建的受控詞表構(gòu)建了植物本體（lant Ontology，POP）[4]；Sun等基于農(nóng)業(yè)科學(xué)敘詞表（Agriculture Science Thesaurus，AST）建立了果樹栽培領(lǐng)域本體（Pomology Domain Ontology，PDO）[5]；胡兆芹等進(jìn)行了利用漢語主題詞表建立領(lǐng)域本體的研究[6]。

筆者創(chuàng)建數(shù)字出版領(lǐng)域主題詞表，以Prot€間€槲唇üぞ吖菇ㄊ殖靄媼煊蟣咎澹迪質(zhì)殖靄嫖錟諶蕕淖遠(yuǎn)暌⑻峁┯鏌寮燜鰲⒖墑踴燜骱褪跤鋟窆δ??？

2 本體構(gòu)建步驟

數(shù)字出版領(lǐng)域本體知識庫的建設(shè)過程包括提取主題詞、概念的篩選與取舍、概念名稱的規(guī)范化處理、本體分類體系的調(diào)整與概念歸類、主題詞表的編制與修訂、確定概念間的語義關(guān)系、領(lǐng)域本體的形式化建模等步驟。

2.1 提取主題詞

2.1.1 主題詞的來源

（1）人工抽詞

首先選取中國知網(wǎng)全文數(shù)據(jù)庫作為數(shù)據(jù)源，下載國內(nèi)數(shù)字出版領(lǐng)域研究文獻(xiàn)（含期刊論文、會議論文、學(xué)位論文、報紙、專利、標(biāo)準(zhǔn)）的題錄信息（含題名、摘要），并從中人工抽取與數(shù)字出版相關(guān)的關(guān)鍵詞，進(jìn)行去重處理，再經(jīng)人工篩選后，得到4700余個相關(guān)概念，初步獲取了數(shù)字出版領(lǐng)域內(nèi)的重要術(shù)語。

（2）文本分詞

人工抽取的術(shù)語并不能完全反映領(lǐng)域知識，為避免遺漏，選用中科院NLPIR/ICTCLAS漢語分詞系統(tǒng)（2014版）對電子工業(yè)出版社出版的《數(shù)字出版理論、技術(shù)和實(shí)踐》系列叢書中的9本專著進(jìn)行自動分詞處理，進(jìn)一步提取有關(guān)術(shù)語，而后對分詞結(jié)果作預(yù)處理：刪除所有單字詞、對剩余的語詞進(jìn)行去重處理。預(yù)處理后，余下的術(shù)語為34484個。

2.1.2 概念的篩選與取舍

分詞結(jié)果的準(zhǔn)確度對于領(lǐng)域本體的知識覆蓋范圍與表達(dá)能力以及文本標(biāo)引的效果均有直接影響，任何分析系統(tǒng)的結(jié)果必須經(jīng)過人工審核預(yù)處理。其具體過程如下：

（1）通過Excel的COUNTIFS函數(shù)一次性統(tǒng)計(jì)每個概念在書中的出現(xiàn)頻次，并按頻次由低至高排列所有概念。去除出現(xiàn)頻次過低（設(shè)置閾值為3）的概念與過于泛指（通常為超高頻詞）、專指以及與數(shù)字出版無關(guān)的概念。

（2）對于存有歧義、專業(yè)性較強(qiáng)的概念，在專著、研究文獻(xiàn)、網(wǎng)絡(luò)百科中查閱其含義并備注。

（3）標(biāo)明英文縮寫詞的英文全稱及其對應(yīng)的中文名稱。

全面瀏覽專著內(nèi)容，訂正分詞時切分出錯的概念，同時補(bǔ)充遺漏的重要概念。最后共留存概念480余個。

此外，對人工抽詞獲取的近5000個概念進(jìn)行了多輪篩選，具體工作大致同上，共保留概念700余個。將兩部分概念進(jìn)行比對，去除重復(fù)概念后，計(jì)有680個概念（含非正式概念100余個）。

2.2 概念名稱的規(guī)范化處理

概念名稱必須符合漢語構(gòu)詞特點(diǎn)，契合實(shí)際使用情況，便于用戶檢索，表述規(guī)范清晰。具體處理原則包括：若語詞中存在標(biāo)點(diǎn)符號，則去除標(biāo)點(diǎn)符號或直接刪除；外文名詞術(shù)語均采用漢譯名，如有多個譯名，以最通行的譯名為準(zhǔn)，其余譯名作入口詞；若外文名詞術(shù)語更為通行，也可直接選用其作為正式詞；概念術(shù)語長度限制在10個字以內(nèi)，過長的語詞使用其簡稱、縮寫或者直接刪除；拆分并列式概念，將析出的概念/語詞作為多個新概念術(shù)語。

2.3 概念分類體系的建立與概念歸類

在人工抽詞之后，筆者采取自頂向下的建模原則，初步確定數(shù)字出版領(lǐng)域概念的分類體系，編列前四級類目，并對已抽取的概念詞進(jìn)行分類，依其內(nèi)涵分別歸入各類目下。

首先將人工抽取的關(guān)鍵詞初步劃分為10個大類。文本分詞后獲取了一批新的概念術(shù)語，原有的等級體系也需予以相應(yīng)調(diào)整，以便更加科學(xué)合理地容納數(shù)字出版領(lǐng)域內(nèi)的概念，因此增設(shè)了“案例”和“機(jī)構(gòu)”兩個一級類目，將“數(shù)字出版物與數(shù)字圖書館”和“傳統(tǒng)出版”類名分別改為“數(shù)字出版產(chǎn)品”和“相關(guān)概念”，并撤銷“數(shù)字版權(quán)”一級類目，使一級類目達(dá)到11個（見表1）。

表1 分類體系一級類目

此外，部分子類的設(shè)置也有所調(diào)整。本體等級體系的調(diào)整，解決了原有等級體系存在的類目涵義重疊、表意模糊等缺陷。考慮到概念數(shù)量有限，加之過深的層級體系不利于用戶的瀏覽與檢索，本體等級體系的層級一般為4級，極少數(shù)類目劃分到5級。最后，依據(jù)新的等級體系，在準(zhǔn)確把握概念內(nèi)涵及外延的基礎(chǔ)上，將所有概念逐一歸入對應(yīng)的類目之下。

2.4 主題詞表的編制

將獲取的數(shù)字出版領(lǐng)域概念術(shù)語編制成數(shù)字出版領(lǐng)域主題詞表。概念術(shù)語編碼采用英文字母與阿拉伯?dāng)?shù)字組配的方式，為每個概念賦予唯一編號，基本采取層累制編號法，具體編碼方式如下。

①一級為兩位數(shù)字（00到10）；

②二級為對應(yīng)的一級類目編號加一位英文大寫字母（若類目多于26個，則加兩位英文字母）；

③三級為對應(yīng)的二級類目編號加兩位數(shù)字（01起）；

④四級為對應(yīng)的三級類目編號加兩位數(shù)字（01起）；

⑤五級為對應(yīng)的四級類目編號加一位英文小寫字母；

⑥入口詞則是在相應(yīng)正式詞編碼后面增加“UF”和兩位數(shù)字（用于標(biāo)識同一主題詞對應(yīng)的多個入口詞）。

以“工具”類及其部分下位類為例，其編碼如下：

04 工具

04A 存儲設(shè)備

04A01 磁帶

D 04A01UF01磁介質(zhì)

04A02 光盤

D 04A02UF01光介質(zhì)

D 04A02UF02光碟

04A0201 CD@

04A0201a CD-ROM@

04A0202 DVD@

04A0202a DVD-ROM@

D 04A0202aUF01 數(shù)字視盤

注：編碼前標(biāo)有英文字母“D”則為入口詞

其中“工具”為一級類目，“存儲設(shè)備”為二級類目，“磁帶”“光盤”為三級類目，“CD”“DVD”為四級類目，“CD-ROM”“DVD-ROM”為五級類目，“磁介質(zhì)” “光介質(zhì)”“光碟”“數(shù)字視盤”則是相關(guān)概念的入口詞，編碼為相應(yīng)正式詞編碼后增加“UF”和兩位數(shù)字。

對于表述形式不唯一的概念（同義異形）以及彼此間涵義相近的概念，根據(jù)其出現(xiàn)的頻次，并結(jié)合用戶的檢索習(xí)慣，確定了正式詞（出現(xiàn)頻次較多、用戶使用較廣泛者；對應(yīng)于本體中的正式概念）和入口詞（出現(xiàn)頻次較少、用戶使用不普遍者；對應(yīng)于本體中的非正式概念）。而后按照已完成的分類表編排所有概念，添加用、代關(guān)系；入口詞均緊隨對應(yīng)的正式詞之后，與正式詞的下位概念同級。對具有多種含義、涉及多種領(lǐng)域的概念進(jìn)行多重列類處理，即將同一概念依其語義分別歸入不同的類目，并以“@”符號加以標(biāo)識。最后，編列入口詞表收錄入口詞，以音序排列，所有入口詞均給予唯一編號。

這樣即編列完成了反映概念間等級結(jié)構(gòu)的數(shù)字出版領(lǐng)域主題詞表之范疇表。此外，還將所有概念按其首字或首字母的字順排列，得到數(shù)字出版領(lǐng)域主題詞表之字順表。

2.5 確定概念間的語義關(guān)系

首先，將本體概念間的語義關(guān)系歸納為等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系三類；接著仔細(xì)分析概念的內(nèi)涵與外延，并咨詢領(lǐng)域?qū)＜?，以?zhǔn)確把握各概念的涵義與其間關(guān)聯(lián)；最終確定概念間存在的10種關(guān)系。其中，除了“In relation to”外，其余關(guān)系均以關(guān)系對的形式存在，即包含兩種互逆的關(guān)系。具體關(guān)系如下：

①Equals/Is synonym of（等同于/是**的同義詞），如Copyleft Equals著作權(quán)/著作權(quán)Is synonym of Copyleft。

②Has part/Is part of（包含**部分/是**的一部分），如SGML Has part XML/XML Is part of SGML。

③Has type/Is type of（包括**一類/是**的一類），如軟件Has Type iTunes/iTunes Is type of 軟件。

④Has instance/Is instance of（有實(shí)例**/是**的實(shí)例），如出版單位Has instance愛思唯爾/愛思唯爾Is instance of 出版單位。

⑤Has tool/Is tool of（有工具**/是**的工具），如移動閱讀Has tool HTML5/HTML5 Is tool of 移動閱讀。

⑥Offer/Offered by（提供**/提供者是**），如OCLC Offer 數(shù)字期刊/數(shù)字期刊Offered by OCLC。

⑦Develop/Developed by （發(fā)明**/發(fā)明者是**），如Adobe Develop PDF/PDF Developed by Adobe。

⑧Has standard/Is standard of（有標(biāo)準(zhǔn)**/是**的標(biāo)準(zhǔn)），如ISO Has standard MPEG/MPEG Is standard of ISO。

⑨In relation to（與**相關(guān)），如3G In relation to 數(shù)字閱讀。

⑩Manage/Manage by（負(fù)責(zé)管理**/管理者是**），如DCMI Manage DC/DC Manage by DCMI。

隨后為抽取的概念間兩兩建立關(guān)系，前后共建立關(guān)系3500余對，并進(jìn)行人工審定，保證領(lǐng)域本體的一致性，盡量避免冗余關(guān)系、循環(huán)錯誤等不一致性錯誤的產(chǎn)生。

2.6 領(lǐng)域本體的形式化建模

選用開源本體編輯軟件Prot€間€？4.3建立領(lǐng)域本體的等級結(jié)構(gòu)（即添加父類、子類及實(shí)例），設(shè)置概念的IRI（資源標(biāo)識符）、label（顯示的名稱）、code（編碼）等基本屬性，定義概念間存在的關(guān)系種類，并為部分概念添加注釋信息。該本體的等級結(jié)構(gòu)即為范疇表中的等級結(jié)構(gòu)，但入口詞則與對應(yīng)的正式詞平級。接著使用Prot€間€橥綈鎃ebProt€間€椋扇《噯嗽諳咝鞣絞劍拍釤砑庸叵擔(dān)⒍員咎宓牡燃督峁?、类冒其始g災(zāi)到屑觳欏6雜詰韌叵擔(dān)碋quals/Is synonym of關(guān)系，如概念的全稱和簡稱、用代關(guān)系等），采用增設(shè)“fullname”（全稱）與“abbreviation”（簡稱/縮寫）屬性、使用系統(tǒng)自帶的“equivalent to”關(guān)鍵字等方式予以描述。最后使用Prot€間€櫚牟寮﨩WLViz和OntoGraf實(shí)現(xiàn)領(lǐng)域本體的可視化瀏覽（圖3）。

2.7 領(lǐng)域本體形成與界面

使用Prot€間€槿砑瓿殺咎宓男問交：螅勺遠(yuǎn)擅枋霰咎逯懈拍釷糶約捌浼涔叵檔腞DF文檔（圖4）。

3 結(jié) 語

筆者通過對信息技術(shù)領(lǐng)域主題詞表中涉及數(shù)字出版的主題詞及其相互關(guān)系的分析，構(gòu)建了適合科教出版的領(lǐng)域本體模型所需的要素與本體描述模型，使之能完整反映數(shù)字出版領(lǐng)域的知識網(wǎng)絡(luò)；并通過抽取相關(guān)系列專著的信息，完成該領(lǐng)域本體的實(shí)例化。主題分類表和領(lǐng)域本體二者間應(yīng)存在一定的對應(yīng)關(guān)系，并作為動態(tài)數(shù)字出版標(biāo)準(zhǔn)規(guī)范體系的重要組成部分，為動態(tài)數(shù)字出版技術(shù)的集成開發(fā)、動態(tài)數(shù)字出版應(yīng)用系統(tǒng)的建設(shè)提供支撐。

目前，在本體知識庫建設(shè)方面已編制完成數(shù)字出版領(lǐng)域主題詞表的范疇表、字順表，利用Prot€間€槿砑瓿墑殖靄媼煊蟣咎宓男問交涂墑踴允荊就瓿墑殖靄媼煊蟣咎逯犢庀低車慕ㄉ韞ぷ鰨低辰ǔ珊蠼弒肝謀咀遠(yuǎn)暌⑽南仔畔⒌撓鏌寮燜饔肟墑踴燜鰲⑹跤鋟竦裙δ??？

雖然當(dāng)前研究已取得一些成果和經(jīng)驗(yàn)，但對于未來的研究，還有以下建議和展望：實(shí)現(xiàn)數(shù)字出版領(lǐng)域本體知識庫在線服務(wù)系統(tǒng)與其他數(shù)字出版業(yè)務(wù)系統(tǒng)的無縫集成，保證系統(tǒng)具有良好的可擴(kuò)展性；強(qiáng)化后期維護(hù)和后臺資源更新，實(shí)現(xiàn)數(shù)字出版資源建設(shè)、流程管理、用戶服務(wù)的一體化；系統(tǒng)總結(jié)數(shù)字出版領(lǐng)域本體開發(fā)中的經(jīng)驗(yàn)及策略，為建構(gòu)更大規(guī)模、適用于其他學(xué)科領(lǐng)域文獻(xiàn)的標(biāo)引與檢索的本體積累更多經(jīng)驗(yàn)。

注釋

[1]常青. 世界圖書出版西安公司是如何提升數(shù)字出版水平的[J]. 出版參考，2013，27：16

[2]Vihinen M. Variation Ontology for annotation of variation effects and mechanisms[J]. Genome research， 2014， 24（2）： 356-364

[3]Golbeck J， Fragoso G， Hartel F， et al. The national cancer institutes thesaurus and ontology[J]. Web Semantics： Science， Services and Agents on the World Wide Web， 2003， 1（1）： 75-80

[4]Plant Ontology Consortium. The Plant Ontology？ consortium and plant ontologies[J]. International Journal of Genomics， 2002， 3（2）： 137-142

[5]Sun Q， Wu Q， Liang Y. Study on Query System Based on Pomology Domain Ontology[M]//Computer and Computing Technologies in Agriculture V. Springer Berlin Heidelberg， 2012： 180-187

[6]Hu Z Q. Domain Ontology Construction from Chinese Thesaurus[J]. Advanced Materials Research， 2013， 753： 3209-3213

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于主題詞表的數(shù)字出版領(lǐng)域本體構(gòu)建