国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國外典型語義標注平臺的比較研究

2009-07-15 04:42鞠彥輝
現(xiàn)代情報 2009年1期
關(guān)鍵詞:本體

鞠彥輝 劉 闖

〔摘 要〕本文簡要介紹了國外典型的語義標注平臺,詳細比較了它們的特點,分析了這些平臺的不足,展望了語義標注的發(fā)展趨勢。

〔關(guān)鍵詞〕語義Web;語義標注;本體;標注平臺

〔中圖分類號〕G203;TP311 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)01-0215-03

Comparative Study on Foreign Representative Semantic Annotation Platforms

Ju Yanhui Liu Chuang

(College of Information Science and Engineering,Bohai University,Jinzhou 121000,China)

〔Abstract〕The article introduced simply foreign representative semantic annotation platforms,compared them characteristic in detail,analyzed deficiency of these platforms,prospected development trend of semantic annotation.

〔Key words〕semantic Web;semantic annotation;ontology;annotation platform

為了解決互聯(lián)網(wǎng)上信息處理的自動化、智能化程度很低的問題,Web創(chuàng)始人Tim Berners-Lee于2000年提出語義Web的概念[1],而實現(xiàn)語義Web目標的一個重要前提是利用本體(ontology)詞匯標注Web資源,將Web上資源的狀態(tài)從機器可讀提高到機器可理解的程度,這是整個語義Web實現(xiàn)的基礎(chǔ)。

1 國外典型語義標注平臺簡介

按照語言學(特別是計算語言學)的理解,標注是對文本特定部分所加的形式注釋,從語義Web的角度來看,對傳統(tǒng)Web資源添加語義信息是基于本體進行的,稱之為語義標注。語義標注既是指一組元數(shù)據(jù)(metadata)也是指這些元數(shù)據(jù)的生成過程。[2]下面簡要介紹一下國外典型的語義標注平臺(Semantic Annotation Platform)。

1.1 SHOE Knowledge Annotator

SHOE(Simple HTML Ontology Extension)Knowledge Annotator[3]由MaryLand大學開發(fā),可認為是第一個在真正意義上實現(xiàn)語義標注的平臺,通過選取和填表的方式輕松地向Web頁面添加SHOE知識。SHOE是由類似HTML代碼編寫的語言,用于定義本體和標注語言。它沒有用于顯示W(wǎng)eb頁面的瀏覽器,主要用于SHOE標注演示。

1.2 SMORE

SMORE[4](Semantic Markup,Ontology,and RDF Editor)是由Maryland大學MIND(Maryland Information and Network Dynamics Lab)SWAP(Semantic Web Agents Project)研究小組開發(fā)的為用戶提供無縫集成Web內(nèi)容發(fā)布和語義標注的開發(fā)環(huán)境,還擴充了其他標注平臺所不具備的許多特性,如本體管理、屏幕抓取等。

1.3 MnM

MnM[5]由KMi(Knowledge Media Institute)研究開發(fā),其目標是利用已有本體導出的標記標注文檔。MnM采用了易于理解的一般處理模式,集成了自適應(yīng)的信息抽取系統(tǒng)(Information Extraction Systems,IES)Amilcare,支持知識學習和信息抽取。MnM先對Text或HTML文檔學習庫進行標注,然后利用標注結(jié)果生成詞匯規(guī)則,該詞匯規(guī)則可用于對其他未標注的文檔集進行信息提取。

1.4 Melita

Melita[6]是在AKT(Advanced Knowledge Technologies)項目下研究開發(fā),同時集成自適應(yīng)信息抽取系統(tǒng)Amilcare。Melita是半自動的文本標注平臺,它的功能為管理任務(wù)、信息提取和信息標記,這些功能是通過良好的界面操作和高效的信息提取算法來實現(xiàn)的。

1.5 AeroDAML

AeroDAML[7](The DARPA Agent Markup Language,DAML)屬于UBOT(UML Based Ontology Toolset)項目的一部分,采用自然語言信息抽取技術(shù)從Web頁面自動生成DAML知識標注平臺,它把常見的概念和關(guān)系與DAML本體中的類和屬性聯(lián)系起來。

1.6 SemanticWord

SemanticWord[8]是在TeKnowledge項目下開發(fā)的基于MS Word環(huán)境的集成化的Word文檔標注平臺,它提供定制工具使得內(nèi)容發(fā)布和語義標注同時進行。當內(nèi)容被重用時,標注模式允許標注被重用。一個定制的模版庫包含部分被標注的文本。它包含自動化的信息抽取系統(tǒng)和用以及精煉、增加它的輸出內(nèi)容的定制工具。

此外還有:M-OntoMat-Annotizer[9]是德國Karlsruhe大學的應(yīng)用情報學和規(guī)范描述方法研究所(Institute of Applied Informatics and Formal Description Methods,AIFB)開發(fā)的多媒體內(nèi)容標注的集成化平臺,那些缺乏多媒體經(jīng)驗的索引編制者通過對低水平特性的自動抽取從內(nèi)容上描述客體,從而實現(xiàn)圖像和視頻數(shù)據(jù)的手動標注;Annotea[10]由W3C組織研究開發(fā),是基于通用開放式RDF(Resource Description Framework,資源描述框架)構(gòu)架下We共享的標注平臺;COHSE[11](Conceptual Open Hypermedia Service Environment)由Manchester大學和Southampton大學聯(lián)合研究開發(fā),其目標是利用元數(shù)據(jù)支持Web中Link創(chuàng)建與導航。

2 國外典型語義標注平臺的特點比較

本節(jié)從11個方面詳細分析一下以上6個典型的語義標注平臺的特點,如表1所示。

3 典型語義標注平臺比較分析

3.1 典型語義標注平臺的技術(shù)比較

(1)語義標注平臺的設(shè)計思想分為:①語義Web的方法,即以產(chǎn)生語義標注為主、本體生成為輔,如SMORE等;②知識工程的方法,是以本體為指導的文檔標注,既產(chǎn)生知識庫又生成文檔標注,此類平臺支持自然語言處理(Natural language processing,NLP),如MnM、AeroDAML等。(2)多數(shù)平臺采取插件(如SMORE、MnM等)機制,便于功能擴充和系統(tǒng)集成[12];(3)標注存放位置有標注服務(wù)器、嵌入被標注的文檔、單獨的本地文件。嵌入標注是指頁面的標注存儲在被標注文檔中,而標注嵌入在整個文檔的頭部(如SMORE),或者依附于被標注的文本區(qū)域(如SemanticWord);MnM等的標注以單獨的文件存儲,還允許標注作為知識庫單元存儲在WebOnto中;(4)標注過程和標注生成有普通的標注生成和借助信息抽取的標注生成。普通的標注生成實現(xiàn)相對簡單,所有標注半自動產(chǎn)生。借助信息抽取的標注生成一個集成的信息抽取系統(tǒng),需要綜合自然語言處理和機器學習技術(shù)來解決自然語言的復雜問題。由于Amilcare是針對語義Web自動文檔標注設(shè)計的自適應(yīng)IES,從IES新手到專家的各類用戶都能使用,所以支持IE的標注平臺多數(shù)集成Amilcare,例如MnM、Me ita。此外,AeroDAML集成商業(yè)IES產(chǎn)品AeroText;(5)標注平臺給用戶呈現(xiàn)的形式有Web服務(wù)、現(xiàn)有實用平臺的插件或擴充、獨立的應(yīng)用系統(tǒng)。AeroDAML以Web頁面形式給用戶提供語義標注的Web服務(wù),輸入文檔URL可完全自動地產(chǎn)生標注信息,只提供預(yù)定義本體;SemanticWord擴充了MS Word。多數(shù)標注平臺是獨立的應(yīng)用系統(tǒng),按其處理模式分為客戶和服務(wù)器兩層(如Melita)或瀏覽器/服務(wù)器三層模式(如CHOSE等)和一般處理模式(如SMORE、MnM等)[13];(6)用戶中心/協(xié)同設(shè)計:很少有組織有能力雇用專業(yè)標注者,所以提供給知識工作者用以簡化標注過程的易用的用戶界面是至關(guān)緊要的,一個較好的方法是提供單一的界面入口,使用戶標注文件的環(huán)境與他們創(chuàng)建、閱讀、共享、編輯文件集成在一起。平臺設(shè)計要便于用戶間協(xié)作,這是知識工作者與來自不同領(lǐng)域?qū)<曳窒砗椭赜弥悄芑臋n的關(guān)鍵的一方面[14];(7)從標注對象上分可分為對靜態(tài)Web頁、動態(tài)Web頁以及多媒體資源的標注;(8)從標注的方式上可分為手動、半自動或自動,手動標注是標注人員手工直接將語義元數(shù)據(jù)信息寫入Web頁的源碼中,半自動標注是借助平臺用鼠標拖拉等方式?jīng)Q定要標注內(nèi)容后由平臺將信息寫入Web頁中,自動標注從概念上是自動將語義信息寫入Web頁中;(9)從標注元素的選擇上可以采用不同類型的元素來加以區(qū)分,本文介紹的是以本體為標注元素的標注平臺[15];(10)MnM,Melita支持有監(jiān)督學習,其他平臺不支持自動化學習。

3.2 典型語義標注平臺存在的不足

通過表1可以發(fā)現(xiàn)典型的語義標注平臺均具有各自的特點和適用范圍,但普遍存在以下不足:(1)幾乎所有標注平臺的本體語言使用RDF(S)、OIL(Ontology Interchange Language)、DAML+OIL、RDF OCML(Operational Conceptual Modeling Language)等,標注語言使用XML、RDF(S)等,具體如表1所示,而沒有平臺支持最新的W3C Web本體語言O(shè)WL(Web Ontology Language);(2)除少數(shù)平臺如SMORE支持本體詞匯的編輯、修改和擴充外,支持對Web內(nèi)容的多本體標注,多數(shù)平臺都不支持本體詞匯擴充,這與語義Web的應(yīng)用環(huán)境相悖;(3)一個頁面上的詞匯往往涉及多個本體中的概念,少數(shù)平臺如SMORE允許用戶使用多個本體標注頁面,多數(shù)平臺不支持同時打開、瀏覽多個本體,并使用多個本體標注頁面,這與語義Web的本體環(huán)境不符;(4)標注平臺的多語言支持是關(guān)鍵,這對推進語義Web應(yīng)用很重要,而以上所有平臺只用英語標注,不支持多語言標注;(5)大部分平臺采用先創(chuàng)建內(nèi)容、后進行標注的“兩步法”,只有少數(shù)平臺支持內(nèi)容發(fā)布與語義標注的同步進行[2];(6)多數(shù)平臺的標注對象為HTML頁、Image、E-mail、Word、PowerPoint等,且以靜態(tài)內(nèi)容為主,只有少數(shù)平臺對多媒體對象、電子商務(wù)應(yīng)用中的業(yè)務(wù)數(shù)據(jù)、E-Science中的科學數(shù)據(jù)、Deep Web數(shù)據(jù)資源等動態(tài)內(nèi)容進行標注;(7)語義標注過程中本體查詢、輔助推理支持及元數(shù)據(jù)產(chǎn)生的自動化程度不夠,精度不高;(8)有的平臺使用的本體元素還很有限,甚至有的還不支持Relations(即無法生成對語義Web極其重要的關(guān)系元數(shù)據(jù));(9)標注平臺的可用性、互用性、重用性和擴展性較差,需要進一步提高。

4 結(jié) 語

語義標注是很活躍的研究領(lǐng)域,它將推動語義Web走向?qū)嶋H應(yīng)用,能夠提高信息檢索的精確性和語義資源的互用性。今后的技術(shù)挑戰(zhàn)包括支持多媒體資源標注,提高自動化程度,進一步解決語義標注存儲等問題。

參考文獻

[1]Tim Berners-Lee.Semantic Web-XML2000[EB/OL].http:∥www.w3.org,2008-06-01.

[2]羅旋.基于復句領(lǐng)域本體的語義標注方法研究[D].武漢:華中師范大學,2006:31-33.

[3]OntoWeb:A Survey on Ontology Tools[EB/OL].http:∥www.aifb.uni-karlsruhe.de,2008-06-02:71-72.

[4]Aditya Kalyanpur,James Hendler,Bijan Parsia.SMORE–Semantic Markup,Ontology,and RDF Editor[EB/OL].http:∥www.mindswap.org/papers,2008-06-02:1-5.

[5]Maria Vargas-Vera, Enrico Motta,John Domingue et al.MnM:Ontology driven semi-automatic and automatic support for semantic mark-up[EB/OL].http:∥kmi.open.ac.uk,2008-06-08:1-6.

[6]F.Ciravegna,A.Dingli,D.Petrelli,Y.Wilks,User-system cooperation in document annotation based on information[EB/OL].http:∥www.aktors.org,2008-06-08:3-12.

[7]P.Kogut,W.Holmes,AeroDAML:applying information extraction to generate DAML annotations from web pages[EB/OL].http:∥semannot2001.aifb.uni-karlsruhe.de,2008-06-10:1-3.

[8]Marcelo Tallis,Semantic Word processing for content authors[EB/OL].http:∥ftp.informatik.rwth-aachen.de,2008-06-15:1-6.

[9]Stephan Bloehdorn,Kosmas Petridis,Carsten Saathoff.Semantic annotation of images and videos for multimedia analysis[EB/OL].http:∥www.acemedia.org,2008-06-15:1-12.

[10]Annotea Project Overview[EB/OL].http:∥www.w3.org,2008-06-20.

[11]OntoWeb:A Survey on Ontology Tools[EB/OL].http:∥www.aifb.uni-karlsruhe.de,2008-06-20:65-66.

[12]鄒亮,廖述梅.基于本體的語義標注工具比較與分析[J].計算機應(yīng)用,2004,(24):329.

[13]廖述梅.基于本體的語義標注原型評述[J].計算機工程與科學,2006,28(9):124-125.

[14]Victoria Uren,Philipp Cimiano,Jos餰 Iria,Siegfried Handschuh.Semantic annotation for knowledge management:Requirements and a survey of the state of the art[EB/OL].http:∥www.siegfried-handschuh.net,2008-07-08:17-26.

[15]陶皖,李平,廖述梅.當前基于本體的語義標注工具的分析[J].安徽工程科技學院學報,2005,20(2):53.

猜你喜歡
本體
Abstracts and Key Words
灰鑄鐵缸體本體抗拉強度提升的研究
眼睛是“本體”
對姜夔自度曲音樂本體的現(xiàn)代解讀
領(lǐng)域本體的查詢擴展和檢索研究
基于本體的機械產(chǎn)品工藝知識表示
本體在產(chǎn)品設(shè)計知識管理中的應(yīng)用研究
《我應(yīng)該感到自豪才對》的本體性教學內(nèi)容及啟示
一種基于本體的語義檢索設(shè)計與實現(xiàn)
媒介生存:關(guān)于新聞史研究本體的思考