劉玉翠 高鴻斌
摘要:隨著物聯(lián)網(wǎng)概念的提出,包含了大量感知設(shè)備的物聯(lián)網(wǎng)系統(tǒng)在各個領(lǐng)域越來越得以大量應(yīng)用。感知設(shè)備時刻產(chǎn)生著大量孤立和異構(gòu)的感知數(shù)據(jù),形成數(shù)據(jù)孤島。通過將不同設(shè)備及其產(chǎn)生的數(shù)據(jù)信息進(jìn)行語義標(biāo)注,從而構(gòu)建不同域的數(shù)據(jù)關(guān)聯(lián)模型,以便屏蔽數(shù)據(jù)異構(gòu)性,實(shí)現(xiàn)語義信息的統(tǒng)一。該文以物聯(lián)網(wǎng)為研究對象,提出對于宏觀上的物聯(lián)網(wǎng)系統(tǒng)從語義入手,結(jié)合語義網(wǎng)知識,介紹了語義標(biāo)注的基本概念義、語義標(biāo)注的方法及作用以及物聯(lián)網(wǎng)傳感數(shù)據(jù)的語義標(biāo)注。
關(guān)鍵詞:物聯(lián)網(wǎng);語義標(biāo)注;結(jié)構(gòu)化數(shù)據(jù)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1009- 3044(2019)34-0246-02
物聯(lián)網(wǎng)是一個由傳感設(shè)備與信息交互所構(gòu)成網(wǎng)絡(luò)系統(tǒng)。由于設(shè)備信息的不一致性和不確定性為信息協(xié)調(diào)和交互提出難題,針對這一問題將語義標(biāo)注技術(shù)引入物聯(lián)網(wǎng)中從而利用語義物聯(lián)網(wǎng)解決數(shù)據(jù)異構(gòu)性。隨著物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,海量物聯(lián)網(wǎng)傳感數(shù)據(jù)具有多源性的特點(diǎn),多種傳感數(shù)據(jù)在數(shù)據(jù)格式、數(shù)據(jù)屬性及其描述、通信協(xié)議等方面都具有異構(gòu)問題。這種異構(gòu)影響了數(shù)據(jù)的交互和共享融合,也影響了跨域數(shù)據(jù)間的處理理解和開發(fā)難度[1]。通過將不同感知設(shè)備及其產(chǎn)生的數(shù)據(jù)進(jìn)行有效的語義標(biāo)注、構(gòu)建跨域的數(shù)據(jù)關(guān)聯(lián)模型,以便消除數(shù)據(jù)的異構(gòu)性,實(shí)現(xiàn)各種設(shè)備及數(shù)據(jù)統(tǒng)一是物聯(lián)網(wǎng)研究的關(guān)鍵問題。
1 語義標(biāo)注
物聯(lián)網(wǎng)的語義化為物聯(lián)網(wǎng)領(lǐng)域資源提供了新的組織知識的方式,語義物聯(lián)網(wǎng)的實(shí)現(xiàn)依賴于大量的、與各種形式化知識相關(guān)聯(lián)的物聯(lián)網(wǎng)內(nèi)容元數(shù)據(jù)。當(dāng)前語義網(wǎng)的發(fā)展迫切需要特定的、明確的和容易理解的語義元數(shù)據(jù)的創(chuàng)建和使用,也就是需要對當(dāng)前的物聯(lián)網(wǎng)所有資源數(shù)據(jù)進(jìn)行廣泛可用的語義標(biāo)注。語義標(biāo)注指的是通過語義元數(shù)據(jù)阮數(shù)據(jù)指的是描述數(shù)據(jù)的數(shù)據(jù),通常指本體有XML、RDF、OWL等格式)為文檔資源添加語義標(biāo)記識別語義信息的過程,使其具有語義信息,不僅人可以理解,而且使機(jī)器也可以理解。概括的講,語義標(biāo)注是一個在領(lǐng)域本體指導(dǎo)下為文檔添加規(guī)范化知識表示的過程。
陳葉旺[2]等認(rèn)為語義標(biāo)注有對象、知識和方式三個基本要素。在網(wǎng)頁中產(chǎn)生的各種信息資源,如網(wǎng)頁、圖片等數(shù)據(jù)都是標(biāo)注對象。標(biāo)注知識是如概念、屬性實(shí)例等的本體元數(shù)據(jù),這些元數(shù)據(jù)與Web資源是相對應(yīng)的。標(biāo)注方式按照標(biāo)注方法分為自動、半自動和手動。語義標(biāo)注依賴于某個特定領(lǐng)域知識,而領(lǐng)域知識成分可分為元知識和知識實(shí)例,元知識描述的是抽象領(lǐng)域本體關(guān)系,知識實(shí)例的描述是真實(shí)存在的具體知識單元[3]。
語義標(biāo)注按照注釋的存儲方式可分為內(nèi)嵌式和非內(nèi)嵌式兩種[3]。語義標(biāo)注信息是否與標(biāo)注對象內(nèi)容或標(biāo)記知識相結(jié)合決定著標(biāo)注的存儲方式。Kiryakov認(rèn)為將標(biāo)注信息內(nèi)嵌到標(biāo)注對象內(nèi)容或知識中是相對容易的,但是對于復(fù)雜的標(biāo)注采用內(nèi)嵌式容易增加對象內(nèi)容或知識的篇幅,同樣也增加了標(biāo)注內(nèi)容或知識的維護(hù)負(fù)擔(dān)。語義標(biāo)注采用非內(nèi)嵌方式將標(biāo)注與內(nèi)容和標(biāo)注知識分離存儲,對標(biāo)注知識采用映射的方式相聯(lián)系,可以減少內(nèi)嵌標(biāo)注的副作用。
2 語義標(biāo)注的方法及作用
簡單來說語義標(biāo)注就是為各種資源數(shù)據(jù)標(biāo)注含義,使得機(jī)器對大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)從而認(rèn)識世界。數(shù)據(jù)本身是沒有語義的,需要特定人員對數(shù)據(jù)標(biāo)注語義,標(biāo)注語義的方法有手工標(biāo)注、半自動標(biāo)注和自動標(biāo)注。人工標(biāo)注,需要專業(yè)人確定資源概念集、分析對象內(nèi)容結(jié)構(gòu)、選擇元數(shù)據(jù)元素、并用如RDF或HTML語言進(jìn)行標(biāo)注。半自動標(biāo)注,是利用數(shù)據(jù)的DTD或Schema定義內(nèi)容元素和結(jié)構(gòu),通過映射關(guān)系自動地將標(biāo)記轉(zhuǎn)換為對應(yīng)的概念元數(shù)據(jù)。自動標(biāo)注,是利用大量的標(biāo)注數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而對未標(biāo)注的數(shù)據(jù)自動的將標(biāo)注信息添加到標(biāo)注對象內(nèi)容或標(biāo)注知識中[5]。
語義標(biāo)注的工作就是將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例標(biāo)記與抽象的本體概念相聯(lián)系,通過解析對本體添加知識單元。與數(shù)據(jù)庫相似領(lǐng)域本體的Schema就如建立好的數(shù)據(jù)庫表,語義標(biāo)注就是添加對數(shù)據(jù)庫表添加具體實(shí)例的過程。通過對數(shù)據(jù)資源的語義標(biāo)注,內(nèi)容提供者可以更好地組織信息,計算機(jī)能夠更加方便的理解和處理數(shù)據(jù)的語義信息,用戶可以更好地獲取和利用信息。下面列舉了幾個標(biāo)注的輔助工具[6]。
(1) SHOE Knowledge Annotizer是由Maryland大學(xué)本體工作小組研發(fā)的。SHOE是HTML的一個小擴(kuò)展程序,使用者通過圖形的方式利用機(jī)器可讀SHOE知識來進(jìn)行語義標(biāo)注,而不必使用HTML,它適合手動標(biāo)注的方式。
(2) BriefingAnnotizer是在TeKnowledge項目下開發(fā)的基于PowerPoint環(huán)境語義標(biāo)注工具,它將這些標(biāo)注隱藏在PowerPoint文檔中。它能夠用于手動標(biāo)注的場合。
(3) SMORE由Maryland大學(xué)研究開發(fā)的,該工具為內(nèi)容的發(fā)布和語義標(biāo)注提供了集成環(huán)境,還擴(kuò)充了其他標(biāo)注平臺所不具備的許多特性。能夠應(yīng)用于圖像視頻和E-mail等格式的標(biāo)注。
(4) Annotea由W3C組織開發(fā),是基于通用開放式RDF框架下的Web共享的標(biāo)注系統(tǒng),它采用C/S結(jié)構(gòu)將關(guān)系數(shù)據(jù)庫中元數(shù)據(jù)及實(shí)例存于標(biāo)注服務(wù)器中,這使得讀取標(biāo)注內(nèi)容更加方便。它適用于半自動標(biāo)注場合。
(5) OntoMatAnnotizer是用于對網(wǎng)頁信息進(jìn)行標(biāo)注工具,該工具可以對已有的網(wǎng)頁進(jìn)行標(biāo)注,也可以標(biāo)注和生成同時進(jìn)行,最終的目標(biāo)是生成帶標(biāo)注的頁面,它通過對DAML+OIL標(biāo)記解析得到實(shí)例和關(guān)系。它適用于自動標(biāo)注的方法。
(6) Armadilo是一個自動系統(tǒng),用于在大型倉庫中生成特定于領(lǐng)域語義Web的注釋,對于語義網(wǎng)它可以自動從Web上的文檔生成實(shí)例標(biāo)簽。其自動的提取眾多來源的數(shù)據(jù)集成到知識庫中。
手動標(biāo)注是人工手動將要標(biāo)注的語義內(nèi)容寫入本體中,半自動標(biāo)注是利用標(biāo)注工具將語義內(nèi)容拖拽到本體。自動標(biāo)注是需要通過訓(xùn)練后實(shí)現(xiàn)自動的將語義信息寫入本體中。人工標(biāo)注由于是專業(yè)人員及技術(shù)工程師合作手動完成的,對于本領(lǐng)域的標(biāo)注準(zhǔn)確率比較高,最后的審查工作也會比較輕松,然而對于本專業(yè)以外的語義信息專業(yè)性卻不強(qiáng),而且仍容易受個人的主觀因素所影響,面對海量的數(shù)據(jù)信息也比較耗時費(fèi)力。人工標(biāo)注比較適用于數(shù)據(jù)量信息有限的單一本體。
半自動標(biāo)注以及自動標(biāo)注的準(zhǔn)確率沒有人工標(biāo)注的高,最后審查的工作仍然需要人工進(jìn)行審查以及修改,工作量雖然大相比較人工標(biāo)注海量信息卻少了很多。半自動標(biāo)注采用機(jī)器和人工干預(yù)來提高標(biāo)注的準(zhǔn)確性,而且效率會比人工手動標(biāo)注快很多,半自動標(biāo)注與自動標(biāo)注相比較而言,還不能以準(zhǔn)確的方式自動識別和分類源數(shù)據(jù)中的所有實(shí)體。自動標(biāo)注解決了現(xiàn)有本體所需的擴(kuò)展性,減少了工作人員的工作量。
3 對物聯(lián)網(wǎng)傳感數(shù)據(jù)的語義標(biāo)注
在物聯(lián)網(wǎng)方面,隨著物聯(lián)網(wǎng)領(lǐng)域技術(shù)的發(fā)展,目前都是設(shè)計定制方案對具體領(lǐng)域特定應(yīng)用的傳感數(shù)據(jù)進(jìn)行描述,數(shù)據(jù)屬性的結(jié)構(gòu)化較強(qiáng),數(shù)據(jù)很難被跨域理解和處理。針對這一問題,采用了一種面向物聯(lián)網(wǎng)數(shù)據(jù)屬性的語義標(biāo)注方法[1]。通過利用本體架構(gòu)對物聯(lián)網(wǎng)數(shù)據(jù)屬性語義標(biāo)注,在本體服務(wù)器端運(yùn)行MYsoL數(shù)據(jù)庫和Perl腳本,將元數(shù)據(jù)與數(shù)據(jù)信息抽象出來,使得數(shù)據(jù)屬性獨(dú)立于具體應(yīng)用而存在。
根據(jù)物聯(lián)網(wǎng)傳感數(shù)據(jù)的特點(diǎn),可知按照數(shù)據(jù)變化能夠分為動態(tài)和靜態(tài)這兩種屬性。動態(tài)屬性是由于傳感設(shè)備不斷采集和數(shù)據(jù)信息實(shí)時變化而產(chǎn)生的,如采集能源類設(shè)備。靜態(tài)屬性是由傳感設(shè)備不斷采集而數(shù)據(jù)信息幾乎不變化的屬性,如RFID。針對物聯(lián)網(wǎng)傳感數(shù)據(jù)這一特點(diǎn)對數(shù)據(jù)屬性采用人工標(biāo)注,可以對數(shù)據(jù)的靜態(tài)屬性能夠較為精準(zhǔn)的判別,但是對于不斷實(shí)時變化動態(tài)屬性人工標(biāo)注就比較費(fèi)力,不能及時的滿足數(shù)據(jù)標(biāo)注需求。
采用自動半自動對物聯(lián)網(wǎng)的傳感數(shù)據(jù)進(jìn)行標(biāo)注,雖然數(shù)據(jù)標(biāo)注的靜態(tài)屬性準(zhǔn)確率沒有人工的準(zhǔn)確率高,對于實(shí)時變化的動態(tài)屬性可以采用機(jī)器進(jìn)行語義標(biāo)注減少人工標(biāo)注的工作量,增加了工作效率。采用全自動的語義標(biāo)注手段,能夠更加及時和有效率地完成,同時人工參與的工作量也大大地減少。僅針對物聯(lián)網(wǎng)的傳感數(shù)據(jù)相比較半自動標(biāo)注來說,自動標(biāo)準(zhǔn)的及時性和有效性較高一些。
4 結(jié)束語
這篇論文介紹了一種基于物聯(lián)網(wǎng)數(shù)據(jù)屬性的語義標(biāo)注方法,目前比較常見的語義標(biāo)注方法就是手動、半自動和自動。通過對設(shè)備信息的有效語義化標(biāo)注,能夠?qū)崿F(xiàn)不同設(shè)備的數(shù)據(jù)屬性進(jìn)行統(tǒng)一化描述,同時使得數(shù)據(jù)模式變得更為靈活。對于數(shù)據(jù)信息的標(biāo)注不僅能夠清晰的表達(dá)數(shù)據(jù)的物理意義和提升數(shù)據(jù)的價值,而且方便計算機(jī)對數(shù)據(jù)的深入理解和智能化的操作,為物聯(lián)網(wǎng)領(lǐng)域異構(gòu)資源的融合共享和交互協(xié)提供了有力的技術(shù)支撐。根據(jù)語義標(biāo)注的方法特點(diǎn),針對物聯(lián)網(wǎng)的傳感數(shù)據(jù)特點(diǎn),提出了一種自動和手動相結(jié)合的語義標(biāo)注設(shè)想,對于數(shù)據(jù)的靜態(tài)屬性采用人工標(biāo)注,對于數(shù)據(jù)的動態(tài)屬性采用自動標(biāo)注。但是手動標(biāo)注和自動標(biāo)注相結(jié)合的方法對于物聯(lián)網(wǎng)的工作效率和準(zhǔn)確率是否能夠提高,還有待進(jìn)一步的研究。如果可行既可以提高準(zhǔn)確率,也能相對地減少人工的工作量,對于動態(tài)數(shù)據(jù)也能及時標(biāo)注。
參考文獻(xiàn):
[1]施昭,劉陽,曾鵬,等,面向物聯(lián)網(wǎng)的傳感數(shù)據(jù)屬性語義化標(biāo)注方法[J].中國科學(xué):信息科學(xué),2015,45(6):739-751.
[2]陳葉旺,李文,彭鑫.基于本體的文檔語義標(biāo)注改進(jìn)方法[J].東南大學(xué)學(xué)報:自然科學(xué)版,2009(6):1109-1113.
[3]傅柱.語義標(biāo)注研究綜述[J].圖書館學(xué)研究,2016(4):10-17.
[4]時念云,楊晨,基于領(lǐng)域本體的語義標(biāo)注方法研究[J].計算機(jī)工程與設(shè)計,2007,28(24):5985-5987.
[5]鄒亮,廖述梅.基于本體的語義標(biāo)注工具比較與分析[J].計算機(jī)應(yīng)用,2004,24(s1):328-330.
【通聯(lián)編輯:代影】
收稿日期:2019-08-29
作者簡介:劉玉翠(1994-),女,河北張家口人,河北科技大學(xué)信息科學(xué)與工程學(xué)院計算機(jī)技術(shù)專業(yè),碩士,研究方向?yàn)橛嬎銠C(jī)應(yīng)用與物聯(lián)網(wǎng);高鴻斌(1964-),男,河北高碑店人,河北科技大學(xué)信息科學(xué)與工程學(xué)院計算機(jī)技術(shù)專業(yè),教授,碩士,研究方向?yàn)橛嬎銠C(jī)應(yīng)用與物聯(lián)網(wǎng)。