国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于本體和語義標引的地質資料服務與管理研究

2018-03-02 19:45:14閆東王誠
軟件 2017年9期
關鍵詞:標引本體文檔

閆東+王誠

摘要:在信息化時代,高效地組織管理大量地質領域數據成為實現良好的地質資料服務與管理的關鍵所在。為解決我國地質資料標準化程度低及應用難度大等問題,本文提出了一種基于本體和語義標引的地質資料服務與管理方法。首先建立地質領域信息資源元數據模型和關聯(lián)關系模型;并根據關聯(lián)模型自動化構建計算機可讀的地質本體;采用基于地質本體的語義概念映射的方法將高維的詞語向量轉換到低維語義空間,加之詞頻、詞位置和詞跨度等權重因子的綜合作用,對地質資料文本進行精準快速有效的分類,實現文本的語義標引;最后根據地質本體和語義標引開展地質資料檢索試驗,試驗結果表明,查全率和查準率分別從75.7%和81.2%提高到80.7%和84.8%,檢索效果得到了明顯提升。因此,本文為地質資料的服務與管理模型設計與實現奠定了良好的基礎。

關鍵詞:計算機應用技術;知識服務;本體;語義標引理的趨勢。利用本體方法可以建立地質領域的知識脈絡,可以更好地繼承共享已有的知識;利用自動化標引可以有效組織地質專業(yè)資源,可以更有效地管理資源。因此,根據本體和文本自動標引技術可以實現良好的地質資料服務與管理,在此基礎上可進一步優(yōu)化地質資料檢索服務。本文提出的地質資料服務與管理框架主要包含四部分。

元數據關聯(lián)模型:元數據是描述數據的數據,根據文檔的元數據標簽,可建立資源之間的關聯(lián)關系模型。元數據的關聯(lián)關系可以是指同一文檔兩主體之間的“關聯(lián)關系”,也可以代表不同文檔的“關聯(lián)關系”,元數據關聯(lián)模型的設計是實現本體構建以及文本關聯(lián)關系的重要保障。

基于元數據關聯(lián)模型的本體構建:在本體中有等級、等同、相關等關系。而元數據模型的關聯(lián)關系恰好可以在文檔之間也建立起相應的關聯(lián)關系。而對于在同一元數據項有相同值的文檔,可以直接建立關聯(lián)關系,因此,基于元數據模型可以實現準確而快速的本體自動化構建。

基于本體映射的語義標引:利用面向自動標引應用的地質本體對詞向量進行降維,盡量達到詞與詞之間語義的正交性,降低特征詞之間的冗余度,實現地質資料分本的正確分類,為地質資料服務與管理奠定基礎。

基于本體和語義標引的服務與管理:地質資料服務的主要是依賴于語義網技術實現的各種服務,如檢索、關聯(lián)、推薦等;地質資料管理的則是實現知識的搜集、存儲和組織。通過本體與語義標引技術可有效提高地質資料的服務效果和管理效率。

2 地質資料服務與管理設計與實現

2.1 元數據關聯(lián)模型

針對地質資料中的文檔資源建立元數據模型,通過元數據描述文本信息,并根據文檔的元數據標簽,建立資源之間的關聯(lián)關系模型。見表1。

2.2 基于元數據模型構建本體

自動構建本體是基于自然語言分析和基于統(tǒng)計的機器學習方法抽取文檔中的概念和關系,自動本體。自動構建本體的方法是當前的研究熱點和難點。確定資源本體庫的結構、概念、概念間關系、實例關系。在這里概念實際上是指館藏目錄資源和用戶信息的元數據,而關系就是通過計量學方法得到的各個字段間關系。但由于在元數據庫中的所有概念和概念關系都是已經確定好的,無需專家再進行人工干預,完全可以計算機自動操作。

本文使用OWL(Web Ontology Language)進行本體的白動化描述,OWL是從RDF(ResourceDescription Framework)上發(fā)展起來的本體描述語言,是一種標準的描述本體的類、概念及概念間關系的描述語言,也是目前應用最多的本體語義化描述方式‘5]。

在本體描述中,存在一定量的同義詞或等價詞,即等同關系。用“”標簽來描述這種關系。所以在對OWL文件進行解析推理時,就可以首先鎖定關鍵詞“”,然后再根據具體的進行具體等同關系的解析及推理;等級關系指的是概念之間的上下位關系,并且是廣義的上下位關系,可以包含多層次的層級關系。在OWL中,用標簽“”來表示等級關系。同時值得說明的是,在本體中等級關系具有傳遞性,如果A是B的父類,B又是C的父子類,則A也是C的父類;相關關系是一種比較籠統(tǒng)的說法,相關關系可以細化為很多種,可以是屬性相關、物理相關、空間相關等??梢允褂脴撕灐?annotationassertion>” 或者“”進行相關關系描述。

最終,使用OWL將元數據關聯(lián)模型中的數據轉化為本體,含有概念4651個,概念間的關系25527條,其中等同關系4943條,等級關系13786條和相關關系6798條。

2.3基于本體映射的語義標引

影響地質資料檢索服務效果的主要原因有兩個:第一,檢索詞單一,僅僅依靠關鍵詞的匹配大大降低了檢索效果;第二,地質資料分類不準確,單一的使用題目中的主題詞作為分類標準,無法實現真正的本文分類。2.2節(jié)所述的本體能夠很好的解決檢索詞單一問題。接下來本文提出一種基于本體映射的文本語義標引技術,能夠很好的解決地質資料分類不準確問題。

(1)文本預處理

本文使用的是中科院的開源分詞系統(tǒng)實現的文本預處理,去除停用詞、時間、副詞等無用詞匯,預處理過程中盡量保留能夠顯示文本特征的詞匯。

(2)基于詞權重的文本特征選擇

通常的文本特征選擇使用的是公式TF*IDF,TF是詞語在文檔中出現的頻率,IDF是出現該詞的文檔的倒頻率。本研究使用TW方法代替TF計算文本特征權重,詞Vi-文檔Dj權重Wi,j的計算公式為:

其中,Ni是與詞Vi相關的文檔的個數;/D/是全部文檔數。

TW對詞頻、詞位置和詞跨進行綜合評估,比單純的詞頻TF更能反映詞對文本主題的重要性。TW的計算公式為:

TW=TF×LOC×SPAN

TF為詞頻因子,詞i在文檔d中的TFi,d,計算公式為:

Fre是詞i在文檔d中出現的頻數,MAXj(Frejd)是文檔d中jL}{現頻數最高的詞的頻數。

LOC為位置因子,出現在標題、摘要的詞一般更能反映文本的主題,將不同位置出現的詞賦予不同的權重值。出現在標題、摘要、正文三處不同區(qū)域的詞語,其位置值分別設為60、30和10。

SPAN為詞跨因子,詞跨度是指詞在文中首次出現和末次出現之間的距離,一般詞跨度越大(即在開篇和結論都使用該詞)對文本的主題就越重要。

其中,las為詞Vi在文中最后一次出現的序號,fir為詞Vi在文中首次出現的序號,sum為經分詞計算后的文本分詞總數。

(3)基于本體映射的語義標引

利用面向自動標引應用的地質本體對詞向量進行降維,盡量達到詞與詞之間語義的正交性。這里的降維主要使用本體的層級關系和等同關系。例如:“頁巖氣、致密氣層氣、Shale gas”都可以用“頁巖氣”代替,這屬于同等詞的映射降維;“伴生氣、低硫氣、火山氣”都可以用“天然氣”代替,這屬于等級詞的映射降維;語義映射增大了與類別的語義關聯(lián)強的詞匯的權重;將同義詞、近義詞、相關詞用一個詞語表示,同時累積權重;將分散的底層概念映射到較高層概念,權重累加到高層概念詞匯,高層概念能概括文本主題。

2.4 基于本體和文本標引的地質資料服務與管理

2.4.1 本體的解析與推理

為了完成基于本體的地質資料服務與管理,必須實現基于本體的推理解析工作。OWL是一種很好的描述本體語言,但本身并不具備任何推理和計算能力,因此,為實現基于本體的語義檢索,必須對OWL文件進行相應的推理解析,導出本體中存在的知識,滿足對檢索條件的擴展和推送。本文采用的方法是將OWL解析為XML文件,由于OWL是在XML基礎上發(fā)展而來,因此轉換起來相對方便,且方便保留原始特性。

圖1所展示的是將OWL文件解析為XML文件之后,將其發(fā)布為Web Service。發(fā)布后,可以通過訪問服務地址發(fā)出查詢請求,在輸入參數,完成查詢偏好設置。參數的主要作用是提供多種查詢條件,即不同參數值表示返回等同詞、上位詞、下位詞、相關詞等內容,能夠保障用戶按照自己的偏好進行檢索。

2.4.2 基于本體和語義標引的檢索原型

如圖2所示,當用戶輸入檢索詞后,推理引擎根據本體對檢索詞進行擴展,檢索詞擴展的方式非常靈活,可以選擇等同詞與原來的檢索詞組合成新的查詢條件,或者將原檢索詞的等級詞或者相關詞一并解析出來組合新的查詢條件,并且與已經被語義標引過的地質資料庫進行匹配,匹配成功后完成一次完整的語義檢索。與此同時,推理引擎還將與檢索詞有關的詞動態(tài)地生成一組超鏈接,這種超鏈接能夠為用戶提供更多感興趣的檢索推薦。同時,為了提高系統(tǒng)的靈活性,用戶還可以在Web Service接口服務中根據自己的檢索習慣來輸入相應參數,如是否返回檢索詞的英文詞、等級詞和相關詞等,從而方便用戶更快速地獲取檢索結果。

通過對于同義詞(等同關系)的返回,能夠提高檢索的命中率,即實現了檢索詞的有效擴展,相比于模糊匹配,又能夠有效控制擴展詞的數量,達到最高效的檢索模式。

對于智能導航的生成(等級關系和相關關系),能夠有針對性的給出用戶分類推送列表,可以使用戶快速的獲取檢索資源的相關知識。

對于Web Service參數設置,可以滿足用戶根據自己的檢索習慣和檢索需要進行個性化的設置,以更適合的方式進行檢索。

3 實驗分析

本次基于本體和語義標引的檢索試驗采用查準率(P)、查全率(R)和F值作為評測標準。使用1000檔地質資料進行測試。評測標準計算公式如下。

由表2可以看出,在使用本體和語義標引后,查全率和查準率得到了明顯提升。同時值得提出的是,檢索結果受檢索系統(tǒng)的檢索方式影響,本文主要是借助現有的檢索系統(tǒng)實現的檢索試驗,因此在檢索結果上會收到諸多限制。

4 總結

基于元數據關聯(lián)模型的本體構建既能夠使人從繁重的本體手工構建中解脫出來,又能夠提高本體構建質量和效率;而基于本體映射的文本自動標引方法,利用本體概念的層級關系映射,有效降低了文本的特征數量,快速準確地為文本標注了語義標簽。由試驗結果可知,結合本體和語義標引后的檢索系統(tǒng)所能夠提供的服務與管理明顯優(yōu)于傳統(tǒng)系統(tǒng)。因此,本文為地質資料的服務與管理模型奠定了良好的基礎。endprint

猜你喜歡
標引本體文檔
Abstracts and Key Words
哲學分析(2023年4期)2023-12-21 05:30:27
有人一聲不吭向你扔了個文檔
對姜夔自度曲音樂本體的現代解讀
中國音樂學(2020年4期)2020-12-25 02:58:06
檔案主題標引與分類標引的比較分析
本刊對來稿中關鍵詞標引的要求
基于RI碼計算的Word復制文檔鑒別
本刊對來稿中關鍵詞標引的要求
《我應該感到自豪才對》的本體性教學內容及啟示
文學教育(2016年27期)2016-02-28 02:35:15
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
北海市| 四川省| 策勒县| 绥中县| 庆元县| 辽中县| 汾西县| 侯马市| 龙川县| 黄陵县| 石城县| 家居| 苍梧县| 永济市| 青川县| 洛浦县| 类乌齐县| 克什克腾旗| 华坪县| 玛曲县| 宁强县| 嘉义县| 泾源县| 米泉市| 长武县| 扶绥县| 德州市| 龙海市| 莲花县| 伊通| 东山县| 华亭县| 五常市| 黄平县| 灌云县| 临沧市| 东阳市| 昭通市| 商洛市| 绿春县| 巧家县|