国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語義詞庫關(guān)聯(lián)的藏文Web語義檢索系統(tǒng)研究與實現(xiàn)

2015-12-14 09:40:02高紅梅魏西峰王崧華扎西
關(guān)鍵詞:藏文知識庫網(wǎng)頁

高紅梅魏西峰王崧華扎西

(西藏大學(xué)藏文信息技術(shù)研究中心西藏拉薩850000)

語義詞庫關(guān)聯(lián)的藏文Web語義檢索系統(tǒng)研究與實現(xiàn)

高紅梅魏西峰王崧華扎西

(西藏大學(xué)藏文信息技術(shù)研究中心西藏拉薩850000)

文章依據(jù)所抓取的大量藏文網(wǎng)頁URL,對相關(guān)的藏文信息網(wǎng)頁進行除噪去重處理,得到較為完善的藏文信息庫。對用戶要查詢的藏文信息進行預(yù)處理和藏文語義標(biāo)注,通過基于本體的詞匯相關(guān)性算法,擴展藏文的查詢詞匯,建立一對多的藏語詞匯聯(lián)系,從而實現(xiàn)藏文查詢中的相關(guān)性檢索,得到更加符合用戶需求的語義關(guān)聯(lián)網(wǎng)頁信息。

藏文網(wǎng)頁;信息庫;藏文語義相關(guān);藏文語義擴展

引言

艾瑞報告顯示,2015年第一季度,中國搜索引擎市場規(guī)模達到156.4億元,同比增長34.6%,同比增速較上季度下降10.6個百分點[1]。雖然移動互聯(lián)網(wǎng)發(fā)展如火如荼,但是傳統(tǒng)互聯(lián)網(wǎng)依舊是市場的主流。隨著藏文信息處理技術(shù)的發(fā)展,使用藏文網(wǎng)頁的人群也越來越多,覆蓋區(qū)域越來越廣。Google和微軟等公司都在藏文檢索方面有所研究,但目前還都是基于關(guān)鍵字的搜索應(yīng)用,準(zhǔn)確率與查全率都不盡人意。

目前,國內(nèi)藏文搜索研究還處于摸索期,海南藏族自治州藏文信息技術(shù)研究中心以青海湖藏漢文網(wǎng)站為平臺,于2013年4月正式啟動了藏文搜索引擎系統(tǒng)的開發(fā),但至今仍未投入使用。同時,很多研究機構(gòu)開始進行藏文語義搜索研究。本文通過構(gòu)建語義知識庫實現(xiàn)藏文語義檢索來完善當(dāng)前藏文檢索方式的不足,使檢索系統(tǒng)能自動“聯(lián)想”到與其同義或者近意的詞,提高信息匹配的準(zhǔn)確度,達到提高檢索系統(tǒng)整體性能的目的。

1 藏文網(wǎng)頁抓取預(yù)處理

1.1 藏文分詞

藏文字為拼音文字的印度字體體系,每一組單音節(jié)藏文字符串代表藏語中的一個音節(jié),每個音節(jié)代表藏語中的一個詞或詞素[2],每個藏語句子由音節(jié)字構(gòu)成,每個音節(jié)字又由音節(jié)點或其它符號隔開。目前,西藏大學(xué)、中科院、青海民族大學(xué)等多家高校和研究機構(gòu)根據(jù)藏文語言文字的特性,進行了多種規(guī)則研究和統(tǒng)計研究,各有側(cè)重點,但沒有形成規(guī)模的藏文分詞系統(tǒng)。因此,本文仍采用基于詞典的最大匹配法進行分詞。

1.2 藏文網(wǎng)頁除噪去重

網(wǎng)址庫抓取的藏文網(wǎng)頁包含多種噪聲信息,如廣告、版權(quán)、導(dǎo)航條、網(wǎng)站目錄等,可以通過去掉HTML文檔中的修飾標(biāo)簽、去掉網(wǎng)址中包含的“?”、“#”、“=”、“(”等鏈接,或者去掉藏文文本中包含等鏈接的方式去噪。由于下載的網(wǎng)頁重復(fù)率較高,會使檢索的網(wǎng)頁數(shù)據(jù)量異常龐大和冗余,因此還需對除噪后的網(wǎng)頁進行去重處理。通過對下載的300多篇藏文網(wǎng)頁信息進行分析后發(fā)現(xiàn),目前網(wǎng)頁重復(fù)現(xiàn)象主要表現(xiàn)為完全重復(fù)和近似重復(fù)兩種情況。前者稱為鏡像網(wǎng)頁,可用“If URL(P1)≠URL(P2)and Tit le(P1)=Tit le(P2)”語句直觀判斷,如果為真,比較文檔首行和最后一行,若判斷相同放棄;后者用MD5算法為每個文檔計算出一組摘要,如果網(wǎng)頁P1和P2計算出的摘要滿足判定條件,則可判斷網(wǎng)頁信息內(nèi)容部分重復(fù),不再進行保存和處理。

2 藏文語義關(guān)聯(lián)分析

2.1 藏文語義檢索模型

信息檢索是根據(jù)用戶檢索請求,從大量信息源中找出滿足請求的信息,將結(jié)果按照用戶檢索詞的相關(guān)性大小進行排序后反饋給用戶。如果對已經(jīng)存在的大量信息源不做任何處理,檢索效率會降低。對文本進行預(yù)處理,才能達到提高檢索效率的目的,使用戶搜索出的信息更加有用。

劃分信息檢索模型一般有3種依據(jù):表示文本和查詢、判斷查詢內(nèi)容與資源相關(guān)以及計算相似度。信息檢索分為數(shù)據(jù)檢索、全文檢索和語義檢索3種,其中較為常用的是數(shù)據(jù)檢索和全文檢索,而語義檢索難度較大[3]。

本文從文本信息中提取出有用信息文檔是預(yù)處理的目的,根據(jù)領(lǐng)域知識建立文本的詞匯與概念之間的映射關(guān)系,將非結(jié)構(gòu)化的文本信息與結(jié)構(gòu)化的領(lǐng)域知識建立關(guān)聯(lián),從而利用結(jié)構(gòu)化的知識來協(xié)助檢索非結(jié)構(gòu)化的文本信息,處理過程見圖1。

2.2 藏文文本語義映射構(gòu)建

如圖2所示,將已經(jīng)下載的網(wǎng)頁信息保存為text文檔格式,分析網(wǎng)頁并判斷出符合要求的藏文信息,提取出網(wǎng)頁的鏈接和文檔藏文標(biāo)題,并同時用“主要內(nèi)容”、“關(guān)鍵詞”、“高頻詞”和其他與文本內(nèi)容有關(guān)的藏文詞匯對文檔進行修飾,建立一對多的相關(guān)性文檔匹配庫,將文檔直接抽象成藏文詞匯。形成文本內(nèi)容語匯關(guān)聯(lián),生成Web頁碼入口的索引。

那天,我們一進屋,就見炕沿上坐著一位身材苗條,衣著講究,模樣漂亮的姑娘,瞇著好看的大眼睛向我們直笑。霎時,我們就像進了老師的辦公室,規(guī)規(guī)矩矩地總想往別人后面站。

圖1 文本處理過程

圖2 藏文索引文檔保存流程圖

2.3 文本語義提取

表1 藏語詞匯關(guān)聯(lián)庫

表1顯示,通過分析文檔內(nèi)容的藏語特征詞匯,通常為文本標(biāo)題詞匯、關(guān)鍵字、高頻詞和其他補充信息詞匯等,構(gòu)建藏語詞匯與文檔語義之間的映射關(guān)系。實驗對400多名有藏文搜索體驗的用戶進行調(diào)查發(fā)現(xiàn),對檢索結(jié)果中標(biāo)題相關(guān)的關(guān)注率為64.4%、對關(guān)鍵字的關(guān)注率為40.2%、對高頻詞的關(guān)注率為32.7%、其補充信息諸如體裁、文體格式等的關(guān)注率為20.9%。給以上數(shù)據(jù)不同的權(quán)重值,使文檔與詞匯有明確的數(shù)量級關(guān)系,再分析知識庫中詞匯的語義,評價其是否存在于已經(jīng)抽取的特征詞匯中。若存在,將包含該語義的文檔以及權(quán)值一并標(biāo)在該語義旁,達到將文檔和知識庫關(guān)聯(lián)起來的目的,即用詞匯表現(xiàn)出文檔隱含的語義信息。表2為圖2中下載保存文檔提取的主題詞、高頻詞、格式和內(nèi)容等詞匯和URL的映射關(guān)系。檢索詞匯時可以先通過表1拓展查詢范圍,再和表2進行關(guān)聯(lián),就可以得到更多的地址值,起到增加查詢范圍的目的。

2.4 語義知識庫的構(gòu)建

在檢索中,以某一領(lǐng)域的知識體系為基礎(chǔ),形成該領(lǐng)域所有知識的信息庫,對信息庫中的信息進行邏輯推理和分析,構(gòu)建信息的組織體系和對文檔進行語義標(biāo)注,可以從語義上理解用戶的查詢目的,從而實

現(xiàn)語義層面的信息檢索[4]。對藏文文本建立基于概念的索引,本質(zhì)上是在對藏文文本內(nèi)容特征提取的基礎(chǔ)上生成索引,其目的是要在索引中反映出文本標(biāo)引詞之間的內(nèi)在聯(lián)系?;诟拍畹乃饕绞绞峭ㄟ^將每一個詞匯庫內(nèi)的藏文詞匯進行語義分析,對同義詞或近義詞進行線性相關(guān)的連接,使藏文詞匯之間產(chǎn)生聯(lián)系,起到“舉一反三”的效果,從而使詞庫中的藏文詞匯與之前沒有任何聯(lián)系的藏文文本之間建立關(guān)系。如圖3“日喀則”概念實體舉例中,需要先創(chuàng)建地區(qū)類,其中包括特色旅游、交通方式和所屬縣等,然后再創(chuàng)建日喀則對象,對其定義相關(guān)內(nèi)容進行使用,實現(xiàn)對象實例化。

表2 URL映射關(guān)系庫

圖3 語義知識庫

3 基于領(lǐng)域知識庫的藏文文檔檢索

圖4為藏文相關(guān)性檢索流程圖,通過對輸入的檢索詞進行分詞處理后,首選先判斷是否有檢索結(jié)果,沒有則改變檢索條件再次進行匹配。在有檢索結(jié)果的情況下通過詞匯關(guān)聯(lián)和語義知識庫關(guān)聯(lián),把檢索結(jié)果進行相似度計算,最后得出顯示結(jié)果。

3.1 檢索信息詞匯處理

用戶先在已有的檢索界面輸入目標(biāo)藏文檢索詞或語句,然后對檢索信息進行分詞,去掉藏文文本中的虛詞,僅取有實際意義的詞或詞組。如果條件允許,還可對文本信息進行情感分析。選擇索引項,確定可用作索引元素的詞(詞干、詞組),獲得能正確表達藏文文本內(nèi)容的概念性詞或詞組。如在句子中和是問句中的主要信息,其他均為虛詞,在處理過程中,可以去除這些對用戶目的無影響的無關(guān)因素,留下有實際意義的藏文詞匯作為查詢詞傳遞給查詢轉(zhuǎn)換模塊。然后在已有的語義表中查找出相應(yīng)的詞匯概念,若藏文詞庫中找不到的概念詞進行保留操作,隨后反饋給用戶,讓用戶及時調(diào)整檢索策略,重新定義目標(biāo)詞。

圖4 藏文相關(guān)性檢索流程圖

3.2 詞匯關(guān)聯(lián)庫匹配

3.3 基于語義知識庫的藏文語義查詢擴展

在普通信息檢索中,經(jīng)常出現(xiàn)由于用戶所選擇的詞和文檔中出現(xiàn)的目標(biāo)詞不匹配或者匹配度不高等問題,導(dǎo)致了檢索效率低下乃至整個檢索失敗。在藏文信息檢索中,由于藏文網(wǎng)頁較少,用戶所選藏文詞匯與目標(biāo)藏文詞匯的匹配度更低,甚至?xí)霈F(xiàn)用戶搜索的藏文信息在信息庫中無法查詢的現(xiàn)象。在此情況下,查詢擴展技術(shù)(QueryExpansionTechnology)在原有查詢技術(shù)的基礎(chǔ)上增加了與用戶輸入的查詢詞相關(guān)聯(lián)的相關(guān)詞,使查詢信息的表達詞匯更長、更準(zhǔn)確,這樣可以在一定程度上彌補用戶查詢信息不足的缺陷。藏文查詢擴展技術(shù)借助如圖3所示的藏文語義知識庫及其推理機制,對用戶要查詢的藏文信息進行語義層次的不同方向的擴展,使檢索系統(tǒng)可以更好地分析出較完整的用戶查詢意圖,清楚用戶的查詢目標(biāo)。這樣將擴大檢索信息范圍,用戶更容易找到想要的目標(biāo)信息。

3.4 基于領(lǐng)域知識庫的藏文文本相似度計算方法

在藏文信息檢索的整個過程中,檢索系統(tǒng)首先要參照領(lǐng)域知識庫對用戶所輸入的藏文查詢信息進行預(yù)處理。在對輸入的藏文查詢信息預(yù)處理后,還要解決用戶查詢信息概念的“多義詞”,基本明確用戶的信息檢索意圖,結(jié)合概念在自然語言領(lǐng)域中的上下文語境,初步得出藏文語義信息。以為例,其近義詞為和通過概念在自然語言中的環(huán)境相似度,對詞匯與詞匯之間建立聯(lián)系。

但要解決藏文查詢信息中經(jīng)過預(yù)處理抽離出的藏文詞匯中的“多義詞”,對用戶查詢請求中的關(guān)鍵藏文詞匯進行語義擴展,仍需要借助藏文詞匯相關(guān)性和相似性的計算來處理。藏文語義擴展的主要依據(jù)即是藏文詞匯相似性和相關(guān)性,所以提高藏文詞匯間的相似度和相關(guān)度計算精度,就是藏文語義信息檢索的核心技術(shù)。

本文采用JaccardSimi larity方法計算文檔相似度。采用兩個文檔主題詞以及其相關(guān)的同義詞和近義詞集合的交集除以兩個集合的并集,得到的值即為兩個集合的相似度。

數(shù)學(xué)表達式是:s1={主題詞1U標(biāo)題1U關(guān)鍵詞1U其同義詞1U近義詞1}

S2={主題詞2U標(biāo)題2U關(guān)鍵詞2U其同義詞2U近義詞2}

Sim(s1,s2)=|s1∩s2|/|s1U s2

此方法容易實現(xiàn),計算結(jié)果按相似度從大到小進行排序,最后在用戶界面中顯示出查詢的排序結(jié)果,由用戶自行選擇需要的目標(biāo)結(jié)果。對匹配結(jié)果的排序并不是無休止的,對查詢結(jié)果的顯示進行閥值設(shè)定,只需對閥值以上的結(jié)果進行排序即可,閥值以下的目標(biāo)結(jié)果可理解為相關(guān)性極低或無相關(guān)性,對其不予處理。

4 結(jié)論

本文給出了一種的藏文語義檢索模式,在用戶對目標(biāo)信息進行描述后,通過對用戶輸入信息的判斷,將所得處理結(jié)果和領(lǐng)域知識庫內(nèi)的藏文詞匯進行匹配,并通過相似度計算,根據(jù)閥值篩選出滿足用戶需求的藏文網(wǎng)頁鏈接,點擊進入目標(biāo)頁面。與傳統(tǒng)的藏文檢索結(jié)果相比較,運用基于概念索引和基于領(lǐng)域知識庫查詢的檢索方式的查全率和查準(zhǔn)率均有所提高。

[1]張希,艾瑞:2015Q 1中國搜索引擎市場規(guī)模156.4億元[EB/OL][2015-11-10].http://report.iresearch.cn/htm l/20150515/ 250202.shtm l.

[2]劉濤,楊秀霞.中國多民族文字信息處理中的Unicode編程[J].計算機工程與設(shè)計,2006(6):2021-2025.

[3]毛會芳.基于本體的Web語義檢索方法的研究[D].廣州:華南理工大學(xué),2011:7-8.

[4]張健.BIM環(huán)境下基于建設(shè)領(lǐng)域本體的語義檢索研究[D].大連:大連理工大學(xué),2013:6-7.

[5]余傳明.語義檢索的原理及其實現(xiàn)[J].理論與探索,2007(2):182-183.

Research on Searching Tibetan W eb’Semantic related to Semantic Association Thesaurus

Gao Hong-mei WeiXi-feng Wang Song-hua Zha xi
(Research Centerof Tibetan Information Technology,TibetUniversity,Lhasa 850000,China)

Tibetan information pagewasmanipulated by de-noising and de-duplicating process to obtain an im?proved Tibetan information database based on the a large number of Tibetan web page URL grasped.Semantic tagging and preprocessing was conducted for the querying Tibetan information user wanted and association of one tomany Tibetan vocabularieswas established based on the running the vocabulary correlation algorithm,ex?tending the querying Tibetan words so as to realize the relevance of Tibetan query retrievaland to obtain related semanticweb information in linewith needsofuser.

Tibetanweb page;information library;Tibetan semantic relevancy;Tibetan semantic extension

10.16249/j.cnki.54-1034/c.2015.02.015

TP393.092

A

1005-5738(2015)02-090-06

[責(zé)任編輯:索郎桑姆]

2015-09-17

2014年度西藏大學(xué)國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目“藏文Web語義檢索的研究與實現(xiàn)”(項目號:201410694018);2013年度國家自然科學(xué)基金重點項目子課題“藏文詞法分析系統(tǒng)與輿情監(jiān)測知識庫構(gòu)建”(項目號:61331013);2013年度青年科研培育基金項目“西藏旅游目的地營銷系統(tǒng)運營模式研究”(項目號:ZDPJSK2013080)階段性成果。

高紅梅,女,漢族,四川樂山人,西藏大學(xué)藏文信息技術(shù)研究中心講師,主要研究方向為語義網(wǎng)。

猜你喜歡
藏文知識庫網(wǎng)頁
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
布達拉(2020年3期)2020-04-13 10:00:07
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
黑水城和額濟納出土藏文文獻簡介
西夏學(xué)(2019年1期)2019-02-10 06:22:34
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
藏文音節(jié)字的頻次統(tǒng)計
現(xiàn)代語境下的藏文報刊
新聞傳播(2016年17期)2016-07-19 10:12:05
高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
灌南县| 会宁县| 垣曲县| 禹州市| 龙游县| 沿河| 那曲县| 库车县| 兴安盟| 湄潭县| 勃利县| 涟源市| 新津县| 平乐县| 德令哈市| 武邑县| 乌兰县| 托里县| 临洮县| 津市市| 彭泽县| 台中县| 轮台县| 云阳县| 张家港市| 图片| 堆龙德庆县| 大渡口区| 密山市| 基隆市| 文登市| 库尔勒市| 漳平市| 佛山市| 墨脱县| 岳普湖县| 浙江省| 诸暨市| 镇赉县| 中超| 新营市|