国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識庫的藏文問答系統(tǒng)研究

2015-06-23 16:28:43孫浩蒸于洪志
關鍵詞:藏文分詞知識庫

孫浩蒸,于洪志,蘇 敏

( 西北民族大學,中國民族信息技術研究院,甘肅蘭州730030)

基于知識庫的藏文問答系統(tǒng)研究

孫浩蒸,于洪志,蘇 敏

( 西北民族大學,中國民族信息技術研究院,甘肅蘭州730030)

隨著數(shù)據信息的海量增長,人們迫切需要在海量的數(shù)據中精準獲取有用信息,為了解決這個問題,問答系統(tǒng)應運而生.現(xiàn)今,英文問答系統(tǒng)及中文問答系統(tǒng)取得了顯著成績,但藏文問答系統(tǒng)卻鮮有人問津.作為一個多民族的國家,伴隨信息化的高速前行,藏文問答系統(tǒng)的研究勢在必行.文章通過對現(xiàn)有藏文分詞、信息檢索等技術分析,借用中英文問答系統(tǒng)成熟的模式,結合藏語語法的特殊性質,對基于FAQ庫的藏文問答系統(tǒng)的構建進行分析研究.

問答系統(tǒng);藏文問答系統(tǒng);藏文分詞;信息檢索;FAQ

0 引言

進入21世紀,數(shù)據信息已經呈海量態(tài)勢發(fā)展,人們對于信息的獲取需要更加精準的方式.問答系統(tǒng)能夠有效地緩解數(shù)據驟增帶來的獲取信息效率低下問題.以英文為首的各語言問答系統(tǒng)不斷更新發(fā)展.現(xiàn)今,英文、中文等語言的問答系統(tǒng)已經取得了顯著的成績,并且在實際的生活中得到了廣泛的應用.但是對于藏文等民族語的問答系統(tǒng)卻少有人問津,這與民族語言的特殊性有一定的關系.

近些年,隨著計算機的普及,相關的藏文數(shù)據信息不斷增加,藏族人民對信息獲取的需要不斷的增強,針對藏族語言的問答系統(tǒng)建設勢在必行.本文在英文及中文問答系統(tǒng)的基礎上,結合傳統(tǒng)的藏文分詞等技術,根據藏文特有的語法特征進行研究.

1 相關研究

英文問答系統(tǒng)出現(xiàn)時間較早,就在上世紀60年代人工智能研究初期,人們就提出利用自然語言來回答問題的設想,那便是問答系統(tǒng)的雛形.問答系統(tǒng)的快速發(fā)展主要取決于面對海量的數(shù)據信息,人們需要快速、準確獲取信息.

中文問答系統(tǒng)較英文等問答系統(tǒng)發(fā)展較晚[1].相比而言,國內問答系統(tǒng)的研究無論是在技術水平上還是應用規(guī)模上都有不小的差距[2].但在國內,許多科研機構和單位都投入了相當大的精力,也開發(fā)出了一批成熟的中文問答系統(tǒng).藏文問答系統(tǒng)的建立是文化發(fā)展的需要,是大數(shù)據信息時代發(fā)展的趨勢,會成為藏族人民生活中重要的工具.由于藏文存在語法特殊性,藏文問答系統(tǒng)的研究將會是一個長期的過程,藏文問答系統(tǒng)作為民族語言處理領域中重要的一項技術,倍受關注并且有巨大的發(fā)展前景.

2 系統(tǒng)構建

現(xiàn)有的問答系統(tǒng)可以從形式上分為以下幾類[3]:聊天機器人、問答式檢索系統(tǒng)、基于自由文本的問答系統(tǒng)和基于知識庫的問答系統(tǒng).

聊天機器人能夠讓交互交流變得更加方便和人性化.但是聊天機器人基于設定好的程序,在交互過程中,完全依賴于簡單的模式匹配、談話技巧和聊天技巧進行交流[4].

問答檢索系統(tǒng)[5]依據用戶輸入的問題,對文檔或網頁進行檢索,把檢索出的文檔或網頁返回.這類問答系統(tǒng)主要稱作智能搜索引擎,不能稱為嚴格意義上的問答系統(tǒng).

基于自由文本的問答系統(tǒng)現(xiàn)已經在各語言的問答系統(tǒng)中得到廣泛的應用,但對于藏文而言,現(xiàn)有的藏文文檔集和藏文網站還相當有限,還不能完全為問答系統(tǒng)提供強大的數(shù)據支持.

基于知識庫的問答系統(tǒng)通過一個或多個知識庫提供數(shù)據源,知識庫的建設可以面向受限領域.對于知識庫范圍內的問題,系統(tǒng)回答的準確率非常高.本文主要研究以知識庫為基礎的藏文問答系統(tǒng).

圖1 問答系統(tǒng)體系結構

藏文問答系統(tǒng)可以借鑒英漢問答系統(tǒng)模式,分為三個核心部分,即藏文問題理解、藏文信息檢索、藏文答案抽取.

圖2 問答系統(tǒng)核心模塊

在系統(tǒng)構建過程中本文根據以上三個核心模塊對系統(tǒng)進行建設.提供數(shù)據支持的知識庫設定為受限領域的常用問題集.

2.1 問題理解

2.1.1 藏文分詞

藏文是一種拼音文字,有30個輔音字母和4個元音字母組成音節(jié),由音節(jié)構成詞.藏文同中文同屬漢藏語系,藏文分詞同中文分詞在自然語言處理領域具有相同的地位,他們在語句構成上并沒有像英文那樣以空格來切分詞語.因此,中文和藏文的處理,首先要進行分詞.藏文詞匯存在口語話等特征也會對分詞產生影響,這些因素決定了藏文分詞的特殊性.本文采用西北民族大學祁坤鈺教授研究的藏文分詞法進行分詞[6].

2.1.2 去停用詞

藏文和中文一樣,在自然語句中不乏大量的無實際意義的詞或符號以及虛詞、助詞等.在成熟的中文問答系統(tǒng)中對停用詞處理的方法一般基于停用詞表進行去停用詞.停用詞表包含部分藏語停用詞和借用中文的標點符號(如:. ! ? 《 》)以及部分虛詞[7]、助詞.通過對用戶問句分詞后查詢停用詞表,判斷分詞是否在停用詞表中,進而決定分詞的保留或丟棄.停用詞在系統(tǒng)中也起到相當重要的作用,停用詞的處理可以提升系統(tǒng)檢索效率,提高系統(tǒng)返回的準確度.

圖3 系統(tǒng)框架圖

2.1.3 同義詞擴展

藻飾詞是一種藏文詞匯的特殊的語言表達形式[8],有好幾個詞可選擇用于表達一個概念,這就有可能把思想感情表達得更加確切、細致,并可避免用詞重復[9],類似中文中的同義詞.在中文問答系統(tǒng)中涉及到同義詞的擴展,例如(計算機和電腦同義),藏文問答系統(tǒng)可以借鑒西北民族大學研究生扎西草[10]研究的藏語藻飾詞信息庫構建方法進行同義詞庫的建設.同義詞的擴展有助于系統(tǒng)對信息的識別和提取.構造的同義詞詞庫等輔助詞庫,或者是從語料庫中提取的同義詞,系統(tǒng)在檢索時通過對同義或者意思相近的詞處理,從而提高系統(tǒng)檢索準確度和整體性能[11].

表1 停用詞表

2.1.4 問句類型分析

表2 擴展詞示例

表3 常用疑問詞

2.2 信息檢索

對于信息檢索部分, 最簡單的方法是去掉問題中的停用詞和問句相關的詞(如疑問詞)生成查詢,然后利用已有的檢索模型進行檢索, 把返回的結果作為答案提取部分的輸入[14].

信息檢索主要基于檢索模型,常用的信息檢索模型一般分為四類:布爾模型、模糊邏輯模型、向量模型及概率模型.實驗發(fā)現(xiàn)在文檔檢索中, 簡單的布爾模型、概率模型與改進的向量空間模型的效果相當[12~13].

本文將采用向量模型[14]對藏文問答系統(tǒng)進行研究.

向量空間模型的基本思想是以詞為特征項,用向量來代表文本.如果庫中句子包含所有的詞為w1,w2,…wn,則庫中每一個句子都可用一個n維向量T=來表示,其中Ti(1≤i≤n)的計算方法為:設n為wi在句子中出現(xiàn)的個數(shù),m為庫中含有wi的問句的個數(shù),M為庫中問句的總數(shù),其中,Ti=n×log(M/m).而且,我們可以計算目標問句的n維向量T'=.T和T'對應的兩個句子之間的相似度就可以利用T和T'這兩個向量之間夾角的余弦值來表示,公式表示為:

(公式1)

公式所求相似度為兩個問句向量的余弦夾角.本方法只要考慮詞語在問句中出現(xiàn)的次數(shù),不需要對文本內容做深層理解.

2.3 答案抽取

在選取候選答案中挑選出與目標最相似的問句返回給用戶.候選答案相似度的計算基于語義框架匹配,詞匯語義相似度計算采用計算語義相似度的計算方法[15],對于兩個詞U、V,如果U有a個詞義U1…Ua,V有b個詞義V1…Vb.U和V的相似度是每個詞義之間相似度的最大值:

(公式2)

通過計算得到相似度值最大的候選答案,把此答案作為最優(yōu)答案返回給用戶.

2.4 數(shù)據庫建設

本文系統(tǒng)的設計是基于受限領域知識庫的問答系統(tǒng),所以檢索和抽取都依賴于知識庫來完成.構建過程中數(shù)據的提供通常有多個數(shù)據庫完成,如:歷史問題庫、常用詞庫、領域知識庫.

表4 藏文問答系統(tǒng)中數(shù)據庫分類

歷史問題庫的建立是為了避免同樣的問題進行重復的問答檢索,對已經問過的問題放入歷史問題庫.用戶進行問題輸入后,首先會在歷史問題庫中進行模糊匹配,如果有相符記錄則返回答案,如果沒有相符記錄則進行知識庫檢索.

常用詞庫分別存放藏文停用詞表、擴展詞表、常用疑問詞表.在問題理解模塊對通用庫進行調用.

知識庫建立過程中,主要內容是面向受限領域的問題集.領域知識庫的建立好壞直接影響系統(tǒng)性能的好壞.所以在知識庫構建時要做到分類清晰、層次分明.

3 評價指標

通常問答系統(tǒng)需要一個評價機制來衡量它的性能,目前國際上對英文問答系統(tǒng)已有統(tǒng)一的評測機制,中文問答系統(tǒng)還沒有既定的標準,民族語問答系統(tǒng)在這方面更是欠缺.為了準確地評價系統(tǒng)的性能,本文采用召回率(R)、準確率(P)、F1值三個參數(shù)進行性能評測,評測結果F1值越大代表系統(tǒng)性能越好.公式如下:

(公式3)

(公式4)

(公式5)

4 結論

目前,藏文問答系統(tǒng)研究還處于初級階段,沒有成熟的民族語問答系統(tǒng)模式可以借鑒,只能借鑒成熟的中英文等問答系統(tǒng)模式.由于藏文本身所具有的特殊性,在藏文問答系統(tǒng)的構建不能完全地搬用成熟的中英文自然語言處理模式,所以對藏文問答系統(tǒng)的研究將會是一個長期的過程.

藏文信息處理過程中缺乏語言處理資源,知識庫的構建將會是一個重要的工作.由于現(xiàn)在還沒有成熟的知識庫可以借用,知識庫的搭建是一個長期的過程.本文主要是從基于FAQ庫的藏文問答系統(tǒng)的框架構建方式進行分析,下一步將會對相應的知識庫進行構建,并通過數(shù)據分析對系統(tǒng)構建方案進行評估.

問答系統(tǒng)作為目前最熱門的研究之一,眾多的企業(yè)和科研機構加入了研究的行列,在社會生活中也得到了一定的應用.伴隨信息化浪潮的推進,問答系統(tǒng)將會有更廣闊的前景.藏文問答系統(tǒng)雖然起步較晚,但是藏文問答系統(tǒng)有很多值得研究的地方,也將會有很好的前景.

[1] 張丹.受限領域問答系統(tǒng)的研究與設計[D].內蒙古大學,2012.

[2] 吳友政,趙軍, 段湘煜, 等. 問答式檢索技術及評測研究綜述 [J]. 中文信息學報, 2005, 19(3): 1-13.

[3] 楊建武.智能問答(QA)技術[R].北京大學計算機科學技術研究所,2007,8-13.

[4] Quarteroni, S. and S. Manandhar. A Chatbot-Based Interactive Question Answering System[J].In DECALOG'07, 2007.

[5] 王樹西.問答系統(tǒng):核心技術、發(fā)展趨勢[J].計算機工程與應用,2005,41(18).

[6] 祁坤鈺.信息處理用藏文自動分詞研究[J].西北民族大學學報(哲學社會科學版),2006,(4):92-97.

[7] 才讓三智.藏語虛詞知識庫構建研究[D].西北民族大學碩士研究生學位論文,2012.

[8] 張同玲,多杰卓瑪.藻飾詞語義網絡的構建研究[J]. 電腦開發(fā)與應用,2011,(24):25-27.

[9] 高丙辰.藏文藻飾詞淺說[J].民族語文,1980,44-52.

[10] 扎西草.藏文藻飾詞信息庫構建研究[D].西北民族大學,2014.

[11] 張興華. 智能搜索引擎的機理,實現(xiàn)技術及發(fā)展趨勢[J].現(xiàn)代情報, 2003,12,66-67.

[12] Moldovan D, Pasca M, Harabagiu S, et al. Performance issues and error analysis in an open-domain question an-swering system[J].ACM Transactions on Information Systems, 2003, 21(2): 133-154.

[13] Tellex S, Katz B, Lin J, et al. Quantitative evaluation of passage retrieval algorithms for question answering[C]//Proceedings of the 26th Annual International ACM SIGIRConference on Research and Development in InformationRetrieval (SIGIR ’03). New York, NY, USA: ACM, 2003,41-47.

[14] XinLi, Dan Roth. The Role of Semantic Information in Learning Question Classifiers. In First International Conference on Natural Language Processing[J].Sanyacity,Hainan Island,China,2004,451-458.

[15] 蔡剛山,葉俊,周曼麗.基于多級檢索的自動問答系統(tǒng)研究[J].科學技術與工程,2007,7(4):501-505.

2015-05-20

西北民族大學研究生科研創(chuàng)新項目(Yxm2014040).

孫浩蒸(1986—),男,山東棗莊人,碩士研究生,主要從事自然語言處理方面的研究.

TP391.1

A

1009-2102(2015)02-0045-06

猜你喜歡
藏文分詞知識庫
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
布達拉(2020年3期)2020-04-13 10:00:07
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
黑水城和額濟納出土藏文文獻簡介
西夏學(2019年1期)2019-02-10 06:22:34
值得重視的分詞的特殊用法
藏文音節(jié)字的頻次統(tǒng)計
現(xiàn)代語境下的藏文報刊
新聞傳播(2016年17期)2016-07-19 10:12:05
高速公路信息系統(tǒng)維護知識庫的建立和應用
基于Drupal發(fā)布學者知識庫關聯(lián)數(shù)據的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
高考分詞作狀語考點歸納與疑難解析
404 Not Found

404 Not Found


nginx
宕昌县| 湖口县| 沙坪坝区| 曲麻莱县| 华亭县| 云阳县| 宝清县| 乌苏市| 青神县| 根河市| 剑阁县| 河北省| 奉化市| 诸城市| 汕尾市| 阳朔县| 罗定市| 平果县| 娄底市| 南平市| 鹤岗市| 文化| 玛曲县| 绿春县| 阳信县| 平原县| 徐水县| 黄龙县| 于都县| 依安县| 江陵县| 天祝| 蚌埠市| 姚安县| 永嘉县| 利川市| 桑日县| 湟源县| 平乐县| 六盘水市| 富平县|