壯族非物質(zhì)文化遺產(chǎn)限定域問(wèn)答系統(tǒng)

2019-12-02 22:56:56吳宇豪陳昕雯計(jì)慧芳梁葉

電子技術(shù)與軟件工程 2019年13期

文/吳宇豪陳昕雯計(jì)慧芳梁葉

1 文獻(xiàn)綜述

1.1 研究背景

隨著信息技術(shù)的不斷發(fā)展，微軟小娜、蘋(píng)果的Siri、GoogleNow等個(gè)人智能助理應(yīng)運(yùn)而生，主要利用問(wèn)答方式便利人們?nèi)粘Ｉ睢?/p>

本文實(shí)現(xiàn)一個(gè)基于機(jī)器學(xué)習(xí)的壯族非物質(zhì)文化遺產(chǎn)限定域知識(shí)問(wèn)答系統(tǒng)。主要通過(guò)搜集并整理廣西壯族非物質(zhì)文化遺產(chǎn)的相關(guān)內(nèi)容，將壯族非物質(zhì)文化遺產(chǎn)數(shù)據(jù)分類整理后錄入數(shù)據(jù)庫(kù)，并對(duì)壯族非物質(zhì)文化遺產(chǎn)的知識(shí)進(jìn)行自然語(yǔ)言處理，并根據(jù)問(wèn)句類型構(gòu)建廣西壯族非物質(zhì)文化遺產(chǎn)的問(wèn)答模型。最終實(shí)現(xiàn)壯族非物質(zhì)文化遺產(chǎn)知識(shí)問(wèn)答系統(tǒng)。

1.2 國(guó)內(nèi)外研究現(xiàn)狀和發(fā)展

目前，問(wèn)答系統(tǒng)備受關(guān)注并且具有廣泛前景。1993年，START是世界上第一個(gè)基于網(wǎng)絡(luò)系統(tǒng)的英文自然語(yǔ)言將簡(jiǎn)短而非冗長(zhǎng)的語(yǔ)句返回給用戶。

國(guó)內(nèi)問(wèn)答系統(tǒng)起步較晚，于20世紀(jì)20年代開(kāi)始系統(tǒng)進(jìn)行基于中文問(wèn)答系統(tǒng)的研究。但中文自然語(yǔ)言較英文而言，其句法結(jié)構(gòu)更為復(fù)雜，語(yǔ)義表達(dá)更為靈活，處理起來(lái)更為困難，無(wú)法直接參考國(guó)外已有技術(shù)和研究成果。其次，國(guó)內(nèi)缺乏豐富的原料庫(kù)、知識(shí)庫(kù)以及一整套完整規(guī)范的評(píng)測(cè)標(biāo)準(zhǔn)及體系。

2 設(shè)計(jì)方案及研究?jī)?nèi)容

2.1 設(shè)計(jì)方案

2.1.1 問(wèn)句集的構(gòu)造

問(wèn)句是問(wèn)答系統(tǒng)設(shè)計(jì)的基礎(chǔ)，通過(guò)問(wèn)句的種類和特征，我們才能夠準(zhǔn)確的從數(shù)據(jù)表中將對(duì)應(yīng)的數(shù)據(jù)抽取出來(lái)，返回給提問(wèn)者。問(wèn)句集的構(gòu)造的基礎(chǔ)便是壯族非物質(zhì)文化遺產(chǎn)數(shù)據(jù)表，在數(shù)據(jù)表的各個(gè)字段的基礎(chǔ)之上構(gòu)造問(wèn)句，可以保證問(wèn)答系統(tǒng)的準(zhǔn)確性和一致性。構(gòu)造問(wèn)句集分為三步：

（1）整理每個(gè)數(shù)據(jù)表的字段集合W；

（2）對(duì)字段集合W中的每個(gè)字段的內(nèi)容進(jìn)行問(wèn)句構(gòu)造；

（3）將所構(gòu)造的問(wèn)句集進(jìn)行同義句擴(kuò)充。最終得到完整問(wèn)句集合Q。

2.1.2 問(wèn)句集句型分類

我們根據(jù)問(wèn)句集中所得到的結(jié)果分析得到以下兩大類句型，共分為以下五種。

（1）總體類句型。①總體概述類。②條件概述類。③最值概述類。

（2）單項(xiàng)類句型。①單表類。②多表連接類。

2.2 主要研究?jī)?nèi)容

2.2.1 中文分詞及其算法

問(wèn)答系統(tǒng)的研究第一步要做的處理就是對(duì)于用戶輸入問(wèn)句的分詞處理，將問(wèn)句加以分詞，得到句子中所有分詞所得詞匯的集合S，之后再通過(guò)詞性標(biāo)注進(jìn)一步判斷哪些詞是關(guān)鍵詞，哪一些詞是輔助詞。我們將二者分到兩個(gè)集合當(dāng)中，一個(gè)是關(guān)鍵詞集合，另一個(gè)則是輔助詞集合。之后根據(jù)輔助詞和問(wèn)句類型判斷屬于何種問(wèn)句，而關(guān)鍵詞集合則是用于識(shí)別用戶問(wèn)句中的條件，問(wèn)題類型及目標(biāo)答案屬性，便于在答案抽取過(guò)程中準(zhǔn)確構(gòu)建查詢語(yǔ)句，進(jìn)而得到較高正確率的結(jié)果。

關(guān)鍵詞集合和輔助詞集合的構(gòu)造是否準(zhǔn)確將會(huì)影響接下來(lái)的處理過(guò)程以及最終得到的答案，由于本項(xiàng)目是圍繞壯族非物質(zhì)文化遺產(chǎn)的知識(shí)進(jìn)行問(wèn)答，從而用到的中文分詞工具必須具備較強(qiáng)的命名體識(shí)別能力，才能夠?qū)?wèn)句中的核心部分的詞匯分割出，使后續(xù)處理工作中降低問(wèn)答錯(cuò)誤率。

2.2.2 問(wèn)句分析

在問(wèn)句分析階段需要就我們所收集到的現(xiàn)有的壯族非物質(zhì)文化遺產(chǎn)的相關(guān)文獻(xiàn)記錄，以及非物質(zhì)文化遺產(chǎn)的傳承人等信息構(gòu)造可能存在的問(wèn)句。之后，我們?cè)賹?duì)收集好的問(wèn)句集進(jìn)行分析和處理，共分為三步：

（1）問(wèn)句集分詞處理；

（2）問(wèn)句集句型分類；

（3）構(gòu)造問(wèn)句集中每個(gè)問(wèn)句對(duì)應(yīng)的關(guān)鍵詞集合和輔助詞集合。

2.2.3 答案抽取

通過(guò)對(duì)用戶輸入的問(wèn)句進(jìn)行分析，構(gòu)建SQL查詢語(yǔ)句，連接數(shù)據(jù)庫(kù)，對(duì)壯族非遺數(shù)據(jù)模塊的數(shù)據(jù)進(jìn)行查詢，進(jìn)而得到與問(wèn)句相匹配的數(shù)據(jù)(記錄)作為候選答案，然后再根據(jù)問(wèn)句類型及目標(biāo)答案類型加以篩選作為最終結(jié)果輸出。

3 總結(jié)

本文首先介紹了問(wèn)答系統(tǒng)的發(fā)展現(xiàn)狀，目前國(guó)內(nèi)的中文問(wèn)答系統(tǒng)不斷發(fā)展，但在非物質(zhì)文化遺產(chǎn)知識(shí)上卻少有應(yīng)用。本文就壯族非物質(zhì)文化遺產(chǎn)的知識(shí)問(wèn)答的研究過(guò)程做了詳細(xì)描述，通過(guò)系統(tǒng)的開(kāi)發(fā)實(shí)現(xiàn)總體上實(shí)現(xiàn)了壯族非物質(zhì)文化遺產(chǎn)限定域知識(shí)問(wèn)答系統(tǒng)的功能需求。

本文所做的主要研究工作如下：

（1）研究和學(xué)習(xí)問(wèn)答系統(tǒng)的處理流程；

（2）對(duì)壯族非物質(zhì)文化遺產(chǎn)的文獻(xiàn)資料進(jìn)行收集和整理分類；

（3）問(wèn)句收集和構(gòu)造，對(duì)問(wèn)句進(jìn)行分類；

（4）根據(jù)問(wèn)句類型歸納SQL查詢語(yǔ)句的構(gòu)造方法，精準(zhǔn)提取答案。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡