文/吳宇豪 陳昕雯 計(jì)慧芳 梁葉
隨著信息技術(shù)的不斷發(fā)展,微軟小娜、蘋(píng)果的Siri、GoogleNow等個(gè)人智能助理應(yīng)運(yùn)而生,主要利用問(wèn)答方式便利人們?nèi)粘I睢?/p>
本文實(shí)現(xiàn)一個(gè)基于機(jī)器學(xué)習(xí)的壯族非物質(zhì)文化遺產(chǎn)限定域知識(shí)問(wèn)答系統(tǒng)。主要通過(guò)搜集并整理廣西壯族非物質(zhì)文化遺產(chǎn)的相關(guān)內(nèi)容,將壯族非物質(zhì)文化遺產(chǎn)數(shù)據(jù)分類整理后錄入數(shù)據(jù)庫(kù),并對(duì)壯族非物質(zhì)文化遺產(chǎn)的知識(shí)進(jìn)行自然語(yǔ)言處理,并根據(jù)問(wèn)句類型構(gòu)建廣西壯族非物質(zhì)文化遺產(chǎn)的問(wèn)答模型。最終實(shí)現(xiàn)壯族非物質(zhì)文化遺產(chǎn)知識(shí)問(wèn)答系統(tǒng)。
目前,問(wèn)答系統(tǒng)備受關(guān)注并且具有廣泛前景。1993年,START是世界上第一個(gè)基于網(wǎng)絡(luò)系統(tǒng)的英文自然語(yǔ)言將簡(jiǎn)短而非冗長(zhǎng)的語(yǔ)句返回給用戶。
國(guó)內(nèi)問(wèn)答系統(tǒng)起步較晚,于20世紀(jì)20年代開(kāi)始系統(tǒng)進(jìn)行基于中文問(wèn)答系統(tǒng)的研究。但中文自然語(yǔ)言較英文而言,其句法結(jié)構(gòu)更為復(fù)雜,語(yǔ)義表達(dá)更為靈活,處理起來(lái)更為困難,無(wú)法直接參考國(guó)外已有技術(shù)和研究成果。其次,國(guó)內(nèi)缺乏豐富的原料庫(kù)、知識(shí)庫(kù)以及一整套完整規(guī)范的評(píng)測(cè)標(biāo)準(zhǔn)及體系。
2.1.1 問(wèn)句集的構(gòu)造
問(wèn)句是問(wèn)答系統(tǒng)設(shè)計(jì)的基礎(chǔ),通過(guò)問(wèn)句的種類和特征,我們才能夠準(zhǔn)確的從數(shù)據(jù)表中將對(duì)應(yīng)的數(shù)據(jù)抽取出來(lái),返回給提問(wèn)者。問(wèn)句集的構(gòu)造的基礎(chǔ)便是壯族非物質(zhì)文化遺產(chǎn)數(shù)據(jù)表,在數(shù)據(jù)表的各個(gè)字段的基礎(chǔ)之上構(gòu)造問(wèn)句,可以保證問(wèn)答系統(tǒng)的準(zhǔn)確性和一致性。構(gòu)造問(wèn)句集分為三步:
(1)整理每個(gè)數(shù)據(jù)表的字段集合W;
(2)對(duì)字段集合W中的每個(gè)字段的內(nèi)容進(jìn)行問(wèn)句構(gòu)造;
(3)將所構(gòu)造的問(wèn)句集進(jìn)行同義句擴(kuò)充。最終得到完整問(wèn)句集合Q。
2.1.2 問(wèn)句集句型分類
我們根據(jù)問(wèn)句集中所得到的結(jié)果分析得到以下兩大類句型,共分為以下五種。
(1)總體類句型。①總體概述類。②條件概述類。③最值概述類。
(2)單項(xiàng)類句型。①單表類。②多表連接類。
2.2.1 中文分詞及其算法
問(wèn)答系統(tǒng)的研究第一步要做的處理就是對(duì)于用戶輸入問(wèn)句的分詞處理,將問(wèn)句加以分詞,得到句子中所有分詞所得詞匯的集合S,之后再通過(guò)詞性標(biāo)注進(jìn)一步判斷哪些詞是關(guān)鍵詞,哪一些詞是輔助詞。我們將二者分到兩個(gè)集合當(dāng)中,一個(gè)是關(guān)鍵詞集合,另一個(gè)則是輔助詞集合。之后根據(jù)輔助詞和問(wèn)句類型判斷屬于何種問(wèn)句,而關(guān)鍵詞集合則是用于識(shí)別用戶問(wèn)句中的條件,問(wèn)題類型及目標(biāo)答案屬性,便于在答案抽取過(guò)程中準(zhǔn)確構(gòu)建查詢語(yǔ)句,進(jìn)而得到較高正確率的結(jié)果。
關(guān)鍵詞集合和輔助詞集合的構(gòu)造是否準(zhǔn)確將會(huì)影響接下來(lái)的處理過(guò)程以及最終得到的答案,由于本項(xiàng)目是圍繞壯族非物質(zhì)文化遺產(chǎn)的知識(shí)進(jìn)行問(wèn)答,從而用到的中文分詞工具必須具備較強(qiáng)的命名體識(shí)別能力,才能夠?qū)?wèn)句中的核心部分的詞匯分割出,使后續(xù)處理工作中降低問(wèn)答錯(cuò)誤率。
2.2.2 問(wèn)句分析
在問(wèn)句分析階段需要就我們所收集到的現(xiàn)有的壯族非物質(zhì)文化遺產(chǎn)的相關(guān)文獻(xiàn)記錄,以及非物質(zhì)文化遺產(chǎn)的傳承人等信息構(gòu)造可能存在的問(wèn)句。之后,我們?cè)賹?duì)收集好的問(wèn)句集進(jìn)行分析和處理,共分為三步:
(1)問(wèn)句集分詞處理;
(2)問(wèn)句集句型分類;
(3)構(gòu)造問(wèn)句集中每個(gè)問(wèn)句對(duì)應(yīng)的關(guān)鍵詞集合和輔助詞集合。
2.2.3 答案抽取
通過(guò)對(duì)用戶輸入的問(wèn)句進(jìn)行分析,構(gòu)建SQL查詢語(yǔ)句,連接數(shù)據(jù)庫(kù),對(duì)壯族非遺數(shù)據(jù)模塊的數(shù)據(jù)進(jìn)行查詢,進(jìn)而得到與問(wèn)句相匹配的數(shù)據(jù)(記錄)作為候選答案,然后再根據(jù)問(wèn)句類型及目標(biāo)答案類型加以篩選作為最終結(jié)果輸出。
本文首先介紹了問(wèn)答系統(tǒng)的發(fā)展現(xiàn)狀,目前國(guó)內(nèi)的中文問(wèn)答系統(tǒng)不斷發(fā)展,但在非物質(zhì)文化遺產(chǎn)知識(shí)上卻少有應(yīng)用。本文就壯族非物質(zhì)文化遺產(chǎn)的知識(shí)問(wèn)答的研究過(guò)程做了詳細(xì)描述,通過(guò)系統(tǒng)的開(kāi)發(fā)實(shí)現(xiàn)總體上實(shí)現(xiàn)了壯族非物質(zhì)文化遺產(chǎn)限定域知識(shí)問(wèn)答系統(tǒng)的功能需求。
本文所做的主要研究工作如下:
(1)研究和學(xué)習(xí)問(wèn)答系統(tǒng)的處理流程;
(2)對(duì)壯族非物質(zhì)文化遺產(chǎn)的文獻(xiàn)資料進(jìn)行收集和整理分類;
(3)問(wèn)句收集和構(gòu)造,對(duì)問(wèn)句進(jìn)行分類;
(4)根據(jù)問(wèn)句類型歸納SQL查詢語(yǔ)句的構(gòu)造方法,精準(zhǔn)提取答案。