楊芳權(quán)
摘 要: 傳統(tǒng)智能問答系統(tǒng)能夠進(jìn)行簡單的問題答復(fù),但對(duì)于問句信息比較相似的問題不能準(zhǔn)確判別?;诖嗽O(shè)計(jì)基于包裝產(chǎn)業(yè)大數(shù)據(jù)知識(shí)圖譜的智能問答系統(tǒng)。通過知識(shí)圖譜問句映射進(jìn)行問句信息框架設(shè)計(jì),建立大數(shù)據(jù)知識(shí)圖譜數(shù)據(jù)庫,為問句信息的判別提供穩(wěn)定的數(shù)據(jù)環(huán)境;將問句信息轉(zhuǎn)化為eFAQ的判別語句,進(jìn)行問句信息的理解;利用相似度計(jì)算判別相似問句信息的相似度,實(shí)現(xiàn)近似問句信息的判別問答。實(shí)驗(yàn)數(shù)據(jù)表明,設(shè)計(jì)的智能問答系統(tǒng)能夠?qū)ο嗨茊柧湫畔⑦M(jìn)行精準(zhǔn)的判別,并實(shí)現(xiàn)智能問答。
關(guān)鍵詞: 包裝產(chǎn)業(yè); 大數(shù)據(jù); 知識(shí)圖譜; 智能問答系統(tǒng); 相似度計(jì)算; eFAQ語句
中圖分類號(hào): TN911?34; TN919.3 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)04?0143?04
Abstract: The traditional intelligent question?answering (Q?A) system can answer simple questions, but it cannot accurately identify the questions that have similar question information. An intelligent Q?A system based on big data knowledge map of packaging industry is designed. The question information framework is designed by using question mapping of knowledge map. The database of big data knowledge map is established to provide a stable data environment for question information identification. The question information is transformed into the eFAQ decision statements for question information understanding. The information similarity of similar questions is identified by means of similarity calculation to realize discriminating answering of similar question information. The experimental data shows that the designed intelligent Q?A system can accurately identify similar question information and realize intelligent question and answering.
Keywords: packaging industry; big data; knowledge map; intelligent Q?A system; similarity calculation; eFAQ statement
0 引 言
當(dāng)前智能問答系統(tǒng)主要應(yīng)用在一些開放領(lǐng)域以及特定領(lǐng)域,智能問答系統(tǒng)在開放領(lǐng)域可回答文學(xué)、歷史、科研、新聞等多方面問題[1],在特殊領(lǐng)域能夠回答制定好相關(guān)問題。智能問答系統(tǒng)能夠識(shí)別處理問句語言信息,針對(duì)問句信息的提問,能夠反饋出若干準(zhǔn)確的答案,而不是傳統(tǒng)應(yīng)答系統(tǒng)反饋的大量相關(guān)信息。傳統(tǒng)智能問答系統(tǒng),在問句信息搜索引擎中,所反饋的信息準(zhǔn)確性較差,面對(duì)專業(yè)問題與近似問句信息不能進(jìn)行精準(zhǔn)的判別[2]。針對(duì)上述問題,本文設(shè)計(jì)基于包裝產(chǎn)業(yè)大數(shù)據(jù)知識(shí)圖譜的智能問答系統(tǒng)。對(duì)系統(tǒng)框架進(jìn)行設(shè)計(jì),利用知識(shí)圖譜問句映射進(jìn)行大數(shù)據(jù)問句信息識(shí)別,建立大數(shù)據(jù)知識(shí)圖譜數(shù)據(jù)庫存儲(chǔ)問句信息;把問句信息與eFAQ的判別語句進(jìn)行轉(zhuǎn)化,能夠理解問句信息中的隱藏信息;使用相似度計(jì)算問句信息中的相似度,實(shí)現(xiàn)相似問句信息的判別問答。
為了保證該設(shè)計(jì)的有效性,進(jìn)行實(shí)例分析結(jié)果表明,設(shè)計(jì)的智能問答系統(tǒng),能夠?qū)ο嗨茊柧湫畔⑦M(jìn)行判別,進(jìn)行精準(zhǔn)的問答反饋。
1 系統(tǒng)框架設(shè)計(jì)
大數(shù)據(jù)知識(shí)圖譜為問句信息提供合理反饋信息,大數(shù)據(jù)知識(shí)圖譜中包括對(duì)問句信息中語義、句式、應(yīng)答信息等,同時(shí)也可對(duì)問句信息進(jìn)行添加,大數(shù)據(jù)知識(shí)圖譜的使用代替領(lǐng)域?qū)<业脑u(píng)審,能夠直接對(duì)問句信息進(jìn)行數(shù)據(jù)性質(zhì)的反饋[3]。本文主要利用大數(shù)據(jù)知識(shí)圖譜問句映射實(shí)現(xiàn)智能問答系統(tǒng)的框架設(shè)計(jì)。
大數(shù)據(jù)知識(shí)圖譜問句映射將問句信息分成多個(gè)類型,使用eFAQ(extended Frequently Asked Questions)語句進(jìn)行判別,依據(jù)問句信息的內(nèi)容,構(gòu)建一個(gè)高頻反饋的映射系統(tǒng)[4?5]。本文eFAQ語句判別過程與大數(shù)據(jù)知識(shí)圖譜相結(jié)合,利用大數(shù)據(jù)知識(shí)圖譜的特點(diǎn)保證問句信息能夠進(jìn)行精準(zhǔn)反饋,同時(shí)eFAQ語句保證問句信息的單一性。系統(tǒng)將問句信息與答復(fù)信息分離,方便eFAQ語句判別階段的判別,每一項(xiàng)信息都存儲(chǔ)在大數(shù)據(jù)知識(shí)圖譜庫中,方便信息反饋調(diào)用[6]。
2 問句信息的轉(zhuǎn)化
2.1 建設(shè)大數(shù)據(jù)知識(shí)圖譜庫
建設(shè)大數(shù)據(jù)知識(shí)圖譜庫,能將問句信息與eFAQ語句進(jìn)行存儲(chǔ),同時(shí)為eFAQ語句判別過程提供一個(gè)穩(wěn)定的數(shù)據(jù)環(huán)境。大數(shù)據(jù)知識(shí)圖譜庫構(gòu)建過程將問句信息為主體,eFAQ語句信息表征信息作為支撐,本文在建設(shè)大數(shù)據(jù)知識(shí)圖譜庫中不僅保留了傳統(tǒng)的問句信息分類方法[7],同時(shí)對(duì)問句信息按照識(shí)別內(nèi)容完成主題分類。大數(shù)據(jù)知識(shí)圖譜庫可作為問句信息預(yù)處理,識(shí)別問句信息的特征,通過大數(shù)據(jù)知識(shí)圖譜對(duì)問句信息進(jìn)行句式語義分析,回避問句匹配數(shù)據(jù)計(jì)算,提升識(shí)別精準(zhǔn)程度[8]。大數(shù)據(jù)知識(shí)圖譜庫總體結(jié)構(gòu)如圖1所示。endprint
構(gòu)建的大數(shù)據(jù)知識(shí)圖譜庫將問句信息分為兩層,方便反饋過程中的調(diào)用。這樣的數(shù)據(jù)劃分也將eFAQ語句判別過程分離開,這樣繼承了傳統(tǒng)的問句分類方法的形式與優(yōu)點(diǎn),并且為eFAQ語句判別過程清理了數(shù)據(jù)環(huán)境,保證了eFAQ語句判別過程的準(zhǔn)確性[9?10]。
針對(duì)問句信息的內(nèi)容特征并依托問句句式進(jìn)行判別性的隔離,結(jié)合傳統(tǒng)的問句分類方法有辨別性地輔助判別語句,為實(shí)現(xiàn)eFAQ語句判別提供穩(wěn)定的數(shù)據(jù)環(huán)境。
2.2 問句信息與eFAQ語句的轉(zhuǎn)化
大數(shù)據(jù)知識(shí)圖譜庫建設(shè)后,需要把問句信息標(biāo)識(shí)為eFAQ語句,結(jié)合終端問句語義與問答信息之間的匹配情況,進(jìn)行問句信息與eFAQ語句的轉(zhuǎn)化,其轉(zhuǎn)化流程為:
1) 將提出的問句信息進(jìn)行信息識(shí)別,將內(nèi)置信息包含的語義進(jìn)行語句代換[11]。
2) 分析對(duì)應(yīng)的載入信息,掃描相應(yīng)的eFAQ語句。如果未找到,跳至步驟4);找到,按照步驟繼續(xù)轉(zhuǎn)換。
3) 反饋掃描結(jié)果,更新問答執(zhí)行指令進(jìn)行應(yīng)答句式匹配(記錄每次匹配的結(jié)果),同時(shí)把本次問句信息記錄入庫,結(jié)束識(shí)別模塊。
4) 掃描到的eFAQ反饋語句進(jìn)行代換。將未找到對(duì)應(yīng)eFAQ語句的問句信息進(jìn)行入錄,輸出“暫無答案”[12]。
5) 把代換的問句信息推送到數(shù)據(jù)句式連接模塊。
6) 當(dāng)句式組建后,掃描eFAQ語句中的語義是否與問句語義相匹配,做句式判別。
7) 匯總轉(zhuǎn)化信息,要求滿足語義之間的轉(zhuǎn)換,保證轉(zhuǎn)化程度不低于83%。
8) 問句信息與eFAQ語義轉(zhuǎn)化結(jié)束后,進(jìn)入判別反饋階段。
基于包裝產(chǎn)業(yè)大數(shù)據(jù)知識(shí)圖譜的智能問答系統(tǒng),系統(tǒng)性能核心是問句信息的判別,直接掃描問句信息的反饋方法,反饋的信息具有一定的范圍性。使用eFAQ語句進(jìn)行判別具有單一性,在判別過程中,隨著問句語義發(fā)生變化與變化,eFAQ語句能夠進(jìn)行一對(duì)一的信息反饋,并且在大數(shù)據(jù)知識(shí)圖譜庫中每項(xiàng)信息都是分離的狀態(tài),方便信息的反饋調(diào)用,提升智能問答系統(tǒng)的反饋速度。需要說明的是,為了保證eFAQ語句能夠進(jìn)行精準(zhǔn)的判別,還需周期性地添加大數(shù)據(jù)知識(shí)圖譜庫中問句信息的對(duì)應(yīng)eFAQ語句,并清除攜帶性數(shù)據(jù)的使用記錄,具體過程在此不做闡述。
3 問句信息理解
對(duì)問句信息的理解能夠更好解析、分類是問答信息,eFAQ語句判別結(jié)果直接影響問句信息的理解過程[13]。把問句信息理解過程以問句映射的方式映射到大數(shù)據(jù)知識(shí)圖譜庫中,在問句信息的理解解析過程中,eFAQ語句以對(duì)應(yīng)映射形式進(jìn)行語義理解,語義理解程度直接決定了問答系統(tǒng)的數(shù)據(jù)反饋程度。本文采用問句語義與eFAQ語句相結(jié)合的形式進(jìn)行問句理解,總體流程如圖2所示。
問句理解過程中,需要對(duì)問句句式進(jìn)行解析,定義關(guān)鍵詞以及關(guān)鍵語義,在類別的劃分上將關(guān)鍵詞進(jìn)行提取,保證語義的特征性,方便進(jìn)行問句信息的相似計(jì)算。
4 實(shí)例分析
4.1 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備過程參考了常見問題分類體系數(shù)據(jù),對(duì)CALIS虛擬系統(tǒng)中沉淀下來的135條問句信息,進(jìn)行記錄并匯總整理,剔除反饋的口語化表述內(nèi)容信息、多條相同數(shù)據(jù)等。反饋數(shù)據(jù)應(yīng)具備一定的標(biāo)準(zhǔn)化表達(dá)內(nèi)容,結(jié)合包裝產(chǎn)業(yè)大數(shù)據(jù)知識(shí)圖譜,將包裝產(chǎn)業(yè)問句信息以“線上”為基準(zhǔn),對(duì)提出的問題進(jìn)行反饋。
針對(duì)包裝產(chǎn)業(yè)反映的問題,傳統(tǒng)問答系統(tǒng)進(jìn)行問題回答過程中,CALIS虛擬系統(tǒng)會(huì)針對(duì)性地記錄判別數(shù)據(jù)以及應(yīng)答準(zhǔn)確性,對(duì)于本文設(shè)計(jì)的基于包裝產(chǎn)業(yè)大數(shù)據(jù)知識(shí)圖譜的智能問答系統(tǒng)也同樣記錄。本文試驗(yàn)過程準(zhǔn)備數(shù)據(jù)如表1所示。
4.2 實(shí)例演示與分析
從表2中可以看出,基于包裝產(chǎn)業(yè)大數(shù)據(jù)知識(shí)圖譜的智能問答系統(tǒng)對(duì)相似問句信息判定比較理想,但這只反映了系統(tǒng)功能的一部分。從總體上講,本文設(shè)計(jì)的智能問答系統(tǒng),在問句信息的反應(yīng)上以及對(duì)相識(shí)問句信息的判別上都好于傳統(tǒng)問答系統(tǒng)。
觀察圖3可以看出本文設(shè)計(jì)的智能問答系統(tǒng)的CALIS參數(shù)走勢明顯高于傳統(tǒng)問答系統(tǒng),CALIS參數(shù)是本文使用統(tǒng)計(jì)軟件,能夠?qū)煞N問答系統(tǒng)的反饋數(shù)據(jù)進(jìn)行正確性的統(tǒng)計(jì),CALIS參數(shù)越大說明正確性越高。
5 結(jié) 語
本文設(shè)計(jì)基于包裝產(chǎn)業(yè)大數(shù)據(jù)知識(shí)圖譜的智能問答系統(tǒng)。建立大數(shù)據(jù)知識(shí)圖譜數(shù)據(jù)庫,通過句信息轉(zhuǎn)化為eFAQ的判別語句,進(jìn)行問句信息的判別,利用相似度計(jì)算實(shí)現(xiàn)近似問句信息的判別問答。希望通過本文的研究能夠提升問答系統(tǒng)的準(zhǔn)確率。
參考文獻(xiàn)
[1] 杜澤宇,楊燕,賀樑.基于中文知識(shí)圖譜的電商領(lǐng)域問答系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2017,5(5):153?159.
DU Zeyu, YANG Yan, HE Liang. Question answering system of electric business field based on Chinese knowledge map [J]. Computer applications and software, 2017, 5(5): 153?159.
[2] 蘇楠.基于知識(shí)圖譜的國內(nèi)外大數(shù)據(jù)比較研究[J].中國科技論壇,2016(7):142?147.
SU Nan. Knowledge mapping of the comparative study of big data at home and abroad [J]. Forum on science and technology in China, 2016(7): 142?147.
[3] 王文輝,吳敏華,駱力明.基于相似度算法的英語智能問答系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(6):62?68.
WANG Wenhui, WU Minhua, LUO Liming. Design and implementation of English intelligent question?answering system based on similarity algorithm [J]. Computer applications and software, 2017, 34(6): 62?68.endprint
[4] 李佳,楊婷婷,劉偉.數(shù)字多媒體旅游咨詢信息智能問答系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2017,40(12):66?68.
LI Jia, YANG Tingting, LIU Wei. Design of digital multimedia intelligent question?answering system dealing with travel advisory information [J]. Modern electronics technique, 2017, 40(12): 66?68.
[5] 俞思偉,范昊,王菲.基于知識(shí)圖譜的智能醫(yī)療研究[J].醫(yī)療衛(wèi)生裝備,2017,38(3):109?111.
YU Siwei, FAN Hao, WANG Fei. Research on intelligent medicine based on knowledge graph [J]. Chinese medical equipment journal, 2017, 38(3): 109?111.
[6] 劉超,馬東宇.智能問答的聊天機(jī)器人系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù),2017,45(5):176?177.
LIU Chao, MA Dongyu. Design and implementation of chat robot based on intelligent question?answer system [J]. Information technology, 2017, 45(5): 176?177.
[7] 詹川.大數(shù)據(jù)研究的知識(shí)圖譜分析[J].圖書館論壇,2015,56(4):84?91.
ZHAN Chuan. Knowledge mapping analysis of research on big data [J]. Library tribune, 2015, 56(4): 84?91.
[8] 張峰,楊曉藝,劉奕湘.電力智能問答平臺(tái)架構(gòu)的研究與設(shè)計(jì)[J].中州煤炭,2017,39(7):193?195.
ZHANG Feng, YANG Xiaoyi, LIU Yixiang. Research and design of electric power intelligent question answering platform [J]. Zhongzhou coal, 2017, 39(7): 193?195.
[9] 王輝,郁波,洪宇.基于知識(shí)圖譜的Web信息抽取系統(tǒng)[J].計(jì)算機(jī)工程,2017,43(6):118?124.
WANG Hui, YU Bo, HONG Yu. Web information extraction system based on knowledge graph [J]. Computer engineering, 2017, 43(6): 118?124.
[10] RAO Z Y, ZHANG Y X. Research on intelligent customer service system based on knowledge map [J]. Electric power information & communication technology, 2017, 5(67): 145?156.
[11] GANG S U, WANG J, LING W Q, et al. Design and implementation of intelligent transportation analysis system based on big data [J]. Computer knowledge & technology, 2015, 78(4): 123?200.
[12] TAO L I. Design of intelligent auxiliary teaching system based on knowledge grid [J]. Modern computer, 2017, 8(45): 77?80.
[13] DENG T, L? Y, YANG Y, et al. Intelligent design system of turbine blades forging die based on knowledge driven [J]. Forging & stamping technology, 2015, 56(4): 33?45.endprint