摘 要: 為提高用戶獲取電影相關(guān)信息的效率和準(zhǔn)確性,設(shè)計(jì)并實(shí)現(xiàn)基于知識(shí)圖譜的電影自動(dòng)問答系統(tǒng)。針對(duì)電影信息實(shí)體的特征,規(guī)范解析實(shí)體和實(shí)體之間的關(guān)系,構(gòu)建電影信息知識(shí)圖譜;通過對(duì)用戶輸入的問題進(jìn)行實(shí)體識(shí)別與詞性標(biāo)注,進(jìn)行問句分析,實(shí)現(xiàn)問句語義理解;利用貝葉斯分類器匹配問句模板在知識(shí)圖譜上進(jìn)行查找,從大量的非結(jié)構(gòu)化數(shù)據(jù)中得到所需的具體信息,理解用戶對(duì)于電影信息的需求。本系統(tǒng)通過構(gòu)建電影的知識(shí)圖譜結(jié)構(gòu)對(duì)知識(shí)作了有效區(qū)分,實(shí)現(xiàn)更好的匹配效果。不僅簡化了操作,還極大的提高了準(zhǔn)確度,省時(shí)省力更高效。
關(guān)鍵詞:自動(dòng)問答系統(tǒng);知識(shí)圖譜;問句分析;貝葉斯分類器
Abstract: In order to improve the efficiency and accuracy of users' access to film-related information, an automatic question answering system based on knowledge map was designed and implemented. According to the characteristics of film information entities, the relationship between entities and entities is standardized and analyzed, and the map of film information knowledge is constructed. The semantic understanding of the question can be realized by entity recognition and part-of-speech tagging of the question input by the user. The Bayesian classifier matching question template is used to search on the knowledge map to obtain the required specific information from a large number of unstructured data and understand the user's demand for movie information. In this system, the knowledge map structure is constructed to distinguish the knowledge effectively and achieve better matching effect. Not only simplified the operation, but also greatly improved accuracy, saving time and labor more efficient.
Keywords: automatic question answering system; Knowledge map; Question analysis; Bayes classifier
引言
自動(dòng)問答是一種高級(jí)的信息檢索技術(shù),支持用戶針對(duì)事物屬性或聯(lián)系進(jìn)行提問,國內(nèi)外在自動(dòng)問答系統(tǒng)上已經(jīng)研究了較長時(shí)期,從上世紀(jì)60到70年代開始,問答系統(tǒng)就出現(xiàn)在人們的視線,主要依賴搜索技術(shù),對(duì)查詢相關(guān)的文檔進(jìn)行檢索,如Yahoo早期的answer and quora[1]。而到了上世紀(jì)70年代,自動(dòng)問答系統(tǒng)開始以結(jié)構(gòu)化知識(shí)庫為基礎(chǔ),通過搜索知識(shí)庫得到最終答案,如YAGO[2]、WordNet[3]、張克亮等人基于本體的航空領(lǐng)域問答系統(tǒng)[4]。如今,隨著人工智能的發(fā)展,利用知識(shí)圖譜構(gòu)建信息結(jié)構(gòu)設(shè)計(jì)問答系統(tǒng)成為一種必然的趨勢(shì),如IBM的Watson系統(tǒng)[5]、馬晨浩設(shè)計(jì)的基于甲狀腺知識(shí)圖譜的自動(dòng)問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[6]?;谥R(shí)圖譜提供的語義層面上支持的自動(dòng)問答系統(tǒng),包含信息分析、自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的大量技術(shù)創(chuàng)新,能夠幫助用戶從大量非結(jié)構(gòu)化數(shù)據(jù)中得到所需的具體信息,是新一代信息檢索技術(shù)發(fā)展的必然趨勢(shì)[7]。
知識(shí)圖譜,源自于Google的Knowledge Graph,其本質(zhì)是一種語義網(wǎng)絡(luò),結(jié)點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體/概念之間的各種語義關(guān)系。隨著數(shù)據(jù)的結(jié)構(gòu)化發(fā)展,互聯(lián)網(wǎng)正從大量互相鏈接的網(wǎng)頁向包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的語義網(wǎng)演進(jìn)。
目前,中國作為全球第二大電影市場(chǎng),同時(shí)也是增長最快的市場(chǎng)之一,人們對(duì)電影產(chǎn)業(yè)需求尤為突出。人們?cè)陔娪暗倪x擇上,會(huì)經(jīng)常利用當(dāng)代主流搜索引擎對(duì)演員、劇情、導(dǎo)演等關(guān)鍵詞進(jìn)行搜索,如文獻(xiàn)文科和百科等形式,但是反饋的結(jié)果往往需要通過主觀上多次篩選,才能夠獲得自己真正想要的答案,并不能夠直接提供一個(gè)清晰明了的結(jié)果,時(shí)效性非常低。與國外的自動(dòng)問答系統(tǒng)相比,由于中文本身的獨(dú)特屬性,系統(tǒng)在理解自然語言問句上要比英文難。系統(tǒng)可以自動(dòng)解析用戶英文提出的問題,不需要考慮問句分詞和理解誤差,如Microsoft Concept Graph[7]。但是從中文角度,系統(tǒng)總是理解的模糊不清。國內(nèi)外現(xiàn)有的電影信息自動(dòng)問答系統(tǒng),大多以SSH框架為基礎(chǔ)或利用tensorflow實(shí)現(xiàn)電影信息的問答,如Google中國版電影onebox[8]、時(shí)光網(wǎng)等,基于知識(shí)圖譜實(shí)現(xiàn)的電影自動(dòng)問答系統(tǒng)并不多。
本文打算做的,即是電影信息領(lǐng)域的自動(dòng)問答系統(tǒng),在對(duì)大量的電影信息做出有效的整理后,創(chuàng)建生成電影信息知識(shí)圖譜,基于該知識(shí)圖譜,在Java平臺(tái)上實(shí)現(xiàn)電影的自動(dòng)問答系統(tǒng),用戶輸入問題,系統(tǒng)對(duì)輸入的自然語言進(jìn)行問句分析,匹配不同語義的不同模板,在知識(shí)圖譜內(nèi)進(jìn)行查詢,獲取答案。該系統(tǒng)結(jié)合了多種自然語言處理技術(shù),能夠幫助使用者從大量的非結(jié)構(gòu)化數(shù)據(jù)中得到所需的具體信息,理解用戶對(duì)于電影信息的需求。
1系統(tǒng)架構(gòu)
整個(gè)系統(tǒng)主要分為數(shù)據(jù)獲取與存儲(chǔ)模塊、自動(dòng)問答系統(tǒng)實(shí)現(xiàn)模塊、用戶交互模塊等三個(gè)模塊,具體描述如下:
(1) 數(shù)據(jù)獲取與存儲(chǔ)模塊,主要是將分布在不同網(wǎng)站的爬蟲文件獲取到的電影數(shù)據(jù)信息進(jìn)行整理存儲(chǔ)在MySql數(shù)據(jù)庫中,根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)構(gòu)建出電影信息的知識(shí)圖譜,供后期問答業(yè)務(wù)的處理和實(shí)現(xiàn)使用。
(2) 自動(dòng)問答系統(tǒng)實(shí)現(xiàn)模塊,主要是以設(shè)計(jì)的電影信息知識(shí)圖譜為基礎(chǔ),系統(tǒng)將用戶輸入的問題,進(jìn)行實(shí)體識(shí)別與詞性標(biāo)注,根據(jù)識(shí)別后的實(shí)體,對(duì)問題進(jìn)行分類,匹配不同的問句查詢模板,使用模板在知識(shí)圖譜上進(jìn)行查找,得到用戶問題的最終答案并返回用戶。若問題實(shí)體識(shí)別后,詞性標(biāo)注為實(shí)體本身,則直接在知識(shí)圖譜內(nèi)進(jìn)行搜索,返回用戶答案。
(3) 用戶交互模塊,指用戶在使用時(shí)所看到的額人機(jī)交互界面,提供給用戶查詢問題并獲取答案。具體系統(tǒng)模塊結(jié)構(gòu)圖如圖1所示。
2電影信息知識(shí)圖譜的構(gòu)建
本系統(tǒng)通過分布在不同網(wǎng)站的爬蟲文件,聚合各大電影門戶網(wǎng)站的電影信息,存儲(chǔ)在MySql數(shù)據(jù)庫中,并提取文本中的命名實(shí)體,使數(shù)據(jù)結(jié)構(gòu)化,從而構(gòu)建電影信息的知識(shí)圖譜,這增強(qiáng)了文本的表示和組合模型[9],使用戶直接獲取電影信息之間的關(guān)系。同時(shí)利用知識(shí)圖譜能將問句中實(shí)體和關(guān)系識(shí)別出,確定問題意圖,映射對(duì)應(yīng)的問題模板,形成對(duì)應(yīng)的語序圖,得到準(zhǔn)確的答案。從現(xiàn)有的研究成果來看,知識(shí)圖譜的技術(shù)還主要應(yīng)用在科技專業(yè)領(lǐng)域的研究,而對(duì)于非科技專業(yè)的領(lǐng)域,如搜索一些普通的資訊信息,還停留在普通的搜索引擎階段。因此,針對(duì)電影信息這類非科技專業(yè)領(lǐng)域構(gòu)建知識(shí)圖譜,能夠?qū)?shù)據(jù)搜索范圍縮小,從而有利于提高知識(shí)搜索的準(zhǔn)確性和高效性。
2.1數(shù)據(jù)獲取與處理
數(shù)據(jù)獲取主要采取的途徑是利用網(wǎng)絡(luò)爬蟲自動(dòng)獲取。
網(wǎng)絡(luò)爬蟲(Web crawler)又被稱為網(wǎng)頁蜘蛛(Web spider),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或腳本。因?yàn)榛ヂ?lián)網(wǎng)上的頁面是由多個(gè)各大網(wǎng)站的URL相互鏈接起來的,所以首先從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在爬取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,根據(jù)頁面標(biāo)簽的正則匹配算法,過濾與主題無關(guān)或無用的信息,保留有用的信息并建立索引,直到滿足系統(tǒng)的一定停止條件。
電影信息的獲取是通過爬取各大電影門戶網(wǎng)站的數(shù)據(jù),如百度百科、豆瓣網(wǎng)、時(shí)光網(wǎng)、M1905、中國電影票房網(wǎng)等。自動(dòng)獲取的電影信息主要包括電影的基本信息,如電影類型、劇情介紹、評(píng)分等;演員的基本信息,如姓名、角色、性別等。通過對(duì)頁面標(biāo)簽的正則匹配,抽取電影各類實(shí)體關(guān)系的信息,整理存儲(chǔ)在MySql數(shù)據(jù)庫中,以備后續(xù)操作。
2.2知識(shí)圖譜的構(gòu)建
電影信息的表達(dá)形式,是該系統(tǒng)的一個(gè)重要組成部分。隨著計(jì)算機(jī)科學(xué)領(lǐng)域和人工智能領(lǐng)域的發(fā)展,自然語言處理在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相關(guān)的算法下取得了突破,比如語義解析、語言建模等[10]。2012年,Google通過將如語義解析、語言建模等系統(tǒng)化后,提出“知識(shí)圖譜”,從而越來越多的計(jì)算機(jī)領(lǐng)域研究學(xué)者和開發(fā)設(shè)計(jì)者,將知識(shí)圖譜應(yīng)用在知識(shí)的表達(dá)形式上。融合知識(shí)圖譜,能夠使系統(tǒng)自動(dòng)給將問題中實(shí)體和關(guān)系識(shí)別出來,基于模板的方法對(duì)結(jié)構(gòu)化查詢進(jìn)行問題的描述[11],形成對(duì)應(yīng)的語序圖,通過查詢知識(shí)圖譜中的三元組得到答案。
本系統(tǒng)電影信息知識(shí)圖譜根據(jù)MySql數(shù)據(jù)庫中存儲(chǔ)的電影信息構(gòu)建,包括電影名稱信息實(shí)體、電影類別信息實(shí)體、演員信息實(shí)體等,實(shí)體之間存在多種聯(lián)系,規(guī)范解析實(shí)體和實(shí)體之間的關(guān)系,將數(shù)據(jù)庫中不同表內(nèi)的不同數(shù)據(jù),以三元組<實(shí)體,關(guān)系,實(shí)體>形式構(gòu)建電影信息知識(shí)圖譜的概念層設(shè)計(jì)。
定義1 電影信息實(shí)體 包括電影名稱實(shí)體、電影類別實(shí)體、演員信息實(shí)體等。實(shí)體名稱存放于根目錄,每個(gè)實(shí)體都包含一組屬性[12],在定義了電影信息實(shí)體之后,可以構(gòu)建電影信息知識(shí)圖譜概念層設(shè)計(jì)如圖2所示。
定義2 電影基本信息關(guān)系實(shí)體 電影信息關(guān)系實(shí)體表示電影信息實(shí)體間產(chǎn)生的聯(lián)系,如<電影名稱,電影信息,演員>。其中,電影名稱、演員都是電影信息的實(shí)體,而電影信息為電影基本信息關(guān)系實(shí)體。電影基本信息關(guān)系類型主要包括內(nèi)容如下:
(1)A is B關(guān)系:表示實(shí)體A有一個(gè)屬性實(shí)體B。
(2)A actedin B關(guān)系:表示實(shí)體A出演實(shí)體B的關(guān)系。
最后抽取實(shí)體和關(guān)系,綜合確定三元組,借助Neo4j服務(wù)中Cypher模板文件存儲(chǔ)數(shù)據(jù),將模糊的查詢條件轉(zhuǎn)化為精確的查詢區(qū)間[13],有效的管理每個(gè)節(jié)點(diǎn)的特定屬性,以及每條邊與實(shí)體之間存在的關(guān)系。知識(shí)圖譜設(shè)計(jì)模式圖如圖3所示。
查詢語句[14],利用JDK提供的一些低級(jí)API,用基于圖的模式匹配,實(shí)現(xiàn)對(duì)數(shù)據(jù)的處理與擴(kuò)展。同時(shí),Neo4j能夠非常方便的融合到系統(tǒng)中進(jìn)行后續(xù)開發(fā)。本系統(tǒng)使用Neo4j構(gòu)建的電影信息領(lǐng)域的知識(shí)圖譜可視化展示如圖4所示。
本系統(tǒng)主要構(gòu)建以電影信息為核心的知識(shí)圖譜,以電影名稱為根節(jié)點(diǎn),以此延伸出電影的名稱、時(shí)間、劇情介紹、演員等信息,每一級(jí)的節(jié)點(diǎn)又可以延伸至下一節(jié)點(diǎn),如將章子怡節(jié)點(diǎn)進(jìn)行展開,可以看得到與章子怡相關(guān)的所有電影。電影信息知識(shí)圖譜的節(jié)點(diǎn)可視化展開如圖5所示。
3問句分析
問句分析主要研究問句的抽象以及問句的分類等自動(dòng)問答系統(tǒng)所采用的對(duì)中文進(jìn)行自然語言處理的技術(shù),使系統(tǒng)對(duì)問題的理解準(zhǔn)確度得到提升
3.1問句的抽象
問句的抽象是針對(duì)中文進(jìn)行自然語言處理的基礎(chǔ)步驟,也是實(shí)現(xiàn)數(shù)據(jù)標(biāo)注處理的基礎(chǔ)模型。與英文問句相比,系統(tǒng)可以通過疑問句中固定的疑問詞自動(dòng)解析用戶英文提出的問題,但中文具有本身的獨(dú)特屬性,中文提出的問題無明顯詞性的界限,因此進(jìn)行中文問句的自然語言處理時(shí),利用分詞技術(shù)實(shí)現(xiàn)問句的抽象是第一步。
將知識(shí)圖譜中的實(shí)體概念和屬性等詞加入領(lǐng)域詞庫,標(biāo)注單詞的詞性,并添加部分人工標(biāo)注的命名實(shí)體,比如問句中會(huì)涉及到的專有的電影名稱、人名、劇情等實(shí)體,完成自定義帶有詞性的字典數(shù)據(jù)[13]。這相當(dāng)于提供給機(jī)器人一個(gè)習(xí)題集,所謂的標(biāo)注,就是將整個(gè)數(shù)據(jù)、正確答案作為習(xí)題集教給機(jī)器人,機(jī)器人在學(xué)習(xí)過程中,就會(huì)在做題過程中在習(xí)題集內(nèi)搜索答案。
系統(tǒng)在收到用戶提出的問題后,能夠自動(dòng)進(jìn)行問句抽象,對(duì)問句進(jìn)行分詞處理,將中文轉(zhuǎn)化成系統(tǒng)能夠理解的語義,更加貼合用戶的意圖。
3.2問句的分類
由于中文的獨(dú)特屬性,不像英語具有專屬的疑問詞、時(shí)態(tài)與語法,用戶輸入的問題具有隨意性,即表達(dá)相同意思的詞語可以被多種同義詞所替代,表達(dá)某一問題的問句可以被隨意組合成多種問句。根據(jù)電影信息知識(shí)圖譜,自定義帶有詞性的字典數(shù)據(jù),將問句定義成不同的類別。問句分類如表1所示。
3.3問句的匹配
對(duì)于輸入的自然語言,首先進(jìn)行問句的分類,根據(jù)問句類別的關(guān)鍵詞,構(gòu)造出問句類別向量,進(jìn)行問句匹配,映射其對(duì)應(yīng)的問句模板,形成對(duì)應(yīng)的有向語序圖。問句匹配是從概率學(xué)的角度進(jìn)行分類,如果將用戶輸入的問句與知識(shí)庫中存在的問題庫進(jìn)行最高程度的匹配,則系統(tǒng)反饋給用戶的答案也將更加準(zhǔn)確、快速。
目前常用的分類算法樸素貝葉斯分類器(na?ve Bayes classifier)、支持向量機(jī)(support vector machine)與最大熵模型(maximum entropy model)等[15]。其中樸素貝葉斯分類器能夠在復(fù)雜的場(chǎng)景中,使對(duì)文本訓(xùn)練集的速度較快且準(zhǔn)確??紤]到本系統(tǒng)的研究主要在于準(zhǔn)確和問題樣本的特點(diǎn),需要從電影的名稱這類實(shí)體和人工標(biāo)注的問題分類兩個(gè)方面進(jìn)行匹配計(jì)算,所以選擇采用樸素貝葉斯分類器。首先我們要清楚什么是貝葉斯定定理,當(dāng)事件B已經(jīng)發(fā)生,事件A發(fā)生的概率叫做事件B發(fā)生下事件A的條件概率,其基本求解公式為:
現(xiàn)有事件B,則在事件A發(fā)生的條件下,事件B發(fā)生的概率,其基本求解公式為:
樸素貝葉斯分類器是基于貝葉斯定理,根據(jù)特征項(xiàng),選取預(yù)測(cè)類別,再進(jìn)行概率計(jì)算的分類方法,具體實(shí)現(xiàn)的數(shù)據(jù)模型可以表示如下:
4答案生成
本系統(tǒng)的答案生成主要就是通過樸素貝葉斯分類器實(shí)現(xiàn)。答案可能是一個(gè)單詞、一個(gè)句子片段、一個(gè)結(jié)構(gòu)良好且有意義的句子或一組邏輯連貫的句子。答案類型取決于問句的抽象與匹配[16]?;谥R(shí)圖譜的自動(dòng)問答系統(tǒng)通常包括為特定領(lǐng)域開發(fā)問答對(duì)數(shù)據(jù)庫,然后根據(jù)用戶的問題獲取答案。在用戶輸入問題時(shí),此時(shí)問句為原始句子,利用分詞器對(duì)原句子進(jìn)行抽象,將其中電影名稱、人名等用自定義的詞典進(jìn)行替換,并與事先訓(xùn)練好的樸素貝葉斯分類器中問題樣本數(shù)據(jù)集進(jìn)行匹配問題模板,判斷是否為匹配。若匹配,則直接返回模板中匹配的最終標(biāo)準(zhǔn)問題給用戶,并去圖形數(shù)據(jù)庫Neo4j中查找問題的答案;反之,則將預(yù)測(cè)的結(jié)果反饋給用戶,提示用戶輸入有效問題。答案生成流程如圖6所示。
根據(jù)之前自定義好的數(shù)據(jù)詞典,設(shè)計(jì)用戶可能會(huì)提出的問題,將問題詞匯集合成vocabulary數(shù)據(jù)集,之后按照數(shù)據(jù)集設(shè)置問題集合,分類Model標(biāo)簽號(hào),具體問題集合如表2所示。
對(duì)原始問題進(jìn)行分詞,提取關(guān)鍵特征詞,如“評(píng)分”、“多少”等和數(shù)據(jù)集中關(guān)鍵特征進(jìn)行匹配,在貝葉斯分類器中構(gòu)造向量,進(jìn)行詞匯數(shù)據(jù)集的比對(duì),若有則返回1,反之返回0。
實(shí)現(xiàn)答案的查詢過程只要時(shí)將問題有序語句轉(zhuǎn)換成Neo4j的查詢語句,在圖形數(shù)據(jù)庫中進(jìn)行查詢。在結(jié)構(gòu)化查詢語言中,鍵值時(shí)完全匹配的,但是用戶輸入的是模糊查詢,所以需要將用戶輸入的模糊查詢,轉(zhuǎn)換為統(tǒng)一鍵值,再翻譯為Neo4j圖數(shù)據(jù)庫的標(biāo)準(zhǔn)查詢語句Cypher,從而再知識(shí)圖譜上進(jìn)行查詢,如查詢某電影出演的演員有哪些,可以表示為“match(n:Person)-[:actedin]-(m:Movie) where m.title ={title} return n.name”。若遇到不相關(guān)的詞語,則用貝葉斯分類器進(jìn)行特征值和問題模板的匹配,從而完成答案的生成。
5實(shí)驗(yàn)結(jié)果與分析
5.1 實(shí)驗(yàn)一 問句詞性識(shí)別標(biāo)注為實(shí)體本身類問題
輸入:<實(shí)體>
實(shí)例輸入:章子怡
預(yù)期結(jié)果:Beijing-China,人工查詢知識(shí)圖譜中章子怡對(duì)應(yīng)為Beijing-China。
實(shí)驗(yàn)運(yùn)行結(jié)果如圖7所示。
5.2 實(shí)驗(yàn)二 問句識(shí)別為人工標(biāo)注的問題-電影評(píng)分
輸入:<實(shí)體>評(píng)分是多少?
實(shí)例輸入:英雄的評(píng)分是多少?
預(yù)期結(jié)果:7.3,人工查詢知識(shí)圖譜中英雄的評(píng)分對(duì)應(yīng)為7.3。
實(shí)驗(yàn)運(yùn)行結(jié)果如圖8所示。
5.2 實(shí)驗(yàn)三 問句識(shí)別為人工標(biāo)注的問題-演員電影作品
輸入:<實(shí)體>出演了哪些電影?
實(shí)例輸入:章子怡出演的冒險(xiǎn)電影有哪些?
預(yù)期結(jié)果:Godzilla: King of Monsters, Godzilla vs. Kong, 臥虎藏龍, 英雄, TMNT, 十面埋伏。人工查詢知識(shí)圖譜中英雄的評(píng)分對(duì)應(yīng)為Godzilla: King of Monsters, Godzilla vs. Kong, 臥虎藏龍, 英雄, TMNT, 十面埋伏。
實(shí)驗(yàn)運(yùn)行結(jié)果如圖8所示。
6結(jié)束語
隨著互聯(lián)網(wǎng)的不斷發(fā)展,自動(dòng)問答系統(tǒng)正在日趨完善。以電影信息為數(shù)據(jù),構(gòu)建基于知識(shí)圖譜的電影自動(dòng)問答系統(tǒng),在人工標(biāo)注和自動(dòng)化結(jié)合的方式下,構(gòu)建了電影知識(shí)圖譜和問題詞匯數(shù)據(jù)集,并設(shè)計(jì)了多種可能的問題模板,即幫助系統(tǒng)理解用戶意圖,利用知識(shí)圖譜獲取用戶想查詢問題的準(zhǔn)確答案??梢源鎯?chǔ)大量的數(shù)據(jù)的同時(shí),在后續(xù)數(shù)據(jù)應(yīng)用方面相比較傳統(tǒng)模式也占據(jù)了明顯優(yōu)勢(shì)。
在未來,本系統(tǒng)將會(huì)在已有基礎(chǔ)上,不斷擴(kuò)展電影信息的知識(shí)圖譜,使得自動(dòng)問答系統(tǒng)能夠處理的問題信息更多,并且不斷完善貝葉斯樸素分類器模型,提升被提取特征值的準(zhǔn)確率和速率,保障在自動(dòng)問答模塊上的穩(wěn)健性。
參考文獻(xiàn):
[1]劉乙蓉,劉蕓.問答平臺(tái)中的答案聚合及其優(yōu)化[J].圖書館學(xué)研究,2017,6.
[2]Suchanek F M, Kasneci G, Weikum G. Yago:a core of semantic knowledge.In:Proceedings of International Conference on World Wide Web,2007:697-706.
[3]Miller G A. WordNet:a lexical database for English. Commun ACM,1995,38:39-41.
[4]張克亮,李偉剛,王慧蘭.基于本體的航空領(lǐng)域問答系統(tǒng)[J].中文信息學(xué)報(bào),2015.
[5]孔鹿.IBM的Waton如何改善中國醫(yī)療[N].第一財(cái)經(jīng)日?qǐng)?bào),2016-08-30(A08).
[6]馬晨浩.基于甲狀腺知識(shí)圖譜的自動(dòng)問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用,2018,8(3):102-107.
[7]孟明明,張坤,論兵.一種面向知識(shí)圖譜問答的語義查詢擴(kuò)展方法[J/OL].計(jì)算機(jī)工程.
[8]Google谷歌中國版電影onebox上線[C].CFan PE:軟件學(xué)用通.
[9]安波,韓先培,孫樂.基于知識(shí)表示的知識(shí)庫問答系統(tǒng)[J].中國科學(xué):信息科學(xué),2018,48(11):1521-1532.
[10]薛蕊,馬小寧.自然語言處理關(guān)鍵技術(shù)在智能鐵路中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2018,27(10):40-48.
[11]Dominic Seyler, Mohamed Yahya,Klaus Berberich.Knowledge Questions from Knowledge.Graphs arXiv:1610.09935v2 [cs.CL],1,Nov,2016.
[12]Yuan Yang,Jingcheng Yu,Ye Hu,Xiaoyao Xu,Eric Nyberg.CMU LiveMedQA at TREC 2017 LiveQA: AConsumer Health Question Answering System,2017.
[13]李雪.一種基于Neo4J圖數(shù)據(jù)庫的模糊查詢研究與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(11):16-21.
[14]劉嶠,李楊,段宏,劉瑤,秦志光.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.
[15]李文寬,劉培玉,朱振方,劉文鋒.基于卷積神經(jīng)網(wǎng)絡(luò)和貝葉斯分類器的句子分類模型[J/OL].計(jì)算機(jī)應(yīng)用研究.
[16]Ashwini Jaya Kumar , Christoph Schmidt, Joachim K?hler .A knowledge graph based speech interface for question answering systems :Speech Communicatio 92(2017),1-12.
作者簡介:
徐宇晨(1997-),女,民族: 漢 ,籍貫:江西景德鎮(zhèn),學(xué)歷 :大學(xué)本科,職稱:無,畢業(yè)院校:無,研究方向:軟件工程 飛行器控制技術(shù).