国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自然語(yǔ)言處理的問(wèn)答系統(tǒng)綜述

2021-01-02 13:23:41偉,王
科技創(chuàng)新與應(yīng)用 2021年22期
關(guān)鍵詞:信息檢索圖譜實(shí)體

蒲 偉,王 恒

(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川750000)

語(yǔ)言是人類生活中不可或缺的一種溝通方式,自然語(yǔ)言是一種表達(dá)直接且簡(jiǎn)單的工具,自然語(yǔ)言處理(Natural Language Processing,NLP)是一種機(jī)器語(yǔ)言,可以將人類的交流轉(zhuǎn)換為機(jī)器語(yǔ)言,以便于讓計(jì)算機(jī)理解人類的想法。伴隨著網(wǎng)絡(luò)的發(fā)展,自然語(yǔ)言處理在人工智能方面迅速發(fā)展,被越來(lái)越多的人所熟知和運(yùn)用。伴隨著網(wǎng)絡(luò)的飛速增長(zhǎng),促使網(wǎng)絡(luò)信息量不斷增加,人們獲得信息就要更加精確。利用傳統(tǒng)的搜索引擎技術(shù)就很難實(shí)現(xiàn)這些高要求,而智能問(wèn)答技術(shù)成為解決這個(gè)問(wèn)題的有效手段。早在20世紀(jì)60年代人工智能研究剛開(kāi)始的時(shí)候,人們就提出了要讓計(jì)算機(jī)像人一樣用自然語(yǔ)言來(lái)回答人們的問(wèn)題,實(shí)現(xiàn)“人機(jī)對(duì)話”,這就是問(wèn)答系統(tǒng)[1]。智能問(wèn)答就是指將用戶的需求輸入到計(jì)算機(jī)中利用計(jì)算機(jī)自動(dòng)生成答案并輸出,問(wèn)答系統(tǒng)不像傳統(tǒng)的搜索引擎那樣將問(wèn)題分解成關(guān)鍵字。問(wèn)答系統(tǒng)在收到用戶的問(wèn)題后,將問(wèn)答系統(tǒng)和自然語(yǔ)言處理技術(shù)結(jié)合起來(lái),對(duì)問(wèn)題進(jìn)行解析處理,利用算法和模型,將用戶需要的答案直接輸出,不像搜索引擎輸出的是相關(guān)的網(wǎng)頁(yè)。所以智能問(wèn)答系統(tǒng)和傳統(tǒng)搜索引擎相比可以更有效地為用戶解決問(wèn)題。在問(wèn)答系統(tǒng)中,我們可以根據(jù)答案的來(lái)源分類,可以分為基于知識(shí)庫(kù)的問(wèn)答系統(tǒng),基于文檔的問(wèn)答系統(tǒng)和答案選擇,按照應(yīng)用的領(lǐng)域不同,我們又可以將問(wèn)答系統(tǒng)分為基于限定領(lǐng)域的問(wèn)答系統(tǒng)和開(kāi)放領(lǐng)域的問(wèn)答系統(tǒng)。限定域問(wèn)答系統(tǒng)只能解決限定在某些范圍或者某些范圍的問(wèn)題,常見(jiàn)的酒店預(yù)訂、網(wǎng)上訂餐等問(wèn)答系統(tǒng)都是屬于限定域問(wèn)答系統(tǒng)。開(kāi)放域問(wèn)答系統(tǒng)指的是回復(fù)的問(wèn)題不限定在某些特定范圍。

1 自然語(yǔ)言處理的發(fā)展

自然語(yǔ)言處理(Natural Language Processing)是人工智能(AI)的一個(gè)子領(lǐng)域。自然語(yǔ)言處理是研究人與人以及人機(jī)交互的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。其發(fā)展分為三個(gè)階段:20世紀(jì)50年代開(kāi)始是萌芽期;20世紀(jì)60年代是發(fā)展期;20世紀(jì)90年代是繁榮期。

早期計(jì)算機(jī)剛剛問(wèn)世的時(shí)候,英國(guó)工程師布斯和美國(guó)工程師威弗最先提出了利用計(jì)算機(jī)進(jìn)行翻譯,但是起初機(jī)器翻譯系統(tǒng)的粗糙導(dǎo)致翻譯出來(lái)的質(zhì)量非常低,人們慢慢就對(duì)機(jī)器翻譯失去了好感,有的人甚至認(rèn)為機(jī)器翻譯是永遠(yuǎn)不可能實(shí)現(xiàn)的,意味著第一次機(jī)器翻譯實(shí)驗(yàn)就失敗了。在20世紀(jì)50年代是計(jì)算機(jī)科學(xué)發(fā)展的基礎(chǔ)時(shí)段,當(dāng)時(shí)提出來(lái)的理論都是基于圖靈機(jī)的模型。隨著發(fā)展在基于圖靈機(jī)模型的基礎(chǔ)上提出正則表達(dá)式以及有限自動(dòng)機(jī)。在1956年,Chomsky提出了一種關(guān)于上下文無(wú)關(guān)語(yǔ)法的模式,同年在人工智能誕生之后,自然語(yǔ)言處理迅速融入該領(lǐng)域之中。在快速發(fā)展期,上下文無(wú)關(guān)語(yǔ)法的提出使得該領(lǐng)域的研究分為了基于規(guī)則的符號(hào)派和基于概率的隨機(jī)派,促使了未來(lái)的很多年人們都在研究這兩種方法到底哪種方法更有效。雖然機(jī)器翻譯面臨著各種困難,但是在法國(guó)、日本等國(guó)家仍然在堅(jiān)持研究機(jī)器翻譯。直到20世紀(jì)70年代的時(shí)候,機(jī)器翻譯的研究者逐漸找到了研究的思路,在機(jī)器翻譯的過(guò)程中要使原句的語(yǔ)義和機(jī)器翻譯出來(lái)的語(yǔ)義一致,好的機(jī)器翻譯系統(tǒng)就是能夠?qū)⒃涞恼Z(yǔ)義準(zhǔn)確無(wú)誤地翻譯出來(lái),從此機(jī)器翻譯就出現(xiàn)了復(fù)蘇發(fā)展的趨勢(shì)。至此,機(jī)器翻譯中的語(yǔ)義分析就受到了越來(lái)越多研究者的重視。繁榮期最突出的是機(jī)器翻譯的研究走向?qū)嵱没?,市?chǎng)上出現(xiàn)了非常多的機(jī)器翻譯系統(tǒng),逐步進(jìn)入了商業(yè)化模式并且運(yùn)用在多種行業(yè)。

2 問(wèn)答系統(tǒng)研究方向

2.1 視覺(jué)問(wèn)答

視覺(jué)問(wèn)答[1]將圖片中提及的問(wèn)題用自然語(yǔ)言輸出,想要準(zhǔn)確地回答問(wèn)題,首先需要知道照片所表示的內(nèi)容以及問(wèn)題的含義,其次還需要了解圖片和文字之間存在的對(duì)應(yīng)關(guān)系。

在視覺(jué)問(wèn)答系統(tǒng)中常見(jiàn)的通過(guò)以下兩種方法實(shí)現(xiàn)。Kushal[2]基于貝葉斯方法實(shí)現(xiàn)了視覺(jué)問(wèn)答系統(tǒng),該模型通過(guò)對(duì)問(wèn)題和圖片特征建模共現(xiàn)統(tǒng)計(jì)概率,使用貝葉斯模型對(duì)問(wèn)題、圖片和答案進(jìn)行推斷,然后計(jì)算每個(gè)答案的邊緣概率,將概率最高的作為問(wèn)題的答案。

在基于深度學(xué)習(xí)的視覺(jué)問(wèn)答系統(tǒng)方法中,有學(xué)者[3-4]將注意力機(jī)制引入視覺(jué)問(wèn)答系統(tǒng)的研究中。通過(guò)注意力機(jī)制關(guān)注到圖片部分的重要區(qū)域,在圖片上產(chǎn)生較大的權(quán)重,從而給出更準(zhǔn)確的答案。

2.2 基于知識(shí)圖譜的問(wèn)答

基于知識(shí)圖譜的問(wèn)答系統(tǒng)已經(jīng)成為一種訪問(wèn)大型知識(shí)圖譜的流行方式。通過(guò)訪問(wèn)知識(shí)圖譜的結(jié)構(gòu)化數(shù)據(jù),其可以使用自然語(yǔ)言來(lái)準(zhǔn)確地回答事實(shí)性問(wèn)題。知識(shí)圖譜是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò)系統(tǒng),可以將一些不同類型的信息鏈接在一起,形成知識(shí)圖譜的關(guān)系網(wǎng)絡(luò)結(jié)構(gòu),可以幫助人們直接找到各個(gè)物質(zhì)之間的關(guān)系。目前基于知識(shí)圖譜的問(wèn)答系統(tǒng)已經(jīng)運(yùn)用在多種領(lǐng)域,張楚婷[5]研究并實(shí)現(xiàn)了基于知識(shí)圖譜的旅游問(wèn)答系統(tǒng),在旅游高峰期的時(shí)候可以幫助游客解決一些問(wèn)題,不再通過(guò)人工咨詢的方式獲取信息。幫助游客在游玩的時(shí)候減少一些不必要的時(shí)間損耗?;谥R(shí)圖譜的問(wèn)答系統(tǒng)在教育、醫(yī)療、汽車(chē)、農(nóng)業(yè)、金融、電影等領(lǐng)域都得到了充分的研究和應(yīng)用,由于知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu),充分體現(xiàn)了良好的推理能力,在公安情報(bào)分析以及推理、醫(yī)療系統(tǒng)問(wèn)診以及開(kāi)藥等系統(tǒng)中都得到了較好的效果。

在基于知識(shí)圖譜的問(wèn)答系統(tǒng)中,在旅游領(lǐng)域,張楚婷[5]運(yùn)用了基于BiLSTM-CRF的細(xì)粒度問(wèn)答模型用于候選主實(shí)體以及實(shí)體的選擇,并且在關(guān)系抽取中用了注意力機(jī)制和CNN抽取之間的關(guān)系。在實(shí)體識(shí)別和關(guān)系抽取中的準(zhǔn)確率和識(shí)別率得到提高。韓馥[6]在張楚婷[5]的基礎(chǔ)上進(jìn)行改進(jìn)用BiLSTM-CNN-CRF模型進(jìn)行實(shí)體識(shí)別,進(jìn)一步提高了實(shí)體識(shí)別的準(zhǔn)確率和效率。在屬性鏈接上,在CNN和注意力機(jī)制用作關(guān)系識(shí)別的基礎(chǔ)上,加入了Droppout方法,目的是防止模型訓(xùn)練過(guò)程中擬合數(shù)據(jù)集。在教育方面,李軒[7]將企業(yè)和高校學(xué)生之間聯(lián)系在一起,企業(yè)在招聘的時(shí)候需要不同的人才,基于BiLSTM+CNNCRF的實(shí)體識(shí)別模型,對(duì)職位信息數(shù)據(jù)、技術(shù)領(lǐng)域以及個(gè)人能力等實(shí)體進(jìn)行抽取,通過(guò)序列標(biāo)注問(wèn)題,利用Keras Embedding模型進(jìn)行詞嵌入矩陣,在實(shí)體識(shí)別后進(jìn)行實(shí)體間的關(guān)系抽取,并且搭建一個(gè)基于知識(shí)圖譜的教育問(wèn)答系統(tǒng),可以通過(guò)問(wèn)答系統(tǒng)進(jìn)行人機(jī)交互,學(xué)生能在問(wèn)答系統(tǒng)中提問(wèn),了解不同崗位以及不同的領(lǐng)域需求,可以提前規(guī)劃自己的方向,在明確求職目標(biāo),崗位的工作范疇來(lái)提高學(xué)習(xí)效率。在法律領(lǐng)域,黃薇屹[8]提出基于法律領(lǐng)域的知識(shí)圖譜問(wèn)答系統(tǒng),并且引入少量樣本和遷移學(xué)習(xí)模型運(yùn)用在基于知識(shí)圖譜的法律問(wèn)答系統(tǒng)中,在遷移學(xué)習(xí)模型和少量數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn)更快的迭代,實(shí)驗(yàn)效果明顯提升。

目前構(gòu)建知識(shí)圖譜的問(wèn)答系統(tǒng)主要基于以下幾種方法?;谝?guī)則的方法,Mekhaldi[9]使用該方法將問(wèn)題映射成謂詞然后進(jìn)行結(jié)構(gòu)化查詢,這種方法的優(yōu)點(diǎn)是準(zhǔn)確率較高但是規(guī)則是由人設(shè)計(jì)的,所以泛化能力較差。構(gòu)建模板的問(wèn)答方法,該方法主要是使用已知模板成分匹配句子中的內(nèi)容。Cui[10]提出了一種基于模板的問(wèn)題表示方法,針對(duì)簡(jiǎn)單事實(shí)問(wèn)答,在大規(guī)模模板自動(dòng)化生成方面,提出優(yōu)化方案。語(yǔ)義解析的問(wèn)答方法,基于詞典-文法的語(yǔ)義解析方法,基于神經(jīng)網(wǎng)絡(luò)的方法,基于知識(shí)圖譜嵌入學(xué)習(xí)的問(wèn)答方法及多跳推理的知識(shí)圖譜問(wèn)答等。

3 相關(guān)理論技術(shù)

基于不同類型的問(wèn)答系統(tǒng)在數(shù)據(jù)處理以及技術(shù)實(shí)現(xiàn)方面存在著差異,但是主要技術(shù)有問(wèn)題預(yù)處理、信息檢索以及答案生成。

3.1 問(wèn)題預(yù)處理

在問(wèn)答系統(tǒng)工作時(shí),進(jìn)行下一步之前的首要任務(wù)就是對(duì)問(wèn)題進(jìn)行預(yù)處理。問(wèn)題預(yù)處理包括進(jìn)行分詞、去除停用詞、詞性標(biāo)注以及語(yǔ)法分析等任務(wù)。問(wèn)答系統(tǒng)的類型不同,在問(wèn)題類別的判別上就是一項(xiàng)重要的工作,答案的類別就是依據(jù)問(wèn)題的類別判斷出來(lái)的,所以這個(gè)過(guò)程對(duì)問(wèn)答系統(tǒng)來(lái)說(shuō)必不可缺。問(wèn)答系統(tǒng)遇到的問(wèn)題都是由若干個(gè)詞或者詞組組成,所以要獲得關(guān)鍵詞信息就要對(duì)問(wèn)題進(jìn)行分詞,提取問(wèn)題中的關(guān)鍵詞;關(guān)鍵詞的提取是問(wèn)題分析的核心步驟,問(wèn)答系統(tǒng)中信息檢索就是通過(guò)關(guān)鍵字進(jìn)行檢索,所以關(guān)鍵字抽取與信息檢索的準(zhǔn)確度高低有密切的聯(lián)系。

3.2 信息檢索

用戶在問(wèn)答系統(tǒng)中通過(guò)提問(wèn)的方式得到最準(zhǔn)確的答案,主要是通過(guò)信息檢索從文檔或者知識(shí)庫(kù)中檢索出答案。問(wèn)答系統(tǒng)中信息檢索是必不可少的一步。首先需要了解用戶問(wèn)句所表示的含義與意圖,利用信息檢索技術(shù)在知識(shí)庫(kù)中抽取相似的信息作為回復(fù)的答案。在不同類型的問(wèn)答系統(tǒng)中檢索方式也各不相同;如基于文本類的問(wèn)答系統(tǒng),主要是對(duì)文檔或者相關(guān)文字縮小答案范圍,最后抽取出最精準(zhǔn)的答案;基于問(wèn)答對(duì)的問(wèn)答系統(tǒng)主要根據(jù)在問(wèn)答語(yǔ)料庫(kù)中匹配相似度較高的句子進(jìn)行檢索;基于知識(shí)圖譜的問(wèn)答系統(tǒng),主要通過(guò)實(shí)體鏈接將問(wèn)句中的實(shí)體和知識(shí)圖譜相映射查找相對(duì)的實(shí)體信息。

3.3 答案生成

問(wèn)答系統(tǒng)的最后一個(gè)步驟就是答案生成,在基于文本和問(wèn)題答案對(duì)的問(wèn)答系統(tǒng)中都是通過(guò)信息檢索得到數(shù)據(jù),依據(jù)文檔中的信息,抽取出與問(wèn)句相似的句子作為答案返回給用戶;在基于結(jié)構(gòu)化數(shù)據(jù)類型的問(wèn)答系統(tǒng)中,主要是通過(guò)在答案庫(kù)中抽取出來(lái)與之對(duì)應(yīng)的實(shí)體給用戶。答案生成模塊主要是用候選答案抽取,在文檔或者段落中抽取出可能的答案作為一個(gè)答案集,然后在答案集中通過(guò)實(shí)體的類別與問(wèn)題中關(guān)鍵字或者實(shí)體進(jìn)行比較,計(jì)算各個(gè)實(shí)體之間的權(quán)重,抽取出相似度最高的生成答案,然后將該答案返回給用戶。

4 結(jié)束語(yǔ)

隨著數(shù)據(jù)的增加,查找數(shù)據(jù)難度越來(lái)越大,用戶越來(lái)越需要通過(guò)問(wèn)答系統(tǒng)獲取想要的答案,現(xiàn)階段問(wèn)答系統(tǒng)剛剛處于起步階段,只能處理一些簡(jiǎn)單的問(wèn)答和推理。大量學(xué)者也在不斷地研究問(wèn)答系統(tǒng),由于數(shù)據(jù)變多,基于知識(shí)圖譜的問(wèn)答系統(tǒng)研究的相關(guān)技術(shù)不斷突破,應(yīng)用在不同的場(chǎng)景。

猜你喜歡
信息檢索圖譜實(shí)體
繪一張成長(zhǎng)圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
主動(dòng)對(duì)接你思維的知識(shí)圖譜
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
华池县| 毕节市| 迁西县| 靖远县| 太仆寺旗| 曲阳县| 墨江| 夏津县| 台州市| 祁门县| 北川| 西华县| 平谷区| 安西县| 万载县| 大荔县| 海淀区| 肥东县| 南乐县| 合川市| 塔城市| 文化| 青冈县| 崇礼县| 甘谷县| 保靖县| 广饶县| 将乐县| 额尔古纳市| 崇明县| 平果县| 宜春市| 安吉县| 黔西| 庆安县| 东乡县| 榕江县| 新竹县| 博乐市| 黔南| 疏勒县|