国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的農(nóng)業(yè)知識問答系統(tǒng)研究

2021-03-11 14:04胡文嶺
智慧農(nóng)業(yè)導(dǎo)刊 2021年11期
關(guān)鍵詞:圖譜實(shí)體模塊

李 巖,胡文嶺

(河北經(jīng)貿(mào)大學(xué) 管理科學(xué)與工程學(xué)院,河北 石家莊 050061)

隨著我國數(shù)字鄉(xiāng)村建設(shè)的不斷發(fā)展,我國涌現(xiàn)出了許多農(nóng)業(yè)技術(shù)服務(wù)相關(guān)網(wǎng)站[1],為農(nóng)民提供農(nóng)業(yè)生產(chǎn)、養(yǎng)殖技術(shù)、農(nóng)產(chǎn)品銷售等信息?,F(xiàn)今越來越多的農(nóng)業(yè)從業(yè)人員在遇到生產(chǎn)、技術(shù)、信息等問題時,常常選擇利用網(wǎng)絡(luò)去查詢,以得到有效的信息或解決方法,但受限于文化水平、系統(tǒng)操作等問題,大部分農(nóng)民往往無法從大量的資源中尋求到合適的答案或信息;求助于搜索引擎時,往往會得到大量的與問題不相關(guān)的內(nèi)容,還需要進(jìn)行人工的篩選[2],而且網(wǎng)頁查詢內(nèi)容的正確性是無法保證的,用來指導(dǎo)農(nóng)民的實(shí)際應(yīng)用存在一定的隱患。

本文提出了一種通過基于知識圖譜的智能化問答系統(tǒng)來解決上述提到的問題。問答系統(tǒng)是目前自然語言處理領(lǐng)域一項(xiàng)非常熱門的研究,其主要功能是在系統(tǒng)和人類之間搭建一個橋梁,讓系統(tǒng)直接回答人類所提出的問題。問答系統(tǒng)是在搜索引擎的基礎(chǔ)上,對檢索結(jié)果進(jìn)行答案抽取等處理,使用戶可以快速、方便、準(zhǔn)確地獲得自己需要的信息。系統(tǒng)允許用戶以自然語言的形式進(jìn)行提問,并返回自然語言的解答。

當(dāng)前,深度學(xué)習(xí)技術(shù)發(fā)展迅速,問答系統(tǒng)不僅可以“讀懂”語言表面的信息,還可以“理解”深層的信息,這種技術(shù)恰好為問答系統(tǒng)的發(fā)展奠定了基礎(chǔ)。文章將結(jié)合知識圖譜的技術(shù)對問答系統(tǒng)的構(gòu)建進(jìn)行分析,同時將問答系統(tǒng)在農(nóng)業(yè)知識中的應(yīng)用進(jìn)行探究,智能的問答系統(tǒng)在農(nóng)業(yè)中的應(yīng)用也是構(gòu)建智能農(nóng)業(yè)不可或缺的一個重要部分。

1 知識圖譜相關(guān)技術(shù)

本文所研究的是知識圖譜與農(nóng)業(yè)知識和農(nóng)業(yè)領(lǐng)域的融合。近些年,知識圖譜與各領(lǐng)域、各行業(yè)、各企業(yè)的深度融合已經(jīng)成為一個重要趨勢。隨著技術(shù)的不斷發(fā)展,各類知識圖譜的邊界愈發(fā)模糊,聯(lián)系也愈發(fā)廣泛。

1.1 知識圖譜

2012年,Google公司正式提出知識圖譜的概念——是指一種大規(guī)模的語義網(wǎng)絡(luò),是結(jié)構(gòu)化的語義知識庫,用于描述概念及其相互關(guān)系,其由“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”三元組構(gòu)成[3],大量這樣的三元組交織連接,形成了一個在物理層面和邏輯層面上同時存在的知識網(wǎng)絡(luò)。知識圖譜是知識的一種表示形式,更是一種大規(guī)模的語義網(wǎng)絡(luò)。

知識圖譜可以幫助我們更快速、清晰地得到各主體間的聯(lián)系,獲取相應(yīng)知識。與傳統(tǒng)的語義網(wǎng)絡(luò)不同,知識圖譜因?yàn)槠湟?guī)模巨大而被認(rèn)為是大知識(Big Knowledge)的典型代表。除此之外,在實(shí)際應(yīng)用中,知識圖譜通常還能體現(xiàn)出語義豐富、質(zhì)量精良、結(jié)構(gòu)友好等優(yōu)勢[4]。

1.2 命名實(shí)體識別與關(guān)系抽取

實(shí)體是知識圖譜的重要組成,命名實(shí)體識別對于知識圖譜構(gòu)建具有重要意義。命名實(shí)體識別,也稱為實(shí)體抽取,是指在文本中定位命名實(shí)體的邊界并分類到預(yù)定義類型集合的過程[5]。命名實(shí)體可以理解為有文本標(biāo)識的實(shí)體,得到的結(jié)果是一個詞語序列。文本數(shù)據(jù)的實(shí)體抽取主要包括三類方法:基于深度學(xué)習(xí)的方法、基于統(tǒng)計模型的方法、基于規(guī)則和詞典的方法[6]。

實(shí)體抽取之后,系統(tǒng)還不能很好的關(guān)聯(lián)各個實(shí)體,還需要進(jìn)行關(guān)系抽取。關(guān)系抽取的任務(wù)是從無結(jié)構(gòu)的文本中抽取不同實(shí)體之間的關(guān)系,抽取的結(jié)果是關(guān)系實(shí)例,這就構(gòu)成了知識圖譜中的邊,因此關(guān)系抽取是構(gòu)建知識圖譜最重要的子任務(wù)之一。關(guān)系抽取產(chǎn)生的結(jié)果為三元組<主體,謂詞,客體>,此處的謂詞是用來記錄主體和客體之間的關(guān)系。目前,關(guān)系抽取的方法一般有:基于模板的方法、基于監(jiān)督學(xué)習(xí)的方法和基于弱監(jiān)督學(xué)習(xí)的方法。

關(guān)系抽取是很多復(fù)雜自然語言處理的基礎(chǔ),因此它的應(yīng)用也是十分廣泛的,其最重要的應(yīng)用是構(gòu)建知識圖譜。

2 農(nóng)業(yè)知識問答系統(tǒng)的設(shè)計原則

基于知識圖譜農(nóng)業(yè)知識問答系統(tǒng)設(shè)計的主要目的是為了給農(nóng)業(yè)從業(yè)者提供專業(yè)的解答和指導(dǎo)。因此本系統(tǒng)的設(shè)計原則主要圍繞用戶的體驗(yàn)、問答的精準(zhǔn)以及科學(xué)的數(shù)據(jù)等三方面來說,具體分析如下。

2.1 友好的用戶體驗(yàn)

系統(tǒng)主要面向農(nóng)民用戶,本系統(tǒng)的設(shè)計工作應(yīng)該首先考慮用戶使用的友好性,側(cè)重知識的共享、簡單明了、突出重點(diǎn),以“接地氣”的形式突出農(nóng)業(yè)知識的普及和技術(shù)的指導(dǎo)。在界面的設(shè)計上,應(yīng)選取適當(dāng)?shù)奈淖趾蛨D片相結(jié)合的形式,合理編排語句和段落,做到結(jié)構(gòu)分明,易讀易懂,以清晰明了的界面帶給用戶優(yōu)質(zhì)的體驗(yàn)。

2.2 精準(zhǔn)的問答

農(nóng)業(yè)知識問答系統(tǒng)是問答系統(tǒng)的一種,旨在幫助用戶解決各類問題,在問答環(huán)節(jié)的設(shè)計中,要把握精準(zhǔn)和快捷兩個原則。

為了保證問答的精準(zhǔn)性,面對用戶的每一次提問,系統(tǒng)需要完成問題理解、關(guān)鍵詞分析與檢索、尋找答案、匹配答案等一系列的工作,為了縮短等待時間,系統(tǒng)要以最快的速度完成上述各個工作。快捷精準(zhǔn)的問答有助于提高系統(tǒng)和用戶之間的默契程度,為用戶提供完善的服務(wù)。

2.3 科學(xué)的數(shù)據(jù)

農(nóng)民用戶往往不太擅長進(jìn)行信息的篩選和擴(kuò)展,因此,要求農(nóng)業(yè)知識問答系統(tǒng)在全面理解用戶問題的基礎(chǔ)上,所提供的解答是全面多角度的、是科學(xué)完備的。這就要求系統(tǒng)引用的數(shù)據(jù)來源要科學(xué)可靠,權(quán)威準(zhǔn)確。

3 基于知識圖譜的問答系統(tǒng)設(shè)計

基于知識圖譜的問答系統(tǒng)的總體架構(gòu)主要由前端模塊和后臺模塊組成。前端模塊主要是指問句的輸入和結(jié)果的反饋;后臺處理模塊又分為三個小模塊:問題預(yù)處理模塊、問題分析模塊和問題求解模塊。系統(tǒng)的總體架構(gòu)如圖1所示[7]。

圖1 問答系統(tǒng)的總體架構(gòu)圖

對于用戶通過前端交互界面輸入的問題,系統(tǒng)來進(jìn)行基于知識圖譜處理、分析并求解,最終將精準(zhǔn)的自然語言答案返回給用戶。

3.1 問題預(yù)處理模塊

問題預(yù)處理模塊的主要工作是對問題進(jìn)行分詞,將問題分解成符合問句本意的多個詞語,并進(jìn)行詞性標(biāo)注——分析語法并確定詞性進(jìn)行標(biāo)注。分詞和詞性標(biāo)注有助于實(shí)體識別和關(guān)系抽取,例如,從非結(jié)構(gòu)化的自然語言問題中識別如母雞、流感等實(shí)體或概念,癥狀、防治方法等實(shí)體間的關(guān)聯(lián)關(guān)系??梢姡瑔栴}預(yù)處理模塊為后續(xù)的問題分析和求解模塊奠定了基礎(chǔ)。

3.2 問題分析模塊

問題分析模塊的設(shè)計目的旨在分析用戶的問題,從中提取關(guān)鍵詞,并鑒別問題類型。當(dāng)用戶進(jìn)行問題檢索時,根據(jù)預(yù)處理模塊傳遞的分詞和詞性標(biāo)注等結(jié)果,提取關(guān)鍵詞,分析出問句對應(yīng)的問題類型,根據(jù)句法分析提取出問句主干成分,抽取問句的關(guān)鍵詞進(jìn)行擴(kuò)展,同時,提取出答案句的主干成分,并計算關(guān)鍵詞權(quán)重,提交給問題求解模塊[8]。

3.3 問題求解模塊

根據(jù)問題分析模塊得出的關(guān)鍵詞集合,信息檢索模塊首先將這些關(guān)鍵詞與數(shù)據(jù)庫中的問題進(jìn)行匹配,并直接將該問題相應(yīng)的答案返回給用戶;如果數(shù)據(jù)庫中缺少與之匹配的問題,可利用搜索引擎對關(guān)鍵詞進(jìn)行搜索,將搜索到的網(wǎng)頁進(jìn)行權(quán)重計算,形成候選答案集——網(wǎng)頁名稱、網(wǎng)頁鏈接等,這時可用HtmlParser庫將網(wǎng)頁下載到本地,根據(jù)相似度權(quán)重的大小排序,對于靠前的記錄,將原網(wǎng)頁格式去掉,留下文本信息并對句子進(jìn)行標(biāo)記,作為候選答案呈現(xiàn)給交互界面。

系統(tǒng)的數(shù)據(jù)流向如圖2所示[4,9]。

圖2 系統(tǒng)數(shù)據(jù)流向

4 結(jié)束語

如何方便、有效地為農(nóng)業(yè)從業(yè)人員提供科學(xué)準(zhǔn)確、簡潔的信息,充分發(fā)揮農(nóng)業(yè)信息資源的作用,助力農(nóng)業(yè)生產(chǎn),是數(shù)字鄉(xiāng)村建設(shè)亟待解決的問題。本文基于知識圖譜技術(shù),研究了農(nóng)業(yè)技術(shù)服務(wù)網(wǎng)站的自然語言識別問題和準(zhǔn)確查詢問題,提出了基于知識圖譜的農(nóng)業(yè)知識問答系統(tǒng)架構(gòu),農(nóng)業(yè)知識問答系統(tǒng)能夠?qū)崿F(xiàn)與用戶的智能化問答交流,為農(nóng)業(yè)從業(yè)人員進(jìn)行技術(shù)和信息查詢以及相關(guān)農(nóng)業(yè)知識的普及等提供便捷的服務(wù)。

猜你喜歡
圖譜實(shí)體模塊
基于圖對比注意力網(wǎng)絡(luò)的知識圖譜補(bǔ)全
28通道收發(fā)處理模塊設(shè)計
“選修3—3”模塊的復(fù)習(xí)備考
實(shí)體書店步入復(fù)興期?
圖表
2017實(shí)體經(jīng)濟(jì)領(lǐng)軍者
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
主動對接你思維的知識圖譜
必修模塊相關(guān)知識過關(guān)訓(xùn)練
彭阳县| 永州市| 安岳县| 南木林县| 西充县| 巴中市| 肇州县| 阜平县| 祁连县| 赤壁市| 伊宁市| 徐州市| 襄樊市| 丘北县| 林周县| 乌兰县| 唐海县| 永和县| 衡水市| 商南县| 榆林市| 柳江县| 恩施市| 馆陶县| 府谷县| 陆丰市| 鸡东县| 余庆县| 遂平县| 灵寿县| 濮阳市| 五家渠市| 东兰县| 察雅县| 东丰县| 神农架林区| 延吉市| 加查县| 米泉市| 米林县| 修文县|