国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識增強的企業(yè)技能智能問答應用研究

2022-07-25 09:42馮強中
現(xiàn)代計算機 2022年9期
關鍵詞:雙向圖譜語句

馮強中

(科大國創(chuàng)云網(wǎng)科技有限公司,合肥 230088)

0 引言

科技的迅猛發(fā)展以及網(wǎng)絡信息的爆炸式增長,致使傳統(tǒng)的信息獲取方式變得越來越不適合人們的日常需要。為了適應信息的快速增長,滿足人們的日常查詢,能夠和人們進行互動的自動問答技術逐漸走進研究者的視野。傳統(tǒng)的信息獲取方法主要是以人工為主(如人工客服、商業(yè)導購等),但由于當前網(wǎng)絡信息比較繁雜以及人們查詢信息的方式也不標準化,因此面對各式各樣的用戶查詢,人工方式會耗費大量的時間和精力去獲取用戶想要答案,特別是咨詢的問題大多數(shù)為重復的時候,資源浪費特別嚴重。因此,基于深度學習技術實現(xiàn)的自動問答模型變得十分符合現(xiàn)在人們對查詢問題的迫切需求。

大數(shù)據(jù)、機器學習、模式識別以及神經網(wǎng)絡等人工智能技術的飛速發(fā)展和成熟落地使得機器替代人工來進行沉重和繁瑣的作業(yè)成為可能。繼計算機視覺領域取得巨大進展之后,深度學習技術在自然語言處理領域也迎來了它的光輝時刻。作為自然語言處理領域重要的應用場景——智能問答機器人,是機器替代人工進行工作來提高工作效率、降低人工成本的典型代表。根據(jù)用戶問題的所屬數(shù)據(jù)領域,本文所研究的問答系統(tǒng)屬于面向常用問題集(frequently-asked questions, FAQ)的 問 答 系統(tǒng)。針對公司專業(yè)領域的知識數(shù)據(jù),本文提出了一種基于知識增強的智能問答模型。通過相關實驗,證明了本文所提出的模型不僅能夠克服之前靜態(tài)FAQ 方式的缺點,而且在面對用戶的重復性問題時,該模型能夠精確地定位用戶提問的知識,再及時、準確地給出用戶解答。該模型能夠以一問一答的交互形式及時為用戶提供服務,避免回復不及時等降低用戶體驗的情況出現(xiàn),降低了相關的人工成本以及資源。

1 相關研究

基于自然語言處理等深度學習技術實現(xiàn)的智能問答系統(tǒng)有很多,比如Bordes等對問句中實體準確定位,將問句中的實體抽取出來,再將實體連接到知識庫,以該實體為起點,查找與其關系相連的實體作為候選答案。其次計算這些實體關系的組合與問句之間的相似度,通過打分排序,選擇相似度最大的候選項返回答案,取得很好效果。Dong 等設計了一種多列卷積神經網(wǎng)絡,根據(jù)知識圖譜特點,定義答案路徑、上下文路徑、答案類型,作為參考特征,并且每個特征對應一個已經訓練的卷積神經網(wǎng)絡,用于捕獲問句中語義信息,再通過計算問句與答案之間的相似度,對結果打分排序,排名第一的作為最終答案。Dong 等提出用兩級encoder-decoder 改進機器翻譯端到端模型,有效解決自然語言與語義表示之間跨度大的問題,通過問題分解來提升性能。Qu 等提出了一種基于相似矩陣的遞歸神經網(wǎng)絡(AR-SMCNN)模型,利用RNN 順序建模特性捕獲語義及相關性,使用注意機制跟蹤實體和關系重要部分,并制定了一種準確確定問句中主實體的方法。史夢飛設計了一種分布式的問答系統(tǒng),將問題句進行分類,提高下游任務的準確性,通過構建基于深度學習的End2End 問答模型,同時考慮中文問句的復雜性,提出結合語義依存分析的剪枝算法及自動化模板的方法。付燕等用LSTM+CNN 提取問題和答案的特征,利用構造負樣本的方法,完成了一種基于混合神經網(wǎng)絡的問答算法。曹明宇等基于當前主流的BILSTM-CRF 神經網(wǎng)絡模型,對問題中的藥物、疾病等實體進行識別;然后結合TF-IDF 與預訓練的詞向量,得到問題向量,將其與預先定義的問題模板進行相似度匹配,得到最相似的問題模板;該系統(tǒng)可以有效地回答原發(fā)性肝癌相關的藥物、疾病及表征等問題。Qu 等在傳統(tǒng)的基于向量模型的基礎上,提出一種AR -SMCNN 模型,利用CNN 與RNN 神經網(wǎng)絡優(yōu)化提取信息的精度,解決了之前忽視自然語言原始信息的問題,取得了Simple Question 測評上的最優(yōu)效果。Hamilton 等認為知識圖譜是一張由關系和實體組成的圖,通過學習實體低緯度嵌入表示,可以預測潛在或者缺失的邊。目前知識圖譜查詢的難點在于處理更為復雜的邏輯查詢,因為這涉及多個未發(fā)現(xiàn)的邊、實體和屬性。針對這一問題,Hamilton 等設計了一種框架,實現(xiàn)在不完整知識圖譜上有效地對連接邏輯查詢進行預測,在低維空間中對圖譜節(jié)點embedding 操作,并在這個embedding space 中將邏輯運算符表示為學習過的幾何運算(例如平移、旋轉)。通過在低維embedding space 中執(zhí)行邏輯運算,可以預測圖譜中的關系。

由以上方法可知,神經網(wǎng)絡和知識圖譜在知識問答領域的表現(xiàn)都十分良好。但在實際應用中,尤其面對公司特定領域知識的業(yè)務場景時,很難獲取如上述方法那樣充足的數(shù)據(jù)。因此面對這種情況,大多數(shù)面向公司專業(yè)領域知識問答模型都是基于字符匹配的。但是這樣的模型準確率卻不高??紤]到神經網(wǎng)絡進行特征提取的效果往往是最優(yōu)越的,而知識圖譜表達數(shù)據(jù)中的相關實體以它們之間的關系最有效、最直觀。因此本文針對較少的公司專業(yè)領域的數(shù)據(jù),通過數(shù)據(jù)增強,然后以雙向LSTM 結合知識圖譜為基礎進行知識增強,構建出了一種基于知識增強的智能問答模型。

2 數(shù)據(jù)處理

數(shù)據(jù)來源于公司特定領域的專業(yè)知識,具體內容如表1所示。其中“問題”表示企業(yè)知識庫中用來查詢的標準查詢語句,“回復”是左側每個“標準問題”對應的標準答案,“相似問題”是“問題”列中每個問題的相似查詢語句。例如:輸入查詢語句“人才政策”,回復的答案就是“1、合肥市……”;同樣,考慮到用戶在進行查詢時所輸入的自然語言不一定標準,可能會輸入“人才補貼”、“住房補貼”等相對接近標準問題“人才政策”的相似查詢語句,也應該返回問題“人才政策”的答案。

表1 企業(yè)技能知識庫原始數(shù)據(jù)

為了方便模型構建,我們需要把表1的數(shù)據(jù)進行處理。

(1)表1所示的數(shù)據(jù)量太少,并且沒有相關的負樣本,因此需要把表1 的數(shù)據(jù)進行數(shù)據(jù)增強,處理成<問題,相似問題,非相似問題>格式的數(shù)據(jù),詳細如表2所示。

表2 標準問題匹配數(shù)據(jù)集

通過對原有數(shù)據(jù)進行清洗、篩選、擴展等數(shù)據(jù)處理操作,將“問題”列中的每個問題和“相似問題”列中的每個相似問題進行匹配擴展,同時對“問題”列中非當前問題的其他問題,包括與之對應的相似語句都可以是當前問題的非相似問題,最終數(shù)據(jù)從300 多條增強為95336條。

(2)為快速查詢相關問題,本文構建了知識圖譜,為此將表1 的數(shù)據(jù)處理成三元組,見表3。

表3 企業(yè)知識庫三元組數(shù)據(jù)

為構建知識圖譜,表1中“問題”列中的每個問題,“回復”列中的每個答案,“相似問題”列中的每個相似問題都被定義為實體,并且考慮到表1中的數(shù)據(jù)比較少,知識比較分散,本文為知識圖譜添加了一個主實體:機器人(robot),并且定義主實體和“問題”實體之間的關系是‘相關’(related)。通過相關數(shù)據(jù)處理,本文一共定義“問題”和“答案”實體各126 個,“相似問題”實體315 個。實體之間的關系3 個,分別是相關、答案以及相似。比如實體“人才政策”和實體“機器人”的關系為‘相關’,和“1、合肥市公共租賃住房申請指南…”的關系為‘答案’,和“住房補貼”的關系是‘相似’。

3 模型構建

模型的總體架構思路如圖1所示,問題查詢語句輸入模型后,由訓練數(shù)據(jù)訓練完成的雙向LSTM 模型可以對輸入的查詢語句進行‘標準化’,得到標準問題。將標準問題輸入構建的知識圖譜,利用知識圖譜可以對標準問題進行查詢,返回用戶所需答案。下面將具體說明雙向LSTM模型和相應的知識圖譜。

圖1 模型總體架構示意圖

3.1 雙向LSTM模型示意圖

將數(shù)據(jù)處理成<問題q,相似問題q+,非相似問題q->格式之后,首先建立詞典和隨機初始化詞向量矩陣,然后索引得到每一個問題的語義矩陣表示,帶入雙向LSTM 模型中對問題的語義向量表示進行微調訓練,最后迭代縮小損失函數(shù),使得<問題,相似問題>的cosine 的值變大,而<問題,非相似問題>的cosine 值變小。具體框架示意圖如圖2所示。

較遠的詞與詞之間的聯(lián)系選取出更好的特征。最后損失函數(shù)的計算采用如下公式:

其中,是需要設定的參數(shù),可以改變,實驗中設置為1,、、分別是問題、相似問題、非相似問題的語義表示向量。通過迭代縮小損失函數(shù),使得<問題,相似問題>的cosine的值變大,而<問題,非相似問題>的cosine 值變小。

3.2 知識圖譜示例圖

根據(jù)表3企業(yè)知識三元組數(shù)據(jù)生成的知識圖譜總體如圖3 所示。它以主實體robot 為中心向外發(fā)散,robot 用‘相關’關系連接著每個“問題”和“相似問題”的實體,其中每個實體都通過各自的‘關系’連接著其他實體。

圖3 公司技能知識圖譜示例圖

下面是“問題”實體中的“人才政策”實體對應的子圖譜。它用‘相關’關系連接著主實體機器人;用‘相似’關系連接“住房補貼”、“租房補貼”等相似實體;‘答案’關系直指它對應的標準答案。同時,我們從圖2也可以看到,每個“相似實體”也都有自己的關系連接著其他實體。

圖4 “人才政策”單個實體示例圖

4 實驗結果分析

本次實驗采用95336 條數(shù)據(jù)和雙向2 層的LSTM 預訓練模型進行實驗,將數(shù)據(jù)按照7:3 的比例劃分成訓練集和測試集。然后將訓練集的數(shù)據(jù)按2000 一組進行分組,每一組計算一次損失來迭代更新模型,最后雖不滿2000 個仍然將其分為一組,迭代50輪。通過測試集中問題的句子向量以及相似問題的句子向量,得到測試集相似和非相似的準確率。模型的損失變化趨勢如圖5 所示,雙向LSTM 模型訓練時間為305 s,精確率達到83.44%。

圖5 雙向LSTM損失函數(shù)變化趨勢圖

模型訓練完成之后,輸入問題“住房補貼”進行測試,模型的預測結果如圖6所示。

圖6 測試用例示意圖

由測試結果可知,當輸入查詢語句“住房補貼”后,模型能夠將標準問題“人才政策”對應的答案輸出出來,說明本文提出的模型能夠及時響應并返回準確答案。

5 結語

本文針對公司專業(yè)領域的知識數(shù)據(jù),以雙向LSTM 結合知識圖譜為基礎進行知識增強,提出了一種基于知識增強的智能問答模型。面對公司數(shù)據(jù)量比較少的情況,先以數(shù)據(jù)增強為手段對數(shù)據(jù)進行擴展,然后利用處理后的數(shù)據(jù)對雙向LSTM 網(wǎng)絡進行微調訓練,使得微調后的模型能對輸入的自然語言語句進行特征提取,然后與公司專業(yè)技能知識庫中相對應的標準“問題”進行匹配,得到最相似的標準問題。之后將標準問題送入利用問題、相似問題和答案等實體構建的知識圖譜中,利用查詢語言得到與之相應的標準答案。實驗證明,本文提出的模型提升了答案準確率并提升了響應速度,能在節(jié)省大量資源的前提下實現(xiàn)對用戶查詢的自動回復。但由于數(shù)據(jù)量太少,本文模型能實現(xiàn)自動問答的問題僅僅只支持已有的公司數(shù)據(jù),因此后續(xù)工作會繼續(xù)收集數(shù)據(jù)來對模型進行迭代優(yōu)化。在數(shù)據(jù)量充足的情況下,我們還會嘗試結合圖表征來學習更多的語義知識,進一步提高模型的準確率。

猜你喜歡
雙向圖譜語句
“植物界大熊貓”完整基因組圖譜首次發(fā)布
精武門的武術圖譜與徐悲鴻
人才與企業(yè)“雙向奔赴”——咸陽市激發(fā)人才創(chuàng)新力
混凝土泵車用雙向液壓鎖故障探討
圖表
樸素高效的雙向快充
基本算法語句
我喜歡
廣電網(wǎng)絡雙向網(wǎng)改造方案
作文語句實錄
安溪县| 田林县| 古交市| 吴江市| 灌云县| 阿勒泰市| 长武县| 南昌县| 白水县| 辽源市| 陆河县| 五家渠市| 辉南县| 德庆县| 囊谦县| 健康| 蕲春县| 万盛区| 鹿泉市| 石景山区| 乐亭县| 灵寿县| 子洲县| 泸定县| 平江县| 北安市| 三河市| 奉节县| 灵璧县| 措勤县| 霍邱县| 安康市| 宁明县| 怀来县| 宜城市| 尖扎县| 磴口县| 仪征市| 兴化市| 阿拉善右旗| 昭平县|