國網(wǎng)河南信通公司 何軍霞 河南九域騰龍信息工程有限公司 馮 楠 蘇 斌 楊 光
在電力客服行業(yè)中,隨著人工智能的快速發(fā)展,知識(shí)圖譜已經(jīng)廣泛地使用在各個(gè)電力系統(tǒng)的客服中,通過系統(tǒng)本體、關(guān)鍵字本體以及問答本體,將不同系統(tǒng)的知識(shí)緊密地聯(lián)系在一起,并且可視化的效果也帶來了眼前一亮的效果。通過知識(shí)圖譜可基本上解決客服中的各種問題,而且當(dāng)使用者使用一定時(shí)間后還可實(shí)現(xiàn)推薦的功能,但是在電力行業(yè),復(fù)雜的系統(tǒng)頁面各種操作以及報(bào)錯(cuò)信息,如果使用傳統(tǒng)的知識(shí)圖譜問答系統(tǒng),還需要根據(jù)面對(duì)的情況按照自己的理解表達(dá)成文本,才能夠使用客服系統(tǒng)。
于是就出現(xiàn)了識(shí)圖智能問答系統(tǒng),針對(duì)的知識(shí)體系還是同一套,新增了圖片知識(shí)節(jié)點(diǎn),每個(gè)圖片都需要和已有的問答對(duì)進(jìn)行匹配,使用Milvus 作為向量庫對(duì)文本和圖片數(shù)據(jù)進(jìn)行存儲(chǔ),之所以選擇Milvus,是因?yàn)閳D片向量生成以及匹配需要一定的時(shí)間,而通過向量數(shù)據(jù)庫就可將文本以及圖片向量預(yù)先存儲(chǔ)好,在進(jìn)行向量檢索時(shí)的速度就特別快,從而提升了識(shí)圖智問的效率。本次研究將提供一種基于BERT+Milvus+OCR 的框架,實(shí)現(xiàn)文本、圖片知識(shí)的獲取與存儲(chǔ),以及快速匹配的識(shí)圖智問方法。
Bert(Bidirectional Encoder Representation from Transformers)是一個(gè)語言表征模型。以往的語言模型是單向的,或者是把兩個(gè)獨(dú)立的單向語言模型反向拼接到一起來進(jìn)行預(yù)訓(xùn)練,而Bert 是采用新的Mask 機(jī)制(MLM),可使得模型理解上下文的語言表征,一經(jīng)發(fā)布就在11個(gè)NLP 任務(wù)中成為SOTA,令人驚訝。該模型有以下主要優(yōu)點(diǎn):引入Masked LM(帶mask 機(jī)制的語言模型訓(xùn)練),以生成深層的雙向語言表征;引入Next Sentence Prediction,更好的服務(wù)問答、推理、句主題關(guān)系等NLP 任務(wù);便于fine-tune,因?yàn)樵诿總€(gè)模型層中都可獲取到對(duì)應(yīng)的狀態(tài),下游任務(wù)根據(jù)不同的模型層疊加可實(shí)現(xiàn)各種任務(wù),這就使得在這整個(gè)微調(diào)過程當(dāng)中不需要修改模型的特定結(jié)構(gòu)。
OCR[1](Optical Character Recognition)叫做光學(xué)字符識(shí)別。它利用計(jì)算機(jī)技術(shù)以及光學(xué)技術(shù),讀取紙上印刷或書寫的文字,并將其轉(zhuǎn)換成人們能夠理解、且計(jì)算機(jī)也能夠接受的格式。圖片文字抽取是計(jì)算機(jī)視覺任務(wù)之一,也已經(jīng)相對(duì)比較成熟,在商業(yè)上也有不少落地項(xiàng)目。
Milvus 是建立在Annoy、NMSLIB、Faiss 等向量索引庫基礎(chǔ)上的一款向量相似度搜索引擎,其易于使用、可靠、功能強(qiáng)大以及穩(wěn)定。Milvus 集成了一些向量相似計(jì)算方法以及向量索引庫,并且對(duì)外提供了檢索API,不僅可實(shí)現(xiàn)快速的檢索,還能夠?qū)V掉非向量數(shù)據(jù)。當(dāng)數(shù)據(jù)達(dá)到一定規(guī)模、達(dá)到大數(shù)據(jù)概念時(shí),Milvus 也能提供集群解決方案。
本次研究涉及的是一種基于BERT+Milvus+OCR 圖片文本特征表示庫架構(gòu)的電力客服數(shù)據(jù)識(shí)圖智問方法,解決了通過報(bào)錯(cuò)頁面截圖抽取知識(shí)及向量快速檢索問答,旨在從電力系統(tǒng)中截取出現(xiàn)提示或者報(bào)錯(cuò)的頁面,以及操作手冊(cè)中文本和圖片信息,創(chuàng)建問題集合、答案集合以及向量表示集合,使用Milvus 存儲(chǔ)電力客服知識(shí)。
該方法步驟:收集內(nèi)網(wǎng)郵箱系統(tǒng)的操作手冊(cè)、問題手冊(cè)及系統(tǒng)頁面截圖;讀取word 文檔數(shù)據(jù),包括問答數(shù)據(jù)以及圖片數(shù)據(jù);對(duì)內(nèi)網(wǎng)郵箱系統(tǒng)問答數(shù)據(jù)與圖片實(shí)現(xiàn)一一匹配,形成結(jié)構(gòu)化數(shù)據(jù);基于OCR[2]對(duì)圖片進(jìn)出文字識(shí)別抽??;使用BERT 模型,微調(diào)實(shí)現(xiàn)提取內(nèi)網(wǎng)郵箱系統(tǒng)文本數(shù)據(jù)的語義特征;基于SimBert 實(shí)現(xiàn)問答對(duì)于圖片知識(shí)表示的同一空間映射,形成識(shí)圖智問語義相似匹配模型;基于Milvus 將文本與圖片特征表示數(shù)據(jù)存儲(chǔ)至向量數(shù)據(jù)庫。該方法可有效地解決從海量的數(shù)據(jù)中快速匹配問答對(duì)的問題,提升圖片與文本相似的準(zhǔn)確率,最終提升識(shí)圖智問性能。
隨著計(jì)算機(jī)的發(fā)展,已從工業(yè)時(shí)代進(jìn)入了信息時(shí)代。而在這個(gè)數(shù)據(jù)滿天飛的時(shí)代,如何整理以及有效利用數(shù)據(jù)變得越來越重要。通過整理好的數(shù)據(jù)及自然語言處理技術(shù)的加持,可實(shí)現(xiàn)多種多樣的功能,有數(shù)據(jù)分析、數(shù)據(jù)推薦、數(shù)據(jù)推理等落地場景。在電力行業(yè)中,客服系統(tǒng)是其對(duì)外的重要窗口,是一個(gè)重要的組成部分,為提高客服使用效率和達(dá)標(biāo)質(zhì)量,相關(guān)部門近年來也一直在電力客服的建設(shè)中增加投入。
傳統(tǒng)電力客服采用的是人工的形式,在面對(duì)用戶提問時(shí),人工座席可根據(jù)自己的豐富經(jīng)驗(yàn)或者查詢對(duì)應(yīng)的問題手冊(cè)來回答一系列提問題。這也帶來一系列的問題,如簡單問題機(jī)械化,復(fù)數(shù)次數(shù)多容易導(dǎo)致出錯(cuò);專業(yè)的座席需要時(shí)間培養(yǎng);24小時(shí)座席在線需要多人參與等問題。隨著自然語言處理技術(shù)的發(fā)展,智能客服很快就衍生出來了,并得到了越來越多的研究與關(guān)注,智能客服可代替人工座席來回答一些簡單、高頻率的問題,這樣有助于減少座席的工作量和去除機(jī)械化思維,從而有時(shí)間可去解決更復(fù)雜的問題,同時(shí)智能客服機(jī)器人可輕松實(shí)現(xiàn)24小時(shí)全天滿狀態(tài)服務(wù)。
通過以上這些優(yōu)勢(shì),智能客服明顯能夠提高電力行業(yè)客服的效率,并且減輕座席工作壓力,另一方面提高客戶滿意度。在每行每業(yè)融入深度學(xué)習(xí)技術(shù)都可實(shí)現(xiàn)一套智能客服系統(tǒng),并且有了一定的行業(yè)規(guī)范標(biāo)準(zhǔn),大致就是通過提取與用戶對(duì)話的語義與特征使用文本相似度或者文本分類的方法,在知識(shí)庫中匹配到相對(duì)應(yīng)的問題與答案,其中知識(shí)庫有的使用的是關(guān)系型數(shù)據(jù)庫,而現(xiàn)在流行使用的是知識(shí)圖譜來進(jìn)行存儲(chǔ)。
但是隨著數(shù)據(jù)的多元化,用戶在詢問問題時(shí),大多數(shù)面對(duì)的并不是一種文本形式的數(shù)據(jù),比如一個(gè)系統(tǒng)的報(bào)錯(cuò)信息提示頁面,如果不熟悉這個(gè)系統(tǒng)的話,用戶并不能夠?qū)⑦@樣的信息轉(zhuǎn)換為有效文本形式去詢問智能客服,所以就提出了識(shí)圖智問客服系統(tǒng),就是通過上傳一張問題圖片來匹配與之相似的問題,從而達(dá)到問題詢問的功能。
本研究主要針對(duì)電力系統(tǒng)中的內(nèi)網(wǎng)郵箱系統(tǒng),主要整理的是業(yè)務(wù)系統(tǒng)的操作手冊(cè)說明書及系統(tǒng)頁面的報(bào)錯(cuò)信息截圖,以達(dá)到在客服中可利用的程度。對(duì)于現(xiàn)有的文字智能客服機(jī)器人,可很好地從用戶的提問中獲取關(guān)鍵信息,并檢索知識(shí)庫,及時(shí)反饋給用戶答案。但是在一定場合情況下,用戶通過一張系統(tǒng)頁面截圖來進(jìn)行知識(shí)問答,這就需要用到人工智能中更多的算法來實(shí)現(xiàn)。針對(duì)這類問題,將操作手冊(cè)梳理成知識(shí)庫,并將文檔中圖片以及系統(tǒng)截圖相匹配,配合文本相似度、OCR 等算法就可實(shí)現(xiàn)識(shí)圖智問,在用戶面對(duì)系統(tǒng)報(bào)錯(cuò)信息頁面時(shí),不需要將其轉(zhuǎn)換成問題話術(shù),直接截圖就可實(shí)現(xiàn)問答。
PP-OCR 是PaddlePaddle 提出的一種超輕量級(jí)OCR 系統(tǒng),在很多領(lǐng)域都特別實(shí)用,是由文本檢測、檢測框校正、文本識(shí)別三個(gè)部分組成。
文字檢測器:在圖像中的文本區(qū)域?qū)崿F(xiàn)定位是文本檢測的目的。PP-OCR 中文本檢測器是基于可微分二值化(DB)簡單分割網(wǎng)絡(luò)來實(shí)現(xiàn)的,這就使得文字檢測器非常高效。
方向分類器:在檢測框可更正檢測到的文本之前,需要將文本框轉(zhuǎn)換為水平矩形,以便之后進(jìn)行文本識(shí)別。因?yàn)闄z測幀是通過四個(gè)點(diǎn)來組成的,這就使得它可很方便通過幾何變換來實(shí)現(xiàn)得到,但是在矯正之后的盒子還可能會(huì)被翻轉(zhuǎn)過來,所以需要一個(gè)方向分類器來確定方向。如果可確定其中的一個(gè)方框是反的,說明就需要進(jìn)行翻轉(zhuǎn)。
文字識(shí)別器:使用CRNN 作為文本識(shí)別器,廣泛應(yīng)用在圖像文本識(shí)別領(lǐng)域中。CRNN 對(duì)特征提取和序列建模進(jìn)行了融合,并且采用了CTC 的損失,所以可有效地避免預(yù)測與標(biāo)注不一致的問題。
這三種識(shí)別器為了提高模型的效率、有效性、能力以及存儲(chǔ)大小,各自采用了一系列的策略來實(shí)現(xiàn),分別是:輕頭部、輕骨架、去SE(去除后,模型大小減半)、學(xué)習(xí)率預(yù)熱、余弦學(xué)習(xí)率衰減(文本識(shí)別能力得到有效地提高)、FPGM 剪枝;數(shù)據(jù)增強(qiáng)、輕骨架、PACT 量化、輸入分辨率;PACT 量化、輕主干、數(shù)據(jù)增強(qiáng)、正則化參數(shù)、余弦學(xué)習(xí)速率衰減、預(yù)訓(xùn)練模型(ImageNet)、學(xué)習(xí)率預(yù)熱、輕頭部、特征圖解析。
基于Bert 的文本相似度模型,是在Bert 網(wǎng)絡(luò)的中最后再疊加一層全連接神經(jīng)網(wǎng)絡(luò)。由于預(yù)訓(xùn)練模型需要大量的時(shí)間和資源,因此直接使用了開源的權(quán)重,對(duì)Bert 進(jìn)行微調(diào),輸入為兩個(gè)句子,使用【sep】隔開,輸出層使用Sigmoid 作為激活函數(shù),在整個(gè)過程中,不需要修改模型的特定結(jié)構(gòu)。
圖1 基于Bert 的文本相似度模型
輸入層:將句子輸入到模型中,兩個(gè)句子拼接在一起;字詞列表:相當(dāng)于one-hot,將字與id綁定起來;Bert 層:使用Bert 模型來替代嵌入層,由于Transformer 中Mask 機(jī)制,所有Bert 可 更好地融貫句子中上下文語義,這里使用的是768維度的向量表示;輸出層:將經(jīng)過Bert 的句向量【cls】輸入到Sigmoid 層,將變量映射到0,1之間,通過設(shè)置閾值來判定是否相似。
本文的識(shí)圖智問項(xiàng)目使用Milvu 整體架構(gòu)如圖2所示。
圖2 Milvu 整體架構(gòu)
OCR 圖片文字識(shí)別服務(wù)搭建,使用paddleocr和flask 來實(shí)現(xiàn),此服務(wù)將在這個(gè)框架中可自由支配調(diào)用。數(shù)據(jù)前期準(zhǔn)備時(shí),將已有的所有圖片抽取成文本格式進(jìn)行存儲(chǔ);Bert 句子編碼器服務(wù)搭建,使用falsk 將bert 共同實(shí)現(xiàn),將已有所有問題以及圖片信息轉(zhuǎn)化為768位的特征向量,并導(dǎo)入Milvus 中。
在Milvus 庫中建立系統(tǒng)集合,每個(gè)集合代表一個(gè)系統(tǒng),而存入的特征向量會(huì)分配一個(gè)唯一ID,將集合、ID 和對(duì)應(yīng)的系統(tǒng)、問題對(duì)存儲(chǔ)在neo4j 圖數(shù)據(jù)庫中,圖數(shù)據(jù)庫可很好的可視化問題之間的關(guān)系;用戶輸入一張圖片,系統(tǒng)會(huì)將這個(gè)圖片通過OCR 模塊轉(zhuǎn)換成文本形式。再通過Bert 模型獲取到文本的向量特征表示,去Milvus 庫中進(jìn)行向量檢索,得到最相似的問答對(duì)ID,通過這個(gè)ID 去知識(shí)圖譜中查找對(duì)應(yīng)的答案。
Milvus 向量數(shù)據(jù)庫可廣泛應(yīng)用在各行各業(yè),并且面對(duì)的數(shù)據(jù)量可是百萬級(jí)別的,檢索速度快,應(yīng)用場景如下。圖片檢索:以圖搜圖,檢索海量數(shù)據(jù)庫,即時(shí)返回相似圖片;視頻檢索:將視頻轉(zhuǎn)為向量存儲(chǔ)至Milvus 中,可實(shí)現(xiàn)視頻的相似比對(duì),進(jìn)行實(shí)時(shí)視頻推薦;音頻檢索:檢索海量語音、音樂、音效和其他音頻數(shù)據(jù),并返回類似的音頻數(shù)據(jù);分子式檢索:快速檢索相似化學(xué)分子結(jié)構(gòu)、子結(jié)構(gòu)等;DNA 序列分類:通過比較相似的DNA 序列,可在短時(shí)間內(nèi)對(duì)基因進(jìn)行精確分類。
綜上,隨著互聯(lián)網(wǎng)的發(fā)展,人工智能在客服領(lǐng)域中發(fā)揮的作用越來越重,從最初的簡單檢索到知識(shí)圖譜檢索問答,延伸出智能問答推薦以及識(shí)圖智問等功能。對(duì)用戶來說,智能客服越來越便捷、問答的方式也越來越便捷。本文研究的是針對(duì)內(nèi)網(wǎng)郵箱系統(tǒng)實(shí)現(xiàn)識(shí)圖智問的功能,為電力行業(yè)帶來一些新的發(fā)展思路。在這個(gè)云計(jì)算、大數(shù)據(jù)、深度學(xué)習(xí)等前沿科技迅速發(fā)展的潮流下,多元化的數(shù)據(jù)也在一步步進(jìn)行融合,這些整合到一塊兒的數(shù)據(jù)可實(shí)現(xiàn)更多的功能,在人們生活場景當(dāng)中也有更多落地的方向,相信在未來像這樣多元化數(shù)據(jù)的智能客服研究能夠有更多的突破和創(chuàng)新!