王秋琳 梁懿 閆麗飛 張垚 王燕蓉
(福建億榕信息技術(shù)有限公司 福建省福州市 350003)
隨著信息時(shí)代的到來(lái),電力客服平臺(tái)逐漸向智能化方向靠攏,多地客服平臺(tái)均已對(duì)智能機(jī)器人進(jìn)行配置,其作用主要是確保語(yǔ)音問(wèn)答相關(guān)任務(wù)可得到自動(dòng)處理,例如,快速識(shí)別情緒,對(duì)故障進(jìn)行分類,再例如,根據(jù)用戶評(píng)價(jià)對(duì)服務(wù)質(zhì)量進(jìn)行評(píng)估。受電力服務(wù)所具有專業(yè)性、特殊性影響,在未能大量掌握相關(guān)知識(shí)時(shí),問(wèn)答系統(tǒng)極易出現(xiàn)無(wú)法快速理解語(yǔ)義并定位關(guān)鍵詞的情況,若不盡快解決該問(wèn)題,不僅系統(tǒng)運(yùn)行效率會(huì)受到影響,還會(huì)使用戶體驗(yàn)度有所下滑。鑒于此,有關(guān)人員提出應(yīng)以條件隨機(jī)場(chǎng)為基礎(chǔ),對(duì)命名實(shí)體識(shí)別算法進(jìn)行開(kāi)發(fā)。
眾所周知,智能問(wèn)答所提供服務(wù),主要有知識(shí)評(píng)價(jià),信息推薦,記錄管理,根據(jù)問(wèn)題確定答案等,簡(jiǎn)單來(lái)說(shuō),就是以機(jī)器學(xué)習(xí)、自然語(yǔ)言處理還有語(yǔ)義網(wǎng)為基礎(chǔ),根據(jù)實(shí)訓(xùn)課程、專業(yè)知識(shí)和人工智能相關(guān)知識(shí),對(duì)問(wèn)答知識(shí)庫(kù)進(jìn)行建立,要求研究人員分別針對(duì)理解問(wèn)題、檢索并生成答案等環(huán)節(jié),對(duì)相關(guān)服務(wù)技術(shù)進(jìn)行研究,從而開(kāi)發(fā)出具有交互應(yīng)答、一對(duì)一應(yīng)答功能的先進(jìn)服務(wù)系統(tǒng)。作為對(duì)智能問(wèn)答系統(tǒng)進(jìn)行設(shè)計(jì)的核心技術(shù),NER 的作用主要是發(fā)現(xiàn)并準(zhǔn)確定位關(guān)鍵詞,基于實(shí)體對(duì)內(nèi)在聯(lián)系進(jìn)行建立,這一環(huán)節(jié)又被稱為命名實(shí)體。事實(shí)證明,NER 的優(yōu)勢(shì)是能夠發(fā)現(xiàn)意義相同但表述方式不同的文本,例如,哈工大與哈爾濱工業(yè)大學(xué)。僅憑借分詞處理,通常無(wú)法使以上文本所存在聯(lián)系得到直觀展示,對(duì)文本語(yǔ)義進(jìn)行理解的難度不言而喻,久而久之,將帶來(lái)語(yǔ)料庫(kù)稀疏的問(wèn)題。對(duì)電力問(wèn)答相關(guān)語(yǔ)料庫(kù)而言,出現(xiàn)頻率較高的實(shí)體有故障、位置和解法,基于該技術(shù)對(duì)智能系統(tǒng)進(jìn)行搭建,可確保語(yǔ)音實(shí)體內(nèi)容得到快速識(shí)別,通過(guò)交互問(wèn)答的方式,為用戶提供其所需服務(wù)。
對(duì)基于NER 所搭建電話客服系統(tǒng)而言,NER 技術(shù)的作用主要是檢索內(nèi)容、確保客服人員能夠和用戶進(jìn)行多輪問(wèn)答?,F(xiàn)階段,該技術(shù)已在分析微博文本、醫(yī)療病歷和機(jī)器翻譯等領(lǐng)域得到了廣泛應(yīng)用。國(guó)內(nèi)學(xué)者以農(nóng)業(yè)技術(shù)命名方式和特點(diǎn)為依據(jù),基于互聯(lián)網(wǎng)對(duì)可為農(nóng)業(yè)問(wèn)答服務(wù)提供支撐的NER模型進(jìn)行了建立。另外,還有一部分學(xué)者選擇利用該技術(shù)對(duì)軍事文本進(jìn)行處理,指出只要有專業(yè)且系統(tǒng)的軍事知識(shí)作為基礎(chǔ),該技術(shù)便能夠?qū)娛轮噶?、相關(guān)文書(shū)所包含關(guān)鍵信息進(jìn)行快速、準(zhǔn)確的提取。
目前,國(guó)內(nèi)各領(lǐng)域常用命名實(shí)體識(shí)別算法有兩類,分別是統(tǒng)計(jì)學(xué)習(xí)法、詞典規(guī)劃法,作為傳統(tǒng)算法的詞典規(guī)劃法,對(duì)有關(guān)人員所預(yù)設(shè)規(guī)則模式具有較強(qiáng)的依賴性,通常需要先利用字符串進(jìn)行搜索,再對(duì)其進(jìn)行匹配,由此來(lái)達(dá)到實(shí)體識(shí)別的目的。該方法的不足主要體現(xiàn)在以下方面:首先是較易被有關(guān)人員所編制規(guī)則影響;其次是只有依托知識(shí)庫(kù)才能完成各項(xiàng)操作,同時(shí)對(duì)知識(shí)庫(kù)規(guī)模和存儲(chǔ)信息量有較為嚴(yán)格的要求;再次是不具備良好的移植性;最后是無(wú)法做到快速且準(zhǔn)確的識(shí)別全新詞匯。作為近幾年被研發(fā)出來(lái)并投入使用的全新算法,統(tǒng)計(jì)學(xué)習(xí)法有效彌補(bǔ)了上述算法所存在不足,不僅在移植性方面具有突出表現(xiàn),還可被用來(lái)對(duì)歧義詞進(jìn)行準(zhǔn)確區(qū)分,由該算法所衍生出神經(jīng)網(wǎng)絡(luò)法,現(xiàn)已逐漸取代了詞典規(guī)劃法的地位。神經(jīng)網(wǎng)絡(luò)法又可被劃分成LSTM、MEMM、HMM 和詞向量聚類法,而本文所研究CRF 法,同樣屬于統(tǒng)計(jì)學(xué)習(xí)法的分支。除此之外,關(guān)于對(duì)不同算法進(jìn)行結(jié)合的研究也取得了一定的成果,例如,以統(tǒng)計(jì)學(xué)習(xí)模型為基礎(chǔ),通過(guò)新增人工定義規(guī)則的方式,使人類先驗(yàn)知識(shí)和機(jī)器學(xué)習(xí)得到充分結(jié)合。
本文所研究算法的核心功能是依托語(yǔ)料數(shù)據(jù)集,通過(guò)對(duì)故障、位置以及解決方案相關(guān)的命名關(guān)鍵詞進(jìn)行抽取的方式,構(gòu)建可被用來(lái)指導(dǎo)后續(xù)工作開(kāi)展的三元組。要想保證該算法可發(fā)揮出應(yīng)有作用,關(guān)鍵要對(duì)以下內(nèi)容引起重視:
現(xiàn)階段,對(duì)命名實(shí)體進(jìn)行識(shí)別的方法有兩種,分別是詞典及規(guī)則識(shí)別,統(tǒng)計(jì)學(xué)習(xí)識(shí)別。前者出現(xiàn)的時(shí)間較早,通常要以專業(yè)人員所提供規(guī)則模式為依托,搜索并匹配字符段,以此來(lái)達(dá)到實(shí)體識(shí)別的目的,該方法的不足是較易被人為規(guī)則所影響,在可移植性方面的表現(xiàn)不理想,對(duì)知識(shí)庫(kù)內(nèi)存要求較高,難以做到準(zhǔn)確識(shí)別新詞匯。后者所依托基礎(chǔ)為機(jī)器學(xué)習(xí),不僅有良好的可移植性,還能夠做到準(zhǔn)確區(qū)分歧義詞匯,由此而衍生出的方法,主要有LSTM,神經(jīng)網(wǎng)絡(luò)法,HMM,MEMM,本項(xiàng)目所采用識(shí)別方法為CRF,該方法與NER 的聯(lián)系極為密切,可有效彌補(bǔ)傳統(tǒng)方法的缺陷,保證算法兼具可靠性與普適性。
CRF 是以無(wú)向概率圖為基礎(chǔ)所建立判別模型,該模型將隨機(jī)輸出變量設(shè)為隨機(jī)場(chǎng),通常不對(duì)隨機(jī)輸入變量進(jìn)行處理,通過(guò)弱化假設(shè)的方式,保證數(shù)據(jù)計(jì)算效果?,F(xiàn)階段,該模型主要被用來(lái)對(duì)序列數(shù)據(jù)進(jìn)行建模,在該模型中,X 代表模型觀測(cè)所得隨機(jī)變量。Y 代表隨機(jī)輸出變量。研究人員以輸出假設(shè)為依據(jù),利用Y 對(duì)隨機(jī)場(chǎng)進(jìn)行建立,保證Y 滿足以下條件:
假設(shè)上述公式對(duì)隨機(jī)場(chǎng)任意結(jié)點(diǎn)均成立,便代表在給定輸入的前提下,隨機(jī)變量輸出所需各條件可構(gòu)成隨機(jī)場(chǎng),一般用P(Y|X)加以表示。其中,u ≠v 所指代對(duì)象為隨機(jī)場(chǎng)內(nèi)除結(jié)點(diǎn)v 以外的其他結(jié)點(diǎn)。w~v 所指代對(duì)象為隨機(jī)場(chǎng)內(nèi)可直接連接v 的結(jié)點(diǎn)w 的集合。Yu 所指代對(duì)象為與結(jié)點(diǎn)u 相關(guān)的各隨機(jī)變量。Yv所指代對(duì)象為與結(jié)點(diǎn)v相關(guān)的各隨機(jī)變量。
文本建模所適用CRF 模型見(jiàn)圖1。由圖1 可知,在對(duì)輸入文本x 加以確定后,該模型可經(jīng)由分詞以及標(biāo)注操作,獲得相應(yīng)的語(yǔ)料序列,在此基礎(chǔ)上,以訓(xùn)練所得模型參數(shù)為依據(jù),對(duì)計(jì)劃輸出語(yǔ)料組合所對(duì)應(yīng)條件概率進(jìn)行準(zhǔn)確預(yù)測(cè)。
圖1:CRF 模型結(jié)構(gòu)圖
另外,還可以利用參數(shù)化形式對(duì)模型進(jìn)行描述,即X 對(duì)應(yīng)輸入,Y 對(duì)應(yīng)輸出,以X=x 為前提,條件概率P(Y|X)對(duì)應(yīng)Y 取值的分布情況,可利用以下公式進(jìn)行表示:
在該公式中,Z(x)代表概率歸一系數(shù),對(duì)其加以表示的公式為:
關(guān)于本項(xiàng)目所處理數(shù)據(jù)集,其輸出序列由兩部分組成,分別是類別標(biāo)簽和位置標(biāo)簽,類別標(biāo)簽所傳遞信息是關(guān)鍵詞和故障、位置、解法的關(guān)系,而位置標(biāo)簽所傳遞信息,主要是關(guān)鍵詞所在位置。與上述標(biāo)簽對(duì)應(yīng)的NER 技術(shù)為識(shí)別及定位。
作為隨機(jī)數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù),文本數(shù)據(jù)往往不具備直接用于學(xué)習(xí)模型的條件。提前處理語(yǔ)料數(shù)據(jù)集,一方面可保證數(shù)據(jù)格式相同,降低結(jié)構(gòu)化信息的提取難度,另一方面可使冗余數(shù)據(jù)、噪聲數(shù)據(jù)被消除,為后續(xù)的特征選擇、NER 處理提供便利。對(duì)本項(xiàng)目所涉及數(shù)據(jù)進(jìn)行預(yù)處理的側(cè)重點(diǎn),主要是統(tǒng)一格式并分詞。研究表明,問(wèn)答數(shù)據(jù)集格式并不規(guī)整,將其用于常規(guī)訓(xùn)練的難度極大,提前整理格式很有必要。對(duì)數(shù)據(jù)格式進(jìn)行統(tǒng)一,通常需要經(jīng)過(guò)以下兩步:
(1)將不具有實(shí)際意義的連字符、空格刪除。對(duì)地理位置進(jìn)行描述的語(yǔ)料中,通常存在大量連字符,例如,人民大街-20 號(hào)或人民大街/20 號(hào)。
(2)替換具有特定含義的符號(hào),以方括號(hào)為例,訓(xùn)練工具往往會(huì)用該符號(hào)對(duì)復(fù)合詞進(jìn)行標(biāo)注,要想避免出現(xiàn)歧義,研究人員應(yīng)提前對(duì)初始文本非復(fù)合詞所包含該符號(hào)進(jìn)行替換。另外,訓(xùn)練工具常用符號(hào)還包括/,該符號(hào)的作用是對(duì)詞性進(jìn)行標(biāo)注,對(duì)初始文本進(jìn)行預(yù)處理時(shí),同樣需要對(duì)該符號(hào)進(jìn)行替換,例如,將平均4 人/戶更改為平均4 人一戶。
針對(duì)以上需求,技術(shù)人員提出應(yīng)將無(wú)實(shí)際意義的連字符及空格刪除,與此同時(shí),還要替換含義特殊的專用符號(hào)。
對(duì)文本做分詞及標(biāo)注處理的目的,主要是降低關(guān)鍵詞提取難度。研究人員計(jì)劃利用中科院所提供NLPIRICTCLAS,確保數(shù)據(jù)集得到有效處理。作為對(duì)中文進(jìn)行分詞處理的權(quán)威工具,NLPIR-ICTCLAS 的訓(xùn)練載體為人民日?qǐng)?bào),其優(yōu)勢(shì)主要體現(xiàn)在兩個(gè)方面,一是對(duì)中文進(jìn)行快速、準(zhǔn)確的分詞與標(biāo)注,二是用戶可視情況對(duì)詞典進(jìn)行自定義,使混合分詞的需求得到滿足。事實(shí)證明,利用該工具對(duì)本項(xiàng)目所涉及語(yǔ)料進(jìn)行分析,可確保分割粒度符合項(xiàng)目要求,真正做到在保證精確度理想的基礎(chǔ)上,對(duì)特征集規(guī)模嚴(yán)加控制,杜絕擬合問(wèn)題出現(xiàn)。另外,對(duì)分詞進(jìn)行預(yù)處理需要完成的任務(wù),還包括對(duì)停用詞進(jìn)行準(zhǔn)確過(guò)濾,在本項(xiàng)目中,停用詞的定義是僅保留了基本語(yǔ)法作用的虛詞,例如,謝謝、的。停用詞在數(shù)據(jù)集中出現(xiàn)的頻率往往較高,但對(duì)本文所研究模型并不具有實(shí)際意義,將其過(guò)濾可有效提升模型計(jì)算速度,這點(diǎn)同樣需要引起重視。
自動(dòng)標(biāo)注可以簡(jiǎn)單的理解成利用程序?qū)ξ谋旧婕肮收?、位置和解法的關(guān)鍵詞進(jìn)行發(fā)現(xiàn)與定位。結(jié)合實(shí)踐所積累經(jīng)驗(yàn)可知,本項(xiàng)目所選擇特征以數(shù)量詞、界定詞和指示詞為主,通??蓱{借以上特征,對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行準(zhǔn)確區(qū)分,為自動(dòng)處理和后續(xù)操作的有序推進(jìn)提供便利。
數(shù)量詞是指表示單位和數(shù)量的名詞,通過(guò)觀察可知,本項(xiàng)目頻繁出現(xiàn)的數(shù)量詞往往與電費(fèi)金額相關(guān),常見(jiàn)情形包括“現(xiàn)已補(bǔ)交100 元電費(fèi)”“電費(fèi)欠費(fèi)金額為50 元”。由此可見(jiàn),對(duì)數(shù)量詞進(jìn)行準(zhǔn)確標(biāo)注,在識(shí)別關(guān)鍵詞方面具有重要作用。
界定詞指的是特征要素明顯的關(guān)鍵詞,其和命名實(shí)體間往往存在著密切聯(lián)系,例如,區(qū)、街和路。對(duì)位置關(guān)鍵詞進(jìn)行識(shí)別時(shí),界定詞通常發(fā)揮著無(wú)法被替代的作用,但要注意排除斷路、短路等特殊語(yǔ)素,包括斷路、短路或是哪條路。
指示詞代表和命名實(shí)體不存在直接關(guān)聯(lián),但出現(xiàn)時(shí)機(jī)與關(guān)鍵詞基本重合的特征詞。左指示詞代表關(guān)鍵詞前特征詞,右指示詞代表關(guān)鍵詞后特征詞,在本項(xiàng)目所建立數(shù)據(jù)集中出現(xiàn)頻率較高的指示詞見(jiàn)表1。研究人員可利用表1 的指示詞,對(duì)關(guān)鍵詞進(jìn)行快速篩選,但要注意一點(diǎn),指示詞通常包括關(guān)鍵詞,句首處標(biāo)點(diǎn)符號(hào)為左指示,句尾處標(biāo)點(diǎn)符號(hào)為右指示。
表1:常見(jiàn)指示詞
在訓(xùn)練模型時(shí),研究人員既要標(biāo)注數(shù)據(jù)集,還要標(biāo)注輸出數(shù)據(jù)。本項(xiàng)目對(duì)輸出語(yǔ)料進(jìn)行描述的特征為類別、文本位置。除特殊情況外,僅需考慮以上特征,便能使關(guān)鍵詞得到準(zhǔn)確識(shí)別并對(duì)其位置加以確定。
經(jīng)過(guò)預(yù)處理、標(biāo)注處理的數(shù)據(jù)集,通常已被轉(zhuǎn)換成專用知識(shí)庫(kù),該知識(shí)庫(kù)有輸出標(biāo)簽、輸入標(biāo)簽對(duì)應(yīng)?;谠撝R(shí)庫(kù)完成算法訓(xùn)練操作,便可獲得符合電力服務(wù)特點(diǎn)和需求的問(wèn)答模型。
在確定本項(xiàng)目所使用算法后,研究人員便可將工作重心轉(zhuǎn)向?qū)λ惴尚行赃M(jìn)行驗(yàn)證方面,具體做法如下:
本文所使用數(shù)據(jù)集由國(guó)家電網(wǎng)客服中心提供,共記錄了76000 個(gè)客服電話,研究人員將問(wèn)題尚未解決的電話和標(biāo)記為“騷擾電話”的電話記錄剔除后,獲得了符合分析、建模條件的61000 條文本記錄。與電力服務(wù)有關(guān)的其他數(shù)據(jù)集相比,本文所選定數(shù)據(jù)集的優(yōu)點(diǎn)主要是具有良好的真實(shí)性及時(shí)效性,加之客服中心具有極為廣泛的服務(wù)范圍,這一特點(diǎn)又賦予了數(shù)據(jù)集更為理想的代表性。
分析表明,每條文本記錄均包括以下內(nèi)容:接線員的員工編號(hào);電話打入和結(jié)束時(shí)間;客戶所在地區(qū);服務(wù)評(píng)分;通話記錄。與此同時(shí),初始記錄還附有說(shuō)明問(wèn)題解決情況的文本標(biāo)簽,考慮到在前期準(zhǔn)備階段,研究人員已將問(wèn)題尚未解決的電話記錄剔除,在后續(xù)分析及建模過(guò)程中,相關(guān)文本標(biāo)簽可忽略不計(jì)。
研究人員以機(jī)器學(xué)習(xí)模型的常規(guī)訓(xùn)練方法為依據(jù),最終決定通過(guò)隨機(jī)拆分的方式,將上述數(shù)據(jù)集分成測(cè)試集、訓(xùn)練集兩部分,各數(shù)據(jù)集對(duì)應(yīng)文本記錄數(shù)量的比值為1:4。
本次實(shí)驗(yàn)對(duì)算法進(jìn)行評(píng)估所用工具為CRF++,作為跨平臺(tái)軟件,CRF++的綜合性能較其他測(cè)試環(huán)境更為理想,這是因?yàn)镃RF++內(nèi)置特征模板類型及數(shù)量較其他工具更多,可通過(guò)自動(dòng)生成特征函數(shù)的方式,獲得相應(yīng)模型。本文所使用CRF++的版本是0.58。
NER 的根本屬性為分類問(wèn)題,對(duì)應(yīng)算法所使用評(píng)價(jià)指標(biāo)自然與常規(guī)分類模型相同,包括度量F、精確率P 以及召回率R。
在上述公式中,T所指代內(nèi)容為真陽(yáng)性樣本數(shù),其特點(diǎn)為真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)論均是正例。F所指代內(nèi)容為假陽(yáng)性樣本數(shù),其特點(diǎn)為真實(shí)標(biāo)簽是反例,但預(yù)測(cè)結(jié)果是正例。F所指代內(nèi)容為假陰性樣本數(shù),其特點(diǎn)為真實(shí)標(biāo)簽是正例,但預(yù)測(cè)結(jié)果是反例。α 所指代內(nèi)容為F 度量?jī)?nèi)負(fù)責(zé)對(duì)召回率、精確率占比進(jìn)行調(diào)整的參數(shù),在本項(xiàng)目中,α 的取值為1,又被稱作F1 度量,其所描述內(nèi)容為召回率、精確率平均值。在某些情況下,僅對(duì)召回率或是精確率加以使用,將造成錯(cuò)誤評(píng)估模型的后果,引入度量F 可使召回率、精確率相關(guān)參數(shù)得到充分整合,該評(píng)價(jià)指標(biāo)所具有合理性有目共睹。
研究人員利用兩組實(shí)驗(yàn)測(cè)試模型有效性,A 組實(shí)驗(yàn)僅用一個(gè)特征完成標(biāo)注操作,B 組實(shí)驗(yàn)強(qiáng)調(diào)對(duì)不同特征加以利用,在此基礎(chǔ)上,通過(guò)分析不同特征與模型間的關(guān)系,得出相應(yīng)結(jié)論。A 組實(shí)驗(yàn)的結(jié)果見(jiàn)表2、表3、表4。
表2:數(shù)量詞標(biāo)注模型表現(xiàn)(單位:%)
表3:界定詞標(biāo)注模型表現(xiàn)(單位:%)
表4:指示詞標(biāo)注模型表現(xiàn)(單位:%)
由此可見(jiàn),在識(shí)別位置實(shí)體方面,發(fā)揮重要作用的特征詞為界定詞。關(guān)于實(shí)體識(shí)別,數(shù)量詞所發(fā)揮作用較其他特征詞更為突出。指示詞可被用來(lái)對(duì)不同類別實(shí)體進(jìn)行識(shí)別。
基于規(guī)模不同的訓(xùn)練集對(duì)特征組合進(jìn)行標(biāo)注,通??色@得描述測(cè)試集規(guī)模的圖形,一般來(lái)說(shuō),其橫坐標(biāo)代表測(cè)試集與全部測(cè)試集的比值??v坐標(biāo)代表度量值。若訓(xùn)練所用訓(xùn)練集為完整訓(xùn)練集,利用本項(xiàng)目所設(shè)計(jì)算法識(shí)別故障、位置及解法,其度量值分別是92%、96%、95%。另外,研究人員還以數(shù)據(jù)集相同為前提,對(duì)HMM、LSTM 等方法在位置實(shí)體識(shí)別環(huán)節(jié)的表現(xiàn)進(jìn)行了比較。在訓(xùn)練所用訓(xùn)練集是完整集的前提下,相關(guān)方法對(duì)應(yīng)度量值分別是92%、91%和84%,由此可見(jiàn),本文所設(shè)計(jì)算法在位置識(shí)別方面所表現(xiàn)出性能較其他方法更為理想,有大范圍推廣的意義。
本文以條件隨機(jī)場(chǎng)為基礎(chǔ),結(jié)合電力智能問(wèn)答特點(diǎn)及需求,對(duì)命名實(shí)體識(shí)別算法進(jìn)行了設(shè)計(jì)。該算法所具有優(yōu)勢(shì)主要體現(xiàn)在以下方面:
(1)對(duì)文本結(jié)構(gòu)、其與上下文間的關(guān)聯(lián)進(jìn)行了充分考慮。
(2)對(duì)專用知識(shí)庫(kù)進(jìn)行了建立,根據(jù)電力服務(wù)需要達(dá)到的水平,對(duì)知識(shí)庫(kù)建立流程進(jìn)行了梳理。但要注意一點(diǎn),CRF 模型往往需要付出較大的計(jì)算代價(jià),尤其是在同時(shí)存在數(shù)個(gè)組合的條件下,要想利用該算法對(duì)準(zhǔn)確率進(jìn)行提高,通常需要在前期準(zhǔn)備階段投入大量時(shí)間對(duì)模型進(jìn)行訓(xùn)練,由此而造成的問(wèn)題,主要是無(wú)法保證模型具備良好實(shí)用性。未來(lái)研究的重點(diǎn)應(yīng)向優(yōu)化、調(diào)整訓(xùn)練過(guò)程傾斜,在保證訓(xùn)練效果理想的基礎(chǔ)上,對(duì)訓(xùn)練速度進(jìn)行提升。
本文以NER 為基礎(chǔ),對(duì)符合電力智能問(wèn)答特點(diǎn)的、對(duì)命名實(shí)體進(jìn)行識(shí)別的算法進(jìn)行了設(shè)計(jì)。該算法以數(shù)量詞、界定詞及指示詞為依據(jù),分別識(shí)別與故障、位置還有解法相關(guān)的關(guān)鍵詞,在此基礎(chǔ)上,對(duì)實(shí)體三元組進(jìn)行構(gòu)建,優(yōu)勢(shì)是對(duì)文本結(jié)構(gòu)和內(nèi)在聯(lián)系進(jìn)行了充分考慮。事實(shí)證明,基于該算法識(shí)別故障、位置還有解法的命名實(shí)體,在準(zhǔn)確度方面的表現(xiàn)十分突出,可投入使用。