人工智能詞庫(kù)構(gòu)建技術(shù)在貴州電網(wǎng)制度文檔語(yǔ)義解析中的應(yīng)用研究

2019-09-10 07:22歐陽(yáng)靜馮光璐舒彧李然黃莉雅

中國(guó)電氣工程學(xué)報(bào) 2019年29期

歐陽(yáng)靜馮光璐舒彧李然黃莉雅

摘? 要：本文從電網(wǎng)制度領(lǐng)域智能化文本解析角度出發(fā)，提出一種針對(duì)結(jié)構(gòu)化、非結(jié)構(gòu)化文本數(shù)據(jù)詞庫(kù)生成算法應(yīng)用。該算法通過(guò)采集貴州電網(wǎng)制度數(shù)據(jù)，融合多種語(yǔ)義解析詞庫(kù)算法，實(shí)現(xiàn)對(duì)各種制度文檔詞庫(kù)的抽取，形成電網(wǎng)制度領(lǐng)域的基礎(chǔ)詞庫(kù)，同時(shí)實(shí)現(xiàn)新詞發(fā)現(xiàn)，為后期制度領(lǐng)域的信息化、智能化建設(shè)提供統(tǒng)一、可復(fù)用的詞庫(kù)數(shù)據(jù)支持，從而有效的提升數(shù)據(jù)利用率。

關(guān)鍵詞：詞庫(kù);電網(wǎng);智能化;語(yǔ)義解析

0引言

本文從電網(wǎng)制度文檔存儲(chǔ)方式和表現(xiàn)形式入手進(jìn)行考察，提出一種基于結(jié)構(gòu)化、非結(jié)構(gòu)化文本數(shù)據(jù)構(gòu)建語(yǔ)義詞庫(kù)的方法應(yīng)用。該方法應(yīng)用能夠從海量文本數(shù)據(jù)中抽取具有相似詞性、詞義的詞組構(gòu)建成支撐語(yǔ)義解析的詞庫(kù)，從而為電網(wǎng)專(zhuān)業(yè)知識(shí)庫(kù)構(gòu)建提供底層詞庫(kù)支撐，同時(shí)為相關(guān)智能搜索提供便捷、有效、智能化的語(yǔ)義詞庫(kù)基礎(chǔ)，尤其是制度文檔的語(yǔ)義解析與搜索應(yīng)用。為電網(wǎng)公司人工智能技術(shù)的應(yīng)用提供一種語(yǔ)義理解方向的底層技術(shù)參考。

1文檔現(xiàn)狀分析

1.1 結(jié)構(gòu)化文本文檔

文本數(shù)據(jù)承載企業(yè)巨量運(yùn)營(yíng)信息，是公司知識(shí)沉淀與變現(xiàn)的重要來(lái)源，支撐創(chuàng)新驅(qū)動(dòng)。OA郵件、發(fā)文、工作方案、工單等文本數(shù)據(jù)，承載了企業(yè)巨量運(yùn)營(yíng)信息，蘊(yùn)含了巨量隱性知識(shí)價(jià)值。通過(guò)對(duì)這些文本數(shù)據(jù)挖掘，有助于公司知識(shí)資產(chǎn)持續(xù)沉淀與變現(xiàn)，是“十三五”創(chuàng)新驅(qū)動(dòng)規(guī)劃中五大創(chuàng)新的重要支撐。

1.2 非結(jié)構(gòu)化文檔

本次研究中，采集了貴州電網(wǎng)的多種數(shù)據(jù)，并根據(jù)數(shù)據(jù)的不同情況，分別應(yīng)用到了NLP中的不同領(lǐng)域，包括OA郵件發(fā)文數(shù)據(jù)、it設(shè)備臺(tái)賬、工單、操作票等。

2詞庫(kù)概述

2.1 詞庫(kù)在NLP任務(wù)中的作用

詞庫(kù)在NLP中的作用主要有以下幾個(gè)方面：構(gòu)建文本特征向量、分詞、實(shí)體識(shí)別、實(shí)體關(guān)系抽取、知識(shí)圖譜的基礎(chǔ)組成等。

2.2 基于詞庫(kù)的典型方法

2.2.1 獨(dú)熱編碼與詞嵌入

獨(dú)熱編碼即One-Hot編碼，又稱(chēng)一位有效編碼，其方法是使用N位狀態(tài)寄存器來(lái)對(duì)N個(gè)狀態(tài)進(jìn)行編碼，每個(gè)狀態(tài)都有它獨(dú)立的寄存器位，并且在任意時(shí)候，其中只有一位有效。在機(jī)器學(xué)習(xí)中，常常遇到分類(lèi)型特征，即不能用連續(xù)的數(shù)值表示的特征，貴州電網(wǎng)的文本集合就可以抽取為這樣的特征。這些特征值并不是連續(xù)的，而是離散的，無(wú)序的。

2.2.2 詞袋模型

詞袋模型假設(shè)我們不考慮文本中詞與詞之間的上下文關(guān)系，僅僅只考慮所有詞的權(quán)重。而權(quán)重與詞在文本中出現(xiàn)的頻率有關(guān)。在詞袋模型統(tǒng)計(jì)詞頻的時(shí)候，可以使用sklearn中的CountVectorizer。由于大部分文本都只會(huì)用詞匯表中很少一部分的詞，因此詞向量中有大量的0，也就是說(shuō)詞向量是稀疏的。因此在實(shí)際應(yīng)用中一般使用稀疏矩陣來(lái)存儲(chǔ)。

2.2.3 詞頻與逆向文本詞頻

TF-IDF模型（term frequency–inverse document frequency，詞頻與逆向文本頻率）是：TF*IDF。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF（inverse document frequency，逆向文件頻率）的主要思想是：如果包含詞條t的文檔越少，也就是n越小，IDF越大，則說(shuō)明詞條t具有很好的類(lèi)別區(qū)分能力。如果某一類(lèi)文檔C中包含詞條t的文檔數(shù)為m，而其他類(lèi)包含t的文檔總數(shù)為k，顯然所有包含t的文檔數(shù)n=m+k，當(dāng)m大的時(shí)候，n也大，按照IDF公式得到的IDF的值會(huì)小，就說(shuō)明該詞條t類(lèi)別區(qū)分能力不強(qiáng)。

3生成詞庫(kù)的方法

3.1 新詞發(fā)現(xiàn)

新詞是一個(gè)最近鑄造的發(fā)明詞或者詞的重新組合。本次研究采用了基于統(tǒng)計(jì)的詞關(guān)聯(lián)性信息與統(tǒng)計(jì)特征與詞法特征相結(jié)合的新詞發(fā)現(xiàn)方法。對(duì)電網(wǎng)預(yù)料進(jìn)行分詞，將在兩停用詞間的相鄰字串兩兩組合，根據(jù)組合后的字串頻率統(tǒng)計(jì)取得新詞候選串，再通過(guò)組合成詞規(guī)則進(jìn)行篩選獲得候選新詞，最后通過(guò)詞的鄰接域變化特性去除垃圾串獲得新詞。

在構(gòu)建電網(wǎng)詞庫(kù)時(shí)，首先假設(shè)整個(gè)電網(wǎng)領(lǐng)域的詞語(yǔ)都是“未登錄詞”，使用上述方式進(jìn)行成詞的抽取，最后與已經(jīng)真實(shí)存在的電網(wǎng)詞庫(kù)進(jìn)行交叉對(duì)比校驗(yàn)，以結(jié)果來(lái)動(dòng)態(tài)擴(kuò)充詞庫(kù)。

3.2 候選詞結(jié)構(gòu)制定

由于電網(wǎng)領(lǐng)域詞語(yǔ)的最大長(zhǎng)度無(wú)法在初始化時(shí)確定，因此，在詞的結(jié)構(gòu)上，使用N-gram統(tǒng)計(jì)模型。其主要思想是：一個(gè)單詞的出現(xiàn)與N-gram模型建立在一種假設(shè)前提下，即假設(shè)第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān)，并且與其他任何詞都不相關(guān)，得到的各個(gè)詞出現(xiàn)的概率的乘積就是整句的概率。

3.3 詞向量方法

Word embedding指的是將詞轉(zhuǎn)化成一種分布式表示，又稱(chēng)詞向量。分布式表示將詞表示成一個(gè)定長(zhǎng)的連續(xù)的稠密向量。

分布式表示優(yōu)點(diǎn)：

（1）詞之間存在相似關(guān)系：

（2）包含更多信息：

詞向量能夠包含更多信息，并且每一維都有特定的含義。在采用one-hot特征時(shí)，可以對(duì)特征向量進(jìn)行刪減，詞向量則不能。

本研究采用跳字模型和連續(xù)詞袋模型融合應(yīng)用方式實(shí)現(xiàn)。

跳字模型。在跳字模型中，我們用一個(gè)詞來(lái)預(yù)測(cè)它在文本序列周?chē)脑~。例如，給定文本序列”the”，“man”，“hit”，“his”，和”son”，跳字模型所關(guān)心的是，給定”hit”，生成它鄰近詞“the”，“man”，“his”，和”son”的概率。在這個(gè)例子中，”hit”叫中心詞，“the”，“man”，“his”，和”son”叫背景詞。由于”hit”只生成與它距離不超過(guò)2的背景詞，該時(shí)間窗口的大小為2。

假設(shè)詞典大小為|V|，我們將詞典中的每個(gè)詞與從0到|V|?1的整數(shù)一一對(duì)應(yīng)：詞典索引集V={0，1，…，|V|?1}。一個(gè)詞在該詞典中所對(duì)應(yīng)的整數(shù)稱(chēng)為詞的索引。給定一個(gè)長(zhǎng)度為T(mén)的文本序列中，t時(shí)刻的詞為w（t）。當(dāng)時(shí)間窗口大小為m時(shí)，跳字模型需要最大化給定任一中心詞生成背景詞的概率：

連續(xù)詞袋模型。連續(xù)詞袋模型與跳字模型類(lèi)似。與跳字模型最大的不同是，連續(xù)詞袋模型中用一個(gè)中心詞在文本序列周?chē)脑~來(lái)預(yù)測(cè)該中心詞。例如，給定文本序列”the”，“man”，“hit”，“his”，和”son”，連續(xù)詞袋模型所關(guān)心的是，鄰近詞“the”，“man”，“his”，和”son”一起生成中心詞”hit”的概率。

假設(shè)詞典大小為|V|，我們將詞典中的每個(gè)詞與從0到|V|?1的整數(shù)一一對(duì)應(yīng)：詞典索引集V={0，1，…，|V|?1}。一個(gè)詞在該詞典中所對(duì)應(yīng)的整數(shù)稱(chēng)為詞的索引。給定一個(gè)長(zhǎng)度為T(mén)的文本序列中，t時(shí)刻的詞為w（t）。當(dāng)時(shí)間窗口大小為m時(shí)，連續(xù)詞袋模型需要最大化由背景詞生成任一中心詞的概率：

4結(jié)語(yǔ)

面對(duì)能源互聯(lián)網(wǎng)所帶來(lái)的數(shù)據(jù)海量化的趨勢(shì)，電網(wǎng)日常工作中產(chǎn)生的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)日益增多，為解決對(duì)海量數(shù)據(jù)面臨的多次重復(fù)訓(xùn)練的問(wèn)題，電網(wǎng)各領(lǐng)域信息系統(tǒng)建設(shè)數(shù)據(jù)重復(fù)利用問(wèn)題，本章提出構(gòu)建一種針對(duì)電網(wǎng)制度數(shù)據(jù)的詞庫(kù)生成方法，在制度領(lǐng)域?qū)崿F(xiàn)了底層知識(shí)數(shù)據(jù)的詞庫(kù)構(gòu)建，有效的為上層智能應(yīng)用，如語(yǔ)義解析、智能搜索、數(shù)據(jù)分析等提供了統(tǒng)一、快速、可復(fù)用的電網(wǎng)詞庫(kù)能力支撐，同時(shí)智能化的實(shí)現(xiàn)新詞發(fā)現(xiàn)，實(shí)現(xiàn)了實(shí)時(shí)地對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練的功能，表明該方法能夠有效支撐電網(wǎng)智能化體系構(gòu)建。

參考文獻(xiàn)

[1]戴彥，王劉旺，李媛，顏擁，韓嘉佳，文福拴.新一代人工智能在智能電網(wǎng)中的應(yīng)用研究綜述[J].電力建設(shè)，2018，39（10）：1-11.

[2]奉國(guó)和，鄭偉. 國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J]. 圖書(shū)情報(bào)工作， 2011，（02）， pp.41-45CNKI

歐陽(yáng)靜（1986.5-33），漢，貴州貴陽(yáng)人，學(xué)士，貴州電網(wǎng)有限責(zé)任公司信息中心助理工程師，主要從事信息系統(tǒng)建設(shè)與研究。

[基金項(xiàng)目]本文為貴州電網(wǎng)有限責(zé)任公司信息中心科技類(lèi)項(xiàng)目“基于非機(jī)構(gòu)化文檔內(nèi)容自動(dòng)識(shí)別技術(shù)的電網(wǎng)制度百科平臺(tái)研發(fā)及應(yīng)用”（項(xiàng)目編號(hào)：066700KK52180027）的研究成果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能詞庫(kù)構(gòu)建技術(shù)在貴州電網(wǎng)制度文檔語(yǔ)義解析中的應(yīng)用研究