歐陽(yáng)靜 馮光璐 舒彧 李然 黃莉雅
摘? 要:本文從電網(wǎng)制度領(lǐng)域智能化文本解析角度出發(fā),提出一種針對(duì)結(jié)構(gòu)化、非結(jié)構(gòu)化文本數(shù)據(jù)詞庫(kù)生成算法應(yīng)用。該算法通過(guò)采集貴州電網(wǎng)制度數(shù)據(jù),融合多種語(yǔ)義解析詞庫(kù)算法,實(shí)現(xiàn)對(duì)各種制度文檔詞庫(kù)的抽取,形成電網(wǎng)制度領(lǐng)域的基礎(chǔ)詞庫(kù),同時(shí)實(shí)現(xiàn)新詞發(fā)現(xiàn),為后期制度領(lǐng)域的信息化、智能化建設(shè)提供統(tǒng)一、可復(fù)用的詞庫(kù)數(shù)據(jù)支持,從而有效的提升數(shù)據(jù)利用率。
關(guān)鍵詞:詞庫(kù);電網(wǎng);智能化;語(yǔ)義解析
0引言
本文從電網(wǎng)制度文檔存儲(chǔ)方式和表現(xiàn)形式入手進(jìn)行考察,提出一種基于結(jié)構(gòu)化、非結(jié)構(gòu)化文本數(shù)據(jù)構(gòu)建語(yǔ)義詞庫(kù)的方法應(yīng)用。該方法應(yīng)用能夠從海量文本數(shù)據(jù)中抽取具有相似詞性、詞義的詞組構(gòu)建成支撐語(yǔ)義解析的詞庫(kù),從而為電網(wǎng)專(zhuān)業(yè)知識(shí)庫(kù)構(gòu)建提供底層詞庫(kù)支撐,同時(shí)為相關(guān)智能搜索提供便捷、有效、智能化的語(yǔ)義詞庫(kù)基礎(chǔ),尤其是制度文檔的語(yǔ)義解析與搜索應(yīng)用。為電網(wǎng)公司人工智能技術(shù)的應(yīng)用提供一種語(yǔ)義理解方向的底層技術(shù)參考。
1文檔現(xiàn)狀分析
1.1 結(jié)構(gòu)化文本文檔
文本數(shù)據(jù)承載企業(yè)巨量運(yùn)營(yíng)信息,是公司知識(shí)沉淀與變現(xiàn)的重要來(lái)源,支撐創(chuàng)新驅(qū)動(dòng)。OA郵件、發(fā)文、工作方案、工單等文本數(shù)據(jù),承載了企業(yè)巨量運(yùn)營(yíng)信息,蘊(yùn)含了巨量隱性知識(shí)價(jià)值。通過(guò)對(duì)這些文本數(shù)據(jù)挖掘,有助于公司知識(shí)資產(chǎn)持續(xù)沉淀與變現(xiàn),是“十三五”創(chuàng)新驅(qū)動(dòng)規(guī)劃中五大創(chuàng)新的重要支撐。
1.2 非結(jié)構(gòu)化文檔
本次研究中,采集了貴州電網(wǎng)的多種數(shù)據(jù),并根據(jù)數(shù)據(jù)的不同情況,分別應(yīng)用到了NLP中的不同領(lǐng)域,包括OA郵件發(fā)文數(shù)據(jù)、it設(shè)備臺(tái)賬、工單、操作票等。
2詞庫(kù)概述
2.1 詞庫(kù)在NLP任務(wù)中的作用
詞庫(kù)在NLP中的作用主要有以下幾個(gè)方面:構(gòu)建文本特征向量、分詞、實(shí)體識(shí)別、實(shí)體關(guān)系抽取、知識(shí)圖譜的基礎(chǔ)組成等。
2.2 基于詞庫(kù)的典型方法
2.2.1 獨(dú)熱編碼與詞嵌入
獨(dú)熱編碼即One-Hot編碼,又稱(chēng)一位有效編碼,其方法是使用N位狀態(tài)寄存器來(lái)對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有它獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效。在機(jī)器學(xué)習(xí)中,常常遇到分類(lèi)型特征,即不能用連續(xù)的數(shù)值表示的特征,貴州電網(wǎng)的文本集合就可以抽取為這樣的特征。這些特征值并不是連續(xù)的,而是離散的,無(wú)序的。
2.2.2 詞袋模型
詞袋模型假設(shè)我們不考慮文本中詞與詞之間的上下文關(guān)系,僅僅只考慮所有詞的權(quán)重。而權(quán)重與詞在文本中出現(xiàn)的頻率有關(guān)。在詞袋模型統(tǒng)計(jì)詞頻的時(shí)候,可以使用sklearn中的CountVectorizer。由于大部分文本都只會(huì)用詞匯表中很少一部分的詞,因此詞向量中有大量的0,也就是說(shuō)詞向量是稀疏的。因此在實(shí)際應(yīng)用中一般使用稀疏矩陣來(lái)存儲(chǔ)。
2.2.3 詞頻與逆向文本詞頻
TF-IDF模型(term frequency–inverse document frequency,詞頻與逆向文本頻率)是:TF*IDF。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF(inverse document frequency,逆向文件頻率)的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類(lèi)別區(qū)分能力。如果某一類(lèi)文檔C中包含詞條t的文檔數(shù)為m,而其他類(lèi)包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會(huì)小,就說(shuō)明該詞條t類(lèi)別區(qū)分能力不強(qiáng)。
3生成詞庫(kù)的方法
3.1 新詞發(fā)現(xiàn)
新詞是一個(gè)最近鑄造的發(fā)明詞或者詞的重新組合。本次研究采用了基于統(tǒng)計(jì)的詞關(guān)聯(lián)性信息與統(tǒng)計(jì)特征與詞法特征相結(jié)合的新詞發(fā)現(xiàn)方法。對(duì)電網(wǎng)預(yù)料進(jìn)行分詞,將在兩停用詞間的相鄰字串兩兩組合,根據(jù)組合后的字串頻率統(tǒng)計(jì)取得新詞候選串,再通過(guò)組合成詞規(guī)則進(jìn)行篩選獲得候選新詞,最后通過(guò)詞的鄰接域變化特性去除垃圾串獲得新詞。
在構(gòu)建電網(wǎng)詞庫(kù)時(shí),首先假設(shè)整個(gè)電網(wǎng)領(lǐng)域的詞語(yǔ)都是“未登錄詞”,使用上述方式進(jìn)行成詞的抽取,最后與已經(jīng)真實(shí)存在的電網(wǎng)詞庫(kù)進(jìn)行交叉對(duì)比校驗(yàn),以結(jié)果來(lái)動(dòng)態(tài)擴(kuò)充詞庫(kù)。
3.2 候選詞結(jié)構(gòu)制定
由于電網(wǎng)領(lǐng)域詞語(yǔ)的最大長(zhǎng)度無(wú)法在初始化時(shí)確定,因此,在詞的結(jié)構(gòu)上,使用N-gram統(tǒng)計(jì)模型。其主要思想是:一個(gè)單詞的出現(xiàn)與N-gram模型建立在一種假設(shè)前提下,即假設(shè)第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),并且與其他任何詞都不相關(guān),得到的各個(gè)詞出現(xiàn)的概率的乘積就是整句的概率。
3.3 詞向量方法
Word embedding指的是將詞轉(zhuǎn)化成一種分布式表示,又稱(chēng)詞向量。分布式表示將詞表示成一個(gè)定長(zhǎng)的連續(xù)的稠密向量。
分布式表示優(yōu)點(diǎn):
(1)詞之間存在相似關(guān)系:
(2)包含更多信息:
詞向量能夠包含更多信息,并且每一維都有特定的含義。在采用one-hot特征時(shí),可以對(duì)特征向量進(jìn)行刪減,詞向量則不能。
本研究采用跳字模型和連續(xù)詞袋模型融合應(yīng)用方式實(shí)現(xiàn)。
跳字模型。在跳字模型中,我們用一個(gè)詞來(lái)預(yù)測(cè)它在文本序列周?chē)脑~。例如,給定文本序列”the”,“man”,“hit”,“his”,和”son”,跳字模型所關(guān)心的是,給定”hit”,生成它鄰近詞“the”,“man”,“his”,和”son”的概率。在這個(gè)例子中,”hit”叫中心詞,“the”,“man”,“his”,和”son”叫背景詞。由于”hit”只生成與它距離不超過(guò)2的背景詞,該時(shí)間窗口的大小為2。
假設(shè)詞典大小為|V|,我們將詞典中的每個(gè)詞與從0到|V|?1的整數(shù)一一對(duì)應(yīng):詞典索引集V={0,1,…,|V|?1}。一個(gè)詞在該詞典中所對(duì)應(yīng)的整數(shù)稱(chēng)為詞的索引。給定一個(gè)長(zhǎng)度為T(mén)的文本序列中,t時(shí)刻的詞為w(t)。當(dāng)時(shí)間窗口大小為m時(shí),跳字模型需要最大化給定任一中心詞生成背景詞的概率:
連續(xù)詞袋模型。連續(xù)詞袋模型與跳字模型類(lèi)似。與跳字模型最大的不同是,連續(xù)詞袋模型中用一個(gè)中心詞在文本序列周?chē)脑~來(lái)預(yù)測(cè)該中心詞。例如,給定文本序列”the”,“man”,“hit”,“his”,和”son”,連續(xù)詞袋模型所關(guān)心的是,鄰近詞“the”,“man”,“his”,和”son”一起生成中心詞”hit”的概率。
假設(shè)詞典大小為|V|,我們將詞典中的每個(gè)詞與從0到|V|?1的整數(shù)一一對(duì)應(yīng):詞典索引集V={0,1,…,|V|?1}。一個(gè)詞在該詞典中所對(duì)應(yīng)的整數(shù)稱(chēng)為詞的索引。給定一個(gè)長(zhǎng)度為T(mén)的文本序列中,t時(shí)刻的詞為w(t)。當(dāng)時(shí)間窗口大小為m時(shí),連續(xù)詞袋模型需要最大化由背景詞生成任一中心詞的概率:
4結(jié)語(yǔ)
面對(duì)能源互聯(lián)網(wǎng)所帶來(lái)的數(shù)據(jù)海量化的趨勢(shì),電網(wǎng)日常工作中產(chǎn)生的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)日益增多,為解決對(duì)海量數(shù)據(jù)面臨的多次重復(fù)訓(xùn)練的問(wèn)題,電網(wǎng)各領(lǐng)域信息系統(tǒng)建設(shè)數(shù)據(jù)重復(fù)利用問(wèn)題,本章提出構(gòu)建一種針對(duì)電網(wǎng)制度數(shù)據(jù)的詞庫(kù)生成方法,在制度領(lǐng)域?qū)崿F(xiàn)了底層知識(shí)數(shù)據(jù)的詞庫(kù)構(gòu)建,有效的為上層智能應(yīng)用,如語(yǔ)義解析、智能搜索、數(shù)據(jù)分析等提供了統(tǒng)一、快速、可復(fù)用的電網(wǎng)詞庫(kù)能力支撐,同時(shí)智能化的實(shí)現(xiàn)新詞發(fā)現(xiàn),實(shí)現(xiàn)了實(shí)時(shí)地對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練的功能,表明該方法能夠有效支撐電網(wǎng)智能化體系構(gòu)建。
參考文獻(xiàn)
[1]戴彥,王劉旺,李媛,顏擁,韓嘉佳,文福拴.新一代人工智能在智能電網(wǎng)中的應(yīng)用研究綜述[J].電力建設(shè),2018,39(10):1-11.
[2]奉國(guó)和 , 鄭偉. 國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J]. 圖書(shū)情報(bào)工作, 2011, (02), pp.41-45CNKI
歐陽(yáng)靜(1986.5-33),漢,貴州貴陽(yáng)人,學(xué)士,貴州電網(wǎng)有限責(zé)任公司信息中心助理工程師,主要從事信息系統(tǒng)建設(shè)與研究。
[基金項(xiàng)目]本文為貴州電網(wǎng)有限責(zé)任公司信息中心科技類(lèi)項(xiàng)目“基于非機(jī)構(gòu)化文檔內(nèi)容自動(dòng)識(shí)別技術(shù)的電網(wǎng)制度百科平臺(tái)研發(fā)及應(yīng)用”(項(xiàng)目編號(hào):066700KK52180027)的研究成果。