王耀輝,楊 帆,陳 帥
(1.東北電力大學(xué) 媒體系,吉林 吉林132012;2.東北電力大學(xué) 信息工程學(xué)院,吉林 吉林132012)
電力隱性知識(shí)泛指存在于電力相關(guān)從業(yè)人員頭腦中的,不易顯性化的解決問(wèn)題的方法、訣竅等個(gè)性化知識(shí),甚至有時(shí)電力隱性知識(shí)的擁有者都沒(méi)有意識(shí)到自己具有某種隱性知識(shí)。傳統(tǒng)的師傅帶徒弟、干中學(xué)等隱性知識(shí)學(xué)習(xí)方式,由于員工的流動(dòng)性,容易造成知識(shí)未經(jīng)傳承即消亡的現(xiàn)象,而組會(huì)討論等隱性知識(shí)共享方式又存在耗時(shí)耗物、靈活性差等劣勢(shì)。電力虛擬社區(qū)的發(fā)展為解決隱性知識(shí)共享提供了新途徑,電力相關(guān)從業(yè)人員可以在虛擬社區(qū)[1-2]中發(fā)布問(wèn)題,而隱性知識(shí)的擁有者則可以采取回答問(wèn)題的方式將自己的隱性知識(shí)共享,通過(guò)這種形式,電力虛擬社區(qū)中積累了大量的電力隱性知識(shí)。
在實(shí)際的電力虛擬社區(qū)中,開(kāi)放性的交流方式是十分自由的,對(duì)隱性知識(shí)質(zhì)量有著非常重要影響的評(píng)論信息良莠不齊,并且充斥著相當(dāng)數(shù)量的商業(yè)廣告。這些因素使電力隱性知識(shí)淹沒(méi)于大量的無(wú)用信息中,快速獲得適用性好的隱性知識(shí)面臨嚴(yán)重問(wèn)題。所以過(guò)濾電力虛擬社區(qū)中的無(wú)效信息,從中提取出有價(jià)值的隱性知識(shí),對(duì)電力隱性知識(shí)的挖掘、檢索以及共享有著重要的意義。
針對(duì)上述情況,本文深入研究了電力虛擬社區(qū)中問(wèn)答模式的特點(diǎn),提出一種面向電力虛擬社區(qū)的隱性知識(shí)收集方法。該方法以向量空間模型[3-4]為基礎(chǔ),根據(jù)問(wèn)答模式的特點(diǎn),以社區(qū)中的討論主題為基本單位,將主題內(nèi)的討論內(nèi)容表示成主題描述、應(yīng)用情景描述、專(zhuān)業(yè)性描述和評(píng)價(jià)描述四維向量形式,以此完成主題文本的量化,使電力隱性知識(shí)收集轉(zhuǎn)化為文本向量二分類(lèi)問(wèn)題。然后采用遺傳支持向量機(jī)(GASVM)對(duì)數(shù)量化的主題文本進(jìn)行分類(lèi),得到的正類(lèi)主題文本即為電力隱性知識(shí),從而完成隱性知識(shí)的收集。最后,在捕獲的1980個(gè)電力虛擬社區(qū)主題文本(進(jìn)行了人工標(biāo)記)中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的方法獲得了較好的正確率。
向量空間模型中,使用TF/IDF作為詞權(quán)重的計(jì)算方法,根據(jù)文本集的特征向量空間,將文本表示成空間向量形式,從而完成文本的量化。然而虛擬社區(qū)中的主題文本屬性分類(lèi)問(wèn)題(內(nèi)部是否含有解決問(wèn)題的隱性知識(shí))與一般意義上的文本分類(lèi)不同。主題文本是否包含隱性知識(shí)和全部文檔集合無(wú)關(guān),主要與其內(nèi)部的主題-答案匹配情況、答案質(zhì)量、主題-答案專(zhuān)業(yè)性,以及評(píng)論信息這四個(gè)因素有關(guān)。換言之,以這四個(gè)指標(biāo)為元素構(gòu)建的新向量可以表示主題文本的特性。因此將這四個(gè)指標(biāo)數(shù)量化,即完成了一個(gè)主題文本的量化表示,從而完成了機(jī)器學(xué)習(xí)方法的原始數(shù)據(jù)準(zhǔn)備,以使用機(jī)器學(xué)習(xí)方法挖掘出其中的模式,完成有效主題文本的甄別。
本文中的主題描述是指在電力虛擬社區(qū)的一個(gè)主題文本中,問(wèn)題的關(guān)鍵詞在回答中的出現(xiàn)情況,也可以視為答案與問(wèn)題的契合程度。本文采用變形的ITC方法計(jì)算主題描述的權(quán)重。記主題描述的權(quán)重為Wt,則其計(jì)算公式如下:
式(1)中,fik表示第k條答案中與主題中同時(shí)出現(xiàn)的第i個(gè)關(guān)鍵詞的詞頻,l表示關(guān)鍵詞總個(gè)數(shù),λk表示第k條答案的文本長(zhǎng)度。公式中的F(k)=k/k+(1),因?yàn)榇鸢傅臄?shù)量越多,對(duì)解決主題中的問(wèn)題就越有幫助,所以使用收斂函數(shù)F(k)控制答案數(shù)目對(duì)主題描述的影響。為弱化詞頻、文本長(zhǎng)度以及答案條數(shù)對(duì)主題描述權(quán)重的影響,公式中使用常用對(duì)數(shù)形式來(lái)弱化詞頻差異以及文本長(zhǎng)度差異的影響。
應(yīng)用情景描述主要表示答案的質(zhì)量。一個(gè)好的答案通常包含一定數(shù)量的詞頻大于1的關(guān)鍵詞。記應(yīng)用情景描述的權(quán)重為WS,WS的計(jì)算公式與Wt的計(jì)算公式相同,只是公式中的參數(shù)fik含義為答案內(nèi)的關(guān)鍵詞詞頻,顯然fik>1。
在專(zhuān)業(yè)領(lǐng)域問(wèn)題中,領(lǐng)域詞匯的含量對(duì)于衡量問(wèn)答的專(zhuān)業(yè)性具有重要意義,電力虛擬社區(qū)主題文本中,尤其在文本較短,關(guān)鍵詞重復(fù)率極低的情況下,電力專(zhuān)業(yè)詞匯的種類(lèi)對(duì)機(jī)器隱性知識(shí)分類(lèi)的準(zhǔn)確率具有關(guān)鍵性作用。記專(zhuān)業(yè)性描述的權(quán)重為Wm,影響主題文本專(zhuān)業(yè)性的因素包括專(zhuān)業(yè)詞匯的種類(lèi)和文本的長(zhǎng)度,Wm的計(jì)算公式如下:
式中,k表示主題文本中出現(xiàn)的專(zhuān)業(yè)詞匯種類(lèi)的數(shù)目,λk表示第k條答案的文本長(zhǎng)度,λ0表示問(wèn)題的文本長(zhǎng)度。
在評(píng)判答案的質(zhì)量時(shí),評(píng)論信息十分重要,通常一個(gè)好的問(wèn)答模式都會(huì)有一些諸如“謝謝了”、“頂”、“學(xué)習(xí)了”、“受教”等字眼的積極評(píng)論,所以評(píng)論描述對(duì)隱性知識(shí)的分類(lèi)也具有重要的影響。記評(píng)論描述的權(quán)重為Wc,Wc的計(jì)算同樣使用1.3中的公式,區(qū)別在于k表示的是主題文本中的積極評(píng)論數(shù)目。
由于電力隱性知識(shí)是屬于特定領(lǐng)域的知識(shí),其內(nèi)包含了大量的領(lǐng)域詞匯,使用傳統(tǒng)的分詞軟件進(jìn)行文本分詞效果十分不理想,因此本文根據(jù)滑動(dòng)窗口的思想設(shè)計(jì)了一種可以不分詞的關(guān)鍵詞抽取算法[5-7]。在本算法中,使用了電力專(zhuān)業(yè)詞匯表和漢語(yǔ)停用詞表。
圖1是一個(gè)比較典型的電力虛擬社區(qū)主題文本,展示了其主要的特性,我們的關(guān)鍵詞抽取算法、主題文本向量表示以及后期的分類(lèi)都是建立在對(duì)這種類(lèi)型的文本處理基礎(chǔ)之上的。我們將整個(gè)電力隱性知識(shí)主題文本記為topic,圖中虛線間隔的為不同帖子,所以將 topic 表示為 topic={T,A1,A2,…,An},其中T表示標(biāo)題與標(biāo)題中的問(wèn)題的并集,即為文本討論的主題帖子,A1到An統(tǒng)一表示不同的帖子(在處理之前我們將這些帖子暫視為答案)。
為了提高算法的運(yùn)行效率,降低問(wèn)題處理的復(fù)雜度,在進(jìn)行關(guān)鍵詞抽取核心算法之前,先進(jìn)行下列預(yù)處理步驟:
圖1 電力虛擬社區(qū)主題文本
(1)在捕獲的電力虛擬社區(qū)主題文本的帖子中,依據(jù)文本長(zhǎng)度和積極評(píng)論字眼,分離出積極評(píng)論帖子,記錄其總數(shù),作為Wc的計(jì)算依據(jù);
(2)如果T中沒(méi)有出現(xiàn)任何疑問(wèn)詞或者問(wèn)號(hào),則將標(biāo)題作為問(wèn)題,將T中的問(wèn)題部分劃入A中;(這種情況下,T可能為作者的知識(shí)分享)
(3)比較Ai和Ai+1是否相同,如果相同則去除其中的一個(gè)。(去除冗余的重復(fù)帖子)
在本文中,滑動(dòng)窗口的初始值為2,下面給出關(guān)鍵詞抽取核心算法:
將問(wèn)題(主題帖子)記為字符串Q,答案記為字符串A,A=A1∪A2∪…∪An(n為字符串A中答案?jìng)€(gè)數(shù),即為回帖數(shù)),具體算法描述如下:
算法1:主題描述關(guān)鍵詞抽取算法
輸入:問(wèn)題Q,答案A
輸出:關(guān)鍵詞序列 key_list[k]
1)key_list[k]=NULL,buffer=NULL;
2)對(duì)所有的Ak進(jìn)行如下操作;
3)window1指向Q的起始位置;window2指向Ak的起始位置;兩個(gè)窗口的大小都設(shè)為s=2;
4)ifwindow1=window2 thenbuffer={window1,1};key_list[k]=key_list[k]∪ buffer;window2 向后滑動(dòng)s個(gè)字符,如果未滑動(dòng)越界,則轉(zhuǎn)4,若越界,則轉(zhuǎn)6;
elsewindow2向后滑動(dòng)1個(gè)字符,未滑動(dòng)越界,則轉(zhuǎn)4;若越界,則轉(zhuǎn)5;
5)window1和window2大小都置為s=2;window2置回Ai的起始位置;window1向后滑動(dòng)一個(gè)字符,如果滑動(dòng)越界,轉(zhuǎn)7,掃描key_list[k],如果window1中字符串出現(xiàn)在key_list[k]中,則window1向后滑動(dòng)一個(gè)字符,如果滑動(dòng)越界,轉(zhuǎn)7,否則轉(zhuǎn)4;
6)window1和window2的大小同時(shí)增加1,如果窗口越界,則轉(zhuǎn)5;window2置回Ai的起始位置,轉(zhuǎn)4;
7)if key_list[k]!=NULL then掃描key_list[k],去除包含停用詞的關(guān)鍵詞;統(tǒng)計(jì)相同關(guān)鍵詞詞頻;關(guān)鍵詞 key[i]的詞頻 fik=fik-fxk;//其中 key[x]為真包含 key[i]最小詞,fxk為 key[x]的詞頻;如果key[i]的 fik=0,則刪除 key[i];
8.key_list[k]中的關(guān)鍵詞及其詞頻即為我們要抽取的主題描述關(guān)鍵詞信息。
算法2:應(yīng)用情景描述關(guān)鍵詞抽取算法
輸入:答案A
輸出:關(guān)鍵詞序列 key_list[k]
算法2中的主要過(guò)程與算法1類(lèi)似,主要區(qū)別在于,算法2中window2初始時(shí)指向window1的結(jié)束位置,置回時(shí)也指向window1的結(jié)束位置。同樣的在key_list[k]中的關(guān)鍵詞及其詞頻即為我們要抽取的應(yīng)用情景描述關(guān)鍵詞信息。
算法3:電力專(zhuān)業(yè)詞匯提取算法
輸入:問(wèn)題Q,答案A
輸出:主題文本中的電力專(zhuān)業(yè)詞匯種類(lèi)sum
此算法只需取出電力專(zhuān)業(yè)詞匯表中的詞匯,在主題文本中進(jìn)行查找,不計(jì)重復(fù),算出種類(lèi)sum即可。同時(shí),我們?cè)谒惴?中完成各帖子文本長(zhǎng)度的計(jì)算。
至此,上節(jié)公式中出現(xiàn)的參數(shù)我們都可以由本節(jié)中的算法計(jì)算出具體值,帶入相應(yīng)公式中,就可以求出Wt、WS、Wm、Wc的值,從而完成了電力虛擬社區(qū)中主題文本的量化表示。
本文將GASVM作為分類(lèi)工具,一方面,SVM在文本分類(lèi)中具有良好的性能,尤其適用于二分類(lèi),另一方面,使用遺傳算法尋優(yōu),可以提升分類(lèi)的準(zhǔn)確率。
SVM中,優(yōu)化目標(biāo)和約束項(xiàng)表示為:
其中C為懲罰因子。
最優(yōu)分類(lèi)函數(shù)為:
其中 K(x,xi)為核函數(shù),RBF是最經(jīng)常使用的核函數(shù),關(guān)于兩個(gè)樣本x,xi,它們的RBF核可表示為某“輸入空間”的特征向量,定義如下:可看做兩個(gè)特征向量的平方歐幾里得距離。σ是自由參數(shù)。一種等價(jià)定義是設(shè)一個(gè)新的參數(shù)γ,其表達(dá)式為則
由上述分析可知,優(yōu)化SVM分類(lèi)性能的關(guān)鍵在于C和γ的尋優(yōu),在本文的分類(lèi)算法中,選取了遺傳算法來(lái)完成C與γ的尋優(yōu)工作。
實(shí)驗(yàn)數(shù)據(jù)集為使用火車(chē)采集器從北極星電力虛擬社區(qū)論壇中捕獲的1980個(gè)電力主題文本,通過(guò)人工完成這些問(wèn)題的標(biāo)記,標(biāo)記的方式為主題文本是否包含解決主題問(wèn)題的隱性知識(shí),包含則標(biāo)記為1,否則標(biāo)記為0。由于沒(méi)有公認(rèn)的數(shù)據(jù)集,所以實(shí)驗(yàn)建立在假設(shè)這些人工標(biāo)記的文本全部被正確標(biāo)記基礎(chǔ)上。
選取數(shù)據(jù)集中的1000個(gè)文本作為訓(xùn)練集,980個(gè)文本為測(cè)試集,本文采用的平衡數(shù)據(jù)集差異的方法是5倍交叉驗(yàn)證。文中使用正確率作為性能度量指標(biāo)。
本文實(shí)驗(yàn)中SVM的核函數(shù)分別采用了線性核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù)和Sigmoid核函數(shù)進(jìn)行實(shí)驗(yàn)對(duì)比,表1顯示了SVM中不同核函數(shù)用于電力虛擬社區(qū)主題文本的平均正確率。
表1 SVM不同核函數(shù)分類(lèi)的正確率
由實(shí)驗(yàn)結(jié)果可以看出,SVM中選用RBF核函數(shù)在正確率上性能較好。我們使用遺傳算法對(duì)其進(jìn)行優(yōu)化,將RBF核函數(shù)進(jìn)行訓(xùn)練后得到的正確率作為遺傳算法的適應(yīng)度函數(shù),并將遺傳算法的最大遺傳代數(shù)設(shè)置為20。遺傳支持向量機(jī)的進(jìn)化過(guò)程如圖2所示。
從圖2中可以看出,采用RBF核函數(shù)的SVM在遺傳算法的優(yōu)化下,正確率提升到了將近90%,此時(shí)C=4.875 239e+02,γ =7.992 195e+00。
圖2 GASVM的進(jìn)化過(guò)程
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,尤其是當(dāng)前移動(dòng)互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,如電力虛擬社區(qū)這樣的知識(shí)交流平臺(tái)必將面臨數(shù)據(jù)量的急劇增長(zhǎng),這將直接導(dǎo)致電力隱性知識(shí)向虛擬社區(qū)匯集,從而使虛擬社區(qū)成為挖掘電力隱性知識(shí)的天然平臺(tái)。本文針對(duì)此趨勢(shì),根據(jù)電力虛擬社區(qū)中隱性知識(shí)性質(zhì)難辨、無(wú)用信息多等問(wèn)題,提出了面向電力虛擬社區(qū)的隱性知識(shí)收集方法,設(shè)計(jì)了主題文本的向量空間表示方法和基于滑動(dòng)窗口的關(guān)鍵詞抽取方法,完成了電力主題文本的量化表示,最后采用遺傳支持向量機(jī)完成了主題文本(即隱性知識(shí))的分類(lèi)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠完成電力虛擬社區(qū)中的隱性知識(shí)收集,過(guò)濾了大量無(wú)效信息,并取得了良好的正確率性能。
[1]趙捧未,馬琳,秦春秀.虛擬社區(qū)研究綜述[J].情報(bào)理論與實(shí)踐,2013,36(7):119-123.
[2]鄭雪麗.虛擬社區(qū)國(guó)外研究綜述[J].圖書(shū)館學(xué)研究,2012(18):2-5.
[3]陸玉昌,魯明羽,李凡,等.向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J].計(jì)算機(jī)研究與發(fā)展,2002,39(10):1205-1209.
[4]劉少輝,董明楷,張??。?一種基于向量空間模型的多層次文本分類(lèi)方法[J].中文信息學(xué)報(bào),2002,16(3):8-14,26.
[5]王素格,宋曉雷,李紅霞.基于領(lǐng)域知識(shí)的問(wèn)答對(duì)自動(dòng)提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(19):214-216,223.
[6]江華,蘇曉光.無(wú)詞典中文高頻詞快速抽取算法[J].知識(shí)組織與知識(shí)管理,2012,(3):50-53.
[7]黃九鳴,吳泉源,劉春陽(yáng),等.短文本信息流的無(wú)監(jiān)督會(huì)話抽取技術(shù)[J].軟件學(xué)報(bào),2012,23(4):735-747.