国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電子政務(wù)領(lǐng)域中文術(shù)語(yǔ)層次關(guān)系識(shí)別研究

2021-02-25 10:37鄧三鴻張寶隆
情報(bào)學(xué)報(bào) 2021年1期
關(guān)鍵詞:語(yǔ)料電子政務(wù)術(shù)語(yǔ)

張 衛(wèi),王 昊,鄧三鴻,張寶隆

(1.南京大學(xué)信息管理學(xué)院,南京210023;2.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)),南京210023)

1 引言

數(shù)據(jù)驅(qū)動(dòng)時(shí)代,電子政務(wù)信息作為我國(guó)政府機(jī)構(gòu)的戰(zhàn)略性資源,正伴隨著自動(dòng)化辦公與社會(huì)管理的革新與日俱增。2019年,中央部委成功打通了42個(gè)國(guó)務(wù)院部門垂直管理信息系統(tǒng)[1],而地方平臺(tái)“云上貴州”更是以1387TB的數(shù)據(jù)量實(shí)現(xiàn)了省市縣政府9728個(gè)部門政務(wù)系統(tǒng)的對(duì)接[2]。不難發(fā)現(xiàn),海量電子政務(wù)信息資源在開放共享中日益表現(xiàn)出多源異構(gòu)的特征,這使得傳統(tǒng)的以電子政務(wù)主題詞表為核心的政務(wù)術(shù)語(yǔ)知識(shí)體系的不足也越發(fā)凸顯,其特點(diǎn)主要表現(xiàn)為3個(gè)方面:①基于內(nèi)容主題的術(shù)語(yǔ)層次較淺。就國(guó)內(nèi)具有代表性的《綜合電子政務(wù)主題詞表》而言,其范疇表依據(jù)主題內(nèi)容劃分為21個(gè)知識(shí)范疇,雖然涉及政務(wù)領(lǐng)域廣,但是術(shù)語(yǔ)層次較淺(僅至3級(jí))。②基于結(jié)構(gòu)關(guān)系的術(shù)語(yǔ)層次缺失。詞表內(nèi)諸多層次術(shù)語(yǔ)具有結(jié)構(gòu)包含關(guān)系(如“保衛(wèi)”與“安全保衛(wèi)”),但尚不全面。③術(shù)語(yǔ)層次關(guān)聯(lián)缺少語(yǔ)料支持。過去在缺少政務(wù)語(yǔ)料的條件下,只能采取人工構(gòu)建詞表的方式。隨著電子政務(wù)的發(fā)展,公眾對(duì)政府工作的參與性顯著提高,一方面通過網(wǎng)絡(luò)百科以標(biāo)準(zhǔn)化的形式了解政務(wù)知識(shí);另一方面借助社交媒體關(guān)注實(shí)時(shí)的政務(wù)信息資源。這些都在當(dāng)下催生出大量政務(wù)語(yǔ)料,也為在缺少語(yǔ)料庫(kù)條件下形成的詞表開拓了較大的術(shù)語(yǔ)層次優(yōu)化空間。

由此可見,傳統(tǒng)詞表中的電子政務(wù)術(shù)語(yǔ)由于缺少在大規(guī)模語(yǔ)料支持下對(duì)層次范疇和語(yǔ)義邏輯的深層優(yōu)化[3],難以在大數(shù)據(jù)時(shí)代適應(yīng)電子政務(wù)信息資源的標(biāo)引、檢索以及組織工作,這就使得從語(yǔ)義角度自動(dòng)化識(shí)別電子政務(wù)術(shù)語(yǔ)的深層關(guān)聯(lián)顯得尤為重要。

本體作為語(yǔ)義網(wǎng)體系內(nèi)一種有效的知識(shí)組織方式,可以在信息系統(tǒng)的整合過程中將資源解析為機(jī)器所能理解的知識(shí),通過語(yǔ)義驅(qū)動(dòng)實(shí)現(xiàn)信息資源在網(wǎng)絡(luò)環(huán)境內(nèi)的交換與共享[4]。因此,本研究以本體學(xué)習(xí)6層次理論[5]中的概念層次為指導(dǎo),采用電子政務(wù)主題詞作為術(shù)語(yǔ)集,首先通過對(duì)網(wǎng)絡(luò)百科語(yǔ)料中提取的內(nèi)容特征采取聚類的方式生成具備高召回率的概念層次,稱為基于內(nèi)容的層次關(guān)系;其次,借助術(shù)語(yǔ)共現(xiàn)理論[6]對(duì)社交媒體語(yǔ)料建立概念格結(jié)構(gòu)生成具有高準(zhǔn)確率的概念層次,稱為基于結(jié)構(gòu)的層次關(guān)系;最后,將二者相融合,以前者為整體框架、后者為修正指導(dǎo),從而形成了一整套電子政務(wù)術(shù)語(yǔ)本體構(gòu)成方案,所形成的電子政務(wù)本體將在信息檢索與推薦、跨部門協(xié)同共享、政務(wù)知識(shí)發(fā)現(xiàn)等實(shí)際應(yīng)用中提供支持。

2 相關(guān)研究工作

采取內(nèi)容與結(jié)構(gòu)相融合的方法,對(duì)電子政務(wù)術(shù)語(yǔ)層次關(guān)系進(jìn)行識(shí)別工作的研究基礎(chǔ)主要包括兩個(gè)方面:電子政務(wù)術(shù)語(yǔ)層次的組織工作和術(shù)語(yǔ)層次關(guān)系的識(shí)別方法。

就我國(guó)電子政務(wù)術(shù)語(yǔ)層次的組織工作而言,具有代表性的是中國(guó)科學(xué)技術(shù)信息研究所于2005年編制完成的《綜合電子政務(wù)主題詞表》,該詞表由字順表與范疇表所組成,是迄今為止國(guó)內(nèi)收詞量最多、專業(yè)覆蓋面最廣的政務(wù)主題詞表[7]。然而,由于詞表由來已久,而且電子政務(wù)信息資源開放共享的訴求日趨強(qiáng)烈[8],學(xué)者們也逐步展開了對(duì)詞表的改進(jìn)工作。賈君枝等[9]運(yùn)用FAST主題詞分面對(duì)詞表進(jìn)行分面式改造以契合公眾檢索需求。王汀等[10]則基于詞表與百科提出了面向大規(guī)模本體的自動(dòng)化擴(kuò)充方案。目前,尚未有學(xué)者對(duì)詞表的層次體系進(jìn)行補(bǔ)充擴(kuò)展抑或延伸細(xì)化??紤]到在缺少語(yǔ)料庫(kù)下人工構(gòu)建詞表的主觀性以及現(xiàn)有層次關(guān)系的不完備性[11],例如,在字順表內(nèi),結(jié)構(gòu)層面的術(shù)語(yǔ)“保衛(wèi)工作”并未像“安全保衛(wèi)”那樣歸置為“保衛(wèi)”的下位類,也沒有從內(nèi)容層面細(xì)化“安全保衛(wèi)”與“保衛(wèi)工作”二者術(shù)語(yǔ)間的語(yǔ)義聯(lián)系。因此,本文將基于范疇表的知識(shí)體系,通過大規(guī)模語(yǔ)料識(shí)別內(nèi)容與結(jié)構(gòu)層面的術(shù)語(yǔ)層次關(guān)系,形成具備深層樹狀結(jié)構(gòu)的電子政務(wù)術(shù)語(yǔ)本體。

就本體中術(shù)語(yǔ)層次關(guān)系的識(shí)別方法來說,主要包括基于規(guī)則模板的方法與基于統(tǒng)計(jì)的方法[12]。基于規(guī)則模板的方法往往與句法依存分析[13]相結(jié)合,需要人工制定語(yǔ)言模板,在面向大規(guī)模非結(jié)構(gòu)化文本所能獲取的層次關(guān)系較為有限[14]。此外,不同領(lǐng)域所制定的模板方案在相互間的可移植性不高[15],這也不利于規(guī)則模板的推廣。因此,本研究對(duì)電子政務(wù)術(shù)語(yǔ)層次關(guān)系的識(shí)別工作將基于統(tǒng)計(jì)的方法展開。由于采取不同的統(tǒng)計(jì)方法能夠分別識(shí)別內(nèi)容與結(jié)構(gòu)兩者層面上的術(shù)語(yǔ)層次關(guān)系,故將其劃分為與之對(duì)應(yīng)的兩個(gè)角度:內(nèi)容角度和結(jié)構(gòu)角度。

內(nèi)容角度,是指通過對(duì)文檔內(nèi)容所解析出的向量空間進(jìn)行聚類以達(dá)至對(duì)術(shù)語(yǔ)聚類的目的。該方法由于對(duì)識(shí)別術(shù)語(yǔ)關(guān)聯(lián)性具有較高的召回率而得到廣泛應(yīng)用,具體包括:層次聚類[16]、K-means聚類[17]、DBSCAN聚類[18]等。然而,這些方法在大規(guī)模術(shù)語(yǔ)層次關(guān)系的識(shí)別中均具有一定局限。如層次聚類是一種小規(guī)模高精度的聚類算法;K-means運(yùn)行結(jié)果具有較大的隨機(jī)性;DBSCAN聚類易將大量獨(dú)立點(diǎn)判斷成噪聲,不適合高維稀疏數(shù)據(jù)。相較之下,源于圖論思想的譜聚類[19]逐漸受到學(xué)界的推崇,其核心思想是通過降維將高維空間的數(shù)據(jù)映射到低維,從而實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)特征向量的聚類,面對(duì)高維稀疏矩陣能夠?qū)崿F(xiàn)精準(zhǔn)且穩(wěn)定的劃分效果,適用于從內(nèi)容角度識(shí)別術(shù)語(yǔ)層次關(guān)系。

結(jié)構(gòu)角度,是指在術(shù)語(yǔ)共現(xiàn)理論的指導(dǎo)下通過形式概念分析(formal concept analysis,F(xiàn)CA)建立能夠抽取出層次關(guān)系的概念格結(jié)構(gòu)。該方法由于具備較高的準(zhǔn)確率,在術(shù)語(yǔ)層次識(shí)別中也有不俗的表現(xiàn)。如de Farias等[20]通過FCA對(duì)巴西莫索羅市犯罪記錄數(shù)據(jù)進(jìn)行分析并建立具有犯罪模式的概念格,以期規(guī)劃預(yù)防和打擊犯罪的戰(zhàn)略。王昊等[21]以“白血病”為例借助FCA實(shí)現(xiàn)了中文醫(yī)學(xué)領(lǐng)域本體層次結(jié)構(gòu)自動(dòng)構(gòu)建的有效方法,并對(duì)面向?qū)W科資源的醫(yī)學(xué)專業(yè)術(shù)語(yǔ)層次關(guān)聯(lián)的抽取進(jìn)行了詳細(xì)論證。

對(duì)兩者進(jìn)行比較。從內(nèi)容角度采取聚類的方式識(shí)別層次關(guān)系,有利于提高術(shù)語(yǔ)關(guān)聯(lián)的召回率,但準(zhǔn)確率無法得到較好的保障;從結(jié)構(gòu)角度采取FCA方法,能夠有效地提高術(shù)語(yǔ)層次間的準(zhǔn)確性,但由于概念格結(jié)構(gòu)相對(duì)復(fù)雜使得層次關(guān)系的識(shí)別過于嚴(yán)格,導(dǎo)致在層次關(guān)系的抽取中會(huì)遺漏掉很多上下位關(guān)系??梢园l(fā)現(xiàn),采取基于內(nèi)容或結(jié)構(gòu)的統(tǒng)計(jì)方法各有利弊,然而尚未有研究將兩者方法整合以優(yōu)化術(shù)語(yǔ)層次關(guān)系的識(shí)別效果。

綜上所述,在電子政務(wù)術(shù)語(yǔ)的組織工作中,鮮有學(xué)者基于大規(guī)模語(yǔ)料對(duì)內(nèi)容與結(jié)構(gòu)層面的術(shù)語(yǔ)層次體系進(jìn)行擴(kuò)展延伸,更鮮有研究將基于內(nèi)容和結(jié)構(gòu)的統(tǒng)計(jì)方法相融合對(duì)術(shù)語(yǔ)層次關(guān)系的識(shí)別效果進(jìn)行優(yōu)化改進(jìn)。因此,本文擬將基于大規(guī)模語(yǔ)料從內(nèi)容與結(jié)構(gòu)雙重視角識(shí)別電子政務(wù)術(shù)語(yǔ)層次關(guān)聯(lián),以前者生成的基于內(nèi)容的層次關(guān)系為整體框架,以后者生成的基于結(jié)構(gòu)的層次關(guān)系為修正指導(dǎo),形成一個(gè)兼顧層次關(guān)聯(lián)召回率與準(zhǔn)確率的電子政務(wù)領(lǐng)域術(shù)語(yǔ)本體。

3 采用方法

本研究所采用的方法是針對(duì)電子政務(wù)術(shù)語(yǔ)所檢索到的自然語(yǔ)言文本,從內(nèi)容和結(jié)構(gòu)雙重視角識(shí)別電子政務(wù)領(lǐng)域中文術(shù)語(yǔ)層次關(guān)系的邏輯流程,如圖1所示。

圖1 電子政務(wù)中文術(shù)語(yǔ)層次關(guān)系識(shí)別的邏輯流程

由圖1可知,電子政務(wù)中文術(shù)語(yǔ)層次關(guān)系的識(shí)別主要包括3個(gè)模塊:①基于內(nèi)容的層次關(guān)系識(shí)別。從內(nèi)容特征的角度識(shí)別層次關(guān)系需要保證文檔內(nèi)容對(duì)電子政務(wù)術(shù)語(yǔ)內(nèi)涵的支撐度,故采用網(wǎng)絡(luò)百科作為語(yǔ)料,按照術(shù)語(yǔ)列表依次獲取百科文檔;隨后,構(gòu)建詞袋模型從文檔內(nèi)容中提取關(guān)鍵詞特征,獲得文檔-詞語(yǔ)矩陣(document word matrix,DWM),并根據(jù)術(shù)語(yǔ)與百科文檔間的獨(dú)立匹配關(guān)系將其轉(zhuǎn)化為術(shù)語(yǔ)-詞語(yǔ)矩陣(term word matrix,TWM);接著,使用降維所確定的聚類數(shù)目與TWM所提取的拉普拉斯矩陣(Laplacian matrix,LM)進(jìn)行譜聚類劃分矩陣類簇,并形成TWM子矩陣;進(jìn)一步,對(duì)子矩陣進(jìn)行余弦相似度計(jì)算以獲取術(shù)語(yǔ)之間的相似度,采用社會(huì)網(wǎng)絡(luò)分析(social network analysis,SNA)計(jì)算術(shù)語(yǔ)中心度,并將中心度較高的術(shù)語(yǔ)作為子矩陣的類目標(biāo)簽;最后,使用多層譜聚類的方式,形成一個(gè)初步具備理論內(nèi)涵的層次框架。②基于結(jié)構(gòu)的層次關(guān)系識(shí)別??紤]到識(shí)別基于結(jié)構(gòu)的層次關(guān)系有賴于在每篇文檔中不同術(shù)語(yǔ)之間的共現(xiàn)屬性,可用于揭示實(shí)踐場(chǎng)景中電子政務(wù)術(shù)語(yǔ)間的應(yīng)用情況,故采用社交媒體文檔作為語(yǔ)料,并按照術(shù)語(yǔ)列表依次檢索、爬?。浑S后,通過在社交媒體文檔內(nèi)術(shù)語(yǔ)的共現(xiàn)匹配建立形式化背景,并以<文檔-術(shù)語(yǔ)-權(quán)重>三元組的格式存儲(chǔ);接著,將三元組轉(zhuǎn)化為文檔-術(shù)語(yǔ)矩陣(document term matrix,DTM),使用FCA建立電子政務(wù)術(shù)語(yǔ)的概念格結(jié)構(gòu),并從中抽取出更為精細(xì)且具備實(shí)踐特性的層次關(guān)系。③語(yǔ)義融合。將基于內(nèi)容與基于結(jié)構(gòu)的層次關(guān)系相融合使其互為擴(kuò)展、修正,便構(gòu)成了更為完整、準(zhǔn)確的電子政務(wù)術(shù)語(yǔ)本體,通過OWL結(jié)構(gòu)存儲(chǔ)即可開展多元的電子政務(wù)知識(shí)服務(wù)。下文將對(duì)整套流程中所采用的具體方法展開闡述。

3.1 基于內(nèi)容的TWM與基于結(jié)構(gòu)的DTM構(gòu)建

從內(nèi)容的角度通過聚類識(shí)別電子政務(wù)術(shù)語(yǔ)的層次關(guān)系,需要深入網(wǎng)絡(luò)百科文檔對(duì)單個(gè)術(shù)語(yǔ)的釋義提取內(nèi)涵特征,同時(shí),要避免單個(gè)特征的力度過大,故采用TF-IDF構(gòu)建電子政務(wù)術(shù)語(yǔ)內(nèi)容文本的詞袋模型[22],提取并統(tǒng)計(jì)出每個(gè)電子政務(wù)術(shù)語(yǔ)所對(duì)應(yīng)的釋義文檔中相對(duì)于整體語(yǔ)料文檔區(qū)分度較高的關(guān)鍵詞及其權(quán)重,以此作為特征量化其在每個(gè)文檔中的重要度。其中,單個(gè)文檔的關(guān)鍵詞及關(guān)鍵詞權(quán)重能夠形成一個(gè)權(quán)重向量,即文檔特征向量,所有文檔特征向量的集合便構(gòu)建了電子政務(wù)領(lǐng)域的DWM,而由于每個(gè)電子政務(wù)術(shù)語(yǔ)能夠與其釋義文檔獨(dú)立匹配,故DWM亦可轉(zhuǎn)換為TWM,后續(xù)聚類工作將基于TWM展開。

從結(jié)構(gòu)的角度通過FCA識(shí)別層次關(guān)系,需要統(tǒng)計(jì)出所有術(shù)語(yǔ)在每條社交媒體文檔內(nèi)的共現(xiàn)情況,故而采取函數(shù)匹配判斷單個(gè)社交媒體文檔內(nèi)所有術(shù)語(yǔ)是否出現(xiàn),若出現(xiàn)統(tǒng)計(jì)為1,否則為0。若在一篇文檔內(nèi)不止一個(gè)術(shù)語(yǔ)出現(xiàn),則稱為術(shù)語(yǔ)共現(xiàn)[23]。其中,單個(gè)文檔內(nèi)術(shù)語(yǔ)集合的共現(xiàn)情況能夠形成一個(gè)向量,所有文檔向量的集合便構(gòu)建了存儲(chǔ)<文檔-術(shù)語(yǔ)-權(quán)重>三元組的電子政務(wù)領(lǐng)域DTM,后續(xù)FCA工作將基于DTM展開。

3.2 基于PCA與T-SNE的聚類數(shù)目確定

對(duì)電子政務(wù)術(shù)語(yǔ)TWM聚類之前需要確定聚類數(shù)目,目前受到學(xué)界認(rèn)可的自動(dòng)化處理方式是將矩陣降維至二維或三維空間,通過可視化輔助聚類數(shù)目的判斷[24]。

(1)主成分分析(principal component analysis,PCA)是一種對(duì)高維數(shù)據(jù)進(jìn)行線性降維的方法[25],將高維特征映射到低維正交特征上,計(jì)算數(shù)據(jù)在正交特征上投影的方差,方差越大,正交特征包含的信息量越多,刪去小特征值方向上的數(shù)據(jù)即可達(dá)到降維效果。

(2)T分布隨機(jī)鄰域嵌入(T-distributed stochas‐tic neighbor embedding,T-SNE)是一種非線性降維算法[26],通過高維數(shù)據(jù)點(diǎn)之間的概率分布使得相似對(duì)象有更高的概率被選中,同時(shí),將對(duì)象點(diǎn)映射至低維空間構(gòu)建概率分布,使兩者盡可能相似以達(dá)到降維的效果。

首先,用數(shù)據(jù)點(diǎn)間的條件概率表示相似度,以xi為中心構(gòu)建高斯分布(方差為σi),則有高維空間中任意兩點(diǎn)xi、xj間的相似性pj|i均可使得鄰域內(nèi)的點(diǎn)(k)相似性較大,如公式(1)所示:

其次,為克服數(shù)據(jù)點(diǎn)間的“擁擠問題”,對(duì)高維數(shù)據(jù)點(diǎn)分布實(shí)行對(duì)稱化使其與采用t分布的低維概率分布矩陣對(duì)稱,用高維空間數(shù)據(jù)點(diǎn)對(duì)xi、xj和映射的低維空間重組的數(shù)據(jù)點(diǎn)對(duì)yi、yj之間的聯(lián)合概率pij、qij分別表示數(shù)據(jù)點(diǎn)之間的相似度,如公式(2)所示:

再次,采用KL散度(Kullback-Leibler diver‐gence)作為目標(biāo)函數(shù)測(cè)度兩種分布之間的差異,利用隨機(jī)梯度計(jì)算的方法優(yōu)化迭代目標(biāo)函數(shù),目標(biāo)函數(shù)與梯度計(jì)算的判別式分別為

最后,T-SNE使用困惑度(prep)描述樣本點(diǎn)的有效近鄰點(diǎn)個(gè)數(shù),其通過二分搜索的方式尋找最佳方差,計(jì)算公式為

其中,H(pi)是pi的香農(nóng)熵,用來度量樣本數(shù)據(jù)的不確定性。熵值越大,困惑度越大,領(lǐng)域數(shù)據(jù)點(diǎn)的數(shù)量越多,相互之間的概率也越接近。

綜上所述,PCA算法運(yùn)行高效但特征值分解具有一定局限,降維主元并不一定最優(yōu);T-SNE精確性更優(yōu),而高復(fù)雜度計(jì)算會(huì)導(dǎo)致訓(xùn)練時(shí)間過長(zhǎng)。因此,可先行使用PCA對(duì)TWM進(jìn)行線性降維,若降維效果不佳,則進(jìn)一步采取T-SNE開展非線性降維。

3.3 基于譜聚類的術(shù)語(yǔ)類簇劃分

在聚類數(shù)目的指導(dǎo)下,可對(duì)電子政務(wù)術(shù)語(yǔ)百科文本的TWM進(jìn)行譜聚類劃分術(shù)語(yǔ)類簇。譜聚類是一種源于圖論思想的聚類算法,將集中的數(shù)據(jù)點(diǎn)視為無向加權(quán)圖的頂點(diǎn),從而讓數(shù)據(jù)點(diǎn)之間的相似關(guān)系轉(zhuǎn)化為無向圖的加權(quán)邊,使得數(shù)據(jù)集的聚類轉(zhuǎn)化為無向加權(quán)圖的切分問題[27]。譜聚類的核心在于對(duì)數(shù)據(jù)集LM的特征向量進(jìn)行聚類,以達(dá)到更為精準(zhǔn)的劃分效果,具體步驟如下:

Step1.輸 入 數(shù) 據(jù) 集TWM={v1,v2,…,vm},聚 類 數(shù)目為l。

Step2.將數(shù)據(jù)集圖譜化,定義任意兩點(diǎn)vi、vj之間的權(quán)重wij來表示兩點(diǎn)之間的相似度,當(dāng)數(shù)據(jù)點(diǎn)間有連接邊時(shí),wij>0;否則,wij=0,且無向圖的性質(zhì)使得wij=wji。此外,圖形的邊權(quán)重通過高斯距離獲得,計(jì)算公式為

Step3.通過數(shù)據(jù)集的邊權(quán)重計(jì)算相似度矩陣Sm與對(duì)角矩陣Dm,以此構(gòu)建拉普拉斯矩陣(Lm),并將其進(jìn)行標(biāo)準(zhǔn)化處理(Lstd):

Step4.計(jì)算并獲取Lstd前e個(gè)最大的特征值與特征向量,將特征向量作為列向量進(jìn)行集合得到矩陣um×e={u1,u2,…,ue},并對(duì)其規(guī)范化得到新矩陣Tm×e,規(guī)范公式為

Step5.對(duì)Tm×e的 行 向 量 使 用K-means聚類,輸出類簇C1,C2,…,Cl,各類簇內(nèi)的術(shù)語(yǔ)為通過聚類所劃分的電子政務(wù)術(shù)語(yǔ)集合。

因此,通過譜聚類可構(gòu)建電子政務(wù)術(shù)語(yǔ)TWM的無向加權(quán)圖,并計(jì)算LM開展后續(xù)聚類工作,以達(dá)到從內(nèi)容層面劃分電子政務(wù)術(shù)語(yǔ)類簇的目的。

3.4 基于中心度的術(shù)語(yǔ)類標(biāo)確定

在劃分了電子政務(wù)術(shù)語(yǔ)類簇后,緊接著就是提取每個(gè)類簇的類目標(biāo)簽。首先,針對(duì)譜聚類所切分TWM的 類 簇C1,C2,…,Cl提 取 出 子 矩 陣TWM1,TWM2,…,TWMl。其次,在每個(gè)子矩陣內(nèi)以詞語(yǔ)為屬性構(gòu)建術(shù)語(yǔ)特征向量,通過余弦算法計(jì)算術(shù)語(yǔ)特征向量的相似度,獲得表示術(shù)語(yǔ)間相似度的術(shù)語(yǔ)-術(shù)語(yǔ)矩 陣(term-term matrix,TTM)TTM1,TTM2,…,TTMl。最后,將TTM輸入社會(huì)網(wǎng)絡(luò)工具借助SNA計(jì)算各子矩陣內(nèi)的術(shù)語(yǔ)中心度,提取中心度較高的術(shù)語(yǔ)作為子矩陣的類目標(biāo)簽,即類簇C1,C2,…,Cl的標(biāo)簽。

3.5 基于FCA的概念層次結(jié)構(gòu)生成

FCA是一種數(shù)學(xué)語(yǔ)言驅(qū)動(dòng)的本體概念構(gòu)建方法,概念所有對(duì)象的集合被認(rèn)定為概念的外延,而其中公共屬性的集合被稱為概念的內(nèi)涵。從中抽取包括內(nèi)涵和外延在內(nèi)的概念層次結(jié)構(gòu),稱為概念格結(jié)構(gòu)模型[28]。因此,采取FCA便能夠利用對(duì)象(政務(wù)文本)與屬性(政務(wù)術(shù)語(yǔ))之間的二元關(guān)系抽取出基于結(jié)構(gòu)的層次關(guān)系。

若電子政務(wù)術(shù)語(yǔ)集合A(屬性)、社交媒體文檔集合O(對(duì)象)以及二者間的關(guān)系R共同構(gòu)建了一個(gè)三元組B=(A,O,R),其中,aRo表示在對(duì)象o∈O中有屬性a∈A,將三元組B進(jìn)行轉(zhuǎn)化獲得電子政務(wù)DTM。

那么,在三元組B中,對(duì)O、A的冪集定義兩個(gè)映射f和h如下:

公式(8)反映了對(duì)象集合(Oi)中的共同屬性以及相同屬性(Aj)中的所有對(duì)象。此時(shí),若f(Oi)=Aj且h(Aj)=Oi,則認(rèn)為C=(Oi,Aj)是以O(shè)i為外延、Aj為內(nèi)涵的概念。

若對(duì) 于概念C1=(O1,A1)、C2=(O2,A2)有A1?A2,則稱C2是C1的子概念,而這種父子關(guān)系便形成了層次序以揭示概念間的層次關(guān)系。

實(shí)質(zhì)上,概念間的父子關(guān)系的判斷是推理DTM內(nèi)以文檔為特征的術(shù)語(yǔ)向量間的包含關(guān)系。因此,采取求與運(yùn)算實(shí)現(xiàn)FCA判斷DTM內(nèi)術(shù)語(yǔ)向量間的父子關(guān)系,可識(shí)別基于結(jié)構(gòu)的電子政務(wù)術(shù)語(yǔ)層次關(guān)系。

3.6 基于語(yǔ)義融合的層次關(guān)系優(yōu)化與評(píng)價(jià)

在將基于內(nèi)容與基于結(jié)構(gòu)的層次關(guān)系進(jìn)行融合之后,便可以從擴(kuò)展與修正兩個(gè)角度優(yōu)化電子政務(wù)術(shù)語(yǔ)語(yǔ)義融合的上下位關(guān)系,并提煉出4種典型的融合類別,如表1所示。

表1 語(yǔ)義融合類別

在表1中,語(yǔ)義融合的類別主要包括:①上位擴(kuò)展,即不同的上位術(shù)語(yǔ)(A、B)指向同一個(gè)下位術(shù)語(yǔ)(C),以擴(kuò)展下位詞的上位概念;②下位擴(kuò)展,即代表一個(gè)上位術(shù)語(yǔ)(A)同時(shí)指向不同的下位術(shù)語(yǔ)(B、C),以擴(kuò)展上位詞的下位概念;③上下位擴(kuò)展,即通過同一個(gè)術(shù)語(yǔ)(B)將其上位術(shù)語(yǔ)(A)與下位術(shù)語(yǔ)(C)融合,以擴(kuò)展上下位概念;④上下位修正,即以FCA結(jié)果為準(zhǔn),對(duì)沖突的上下位關(guān)系(A→B、B→A)開展進(jìn)一步修正。

對(duì)電子政務(wù)術(shù)語(yǔ)層次關(guān)系優(yōu)化之后,緊接著就是對(duì)所識(shí)別術(shù)語(yǔ)層次關(guān)系的召回率與準(zhǔn)確率進(jìn)行評(píng)價(jià)。如前文所述,現(xiàn)有的標(biāo)準(zhǔn)化主題詞表中,術(shù)語(yǔ)間層次關(guān)系尚存不足,不利于對(duì)基于語(yǔ)料庫(kù)所識(shí)別的術(shù)語(yǔ)層次關(guān)系進(jìn)行評(píng)判。因此,本文將訴諸電子政務(wù)領(lǐng)域?qū)<覍?duì)術(shù)語(yǔ)層次關(guān)系的召回率與準(zhǔn)確率進(jìn)行評(píng)價(jià),計(jì)算公式為其中,R表示基于術(shù)語(yǔ)實(shí)體進(jìn)行抽樣評(píng)價(jià)所獲取的召回率;P表示基于術(shù)語(yǔ)關(guān)系進(jìn)行抽樣評(píng)價(jià)所獲得的準(zhǔn)確率。其中,基于術(shù)語(yǔ)實(shí)體進(jìn)行抽樣評(píng)價(jià),是指隨機(jī)抽取特定數(shù)量的電子政務(wù)術(shù)語(yǔ)。根據(jù)術(shù)語(yǔ)集內(nèi)所識(shí)別出的上下位關(guān)系,領(lǐng)域?qū)<乙环矫嬖u(píng)價(jià)得到正確識(shí)別的術(shù)語(yǔ)層次(TP_entity);另一方面給出術(shù)語(yǔ)集內(nèi)尚未識(shí)別出的層次關(guān)系(FN_entity),以此計(jì)算得出R。同時(shí),由于當(dāng)抽取的術(shù)語(yǔ)集中層次關(guān)聯(lián)的數(shù)量較少時(shí)會(huì)影響準(zhǔn)確率的計(jì)算精度,故基于術(shù)語(yǔ)關(guān)系隨機(jī)抽取特定數(shù)量的層次關(guān)聯(lián)(TP_relation+FP_relation),并由領(lǐng)域?qū)<以u(píng)價(jià)得出正確識(shí)別的數(shù)量(TP_relation),以此計(jì)算得到P。

3.7 基于OWL語(yǔ)言的知識(shí)存儲(chǔ)與展示描述

將基于內(nèi)容、結(jié)構(gòu)和融合所得的層次關(guān)系通過OWL語(yǔ)言進(jìn)行存儲(chǔ)形成電子政務(wù)知識(shí)結(jié)構(gòu)。OWL存儲(chǔ)語(yǔ)法 主要有<o(jì)wl:Class>和<rdfs:SubClassOf>兩種形式[29]。其中,前者用于定義類,后者用于描述類之間的父子關(guān)系,包含兩種知識(shí)存儲(chǔ)方法,如圖2所示。

由圖2可知,第一種方法(圖2a)利用語(yǔ)法(10)先行定義父類術(shù)語(yǔ)“保衛(wèi)”,隨后通過式(11)在定義子類術(shù)語(yǔ)“安全保衛(wèi)”的同時(shí)規(guī)定二者間的父子關(guān)系;第二種方法(圖2b)運(yùn)用語(yǔ)法(12)在定義子類的同時(shí)定義父類,并描述二者間的父子關(guān)系。第一種編碼語(yǔ)法與第二種編碼語(yǔ)法均可表示“保衛(wèi)”為“安全保衛(wèi)”的上位類,即采用任意一種均可對(duì)識(shí)別出的電子政務(wù)術(shù)語(yǔ)層次關(guān)系編碼。將所有上下位知識(shí)結(jié)構(gòu)存儲(chǔ)為OWL文件,并使用Protégé打開,即可對(duì)電子政務(wù)領(lǐng)域術(shù)語(yǔ)的層次關(guān)系進(jìn)行展示。

圖2 電子政務(wù)術(shù)語(yǔ)層次關(guān)系編碼

4 實(shí)驗(yàn)結(jié)果

本文以《綜合電子政務(wù)主題詞表》內(nèi)“政法、監(jiān)察”類主題詞為術(shù)語(yǔ)集,采用第3節(jié)的邏輯方法,運(yùn)用Python 3.7、Matlab 2017、Gephi 0.9.2、Protégé5.0等工具,分別從內(nèi)容和結(jié)構(gòu)的識(shí)別術(shù)語(yǔ)間的層次關(guān)系,將兩者結(jié)果融合為電子政務(wù)本體以開展深入分析。

4.1 基于內(nèi)容的層次關(guān)系識(shí)別結(jié)果及分析

基于內(nèi)容層面識(shí)別電子政務(wù)術(shù)語(yǔ)層次關(guān)系需要訴諸網(wǎng)絡(luò)百科語(yǔ)料,其中百度百科憑借其詞條收錄數(shù)量、開放編輯機(jī)制、搜索引擎用戶基礎(chǔ)等方面的優(yōu)勢(shì)已經(jīng)成為全球最大的中文網(wǎng)絡(luò)百科[30],更利于揭示中文領(lǐng)域的術(shù)語(yǔ)知識(shí)內(nèi)涵。因此,按照術(shù)語(yǔ)集列表依次檢索并爬取了所有術(shù)語(yǔ)的百度百科,爬取時(shí)間為2019年10月3日,在進(jìn)行數(shù)據(jù)清洗后得到與術(shù)語(yǔ)匹配的1378個(gè)釋義文本。接下來,對(duì)內(nèi)容層面層次關(guān)系的識(shí)別將基于該文檔展開。

(1)電子政務(wù)TWM構(gòu)建。由于詞表已根據(jù)主題內(nèi)容將“政法、監(jiān)察”類術(shù)語(yǔ)劃分為5個(gè)二級(jí)范疇,故基于此分類標(biāo)準(zhǔn)通過TF-IDF模型分別構(gòu)建這5類術(shù)語(yǔ)集的TWM,一共得到包括“綜合用語(yǔ)”(232×1605)、“公安”(384×1949)、“司法”(522×2320)、“監(jiān)察”(144×629)、“國(guó)家安全”(96×426)在內(nèi)的16114個(gè)術(shù)語(yǔ)-詞語(yǔ)關(guān)聯(lián)權(quán)重。

(2)PCA與T-SNE聯(lián)合輔助聚類數(shù)目確定。首先,對(duì)TF-IDF算法所生成的電子政務(wù)TWM進(jìn)行PCA降維,將高維矩陣降至2維以展現(xiàn)術(shù)語(yǔ)在平面上的分布,從而輔助聚類數(shù)目的確定。若PCA線性降維的效果不佳,則進(jìn)一步采取T-SNE非線性降維。以“司法”類術(shù)語(yǔ)為例,結(jié)果如圖3所示。

由圖3可知,“司法”類術(shù)語(yǔ)特征的PCA降維結(jié)果表明,電子政務(wù)術(shù)語(yǔ)在二維空間內(nèi)分布較不均衡,不利于對(duì)術(shù)語(yǔ)聚類數(shù)目的可視化劃分;而TSNE降維能夠使得術(shù)語(yǔ)在文本空間內(nèi)達(dá)到較好的分布效果。通過可視化不難發(fā)現(xiàn),“司法”類術(shù)語(yǔ)的聚類數(shù)目可設(shè)定為5,其余類簇在確定向下細(xì)分的類目時(shí)均參照此種方法。

(3)基于內(nèi)容的層次關(guān)系生成。在降維所得聚類數(shù)目的指導(dǎo)下,對(duì)電子政務(wù)術(shù)語(yǔ)的TWM進(jìn)行多重譜聚類,獲得電子政務(wù)術(shù)語(yǔ)的層次關(guān)系,如表2所示。

由表2可知,在內(nèi)容視角下,電子政務(wù)術(shù)語(yǔ)經(jīng)過多重譜聚類已劃分為穩(wěn)定層次,并在原有詞表的基礎(chǔ)上向下細(xì)分了3~4層。本研究通過余弦算法計(jì)算每個(gè)類目?jī)?nèi)術(shù)語(yǔ)間的相似度,再借助SNA計(jì)算術(shù)語(yǔ)中心度,將中心度較高的術(shù)語(yǔ)作為類目標(biāo)簽。以“司法”類第2層中的類簇為例,結(jié)果如圖4所示。

在圖4中,SNA結(jié)果表明該類簇內(nèi)中心度前3的術(shù)語(yǔ)分別為“行政復(fù)議”(196)、“行政司法”(195)及“訴訟代理”(186)。其中,前兩者的中心度最為接近,而從術(shù)語(yǔ)內(nèi)涵的角度來看,“行政司法”是指行政機(jī)關(guān)依照司法程序解決糾紛的所有行政行為,其內(nèi)涵廣度超過了作為行政行為一種的“行政復(fù)議”,故擇其為該類簇的標(biāo)簽。

本研究分別對(duì)表2中的第2、3、4層類目采用SNA的方法確定類目標(biāo)簽,從內(nèi)容視角識(shí)別電子政務(wù)術(shù)語(yǔ)的層次關(guān)系,一共得到了1371對(duì)上下位關(guān)系。通過圖2中的OWL語(yǔ)法對(duì)層次關(guān)系自動(dòng)編碼,可存儲(chǔ)基于內(nèi)容的電子政務(wù)術(shù)語(yǔ)層次知識(shí)結(jié)構(gòu),如圖5所示。

讀取“政法、監(jiān)察”領(lǐng)域內(nèi)由基于內(nèi)容的電子政務(wù)術(shù)語(yǔ)知識(shí)結(jié)構(gòu)所存儲(chǔ)的OWL文件,通過Onto‐Graf插件對(duì)基于內(nèi)容的層次關(guān)系進(jìn)行展示,如圖6所示。

圖4 類簇標(biāo)簽確定

圖5 基于內(nèi)容的電子政務(wù)術(shù)語(yǔ)層次知識(shí)結(jié)構(gòu)

images/BZ_73_224_795_1013_1018.png

圖6 基于內(nèi)容的電子政務(wù)術(shù)語(yǔ)層次關(guān)系展示(1~3層)

在圖6中,從外在特征的角度來看,基于內(nèi)容的電子政務(wù)術(shù)語(yǔ)層次具備清晰的知識(shí)框架。在“綜合用語(yǔ)”“公安”“司法”術(shù)語(yǔ)集內(nèi),類簇的最大深度可至5層;在“國(guó)家安全”“監(jiān)察”術(shù)語(yǔ)集內(nèi),最小層次為2層。在知識(shí)框架的118個(gè)類目?jī)?nèi),最大簇為“監(jiān)察”類的第3層類目“監(jiān)察工作”,共有44個(gè)術(shù)語(yǔ);最小簇為“監(jiān)察”類第2層類目“行政監(jiān)察”,共有3個(gè)術(shù)語(yǔ)。此外,超過一半的知識(shí)類目分布于框架的第3層,占整體類目的56.8%,說明采取聚類方法所形成的基于內(nèi)容的層次關(guān)系較為合理。

從內(nèi)在特征的角度而言,本研究將通過例證的方式從電子政務(wù)知識(shí)本體橫向擴(kuò)散的差異性與縱向延伸的繼承性兩個(gè)方面分別探索其優(yōu)劣,如表3所示。

表3 基于內(nèi)容的術(shù)語(yǔ)層次內(nèi)在特征分析

一方面,表3展現(xiàn)了“公安”類術(shù)語(yǔ)內(nèi)的一簇知識(shí)結(jié)構(gòu)。從橫向擴(kuò)散的角度來說,“安全保衛(wèi)”知識(shí)簇在第4層所拆分的類目標(biāo)簽可以代表保衛(wèi)工作的針對(duì)對(duì)象(反動(dòng)組織)、執(zhí)行主體(隊(duì)伍)和具體活動(dòng)(反恐),能夠體現(xiàn)出較為明顯的差異;從縱向延伸的角度來說,C1_公安→C2_保衛(wèi)工作→C3_安全保衛(wèi)→C4_反動(dòng)組織/反恐/隊(duì)伍,也能在類簇不斷細(xì)化的過程中反映出術(shù)語(yǔ)內(nèi)涵的繼承。因此,基于內(nèi)容的層次關(guān)系具備一定的有效性。

另一方面,表3中的知識(shí)結(jié)構(gòu)也尚存不足。如底層術(shù)語(yǔ)“防暴警察”歸屬于第4層的“反恐”類在內(nèi)容層面雖無問題但并不全面,這是因?yàn)樾g(shù)語(yǔ)“警察”也可以作為其上位類,因此可進(jìn)一步對(duì)電子政務(wù)本體進(jìn)行擴(kuò)展。又如該類簇將“保衛(wèi)工作”設(shè)定為“安全保衛(wèi)”的上位類,然而“保衛(wèi)工作”的定義是指國(guó)家安全和公安保衛(wèi)的組成部分,故將其作為“安全保衛(wèi)”的下位類更為合適。此外,術(shù)語(yǔ)“反革命組織”歸屬于“反動(dòng)組織”的范疇會(huì)比作為“隊(duì)伍”的下位類顯得更為貼切,所以已有層次關(guān)系亦可進(jìn)一步修正。

4.2 基于結(jié)構(gòu)的層次關(guān)系識(shí)別結(jié)果及分析

基于結(jié)構(gòu)層面識(shí)別電子政務(wù)術(shù)語(yǔ)層次關(guān)系需要訴諸社交媒體語(yǔ)料。其中,以政務(wù)微博為代表的政務(wù)社交媒體歷經(jīng)十年發(fā)展,從2009年的幾十個(gè)賬號(hào)增長(zhǎng)到如今的179930余個(gè),已經(jīng)成為我國(guó)最大的移動(dòng)政務(wù)平臺(tái)[31]。因此,按照術(shù)語(yǔ)集列表順序自動(dòng)檢索并爬取了所有“政法、監(jiān)察”類電子政務(wù)術(shù)語(yǔ)的政務(wù)微博文本,爬取時(shí)間為2019年10月3日,獲取從當(dāng)日起向前回溯10個(gè)頁(yè)面的微博文檔。本研究通過去除缺失值、重復(fù)值和整理文檔集與術(shù)語(yǔ)集對(duì)應(yīng)關(guān)系等數(shù)據(jù)清洗操作,得到與電子政務(wù)術(shù)語(yǔ)相匹配的政務(wù)微博共計(jì)21638條,基于結(jié)構(gòu)的層次關(guān)系識(shí)別將圍繞這類文檔展開。

(1)術(shù)語(yǔ)共現(xiàn)關(guān)系生成。相較于基于內(nèi)容角度使用單個(gè)術(shù)語(yǔ)的百科文檔,基于結(jié)構(gòu)識(shí)別層次關(guān)系更強(qiáng)調(diào)不同術(shù)語(yǔ)在文檔內(nèi)的共現(xiàn)情況。若繼續(xù)按照詞表對(duì)“政法、監(jiān)察”類術(shù)語(yǔ)二級(jí)范疇的劃分方式,會(huì)致使5個(gè)類簇內(nèi)的術(shù)語(yǔ)相互隔離,同時(shí)也會(huì)遺漏很多上下位關(guān)系。較為典型的為“綜合用語(yǔ)”類的術(shù)語(yǔ)集合包含有與其他4類術(shù)語(yǔ)集密切相關(guān)的術(shù)語(yǔ),如“案件”“犯罪”“反貪”等術(shù)語(yǔ),在實(shí)踐場(chǎng)景中均有可能與“公安”“司法”“監(jiān)察”類術(shù)語(yǔ)在政務(wù)文本中共同出現(xiàn)。因此,基于結(jié)構(gòu)視角識(shí)別層次關(guān)系將不再采用詞表所提供的二級(jí)范疇劃分方式,而是將所有術(shù)語(yǔ)作為一個(gè)整體,通過函數(shù)匹配術(shù)語(yǔ)集在21638條政務(wù)微博文本內(nèi)的共現(xiàn)結(jié)果,共得到32592個(gè)關(guān)聯(lián)。

(2)形式化背景與FCA。將電子政務(wù)術(shù)語(yǔ)在文檔中統(tǒng)計(jì),得到共現(xiàn)關(guān)聯(lián)以<文檔,術(shù)語(yǔ),權(quán)重>三元組的形式進(jìn)行存儲(chǔ),并將其轉(zhuǎn)化為DTM,形成電子政務(wù)領(lǐng)域的形式化背景EFM={D,T,R}。其中,D中 共 有21638個(gè)對(duì)象;T中 共 有1378種 屬 性;R中存在32592個(gè)關(guān)聯(lián)。通過編寫求與運(yùn)算程序?qū)FM實(shí)現(xiàn)FCA,如圖7所示。

在圖7中,由工作區(qū)的元胞數(shù)組可知,本實(shí)驗(yàn)使 用DTM(21638×1378)存 儲(chǔ)EFM,通 過 對(duì) 象(電子政務(wù)文檔)所形成的向量空間判斷屬性(電子政務(wù)術(shù)語(yǔ))之間的包含關(guān)系,從而實(shí)現(xiàn)FCA獲取電子政務(wù)術(shù)語(yǔ)間的上下位關(guān)系,并形成了Result對(duì)稱數(shù)組(1378×1378),包括行術(shù)語(yǔ)(LT)、列術(shù)語(yǔ)(CT)和上下位關(guān)系(H),記作:LT為CT的H,例如,“案件”為“案件處理”的上位,如此累計(jì)得到1505對(duì)上下位關(guān)系。通過數(shù)據(jù)庫(kù)連接運(yùn)算刪去其中冗余關(guān)系,最終獲得1232對(duì)上下位關(guān)系。

圖7 基于結(jié)構(gòu)的上下位關(guān)系生成

(3)知識(shí)存儲(chǔ)與可視化。通過行列轉(zhuǎn)換,將所獲得的上下位關(guān)系轉(zhuǎn)換到二維,并使用OWL語(yǔ)法進(jìn)行存儲(chǔ),展示基于結(jié)構(gòu)的電子政務(wù)術(shù)語(yǔ)層次關(guān)系,如圖8所示。

在圖8中,從外在特征的角度來看,電子政務(wù)術(shù)語(yǔ)基于結(jié)構(gòu)的層次關(guān)系的整體框架尚不完備。在結(jié)構(gòu)層次的392個(gè)類目中,僅首層就分裂出247個(gè)類目,占總體知識(shí)類目的絕大多數(shù)(63%),僅存有2簇最大深度雖也可至第5層,這使得縱向延伸的類目較為有限。此外,類目的最大簇為“案件”,共有49個(gè)術(shù)語(yǔ);最小簇中含有1個(gè)術(shù)語(yǔ),且在首層類目中占據(jù)的比例最大(39.3%)。不難發(fā)現(xiàn),整體框架的層次性與完整性均略顯不足。

從內(nèi)在特征的角度而言,基于結(jié)構(gòu)的層次關(guān)系的精準(zhǔn)性較高。延續(xù)對(duì)表2中層次關(guān)系的說明,結(jié)構(gòu)層次結(jié)果顯示,“防暴警察”為“警察”的下位類,“安全保衛(wèi)”為“保衛(wèi)工作”的上位類,“反革命組織”歸置為“恐怖組織”的下位類,根據(jù)內(nèi)容層次所識(shí)別“恐怖組織”為“反動(dòng)組織”的下位類,推理可得“反革命組織”也從屬于“反動(dòng)組織”的范疇,這些均能夠?qū)?nèi)容層次框架進(jìn)行有效的擴(kuò)展與修正。此外,結(jié)構(gòu)層次最大深度的2個(gè)類簇分別為C1_審判→C2_一審終審→C3_終審制度→C4_兩審終審制度→C5_四級(jí)兩審終審制度、C1_案件→C2_特別程序→C3_終審制度→C4_兩審終審制度→C5_四級(jí)兩審終審制度,根據(jù)“審判”“案件”的知識(shí)內(nèi)涵,類簇在深層次細(xì)分過程中同樣也能夠保持較強(qiáng)的準(zhǔn)確性。

4.3 語(yǔ)義融合結(jié)果及分析

基于內(nèi)容的層次關(guān)系為電子政務(wù)術(shù)語(yǔ)本體搭建了初步框架,該框架具備有效的完整性與層次性,但準(zhǔn)確性尚可優(yōu)化。相較之下,基于結(jié)構(gòu)的層次關(guān)系則更為精準(zhǔn),但對(duì)本體框架的支撐性略顯不足。因此,進(jìn)一步將兩者進(jìn)行語(yǔ)義融合,前者用于框架搭建,后者旨在修正與擴(kuò)展,以構(gòu)成一個(gè)框架完整、層次深入、精度準(zhǔn)確的電子政務(wù)術(shù)語(yǔ)本體。

語(yǔ)義融合一共得到2603對(duì)上下位關(guān)系,通過連接運(yùn)算對(duì)合并的上下位關(guān)系進(jìn)行去重,得到2182對(duì)上下位關(guān)系,形成了“政法、監(jiān)察”類電子政務(wù)術(shù)語(yǔ)本體,如圖9所示。

在圖9中,“政法、監(jiān)察”類電子政務(wù)術(shù)語(yǔ)本體具備更為完整、清晰的外在特征,類簇最大深度延伸至11層,語(yǔ)義細(xì)分維度大幅加深。在整體框架的638個(gè)類目?jī)?nèi),最大簇為“監(jiān)察”類第3層類目的“檢察”以及處于“司法”類第5層或處于“監(jiān)察”類第6層的“監(jiān)察工作”,均聚合有40個(gè)術(shù)語(yǔ),而最小簇含包含1個(gè)術(shù)語(yǔ),占總體類目的39.5%。此外,超過一半的知識(shí)類目(52.8%)分布于本體的第4、5層,最多的第4層類目占到整體的29.8%,說明了類目在不同層次間的分布更為均衡。

基于表1中所列舉的語(yǔ)義融合類別,在電子政務(wù)本體中截取囊括所有類別的一個(gè)局部進(jìn)行說明,其內(nèi)容與結(jié)構(gòu)層面的層次關(guān)系如表4所示。

在表4中,內(nèi)容與結(jié)構(gòu)兩者層次關(guān)系的語(yǔ)義融合主要有4種代表形式:①上位擴(kuò)展,即“出入境”“安全員”“保衛(wèi)工作”多個(gè)上位術(shù)語(yǔ)指向同一下位術(shù)語(yǔ)“民航安全保衛(wèi)”;②下位擴(kuò)展,即同一上位術(shù)語(yǔ)“治安”指向“出入境”“治安處罰”多個(gè)下位術(shù)語(yǔ);③上下位擴(kuò)展,即通過同一術(shù)語(yǔ)“保衛(wèi)”將其上位術(shù)語(yǔ)“打擊犯罪”與下位術(shù)語(yǔ)“安全保衛(wèi)”連接為同一個(gè)類簇;④上下位修正,以FCA為準(zhǔn)對(duì)“安全保衛(wèi)”與“保衛(wèi)工作”的上下位關(guān)系進(jìn)行修正。根據(jù)表4中內(nèi)容與結(jié)構(gòu)視角下層次關(guān)系的語(yǔ)義融合,從電子政務(wù)術(shù)語(yǔ)本體中抽取出經(jīng)過擴(kuò)展與修正后的上下位關(guān)系,如圖10所示。

表4 電子政務(wù)術(shù)語(yǔ)層次關(guān)系融合(局部)

圖10 電子政務(wù)術(shù)語(yǔ)本體擴(kuò)展與修正(局部)

在圖10中,語(yǔ)義融合主要展現(xiàn)了電子政務(wù)本體中“公安”類與“綜合用語(yǔ)”類術(shù)語(yǔ)的擴(kuò)展與修正情況。由①可知,在“公安”類術(shù)語(yǔ)集內(nèi),通過擴(kuò)展上位概念“C3_出入境”“C4_安全員”及“C6_保衛(wèi)工作”,使得類簇“C2_治安”以及由“C2_嚴(yán)打”所細(xì)分的“C3_破案”“C3_打擊犯罪”分別指向了同一下位術(shù)語(yǔ)“民航安全保衛(wèi)”,該術(shù)語(yǔ)處于“C2_治安”的第4層,“C3_破案”的第5層,“C3_打擊犯罪”的第7層;由②可知,在“公安”類術(shù)語(yǔ)集內(nèi),“C3_出入境”“C3_治安處罰”擴(kuò)展了其上位術(shù)語(yǔ)“C2_治安”的下位概念;由③可知,在“公安”“綜合用語(yǔ)”類術(shù)語(yǔ)集內(nèi),上位術(shù)語(yǔ)“C4_保衛(wèi)”及下位術(shù)語(yǔ)“C6_保衛(wèi)工作”分別擴(kuò)展了“C5_安全保衛(wèi)”的上下位概念;由④可知,通過FCA所抽取層次關(guān)系的指導(dǎo),將“C5_安全保衛(wèi)”修正為“C6_保衛(wèi)工作”的上位類。此外,在整體局部中可以進(jìn)一步發(fā)現(xiàn)與①同屬于上位擴(kuò)展的編號(hào)⑤,其通過擴(kuò)展上位概念“C2_嚴(yán)打”及“C2_犯罪”致使“C1_公安”與“C1_綜合用語(yǔ)”分別指向了同一下位術(shù)語(yǔ)“C3_打擊犯罪”,使得原本詞表中不同二級(jí)范疇內(nèi)的術(shù)語(yǔ)得以關(guān)聯(lián),也驗(yàn)證了以整體術(shù)語(yǔ)集進(jìn)行FCA的必要性與有效性。

綜上所述,①~⑤表明語(yǔ)義融合能夠切實(shí)有效地?cái)U(kuò)展并修正術(shù)語(yǔ)的層次內(nèi)涵,繼而提升電子政務(wù)術(shù)語(yǔ)本體層次關(guān)系的召回率與準(zhǔn)確率。

4.4 電子政務(wù)術(shù)語(yǔ)本體評(píng)價(jià)分析

在形成了電子政務(wù)術(shù)語(yǔ)本體之后,接下來就是測(cè)度本體中層次關(guān)系的召回率與準(zhǔn)確率,繼而對(duì)本體所識(shí)別的層次關(guān)系進(jìn)行評(píng)價(jià)分析。本體中1~3層術(shù)語(yǔ)、3~7層術(shù)語(yǔ)和7~11層術(shù)語(yǔ)的數(shù)量分布大致滿足1∶3∶1,故可大致分為1~3層的大類術(shù)語(yǔ)、3~7層的中層術(shù)語(yǔ)和7~11層的深層術(shù)語(yǔ)。其中,大類術(shù)語(yǔ)代表著電子政務(wù)本體的整體知識(shí)架構(gòu),中層術(shù)語(yǔ)在整體框架的基礎(chǔ)上廣泛擴(kuò)散知識(shí)關(guān)聯(lián),深層術(shù)語(yǔ)則將擴(kuò)散的知識(shí)進(jìn)一步細(xì)化延伸。因此,從這3個(gè)層面測(cè)度術(shù)語(yǔ)層次的召回率和準(zhǔn)確率能夠有效評(píng)價(jià)電子政務(wù)本體的整體質(zhì)量。

基于術(shù)語(yǔ)的分布規(guī)律,本研究采取隨機(jī)抽樣的方式,分別從1~3層、3~7層、7~11層中分別抽取出20、60、20個(gè)術(shù)語(yǔ)實(shí)體以及術(shù)語(yǔ)集中所識(shí)別的上下位關(guān)系,總共抽取5次,取樣過程中秉持每層術(shù)語(yǔ)的抽取數(shù)量相對(duì)均衡,如此便得到了用于評(píng)價(jià)召回率的5組術(shù)語(yǔ)實(shí)體樣本;采取相同的方式從1~3層、3~7層、7~11層 中分別抽 取出20、60、20對(duì)層次關(guān)系,總共抽取5次,得到用于評(píng)價(jià)準(zhǔn)確率的5組術(shù)語(yǔ)關(guān)系樣本。結(jié)合論文發(fā)表數(shù)量、被引次數(shù)、代表性著作以及所在機(jī)構(gòu)遴選出5位電子政務(wù)領(lǐng)域?qū)<?,并?組樣本分別發(fā)予領(lǐng)域?qū)<覍?duì)術(shù)語(yǔ)層次關(guān)系進(jìn)行評(píng)價(jià),收回反饋統(tǒng)計(jì)評(píng)價(jià)結(jié)果如圖11所示。

圖11 電子政務(wù)術(shù)語(yǔ)本體抽樣評(píng)價(jià)結(jié)果

由圖11可知,從整體來看,電子政務(wù)本體層次關(guān)系的評(píng)價(jià)結(jié)果良好,5位專家評(píng)價(jià)的綜合召回率均在80%以上,綜合準(zhǔn)確率在90%以上,這表明將內(nèi)容與結(jié)構(gòu)的層次關(guān)系相融合取得了較好的應(yīng)用效果。從召回率而言,處于1~3層、3~7層、7~11層的術(shù)語(yǔ)關(guān)聯(lián)的召回率較為均衡,并未體現(xiàn)出明顯差異;從準(zhǔn)確率來看,處于1~3層術(shù)語(yǔ)層次的準(zhǔn)確率最高,3~7層次之,7~11層最低但也均在80%以上,這一方面說明了電子政務(wù)本體具備良好的知識(shí)擴(kuò)展性與延伸性,同時(shí),也反映了術(shù)語(yǔ)層次關(guān)系的準(zhǔn)確率會(huì)隨著層次加深逐級(jí)遞減?;诖?,在電子政務(wù)術(shù)語(yǔ)本體內(nèi)各大類中進(jìn)一步遴選出深層類簇進(jìn)行準(zhǔn)確性分析,如表5所示。

由表5可知,從整體上來說,電子政務(wù)術(shù)語(yǔ)層次關(guān)系的準(zhǔn)確性較高。就“綜合用語(yǔ)類”與“公安類”而言,兩者分別通過“C2_犯罪”與“C2_嚴(yán)打”所細(xì)分的下位術(shù)語(yǔ)“C3_打擊犯罪”在第3層合并為一簇,并自上而下深化至第10層,包含保衛(wèi)、執(zhí)法隊(duì)伍、犯罪案件等子類術(shù)語(yǔ);就“司法類”而言,術(shù)語(yǔ)細(xì)化主要包含依法行政、訴訟過程、實(shí)例案件等方面的內(nèi)容,能至第11層;就“監(jiān)察類”而言,術(shù)語(yǔ)依據(jù)監(jiān)察工作與監(jiān)察部門的內(nèi)涵演化至第8層;就“國(guó)家安全類”而言,術(shù)語(yǔ)延伸的軌跡圍繞間諜工作展開并達(dá)至第8層。

基于內(nèi)容角度的層次關(guān)系大幅加深,同時(shí)也促使諸如“放火”“放火案”“放火案件”抑或“監(jiān)察”“監(jiān)察部”“監(jiān)察部門”“紀(jì)檢監(jiān)察部門”等基于結(jié)構(gòu)角度的層次關(guān)系得以關(guān)聯(lián),這說明采用電子政務(wù)語(yǔ)料識(shí)別術(shù)語(yǔ)層次關(guān)系有效彌補(bǔ)了人工詞表的不足。

5 結(jié)語(yǔ)

本文基于內(nèi)容與結(jié)構(gòu)視角,首先,通過對(duì)網(wǎng)絡(luò)百科內(nèi)容所提取出的特征詞語(yǔ)采取譜聚類的方式,生成基于內(nèi)容的層次關(guān)系;其次,根據(jù)術(shù)語(yǔ)集在社交媒體文檔中的共現(xiàn)匹配情況,采用FCA建立概念格結(jié)構(gòu),從而提取基于結(jié)構(gòu)的層次關(guān)系,以前者具有高召回率的層次關(guān)系為整體框架、后者高準(zhǔn)確率的層次關(guān)系為修正指導(dǎo)進(jìn)行語(yǔ)義融合,形成了一整套電子政務(wù)領(lǐng)域中文術(shù)語(yǔ)本體識(shí)別方案。對(duì)“政法、監(jiān)察”類電子政務(wù)主題詞的實(shí)驗(yàn)表明,內(nèi)容與結(jié)構(gòu)層面的語(yǔ)義融合,則達(dá)到了很好的擴(kuò)展與修正效果,專家評(píng)價(jià)結(jié)果顯示電子政務(wù)本體中層次關(guān)系的整體召回率(≥80%)與準(zhǔn)確率(≥90%)均較高,術(shù)語(yǔ)在語(yǔ)義內(nèi)涵的延伸過程中較好地彌補(bǔ)了原有詞表在內(nèi)容與結(jié)構(gòu)層面上的不足,這說明采用大規(guī)模語(yǔ)料所形成的電子政務(wù)本體具備良好的知識(shí)擴(kuò)展性與延伸性。

表5 電子政務(wù)術(shù)語(yǔ)本體深部層次準(zhǔn)確性分析

本文針對(duì)“政法、監(jiān)察”領(lǐng)域所形成的電子政務(wù)術(shù)語(yǔ)層次關(guān)系識(shí)別方法,是一種可以在短時(shí)間內(nèi)面向更多政務(wù)領(lǐng)域(“科技教育”“對(duì)外事務(wù)”“軍事國(guó)防”)、更大規(guī)模術(shù)語(yǔ)開展知識(shí)組織工作的自動(dòng)化體系,所構(gòu)成的電子政務(wù)術(shù)語(yǔ)本體也將在后續(xù)知識(shí)管理工作中開啟更為智能的應(yīng)用,本文暫列出3點(diǎn):①信息檢索與推薦。利用電子政務(wù)本體的推理功能,一方面,通過關(guān)鍵詞擴(kuò)展助力于用戶信息需求表達(dá);另一方面,根據(jù)本體內(nèi)術(shù)語(yǔ)的上下位關(guān)聯(lián)實(shí)現(xiàn)政務(wù)信息的個(gè)性化推薦。②跨部門信息共享?;凇肮病薄八痉ā薄氨O(jiān)察”“國(guó)家安全”等領(lǐng)域的關(guān)聯(lián)術(shù)語(yǔ),指導(dǎo)公安部、司法部、監(jiān)察部、國(guó)家安全部等跨部門信息系統(tǒng)之間的政務(wù)信息資源共享,以開展不同部門間的政務(wù)合作。③政務(wù)知識(shí)發(fā)現(xiàn)。通過電子政務(wù)術(shù)語(yǔ)關(guān)聯(lián),探索未被發(fā)掘的政務(wù)知識(shí)資源,繼而洞悉并提取出電子政務(wù)領(lǐng)域的新興知識(shí),以期為優(yōu)化未來國(guó)家行政管理的工作效率提供參考。

另外,本研究也存在可完善之處。第一,通過機(jī)器識(shí)別層次關(guān)系通常對(duì)語(yǔ)料要求較為嚴(yán)苛,而百度百科與政務(wù)微博均源于網(wǎng)絡(luò)文本,在無人工干涉的條件下會(huì)致使語(yǔ)料內(nèi)容較為粗糙,后續(xù)將著重提高語(yǔ)料質(zhì)量以展開對(duì)比實(shí)驗(yàn);第二,文章對(duì)術(shù)語(yǔ)層次關(guān)系的識(shí)別來自現(xiàn)有詞表,而長(zhǎng)期以來,在政務(wù)工作中所產(chǎn)生的新主題詞并未被詞表收錄,接下來的研究將試圖識(shí)別未登錄詞間的關(guān)聯(lián)以擴(kuò)充電子政務(wù)本體的層次體系。

猜你喜歡
語(yǔ)料電子政務(wù)術(shù)語(yǔ)
面向低資源神經(jīng)機(jī)器翻譯的回譯方法
瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究
智慧城市時(shí)代的電子政務(wù)研究
中國(guó)電子政務(wù)的“短板”
我國(guó)縣域電子政務(wù)工作的困境
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
試論基于Petri網(wǎng)的電子政務(wù)系統(tǒng)
有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
英語(yǔ)教學(xué)中真實(shí)語(yǔ)料的運(yùn)用