張書(shū)諳 王曦 代繼鵬 隋毅 孫仁誠(chéng)
摘要:針對(duì)主題詞提取中關(guān)鍵詞提取不準(zhǔn)確以及僅考慮單一相關(guān)性的問(wèn)題,提出一種將集成思想與復(fù)雜網(wǎng)絡(luò)相結(jié)合的主題詞提取算法。首先通過(guò)集成算法提取話題數(shù)據(jù)的關(guān)鍵詞,以提高關(guān)鍵詞提取的準(zhǔn)確性,其次改進(jìn)傳統(tǒng)詞共現(xiàn)公式計(jì)算關(guān)鍵詞的共現(xiàn)度,并建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),在網(wǎng)絡(luò)的基礎(chǔ)上得到最優(yōu)連通子圖,同時(shí)以節(jié)點(diǎn)度中心性為權(quán)重衡量關(guān)鍵詞重要性并從中映射出主題詞。最后,使用微博話題數(shù)據(jù)集進(jìn)行實(shí)例驗(yàn)證,證明該算法是有效的,并優(yōu)于傳統(tǒng)的詞共現(xiàn)算法,并在青島社區(qū)話題數(shù)據(jù)集中進(jìn)行應(yīng)用。
關(guān)鍵詞:關(guān)鍵詞;共現(xiàn)度;共現(xiàn)網(wǎng)絡(luò); 主題詞; 微博話題
中圖分類號(hào): TP391.1文獻(xiàn)標(biāo)識(shí)碼: A
收稿日期:2021-09-08;修回日期:2021-11-30
基金項(xiàng)目:國(guó)家自然科學(xué)基金青年科學(xué)基金(41706198)
第一作者:張書(shū)諳(1998-),女,山東泰安人,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理,復(fù)雜網(wǎng)絡(luò)大數(shù)據(jù)分析。
通信作者:孫仁誠(chéng)(1977-),男,山東青島人,博士,教授,主要研究方向?yàn)榛趶?fù)雜網(wǎng)絡(luò)的大數(shù)據(jù)分析。
Subject Words Extraction Algorithm Based on Keyword Co-occurrence Network
ZHANG Shuan1, WANG Xi2, DAI Jipeng1, SUI Yi1, SUN Rencheng1
(1.School of Computer Science and Technology, QingDao University, Qingdao 266071, China;
2.Communication Dispatching Department, Qingdao Emergency Center,Qingdao 266035, China)
Abstract:Aiming at the problems of inaccurate keywords extraction and only considering single correlation in subject words extraction, a subject words extraction algorithm combining integration idea with complex network is proposed. Firstly, the keywords of topic data are extracted through the integration algorithm to improve the accuracy of keywords extraction. Secondly, the traditional word co-occurrence formula is improved to calculate the co-occurrence degree of keywords, and a keywords co-occurrence network is established. Based on the network, the optimal connected subgraph is obtained. At the same time, the importance of keywords is measured by taking the centrality of node degree as the weight, and the subject words are mapped. Finally, the micro-blog topic data set is used to verify the example, which proves that the algorithm is effective and better than the traditional word co-occurrence algorithm, and it is applied in the Qingdao community topic data set. Key words: keywords; co-occurrence degree; co-occurrence network; subject words; micro-blog topic
0 引言
用戶在社交平臺(tái)提交的數(shù)據(jù)稱為話題數(shù)據(jù)。主題詞是描述一類相似話題的詞或短語(yǔ),一般認(rèn)為3個(gè)主題詞可以表征一類話題。在熱點(diǎn)話題研究中,主題詞提取的質(zhì)量決定熱點(diǎn)話題發(fā)現(xiàn)的準(zhǔn)確性[1]。
經(jīng)典的主題詞提取方法主要針對(duì)長(zhǎng)文本,大都采用基于統(tǒng)計(jì)的方法。如Witten[2]提出KEA系統(tǒng),基于詞語(yǔ)出現(xiàn)的位置及頻率等提取主題詞,適用性好,但易產(chǎn)生干擾詞。為此,趙英環(huán)[3]提出主題詞迭代提取算法,提高了準(zhǔn)確性。為了將詞語(yǔ)與文本信息結(jié)合,文獻(xiàn)[4-7]等基于語(yǔ)義理解提出相應(yīng)的主題詞提取算法。另外,復(fù)雜網(wǎng)絡(luò)理論也被用來(lái)發(fā)現(xiàn)文檔主題詞,文獻(xiàn)[8-9]等將語(yǔ)言與復(fù)雜網(wǎng)絡(luò)結(jié)合提取主題詞。
對(duì)于微博話題等短文本數(shù)據(jù),由于字?jǐn)?shù)有限,話題中主題詞出現(xiàn)的頻率低,因此基于統(tǒng)計(jì)的方法對(duì)短文本的處理不是很適用。為提高短文本中主題詞提取的質(zhì)量,葉成緒[10]利用維基百科知識(shí)設(shè)計(jì)算法篩選主題詞并用于微博熱點(diǎn)話題發(fā)現(xiàn)。另外,一些學(xué)者對(duì)LDA算法[11]進(jìn)行改進(jìn),張晨逸等[12]針對(duì)微博數(shù)據(jù)建立MB-LDA模型,李繼云等[13]提出CGRMB-LDA模型,馮勇等[14]基于時(shí)間權(quán)重和影響因子提出TIF-LDA算法。另一方面,張孝飛等[15]將語(yǔ)義概念和詞共現(xiàn)結(jié)合提取微博主題詞,考慮了相關(guān)詞對(duì)短文本主題詞提取的影響,但需要將短文本擴(kuò)充為長(zhǎng)文本。關(guān)鍵詞是表征話題數(shù)據(jù)的核心詞語(yǔ),實(shí)際上,主題詞提取的關(guān)鍵在于話題中關(guān)鍵詞提取的準(zhǔn)確性以及基于詞語(yǔ)相關(guān)性的主題詞發(fā)現(xiàn)。上述算法針對(duì)各自解決的問(wèn)題僅考慮單一方面,為了更好地結(jié)合這兩方面,本文采用集成算法思想與復(fù)雜網(wǎng)絡(luò)理論完成主題詞的提取。
考慮到TextRank算法[16]較好地考慮話題數(shù)據(jù)內(nèi)詞語(yǔ)關(guān)聯(lián)性,TF-IDF算法[17-18]考慮了話題間詞語(yǔ)的相關(guān)性,因此本文集成多種算法的提取結(jié)果,提出話題關(guān)鍵詞提取算法;然后通過(guò)關(guān)鍵詞共現(xiàn)關(guān)系構(gòu)建話題的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),最終在網(wǎng)絡(luò)中映射出代表某類話題的主題詞。
1 符號(hào)描述
在表1中給出本文使用的主要符號(hào)及其說(shuō)明。
本文涉及到的部分術(shù)語(yǔ)定義如下:
定義1 話題集,由所有的話題數(shù)據(jù)組成,記為T;T中每一句話稱為一個(gè)話題ti,其中i=1,2,3…|T|,|T|為話題集中的話題個(gè)數(shù)。
定義2 關(guān)鍵詞集,對(duì)ti∈T,可以提取出多個(gè)關(guān)鍵詞表征該話題,稱為ti的關(guān)鍵詞集合,記為Ki;在T中提取出的所有關(guān)鍵詞稱為T的關(guān)鍵詞集,記為K,K=K1∪K2∪K3…∪Ki,其中i=1,2,3…|T|。
定義3 共現(xiàn)次數(shù),若關(guān)鍵詞ki,kj出現(xiàn)在同一ti中,就說(shuō)ki,kj共現(xiàn),關(guān)鍵詞共現(xiàn)在某種程度上反映了關(guān)鍵詞之間的上下文語(yǔ)義關(guān)聯(lián)。本文用f表示兩個(gè)關(guān)鍵詞共現(xiàn)的次數(shù)。
定義4 關(guān)鍵詞共現(xiàn)網(wǎng),記為KeyNet=〈K,E,W〉。K={k1,k2,…,kn}是網(wǎng)絡(luò)中節(jié)點(diǎn)的集合,由關(guān)鍵詞組成;E={e|e=〈ki,kj〉,ki,kj∈K}是邊的集合,為關(guān)鍵詞節(jié)點(diǎn)之間的共現(xiàn)無(wú)向邊;W表示各邊的權(quán)重,若e=〈ki,kj〉∈E,那么0
定義5 話題簇,表達(dá)同一類主題的話題稱為話題簇,可以從一類話題簇中映射出一個(gè)或多個(gè)關(guān)鍵詞表征該話題簇,這類關(guān)鍵詞叫做主題詞。
定義6 主題詞集,所有話題簇的主題詞組成主題詞集,記為D。D=D1∪D2∪D3…∪Di,i表示T被分為i類話題簇,Di={d1,d2,…,dj}表示在第i類話題中提取出的主題詞集合,j表示每個(gè)話題簇中提取的主題詞個(gè)數(shù)為j個(gè)。當(dāng)j=1時(shí),D={d1,d2,…,di}。
定義7 度中心性,指無(wú)向網(wǎng)絡(luò)中當(dāng)前節(jié)點(diǎn)與鄰居節(jié)點(diǎn)直接連邊數(shù)量的總和,反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度[19]。在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中,Z值越大節(jié)點(diǎn)熱度越高,越能代表話題簇。Zi計(jì)算如式(1)中所示:
其中,N為節(jié)點(diǎn)總數(shù),zij為節(jié)點(diǎn)i和節(jié)點(diǎn)j之間是否存在連邊,如果連邊,則zij=1,否則zij=0。
根據(jù)上述定義,給出本文的主題詞提取算法的符號(hào)描述:{D1,D2,…,Di}=FUN(T),i表示在所有話題數(shù)據(jù)T中可以得到i個(gè)話題簇。
2 基于關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的主題詞提取算法
該算法基于集成算法和改進(jìn)的詞共現(xiàn)公式提取主題詞,既可以提高關(guān)鍵詞提取的準(zhǔn)確性,又保留了詞與詞之間的共現(xiàn)關(guān)系,同時(shí)提取出的主題詞具有更強(qiáng)的主題表現(xiàn)力。算法大致分為三步:1)將關(guān)鍵詞提取算法集成產(chǎn)生K;2)計(jì)算關(guān)鍵詞之間的共現(xiàn)關(guān)系建立KeyNet;3)調(diào)整閾值產(chǎn)生連通子圖并映射出主題詞。
2.1 關(guān)鍵詞提取
關(guān)鍵詞是主題詞提取的關(guān)鍵。目前較經(jīng)典的關(guān)鍵詞提取算法有TF-IDF算法、TextRank算法和哈工大的LTP關(guān)鍵詞提取技術(shù),它們各有優(yōu)缺點(diǎn)。TF-IDF算法易于理解和實(shí)現(xiàn),考慮整體語(yǔ)境,但它僅以詞頻衡量詞語(yǔ)的準(zhǔn)確性,使得頻率低的特征詞不能被識(shí)別;TextRank算法可以有效地查詢節(jié)點(diǎn)之間的相關(guān)性,考慮話題內(nèi)部詞語(yǔ)的相似關(guān)系,但沒(méi)有考慮上下文信息;LTP可以自動(dòng)分析語(yǔ)句中詞語(yǔ)的依存關(guān)系,提取出具有關(guān)聯(lián)關(guān)系的關(guān)鍵詞,但在分詞中存在誤差,產(chǎn)生一些錯(cuò)誤的關(guān)聯(lián)關(guān)系。
基于此,本文利用TextRank算法和LTP提取話題中的語(yǔ)義關(guān)系,如相似和依存關(guān)系,TF-IDF算法提取詞頻關(guān)系,對(duì)兩種算法補(bǔ)充,避免使用單一算法產(chǎn)生的不準(zhǔn)確問(wèn)題。同時(shí)使用百度自然語(yǔ)言處理工具(LAC)進(jìn)行分詞監(jiān)督,減少誤差,并將命名實(shí)體識(shí)別出來(lái)存入停詞表P中,得到ti的候選關(guān)鍵詞集K′i。最終將3種算法提取的關(guān)鍵詞集按一定比例集成得到ti的關(guān)鍵詞集合Ki。集成操作H如公式(2)中定義。
算法1 Key_Extract
輸入:話題集合T,權(quán)重參數(shù)a,b,c
輸出:關(guān)鍵詞集K
1)對(duì)每個(gè)話題ti分詞,使用LAC工具進(jìn)行分詞監(jiān)督;2)分詞后的詞語(yǔ)作為候選關(guān)鍵詞,加入候選關(guān)鍵詞集Ki'中;3)對(duì)Ki'執(zhí)行TF-IDF算法,得到關(guān)鍵詞集KIi;4)對(duì)Ki'執(zhí)行TestRank算法,得到關(guān)鍵詞集KRi;5)對(duì)Ki'執(zhí)行LTP技術(shù),得到關(guān)鍵詞集KLi;6)執(zhí)行集成操作H,將KIi、KRi、KLi按照權(quán)重為a:b:c的比例集成得到Ki;7)將每個(gè)話題ti的關(guān)鍵詞集合Ki合并到K中;8)return K。
2.2 建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)
將詞語(yǔ)映射到復(fù)雜網(wǎng)絡(luò),發(fā)現(xiàn)詞和詞之間的聯(lián)系符合自然語(yǔ)言學(xué)特性,可以更好為文本分析提供幫助。另外,關(guān)鍵詞共現(xiàn)在某種程度上可以被認(rèn)為代表一個(gè)相關(guān)主題,屬于一個(gè)話題簇。在此基礎(chǔ)上,將關(guān)鍵詞按照共現(xiàn)關(guān)系連接成網(wǎng),建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),網(wǎng)絡(luò)模型如圖1所示。
共現(xiàn)關(guān)系由共現(xiàn)度體現(xiàn),它用來(lái)描述ki,kj共現(xiàn)的頻率。頻率越高,關(guān)鍵詞之間聯(lián)系越緊密。節(jié)點(diǎn)ki相對(duì)于節(jié)點(diǎn)kj的相對(duì)共現(xiàn)度R(ki,kj)如式(3)中所示。
其中,f(ki,kj)為關(guān)鍵詞ki,kj共現(xiàn)的次數(shù),f(kj)為kj出現(xiàn)的總次數(shù)。
若ki,kj均是一個(gè)話題的特征詞,但同時(shí)出現(xiàn)次數(shù)過(guò)少,那么根據(jù)R計(jì)算出的值會(huì)很小,連邊時(shí)容易被忽略。針對(duì)話題內(nèi)容簡(jiǎn)短,特征數(shù)量少的問(wèn)題,本文對(duì)R進(jìn)行改進(jìn)得到共現(xiàn)度計(jì)算公式,如式(4)所示。
其中,C(ki,kj)為關(guān)鍵詞ki,kj的共現(xiàn)度,f(ki)為ki出現(xiàn)的總次數(shù)。
式(4)中,C(ki,kj)的結(jié)果比R相對(duì)較大一些,更可能產(chǎn)生連邊。其次,R中R(ki,kj)一般不等于R(kj,ki),最終結(jié)果不是一個(gè)確定的數(shù),而在本文的公式中,共現(xiàn)度是一個(gè)確定值。KeyNet建立算法如下:
算法2 KeyNet_Establish
輸入:關(guān)鍵詞集K,初始連邊閾值p
輸出:關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)KeyNet
1)對(duì)K中的關(guān)鍵詞ki,兩兩計(jì)算共現(xiàn)度Wkikj=C(ki,kj);2)判斷共現(xiàn)度Wkikj是否大于初始閾值p;3)若Wkikj大于p,則關(guān)鍵詞ki、kj之間連邊,連邊權(quán)重為Wkikj,且e=
2.3 主題詞提取算法
KeyNet包含多個(gè)連通子圖,連通子圖之間是獨(dú)立的,通過(guò)調(diào)整連邊閾值可以使劃分的連通子圖效果達(dá)到最優(yōu)。觀察K可以發(fā)現(xiàn),同一類話題中關(guān)鍵詞成對(duì)出現(xiàn)的概率較大,表達(dá)的主題相關(guān),共現(xiàn)度更高。這說(shuō)明連通子圖內(nèi)部話題之間是有關(guān)聯(lián)的,每個(gè)連通子圖代表一個(gè)話題簇。連通子圖模型如圖2所示。
定義C表示節(jié)點(diǎn)在KeyNet中的重要程度,C為與當(dāng)前節(jié)點(diǎn)相連的所有節(jié)點(diǎn)的共現(xiàn)度之和。若節(jié)點(diǎn)i與節(jié)點(diǎn)j和k都有連邊,則Ci=C(ki,kj)+C(ki,kk)。在連通子圖內(nèi)部,節(jié)點(diǎn)的C值越高,越能代表該話題簇。基于此,首先計(jì)算連通子圖中節(jié)點(diǎn)的度中心性,并以此為權(quán)重與C值相乘,得到節(jié)點(diǎn)的加權(quán)C值,然后進(jìn)行排序,選出排名靠前的節(jié)點(diǎn)所代表的關(guān)鍵詞作為該話題簇的主題詞。在圖2中,不同的橢圓框表示產(chǎn)生不同的連通子圖,節(jié)點(diǎn)的大小表示該節(jié)點(diǎn)C值的大小,節(jié)點(diǎn)越大,表示該節(jié)點(diǎn)C值越大,更容易作為該話題簇的主題詞提取出來(lái)。主題詞提取算法如下:
算法3 D_Extract
輸入:關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)KeyNet,每個(gè)話題簇中主題詞個(gè)數(shù)h
輸出:主題詞集合D
1)修改KeyNet網(wǎng)絡(luò)的連邊閾值,得到最優(yōu)連通子圖集合N;2)統(tǒng)計(jì)連通子圖個(gè)數(shù)n=N,以此作為話題簇的數(shù)量;3)對(duì)于每個(gè)連通子圖,計(jì)算每個(gè)節(jié)點(diǎn)的度中心性Zi和重要程度Ci;4)將Zi與Ci相乘得到每個(gè)節(jié)點(diǎn)的加權(quán)C值;5)按照加權(quán)C值的大小對(duì)每個(gè)連通子圖中節(jié)點(diǎn)的重要性從大到小排序;6)在排序后的每個(gè)連通子圖中抽取前h個(gè)關(guān)鍵詞作為該話題簇的主題詞集Di;7)將每個(gè)話題簇的最終主題詞合并,得到整個(gè)話題集的主題詞集D={D1,D2,…,Dn};8)return D。
3 實(shí)驗(yàn)
為驗(yàn)證算法有效性,設(shè)置以下實(shí)驗(yàn)。首先使用微博話題數(shù)據(jù)集驗(yàn)證算法的有效性,然后在青島社區(qū)話題數(shù)據(jù)集上進(jìn)行實(shí)例應(yīng)用。實(shí)驗(yàn)均使用Anaconda3和Pycharm進(jìn)行開(kāi)發(fā),所用編程語(yǔ)言為Python。話題數(shù)據(jù)一般都帶有Emoji表情、顏文字、特殊字符、網(wǎng)址等無(wú)關(guān)信息,這些信息沒(méi)有實(shí)際意義,并且可能導(dǎo)致分詞錯(cuò)誤。因此,使用規(guī)則過(guò)濾庫(kù)對(duì)話題數(shù)據(jù)進(jìn)行預(yù)處理,保證實(shí)驗(yàn)順利進(jìn)行。
3.1 算法有效性驗(yàn)證
3.1.1 數(shù)據(jù)集及實(shí)驗(yàn)介紹
因微博數(shù)據(jù)帶有分類標(biāo)簽,易對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行判斷,所以使用它驗(yàn)證算法的有效性。該數(shù)據(jù)集囊括了12個(gè)主題的微博數(shù)據(jù),包括用戶發(fā)起的話題信息、轉(zhuǎn)發(fā)信息和評(píng)論信息等。共進(jìn)行4次實(shí)驗(yàn),每次實(shí)驗(yàn)隨機(jī)選取10個(gè)主題,在每個(gè)主題中選取100條話題數(shù)據(jù),每次共1 000條數(shù)據(jù)。
在KeyNet中通過(guò)調(diào)整閾值產(chǎn)生最優(yōu)的連通子圖,在產(chǎn)生的所有連通子圖中得到最終的10個(gè)話題簇,并選擇C值最大的主題詞代表該話題簇,記錄實(shí)驗(yàn)結(jié)果,將選出的主題詞與標(biāo)簽詞語(yǔ)進(jìn)行比較。為了科學(xué)地評(píng)價(jià)算法的效果,使用查準(zhǔn)率P作為實(shí)驗(yàn)的衡量指標(biāo),計(jì)算公式如式(5)所示。
其中,TP為提取的與原標(biāo)簽一致的詞語(yǔ),F(xiàn)P為提取的與原標(biāo)簽不一致的詞語(yǔ)。
3.1.2 集成比例與閾值確定
為確定共現(xiàn)度閾值,分別使用0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6進(jìn)行實(shí)驗(yàn)。同時(shí),為了確定集成比例對(duì)實(shí)驗(yàn)結(jié)果的影響,使用TF-IDT: TextRank: LTP為1∶1∶2,1∶2∶1,2∶1∶1以及1∶1∶1進(jìn)行實(shí)驗(yàn),其中1∶1∶2表示在集成過(guò)程中LTP方法的影響較大。在閾值與集成比例的不同組合下,共進(jìn)行4組實(shí)驗(yàn),計(jì)算P值,并取平均值,實(shí)驗(yàn)結(jié)果如表2中所示。為便于分析,將實(shí)驗(yàn)結(jié)果繪制成折線圖如圖3所示。
通過(guò)圖3,可以看出不同閾值下實(shí)驗(yàn)結(jié)果的波動(dòng)性很大,另外,不同的集成比例對(duì)結(jié)果也有影響,3種算法的集成比例分別為1∶1∶2時(shí)效果較好。在集成比例為1∶1∶2下,選擇0.5作為閾值所產(chǎn)生的效果最好,且查準(zhǔn)率的平均值達(dá)到峰值0.83。經(jīng)多次實(shí)驗(yàn)得到在微博數(shù)據(jù)集上較好閾值范圍為0.4到0.5之間。
3.1.3 對(duì)比實(shí)驗(yàn)
使用閾值0.5,在相同數(shù)據(jù)條件下將TextRank算法、TF-IDF算法與本文算法進(jìn)行對(duì)比,使用查準(zhǔn)率驗(yàn)證主題詞提取的準(zhǔn)確性。4組實(shí)驗(yàn)的結(jié)果及平均值如表3所示,任選一組實(shí)驗(yàn)的提取效果進(jìn)行展示如表4所示。
從表3中看到,TextRank算法平均P值為0.68,TF-IDF算法為0.75,而本文為0.83,這證明相同實(shí)驗(yàn)數(shù)據(jù)環(huán)境下本文算法比傳統(tǒng)算法效果要好。在表4中,可以直觀地看出每種方法在話題簇中提取出的主題詞。由此得到,本文的方法對(duì)主題詞的提取是有效的,同時(shí)提高了話題簇劃分的準(zhǔn)確性。
3.2 基于社區(qū)話題數(shù)據(jù)的實(shí)例應(yīng)用
現(xiàn)在越來(lái)越多的社區(qū)采用線上管理,用戶提交話題到后臺(tái),由管理人員篩選并處理用戶關(guān)心的事件。借助本文的方法可以幫助管理人員將話題歸類并得到代表一類話題的主題詞,然后根據(jù)主題詞對(duì)用戶亟待解決的問(wèn)題進(jìn)行大致了解。以便管理人員后期選擇用戶所關(guān)注的熱點(diǎn)話題,更好地解決社區(qū)事務(wù)。
在青島市部分社區(qū)話題數(shù)據(jù)集上進(jìn)行應(yīng)用,尋找青島市民所關(guān)心的話題主題,數(shù)據(jù)集的時(shí)間范圍是2019年12月到2020年7月。從數(shù)據(jù)集中隨機(jī)抽取2 000條數(shù)據(jù),建立其關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)如圖4所示,該無(wú)向網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)為1 526,邊數(shù)為4 986條。
由于閾值對(duì)本文算法的結(jié)果影響較大,因此要首先確定當(dāng)前數(shù)據(jù)的共現(xiàn)度閾值。在當(dāng)前數(shù)據(jù)集上進(jìn)行多次實(shí)驗(yàn)并調(diào)整閾值,得到當(dāng)共現(xiàn)度為0.45時(shí),話題簇能被很好地區(qū)分開(kāi)來(lái)。選取最終10個(gè)話題簇并進(jìn)展示,如圖5所示,每個(gè)話題簇提取的主題詞個(gè)數(shù)為5,選出的主題詞集以及它們的C值如下所示。
1)(′疫情′, 6.56), (′義務(wù)′, 1.93), (′力度′, 1.58), (′巡邏′, 1.57), (′汗水′, 1.56);
2)(′志愿者′, 5.54), (′防疫′, 1.46), (′修補(bǔ)′, 1.43), (′馬路′, 1.35), (′報(bào)名′, 1.12);
3)(′垃圾′, 4.83), (′打掃′, 1.45), (′清除′, 0.77), (′生活′, 0.77), (′管理′, 0.56);
4)(′清理′, 3.48), (′居民′, 2.36), (′擾民′, 2.09), (′雜物′, 1.89), (′東頭′, 1.56); 5)(′老人′, 2.88), (′地址′, 2. 60), (′請(qǐng)問(wèn)′, 2.53), (′公攤′, 1.77), (′復(fù)工′, 1.16);
6)(′垃圾桶′, 2.29), (′推到′, 1.21), (′旁邊′, 1.15), (′外溢′, 1.05), (′邊上′, 1.04); 7)(′消毒′, 2.01), (′解除′, 1.45), (′辦公室′, 1.20), (′通知′, 1.17), (′私家車′, 1.03);
8)(′口罩′, 1.83), (′居家′, 1.53), (′捐贈(zèng)′, 1.18), (′防御′, 1.14), (′運(yùn)動(dòng)′, 1.09);
9)(′水果′, 1.56), (′廣告′, 1.29), (′有人′, 1.06), (′游客′, 1.05), (′擺攤′, 0.56);
10)(′日常′, 1.55), (′通行證′, 1.08), (′假期′, 1.08), (′嬰兒′, 1.07), (′防護(hù)′, 1.07)。
如果在每個(gè)話題簇的主題集中選擇C值最大的1個(gè)作為最終的主題詞,根據(jù)本文所做的實(shí)驗(yàn)結(jié)果可以看出,青島市民所關(guān)心的話題為疫情、志愿者、垃圾、清理、老人、垃圾桶、消毒、口罩、水果、日常等。
4 結(jié)論
本文提出了一種基于關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的主題詞提取算法,不僅可以考慮詞語(yǔ)之間的相關(guān)性,準(zhǔn)確率也得到了提升。首先通過(guò)集成算法提取關(guān)鍵詞,并對(duì)共現(xiàn)度公式進(jìn)行改進(jìn)計(jì)算關(guān)鍵詞之間的共現(xiàn)度,以此為權(quán)重建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),在一定的集成比例下,找出產(chǎn)生連通子圖的最優(yōu)網(wǎng)絡(luò)狀態(tài),并以度中心性為權(quán)重計(jì)算節(jié)點(diǎn)的C值,以此為根據(jù)對(duì)關(guān)鍵詞進(jìn)行排序,選出前k個(gè)關(guān)鍵詞作為該話題簇的主題詞。實(shí)驗(yàn)表明,該主題詞提取算法是有效的,并優(yōu)于傳統(tǒng)的主題詞提取算法。在該方法中,對(duì)沒(méi)有標(biāo)簽的數(shù)據(jù)集選擇閾值進(jìn)行最優(yōu)連通子圖判斷時(shí),需要通過(guò)人工識(shí)別的方法對(duì)話題數(shù)據(jù)進(jìn)行大致分類,然后判斷效果。在后面的研究中,希望找到一種能自動(dòng)對(duì)話題數(shù)據(jù)識(shí)別分類的方法,并將該方法用到熱點(diǎn)話題的發(fā)現(xiàn)研究中去。
參考文獻(xiàn):
[1]程肖. 網(wǎng)絡(luò)輿情熱點(diǎn)主題詞提取研究[D]. 杭州:杭州電子科技大學(xué),2010. CHENG X. Research on extraction of hot topic words of network public opinion[D]. Hangzhou: Hangzhou Dianzi University: 2010.
[2]WITTEN I H, PAYNTER G W, FRANK E, et al. KEA: practical automatic keyphrase extraction[C]// Proceedings of the 4th ACM Conference on Digital Libraries. New York : ACM Press, 1999: 254-255.
[3]趙英環(huán),郭貴鎖. 基于主題詞迭代提取的信息檢索算法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2004, 32(S1): 77-80. ZHAO Y H, GUO G S. Information retrieval algorithm based on subject word iterative extraction[J]. Journal of South China University of Technology (Natural Science), 2004, 32(S1): 77-80.
[4]唐培麗,王樹(shù)明,胡明. 基于語(yǔ)義的漢語(yǔ)文獻(xiàn)主題詞提取算法研究[J]. 吉林大學(xué)學(xué)報(bào),2005, 23(5): 535-540.
TANG P L, WANG S M, HU M. Research on semantic based Chinese literature subject word extraction algorithm[J]. Journal of Jilin University, 2005, 23(5): 535-540.
[5]程濤,施水才,王霞,等. 基于同義詞詞林的中文文本主題詞提取[J]. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2007, 25(2): 145-148. CHENG T, SHI S C, WANG X, et al. Extraction of Chinese text subject words based on synonym forest[J]. Journal of Guangxi Normal University (Natural Science), 2007, 25(2): 145-148.
[6]李芳芳,葛斌,毛星亮,等. 基于語(yǔ)義關(guān)聯(lián)的中文網(wǎng)頁(yè)主題詞提取方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2011, 28(1): 105-107. LI F F, GE B, MAO X L, et al. Research on extraction method of Chinese web page main inscription based on semantic Correlation[J]. Computer Application Research, 2011, 28(1): 105-107.
[7]王立霞. 基于語(yǔ)義的中文文本關(guān)鍵詞提取算法[J]. 計(jì)算機(jī)工程, 2012, 38(1): 1-4.
WANG L X. Semantic based keyword extraction algorithm for Chinese text[J]. Computer Engineering, 2012, 38(1): 1-4.
[8]趙鵬,蔡慶生,王清毅.一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J]. 模式識(shí)別與人工智能,2007, 20(6): 817-831.
ZHAO P, CAI Q S, WANG Q Y. A Chinese document keyword extraction algorithm based on complex network features[J]. Pattern recognition and artificial intelligence, 2007, 20(6): 817-831.
[9]劉通. 基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2016, 33(2): 365-369. LIU T. Research on text keyword extraction algorithm based on complex network[J]. Computer Application Research, 2016, 33(2): 365-369.
[10]葉成緒,楊萍,劉少鵬. 基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2016, 33(2): 46-50. YE C X, YANG P, LIU S P. Micro-blog hot topic discovery based on subject words[J]. Computer Applications and Software, 2016, 36(2): 67-71.
[11]BLEI D, NG A, JORDAN M . Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[12]張晨逸,孫建伶,丁軼群. 基于MB-LDA模型的微博主題挖掘[J]. 計(jì)算機(jī)研究與發(fā)展,2011, 48(10): 1795-1802. ZHANG C Y, SUN J L, DING Y Q. Micro-blog topic mining based on MB-LDA model[J]. Computer Research And Development, 2011, 48(10): 1795-1802.
[13]李繼云,黃昀,陳捷. CGRMB_LDA: 面向隱式微博的主題挖掘[J]. 計(jì)算機(jī)應(yīng)用,2016, 36(S1): 67-71. LI J Y, HUANG J, CHEN J. CGRMB_LDA: topic mining for implicit micro-blog[J]. Computer application, 2016, 36(S1): 67-71.
[14]馮勇,屈渤浩,徐紅艷,等. 采用可變時(shí)間窗口的TIF-LDA微博主題模型[J].小型微型計(jì)算機(jī)系統(tǒng),2018, 39(9): 2067-2071. FENG Y, QU B H, XU H Y, et al. TIF-LDA micro-blog theme model with variable time window is adopted[J]. Small Microcomputer System, 2018, 39(9): 2067-2071.
[15]張孝飛,陳航行. 基于語(yǔ)義概念和詞共現(xiàn)的微博主題詞提取研究[J]. 情報(bào)科學(xué),2021, 39(1): 142-147.
ZHANG X F, CHEN H X. Research on micro-blog subject word extraction based on semantic concept and word co-occurrence[J]. Information science, 2021, 39(1): 142-147.
[16]MIHALCEA R, TARAU P. TextRank: bringing order into texts[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg : ACL, 2004: 404-411.
[17]LI J Z, FAN Q N, ZHANG K. Keyword extraction based on tf/idf for Chinese news document[J]. Wuhan University Journal of Natural Sciences, 2007, 12(5): 917-921.
[18]FAN H L, QIN Y B. Research on text classification based on improved TF-IDF algorithm[C]//2018 International Conferenceon Network, Communication, Computer Engineering(NCCE2018). Chongqing: Atlantis Press, 2018: 516-521.
[19]覃悅. 基于中心性的算法在復(fù)雜網(wǎng)絡(luò)分析中的應(yīng)用及對(duì)比研究[D]. 天津: 天津財(cái)經(jīng)大學(xué), 2020. TAN Y. Application and comparative study of centrality based algorithms in complex network analysis[D]. Tianjin: Tianjin University of Finance and Economics, 2020.
(責(zé)任編輯 李 進(jìn))
復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)2023年1期