宋卓遠 闞乾超 趙 凱 陳鐿尹 楊云帆 楊秀璋 羅子江
(貴州財經(jīng)大學信息學院,貴州 貴陽550025)
在信息迅速發(fā)展的時代,人們從以往對信息數(shù)量的需要轉(zhuǎn)變?yōu)閷π畔①|(zhì)量的需求,而之前較少被人們注重的文本內(nèi)卻包含著海量潛在價值。文本的來源多種多樣,有書本、論文、期刊、新聞、郵件、各類網(wǎng)絡(luò)評論、聊天記錄和社交媒體數(shù)據(jù)等,這些都和人們的生活息息相關(guān)。因此對文本進行有效挖掘具有重要價值。
文本挖掘主要是從諸多復(fù)雜的文本數(shù)據(jù)中發(fā)掘隱形的、有用的數(shù)據(jù)模式、內(nèi)在關(guān)聯(lián)、規(guī)律、發(fā)展趨勢等,從而被個人、企業(yè)和機構(gòu)等進行有效利用[1]。文本挖掘涉及多個領(lǐng)域,可以輔助相關(guān)領(lǐng)域的研究,如楊亞楠等[2]基于多視圖協(xié)同的方式,對政策文本背后規(guī)律進行深入分析,證明了該技術(shù)框架的有效性;沈健等[3]提出一種基于文本挖掘的生物領(lǐng)域?qū)嵗@取方法,提高了該領(lǐng)域的文本檢索效率;張坤等[4]采用文獻計量、社會網(wǎng)絡(luò)分析等方法,對智慧圖書館文獻的外部及內(nèi)部特征進行分析,并揭示其學科特色和整體格局;李夢杰等[5]利用LDA模型和聚類算法,對某互聯(lián)網(wǎng)教育平臺中課程信息進行研究,有效挖掘出學員所選課程背后隱含的關(guān)注點和興趣點;余本功等[6]基于機器學習和主題模型,對專利摘要進行內(nèi)容挖掘,并構(gòu)建出技術(shù)創(chuàng)新評價體系;戴德寶等[7]將文本挖掘和機器學習應(yīng)用到股票數(shù)據(jù)的分析中,有效提高股指走勢預(yù)測的精度。
以上皆是對文本挖掘領(lǐng)域的具體研究,然而國內(nèi)學者對該領(lǐng)域的整體研究還相對較少,陳紅琳等[8]雖然通過共詞分析等方法對國內(nèi)文本情感分析的研究成果進行熱點分析和趨勢預(yù)測,但未能揭示文本挖掘在其他研究方向的進展狀況。譚章祿等[9]采用聚類分析和卡方統(tǒng)計等定量化方法對國內(nèi)文本挖掘文獻進行主題分析,該研究方式較為單一,很難全面挖掘出關(guān)鍵詞間的聯(lián)系及各主題的動態(tài)演化過程。針對以上問題,筆者提出一種基于共詞分析的方法,通過構(gòu)建矩陣發(fā)掘高頻關(guān)鍵詞間的相互關(guān)聯(lián),有效確定當前研究熱點;利用層次聚類算法對各主題詞進行計算,并劃分成不同的研究主題,明確文本挖掘領(lǐng)域主要的研究方向;借助知識圖譜等可視化技術(shù)使分析結(jié)果直觀展現(xiàn),利于研究者梳理該領(lǐng)域各主題的發(fā)展脈絡(luò)及更好預(yù)測未來趨勢。
筆者數(shù)據(jù)爬取自中國知網(wǎng)期刊數(shù)據(jù)庫,于2019年6月6日,以“文本挖掘”為檢索主題,設(shè)定“核心期刊+CSSCI”為來源類別,對數(shù)據(jù)庫進行精確檢索,共獲得相關(guān)文獻627篇。經(jīng)人工篩選,剔除會議通知、重復(fù)和信息缺失等無效文獻,實際得到有效文獻556篇。
筆者主要基于共詞分析法對文獻數(shù)據(jù)進行研究,總體思路如圖1所示。
圖1 文本挖掘研究思路
具體研究步驟如下:
(1)通過Python技術(shù)完成文本挖掘文獻的爬取,并保存至本地,獲得數(shù)據(jù)包括文獻標題、作者、關(guān)鍵詞、發(fā)表年份、出版社、引用次數(shù)、下載次數(shù)和摘要8個特征;
(2)對所獲的文獻數(shù)據(jù)進行人工預(yù)處理,剔除無效數(shù)據(jù)71篇,最后共得556篇有效文獻;
(3)利用Excel、Ucinet軟件對已處理數(shù)據(jù)進行文獻計量分析,包括文獻時間分布、期刊來源分布和作者發(fā)文分布3個方面的研究;
(4)使用Python抽取文獻關(guān)鍵詞,并對其中高頻關(guān)鍵詞構(gòu)建共現(xiàn)矩陣、相似矩陣和相異矩陣;
(5)采用共詞分析法實現(xiàn)高頻詞共現(xiàn)、主題聚類、主題演化等研究,并借助Gephi軟件和Python技術(shù)使分析結(jié)果可視化。
對文獻數(shù)量年分布進行統(tǒng)計分析,結(jié)果如圖2所示。我國從1998年開始就有學者對文本挖掘進行過相關(guān)研究[10],此時正值該領(lǐng)域探索階段。2000年至今文獻量迅速增加并總體呈冪指數(shù)上升趨勢,用函數(shù)Y=1.499X1.1731擬合文獻曲線,擬合度R2=0.9172,表明擬合函數(shù)基本符合文獻實際發(fā)文情況,也間接反映出未來與文本挖掘相關(guān)的文獻還將繼續(xù)增加。同時,從文獻的累積量看,可用曲線Y=1.4112X2-3.3338X+10.036擬合,R2=0.9971,擬合程度良好,此趨勢線正處于拋物線的上升區(qū)間,意味著文本挖掘的研究進入黃金發(fā)展期,有很大前景。
圖2 文獻時間分布
據(jù)統(tǒng)計,556篇文本挖掘論文分布于191種期刊中,平均每種期刊載文2.91篇。表1列出期刊載文量不少于5篇的所有期刊,其中《情報雜志》載文量最多,共刊載30次;《計算機研究與發(fā)展》總引用量最多,5篇文獻共被引用858次。依據(jù)布拉德福期刊劃分定律[11],將期刊按其載文量降序排列并大體均分為3個區(qū):核心區(qū)(9種期刊、190篇論文)、相關(guān)區(qū)(34種期刊、193篇論文)和邊緣區(qū)(148種期刊、173篇論文)。其中,核心區(qū)每種期刊載文量大于13篇,相關(guān)區(qū)每種期刊載文量3至6篇,邊緣區(qū)每種期刊載文量1至兩篇。3個區(qū)域內(nèi)期刊數(shù)量之比(9:34:148)近似滿足1:a:a2的規(guī)律,可推算出布拉德福系數(shù)a≈4。
對每個區(qū)域分析發(fā)現(xiàn),34.17%的論文約占期刊總數(shù)的4.7%,68.9%的論文約占期刊總數(shù)的22.5%,這折射出研究文本挖掘的文獻主要分布在少數(shù)期刊。這些期刊集中于3個學科領(lǐng)域,分別為圖書情報領(lǐng)域、計算機領(lǐng)域和生物醫(yī)學領(lǐng)域,即當前文本挖掘的熱門領(lǐng)域。
表1 期刊來源分布(載文量≥5)
經(jīng)統(tǒng)計分析,數(shù)據(jù)中發(fā)文量不少于3篇的作者有47人,用軟件Ucinet對其繪制作者合作網(wǎng)絡(luò)圖譜,如圖3所示。圖中,方塊代表發(fā)文作者,連線表示作者間的合作關(guān)系,每種顏色對應(yīng)不同發(fā)文量,其中紫色代表發(fā)文量大于12的作者,紅色表示發(fā)文量為7至12篇的作者,綠色表示發(fā)文量在5至6篇的作者,黃色和藍色分別表示作者發(fā)文量等于4和3。
圖3中可知,本領(lǐng)域作者分布稀疏,表明大多作者基本是在獨立研究。3人以上團隊僅有3個,其中以鄭光、呂愛平為首的團隊合作規(guī)模最大,主要研究文本挖掘在生物醫(yī)學方面的應(yīng)用,代表著作有《基于文本挖掘技術(shù)初步探討雷公藤應(yīng)用相關(guān)的生物學基礎(chǔ)》《基于文本挖掘方法探索糖尿病中醫(yī)養(yǎng)生理論與方法的規(guī)律》;肖衛(wèi)東團隊主要對多文本的比較性話題進行研究,該團隊曾提出一種PCCMix混合模型,有效解決了公共話題和特有話題的識別問題[12];汪雪鋒團隊以語義挖掘和主題詞簇的研究為主,并提出一種以SAO為主的形態(tài)識別方法,彌補了基于關(guān)鍵詞方法的不足[13]。
圖3 作者合作網(wǎng)絡(luò)
關(guān)鍵詞是論文主要內(nèi)容的高度濃縮和概括,能夠反映論文的研究主旨或方法等內(nèi)容。其中高頻關(guān)鍵詞能很大程度代表該論文研究領(lǐng)域中的研究熱點,有助于學者對該領(lǐng)域目前及未來的研究方向更好地把握。研究前,筆者對關(guān)鍵詞進行合并、刪除等預(yù)處理操作[14],如將“文本挖掘技術(shù)”“文本挖掘”和“網(wǎng)絡(luò)文本挖掘”等近義詞合并為“文本挖掘”;刪除部分對研究無價值的關(guān)鍵詞。統(tǒng)計顯示556篇論文共涉及1248個關(guān)鍵詞,其總頻數(shù)為2326,平均每個關(guān)鍵詞頻數(shù)為1.864。為便于研究,文中僅截取詞頻不低于5的50個高頻關(guān)鍵詞給予分析(見表2),這些關(guān)鍵詞詞頻總和為936,占所有關(guān)鍵詞的40.24%,高于知識圖譜構(gòu)建規(guī)定的27%[15],達到分析標準。
從表2中可知,“文本挖掘”詞頻最高,達433次;“文本聚類”“文本分類”“領(lǐng)域本體”“信息抽取”“主題模型”等詞的頻數(shù)也較高,這在一定程度上反映出文本挖掘領(lǐng)域較多注重挖掘方法、技術(shù)和相關(guān)模型的研究。
表2 高頻關(guān)鍵詞統(tǒng)計
高頻關(guān)鍵詞雖能一定程度上反映研究領(lǐng)域的熱點主題,但無法揭示高頻詞與主題間的相互關(guān)系及動態(tài)變化。因此,文中采用共詞分析法構(gòu)建一個50×50的高頻詞共現(xiàn)矩陣,如表3所示,表中對角上數(shù)值表示高頻關(guān)鍵詞的詞頻,其他區(qū)域內(nèi)數(shù)值表示行列分別對應(yīng)的高頻詞共同出現(xiàn)在一篇論文中的次數(shù)。其矩陣構(gòu)建規(guī)則如公式(1)所示:
式(1)中n為兩兩關(guān)鍵詞的共現(xiàn)次數(shù);wi為第i行對應(yīng)的關(guān)鍵詞;wj為第j列對應(yīng)的關(guān)鍵詞。
為了消除共現(xiàn)矩陣內(nèi)數(shù)值差異較大帶來的影響,筆者采用皮爾遜相關(guān)系數(shù)法將其轉(zhuǎn)換成數(shù)值在[0.1]間的相似矩陣,如表4所示,表中值越大,則說明兩詞間相關(guān)性越緊密,反之相關(guān)性越小。
在后續(xù)的層次聚類分析中,相似矩陣內(nèi)過多的0值會干擾實驗結(jié)果,有必要用1減去相似矩陣內(nèi)各數(shù)值,從而得到相異矩陣,計算結(jié)果如表5。
表3 高頻詞共現(xiàn)矩陣(部分)
表4 高頻詞相似矩陣(部分)
表5 高頻詞相異矩陣(部分)
借助Gephi軟件根據(jù)表3繪制文本挖掘高頻關(guān)鍵詞共現(xiàn)知識圖譜,結(jié)果如圖4所示,圖中圓圈代表關(guān)鍵詞,其大小為詞頻高低,連線代表詞間的共現(xiàn)關(guān)系,線的粗細表示詞共現(xiàn)頻次高低。圖4顯示,位于中心位置的是“文本挖掘”,和周圍“數(shù)據(jù)挖掘”“文本聚類”“文本分類”“情感分析”和“知識發(fā)現(xiàn)”等詞共現(xiàn)較多,聯(lián)系緊密,表明這些詞共同形成了整個圖譜的主體結(jié)構(gòu),即文本挖掘領(lǐng)域的熱點內(nèi)容。其他關(guān)鍵詞逐漸向邊緣地帶擴散,連線變細,詞間聯(lián)系漸少,說明這些研究點關(guān)注度較小,還尚處在發(fā)展階段,但同時也意味著可能會有很大的研究空間。
圖4 高頻關(guān)鍵詞共現(xiàn)知識
主題層次聚類是一種依據(jù)變量間距離和相似性將高頻關(guān)鍵詞自動分類的技術(shù)。文中調(diào)用Python對高頻關(guān)鍵詞的相異矩陣進行聚類分析,算法中method和metric參數(shù)分別選用ward和euclidean。其中歐式距離(euclidean)的計算公式如下:
式(2)中dist(X,Y)表示X和Y兩點間的歐式距離;m表示空間維度,這里取值為2;xi表示X點的第i維坐標;yi表示Y點的第i維坐標。
聚類結(jié)果如圖5所示,橫坐標軸為各類別間的距離,縱坐標軸為各主題高頻詞。圖中顯示出國內(nèi)文本挖掘主題形成了4個類別:第一類為人工智能下的知識管理,包括“人工智能”“自然語言處理”“機器學習”“知識管理”“知識服務(wù)”等關(guān)鍵詞;第二類為挖掘技術(shù)及算法研究,包括“語義分析”“命名實體識別”“神經(jīng)網(wǎng)絡(luò)”“情感分析”“特征提取”“文本分類”“文本聚類”等關(guān)鍵詞;第三類為生物醫(yī)學,包括“證候”“中藥”“數(shù)據(jù)分層算法”“中成藥”“西藥”等關(guān)鍵詞;第四類為文本挖掘應(yīng)用研究,包括“輿情分析”“政策分析”“圖書館”“專利分析”“知識圖譜”等關(guān)鍵詞。
圖5 文本挖掘主題聚類分析
為更好地把握文本挖掘領(lǐng)域熱點主題的動態(tài)趨勢,對556篇論文的時間和高頻詞繪制主題演化趨勢圖譜,如圖6所示。圖中將論文時間劃分成3個階段:(a)1998-2006年、(b)2007-2012年、(c)2013-2019年。從中可知:
(1)總體情況:從各階段的網(wǎng)絡(luò)節(jié)點及密度可以看出,第一階段節(jié)點數(shù)較少且分布稀疏,最后階段節(jié)點規(guī)模最大且分布密集,主題熱點數(shù)總體呈上升態(tài)勢,表明了文本挖掘領(lǐng)域的整體發(fā)展狀況。其中各階段熱點均有變動,如2006年之前主要熱點有“文本挖掘”“數(shù)字化圖書館”“知識發(fā)現(xiàn)”“信息檢索”等;2007-2012年主要熱點有“文本挖掘”“機器學習”“領(lǐng)域本體”“中藥”等;2013-2019年主要熱點有“文本挖掘”“情感分析”“知識圖譜”“大數(shù)據(jù)”等。但是各個階段的年節(jié)點都以文本挖掘為中心發(fā)散分布,這說明以文本挖掘為主的聚類、分類等主題一直是該領(lǐng)域的主要研究內(nèi)容,具有較好的延續(xù)性。
(2)各階段情況:第一階段皆為新興主題,正值文本挖掘領(lǐng)域探索階段,其中“圖書館”“信息檢索”“知識發(fā)現(xiàn)”等詞出現(xiàn)年份較早,表明該階段研究主要源于圖書館現(xiàn)狀解析,較為貼近實際。
第二階段中“機器學習”“命名實體識別”“中藥”等主題開始出現(xiàn),其中值得注意的是,“中藥”“西藥”“中成藥”“證候”等主題詞集中出現(xiàn)于2011至2012年,表明該時期文本挖掘在生物醫(yī)學方面的研究受到廣大學者的重視。相較于第一階段,“信息抽取”“中文信息處理”“專利”“可視化”等節(jié)點變大,反映出這些主題處于成長狀態(tài),相關(guān)內(nèi)容及技術(shù)的研究增強了人們提取信息的能力。而“自然語言處理”“人工智能”“競爭情報”等節(jié)點沒明顯變化,熱點持續(xù)較低,態(tài)勢平緩,有待發(fā)展。
第三階段,主題數(shù)量迅速增加,增長率遠超前兩個階段,各主題間關(guān)系也越為緊密、復(fù)雜。此階段的新興主題有“大數(shù)據(jù)”“知識圖譜”“情感分析”“主題模型”等,究其原因,可能是近年以來4G普遍及5G興起的緣故。和前兩個階段相比,“社交網(wǎng)絡(luò)分析”“專利”“競爭情報”等主題快速發(fā)展起來,表明其研究領(lǐng)域在不斷成熟,其中“專利”類主題3個階段均有存在,演化最為持久。同時,“中成藥”“證候”等生物醫(yī)學方面的主題節(jié)點逐漸變小且僅在2013至2014年間出現(xiàn)過,說明該類主題熱度在不斷下降直至消失,雖然在個別年份受到較大關(guān)注,但延續(xù)性較差,沒有得到進一步發(fā)展,屬于消亡主題。此外,2015到2019年,“自然語言處理”及“人工智能”類主題繼續(xù)沿之前態(tài)勢發(fā)展,持續(xù)時間較為長久,表明未來極有可能成為熱點。
圖6 主題演化趨勢圖譜
筆者提出一種共詞分析和文獻計量相結(jié)合的方法,對國內(nèi)文本挖掘的相關(guān)文獻進行挖掘和計量。通過構(gòu)建高頻關(guān)鍵詞共現(xiàn)知識圖譜和主題層次聚類揭示和分析國內(nèi)文本挖掘領(lǐng)域的核心主題和研究熱點。同時,文中將文獻按時間分為3個階段,利用共詞分析對每階段主題詳盡分析,并借助有關(guān)工具對結(jié)果進行可視化展現(xiàn),大致理清該領(lǐng)域的總體發(fā)展狀況和各主題的演化過程。實驗結(jié)果發(fā)現(xiàn),本研究方法能夠有效洞悉文本挖掘領(lǐng)域的研究現(xiàn)狀及進展,發(fā)掘關(guān)鍵詞和主題間的動態(tài)關(guān)系,為未來研究提供一種新的視角和參考依據(jù)。