国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)鍵詞頻度演化視角下的研究熱點(diǎn)挖掘方法研究

2020-12-15 06:42高勁松彭博
圖書與情報(bào) 2020年3期
關(guān)鍵詞:情報(bào)學(xué)詞頻熱點(diǎn)

高勁松 彭博

摘? ?要:研究學(xué)科發(fā)展趨勢一直都是科研工作者關(guān)注的重要課題,然而現(xiàn)有的分析方法無法在挖掘?qū)W科熱點(diǎn)的同時(shí)探究熱點(diǎn)其類團(tuán)的變化情況。文章構(gòu)建了詞頻分析和共詞分析融合的關(guān)鍵詞頻度演化模型,以揭示學(xué)科熱點(diǎn)及其類團(tuán)結(jié)構(gòu)的變化情況。以圖書館學(xué)、情報(bào)學(xué)影響因子靠前的3種期刊以及國家社會(huì)科學(xué)基金為研究對(duì)象,借助所構(gòu)建的頻度演化網(wǎng)絡(luò)模型,比較了基金主題與期刊研究熱點(diǎn)關(guān)聯(lián)關(guān)系,揭示了研究熱點(diǎn)和主題結(jié)構(gòu)變化情況。研究發(fā)現(xiàn),通過設(shè)定詞頻增長閾值對(duì)關(guān)鍵詞進(jìn)行篩選,不僅可以有效挖掘研究發(fā)展趨勢,還可對(duì)比不同分類條件下研究熱點(diǎn)的異同;在與g指數(shù)方法的比較中能有效提前挖掘?qū)W科熱點(diǎn)的出現(xiàn)時(shí)間,為科研人員的研究提供重要參考。

關(guān)鍵詞:詞頻分析;共詞分析;數(shù)據(jù)挖掘;頻度演化

中圖分類號(hào):G250.2? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2020044

Abstract The development trend of research discipline has always been an important topic of concern to researchers, but the existing analysis methods cannot explore the changes of hotspots while excavating the hotspots of discipline. Therefore, by building a model of keyword frequency evolution based on word frequency analysis and Co-word Analysis fusion can reveal the changes of hot topics and their class structure in a panoramic way. Based on the three journals of library science and information science and the national social science fund, the frequency evolution network model based on word frequency change is constructed to reveal the research hotspots and the theme structure changes. By setting the threshold of word frequency growth to screen keywords, not only the development trend of research is effectively excavated, but also the similarities and differences of research hotspots under different classification conditions are compared. Compared with the g-index method, it can effectively excavate the emergence time of subject hotspots in advance, which provides an important reference for the research of scientific researchers.

Key words word frequency analysis; co-word analysis; data mining; frequency evolution

1? ?引言

共詞分析是對(duì)研究文獻(xiàn)主題內(nèi)容的關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,通過構(gòu)建文獻(xiàn)中兩兩關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò)對(duì)文獻(xiàn)所在學(xué)科的研究熱點(diǎn)變化、組成與范式進(jìn)行研究[1],從橫向和縱向兩方面分析學(xué)科領(lǐng)域的動(dòng)態(tài)和靜態(tài)結(jié)構(gòu)[2]。目前該方法已被廣泛用于信息檢索及科學(xué)計(jì)量等領(lǐng)域,普遍的研究方法是從被研究領(lǐng)域文獻(xiàn)的集合中按照一定閾值提取作者關(guān)鍵詞,而后根據(jù)關(guān)鍵詞的共現(xiàn)特征構(gòu)建矩陣進(jìn)行有關(guān)分析[3],通過對(duì)作者關(guān)鍵詞中高頻關(guān)鍵詞的數(shù)量進(jìn)行統(tǒng)計(jì)并構(gòu)建關(guān)系矩陣,進(jìn)而對(duì)學(xué)科研究熱點(diǎn)的遷移變化進(jìn)行分析。然而關(guān)鍵詞的分布存在冪律分布特征,如果選擇過少,不能準(zhǔn)確探究被研究領(lǐng)域研究熱點(diǎn)的構(gòu)成及發(fā)展情況,無從分析研究熱點(diǎn)之間的關(guān)聯(lián)關(guān)系[4];如果選取全部數(shù)量的關(guān)鍵詞,不僅會(huì)增加數(shù)據(jù)處理的成本,同時(shí)還會(huì)降低關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的網(wǎng)絡(luò)密度和聚類系數(shù),無法有效概括被研究領(lǐng)域的知識(shí)全貌[5]。

面對(duì)以上問題,本文提出從關(guān)鍵詞詞頻的變化角度構(gòu)建關(guān)鍵詞詞頻演化網(wǎng)絡(luò),在提取研究文獻(xiàn)全部關(guān)鍵詞的基礎(chǔ)上將關(guān)鍵詞按時(shí)序方式進(jìn)行統(tǒng)計(jì),選取目標(biāo)時(shí)間段內(nèi)連續(xù)增長的關(guān)鍵詞并構(gòu)建關(guān)聯(lián)關(guān)系矩陣形成詞對(duì)網(wǎng)絡(luò)。以文獻(xiàn)全部關(guān)鍵詞為分析對(duì)象的優(yōu)勢在于能夠涵蓋研究對(duì)象知識(shí)結(jié)構(gòu)的全貌,而引入增長率為篩選條件并構(gòu)建關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)能夠提高詞對(duì)網(wǎng)絡(luò)的密度,從而更加有效地探究學(xué)科組織結(jié)構(gòu)和發(fā)展脈絡(luò)。同時(shí)由于研究領(lǐng)域的研究前沿具有新穎性、時(shí)效性、集中性特征[6],詞頻演化網(wǎng)絡(luò)能夠減少高頻關(guān)鍵詞對(duì)低頻關(guān)鍵詞在統(tǒng)計(jì)學(xué)上干擾的同時(shí),通過關(guān)鍵詞頻率變化態(tài)勢和關(guān)鍵詞關(guān)聯(lián)關(guān)系挖掘潛在研究前沿。

2? ?相關(guān)研究

目前國內(nèi)外對(duì)于關(guān)鍵詞的研究主要可以分為兩大類:一類是對(duì)從不同類型分析單元提取的關(guān)鍵詞進(jìn)行數(shù)量的統(tǒng)計(jì),依據(jù)關(guān)鍵詞詞頻數(shù)量的變化及趨勢進(jìn)行分析,這種方法通常被稱為詞頻分析法。由于關(guān)鍵詞的數(shù)量變化與情報(bào)現(xiàn)象之間具有內(nèi)在聯(lián)系,情報(bào)現(xiàn)象的變化必然引發(fā)詞頻數(shù)量的波動(dòng)[7],詞頻分析法克服了文獻(xiàn)綜述定性總結(jié)描述中個(gè)人主觀性取舍對(duì)分析的影響,具有客觀性、準(zhǔn)確性、系統(tǒng)性、實(shí)用性等特點(diǎn),被廣泛用于揭示被研究領(lǐng)域的發(fā)展現(xiàn)狀及潛在研究熱點(diǎn),并取得了大量的研究成果[8];另一類則是通過對(duì)被分析文獻(xiàn)的詞源進(jìn)行篩選,提取關(guān)鍵詞在同一文獻(xiàn)中的共現(xiàn)關(guān)系構(gòu)建關(guān)聯(lián)關(guān)系矩陣進(jìn)行多元統(tǒng)計(jì)分析,利用社會(huì)網(wǎng)絡(luò)分析方法挖掘關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò)的內(nèi)在聯(lián)系,分析被研究領(lǐng)域?qū)W科結(jié)構(gòu)演化過程、組成與范式。共詞分析法具有操作靈活、分析直觀等特點(diǎn),已成為分析學(xué)科發(fā)展的重要工具,在各學(xué)科領(lǐng)域中得到了廣泛使用。

2.1? ? 詞頻分析法的研究現(xiàn)狀

詞頻分析法通過研究關(guān)鍵詞或主題詞在某一研究領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低,提煉出該研究領(lǐng)域的研究熱點(diǎn)及潛在研究方向,目前主要以實(shí)證研究為主。如馬費(fèi)成和張勤[9]確定國內(nèi)外知識(shí)管理領(lǐng)域的關(guān)鍵詞后,以高頻關(guān)鍵詞為線索,對(duì)比分析了知識(shí)管理研究領(lǐng)域、研究方法和研究熱點(diǎn);Vincent Ribie`re和Walter[10]對(duì)《Knowledge Management Research & Practice》期刊2003-2012年間刊載文獻(xiàn)進(jìn)行詞頻統(tǒng)計(jì)分析,分析了知識(shí)管理研究領(lǐng)域十年間研究熱點(diǎn)及研究主題演化;Guo Chen和Xiao[11]將活動(dòng)指數(shù)計(jì)算引入詞頻分析法,以中國數(shù)字圖書館研究領(lǐng)域的3560篇文獻(xiàn)為對(duì)象進(jìn)行了分析,通過關(guān)鍵詞的統(tǒng)計(jì)探究研究領(lǐng)域的宏觀發(fā)展情況與知識(shí)結(jié)構(gòu);周鑫等[12]以JCR影響因子排名前九的美國圖書情報(bào)學(xué)期刊2000-2014年間刊載文獻(xiàn)為對(duì)象,使用詞頻分析法分析了美國圖書情報(bào)學(xué)的發(fā)展動(dòng)向及研究熱點(diǎn);王克平等[13]對(duì)我國高校數(shù)字圖書館近十五年間的研究論文高頻關(guān)鍵詞分布進(jìn)行了研究,從時(shí)序角度分析了研究熱點(diǎn)的變遷,挖掘該領(lǐng)域的核心帶頭人。詞頻分析的相關(guān)研究在學(xué)科發(fā)展和主題研究上應(yīng)用廣泛,具有客觀、準(zhǔn)確、定性定量相結(jié)合等特點(diǎn),同時(shí)也存在關(guān)鍵詞不規(guī)范、分析要素單一等問題[14],詞頻分析因?yàn)槭菍?duì)關(guān)鍵詞出現(xiàn)次數(shù)的動(dòng)態(tài)統(tǒng)計(jì),能夠反映其在一段時(shí)間內(nèi)的變化情況卻由于方法本身的限制無法就這些變化情況的關(guān)聯(lián)關(guān)系進(jìn)行深入發(fā)掘,不能進(jìn)行較深入的社群探測研究。隨著學(xué)術(shù)研究融合性、跨學(xué)科的發(fā)展特點(diǎn)越來越突出,僅僅使用詞頻分析法無法完整地揭示其發(fā)展趨勢和內(nèi)在規(guī)律[15]。

2.2? ? 共詞分析法的研究現(xiàn)狀

共詞分析主要是統(tǒng)計(jì)一組詞在同一篇文獻(xiàn)中的兩兩出現(xiàn)次數(shù), 由此構(gòu)建它們的關(guān)聯(lián)關(guān)系,從而分析這些詞所代表的學(xué)科主題的結(jié)構(gòu)變化。唐果媛和張薇[16]研究表明共詞分析的應(yīng)用主要基于詞、主題、時(shí)間、拓展研究這四個(gè)層次。如張勤和馬費(fèi)成[17]以知識(shí)管理領(lǐng)域的861篇文獻(xiàn)為研究對(duì)象,構(gòu)建關(guān)鍵詞共現(xiàn)矩陣進(jìn)行多維尺度分析,討論了知識(shí)管理研究領(lǐng)域的學(xué)術(shù)流派和研究范式;陳淋和屈文建[18]利用共詞分析法從三個(gè)時(shí)間段分析了我國圖書情報(bào)學(xué)主題動(dòng)態(tài)演化的過程并得出研究領(lǐng)域的研究熱點(diǎn)及研究前沿;牟冬梅等[19]從時(shí)間-關(guān)鍵詞共現(xiàn)分析入手,構(gòu)建圖書情報(bào)學(xué)特征因子前十七位期刊2006-2015年刊載文獻(xiàn)關(guān)鍵詞的詞篇矩陣,研究了領(lǐng)域研究熱點(diǎn)變遷情況和領(lǐng)域知識(shí)結(jié)構(gòu)變化情況;Zhao Wanying等[20]等對(duì)比分析了圖書館學(xué)、社會(huì)學(xué)、物理學(xué)三個(gè)研究領(lǐng)域共詞網(wǎng)絡(luò)指標(biāo)的不同,探討了不同學(xué)科共詞網(wǎng)絡(luò)之間可能存在的共性,證實(shí)了共詞分析法在識(shí)別研究領(lǐng)域熱門主題的有效性。共詞分析方法具有應(yīng)用靈活和分析結(jié)果直觀的特點(diǎn),通過反映關(guān)鍵詞間關(guān)聯(lián)強(qiáng)度來確定被研究領(lǐng)域的發(fā)展過程和結(jié)構(gòu)演化。然而,受制于共詞網(wǎng)絡(luò)的構(gòu)建流程,關(guān)鍵詞在連續(xù)時(shí)間段內(nèi)的變化情況無法通過簡單的方式反映,若要分析共詞網(wǎng)絡(luò)的變化情況則需要按照不同階段多次構(gòu)建共詞網(wǎng)絡(luò),造成分析不連續(xù)、不完整、數(shù)據(jù)量陡增等問題。

針對(duì)詞頻分析法無法進(jìn)行關(guān)鍵詞關(guān)聯(lián)關(guān)系分析以及共詞分析法較難進(jìn)行網(wǎng)絡(luò)演化分析的問題。文章提出在統(tǒng)計(jì)關(guān)鍵詞詞頻變化的基礎(chǔ)上構(gòu)建關(guān)鍵詞頻度演化網(wǎng)絡(luò),從時(shí)序角度對(duì)詞頻變化情況進(jìn)行分析。在研究詞頻變化的同時(shí)探究其具有的關(guān)聯(lián)關(guān)系,這樣可以挖掘被分析領(lǐng)域潛在研究熱點(diǎn)的變遷、探測知識(shí)結(jié)構(gòu)變化、揭示發(fā)展趨勢和內(nèi)在規(guī)律。

3? ?關(guān)鍵詞頻度演化網(wǎng)絡(luò)模型的構(gòu)建

3.1? ? 統(tǒng)計(jì)詞頻變化率

關(guān)鍵詞在所在領(lǐng)域文獻(xiàn)中出現(xiàn)頻次的高低代表了其對(duì)應(yīng)內(nèi)容的研究熱度,而研究熱度是一個(gè)逐步上升的過程,關(guān)鍵詞詞頻總體來說會(huì)呈現(xiàn)出一種增長的態(tài)勢,當(dāng)其增長到峰值后會(huì)成為研究熱點(diǎn),而后增長態(tài)勢會(huì)趨于平緩[21]。因此,識(shí)別處于數(shù)量增長階段的主題關(guān)鍵詞,能夠?yàn)檠芯繜狳c(diǎn)的出現(xiàn)提供一定的參考,為科研人員在研究方向的選擇上提供前瞻預(yù)測。

Ft表示關(guān)鍵詞詞頻的變化率,F(xiàn)t的大小會(huì)隨時(shí)間的變化而變化,F(xiàn)t大于1說明該關(guān)鍵詞的出現(xiàn)頻率較上個(gè)統(tǒng)計(jì)時(shí)間段增加,小于1則說明頻率減少,等于0意味著關(guān)鍵詞在當(dāng)前統(tǒng)計(jì)時(shí)間段內(nèi)沒有出現(xiàn)。因此Ft的大小表示關(guān)鍵詞詞頻的變化率,能夠直觀的衡量關(guān)鍵詞及關(guān)鍵詞所代表研究領(lǐng)域的發(fā)展變化情況。

3.2? ? 構(gòu)建關(guān)鍵詞頻度演化關(guān)系網(wǎng)絡(luò)

共詞網(wǎng)絡(luò)可以被描述為圖模型G=(V,E),在此基礎(chǔ)上文章提出基于時(shí)序的圖模型Ti來表示使用關(guān)鍵詞變化情況計(jì)數(shù)的共詞網(wǎng)絡(luò),即Ti=(Vk(Ft),Ek)。其中Vk(Ft) ={ak·k(Ft)},k(Ft)表示指定時(shí)間段內(nèi)關(guān)鍵詞k的詞頻的變化情況,ak是關(guān)鍵詞節(jié)點(diǎn)在可視化時(shí)的控制系數(shù),取值為關(guān)鍵詞在開始時(shí)間段頻率的值,用來表示關(guān)鍵詞節(jié)點(diǎn)的初始大小,m表示關(guān)鍵詞的種類個(gè)數(shù),Vk(Ft)是在時(shí)間段內(nèi)詞頻持續(xù)增長關(guān)鍵詞的集合。關(guān)鍵詞詞頻變量關(guān)聯(lián)關(guān)系的集合是Ek={Vk(Ft)×Vl(Ft)},由于詞頻隨時(shí)間段不同而變化,Ek表示關(guān)鍵詞k與其在同一篇文獻(xiàn)中出現(xiàn)的關(guān)鍵詞l的關(guān)聯(lián)關(guān)系,是這些關(guān)鍵詞的共現(xiàn)關(guān)系矩陣。

Ti的網(wǎng)絡(luò)規(guī)模可以根據(jù)關(guān)鍵詞詞頻Ft閾值的設(shè)定而變化,在提取研究熱點(diǎn)時(shí)Ft值越大表明篩選出的關(guān)鍵詞增長率越高,發(fā)展情況也越迅速。Ft閾值的選取對(duì)研究結(jié)果有著重要影響,閾值偏低會(huì)造成可視化結(jié)果的節(jié)點(diǎn)和連線數(shù)過多,影響數(shù)據(jù)挖掘效果,閾值偏高會(huì)過濾掉大量信息,使新興研究熱點(diǎn)的出現(xiàn)時(shí)間延長,影響數(shù)據(jù)挖掘效率。文章根據(jù)詞頻與時(shí)間的比例設(shè)定閾值,以一種關(guān)鍵詞在單位時(shí)間段內(nèi)最少出現(xiàn)1次為依據(jù),利用這樣的關(guān)鍵詞在所有關(guān)鍵詞中的比例決定閾值,即Threshold(Ft)=100·。而要對(duì)多個(gè)數(shù)據(jù)源進(jìn)行分類研究則需要對(duì)多個(gè)T網(wǎng)絡(luò)進(jìn)行分別計(jì)算,即Ti={∪……},對(duì)于不同數(shù)據(jù)源中相同的關(guān)鍵詞k及l(fā)也分別標(biāo)注為ko及l(fā)o。

4.3? ? 基金高頻主題演化分析

本研究同樣從基金關(guān)鍵詞變化的角度對(duì)基金數(shù)據(jù)進(jìn)行演化分析,選取閾值為2對(duì)基金主題詞網(wǎng)絡(luò)進(jìn)行可視化分析?;痍P(guān)鍵詞較期刊更為集中,主題熱點(diǎn)的變化幅度沒有期刊關(guān)鍵詞網(wǎng)絡(luò)大(見圖2),這與基金主題的高度概括性特點(diǎn)有關(guān)。一直持續(xù)出現(xiàn)的高頻主題有社會(huì)科學(xué)中的人文應(yīng)用、政府開放與公開、評(píng)價(jià)的指標(biāo)體系與質(zhì)量、互聯(lián)網(wǎng)風(fēng)險(xiǎn)、數(shù)字圖書館的發(fā)展、企業(yè)競爭情報(bào)、數(shù)字檔案館與少數(shù)民族檔案文獻(xiàn)遺產(chǎn)、個(gè)性化知識(shí)服務(wù)等。而近年來出現(xiàn)的高頻主題有數(shù)據(jù)環(huán)境對(duì)評(píng)價(jià)的影響、數(shù)字檔案館的需求融合、大眾創(chuàng)業(yè)萬眾創(chuàng)新等。同時(shí)也能發(fā)現(xiàn)Web2.0、典籍的整理開發(fā)等成為已經(jīng)消亡的主題。

4.4? ? 分類研究熱點(diǎn)演化情況分析

同一級(jí)學(xué)科下不同期刊的研究熱點(diǎn)存在差異,研究熱點(diǎn)會(huì)分布于不同的主題[26]。而不同的主題分布會(huì)對(duì)期刊的引用以及不同學(xué)者的關(guān)注度造成影響,這樣科研人員在研究不同主題時(shí)會(huì)選擇相對(duì)應(yīng)的期刊作為研究重點(diǎn)[27]。因此,研究不同期刊研究主題的變化與分布,可以為研究人員提供更多關(guān)于研究主題選擇上的參考。

將各期刊刊載文獻(xiàn)研究熱點(diǎn)的變化情況中進(jìn)行演化分析(見圖3),該圖通過分類標(biāo)示各期刊刊載文獻(xiàn)關(guān)鍵詞變化情況及其詞對(duì)變化關(guān)系,來反映不同期刊研究熱點(diǎn)及關(guān)鍵詞類團(tuán)的變化情況,以此研究不同分類下的期刊研究熱點(diǎn)的發(fā)展情況與變化趨勢。

如GROUP A與GROUP B所示,在圖書館學(xué)情報(bào)學(xué)兩棲期刊中,“開放獲取”和“高校圖書館”是兩個(gè)重要的研究熱點(diǎn),而且兩個(gè)研究熱點(diǎn)分別形成了規(guī)模較大的兩個(gè)類團(tuán)。開放獲取的相關(guān)研究經(jīng)歷了機(jī)構(gòu)知識(shí)庫到開放出版到開放數(shù)據(jù)的研究熱點(diǎn)變化,而高校圖書館的研究側(cè)重點(diǎn)則從學(xué)科服務(wù)逐漸轉(zhuǎn)變到閱讀推廣。

GROUP C、D、E反映的是圖書館學(xué)期刊近十一年研究熱點(diǎn)的變化情況,從這三個(gè)類團(tuán)的變化情況可以發(fā)現(xiàn):“圖書館學(xué)研究”“公共圖書館”“圖書情報(bào)學(xué)”是該期刊研究文獻(xiàn)長期以來關(guān)注的熱點(diǎn)。其中公共圖書館的相關(guān)研究由標(biāo)準(zhǔn)建設(shè)和立法逐漸轉(zhuǎn)變成戰(zhàn)略規(guī)劃和評(píng)價(jià)體系,從這種變化可以探究公共圖書館法與2010年左右由正式形成規(guī)范性的研究體系,而后經(jīng)歷將近8年時(shí)間的持續(xù)發(fā)展研究,最終于2018年生效。同時(shí)從圖中的時(shí)序變化可以發(fā)現(xiàn),圖書情報(bào)學(xué)發(fā)展相關(guān)的研究熱點(diǎn)經(jīng)歷了“Web2.0”“信息行為”和“數(shù)字人文”的發(fā)展變化,數(shù)字人文的相關(guān)研究成為了近兩年該刊研究文獻(xiàn)的熱門研究方向。

相較于以上兩種期刊刊載文獻(xiàn)的新興研究熱點(diǎn)多是圍繞著某一研究方向主線的演變與發(fā)展而展開的情況。情報(bào)學(xué)期刊刊載文獻(xiàn)研究熱點(diǎn)變化則是圍繞著類團(tuán)進(jìn)行,如GROUP F、G、H所示,2007-2010年的研究熱點(diǎn)集中在“競爭情報(bào)”“知識(shí)管理”和“數(shù)據(jù)挖掘”上,2011-2014年的研究熱點(diǎn)集中在“社會(huì)網(wǎng)絡(luò)分析”“微博”“科技報(bào)告”上,近年間“大數(shù)據(jù)”“網(wǎng)絡(luò)輿情”“知識(shí)發(fā)現(xiàn)”成為當(dāng)前快速增長的研究熱點(diǎn)。這些數(shù)據(jù)說明該期刊研究熱點(diǎn)可以被分為熱點(diǎn)主題和熱點(diǎn)方法,一個(gè)主題可以對(duì)應(yīng)多種方法,而一種方法可以隨著科學(xué)研究的發(fā)展與演化在不同時(shí)段應(yīng)用于多個(gè)主題。如社會(huì)網(wǎng)絡(luò)分析的相關(guān)研究就經(jīng)歷了數(shù)據(jù)挖掘、微博和網(wǎng)絡(luò)輿情的研究熱點(diǎn)變化,而共詞分析研究方法則分別被用于知識(shí)管理、數(shù)字圖書館、文獻(xiàn)計(jì)量的相關(guān)研究。

總體來說,雖然研究對(duì)象中的三種期刊屬于圖書館、情報(bào)與文獻(xiàn)學(xué)大類,然而各期刊刊載文獻(xiàn)關(guān)注點(diǎn)和研究方法卻不同。圖書館學(xué)、情報(bào)學(xué)兩棲期刊同時(shí)著眼圖書館與情報(bào)學(xué)研究,一直以來重點(diǎn)關(guān)注高校圖書館相關(guān)和開放獲取相關(guān)研究;圖書館學(xué)期刊主要關(guān)注公共圖書館相關(guān)工作和圖書情報(bào)學(xué)有關(guān)研究前沿;情報(bào)學(xué)期刊則側(cè)重情報(bào)學(xué)研究前沿和研究方法的應(yīng)用,研究重點(diǎn)較以上兩刊分散,但研究類團(tuán)緊密程度較高,這說明情報(bào)學(xué)相關(guān)研究方法之間有著緊密的關(guān)聯(lián)和復(fù)用關(guān)系。

4.5? ? 關(guān)聯(lián)關(guān)系涌現(xiàn)與高頻熱點(diǎn)對(duì)比分析

關(guān)鍵詞頻度演化的過程實(shí)質(zhì)上是研究熱點(diǎn)產(chǎn)生的過程[28],對(duì)于科研人員而言較早的獲取研究熱點(diǎn)的發(fā)展方向,比研究已經(jīng)成為熱點(diǎn)的研究領(lǐng)域更有前瞻性和參考性。

文章將期刊關(guān)鍵詞數(shù)據(jù)同基金主題數(shù)據(jù)進(jìn)行對(duì)比(見圖4),由于合并后詞頻超過11的關(guān)鍵詞占比超過全部關(guān)鍵詞的3%,故對(duì)比圖中閾值為3,淺色代表基金主題、深色代表期刊關(guān)鍵詞。通過對(duì)比發(fā)現(xiàn)基金關(guān)注主題更具有連續(xù)性,關(guān)注重點(diǎn)有信息資源、檔案、企業(yè)知識(shí)的管理模式與機(jī)制,圖書館的文化創(chuàng)新策略,數(shù)據(jù)環(huán)境下情報(bào)學(xué)與互聯(lián)網(wǎng)的特點(diǎn),網(wǎng)絡(luò)信息用戶的分析。期刊研究熱點(diǎn)可以視為是基金主題的具體化體現(xiàn),如基金中圖書館創(chuàng)新的主題在期刊中早期體現(xiàn)為服務(wù)模式的研究,而后發(fā)展為學(xué)科服務(wù),最近的研究重點(diǎn)變?yōu)槿耖喿x和閱讀推廣,還有如網(wǎng)絡(luò)信息用戶的相關(guān)研究主題由期刊熱點(diǎn)中的Web2.0逐漸轉(zhuǎn)換到了語義網(wǎng)與知識(shí)組織,基金主題中最新出現(xiàn)的數(shù)據(jù)環(huán)境與情報(bào)學(xué)相關(guān)研究在期刊熱點(diǎn)中可體現(xiàn)為大數(shù)據(jù)與智慧城市?;鹬黝}詞較期刊關(guān)鍵詞變化速度及變化率都較慢,但基金主題詞更為集中,同時(shí)也出現(xiàn)基金主題不變而期刊研究熱點(diǎn)逐漸發(fā)生轉(zhuǎn)變的情況。這說明基金主題是期刊文獻(xiàn)研究熱點(diǎn)的方向指導(dǎo),但在具體研究分支及技術(shù)的應(yīng)用中,由于新理論和新技術(shù)的出現(xiàn),解決同樣問題出現(xiàn)了更好和更有效率的解決方法,因此期刊研究熱點(diǎn)自發(fā)的產(chǎn)生了變化,而基金主題未變的情況。

為了對(duì)比分析頻度演化方法判斷熱點(diǎn)出現(xiàn)時(shí)間與傳統(tǒng)方法的不同,本研究在高頻關(guān)鍵詞的選擇上文章選用現(xiàn)階段被廣泛采用的詞頻g指數(shù)[29]對(duì)高頻關(guān)鍵詞進(jìn)行界定,詞頻g指數(shù)的定義是:一個(gè)關(guān)鍵詞的頻率統(tǒng)計(jì)量為g,在當(dāng)前選取的關(guān)鍵詞總數(shù)N中, 存在g個(gè)關(guān)鍵詞的詞頻統(tǒng)計(jì)量大于g2,同時(shí)g+1小于(g+1)2。通過計(jì)算,本次實(shí)驗(yàn)中期刊高頻關(guān)鍵詞的選擇數(shù)量g=21,即頻率排名前21位的關(guān)鍵詞可作為高頻關(guān)鍵詞選取。

本研究以時(shí)間t為單位,提取出這21個(gè)關(guān)鍵詞出現(xiàn)頻率最高的年度tn與關(guān)鍵詞頻度演化過程中該關(guān)鍵詞的峰值年度進(jìn)行對(duì)比得出結(jié)果(見表1)。

在選取的21個(gè)高頻關(guān)鍵詞中,“圖書館”“圖書館學(xué)”由于詞義本身代表意義的廣泛性,使得與之具有關(guān)聯(lián)關(guān)系的關(guān)鍵詞詞對(duì)數(shù)量沒有達(dá)到閾值,“競爭情報(bào)”“情報(bào)學(xué)”“信息檢索”關(guān)鍵詞在樣本初始計(jì)時(shí)年度就已經(jīng)達(dá)到峰值,故不存在頻度演化峰值。在剩余的16個(gè)高頻關(guān)鍵詞的對(duì)比中,頻度演化關(guān)鍵詞峰值出現(xiàn)的時(shí)間較g頻度選取的高頻關(guān)鍵詞提高了1年,占統(tǒng)計(jì)總時(shí)間段的9%。在基金主題的詞中,頻度演化關(guān)鍵詞峰值出現(xiàn)時(shí)間較g頻度選取的高頻關(guān)鍵詞提高了2.1年,占統(tǒng)計(jì)總時(shí)間段的20%。通過期刊關(guān)鍵詞與基金主題詞的對(duì)比,關(guān)鍵詞頻度演化方法在主題較為集中的關(guān)鍵詞數(shù)據(jù)中更能夠提前揭示關(guān)鍵詞峰值出現(xiàn)時(shí)間,這使得研究人員能結(jié)合關(guān)鍵詞間關(guān)聯(lián)關(guān)系數(shù)量與頻率的變化情況,能夠更早的發(fā)現(xiàn)潛在研究熱點(diǎn)的出現(xiàn),為科學(xué)研究提供參考。

4.6? ? 結(jié)論

學(xué)科熱點(diǎn)的出現(xiàn)、發(fā)展和消失是科學(xué)研究的循環(huán)形態(tài)[30]。從關(guān)鍵詞詞頻演化角度來看,不同期刊關(guān)鍵詞演化數(shù)據(jù)的聚合可以挖掘?qū)W科重要熱點(diǎn),多種期刊關(guān)鍵詞合并統(tǒng)計(jì)后能夠更明顯的挖掘領(lǐng)域研究熱點(diǎn)及其所構(gòu)成類團(tuán)的變化情況,研究熱點(diǎn)的增長及收縮期明顯延長,更有利于研究熱點(diǎn)類團(tuán)的挖掘與分析。然而由于各期刊刊載文獻(xiàn)量的不同,刊載文章數(shù)較多、發(fā)行頻率較頻繁的期刊在領(lǐng)域研究熱點(diǎn)分布的研究中占有更大的比重,一定程度上會(huì)對(duì)整體研究結(jié)果產(chǎn)生影響,部分載文較少期刊研究熱點(diǎn)的分布情況被忽略。因此,本研究從領(lǐng)域整體和各期刊以及基金主題詞多種角度進(jìn)行分析,在研究領(lǐng)域整體研究熱點(diǎn)變化情況的同時(shí),兼顧各期刊研究熱點(diǎn)發(fā)展變化趨勢,將基金主題變化與期刊研究熱點(diǎn)變化進(jìn)行了對(duì)比,從多個(gè)角度分析了研究熱點(diǎn)的發(fā)展趨勢。同時(shí)與g指數(shù)高頻關(guān)鍵詞選擇方法的對(duì)比,關(guān)鍵詞頻度演化方法的統(tǒng)計(jì)峰值比常用的高頻關(guān)鍵詞統(tǒng)計(jì)峰值提前了1年,在基金主題詞中更是提前了2.1年,能夠更有效的在熱點(diǎn)發(fā)展初期對(duì)其進(jìn)行挖掘和分析。

5? ?結(jié)語

關(guān)鍵詞是文獻(xiàn)作者對(duì)文章內(nèi)容的高度凝練與概括的結(jié)果,是文獻(xiàn)基本內(nèi)容的反映,但由于其標(biāo)引具有主觀性和非統(tǒng)一性,即不依賴受控詞表,由文獻(xiàn)作者進(jìn)行自由標(biāo)引,因此關(guān)鍵詞標(biāo)引中存在的不一致問題成為關(guān)鍵詞相關(guān)分析的干擾因素。由于研究領(lǐng)域成為熱點(diǎn)的關(guān)鍵詞會(huì)被科研人員在后續(xù)研究中發(fā)現(xiàn)并采用,本文從關(guān)鍵詞變化角度出發(fā),研究關(guān)鍵詞詞頻的演化情況,利用關(guān)鍵詞重復(fù)出現(xiàn)統(tǒng)計(jì)數(shù)據(jù)剔除不標(biāo)準(zhǔn)的標(biāo)引的關(guān)鍵詞,同時(shí)通過關(guān)鍵詞的共現(xiàn)關(guān)系研究主題及其類團(tuán)的發(fā)展情況。以圖書情報(bào)學(xué)三種影響因子排名靠前期刊與基金主題詞變化的對(duì)比實(shí)驗(yàn)驗(yàn)證了關(guān)鍵詞頻度演化研究方法在挖掘領(lǐng)域?qū)W科熱點(diǎn)變化和動(dòng)態(tài)知識(shí)結(jié)構(gòu)研究中整體的適用性及進(jìn)行分類研究的可擴(kuò)展性。在與主流高頻關(guān)鍵詞進(jìn)行研究熱點(diǎn)挖掘方法的對(duì)比中,關(guān)鍵詞頻度演化方法能有效提前研究熱點(diǎn)的出現(xiàn)時(shí)間,為科研人員研究方向的選擇提供更具時(shí)效性的參考。

文章構(gòu)建的詞頻演化網(wǎng)絡(luò)沒有過多討論所挖掘增長狀態(tài)中的學(xué)科研究熱點(diǎn)與已有學(xué)科熱點(diǎn)中存在的關(guān)聯(lián)關(guān)系,也未檢驗(yàn)不同閾值對(duì)挖掘結(jié)果的影響。下一步的研究需要就以上問題進(jìn)行深入探索,同時(shí)進(jìn)一步擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)選取的范圍和數(shù)量,以期從更大的范圍和更長的時(shí)間段選取研究對(duì)象,分析研究熱點(diǎn)的增長及分布情況。

參考文獻(xiàn):

[1]? 李綱,巴志超.共詞分析過程中的若干問題研究[J].中國圖書館學(xué)報(bào),2017,43(4):93-113.

[2]? 馮璐,冷伏海.共詞分析方法理論進(jìn)展[J].中國圖書館學(xué)報(bào),2006,32(2):88-92.

[3]? 巴志超,李綱,朱世偉.共現(xiàn)分析中的關(guān)鍵詞選擇與語義度量方法研究[J].情報(bào)學(xué)報(bào),2016,35(2):197-207.

[4]? Serrano M ?魣,Bogu?觡á M,Vespignani A.Extracting the multiscale backbone of complex weighted networks[J].Proceedings of the National Academy of Sciences of the United States of America,2009,106(16):6483-6488.

[5]? 楊建林.關(guān)鍵詞選擇策略及其對(duì)共詞分析的影響[J].情報(bào)學(xué)報(bào),2014(10):1083-1090.

[6]? 鄭彥寧,許曉陽,劉志輝.基于關(guān)鍵詞共現(xiàn)的研究前沿識(shí)別方法研究[J].圖書情報(bào)工作,2016,60(4):85-92.

[7]? 鄧珞華.詞頻分析——一種新的情報(bào)分析研究方法[J].大學(xué)圖書館學(xué)報(bào),1988,6(2):18-25.

[8]? Ding Y,Chowdhury G G,F(xiàn)oo S.Bibliometric Cartography of Information Retrieval Research by Using Co-Word Analysis[J].Information Processing & Management,2001,37(6):817-842.

[9]? 馬費(fèi)成,張勤.國內(nèi)外知識(shí)管理研究熱點(diǎn)——基于詞頻的統(tǒng)計(jì)分析[J].情報(bào)學(xué)報(bào),2006,25(2):163-171.

[10]? Ribière V,Walter C.10 years of KM theory and practices[J].Knowledge Management Research & Practice,2013,11(1):4-9.

[11]? Chen G,Xiao L.Selecting publication keywords for domain analysis in bibliometrics: A comparison of three methods[J].Journal of Informetrics,2016,10(1):212-223.

[12]? 周鑫,蔣勛,陳媛媛.詞頻變化率模型視域下美國情報(bào)學(xué)研究發(fā)展動(dòng)向分析[J].情報(bào)科學(xué),2017(4):166-172.

[13]? 王克平,陳辰,車堯.基于CSSCI我國高校數(shù)字圖書館研究論文的統(tǒng)計(jì)分析[J].情報(bào)科學(xué),2017(10):63-67.

[14]? 安興茹.我國詞頻分析法的方法論研究(I)——統(tǒng)計(jì)分析要素的界定、分類及問題[J].情報(bào)雜志,2016,35(2):75-80.

[15]? 張勤.詞頻分析法在學(xué)科發(fā)展動(dòng)態(tài)研究中的應(yīng)用綜述[J].圖書情報(bào)知識(shí),2011(2):95-98.

[16]? 唐果媛,張薇.國內(nèi)外共詞分析法研究的發(fā)展與分析[J].圖書情報(bào)工作,2014,58(22):138-145.

[17]? 張勤,馬費(fèi)成.國外知識(shí)管理研究范式——以共詞分析為方法[J].管理科學(xué)學(xué)報(bào),2007,10(6):65-75.

[18]? 陳淋,屈文建.基于共詞分析的我國圖書情報(bào)學(xué)研究主題演化分析[J].新世紀(jì)圖書館,2017(12):13-18.

[19]? 牟冬梅,琚沅紅,鄭曉月,等.基于時(shí)間-關(guān)鍵詞共現(xiàn)分析的學(xué)科動(dòng)態(tài)知識(shí)結(jié)構(gòu)研究——以國外圖書情報(bào)學(xué)為例[J].圖書情報(bào)工作,2017,61(12):21-31.

[20]? Zhao W,Mao J,Lu K.Ranking themes on co-word networks: Exploring the relationships among different metrics[J].Information Processing & Management,2018,54(2):203-218.

[21]? 齊亞雙,祝娜,翟羽佳.基于DTM的國內(nèi)外情報(bào)學(xué)研究主題熱度演化對(duì)比研究[J].圖書情報(bào)工作,2016,60(16):99-109.

[22]? 邱均平,胡小洋,《中國學(xué)術(shù)期刊評(píng)價(jià)研究報(bào)告》項(xiàng)目組.RCCSE中國學(xué)術(shù)期刊評(píng)價(jià)研究報(bào)告(2017-2018)評(píng)價(jià)結(jié)果[J].評(píng)價(jià)與管理,2016,14(4):36.

[23]? Palla G,Barabási A L,Vicsek T.Quantifying social group evolution[J].Nature,2007,446(7136):664.

[24]? Krstajic M,Bertini E,Keim D.CloudLines:Compact Display of Event Episodes in Multiple Time-Series[J].IEEE Transactions on Visualization & Computer Graphics,2011,17(12):2432.

[25]? Mcgee F,Dingliana J.An empirical study on the impact of edge bundling on user comprehension of graphs[C].International Working Conference on Advanced Visual Interfaces,2012:620-627.

[26]? Tsay M Y.A bibliometric analysis and comparison on three information science journals: JASIST,IPM,JOD,1998-2008[J].Scientometrics,2011,89(2):591-606.

[27]? Nisonger T E.Use of "Journal of Citation Reports" for Serials Management in Research Libraries: An Investigation of the Effect of Self-Citation on Journal Rankings in Library and Information Science and Genetics[J].College & Research Libraries,2000,61(2).

[28]? 滕廣青.基于頻度演化的領(lǐng)域知識(shí)關(guān)聯(lián)關(guān)系涌現(xiàn)[J].中國圖書館學(xué)報(bào),2018,44(3):79-95.

[29]? Egghe L.Theory and practise of theg-index[J].Scientometrics,2006,69(1):131-152.

[30]? Hsieh H F.Three Approaches to Qualitative Content Analysis[J].Qualitative Health Research,2005,15(9):1277-1288.

作者簡介:高勁松,女,華中師范大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師;彭博,男,華中師范大學(xué)信息管理學(xué)院博士研究生。

猜你喜歡
情報(bào)學(xué)詞頻熱點(diǎn)
專題導(dǎo)語:創(chuàng)新情報(bào)學(xué)探索
圖書情報(bào)與圖書館的關(guān)系探索
大數(shù)據(jù)時(shí)代下的情報(bào)學(xué)思考
4月高考熱點(diǎn)關(guān)注
卷首語
毛澤東話語的詞語特征
詞頻,一部隱秘的歷史