国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Kleinberg 算法的楚辭文獻(xiàn)突發(fā)信息監(jiān)測研究

2015-03-16 13:57:50周澍綺
電腦知識與技術(shù) 2015年4期
關(guān)鍵詞:楚辭

周澍綺

摘要:文獻(xiàn)計(jì)量學(xué)中的突發(fā)詞監(jiān)測算法廣泛應(yīng)用于領(lǐng)域熱點(diǎn)的監(jiān)測分析。該文以先秦楚辭為主題,使用Kleinberg突發(fā)監(jiān)測算法對學(xué)術(shù)數(shù)據(jù)庫中2004年至2012年的楚辭文獻(xiàn)數(shù)據(jù)進(jìn)行計(jì)算分析。在獲得楚辭研究領(lǐng)域中各主題的突發(fā)權(quán)重的基礎(chǔ)上,利用信息聚類技術(shù)得到楚辭研究熱點(diǎn)在不同階段的突發(fā)趨勢。這不僅是突發(fā)詞監(jiān)測算法在人文社科領(lǐng)域的一次嘗試,也為傳統(tǒng)楚辭研究提供一種新的研究思路。

關(guān)鍵詞:楚辭;突發(fā)詞監(jiān)測;Kleinberg算法

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)04-0086-05

隨著數(shù)字信息的廣泛應(yīng)用,以學(xué)術(shù)數(shù)據(jù)庫為基礎(chǔ)的文獻(xiàn)也逐年遞增。利用信息管理方法對已有文獻(xiàn)進(jìn)行熱門主題分析已經(jīng)成為文獻(xiàn)管理和數(shù)據(jù)挖掘的重要研究分支之一。

文獻(xiàn)信息挖掘最重要的方式就是通過文獻(xiàn)元數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)分析,而對關(guān)鍵詞的研究是文獻(xiàn)計(jì)量學(xué)[1]的一個(gè)重要切入點(diǎn)。利用關(guān)鍵詞進(jìn)行統(tǒng)計(jì)和分類,是研究文獻(xiàn)主題以及知識挖掘的一個(gè)重要方法。突發(fā)詞監(jiān)測是指對短期內(nèi)單個(gè)詞在領(lǐng)域內(nèi)的增長勢頭研究,進(jìn)而發(fā)現(xiàn)學(xué)術(shù)領(lǐng)域中局部熱點(diǎn)的變化。將關(guān)鍵詞的突發(fā)性作為主要指標(biāo),通過自動機(jī)分析調(diào)整突發(fā)權(quán)重在不同領(lǐng)域內(nèi)的同步率成為國內(nèi)外進(jìn)行研究的主流方法,如Ketan對核糖核酸,Cell Line等關(guān)鍵詞的突發(fā)性分析[2],Chen.C利用Citesapce對突發(fā)詞的研究[3],崔雷利用共詞突發(fā)性研究醫(yī)學(xué)熱點(diǎn)[4]等。

突發(fā)詞監(jiān)測算法在自然科學(xué)領(lǐng)域,尤其是在醫(yī)學(xué)領(lǐng)域應(yīng)用廣泛,在社科領(lǐng)域特別在傳統(tǒng)文學(xué)領(lǐng)域的應(yīng)用仍處于起步階段?,F(xiàn)以楚辭文獻(xiàn)為例,將突發(fā)詞監(jiān)測的研究方法,用來研究楚辭文獻(xiàn)中的關(guān)鍵詞及其突發(fā)性,為楚辭研究提供計(jì)量分析的依據(jù)。

1 Kleinberg監(jiān)測算法

突發(fā)詞監(jiān)測算法是研究增長勢頭不斷加強(qiáng)的詞,這些詞在揭示領(lǐng)域熱點(diǎn)發(fā)展趨勢方面更具有及時(shí)性?;趩蝹€(gè)詞的詞頻增長率變化更有可能涉及領(lǐng)域局部熱點(diǎn)的變化,這樣細(xì)微變化不一定會引起全域研究者的注意,但又是領(lǐng)域發(fā)展中不可缺少的部分。雖然它還未達(dá)到詞頻閾值的要求,但是未來的發(fā)展勢頭好,這些詞可能低頻,但卻具有情報(bào)意義。

Kleinberg突發(fā)詞算法[5]是Kleinberg于2002年提出的話題突發(fā)監(jiān)測(Burst Detection)算法。Kleinberg認(rèn)為話題的文獻(xiàn)數(shù)量不是平滑增長,而是在不同水平之間躍遷。Kleinberg基于自動機(jī)對不同時(shí)間段上詞出現(xiàn)的頻次進(jìn)行建模。詞突發(fā)時(shí),自動機(jī)處于高頻狀態(tài)。給定文獻(xiàn)集合,確定狀態(tài)的個(gè)數(shù)、狀態(tài)差異的大小,以及狀態(tài)改變的成本,利用Viterbi動態(tài)建模法對狀態(tài)改變的概率模型求最優(yōu)解,便可得出自動機(jī)狀態(tài)變化的最優(yōu)時(shí)序序列。

權(quán)重即關(guān)鍵詞由非突發(fā)狀態(tài)躍遷到突發(fā)狀態(tài)的成本。就一般情況而言,突發(fā)詞權(quán)重?cái)?shù)值越大,表明其在一個(gè)時(shí)期內(nèi)突發(fā)的可信度就越高,以此來顯示領(lǐng)域研究的熱點(diǎn)。

2 楚辭文獻(xiàn)的數(shù)據(jù)準(zhǔn)備

2.1 主題詞選擇

突發(fā)主題詞的選擇以《漢語主題詞表》①為基礎(chǔ),結(jié)合楚辭領(lǐng)域權(quán)威著作的《楚辭字典》②。這樣不僅覆蓋了文學(xué)研究常用漢語主題詞,還也滿足在專業(yè)領(lǐng)域方面的要求。使文獻(xiàn)摘要中的關(guān)鍵詞都能得到相應(yīng)權(quán)重。在除去重復(fù)和不符合研究規(guī)范的無效詞后,最終確定473個(gè)基詞。

2.2楚辭文獻(xiàn)來源

為確保數(shù)據(jù)的權(quán)威和有效性,這里選取的數(shù)據(jù)庫有CNKI和萬方數(shù)據(jù)庫;檢索范圍主題(標(biāo)題,摘要或者關(guān)鍵詞)中包含楚辭的所有文檔,根據(jù)突發(fā)詞算法的要求,挑選其2004-2012年的文獻(xiàn)作為主要研究對象,根據(jù)其提供摘要格式逐條下載,保存題錄信息,其中包括:文獻(xiàn)題目,作者,作者單位,關(guān)鍵詞,發(fā)表時(shí)間,刊名。突發(fā)監(jiān)測的默認(rèn)研究文獻(xiàn),目標(biāo)限定在標(biāo)題、關(guān)鍵詞、摘要中涉及的楚辭精神和楚文化的文獻(xiàn),并確認(rèn)文章題錄信息有效。

2.3 數(shù)據(jù)預(yù)處理方法

為確保突發(fā)詞權(quán)重的準(zhǔn)確可信,在實(shí)際測試前,對數(shù)據(jù)進(jìn)行整理清洗,主要包括:剔除不相關(guān)的論文,刪去重復(fù)的論文,優(yōu)化關(guān)鍵詞結(jié)構(gòu)等,具體如下:

1) 去重:一方面是篇目去重。由于很多論文在不同的刊物發(fā)表,即一稿多投,所以在搜索結(jié)果中同一篇文章會出現(xiàn)多次;有時(shí),會出現(xiàn)部分不涉及楚辭領(lǐng)域研究的會議論文或講話稿,這些主題詞及其內(nèi)容的重復(fù)會干擾突發(fā)詞的權(quán)重,需要篩查清除無關(guān)論文;另一方面是主題去重,根據(jù)本文選用的《漢語主題詞表》與《楚辭詞典》為標(biāo)準(zhǔn),對題要中的表達(dá)同義詞,異體字進(jìn)行歸并。

3.3 突發(fā)詞監(jiān)測結(jié)果分析

根據(jù)對楚辭主題詞的突發(fā)權(quán)重計(jì)算,第一組詞在2004年權(quán)重最大,相關(guān)主題詞顯示這一時(shí)期楚辭的研究主要集中在楚辭中愛國主義思想的繼承與表達(dá),同時(shí)突發(fā)的關(guān)鍵詞是審美和文獻(xiàn)。我們進(jìn)行主題還原,2004年前后,相關(guān)學(xué)者連續(xù)發(fā)表關(guān)于文獻(xiàn),楚辭中愛國主義主題的文章,其中以蔣俊的《宋代屈學(xué)研究》,董運(yùn)庭的楚辭系列為代表,前者以南北宋之交對屈騷愛國的呼喚,后者以愛國主義為切入點(diǎn)探究楚文化對后世文學(xué)的影響。從聚類分析圖中,我們可以看到第二組中,思想與文體學(xué)聚為一簇,后與女性相聚,數(shù)據(jù)顯示2005年楚辭在文藝?yán)碚擃I(lǐng)域研究作品增多,同時(shí)伴隨女性主題詞,我們可以認(rèn)為這一時(shí)期,楚辭中女性形象的文藝?yán)碚撟髌份^為突出,代表作有《〈楚辭〉〈山海經(jīng)〉神話比較研究》,《論歌劇〈屈原〉》中的“山鬼”形象》;《楚辭“山鬼”形象探源》。第三組突發(fā)詞分析可見,先秦、神話一如意料的聚合,后與性、情、藝術(shù)分別相聚,成為一類突發(fā)關(guān)鍵詞。從數(shù)據(jù)上顯示,先秦散文類楚辭中大量運(yùn)用到神話,學(xué)者由此對性、情等方向延展,以此使這一簇在2010年前后突發(fā),其中有代表的《論杜甫思想對屈原精神的傳承》《先秦言諫文學(xué)研究》等。

從上述研究結(jié)果可以發(fā)現(xiàn),Kleinberg突發(fā)詞監(jiān)測算法在楚辭文獻(xiàn)研究領(lǐng)域的成功應(yīng)用,找到以文學(xué)關(guān)鍵詞為基礎(chǔ)的突發(fā)文獻(xiàn),找到不同時(shí)期楚辭領(lǐng)域中的研究熱點(diǎn)。突發(fā)詞監(jiān)測不僅僅可以發(fā)現(xiàn)隱性的小規(guī)模的熱點(diǎn),也可以通過以權(quán)重作為衡量標(biāo)準(zhǔn)的聚類,尋找與突發(fā)詞相關(guān)的低頻熱點(diǎn)詞,為文學(xué)研究尋找新的切入點(diǎn)與研究方向。

4 結(jié)束語

通過上文對Kleinberg算法在楚辭文獻(xiàn)研究中的運(yùn)用,可以知道,突發(fā)詞監(jiān)測在文學(xué)研究領(lǐng)域可以尋找到不少隱形信息,也可以為相關(guān)研究領(lǐng)域提供新的研究方向。但是在使用和研究過程中,也會遇到一些問題,現(xiàn)將遇到的問題進(jìn)行總結(jié)和展望,具體如下:

1) 主題詞詞典的選擇。Kleinberg以主題作為突發(fā)標(biāo)準(zhǔn),也就是主題詞權(quán)重的躍遷度,前期主題詞的選擇是最終結(jié)果的關(guān)鍵。突發(fā)詞監(jiān)測在社科領(lǐng)域范圍內(nèi)應(yīng)用,需要在今后一段時(shí)期內(nèi)完善主題詞字典的建設(shè);

2) 這里對突發(fā)詞小規(guī)模嘗試,驗(yàn)證方式采用較為基礎(chǔ)聚類比例法;可預(yù)見在未來對大規(guī)模數(shù)據(jù)進(jìn)行研究分析時(shí),比例法就顯得較為被動,因此尋找一種行之高效的突發(fā)詞驗(yàn)證是今后一個(gè)時(shí)期的工作重心;

3) 在選擇主題詞時(shí)沒有完全的論證詞與詞之間的關(guān)聯(lián),如先秦與神話,性與情等詞內(nèi)部邏輯關(guān)系,所以會使主題在聚類的過程中簇過于集中。可預(yù)見的在后期的工作中,要將有內(nèi)部邏輯關(guān)聯(lián)的類詞加以區(qū)分,不用做同一過程測試突發(fā)詞。

利用Kleinberg對楚辭主題詞突發(fā)權(quán)重進(jìn)行分析研究僅僅是拋磚引玉,今后,相關(guān)算法在中國古代文學(xué)領(lǐng)域,乃至社科領(lǐng)域的研究具有一定的借鑒意義,利用相同的思路,例如突發(fā)詞結(jié)合語義挖掘技術(shù)對隱性知識的發(fā)現(xiàn)等方面的工作還可以開展更深層次的研究。

注釋:

①中國科學(xué)技術(shù)信息研究所與北京圖書館主編的大型綜合性中文敘詞表,分3卷10冊。

② 袁梅著,收列楚辭中的全部單字、單音詞及使用頻率較高的詞組。

參考文獻(xiàn):

[1] 葉鷹.文獻(xiàn)計(jì)量法和內(nèi)容分析法的理論基礎(chǔ)及軟件工具比較[J].評價(jià)與管理,2005(03):1-3.

[2] Ketan, Mane. Mapping Topics and Topic Bursts in PNAS[R].Indiana University,SLIS 10 th Street and Jordan Avenue Bloomington, IN 47405 USA:Katy Berne,2002.

[3] Chen.C. CiteSpace II:科學(xué)文獻(xiàn)中新趨勢與新動態(tài)的識別與可視化[J].情報(bào)學(xué)報(bào),2009.(28):401-421.

[4] 王孝寧,崔雷.突發(fā)監(jiān)測算法用于共詞聚類分析的嘗試[J].知識組織,2009,53(53):2-3.

[5] JON,KLEINBERG. Bursty and Hierarchical Structure in Streams[J].Data Mining and Knowledge Discovery,2003(7):7-15.

[6] 魏曉俊.基于科技文獻(xiàn)中詞語的科技發(fā)展監(jiān)測方法研究[J].情報(bào)雜志,2007(3):2-3.

[7] 榮泰生.SPSS與研究方法[M].大連:東北財(cái)經(jīng)大學(xué)出版社,2012:78-91.

[8] 謝龍漢,尚濤編.SPSS統(tǒng)計(jì)分析與數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2012:54-66.

猜你喜歡
楚辭
《翻譯美學(xué)視角下的楚辭英譯研究》評介
《楚辭·九章·惜往日》校讀一則
關(guān)于海外《楚辭》譯介與傳播的思考
大眾文藝(2020年8期)2020-07-12 08:55:52
李鐵環(huán)作品
國畫家(2020年6期)2020-03-08 11:51:34
屈原和楚辭
節(jié)奏觀下《楚辭》的英譯研究
秋夜讀《楚辭》
漢代楚辭學(xué)概述
魏晉南北朝時(shí)期楚辭的接受
發(fā)憤抒情,以情譯詩——楊憲益、戴乃迭《楚辭選》英譯析評
郴州市| 宜丰县| 天峻县| 安新县| 美姑县| 大余县| 太白县| 长葛市| 鲁甸县| 泰兴市| 仪陇县| 高阳县| 大安市| 南阳市| 万宁市| 枣强县| 永和县| 肇州县| 大宁县| 旅游| 天峻县| 宕昌县| 临潭县| 达州市| 宜良县| 鹤壁市| 鄂州市| 宜昌市| 寻乌县| 高碑店市| 论坛| 长葛市| 读书| 冕宁县| 淄博市| 襄垣县| 云霄县| 洞口县| 阳江市| 尼玛县| 桃园县|