張亞成 夏換 楊秀璋 于小民 朱滌塵 竇悅琪
摘要:針對目前紅學(xué)研究主題繁多且學(xué)術(shù)成果數(shù)量龐大,對核心作者及其文獻篩選工作困難的問題,該文提出了一種基于綜合指數(shù)和可視化分析的紅學(xué)熱門主題及核心作者研究方法,篩選出九大熱門主題,并從多方面分析了評估紅學(xué)核心作者的因素,從多個角度分析了紅學(xué)研究文獻的特性,研究其特征和主旨。該文采用Python語言進行了詳細(xì)的實驗,分析了紅學(xué)核心作者與其作品的聯(lián)系,挖掘出作品研究價值高且適用性廣的核心作者。實驗結(jié)果表明該算法具有一定的理論意義和研究價值,可以應(yīng)用到作者推薦、文獻分析等領(lǐng)域,同時能優(yōu)化紅學(xué)研究方式,推動紅學(xué)研究發(fā)展。
關(guān)鍵詞:紅學(xué);核心作者;綜合指數(shù);Python;普賴斯定律
中圖分類號:1207.411 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)32-0023-04
1基于綜合指數(shù)分析紅學(xué)核心作者的必要性
《紅樓夢》是中國歷代以來唯一以一本書的研究,而建立起一門專門學(xué)問的作品,這就是大家所稱的“紅學(xué)”。進入“紅學(xué)”圈子的人,上至高層官員、國學(xué)大家、著名作家,下至普通的研究者,人數(shù)之眾多,可與西方的“莎士比亞學(xué)”相媲美。
目前我國紅學(xué)研究主題繁多,每年有大量文獻被收錄,同時不乏大量商業(yè)炒作和虛假文獻,為廣大紅學(xué)學(xué)者對核心作者和文獻的篩選和研究帶來的很大阻礙。針對以上問題,本文提出了一種基于綜合指數(shù)的分析方法,通過該算法結(jié)合可視化分析,可以直觀反映出熱門主題的核心作者。本文旨在分析出熱門主題文獻和其核心作者之間的關(guān)系,從多個角度挖掘紅學(xué)主題,利用綜合指數(shù)分析方法對收集到的紅學(xué)文獻數(shù)據(jù),從而得出核心作者群體,并利用數(shù)據(jù)可視化技術(shù)進行直觀展現(xiàn)。
本文實驗數(shù)據(jù)集是CNKI收錄的19598篇紅學(xué)文獻的相關(guān)數(shù)據(jù)。主要步驟是利用Python技術(shù)自定義爬取CNKI的相關(guān)數(shù)據(jù),構(gòu)建詞云和綜合指數(shù)分析等模型分析文獻信息,從多個角度挖掘熱門主題和文獻的關(guān)系,根據(jù)提取的特征預(yù)測核心作者。實驗結(jié)果表明,本文提出的算法可以有效挖掘出紅學(xué)熱門主題有價值的信息,包括核心文獻的下載量、被引量等;該方法可以給紅學(xué)研究者甄別文獻質(zhì)量,快速篩選熱門話題相關(guān)核心作者,從而為研究者學(xué)習(xí)、引用紅學(xué)核心文獻提供幫助,具有重要的理論意義和實際應(yīng)用價值,可廣泛應(yīng)用于紅學(xué)研究事業(yè),優(yōu)化紅學(xué)研究方式,推動紅學(xué)研究發(fā)展。
2紅學(xué)文獻和核心作者的相關(guān)研究現(xiàn)狀
核心作者是對本學(xué)科研究的發(fā)展具有較大貢獻的科研人員,同時也是期刊學(xué)術(shù)影響力、競爭力的重要貢獻者,他們影響著期刊的生存與發(fā)展,對核心作者進行測評有助于學(xué)科研究和學(xué)術(shù)期刊的發(fā)展嘲。目前對文獻的研究主要分為文獻分析、核心作者算法分析兩方面。高淮生對紅學(xué)高端論壇的學(xué)術(shù)內(nèi)容進行綜述。崔淼對近三十年作者的文獻、學(xué)術(shù)思想進行了評述,分析具有代表性的觀點,總結(jié)近三十年來《紅樓夢》作者新說的研究路徑、文化傳統(tǒng)、新變及局限,反思作者研究之于《紅樓夢》這部傳統(tǒng)小說經(jīng)典的價值所在,并引入基于“闡釋循環(huán)”理論的理想作者研究模式。高源對《紅樓夢》的哲學(xué)性進行了考辨,分析其能否進入哲學(xué)的視閾并成為嚴(yán)格意義上中國哲學(xué)研究的一個領(lǐng)域。楊子倩等通過對《紅樓夢》中家具相關(guān)文獻的互證,研究《紅樓夢》中與桌案相關(guān)的物質(zhì)文化細(xì)節(jié)鑒古知今,以期為了解《紅樓夢》的器物文化和研究家具文化與禮制提供參考意義。朱淡文對《紅樓夢》文獻學(xué)提出了研究綜述,在??闭砑凹t學(xué)資料的搜集匯編等方面皆取得了重要收獲。
在核心作者算法分析方面,鐘文娟基于普賴斯定律和綜合指數(shù)法對《圖書館建設(shè)》的核心作者進行分析測評。段和平等對核心作者群和期刊發(fā)文的意義做出了探討。張磊以《現(xiàn)代大學(xué)教育》為例,探究了如何建立積極互動的“雜志與作者(讀者)關(guān)系”。李智毅等對公開發(fā)表的學(xué)術(shù)文獻數(shù)據(jù)為基礎(chǔ),采用文獻計量學(xué)等方法和多種專業(yè)工具組合,對國內(nèi)軍民融合研究文獻的作者進行了多方位的研究,以發(fā)掘相關(guān)領(lǐng)域的核心作者。杜宇等對我國醫(yī)學(xué)論文進行綜合評測篩選,了解檢驗醫(yī)學(xué)重要期刊和核心作者,為醫(yī)學(xué)人員的研究提供幫助。
這些文獻研究或核心作者算法研究通常是利用文獻計量學(xué)方法對某一小部分學(xué)科的核心作者進行研究,或是僅僅從學(xué)術(shù)角度對紅學(xué)進行分析,沒有將核心作者的算法研究和紅學(xué)文獻研究相結(jié)合,深層次對紅學(xué)核心作者及其文獻進行挖掘。本文將引入綜合指數(shù)分析、WordCloud等方法,結(jié)合可視化技術(shù)從多個角度深層次挖掘紅學(xué)核心作者及其文獻,更好地優(yōu)化紅學(xué)研究產(chǎn)業(yè),為紅學(xué)學(xué)者提供幫助。
3紅學(xué)文獻熱門主題核心作者分析及可視化研究過程
3.1系統(tǒng)架構(gòu)
本文旨在對CNKI收錄的19598篇紅學(xué)文獻進行數(shù)據(jù)分析,其系統(tǒng)框架如圖1所示,主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、實驗分析及結(jié)果評估四個步驟,具體流程如下:
(1)首先采用Python自定義爬蟲抓取文獻數(shù)據(jù)。
(2)對收集到的數(shù)據(jù)進行預(yù)處理操作,包括異常值處理、數(shù)據(jù)清洗、缺失值補齊等操作。
(3)數(shù)據(jù)分析主要包括可視化分析和算法分析。通過echarts、熱點詞云等方式直觀展示影響紅學(xué)熱門主題及文獻的相關(guān)因素,利用綜合指數(shù)分析方法深層次挖掘熱門話題和核心作者的關(guān)系。
(4)最后評估實驗結(jié)果,得出結(jié)論。
3.2數(shù)據(jù)采集
本文使用Pvthon自定義爬蟲對CNKI紅學(xué)相關(guān)文獻進行抓取,并將信息存儲到本地excel。圖2是CNKI文獻《“歷史回顧與未來展望——《紅樓夢》文獻學(xué)研究高端論壇”學(xué)術(shù)綜述》對應(yīng)的頁面,包括題名、作者、來源、發(fā)表時間、數(shù)據(jù)庫、被引次數(shù)和下載量等信息。
3.3數(shù)據(jù)預(yù)處理
在進行數(shù)據(jù)分析之前,需要對所爬取的文獻數(shù)據(jù)進行預(yù)處理操作,包括缺失值填充、異常值處理、數(shù)據(jù)清洗等步驟,其目的是為了保證數(shù)據(jù)的質(zhì)量和標(biāo)準(zhǔn),從而保證分析的準(zhǔn)確性。本文的數(shù)據(jù)預(yù)處理操作過程包括:
(1)缺失值填充。在爬取文獻數(shù)據(jù)的過程中,存在缺失部分信息例如作者信息、下載量等情況,在標(biāo)記缺失項后,利用定向爬取補全數(shù)據(jù),部分?jǐn)?shù)據(jù)采用手動填充。
(2)異常值處理。所爬取的小部分文獻數(shù)據(jù)不符合實際情況,如無作者、部分?jǐn)?shù)值為0等,此時采用excel排序后進行定向校驗。
(3)數(shù)據(jù)清洗。原始數(shù)據(jù)中存在重復(fù)發(fā)文和與紅學(xué)相關(guān)性較低的文獻,比如學(xué)者逝世訃告等,需要刪除重復(fù)項、篩選無關(guān)項進行處理。
最終得出從1954年到2019年5月的19589篇紅學(xué)相關(guān)學(xué)術(shù)成果如表1所示。
3.4詞云分析
“詞云”是對數(shù)據(jù)文本中出現(xiàn)頻率較高的熱點詞,予以視覺突出,使瀏覽者可以很快了解文本的主旨,主要利用文本挖掘和可視化技術(shù)。本文中使用的詞云是在Python中,通過安裝WordCloud詞云擴展包以形成的詞云圖片。
本文主要對紅學(xué)熱門文獻的題材及標(biāo)簽進行分析來生成詞云。其流程如圖3所示。
3.5綜合指數(shù)
綜合指數(shù)分析是從評價紅學(xué)中9大熱門主題的作者人手,先采用普賴斯定律得出核心作者候選人,接著選用發(fā)文量和被引量這兩項指標(biāo)得出該作者的質(zhì)量指標(biāo)值,也就是該作者在熱門主題學(xué)術(shù)成果中的平均指標(biāo)值,最后比較各作者間的指標(biāo)值大小,得出最終的核心作者群。
4實驗分析及結(jié)果評估
4.1紅學(xué)近十五年發(fā)展綜述可視化分析
如表2所示,篩選出2004年至2018年的所有學(xué)術(shù)成果,包括發(fā)文量、第一引用量和第一下載量,如圖4所示。紅學(xué)的學(xué)術(shù)成果發(fā)文量在2011年達到頂峰,隨后呈現(xiàn)下降趨勢,可見有關(guān)紅學(xué)的研究熱度有所減弱,第一引用量和下載量亦是如此。其中,引用量第一的是2005年童慶炳在北京大學(xué)學(xué)報發(fā)表的《文學(xué)經(jīng)典建構(gòu)諸因素及其關(guān)系》,被引用230次;下載量第一的是2009年湖南師范大學(xué)鄧娜發(fā)表的碩士論文《<簡·愛>與<紅樓夢>女主人公形象的比較研究——中西文化互觀中的簡·愛與林黛玉》,被下載10473次。由此可見,不少相關(guān)文獻是采用紅樓夢本身或是其中人物事件作為案例或交叉比較研究,所以要在眾多文獻中準(zhǔn)確找出需要的研究點,還是有一定難度。因此,篩選總結(jié)出熱門主題的核心作者是十分有必要的。
4.2主題詞詞云分析
利用python的wordeloud詞云技術(shù),對爬取的19598條紅學(xué)學(xué)術(shù)成果以主題詞為關(guān)鍵詞,形成熱門詞云,如圖5所示。其中,“紅樓夢”出現(xiàn)次數(shù)最多共14602次,但由于紅樓夢與紅學(xué)本是同源,所以該主題不納入計算核心作者群的候選熱門主題中。剩余主題選取總占比超過2%的9個主題,即“翻譯”“小說”“人物形象”“曹雪芹”“清代”“林黛玉”“悲劇”“后四十回”和“賈寶玉”,出現(xiàn)頻次分別是3216次、789次、749次、693次、675次、526次、465次、417次和380次。
其中,score;表示第i位核心作者候選人的綜合指標(biāo)數(shù),xi表示其總發(fā)文量,Yi表示其總被引量。發(fā)文量和被引量的系數(shù)都為0.5。
運用此公式對76位九大主題核心作者候選人進行計算,得出如表4所示的前18位綜合指數(shù)超過1的核心作者。其中劉澤權(quán)發(fā)表相關(guān)文獻25篇,被引次數(shù)594次,綜合指數(shù)為5.758;洪濤發(fā)表相關(guān)文獻25篇,被引次數(shù)337次,綜合指數(shù)為3.865;江帆發(fā)表相關(guān)文獻11篇,被引次數(shù)421次,綜合指數(shù)為3.709。這種多方面指標(biāo)的方法計算核心作者的方法更加準(zhǔn)確客觀,具有很高的參考價值。
5結(jié)束語
傳統(tǒng)紅學(xué)分析方法普遍利用文獻計量學(xué)的方法對文獻進行分析,步驟較為煩瑣,效率較低,工作量大,沒有結(jié)合可視化分析對現(xiàn)有文獻進行深層次挖掘。針對這一情況,本文提出了基于綜合指數(shù)的核心作者研究,結(jié)合數(shù)據(jù)可視化,得出以下結(jié)論:
(1)紅學(xué)近十五年發(fā)展綜述可視化分析顯示紅學(xué)文獻引用量第一的是2005年童慶炳在北京大學(xué)學(xué)報發(fā)表的《文學(xué)經(jīng)典建構(gòu)諸因素及其關(guān)系》,下載量第一的是2009年湖南師范大學(xué)鄧娜發(fā)表的碩士論文《<簡·愛>與<紅樓夢>女主人公形象的比較研究——中西文化互觀中的簡·愛與林黛玉》,可見紅學(xué)中人物案例和其他文學(xué)作品交叉比較這一方向是較為熱門的研究方向。
(2)主體詞云分析得出“紅樓夢”是研究的核心內(nèi)容,“曹雪芹”“小說”“翻譯”“人物形象”是比較熱門的研究題材。
(3)綜合指數(shù)算法對核心作者候選人進行篩選,通過構(gòu)建綜合指數(shù)模型得出了發(fā)表文獻最具有參考和研究價值的18名核心作者,他們的綜合指數(shù)指標(biāo)最高。
綜上,本文提出的研究方法可以對紅學(xué)相關(guān)文獻進行了有效挖掘和分析,這對于紅學(xué)相關(guān)研究者以及對紅學(xué)感興趣的學(xué)者都具有良好的參考價值,避免了文獻過多而無法精準(zhǔn)找到所需要的主題和作者的情況。實驗證明用這樣的方法識別出核心作者是可行的,同樣對于其他學(xué)術(shù)領(lǐng)域的文獻檢索也可以同樣實現(xiàn),這樣大大減少了人工篩選的過程,提高了學(xué)習(xí)的效率和研究的準(zhǔn)確性。此外,本文對于傳播弘揚紅學(xué)文化也具有一定的宣傳意義,有望再次激發(fā)起各學(xué)者對于紅學(xué)文化的研究興趣與熱情,推動紅學(xué)研究的發(fā)展與進步。