国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識圖譜分析中數(shù)據(jù)樣本影響度的實證研究

2018-02-18 15:50王宇典魏曉欣
新世紀圖書館 2018年11期
關(guān)鍵詞:知識圖譜實證研究可視化

王宇典?魏曉欣

摘 要 以民族地區(qū)生物多樣性研究為例,論文比較分析了知識圖譜研究中數(shù)據(jù)樣本對研究結(jié)果的影響,實證結(jié)果表明,雖然核心文獻具有反映學科研究的代表性,但還需要圖書館對學者進行檢索培訓學術(shù)規(guī)范指導,提高檢索需求的準確性。在優(yōu)化知識圖譜研究的數(shù)據(jù)樣本方面建議文獻數(shù)據(jù)庫著錄要符合準確性、可獲得性和穩(wěn)定性。

關(guān)鍵詞 知識圖譜 數(shù)據(jù)樣本 可視化 實證研究

分類號 G254.97

DOI 10.16810/j.cnki.1672-514X.2018.11.014

0 引言

知識圖譜可以將文獻信息繪制為二維或三維圖文信息,顯示科學發(fā)展結(jié)構(gòu)進程或與其他學科間的關(guān)系,并運用文獻計量學方法客觀反映學科研究前沿,通過可視化形式解析研究主題的結(jié)構(gòu)脈絡,使結(jié)果更為準確、清晰。近年來,隨著知識圖譜軟件及可視化技術(shù)的不斷完善和發(fā)展,越來越多的國內(nèi)學者開始運用知識圖譜開展相關(guān)學科主題研究。以中國知網(wǎng)CNKI數(shù)據(jù)庫收錄為例,截至2016年,以“知識圖譜”為主題的文獻有2680篇,且呈快速增加趨勢。其中,有關(guān)社會科學基礎研究方面的文獻占到62.90%,說明知識圖譜的運用已經(jīng)走出了圖書情報專業(yè)領域,極大提高了社會科學領域的科學計量研究水平。根據(jù)冉從敬[1]的研究,人文社科領域內(nèi)的學者主要把知識圖譜作為一種輔助研究工具,從梳理發(fā)展趨勢、探尋研究熱點、分析作者集群等方面應用知識圖譜,研究重點在特定主題或期刊。但是,當前學者們對知識圖譜的運用方式還比較簡單,數(shù)據(jù)樣本采集還存在隨機性,分析角度也較為單一,因此,有必要對知識圖譜與學科研究的融合,以及圖譜科學性對學科的影響度進行研究。

1 研究路徑

在運用知識圖譜分析主題文獻時,科學知識圖譜的數(shù)據(jù)源可來自于多個綜合性數(shù)據(jù)庫,如WOS,CNKI,CSSCI等。另外,還可以來自專利文獻信息出版機構(gòu)推出的專利信息數(shù)據(jù)庫,如德溫特專利數(shù)據(jù)庫(DII)、中文科技期刊數(shù)據(jù)庫引文版(CCD)、自然科學基金資助數(shù)據(jù)庫、中國農(nóng)史論文全文數(shù)據(jù)庫、維普(VIP)、萬方等[2]。當選用不同的主題詞和來源數(shù)據(jù)庫獲取數(shù)據(jù)樣本時,其數(shù)據(jù)和結(jié)論會有差異。由于知識可視化的基礎在于高質(zhì)量的樣本數(shù)據(jù),以及對不同格式和質(zhì)量的數(shù)據(jù)進行清洗和預處理[3],因而需要對所獲取的數(shù)據(jù)樣本進行嚴謹性和可靠論證,以使得出的結(jié)論具有正確性和普適性。

1.1 研究主題選擇

由于民族地區(qū)經(jīng)濟較為落后,與外界相對隔絕,處于公共管理權(quán)力的末稍,加之國內(nèi)外法律機制、民間社區(qū)、宗教價值、傳統(tǒng)文化、生態(tài)學等因素交織錯雜,民族地區(qū)生物多樣性保護研究領域的相關(guān)研究文獻能夠涉及自然科學和社會科學多個學科領域,具有研究方法、研究手段、研究視角多元化的特點。因此,選擇民族地區(qū)生物多樣性主題文獻作為研究樣本,研究成果既具有跨學科文獻研究代表性,也具有專業(yè)研究實用性。筆者以民族地區(qū)生物多樣性研究為例,比較分析知識圖譜研究中數(shù)據(jù)樣本對研究結(jié)果的影響,并對優(yōu)化知識圖譜研究中數(shù)據(jù)樣本的原則和方法提出建議。

1.2 檢索數(shù)據(jù)庫的選擇

選取數(shù)據(jù)庫的標準主要有以下三個方面。一是數(shù)據(jù)庫收錄的文獻要具有代表性和廣泛性,能涵蓋中外核心期刊,能反映本學科主題研究前沿和研究全貌。二是數(shù)據(jù)庫使用要具有便利性,圖書館購買的商業(yè)數(shù)據(jù)庫是讀者獲取數(shù)據(jù)進行可視化分析的首選。三是數(shù)據(jù)庫中采集的樣本文獻數(shù)據(jù)均能適用知識圖譜工具,便于比較分析?;谝陨显瓌t,本次實證研究中選取WOS,SCOPUS, CSSCI和CNKI數(shù)據(jù)庫,對民族地區(qū)生物多樣性保護研究的中外文獻對比分析。四個數(shù)據(jù)庫的具體特點見表1。

數(shù)據(jù)目的 書目文獻計量、引文分析、聚類分析、共詞分析、文獻共引分析 書目文獻計量、引文分析、聚類分析、共詞分析、文獻共引分析 書目文獻計量、引文分析、書目耦合、聚類分析、詞頻統(tǒng)計 書目文獻計量、引文分析、聚類分析、作者分析、關(guān)鍵詞共現(xiàn)矩陣

適用工具[5] Bibexcel、CiteSpace、HistCite、Sci ? CiteSpace 、Sci ? Bibexcel 、CiteSpace 、Prefuse CiteSpace 、SPSS、Pajek 、Prefuse、Ucinet

1.3 檢索式的構(gòu)建

(1)WOS數(shù)據(jù)庫檢索式1(WOS1):主題=biodiversity AND indigenous,時間范圍為2001—2015年,文獻類型為Article、Review,檢索結(jié)果1752條。

(2)WOS數(shù)據(jù)庫檢索式2(WOS2):主題=

(biodiversity and indigenous) or (biodiversity and“traditional knowledge”) or (biodiversity and “proteced areas”)or ( biodiversity and transboundary) or (biodiversity and “genetic resources”) or (biodiversity and“national park”) or (biodiversity and legislation) or (biodiversity and “customary law”) or (biodiversity and “genetically modified organism”) or (biodiversity and “invasion of alien species”) or (biodiversity and “cultural diversity”) or “bioculturaldiversity”or (biodiversity and religion),時間范圍為1989—2016年,文獻類型為Article、Review、Proceedings paper,檢索結(jié)果6888條。

(3)SCOPUS數(shù)據(jù)庫檢索式:關(guān)鍵詞=biodiversity AND indigenous,時間范圍為2001年—2015年,文獻類型為Article、Review,檢索結(jié)果524條。

(4)CSSCI數(shù)據(jù)庫檢索式1(CSSCI1):關(guān)鍵詞=生物多樣性or傳統(tǒng)知識or保護區(qū)or國家公園or文化多樣性or外來物種入侵or轉(zhuǎn)基因or遺傳資源or民族立法or習慣法or民間法,時間范圍為1998年—2016年,文獻類型為評論(書評除外)、綜述、論文,檢索結(jié)果2343條。

(5)CSSCI數(shù)據(jù)庫檢索式2(CSSCI2):關(guān)鍵詞=生物多樣性,時間范圍為2001年—2015年,文獻類型為評論(書評除外)、綜述、論文,檢索結(jié)果282條。

(6) CNKI數(shù)據(jù)庫檢索式:SU=‘生物多樣性*(‘傳統(tǒng)知識+‘保護區(qū)+‘國家公園+‘文化多樣性+‘外來物種入侵+‘轉(zhuǎn)基因'+‘遺傳資源+‘民族立法+'民間法+‘習慣法+‘宗教+‘跨界),時間范圍為1986年—2016年,論文(去掉通知、人物報道、要聞、征稿指南、期刊目錄、中學教學、科普等626條),檢索結(jié)果6681條。

2 檢索文獻數(shù)據(jù)分析對比

本文對民族地區(qū)生物多樣性主題的數(shù)據(jù)樣本采用文獻計量學方法,對比分析檢索文獻的國家/地區(qū)分布、期刊分布、學科分布、研究熱點及趨勢,進而比較研究結(jié)論的差異所在。

2.1 來源文獻的國家、地區(qū)分布對比

在WOS中的兩次檢索中,因檢索式1和檢索式2構(gòu)建不同,檢索結(jié)果文獻數(shù)量差別很大,但兩次檢索結(jié)果文獻中國家/地區(qū)分布差別不大。如圖1和圖2所示,分別顯示了兩次檢索的前十位國家/地區(qū),除了部分國家在排名上有所更替,只有檢索式2中的巴西代替了新西蘭進入前十,這說明在該研究領域,文獻來源的國家/地區(qū)集中程度較高,檢索文獻數(shù)量對國家/地區(qū)發(fā)文排名影響度不大。

另外,結(jié)合圖1、圖2和圖3來看,在文獻來源的國家/地區(qū)分布上,WOS和SCOPUS排名前十的國家/地區(qū)基本相同,這說明數(shù)據(jù)庫收錄文獻范圍對研究主題文獻國家/地區(qū)分布影響不大。

2.2? 來源文獻的期刊分布對比

統(tǒng)計收錄外文期刊的WOS1、WOS2和SCOPUS檢索結(jié)果,期刊《Biodiversity and Conservation》 均位于第一,成為該研究領域最為核心的期刊。將WOS1、WOS2和SCOPUS檢索結(jié)果前十的期刊分別給與權(quán)重10-1分,綜合統(tǒng)計得分如表2,得10分以上的有6種,是該學科領域穩(wěn)定的核心期刊,不受文獻數(shù)據(jù)庫和檢索文獻數(shù)量的影響。值得一提的是,由National Institute of Science Communication and Information Resources (NISCAIR)出版的期刊 《Indian Journal of Traditional Knowledge》上榜,表明發(fā)展中國家的學術(shù)期刊具有越來越高的學術(shù)影響力。

2.3 來源文獻的學科分布對比

通過對收錄外文文獻為主的SCOPUS和收錄中文文獻的CNKI數(shù)據(jù)統(tǒng)計,在文獻學科構(gòu)成中,排名第一、第二的均為自然科學類,排名第三的是社會科學類,說明民族地區(qū)生物多樣性研究領域是以自然科學為主的多學科研究,且學科分布與語種無關(guān)。

2.4 來源文獻的研究熱點對比

文獻共被引知識圖譜受檢索詞選取影響很大。以WOS數(shù)據(jù)庫的兩次檢索結(jié)果為例,WOS第一次檢索結(jié)果文獻數(shù)量少,文獻共被引知識圖譜的聚類不明顯,WOS第二次的檢索結(jié)果文獻數(shù)量多,文獻共被引知識圖譜呈現(xiàn)明顯的四大聚類:遺傳資源惠益分享機制、外來物種入侵、傳統(tǒng)知識、生物多樣性保護。可以說在數(shù)據(jù)庫和主題內(nèi)容相同的條件下,數(shù)據(jù)樣本越多,主題文獻反映越準確。

3 對來源文獻采用不同知識圖譜軟件處理的應用對比

根據(jù)表1所示,采用知識圖譜軟件CiteSpace可以滿足已選擇的四個文獻數(shù)據(jù)庫中數(shù)據(jù)樣本的處理。同時, CNKI數(shù)據(jù)庫在2017年新增可視化功能,也為不同軟件處理同一數(shù)據(jù)樣本提供了可能。

運用相關(guān)主題的CNKI數(shù)據(jù)樣本,對比CiteSpace和CNKI可視化分析關(guān)鍵詞共引圖譜,CiteSpace關(guān)鍵詞共引圖譜有21個聚類,其中大的聚類有8個,共引數(shù)量較多的關(guān)鍵詞有生物多樣性、自然保護區(qū)、生物多樣性保護、遺傳資源、生態(tài)環(huán)境、生態(tài)系統(tǒng)、國家公園、文化多樣性、生態(tài)旅游和物種多樣性。

CNKI數(shù)據(jù)庫關(guān)鍵詞共引可視化分析圖給出了三大聚類。一是圍繞自然保護區(qū)的,主要關(guān)鍵詞有:濕地、物種多樣性、可持續(xù)發(fā)展、生態(tài)旅游、生態(tài)環(huán)境、生物多樣性保護等,二是關(guān)于傳統(tǒng)知識、遺傳資源、惠益分享、知識產(chǎn)權(quán)的研究,三是外來物種、外來物種入侵的研究。

與CiteSpace軟件繪制的復雜結(jié)構(gòu)圖譜相比,CNKI數(shù)據(jù)庫的可視化分析結(jié)果基本相同,關(guān)鍵詞共引網(wǎng)絡簡單清晰,能滿足研究需求。但需要指出的是,CNKI數(shù)據(jù)庫導出的數(shù)據(jù)只能進行關(guān)鍵詞共引分析,該數(shù)據(jù)庫收錄的大量參考文獻無法獲取,影響了文獻分析的全面性,極大地弱化了該數(shù)據(jù)庫開展文獻計量研究的作用。

4 獲取來源文獻的檢索策略影響要素分析

檢索策略的優(yōu)劣直接影響到檢準率和檢全率,因為檢索結(jié)果是否達到檢索目的,需要知識圖譜軟件運行數(shù)據(jù)樣本后才能比較分析,給調(diào)整檢索策略增加了難度。以CSSCI為例,CSSCI1和CSSCI2兩次不同的檢索式查詢到的文獻總量都很小,兩者數(shù)量差距不大,但用CiteSpace軟件分析中心性前10的文獻,只有一個共同作者薛達元,且分別是該作者的兩篇文獻。可見中文數(shù)據(jù)庫的關(guān)鍵詞具有復雜性和不穩(wěn)定性,會影響到研究文獻的數(shù)據(jù)完整性。因此,收集數(shù)據(jù)樣本時,需要圖書館咨詢專家輔助制定合理的檢索策略。在制定檢索策略時,需要考慮樣本數(shù)據(jù)各要素對檢索策略的影響,如對具有很強地理特征的主題,要選用特別注重收錄文獻范圍的來源數(shù)據(jù)庫,而對于學科熱點及其分布的研究,建議盡量選擇綜合性數(shù)據(jù)庫。具體影響關(guān)系見表3。

5 實證結(jié)論及開展知識圖譜分析策略

在知識圖譜分析民族地區(qū)生物多樣性時,筆者從文獻的地理分布、期刊分布、學科分布、研究熱點及趨勢等方面對來源數(shù)據(jù)樣本進行了對比分析,在此過程中由信息專家和學科專家合作確定了來源數(shù)據(jù)庫和數(shù)據(jù)樣本,從而提高知識圖譜分析的科學性。通過上述實證研究,我們建議開展知識圖譜分析、獲取數(shù)據(jù)樣本時,需要從以下幾個方面考慮。

首先,應選擇多個來源數(shù)據(jù)庫采集不同文獻類型。由于每個數(shù)據(jù)庫收錄文獻都有不同程度的遺漏,理想的方法是采用多個數(shù)據(jù)庫的數(shù)據(jù),綜合利用或交叉印證,提高知識圖譜分析文獻的可信度。

其次,數(shù)據(jù)樣本數(shù)量越多,質(zhì)量越高。要運用知識圖譜反映文獻全貌,必須有一定數(shù)量的數(shù)據(jù)樣本。這猶如用變焦相機給文獻全貌拍照,而文獻數(shù)量就是變焦的關(guān)鍵,是觀察數(shù)據(jù)的不同子集[5],是進行可視化研究中的重要環(huán)節(jié)。以CSSCI數(shù)據(jù)庫為例,盡管該數(shù)據(jù)庫收錄的是核心期刊,但本研究主題收錄的數(shù)據(jù)量少,制作共被引知識圖譜不理想。而CNKI數(shù)據(jù)庫收錄本研究主題文獻多,但數(shù)據(jù)樣本有兩大缺憾,一是不能獲取參考文獻進行共被引文獻分析,二是數(shù)據(jù)樣本中有大量的非學術(shù)性書目記錄,如通知、啟事、科普文章等,需要人工清理。

第三,制定合理的檢索策略對獲取數(shù)據(jù)樣本有著至關(guān)重要的作用,具體可從三個方面保障檢索策略的科學合理。(1) 委托圖書館提供數(shù)據(jù)樣本下載服務;(2)與圖書館學科館員合作,制定和調(diào)整科學的檢索策略;(3) 圖書館開展制定檢索策略講座,對學者進行檢索方法培訓指導,提高檢索需求的準確性,推廣知識圖譜軟件在更多學科領域應用。

除此之外,對于知識圖譜分析中的數(shù)據(jù)樣本,要選擇著錄格式標準的數(shù)據(jù)庫。對于數(shù)據(jù)庫建設單位的要求,就是不斷提高文獻數(shù)據(jù)庫著錄質(zhì)量,使研究者獲取的文獻資源滿足數(shù)據(jù)樣本準確性、可獲得性、穩(wěn)定性的要求。據(jù)報道,中文引文數(shù)據(jù)庫著錄格式中,10%左右的引文不能直接轉(zhuǎn)換成所需要的格式,要人工糾正[6]。NSF(National Science Foundation,美國國家科學基金會) 網(wǎng)站下載的數(shù)據(jù),在導入知識圖譜軟件分析時,可分析的選項只有研究計劃和主題詞聚類[7]。WOS完備的引文字段贏得了研究者青睞,但專業(yè)性的PubMed數(shù)據(jù)庫則擁有主題詞表,檢索結(jié)果優(yōu)于WOS[8]。由此可看出,來源數(shù)據(jù)庫的標引質(zhì)量會成為學者考慮的重要因素。

運用知識圖譜分析學科領域文獻成為大勢所趨,用戶希望更多的網(wǎng)絡文獻數(shù)據(jù)庫、公開獲取數(shù)據(jù)庫、機構(gòu)庫等能成為知識圖譜分析的來源數(shù)據(jù)庫??梢灶A見,隨著文獻數(shù)據(jù)庫功能改進,運用知識圖譜開展可視化分析的學者將越來越多。圖書館在文獻計量知識和技術(shù)方面可以為學者提供服務,也可以對學者開展知識圖譜處理方法的培訓,以提高學者獲取數(shù)據(jù)樣本、處理數(shù)據(jù)、展示圖形和解讀數(shù)據(jù)能力。

參考文獻:

[ 1 ]冉從敬,劉琬.知識圖譜在我國人文社科領域的研究進展[J].信息資源管理學報,2014(1):4-13.

[ 2 ]王亞男,黃國彬,張一楠,等.近十年我國圖情領域科學計量可視化的研究特點剖析[J].圖書情報知識,2015(1):86-94.

[ 3 ]SHIFFRIN R M, B?RNER K. Mapping knowledge domains[J].PNAS,2004,101(1):5183-5185.

[ 4 ]肖明.知識圖譜工具使用指南[M].北京:中國鐵道出版社,2014:15-17.

[ 5 ]陳振標.文獻信息檢索、分析與應用[M].北京:海洋出版社,2016:268.

[ 6 ]肖明,陳嘉勇,李國俊.基于CiteSpace研究科學知識圖譜的可視化分析[J].圖書情報工作,2011(6):91-95.

[ 7 ]梁偉波.美國NSF資助物流項目的知識圖譜分析[J].情報雜志,2016(10):114-119.

[ 8 ]ROTOLO D L. Matching Medline/PubMed data with Web of Science: a routine in R language[J].Journal of the Association for Information Science and Technology. 2015,66(10):2155-2160.

猜你喜歡
知識圖譜實證研究可視化
數(shù)據(jù)可視化設計在美妝類APP中的應用
思維可視化
復變函數(shù)級數(shù)展開的可視化實驗教學
復變函數(shù)級數(shù)展開的可視化實驗教學
復變函數(shù)共形映射的可視化實驗教學
復變函數(shù)共形映射的可視化實驗教學
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
基于知識圖譜的智慧教育研究熱點與趨勢分析
玉雕專業(yè)學生專業(yè)認同的實證研究
喀喇| 墨脱县| 安乡县| 同德县| 河西区| 兴义市| 来凤县| 阜阳市| 清水县| 博兴县| 通渭县| 通河县| 盱眙县| 晋江市| 日照市| 鲁山县| 武平县| 德清县| 东光县| 阳曲县| 兴海县| 双流县| 金门县| 巴彦淖尔市| 宁津县| 尼勒克县| 贵南县| 山东省| 三都| 遂昌县| 汕尾市| 探索| 姜堰市| 礼泉县| 通辽市| 内江市| 尼木县| 玉林市| 康定县| 云浮市| 舞阳县|