国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

循證視角下文獻證據(jù)檢索的飽和度與冗余度研究:基本理論與基礎(chǔ)數(shù)據(jù)*

2021-04-19 04:02:46魏志鵬周文杰楊克虎
圖書與情報 2021年6期

魏志鵬 周文杰 楊克虎

(1.蘭州大學基礎(chǔ)醫(yī)學院循證醫(yī)學中心 甘肅蘭州 730000)

(2.蘭州大學循證社會科學研究中心 甘肅蘭州 730000)

(3.西北師范大學商學院 甘肅蘭州 730070)

作為循證研究與證據(jù)轉(zhuǎn)化的基本工具,系統(tǒng)評價(systematic review)和元分析(meta-analysis)的科學性都高度依賴于原始研究證據(jù)的檢索質(zhì)量。顯然,只有原始研究的證據(jù)得到了全面檢索,基于此而展開的系統(tǒng)評價和元分析才能最大程度控制偏差,從而得到更高層次、更接近于真實效應的科學證據(jù)。

長期以來,在文獻信息的檢索領(lǐng)域,研究者一直將查全率和查準率作為衡量檢索科學性的基本評價標準。然而,由于“相關(guān)文獻總體”是一對理想中的估計值,因此查全率和查準率在實際檢索中幾乎無法真實測量。為保證循證研究的科學性,有必要對傳統(tǒng)的查全率和查準率指標加以優(yōu)化,使其更具有測量上的可操作性,從而為全面獲取原始研究證據(jù)提供有效支撐。

本文基于查全率和查準率這對傳統(tǒng)的檢索效率評價概念,著眼于證據(jù)檢索全面性的評判,提出了飽和度和冗余度這一對評價指標,并以CNKI 為研究樣本,就不同檢索渠道和方式在證據(jù)檢索的科學性方面的實際狀況做出評估。 立足飽和度和冗余度的文獻證據(jù)檢索質(zhì)量評估,有助于對查全率和查準率評價方式做出補充,為循證研究(特別是系統(tǒng)評價和元分析)中證據(jù)的整合和真實效應的發(fā)掘提供參照。由于飽和度和冗余度的評價涉及的因素眾多,因此本研究將這部分研究主要分為兩部分:第一部分基本理論加以闡釋并對基礎(chǔ)數(shù)據(jù)集的構(gòu)建過程進行介紹;第二部分在第一部分基礎(chǔ)上,以飽和度和冗余度為檢索質(zhì)量評價指標展開實證檢驗。因篇幅所限,本文為本研究第一部分研究成果。

1 文獻回顧與理論基礎(chǔ)

1.1 查全率與查準率

20 世紀60 年代,美國學者Perry 和Kent 最早提出了查全率和查準率的概念。 同年,美國學者C.M.Cleverdon 在他著名的Granfieid I 試驗中首次將查全率與查準率作為信息檢索效率的評價指標,又在他的Granfield II 試驗中發(fā)現(xiàn)了查全率與查準率之間的互逆關(guān)系。至此,查全率與查準率便成為文獻信息檢索和評價的重要指標。

查全率(Recall Ratio)是指檢索出來的相關(guān)文獻與所有應該檢索出來的文獻的比率,主要是用來衡量在一次檢索中檢索出相關(guān)文獻的能力。 如果我們能夠識別所有相關(guān)文獻并且可以檢索到所有對口徑的文獻,那么查全率總是100%。尹舒力認為查全率“是一個不實際的概念”,其理由主要是由于查全率分母的值是一個無法確定的值。在實際檢索過程中,由于研究者幾乎永遠無法得知“全部相關(guān)文獻”的總數(shù),因此查全率是一個不可能精確測量的指標,只是一個理想中的、不可用的估計值。查準率(Precision Ratio)以百分比表示檢索出來的相關(guān)文獻與實際檢索出來的文獻的比率。 查準率實際上衡量的是檢索中拒絕不相關(guān)文獻找到真正相關(guān)文獻的能力。 假設(shè)擁有的總文獻量為N;總文獻中所有相關(guān)文獻量為X;被檢出文獻總量為M;被檢出的相關(guān)文獻量為W;查全率R 在數(shù)值上等于W 與X 的比例;查準率在數(shù)值上等于W 與M 的比例(見圖1)。

圖1 查全率與可準率的關(guān)系示意圖

實際上,大多數(shù)文獻檢索人員都想獲得更高的查準率,他們傾向于在判斷過程中閱讀相對較少的文獻,從而選擇較少數(shù)量的文獻輸出。在這種情況下,信息搜索者可以盡量節(jié)約時間。而系統(tǒng)評估者和元分析研究人員對文獻證據(jù)的檢索要求更接近查全率。這是因為,由于無法確定相關(guān)研究的集合是否代表關(guān)于該主題的全部現(xiàn)有研究,而搜索盡可能多的現(xiàn)有研究可以很好地避免這種情況。系統(tǒng)評價中文獻檢索的主要目標是不遺漏重要文獻,找到盡可能多的研究以確保分析結(jié)果無偏。 這意味著搜索策略傾向于強調(diào)查全率,更愿意犧牲查準率來換取較高的查全率。

總之,查全率和查準率這一對指標在一定程度上反映了文獻檢索的質(zhì)量,但也存在很多問題。一個問題是查全率無法精確測量,只能得到一個估計值。同時,當檢索者使用查準率來拒絕不相關(guān)文獻時,也很有可能會錯誤地去除大量本應該相關(guān)的文獻。 另一個問題是,查全率與查準率二者有較為明顯的互逆趨勢,因此無法同時優(yōu)化。 這些問題的存在,都給檢索質(zhì)量評價帶來了比較大的困難。

1.2 證據(jù)的生態(tài)系統(tǒng)

不同的文獻會報道質(zhì)量不同的研究,并非所有的文獻證據(jù)都有同樣的價值。為了評估證據(jù)的質(zhì)量,研究者發(fā)展了一個證據(jù)的層次結(jié)構(gòu),稱為“證據(jù)金字塔”(見圖2),旨在為不同的證據(jù)來源匹配不同層次的價值。

圖2 證據(jù)金字塔

“證據(jù)金字塔”所呈現(xiàn)的層級結(jié)構(gòu)對于證據(jù)質(zhì)量的評價有著極其重要的意義,但在循證研究中,當面對數(shù)量龐大的證據(jù)時,如果實踐者沒有及時完成證據(jù)分級或?qū)π碌难芯砍晒麢z索不及時,則很可能會造成證據(jù)資源的浪費。 為此,Pervandvik, Linn Brandt等在2011 年成立了MAGIC 組織并首次提出了證據(jù)生態(tài)系統(tǒng)(evidence ecosystem),目的是推動證據(jù)從產(chǎn)生、整合、實踐傳播到應用過程的轉(zhuǎn)化。

在證據(jù)生態(tài)系統(tǒng)中,證據(jù)的產(chǎn)生、整合、實踐到應用的過程類似于石油產(chǎn)口的開發(fā)過程(開采、提純、加工、運輸并提供給用戶使用)。 因此,在生態(tài)系統(tǒng)中證據(jù)的來源就是原始研究的開展,證據(jù)的整合就是對原始研究證據(jù)的收集、遴選與總結(jié)后,形成符合傳播條件且可以解決問題的最佳證據(jù);證據(jù)的實踐傳播就是構(gòu)建實踐指南以及決策輔助;證據(jù)應用是指應用和評價證據(jù)的效果。這一過程如同生態(tài)系統(tǒng),應實現(xiàn)無縫連接與轉(zhuǎn)化,減少證據(jù)資源的浪費與轉(zhuǎn)化過程中的“泄露”,推動證據(jù)從產(chǎn)生到使用的可持續(xù)、動態(tài)循環(huán),實現(xiàn)證據(jù)生態(tài)系統(tǒng)的良性、高效運作。

好的研究證據(jù)應該是從原始研究的初級證據(jù)到經(jīng)過整合的高級證據(jù),具有若干層級。盡管在眾多證據(jù)等級標準中,系統(tǒng)評價和Meta 分析類論文都被列為最高級別,但這實際上都取決于檢索質(zhì)量。顯然,如果檢索質(zhì)量很差、文章的質(zhì)量和級別也不會很高,甚至研究結(jié)果會存在較大偏倚或者會誤導后續(xù)研究者做出錯誤的判斷。通過檢索獲得全面且可靠的原始研究,是后續(xù)證據(jù)整合、開展系統(tǒng)評價和元分析的基礎(chǔ)。

1.3 證據(jù)的整合與轉(zhuǎn)化

1.3.1 整合

系統(tǒng)評價和Meta 分析旨在綜合不同研究的結(jié)果以達到對問題的全面理解,因此,證據(jù)整合對科學研究的進展至關(guān)重要。Meta 分析是一種對不同研究結(jié)果進行定量綜合的方法,可以對解決看似矛盾的結(jié)果加以綜合分析,得到更加真實的效應值,從而對科學領(lǐng)域產(chǎn)生了深刻的影響。格拉斯(Glass)在1976年首次提出了Meta 分析這個術(shù)語,他指出,Meta 分析是“綜合現(xiàn)有個體研究成果的綜合統(tǒng)計分析方法”。早在一百多年前,卡爾·皮爾遜為了確定疫苗的有效性,第一次對不同來源的信息進行組合,從五個不同的樣本中對接種疫苗和死亡率之間的相關(guān)性進行了平均估計?,F(xiàn)代統(tǒng)計科學發(fā)展中的另一位重要人物羅納德·費舍爾描述了一種結(jié)合來自不同研究的概率方法。在20 世紀30 年代末,威廉·科克倫和他的同事弗蘭克·耶茨描述了與現(xiàn)代固定效應和隨機效應模型基本相同的方法,這些模型經(jīng)過推廣后,心理學家吉恩·格拉斯和瑪麗·史密斯發(fā)現(xiàn),不同實驗的結(jié)果測量可以是標準化并且放到同一尺度上進行比較。至此,Meta 分析的影響力逐漸開始展現(xiàn)。

系統(tǒng)評價和Meta 分析都用來完成研究結(jié)果的綜合(research synthesis)。不同的是,系統(tǒng)評價是一種研究類型而Meta 分析是一種統(tǒng)計學方法,Meta 分析屬于系統(tǒng)評價的一部分。 關(guān)于系統(tǒng)評價的發(fā)展要追溯到1971 年,Kenneth Feldman 發(fā)表了一篇名為《利用他人的工作》(Using the Work of Others: Some Observations on Reviewing and Integrating)的文章,其中他首次提到“系統(tǒng)地回顧和整合……一個領(lǐng)域的文獻可以被認為是一種研究類型,即使用一套具有特點的研究技術(shù)和方法”。 他描述了系統(tǒng)評價過程中的四個步驟:抽樣主題和研究,制定索引和編碼材料的方案,整合研究,并撰寫報告。 系統(tǒng)評價將定性和定量分析方法相結(jié)合,全面整合證據(jù),嚴格評價所納入的研究,這種公開且透明的方法是篩選科學真實信息的最有效途徑。

1.3.2 轉(zhuǎn)化

在循證實踐中,研究者需要用實踐指南為決策提供依據(jù),即科學嚴謹?shù)睾铣煽捎玫淖罴炎C據(jù),公開透明地形成推薦意見,最終制定出可信度高的指南。其中,推薦意見是指南最重要的部分,也是指導實踐的重點,如何使證據(jù)轉(zhuǎn)化成明確的推薦意見對決策者有著直接的影響。

目前,已經(jīng)有很多學術(shù)組織提出了適用于證據(jù)轉(zhuǎn)化的框架和在線工具,但對于如何將證據(jù)形成推薦意見的標準卻不盡相同。2004 年,GRADE 工作組提出“(證據(jù))評估、發(fā)展和評價的推薦等級(Grades of Recommendations Assessment,Development and Evaluation)”,對于推薦強度給出了清晰的定義,但并未給出具體的判斷標準。因此,在基于GRADE 系統(tǒng)的基礎(chǔ)上建立了Etd 框架,提供一種結(jié)構(gòu)化的方法,對若干項標準進行考慮和判斷,描述其判斷細則,幫助決策者更加清晰明確的做出判斷。 Guideline Development Tool(GRADEpro GDT)是GRADE 工作組在2013 年正式推出的一款在線的循證實踐指南制定工具,主要作用是在制定指南過程中進行數(shù)據(jù)整合。 近幾年來,該在線工具在錄入結(jié)局指標,產(chǎn)生證據(jù)推薦表格等方面都進行了更新。

綜上所述,無論是檢索質(zhì)量的評價還是證據(jù)生態(tài)系統(tǒng)構(gòu)建和轉(zhuǎn)化過程,都高度依賴于證據(jù)檢索的質(zhì)量,只有原始研究證據(jù)進行全面的檢索,才能得到更高級的科學性證據(jù),從而轉(zhuǎn)化成推薦意見,為實踐提供決策。檢索的重要性毫無置疑,但是檢索存在的問題層出不窮。著眼于證據(jù)檢索全面性的評判,本文及后續(xù)一篇文章構(gòu)建以CNKI 為研究樣本, 提出了飽和度和冗余度這一評價指標,就不同的檢索方式對證據(jù)檢索的實際情況做出評估檢驗,以便為文獻證據(jù)檢索的科學性評價提供基礎(chǔ)。

2 證據(jù)檢索的飽和度和冗余度評價指標

2.1 概念界定

飽和度和冗余度都側(cè)重于測量一個文獻數(shù)據(jù)集合中,通過特定檢索方法與途徑得到的檢索結(jié)果在不同狀態(tài)下的“窮盡(exhaust)”檢索中占的比重。 窮盡檢索主要是指應用特定檢索方法(如滾雪球或多重替代方式檢索)而實現(xiàn)無法再檢索到新的文獻時的狀態(tài);當達到窮盡檢索時構(gòu)成總文獻數(shù)據(jù)集包括所有相關(guān)文獻量和被檢出文獻總量之和??偽墨I數(shù)據(jù)集中文獻與檢索詞的相關(guān)程度必然有高低之分,因此研究者依據(jù)相對應的分級標準判定總數(shù)據(jù)集中的文獻相關(guān)度,分為高度相關(guān)、中度相關(guān)和低度相關(guān)。

飽和度是指檢索中不再有新的文獻被納入的狀況,而冗余度是指檢索過程中檢索到不相關(guān)文獻的情況。本文將飽和度分為純凈飽和度和一般飽和度。其中,純凈飽和度是指采用特定檢索方式檢索結(jié)果涵蓋總文獻數(shù)據(jù)集中高相關(guān)文獻的程度,具體計算方法是:采用單項或者組合檢索時與總數(shù)據(jù)集中高度相關(guān)文獻的重合率,在數(shù)值上等于檢索出的高度相關(guān)文獻量與窮盡狀態(tài)下高度相關(guān)文獻總量的比值,這一指標反映了特定檢索途徑是否能夠準確定位高度相關(guān)研究證據(jù)的能力;而一般飽和度指特定檢索結(jié)果涵蓋整體數(shù)據(jù)集中中度及中度以上相關(guān)文獻的程度,在數(shù)值上等于檢索出中度及中度以上相關(guān)文獻量與窮盡狀態(tài)下的中度及中度以上相關(guān)文獻總量的比值,這一指標反映了特定檢索是否能夠準確定位中度以上相關(guān)研究證據(jù)的能力;冗余度是指通過特定檢索途徑獲得的與研究主題不相符的文獻在窮盡檢索數(shù)據(jù)集低相關(guān)文獻中所占的比重,冗余度這一指標反映了特定檢索方式檢索出不相關(guān)文獻的情況。

飽和度這個概念與查全率比較接近,但有區(qū)別。查全率主要是用來衡量在一次檢索中檢索出相關(guān)文獻的能力,和飽和度相比,兩者都是查找檢索出的相關(guān)文獻和窮盡所有相關(guān)文獻之間的比值;但是兩者的區(qū)別是,相對于查全率來說,飽和度更加具有可操作性, 我們能夠通過應用滾雪球或者其他檢索方法識別增加所有相關(guān)的文獻、可以檢索到所有對口徑的文獻并且不再有新文獻被納入時,在一定程度上可以無限接近總文獻中所有相關(guān)文獻量。并且通過引入純凈飽和度和一般飽和度指標能夠體現(xiàn)文獻查找的相關(guān)性,而這一點是查全率做不到的。查全率只能得到相關(guān)文獻的比例,而體現(xiàn)不出文獻相關(guān)程度。 飽和度同時也能進一步體現(xiàn)文獻檢索的準確性(類似查準率),純凈飽和度和一般飽和度反映了特定檢索方式是否能夠準確定位高度相關(guān)研究證據(jù)或中度及中度以上相關(guān)文獻的能力。由此可以看出,飽和度既汲取了查全率中的合理成分,又能更加準確地衡量查準率。

2.2 檢驗邏輯

在數(shù)據(jù)庫中進行基本檢索后,運用滾雪球方法對于參考文獻進行迭代,再繼續(xù)改變檢索方式使用代表性作者檢索迭代,當不再有新的文獻被納入時,就達到了窮盡檢索狀態(tài)。

本研究中,基礎(chǔ)數(shù)據(jù)集的具體構(gòu)建過程為:首先在CNKI 數(shù)據(jù)庫中檢索特定檢索詞,檢索資源范圍選擇總庫,同義詞擴展;時間范圍選擇發(fā)表自特定時間段的數(shù)據(jù)。 運用邏輯運算符OR 來對知網(wǎng)中能選擇的檢索方式進行全面具體的檢索,采用檢索式:(主題=特定檢索詞)OR(全文=特定檢索詞)OR(篇名=特定檢索詞)OR(關(guān)鍵詞=特定檢索詞)OR(摘要=特定檢索詞)。 限定語言為中文;第二步是對于上一步得到的數(shù)據(jù)集進行深入分析、擴充。具體步驟是利用滾雪球法對每篇文獻進行瀏覽,判定文中所提供的研究證據(jù)是否與要檢索的內(nèi)容相關(guān)。如相關(guān),則進一步將其參考文獻的題錄信息導入endnote,并保留其中發(fā)表于特定時間段的中文文獻。 對新補充的文獻重復上述過程,直到不再出現(xiàn)新的文獻為止;第三步是改變檢索方式,采用代表性作者檢索迭代。應用通配符及布爾邏輯運算符,對各檢索項添加和社會認識論有關(guān)的代表性作者進行補充檢索,將新檢索到的文獻增補到數(shù)據(jù)集中。 同時將新檢索到的文獻繼續(xù)利用滾雪球法來增補文獻,不斷重復此過程,直到飽和。 至此,在窮盡狀態(tài)下的總數(shù)據(jù)構(gòu)建完畢。

數(shù)據(jù)集構(gòu)建完畢后,研究者依據(jù)相對應的分級標準判定總數(shù)據(jù)集中的文獻相關(guān)度后,逐次對照主題、題名、關(guān)鍵詞、摘要和全文各單項及組合檢索項與總數(shù)據(jù)集的重合比率,據(jù)此對各分項及各種組合檢索的飽和度做出排序。同時,通過對檢索到無關(guān)文獻的分析,得出冗余度。

3 基于CNKI 的證據(jù)檢索飽和度檢驗

基于CNKI 數(shù)據(jù)庫對證據(jù)檢索的實際情況做出評估檢驗,按照飽和度的檢驗邏輯,進行基本的探索性檢索后,以確定一個文獻數(shù)量比較適合分析,具有鮮明的跨學科特征為檢索詞。本文最終選擇以“社會認識論”為檢索詞。這一檢索詞具有明顯社會科學特征并跨越了哲學、社會學、圖書情報學等多個領(lǐng)域。確定檢索詞后,本文的正式檢索式如下:(主題=社會認識論)OR(全文=社會認識論)OR(篇名=社會認識論)OR(關(guān)鍵詞=社會認識論)OR(摘要=社會認識論),以具有擴檢意義的or 連接各種檢索方式進行系統(tǒng)性檢索。檢索范圍包括CNKI 和其相關(guān)文章的參考文獻列表,檢索時間為發(fā)表于2010 年1 月1 日至2020 年1 月1 日之間的中文文獻。

3.1 參考文獻迭代

首先對基于CNKI 數(shù)據(jù)庫檢索到的1544 篇文獻進行初步清洗去重,去除英文文獻及重復文獻,導入endnote 后共有文獻1529 篇。進而,應用“滾雪球”法對參考文獻進行迭代,以實現(xiàn)對清洗后的數(shù)據(jù)集的補充。 具體過程是:針對檢索到的每篇文獻的標題、摘要、關(guān)鍵詞、參考文獻進行瀏覽,判定文中所提供的研究證據(jù)是否與社會認識論相關(guān)。如相關(guān),則將其相關(guān)文章的參考文獻也納入到endnote 中。由于相關(guān)文章的參考文獻范圍較為廣泛,因此將補充的參考文獻進行全文瀏覽,剔除與社會認識論不相關(guān)文獻后增添到總數(shù)據(jù)集中。

在第一輪滾雪球后,初步共補充文獻358 篇,對358 篇文獻再次進行全文瀏覽,剔除和社會認識論不相關(guān)文獻118 篇,將240 篇文獻導入總的文獻中,有38 篇和總文獻數(shù)據(jù)集中重復,至此第一輪補充文獻202 篇。 基于第一輪202 篇補充文獻,第二輪參考文獻迭代共保留2010 年1 月1 日到2020 年1 月1 日之間的中文文獻50 篇,對保留的50 篇進行全文瀏覽,去除不相關(guān)文獻8 篇,將42 篇補充文獻導入總文獻中, 剔除重復4 篇, 至此, 第二輪補充文獻38篇。繼續(xù)對滾雪球第二輪新增38 篇文獻對每篇文獻的標題、摘要、關(guān)鍵詞、參考文獻進行瀏覽,判斷是否相關(guān)。第三輪共保留2010 年1 月1 日到2020 年1 月1 日之間的中文文獻23 篇,對這23 篇繼續(xù)進行全文瀏覽去除不相關(guān)文獻3 篇,至此第三輪滾雪球共納入20 篇文獻。 繼續(xù)對滾雪球第三輪新增20 篇文獻進行瀏覽,第四輪共保留符合要求的中文文獻9 篇,全文瀏覽后全部相關(guān),導入總文獻數(shù)據(jù)庫后一篇重復,第四輪共納入8 篇。 滾雪球第五輪時補充5 篇全部相關(guān)。滾雪球第六輪時僅找出1 篇,導入總文獻數(shù)據(jù)庫中重復,至此沒有新文獻的產(chǎn)生,參考文獻滾雪球結(jié)束。

參考文獻迭代六輪后總共新增文獻273 篇。 對于目前總文獻數(shù)據(jù)集進行手動檢索,去除同一篇文章在不同期刊發(fā)表的不符合標準的10 篇文章(保留其中書籍和期刊文章同名文獻),再次瀏覽數(shù)據(jù)庫中所有文獻,刪除不符合時間段內(nèi)的3 篇文章,最終納入文獻1789 篇。

3.2 代表性作者迭代

雖然通過上述對參考文獻“滾雪球”的方法,有效提升了文獻數(shù)據(jù)集的完整性,但為確保沒有文獻被遺漏,本文進行對代表性作者進行了補充檢索。具體檢索策略是:應用布爾邏輯運算符,對各檢索項添加和“社會認識論”有關(guān)的代表性作者進行補充檢索,并且文獻檢索時盡可能多的列舉出“社會認識論”的同義詞、近義詞,并用邏輯“or”連接成檢索式。如群體認識論,群體知識論、社會認識論。 將新檢索到的文獻增補到數(shù)據(jù)集中。 并對新補充的文獻進行參考文獻“滾雪球”式迭代,直到飽和。

通過查閱找出系列核心文獻后,進行提取、分類后,找到如下社會認識論領(lǐng)域的代表性作者:卡爾·曼海姆(Karl Mannheim)、瑪格利特·伊麗莎白·伊根(Margaret Elizabeth Egan)、杰西·豪克·謝拉(Jesse Hauk Shera)、斯圖爾特·科享(Stewart Cohen)、哈利·科恩布李斯(Hilary Kornblith)、弗里德利科F.施密特(Frederick F. Schmitt)、肯斯·賴諾爾(Keith Lehter)、艾文·高曼(Alvin Goldman)、史蒂夫·富勒(Steve Fuller)、瑪格瑞特·吉爾伯特(Margaret Gilbert)。 本文分別用以上作者中英文名字展開檢索。如瑪格利特·伊麗莎白·伊根的檢索式如下:

中文檢索式:((SU=(' 社會'+' 群體')* (' 認識論'+' 知識論')OR TKA=(' 社會'+' 群體')*(' 認識論'+' 知識論')OR TI=(' 社會'+' 群體')*(' 認識論'+' 知識論'))and(SU=' 瑪格利特' OR TI=' 瑪格利特'OR TKA=' 瑪格利特'OR FT=' 瑪格利特'OR CO='瑪格利特'OR RF='瑪格利特')

英文檢索式:((SU=(' 社會'+' 群體')* (' 認識論'+' 知識論')OR TKA=(' 社會'+' 群體')*(' 認識論'+' 知識論')OR TI=(' 社會'+' 群體')*(' 認識論'+' 知識論'))and (SU='Margaret Elizabeth Egan'OR TI ='Margaret Elizabeth Egan' OR TKA ='Margaret Elizabeth Egan'OR FT='Margaret Elizabeth Egan' OR CO ='Margaret Elizabeth Egan' OR RF ='Margaret Elizabeth Egan')

添加代表性作者檢索后,初次檢索到142 篇,在總文獻數(shù)據(jù)庫中去除重復73 篇,對剩下的69 篇文獻再次進行全文閱讀去除不相關(guān)14 篇,初次檢索共得到55 篇相關(guān)文獻。 對于得到的55 篇相關(guān)文獻繼續(xù)進行第一步參考文獻迭代。對這55 篇文獻每篇的標題、摘要、關(guān)鍵詞、參考文獻進行瀏覽,判定文中所提供的研究證據(jù)是否與社會認識論相關(guān)。如相關(guān),保留其參考文獻。 通過“滾雪球”,第一輪共補充文獻23 篇,對補充的23 篇文獻再次進行全文瀏覽,剔除與社會認識論不相關(guān)文獻10 篇。 至此第一輪“滾雪球”結(jié)束,共納入13 篇補充文獻。

將第一輪納入的13 篇文獻的標題、摘要、關(guān)鍵詞、參考文獻進行瀏覽判定后,第二輪“滾雪球”共補充文獻5 篇,導入總庫后有1 篇重復,第二輪納入4篇補充文獻。以同樣的方法對數(shù)據(jù)集進行擴充,第三輪新納入4 篇補充文獻,第四輪新納入1 篇,第五輪新納入0 篇。 基于代表性作者的“滾雪球”結(jié)束。

最終,本文使用代表性作者檢索方式共新增文獻77 篇,納入到總文獻數(shù)據(jù)集中有10 篇重復(不同期刊發(fā)表的同一篇文章,報紙偏多),最終總文獻數(shù)據(jù)集中有1856 篇。 此時,通過兩種方式的檢索,研究者確認,針對“社會認識論”的檢索已達到了窮盡狀態(tài)。

4 窮盡檢索文獻證據(jù)數(shù)據(jù)集的相關(guān)度分級

基于前述檢索過程,本文已構(gòu)建了一個窮盡檢索的“社會認識論”文獻數(shù)據(jù)集。 這一數(shù)據(jù)集中的文獻既包括通過改變檢索式檢索到的文獻,也包括和社會認識論有關(guān)的作者所發(fā)表的相關(guān)文獻。然而,盡管上述檢索是針對“社會認識論”而展開的,但總數(shù)據(jù)集中文獻與“社會認識論”的相關(guān)性必然有高低之分。 如(主題=社會認識論)OR(全文=社會認識論)OR(篇名=社會認識論)OR(關(guān)鍵詞=社會認識論)OR (摘要=社會認識論)檢索式能檢索出在全篇文章中出現(xiàn)過“社會認識論”一詞的文獻,但這篇文獻內(nèi)容卻與“社會認識論”可能沒有關(guān)系。 這一類文章不是我們所需要的,卻被檢索了出來。 因此,本文依據(jù)所構(gòu)建的文獻相關(guān)度分級標準(見表1),對于總文獻數(shù)據(jù)集中1856 篇文獻與“社會認識論”的相關(guān)度進行判定,實現(xiàn)了對總數(shù)據(jù)中文獻進行相關(guān)度分級的目標。

表1 文獻相關(guān)度分級標準

依據(jù)上述分級標準,由兩名研究者背對背對總數(shù)據(jù)集中的全部文獻進行全文閱讀,并分別從高度相關(guān)、中度相關(guān)和低度相關(guān)三個層次判定每一篇文獻與“社會認識論”的相關(guān)程度。

經(jīng)過初級分級評判,兩名研究者判定一致的文獻有1559 篇,其中53 篇為高度相關(guān),148 篇為中度相關(guān),1358 篇為低度相關(guān)。 對于剩余298 篇判斷不一致的文獻,兩人在進行第一輪討論后重新進行判定,形成一致結(jié)果。其中,123 篇低相關(guān),105 篇中相關(guān),22 篇高相關(guān)。剩下48 篇兩名研究者的判斷仍然存在分歧,為此,邀請了本領(lǐng)域?qū)<覅⑴c第二輪討論,與兩名研究者共同判定剩下的48 篇中4 篇為低相關(guān),16 篇為中相關(guān),28 篇為高相關(guān)。最終,本研究共確定103 篇高相關(guān)文獻,269 篇中相關(guān)文獻,1484 篇低相關(guān)文獻。

至此,文獻的檢索與分級全面完成。本階段所構(gòu)建的數(shù)據(jù)集就文獻數(shù)量而言,實現(xiàn)了對CNKI 中十年來文獻的窮盡檢索,為評價查全率及相關(guān)指標提供了參照;從分級情況看,通過研究者的分類分析判斷,實現(xiàn)了對文獻相關(guān)程度的評判,為評價查準率等相關(guān)指標打下了基礎(chǔ)。本項目后續(xù)研究的展開,正是基于這樣一個窮盡檢索且具有明確分級標準的文獻數(shù)據(jù)集展開。

5 結(jié)語

本文基于循證視角,提出了文獻證據(jù)檢索的飽和度與冗余度,并對其相關(guān)的理論特征進行了描述。基于這種理論界定,本文構(gòu)建了一個基礎(chǔ)數(shù)據(jù)。

從文獻證據(jù)檢索基本理論的角度看:一方面,無論是證據(jù)轉(zhuǎn)化還是檢索評價,這些都離不開檢索的質(zhì)量。 但衡量文獻信息檢索效果的傳統(tǒng)指標——查全率與查準率,存在諸多問題。如查全率無法精確測量,只能得到一個估計值,而查準率則很有可能會去除大量本應該相關(guān)的文獻,從而導致研究發(fā)表偏倚。進而,查全率和查準率存在互逆趨勢,因此無法同時優(yōu)化。 凡此種種都表明,循證研究中,查全率和查準率并非文獻證據(jù)檢索的最佳指標。著眼于此,本文提出了飽和度和冗余度這對評價指標。 飽和度和查全率相比更加具有可操作性。具體而言,本文通過改變各種檢索方法及“滾雪球”等方面,識別增加所有相關(guān)的文獻,達到了窮盡檢索的目標。為進一步細分數(shù)據(jù)分析,本文區(qū)別了“純凈飽和度”和“一般飽和度”,用來體現(xiàn)所檢索到文獻的相關(guān)性。此外,本研究提出冗余度指標,用來反映不同檢索方式檢索出不相關(guān)文獻的情況??傊?,通過飽和度和冗余度這對評價指標,能夠更好的衡量文獻檢索的質(zhì)量和效率。

基礎(chǔ)數(shù)據(jù)集的構(gòu)建方面,本文首先在數(shù)據(jù)庫中進行基本檢索后,運用“滾雪球”的方法對參考文獻進行數(shù)輪迭代。進而,使用代表性作者進行補充檢索和迭代,確保達到窮盡檢索狀態(tài)。 同時,本文通過相應的分級標準對總數(shù)據(jù)集中文獻進行相關(guān)度分級,為下一步計算飽和度和冗余度提供了完善的數(shù)據(jù)基礎(chǔ)。 后續(xù)研究將在本文所述的基本理論和基礎(chǔ)數(shù)據(jù)之上展開。

革吉县| 达孜县| 龙陵县| 原平市| 宝丰县| 离岛区| 嘉峪关市| 阜新| 大方县| 日土县| 灌云县| 镇江市| 紫阳县| 鄂州市| 崇明县| 娄底市| 通渭县| 盐山县| 曲阜市| 富蕴县| 淮安市| 左云县| 怀远县| 苏尼特右旗| 马边| 伽师县| 池州市| 牡丹江市| 井冈山市| 镇远县| 永兴县| 贵溪市| 三河市| 娄底市| 台江县| 陇川县| 东山县| 沾益县| 互助| 南乐县| 唐河县|