国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“雙一流”學(xué)科建設(shè)評估體系初探
——基于學(xué)術(shù)表現(xiàn)的綜合評估指數(shù)構(gòu)建

2019-01-17 02:09:58王文軍洪巖璧馬宇超
關(guān)鍵詞:貝葉斯雙一流學(xué)術(shù)

王文軍,洪巖璧,袁 翀,馬宇超

(1.南京大學(xué) 中國社會科學(xué)研究評價中心,江蘇南京210093;2.東南大學(xué) 人文學(xué)院,江蘇南京210096)

2015年國務(wù)院頒布《統(tǒng)籌推進世界一流大學(xué)和一流學(xué)科建設(shè)總體方案》,明確提出要“建立激勵約束機制,鼓勵公平競爭,強化目標管理,突出建設(shè)實效,構(gòu)建完善中國特色的世界一流大學(xué)和一流學(xué)科評價體系,充分激發(fā)高校內(nèi)生動力和發(fā)展活力,引導(dǎo)高等學(xué)校不斷提升辦學(xué)水平?!边@說明學(xué)科評估能夠引導(dǎo)高校的發(fā)展,對于建設(shè)一流大學(xué)和一流學(xué)科具有重要作用。隨后在2017年國務(wù)院又頒布了《統(tǒng)籌推進世界一流大學(xué)和一流學(xué)科建設(shè)實施辦法(暫行)》,強調(diào)要“以中國特色學(xué)科評價為主要依據(jù),參考國際相關(guān)評價因素,綜合高校辦學(xué)條件、學(xué)科水平、辦學(xué)質(zhì)量、主要貢獻、國際影響力等情況,以及高校主管部門意見,論證確定一流大學(xué)和一流學(xué)科建設(shè)高校的認定標準?!盵1]這進一步明確了學(xué)科評價在一流學(xué)科建設(shè)中的重要作用。學(xué)科評估作為高等教育領(lǐng)域中教育評價的延伸范疇,其理論基礎(chǔ)和實現(xiàn)方法隨著學(xué)科評估發(fā)展而不斷拓展,其理論基礎(chǔ)源于教育評價但又不完全依賴于教育評價理論[2]。學(xué)科評估更加重視集評價方法的客觀性與價值判斷的主觀性于一體,以及用來反映學(xué)科質(zhì)量水平的可量化數(shù)據(jù),其基本特征是強調(diào)效率和效益,注重結(jié)果和產(chǎn)出[3]。因此,本研究擬對當前在高等教育研究領(lǐng)域具有較大影響的七大學(xué)科評估體系進行梳理,觀察這些學(xué)科評估體系中有關(guān)學(xué)術(shù)表現(xiàn)的指標選擇和構(gòu)建者的價值期望,以學(xué)術(shù)表現(xiàn)為切入點,引入項目反應(yīng)理論,運用貝葉斯估計建構(gòu)基于學(xué)術(shù)表現(xiàn)的綜合評估指數(shù),為我國人文社會科學(xué)類一流學(xué)科建設(shè)提供一個新的觀測視角。

一、現(xiàn)狀與問題

目前國內(nèi)具有較大影響的學(xué)科評估體系依據(jù)評價主體和評價目的的不同,主要分為兩大類:一類評估依托第三方機構(gòu)以整體評估為主要目的,這類評估體系主要有:教育部學(xué)位與研究生教育發(fā)展中心一級學(xué)科整體評估、英國科研評估、美國博士點評估。另一類依托商業(yè)公司,以形成學(xué)科排行榜為目的,這類評估體系主要有:上海軟科世界一流學(xué)科排名、泰晤士高等教育(THE)世界大學(xué)學(xué)科排名、夸夸雷利·西蒙茲(QS)世界大學(xué)學(xué)科排名、美國新聞和世界報導(dǎo)(U.S. News)全球大學(xué)學(xué)科排名*下文出現(xiàn)夸夸雷利·西蒙茲(QS)世界大學(xué)學(xué)科排名、泰晤士高等教育(THE)世界大學(xué)學(xué)科排名、美國新聞和世界報導(dǎo)(U.S. News)全球大學(xué)學(xué)科排名時,將使用括號中英文縮寫,不再使用中文全稱。。

(一)由第三方機構(gòu)主導(dǎo)的整體評估

(1)教育部學(xué)位中心一級學(xué)科整體評估

這是教育部學(xué)位與研究生教育發(fā)展中心以第三方形式開展的非行政性、服務(wù)性評估項目。這一評估從2002年開始,已經(jīng)進行了四輪,最新一輪學(xué)科評估于2017年完成。該項評估覆蓋學(xué)科范圍廣,指標體系全面,評價周期長,具有較高的權(quán)威性。其主要指標有:師資隊伍與資源、人才培養(yǎng)、科學(xué)研究水平、社會服務(wù)與社會聲譽。數(shù)據(jù)來源主要有三:學(xué)校填報、問卷調(diào)查、公開數(shù)據(jù)。與學(xué)術(shù)表現(xiàn)有關(guān)的指標——“科學(xué)研究水平”,主要考察“學(xué)術(shù)論文質(zhì)量”“專著專利”“出版教材”“科研獲獎”和“科研項目”。其中,“學(xué)術(shù)論文質(zhì)量”包含“A類期刊發(fā)表論文”和“代表性論文”同行評議兩個方面;同時要求代表性論文須包含一定比例的國內(nèi)期刊(特別是哲學(xué)社會科學(xué)學(xué)科),以鼓勵優(yōu)秀成果優(yōu)先在國內(nèi)期刊發(fā)表[4]。由此可見,其主要通過學(xué)術(shù)成果的產(chǎn)出體現(xiàn)學(xué)科科研水平。

(2)英國科研評估

英國科研評估是由英格蘭高等教育資助委員會(HEFCE)、蘇格蘭資助委員會(SFC)、威爾士高等教育資助委員會(HEFCW)和北愛爾蘭就業(yè)和學(xué)習(xí)部(DEL)聯(lián)合進行的[5]。這項評估迄今為止已經(jīng)開展了7次。2014年英國高??蒲性u估工作(Research Assessment Exercise, 簡稱RAE)被科研卓越框架(Research Excellence Framework, 簡稱REF)所取代。這一體系一直以來依靠同行評估的方法,由專家針對學(xué)科情況給出等級判斷。然而,REF在2014年也引入了量化數(shù)據(jù),但僅供同行專家作為評估參考,暫未作為評估的主要工具[6]。

(3)美國博士點評估

美國博士點評估是由美國研究理事會(NRC)組織的博士點評估,側(cè)重評估人才培養(yǎng),分別于1982年、1995年和2006年開展了3次。這項評估因其評價的權(quán)威性、評估過程的專業(yè)化和評估方法的客觀性,被美國學(xué)界公認為最具權(quán)威的科學(xué)排名,是研究生學(xué)科點質(zhì)量評估中“最全面、最可靠”的評估[7]。

(二)由商業(yè)機構(gòu)主導(dǎo)的學(xué)科排名評估

(1)上海軟科世界一流學(xué)科排名

上海軟科教育信息咨詢有限公司成立于2009年,其前身為上海交通大學(xué)世界大學(xué)學(xué)術(shù)排名,是國內(nèi)較早推出“世界大學(xué)學(xué)術(shù)排名”的機構(gòu)。軟科旗下“最好大學(xué)網(wǎng)”每年都會發(fā)布“世界大學(xué)學(xué)術(shù)排名”“中國最好大學(xué)排名”“世界一流學(xué)科排名”等榜單。這一評估體系依賴客觀數(shù)據(jù),具有指標體系公開、透明的特色。主要指標有:論文總數(shù)、論文標準化影響力、教師獲權(quán)威獎項數(shù)、國際合作論文比例、頂尖期刊論文數(shù),其數(shù)據(jù)源為Web of Science和InCites數(shù)據(jù)庫[8]。

(2)泰晤士高等教育(THE)世界大學(xué)學(xué)科排名

THE世界大學(xué)學(xué)科排名是由《泰晤士高等教育》報每年發(fā)布的各學(xué)科領(lǐng)域世界高校排行榜。這一評估具有指標設(shè)置較為全面、重視學(xué)術(shù)科研能力的特色。主要指標有:教學(xué)、研究、論文引用率(學(xué)術(shù)影響)、產(chǎn)業(yè)收入、國際化程度。數(shù)據(jù)源為公開數(shù)據(jù)、學(xué)校填報、問卷調(diào)查以及愛思唯爾的Scopus數(shù)據(jù)庫[9]。

(3)QS世界大學(xué)學(xué)科排名

QS世界大學(xué)學(xué)科排名是由英國QS國際高等教育研究機構(gòu)于2012年開始,每年發(fā)布的一個各學(xué)科領(lǐng)域世界前200名院校的排行榜。這一評估具有重視社會聲譽、覆蓋學(xué)科范圍廣的特色。主要指標有:學(xué)術(shù)聲譽、雇主評價、平均每篇論文被引數(shù)、H指數(shù)。數(shù)據(jù)源為問卷調(diào)查和愛思唯爾的Scopus數(shù)據(jù)庫[10]。

(4)U.S. News全球大學(xué)學(xué)科排名

U.S.News世界大學(xué)排名是美國《美國新聞與世界報道》(U.S. News & World Report)于2014年開始每年發(fā)布的世界大學(xué)排行榜。該排行榜重視學(xué)術(shù)科研能力,主要依賴于客觀數(shù)據(jù)。其主要指標有:全球研究聲譽、區(qū)域研究聲譽、國際合作、國際合作論文占比、專著、學(xué)術(shù)論文、會議論文、標準化引用影響力、總被引頻次、被引次數(shù)前10%論文數(shù)量、被引次數(shù)前10%論文占比、在各自領(lǐng)域中被引次數(shù)前1%的高被引論文數(shù)量、在所有學(xué)術(shù)論文中被引頻次前1%的高被引論文占比。數(shù)據(jù)來自問卷調(diào)查以及InCites數(shù)據(jù)庫[11]。

將以上7個評估體系中有關(guān)學(xué)術(shù)表現(xiàn)的指標進行整理,得到表1。

表1 國內(nèi)外主要學(xué)科評估體系中有關(guān)“學(xué)術(shù)表現(xiàn)”的主要指標

① http://www.rae.ac.uk

通過對上述學(xué)科評估體系的梳理,不難發(fā)現(xiàn):(1)在評價目的上,由第三方機構(gòu)形成的整體評估更多地為國家服務(wù)。英國科研卓越框架與政府對大學(xué)的撥款直接相關(guān),美國博士點評估與中國教育部的一級學(xué)科整體評估雖然與政府撥款無關(guān),但也為政府了解高校發(fā)展狀況服務(wù)。而由商業(yè)機構(gòu)形成的學(xué)科排名評估則更多地為社會服務(wù),主要目的是為學(xué)生和家長選擇專業(yè)和高等學(xué)校提供參考。(2)在評價周期上,由第三方機構(gòu)形成的整體評估周期較長,而由商業(yè)機構(gòu)形成的學(xué)科排名則一年一榜。據(jù)悉,英國學(xué)科評估將于2021年發(fā)布最新的評估結(jié)果,其從啟動到結(jié)果發(fā)布大約需要3-4年,大約有2年時間用于方案和指標的研究。目前已經(jīng)可以通過其官方網(wǎng)站了解到各項方案制定、指標測算的草案。我國教育部第四輪學(xué)科評估已于2017年正式公布,下一輪學(xué)科評估預(yù)計將于2020年啟動。(3)在量化數(shù)據(jù)源的選擇上,上述學(xué)科評估指標體系的數(shù)據(jù)主要來自第三方數(shù)據(jù)源,如SCI、SSCI、ESI、Scopus等數(shù)據(jù)庫。筆者認為,面向中國的學(xué)科評估應(yīng)該更多依托本土原創(chuàng)數(shù)據(jù)源。尤其是人文社會科學(xué)研究本土化的特性,僅考慮國外數(shù)據(jù)庫的收錄情況,會使得該指標的區(qū)分度較低。對于人文社會科學(xué)而言,僅考慮論文的發(fā)表情況,對于以學(xué)術(shù)圖書、研究報告等為發(fā)表載體的學(xué)術(shù)成果會有所疏漏,不利于學(xué)術(shù)表現(xiàn)的完整性評估。(4)在具體評估指標的選擇上,目前的趨勢是由規(guī)模化指標轉(zhuǎn)向人均指標、比例指標,由共線性指標向獨立性指標轉(zhuǎn)變,由非連續(xù)性數(shù)據(jù)向連續(xù)性數(shù)據(jù)轉(zhuǎn)變[12]。本研究在具體評估指標的遴選上參考研究趨勢進行了篩選,較多選用人均指標和比例指標,比如在高端論文、一般論文等指標中均加入了人均與總量兩個下級指標;盡量避免共線性問題,避免指標的重復(fù)計算,比如在人力資源指標下設(shè)置的三個二級指標分別反映學(xué)科的規(guī)模、活躍程度以及學(xué)術(shù)聲譽三個不同方面,具有一定的區(qū)分度。

為了進一步提升學(xué)科評估的科學(xué)性,本研究引入了項目反應(yīng)理論視角,并運用貝葉斯方法進行具體的估計。相比于以往的簡單因子分析和加權(quán)均值,該方法的優(yōu)勢在于考慮了指標建構(gòu)中的各種不確定性。在提出學(xué)術(shù)表現(xiàn)綜合評價指標體系后,本文通過哲學(xué)學(xué)科的部分指標數(shù)據(jù)完成一個簡化實證分析。

二、理論與模型

(一)項目反應(yīng)理論

社會科學(xué)領(lǐng)域的變量可以分成兩類,一是顯變量(manifest variable),可以直接觀測到;二是潛變量(latent variable),即觀察者無法直接觀察到的變量,有些學(xué)者把它定義為無法僅僅通過顯變量的函數(shù)進行表達的變量[13],如人的態(tài)度、心理特質(zhì)等都屬于潛變量。

針對潛變量的測量主要有兩個理論視角:經(jīng)典測量理論和項目反應(yīng)理論。經(jīng)典測量理論(classical test theory,CTT)源于智力測驗編制和分析,其基本思想是把觀察得分看作真分數(shù)(潛在特質(zhì))和誤差分數(shù)的線性組合,可歸結(jié)為如下模型:X=T+e。其中X是觀察得分,T是真分數(shù),e是誤差分。如在智力測試中,對于一個特定題器的回答不僅反映了一般性智力,也反映了該題器的內(nèi)容,分別被稱為公共因子和特殊因子[13]。經(jīng)典測量理論的不足在于:依據(jù)其項目分析法所得的項目統(tǒng)計量受樣本的抽樣變動影響大;被試者的測驗分數(shù)依賴于項目的難度,使得進行不同測驗的被試者相互間難以比較;假設(shè)所有被試者的測量標準誤差都相同[14]。鑒于此,項目反應(yīng)理論逐漸興起。

項目反應(yīng)理論(Item Response Theory, 以下簡稱“IRT”)又稱題目反應(yīng)理論、潛在特質(zhì)理論,目標是確定潛在心理特征是否可以通過測試題被反應(yīng)出來,以及測試題和被測試者之間的互動關(guān)系。以測試為例,就是依據(jù)被試在各個項目上的實際作答反應(yīng)結(jié)果,經(jīng)數(shù)學(xué)模型的運算,統(tǒng)一估計出被試的能力水平或潛在心理特質(zhì)水平,以及項目的計量學(xué)參數(shù)。描述被試能力水平、項目參數(shù)與項目作答結(jié)果之間關(guān)系的數(shù)學(xué)模型稱為項目特征函數(shù)(item characteristic function, ICF)。常見模型有單參數(shù)(1-PL,也被成為Rasch模型)、雙參數(shù)(2-PL)與三參數(shù)(3-PL)模型,三參數(shù)模型的表達式如下:

(1)

模型中,D為常數(shù),通常取值為1或者1.7;θ為受測者的能力值。另外有三個參數(shù)a、b、c。參數(shù)a為題目區(qū)分度或因子負荷,表明題目在擁有不同能力被試者間的區(qū)別有多好,即高θ值和低θ值在某題目上都答對的概率。參數(shù)b為題目難度,是被試者能力確定情況下答對某題目的可能性。參數(shù)c一般稱為“猜測參數(shù)”,其直觀意義為:當一個被試者的能力值非常低(比如接近負無窮),但仍然能做對這道題目的概率。模型整體則表示,能力值為θ的被試者,在難度為b的題目上的答對概率。可見,項目反應(yīng)理論同時評估考察被試者和試題。

項目反應(yīng)理論模型有以下幾個假設(shè)前提:一維性,即被測項目僅取決于一種能力,其他能力的影響較小,可以忽略;局部獨立,被試者在回答該項目時不受其他項目影響;潛在特質(zhì)維度與模型契合。在這樣的強假設(shè)前提下,相較于經(jīng)典測量理論,項目反應(yīng)理論具有以下三個突出優(yōu)點:參數(shù)的估計不因樣本不同而不同;被試者能力的估計不因測驗改變而改變;可以針對不同被試對象估計每個項目及測驗的測量誤差[15]。鑒于統(tǒng)計上的優(yōu)越性,項目反應(yīng)理論也逐漸從心理測量的研究走向其他學(xué)科領(lǐng)域。

(二)項目反應(yīng)模型的應(yīng)用

IRT是以潛在特質(zhì)論為基礎(chǔ)的測量理論,特質(zhì)是指被試者具有某種穩(wěn)定的、支配其對相應(yīng)的測驗項目做出反應(yīng),并對反應(yīng)表現(xiàn)出一致的內(nèi)在特征,由于特質(zhì)不能被直接觀察到,因此稱為潛在特質(zhì)。其在心理學(xué)測量和教育測試中應(yīng)用最為廣泛,如在教育測試領(lǐng)域中,研究者利用雙參數(shù)或三參數(shù)模型分析了不同地區(qū)學(xué)生數(shù)學(xué)成績、語文選擇題的建構(gòu)[16-17]。在試題或試卷評判方面,與經(jīng)典測試理論相比,項目反應(yīng)理論模型可以反映試題信息量,代替?zhèn)鹘y(tǒng)信度作為評定內(nèi)部一致性的指針;并且能根據(jù)各項目在臨界分數(shù)附近的信息量,達到以最少題目達到所需的測量精確度[18]。

經(jīng)濟學(xué)、社會學(xué)等學(xué)科也開始應(yīng)用項目反應(yīng)理論來探討測量問題,如民意調(diào)查問卷設(shè)計[19]。Hoyland等利用項目反應(yīng)原理對幾個國際指數(shù)排名進行了分析,他們以各國在特定指數(shù)的二級指標上排名的差異作為測量不確定性(uncertainty)的代理變量,指出如果考慮不確定性,那么以往的這類排名就存在誤導(dǎo)性[20]。在企業(yè)社會責任測量中,應(yīng)用項目反應(yīng)理論得到的指數(shù)比以往的直接加總指數(shù)和因子得分指數(shù)能更好的反映實際情況[21-22]。胡安寧則將該理論應(yīng)用于對差序格局的測量,主要以單參數(shù)或雙參數(shù)模型確定個體對于不同對象的信任容易程度,即差序格局中的“差”(模型中的項目難度參數(shù)b);并且利用2010中國綜合社會調(diào)查中一組信任問題,展示了項目反應(yīng)理論下差序格局測量方案的解釋力[23]。

由此可見,項目反應(yīng)理論適用于社會科學(xué)各領(lǐng)域的測量與評估??蒲袡C構(gòu)排名本質(zhì)也是采用不同維度指標來測量機構(gòu)的科研學(xué)術(shù)能力??蒲心芰κ菨撛陔y以直接觀測到的變量,但可以通過發(fā)表文章數(shù)、權(quán)威論文數(shù)、被引用數(shù)量等指標體現(xiàn)出來。接下來將首先介紹本研究嘗試建構(gòu)的一個科研機構(gòu)學(xué)術(shù)表現(xiàn)綜合評價指標體系,然后運用貝葉斯方法來實現(xiàn)具體的估計。

三、指標與構(gòu)建

學(xué)術(shù)表現(xiàn)(Academic performance) 是一所大學(xué)或者科研機構(gòu)在人力資源、學(xué)術(shù)生產(chǎn)、學(xué)術(shù)影響等方面綜合能力的反映。本研究正是基于這一視角深度挖掘?qū)W術(shù)出版數(shù)據(jù),為建立以創(chuàng)新、質(zhì)量、貢獻為導(dǎo)向的科學(xué)研究評價體系提供多維度的客觀數(shù)據(jù)。堅持以創(chuàng)新、質(zhì)量、貢獻為導(dǎo)向,圍繞多維度展示學(xué)術(shù)表現(xiàn)的原則,遴選測量指標、設(shè)計指標體系。在指標選擇上,注重量化指標與評價目的相匹配;在客觀數(shù)據(jù)的選擇上,注重客觀指標的本土化特征,強調(diào)客觀數(shù)據(jù)的公信力和可靠性;在學(xué)術(shù)出版數(shù)據(jù)的采集中,將包括論文、著作、工具書、研究報告等多種類型的學(xué)術(shù)成果都納入統(tǒng)計視野。

表2所示的 “中文學(xué)科綜合評估指數(shù)(CSCEI)”擬從學(xué)科研究和發(fā)展的三個角度評估學(xué)科研究現(xiàn)狀,影響力情況及未來發(fā)展,力爭較為全面地反映某一個機構(gòu)的綜合學(xué)術(shù)水平。初步設(shè)計的中文學(xué)科綜合評估指數(shù)體系(CSCEI)由三個一級指標(人力資源、研究能力、影響水平)及一個系數(shù)指標構(gòu)成。

表2 中文學(xué)科綜合評估指數(shù)(CSCEI)

人力資源一級指標由三個二級指標構(gòu)成:隊伍規(guī)模、活躍程度、學(xué)術(shù)聲譽。隊伍規(guī)模指標反映了各機構(gòu)分學(xué)科的學(xué)術(shù)人口總數(shù);活躍程度指標關(guān)注各類學(xué)術(shù)成果的學(xué)術(shù)人口數(shù)量;學(xué)術(shù)聲譽則著重考察各機構(gòu)在各類學(xué)術(shù)組織、重要學(xué)術(shù)期刊、重要學(xué)術(shù)獎項等方面的占有狀況。

研究能力一級指標由六個二級指標構(gòu)成:高端論文、學(xué)術(shù)論文、學(xué)術(shù)著作、研究報告、工具書、數(shù)據(jù)庫、主辦連續(xù)出版物等。高端論文指標是指本學(xué)科重要期刊上發(fā)表論文總數(shù)以及人均數(shù)量;論文指標由CSSCI數(shù)據(jù)庫中收錄的論文總數(shù)和人均數(shù)量構(gòu)成;學(xué)術(shù)著作指標是統(tǒng)計時段學(xué)術(shù)著作出版數(shù)量;研究報告指標是統(tǒng)計時段公開出版的研究報告數(shù)量;工具書(包括資料集)是指這一類型的公開出版物;主辦連續(xù)出版物的情況是指各機構(gòu)主辦期刊的情況。

影響水平一級指標由七個二級指標構(gòu)成:當年被引篇次、當年被引率、篇均被引、分層引用、高被引作者數(shù)、HCP(高影響)論文數(shù)、被引著作數(shù)。其中當年被引篇次指標由論文在當年被引篇次決定;當年被引率指標由論文在當年被引率決定;篇均被引指標由被引論文篇均被引數(shù)決定;分層引用指標由期刊的分層引用情況決定;高被引作者數(shù)指標由相關(guān)學(xué)科領(lǐng)域被引數(shù)前100位的學(xué)者人數(shù)決定;HCP論文數(shù)指標由各學(xué)科被收錄的高被引論文數(shù)決定;被引著作數(shù)指標由出版的著作被引用數(shù)決定。

統(tǒng)計指標時間窗的選擇可以根據(jù)評價實際需要進行調(diào)整。例如,在需要進行短時段評估時,可以選擇當年或近三年的數(shù)據(jù),在需要進行長時段評估時,可以選擇近十年、甚至二十年的較長時段數(shù)據(jù)。

四、測量與模型

項目反應(yīng)理論中相關(guān)參數(shù)的估計有多種方法,貝葉斯估計是其中一種。貝葉斯分析允許不同來源的不確定性,所以其估計結(jié)果也更為保守,也即不確定性更強[24]。本文將參照Hoyland等人提出的方法來建構(gòu)學(xué)術(shù)綜合評價指數(shù)排名[25]。假定某學(xué)校某學(xué)科i的學(xué)術(shù)水平為fi,而觀測到的結(jié)果或指標為xij,其中j表示不同的觀測指標。筆者認為這些觀測指標xij能夠反映潛在的、無法觀測到的某學(xué)科的科研學(xué)術(shù)水平fi。兩者之間的關(guān)系如下:

xij=αj+βjfi+εij,var(εij)=σεj2

(2)

其中βj測量了指標j對不同學(xué)校學(xué)術(shù)水平fi的區(qū)分度或貢獻度。以往的排名指數(shù)建構(gòu)有一個內(nèi)涵的假定,即所有觀察指標對于不同學(xué)??蒲兴降膮^(qū)別度是一樣,這可能是有問題的。以項目反應(yīng)理論思想為基礎(chǔ),筆者利用手頭可獲得的數(shù)據(jù),通過貝葉斯方法來估計出不同觀測指標的區(qū)分度βj,也即上文項目反應(yīng)理論中的題目區(qū)分度參數(shù)a。

不同于以往的方程和統(tǒng)計模型,因為方程(2)右邊的參數(shù)和變量都是未知的,我們只知道左邊的xij。因為“自變量”fi并未被觀測到, 所以無法以通常的OLS回歸來進行估計。為了使模型可識別,需要對不同學(xué)??蒲兴?f)的分布結(jié)構(gòu)有所假定。由于我們關(guān)心的是不同學(xué)校之間科研水平的相對位置,并不存在一個像身高這樣的客觀尺度,因此可以假定該分布服從均值為0,標準差為1的正態(tài)分布。如不考慮同一組別內(nèi)部的二級指標之間可能存在的相關(guān),那么方程(2)的誤差項εij就是隨機誤差項。

我們需要估計p(θ|x),其中θ=α+β+σ+f,換言之,根據(jù)已有數(shù)據(jù)估計未知的參數(shù)和潛變量f。根據(jù)貝葉斯定理,p(θ|x)=[p(x|θ)p(θ)]/p(x),即后驗概率分布等于先驗概率分布p(θ)乘以該假設(shè)下得到這一數(shù)據(jù)的概率(似然度)p(x|θ),再除以任一假設(shè)下得到這一數(shù)據(jù)的概率(標準化常量)p(x)[26]。對先驗概率分布采用擴散先驗設(shè)置,對參數(shù)的取值不做任何限定,所以參數(shù)的識別僅取決于似然度,而似然度來自我們的方程(2)的設(shè)置。fi的起始值設(shè)定為因子分析計算得到的Bartlett分數(shù),βj的起始值為xj對Bartlett分數(shù)的OLS回歸,其他的起始值都由軟件隨機設(shè)定。本文使用R軟件中R2jags進行貝葉斯估計。

五、例證與分析

基于中文學(xué)科綜合評估指數(shù)體系(CSCEI),運用貝葉斯估計的方法,對哲學(xué)學(xué)科的數(shù)據(jù)進行了簡化的實證分析。采用了如下8個指標來測量哲學(xué)學(xué)科學(xué)術(shù)綜合能力:(1)2015—2017年CSSCI期刊論文發(fā)表合計;(2)2015-2017年在C100期刊論文發(fā)表數(shù)量占C刊論文總量的比例;(3)教師總?cè)丝跀?shù);(4)活動人口比例;(5)2007-2016年C刊哲學(xué)論文被引比率;(6)2007-2016年被C100期刊引用比率;(7)機構(gòu)占有哲學(xué)HCP高被引作者數(shù)量;(8)機構(gòu)在本學(xué)科頂級期刊發(fā)表論文數(shù)量(2015-2017)。貝葉斯分析結(jié)果如表3和表4所示。

表3 哲學(xué)學(xué)科學(xué)術(shù)綜合能力的貝葉斯估計結(jié)果及與學(xué)科評估等級比較

貝葉斯分析出了各個學(xué)校哲學(xué)學(xué)科的潛在學(xué)術(shù)綜合能力得分點估計值,同時也給出了95%的最高密度區(qū)間(簡稱HDI,表示區(qū)間內(nèi)的估計值概率和為95%,區(qū)間內(nèi)的估計值可信度更高)。表3第二列是貝葉斯的點估計值,第四列是按照該點估計值得到的排名。[注]下述討論皆根據(jù)上文中所列的8個指標進行的分析,本文旨在提供一種看待學(xué)科評估排名的視角,而非提供一種完全不同的排名體系,因而不過多討論所納入的8個指標是否合適或足夠。第三列是貝葉斯估計值的HDI(95%),這是貝葉斯估計的優(yōu)勢所在,即考慮了不同指標之間存在的不一致性(測量誤差),從而估計最終指數(shù)的不確定性。由于貝葉斯估計容納不同來源的不確定性,因此其估計也更為保守,這從不同等級的學(xué)校存在較大的重合HDI中可見一斑。[注]如果兩個得分的HDI存在重合部分,說明有較大的可能性這兩個得分的估計值會落在重合部分,也即兩個得分相同。這對于排名具有重要意義,因為有助于了解不同學(xué)校指數(shù)得分之間的差異是否顯著。譬如,U1和U2雖然點估計值得分相差0.855,但兩者的95%HDI存在較大部分重合,因此很難說兩校的差異是否明顯或顯著。但U1和U2得分的HDI下限分別為2.087和1.260,都高于U5得分HDI的上限1.210,那么應(yīng)該可以認為U1和U2的哲學(xué)綜合學(xué)術(shù)能力顯著高于U5。同理,貝葉斯排名第42位的U40的HDI[-1.481, -0.542],與排名第20位的U17的HDI[-0.716, 0.184]也存在重合。因此,簡單以因子得分或點估計值進行排名是存在一定問題的,并未考慮最終指數(shù)的不確定性,也即不同排名單位之間可能并不存在顯著的差異。因為學(xué)術(shù)綜合能力無法直接觀測到,屬于潛在變量,只能通過可觀測的指標來對其進行測量。而這些觀測變量可能存在遺漏,或包含其他信息,難以完美再現(xiàn)潛在的學(xué)術(shù)綜合能力。因此,根據(jù)HDI和估計值進行分組是一個可行的辦法,我們在最后一列呈現(xiàn)了第四輪學(xué)科評估的等級作為參照。由于本次測試只使用了體系中的部分與學(xué)術(shù)發(fā)表相關(guān)的指標,因此與學(xué)科評估結(jié)果存在一些差異,即分組會更為粗略。如U20[-0.543, 0.376]屬于B+,與四所A-高校中的三所(U8、U9和U11)都存在重合區(qū)間,僅U7顯著高于U20。U20與C+高校中的U24、U28、U37、U27的HDI也存在一定重合。

表4報告了系數(shù)β的估計值,包括點估計和區(qū)間估計。β的標準化系數(shù)β*,表明潛在指數(shù)f對觀測指標的貢獻度,那么其倒數(shù)1/β*可以大致等同于觀測指標對指數(shù)f的貢獻度,類似于項目反應(yīng)理論中的區(qū)分度。通過觀測指標x的標準差、f估計值的標準差(0.872)和β估計值可以計算1/β*。如表4第四列所示,8個指標中,指標2、5和6對學(xué)科學(xué)術(shù)綜合能力的影響更大。這也與一般性的認知相一致,衡量學(xué)科綜合實力的并非絕對發(fā)文總量多少,而是其中優(yōu)質(zhì)論文的數(shù)量和比例。

表4 哲學(xué)學(xué)科學(xué)術(shù)綜合能力的貝葉斯估計結(jié)果:指標區(qū)分度

六、結(jié)語

結(jié)合目前國內(nèi)外人文社會科學(xué)學(xué)科評估指標體系發(fā)展現(xiàn)狀以及存在的問題,“中文學(xué)科綜合評估指數(shù)體系(CSCEI)”在如下三個方面做出探索。

一是尊重學(xué)術(shù)研究和學(xué)科發(fā)展的規(guī)律,以創(chuàng)新和質(zhì)量為基本導(dǎo)向。2018年習(xí)近平總書記在全國教育大會上強調(diào),要扭轉(zhuǎn)不科學(xué)的教育評價導(dǎo)向,堅決克服“唯分數(shù)、唯升學(xué)、唯文憑、唯論文、唯帽子的頑瘴痼疾”,從根本上解決教育評價指揮棒問題。對于學(xué)科評價來說,這就要求回歸初心,回歸學(xué)術(shù)規(guī)律,重視其“量”的表現(xiàn),更加關(guān)注其“質(zhì)”的內(nèi)涵,同時在評估實踐中,逐步提煉出聚焦于學(xué)術(shù)創(chuàng)新、研究質(zhì)量和社會貢獻的評價指標。

二是夯實科學(xué)評價的理論基礎(chǔ),構(gòu)建豐富多元的指標體系。本研究創(chuàng)新性地采用了項目反應(yīng)理論及其實踐方法——貝葉斯估計來進行綜合學(xué)術(shù)能力的測量,有助于改進現(xiàn)有評估指標體系,克服僅僅利用因子分析法或加權(quán)均值而未考慮測量不確定性的缺陷,同時強調(diào)指標的多元和體系的綜合性,有效地避免了共線性問題。

三是堅持走中國化的道路,積極探索本土化的學(xué)科評估方案。本研究使用的主要數(shù)據(jù)來源于CSSCI以及CBKCI等系列數(shù)據(jù)庫,都是基于中文學(xué)術(shù)出版數(shù)據(jù)的原創(chuàng)精選數(shù)據(jù)庫,其數(shù)據(jù)經(jīng)過嚴格遴選和規(guī)范序化。依托于CSSCI系列數(shù)據(jù)庫進行學(xué)科分析能夠較為全面地反映本土學(xué)術(shù)的研究習(xí)慣和研究水準,這有助于中文學(xué)術(shù)成果的對外傳播和全球共享,有助于學(xué)術(shù)話語體系的建設(shè),堅持學(xué)術(shù)自信,在世界范圍內(nèi)提升中國學(xué)術(shù)研究的地位和影響力。

此外,本研究是圍繞學(xué)科評估體系進一步提升科學(xué)性、規(guī)范化開展的一次探索性嘗試,未來尚需在模型的擬合、不同學(xué)科指標的遴選等方面進一步深入研究。

猜你喜歡
貝葉斯雙一流學(xué)術(shù)
如何理解“Curator”:一個由翻譯引發(fā)的學(xué)術(shù)思考
中國博物館(2019年2期)2019-12-07 05:40:44
對學(xué)術(shù)造假重拳出擊
商周刊(2019年2期)2019-02-20 01:14:22
貝葉斯公式及其應(yīng)用
高?!半p一流”能否打破身份制
財經(jīng)(2016年22期)2016-08-30 10:51:34
“雙一流”需 從去行政化做起
南方周末(2016-07-07)2016-07-07 07:59:31
基于貝葉斯估計的軌道占用識別方法
一種基于貝葉斯壓縮感知的說話人識別方法
電子器件(2015年5期)2015-12-29 08:43:15
IIRCT下負二項分布參數(shù)多變點的貝葉斯估計
學(xué)術(shù)
創(chuàng)新需要學(xué)術(shù)爭鳴
軍事歷史(2003年5期)2003-08-21 06:36:40
象山县| 应城市| 北海市| 正宁县| 吴堡县| 昭觉县| 抚远县| 宜宾县| 和平区| 麻城市| 平罗县| 南乐县| 仙桃市| 迁安市| 大庆市| 兰溪市| 竹山县| 东安县| 绩溪县| 三亚市| 栾川县| 盱眙县| 明水县| 运城市| 裕民县| 新宁县| 宁城县| 长武县| 南昌县| 香格里拉县| 双流县| 南和县| 同江市| 峡江县| 班玛县| 定南县| 周至县| 洛浦县| 昌江| 彰化县| 昌吉市|