“雙一流”學(xué)科建設(shè)評估體系初探
——基于學(xué)術(shù)表現(xiàn)的綜合評估指數(shù)構(gòu)建

2019-01-17 02:09:58王文軍洪巖璧馬宇超

東南大學(xué)學(xué)報(哲學(xué)社會科學(xué)版) 2018年6期

王文軍，洪巖璧，袁翀，馬宇超

(1.南京大學(xué) 中國社會科學(xué)研究評價中心，江蘇南京210093；2.東南大學(xué) 人文學(xué)院，江蘇南京210096)

2015年國務(wù)院頒布《統(tǒng)籌推進世界一流大學(xué)和一流學(xué)科建設(shè)總體方案》，明確提出要“建立激勵約束機制，鼓勵公平競爭，強化目標管理，突出建設(shè)實效，構(gòu)建完善中國特色的世界一流大學(xué)和一流學(xué)科評價體系，充分激發(fā)高校內(nèi)生動力和發(fā)展活力，引導(dǎo)高等學(xué)校不斷提升辦學(xué)水平?！边@說明學(xué)科評估能夠引導(dǎo)高校的發(fā)展，對于建設(shè)一流大學(xué)和一流學(xué)科具有重要作用。隨后在2017年國務(wù)院又頒布了《統(tǒng)籌推進世界一流大學(xué)和一流學(xué)科建設(shè)實施辦法(暫行)》，強調(diào)要“以中國特色學(xué)科評價為主要依據(jù)，參考國際相關(guān)評價因素，綜合高校辦學(xué)條件、學(xué)科水平、辦學(xué)質(zhì)量、主要貢獻、國際影響力等情況，以及高校主管部門意見，論證確定一流大學(xué)和一流學(xué)科建設(shè)高校的認定標準?！盵1]這進一步明確了學(xué)科評價在一流學(xué)科建設(shè)中的重要作用。學(xué)科評估作為高等教育領(lǐng)域中教育評價的延伸范疇，其理論基礎(chǔ)和實現(xiàn)方法隨著學(xué)科評估發(fā)展而不斷拓展，其理論基礎(chǔ)源于教育評價但又不完全依賴于教育評價理論[2]。學(xué)科評估更加重視集評價方法的客觀性與價值判斷的主觀性于一體，以及用來反映學(xué)科質(zhì)量水平的可量化數(shù)據(jù)，其基本特征是強調(diào)效率和效益，注重結(jié)果和產(chǎn)出[3]。因此，本研究擬對當前在高等教育研究領(lǐng)域具有較大影響的七大學(xué)科評估體系進行梳理，觀察這些學(xué)科評估體系中有關(guān)學(xué)術(shù)表現(xiàn)的指標選擇和構(gòu)建者的價值期望，以學(xué)術(shù)表現(xiàn)為切入點，引入項目反應(yīng)理論，運用貝葉斯估計建構(gòu)基于學(xué)術(shù)表現(xiàn)的綜合評估指數(shù)，為我國人文社會科學(xué)類一流學(xué)科建設(shè)提供一個新的觀測視角。

一、現(xiàn)狀與問題

目前國內(nèi)具有較大影響的學(xué)科評估體系依據(jù)評價主體和評價目的的不同，主要分為兩大類：一類評估依托第三方機構(gòu)以整體評估為主要目的，這類評估體系主要有：教育部學(xué)位與研究生教育發(fā)展中心一級學(xué)科整體評估、英國科研評估、美國博士點評估。另一類依托商業(yè)公司，以形成學(xué)科排行榜為目的，這類評估體系主要有：上海軟科世界一流學(xué)科排名、泰晤士高等教育(THE)世界大學(xué)學(xué)科排名、夸夸雷利·西蒙茲(QS)世界大學(xué)學(xué)科排名、美國新聞和世界報導(dǎo)(U.S. News)全球大學(xué)學(xué)科排名*下文出現(xiàn)夸夸雷利·西蒙茲(QS)世界大學(xué)學(xué)科排名、泰晤士高等教育(THE)世界大學(xué)學(xué)科排名、美國新聞和世界報導(dǎo)(U.S. News)全球大學(xué)學(xué)科排名時，將使用括號中英文縮寫，不再使用中文全稱。。

(一)由第三方機構(gòu)主導(dǎo)的整體評估

(1)教育部學(xué)位中心一級學(xué)科整體評估

這是教育部學(xué)位與研究生教育發(fā)展中心以第三方形式開展的非行政性、服務(wù)性評估項目。這一評估從2002年開始，已經(jīng)進行了四輪，最新一輪學(xué)科評估于2017年完成。該項評估覆蓋學(xué)科范圍廣，指標體系全面，評價周期長，具有較高的權(quán)威性。其主要指標有：師資隊伍與資源、人才培養(yǎng)、科學(xué)研究水平、社會服務(wù)與社會聲譽。數(shù)據(jù)來源主要有三：學(xué)校填報、問卷調(diào)查、公開數(shù)據(jù)。與學(xué)術(shù)表現(xiàn)有關(guān)的指標——“科學(xué)研究水平”，主要考察“學(xué)術(shù)論文質(zhì)量”“專著專利”“出版教材”“科研獲獎”和“科研項目”。其中，“學(xué)術(shù)論文質(zhì)量”包含“A類期刊發(fā)表論文”和“代表性論文”同行評議兩個方面；同時要求代表性論文須包含一定比例的國內(nèi)期刊(特別是哲學(xué)社會科學(xué)學(xué)科)，以鼓勵優(yōu)秀成果優(yōu)先在國內(nèi)期刊發(fā)表[4]。由此可見，其主要通過學(xué)術(shù)成果的產(chǎn)出體現(xiàn)學(xué)科科研水平。

(2)英國科研評估

英國科研評估是由英格蘭高等教育資助委員會(HEFCE)、蘇格蘭資助委員會(SFC)、威爾士高等教育資助委員會(HEFCW)和北愛爾蘭就業(yè)和學(xué)習(xí)部(DEL)聯(lián)合進行的[5]。這項評估迄今為止已經(jīng)開展了7次。2014年英國高?？蒲性u估工作(Research Assessment Exercise, 簡稱RAE)被科研卓越框架(Research Excellence Framework, 簡稱REF)所取代。這一體系一直以來依靠同行評估的方法，由專家針對學(xué)科情況給出等級判斷。然而，REF在2014年也引入了量化數(shù)據(jù)，但僅供同行專家作為評估參考，暫未作為評估的主要工具[6]。

(3)美國博士點評估

美國博士點評估是由美國研究理事會(NRC)組織的博士點評估，側(cè)重評估人才培養(yǎng)，分別于1982年、1995年和2006年開展了3次。這項評估因其評價的權(quán)威性、評估過程的專業(yè)化和評估方法的客觀性，被美國學(xué)界公認為最具權(quán)威的科學(xué)排名，是研究生學(xué)科點質(zhì)量評估中“最全面、最可靠”的評估[7]。

(二)由商業(yè)機構(gòu)主導(dǎo)的學(xué)科排名評估

(1)上海軟科世界一流學(xué)科排名

上海軟科教育信息咨詢有限公司成立于2009年，其前身為上海交通大學(xué)世界大學(xué)學(xué)術(shù)排名，是國內(nèi)較早推出“世界大學(xué)學(xué)術(shù)排名”的機構(gòu)。軟科旗下“最好大學(xué)網(wǎng)”每年都會發(fā)布“世界大學(xué)學(xué)術(shù)排名”“中國最好大學(xué)排名”“世界一流學(xué)科排名”等榜單。這一評估體系依賴客觀數(shù)據(jù)，具有指標體系公開、透明的特色。主要指標有：論文總數(shù)、論文標準化影響力、教師獲權(quán)威獎項數(shù)、國際合作論文比例、頂尖期刊論文數(shù)，其數(shù)據(jù)源為Web of Science和InCites數(shù)據(jù)庫[8]。

(2)泰晤士高等教育(THE)世界大學(xué)學(xué)科排名

THE世界大學(xué)學(xué)科排名是由《泰晤士高等教育》報每年發(fā)布的各學(xué)科領(lǐng)域世界高校排行榜。這一評估具有指標設(shè)置較為全面、重視學(xué)術(shù)科研能力的特色。主要指標有：教學(xué)、研究、論文引用率(學(xué)術(shù)影響)、產(chǎn)業(yè)收入、國際化程度。數(shù)據(jù)源為公開數(shù)據(jù)、學(xué)校填報、問卷調(diào)查以及愛思唯爾的Scopus數(shù)據(jù)庫[9]。

(3)QS世界大學(xué)學(xué)科排名

QS世界大學(xué)學(xué)科排名是由英國QS國際高等教育研究機構(gòu)于2012年開始，每年發(fā)布的一個各學(xué)科領(lǐng)域世界前200名院校的排行榜。這一評估具有重視社會聲譽、覆蓋學(xué)科范圍廣的特色。主要指標有：學(xué)術(shù)聲譽、雇主評價、平均每篇論文被引數(shù)、H指數(shù)。數(shù)據(jù)源為問卷調(diào)查和愛思唯爾的Scopus數(shù)據(jù)庫[10]。

(4)U.S. News全球大學(xué)學(xué)科排名

U.S．News世界大學(xué)排名是美國《美國新聞與世界報道》(U.S. News & World Report)于2014年開始每年發(fā)布的世界大學(xué)排行榜。該排行榜重視學(xué)術(shù)科研能力，主要依賴于客觀數(shù)據(jù)。其主要指標有：全球研究聲譽、區(qū)域研究聲譽、國際合作、國際合作論文占比、專著、學(xué)術(shù)論文、會議論文、標準化引用影響力、總被引頻次、被引次數(shù)前10%論文數(shù)量、被引次數(shù)前10%論文占比、在各自領(lǐng)域中被引次數(shù)前1%的高被引論文數(shù)量、在所有學(xué)術(shù)論文中被引頻次前1%的高被引論文占比。數(shù)據(jù)來自問卷調(diào)查以及InCites數(shù)據(jù)庫[11]。

將以上7個評估體系中有關(guān)學(xué)術(shù)表現(xiàn)的指標進行整理，得到表1。

表1 國內(nèi)外主要學(xué)科評估體系中有關(guān)“學(xué)術(shù)表現(xiàn)”的主要指標

① http://www.rae.ac.uk

通過對上述學(xué)科評估體系的梳理，不難發(fā)現(xiàn)：(1)在評價目的上，由第三方機構(gòu)形成的整體評估更多地為國家服務(wù)。英國科研卓越框架與政府對大學(xué)的撥款直接相關(guān)，美國博士點評估與中國教育部的一級學(xué)科整體評估雖然與政府撥款無關(guān)，但也為政府了解高校發(fā)展狀況服務(wù)。而由商業(yè)機構(gòu)形成的學(xué)科排名評估則更多地為社會服務(wù)，主要目的是為學(xué)生和家長選擇專業(yè)和高等學(xué)校提供參考。(2)在評價周期上，由第三方機構(gòu)形成的整體評估周期較長，而由商業(yè)機構(gòu)形成的學(xué)科排名則一年一榜。據(jù)悉，英國學(xué)科評估將于2021年發(fā)布最新的評估結(jié)果，其從啟動到結(jié)果發(fā)布大約需要3-4年，大約有2年時間用于方案和指標的研究。目前已經(jīng)可以通過其官方網(wǎng)站了解到各項方案制定、指標測算的草案。我國教育部第四輪學(xué)科評估已于2017年正式公布，下一輪學(xué)科評估預(yù)計將于2020年啟動。(3)在量化數(shù)據(jù)源的選擇上，上述學(xué)科評估指標體系的數(shù)據(jù)主要來自第三方數(shù)據(jù)源，如SCI、SSCI、ESI、Scopus等數(shù)據(jù)庫。筆者認為，面向中國的學(xué)科評估應(yīng)該更多依托本土原創(chuàng)數(shù)據(jù)源。尤其是人文社會科學(xué)研究本土化的特性，僅考慮國外數(shù)據(jù)庫的收錄情況，會使得該指標的區(qū)分度較低。對于人文社會科學(xué)而言，僅考慮論文的發(fā)表情況，對于以學(xué)術(shù)圖書、研究報告等為發(fā)表載體的學(xué)術(shù)成果會有所疏漏，不利于學(xué)術(shù)表現(xiàn)的完整性評估。(4)在具體評估指標的選擇上，目前的趨勢是由規(guī)模化指標轉(zhuǎn)向人均指標、比例指標，由共線性指標向獨立性指標轉(zhuǎn)變，由非連續(xù)性數(shù)據(jù)向連續(xù)性數(shù)據(jù)轉(zhuǎn)變[12]。本研究在具體評估指標的遴選上參考研究趨勢進行了篩選，較多選用人均指標和比例指標，比如在高端論文、一般論文等指標中均加入了人均與總量兩個下級指標；盡量避免共線性問題，避免指標的重復(fù)計算，比如在人力資源指標下設(shè)置的三個二級指標分別反映學(xué)科的規(guī)模、活躍程度以及學(xué)術(shù)聲譽三個不同方面，具有一定的區(qū)分度。

為了進一步提升學(xué)科評估的科學(xué)性，本研究引入了項目反應(yīng)理論視角，并運用貝葉斯方法進行具體的估計。相比于以往的簡單因子分析和加權(quán)均值，該方法的優(yōu)勢在于考慮了指標建構(gòu)中的各種不確定性。在提出學(xué)術(shù)表現(xiàn)綜合評價指標體系后，本文通過哲學(xué)學(xué)科的部分指標數(shù)據(jù)完成一個簡化實證分析。

二、理論與模型

(一)項目反應(yīng)理論

社會科學(xué)領(lǐng)域的變量可以分成兩類，一是顯變量(manifest variable)，可以直接觀測到；二是潛變量(latent variable)，即觀察者無法直接觀察到的變量，有些學(xué)者把它定義為無法僅僅通過顯變量的函數(shù)進行表達的變量[13]，如人的態(tài)度、心理特質(zhì)等都屬于潛變量。

針對潛變量的測量主要有兩個理論視角：經(jīng)典測量理論和項目反應(yīng)理論。經(jīng)典測量理論(classical test theory，CTT)源于智力測驗編制和分析，其基本思想是把觀察得分看作真分數(shù)(潛在特質(zhì))和誤差分數(shù)的線性組合，可歸結(jié)為如下模型：X=T+e。其中X是觀察得分，T是真分數(shù)，e是誤差分。如在智力測試中，對于一個特定題器的回答不僅反映了一般性智力，也反映了該題器的內(nèi)容，分別被稱為公共因子和特殊因子[13]。經(jīng)典測量理論的不足在于：依據(jù)其項目分析法所得的項目統(tǒng)計量受樣本的抽樣變動影響大；被試者的測驗分數(shù)依賴于項目的難度，使得進行不同測驗的被試者相互間難以比較；假設(shè)所有被試者的測量標準誤差都相同[14]。鑒于此，項目反應(yīng)理論逐漸興起。

項目反應(yīng)理論(Item Response Theory, 以下簡稱“IRT”)又稱題目反應(yīng)理論、潛在特質(zhì)理論，目標是確定潛在心理特征是否可以通過測試題被反應(yīng)出來，以及測試題和被測試者之間的互動關(guān)系。以測試為例，就是依據(jù)被試在各個項目上的實際作答反應(yīng)結(jié)果，經(jīng)數(shù)學(xué)模型的運算，統(tǒng)一估計出被試的能力水平或潛在心理特質(zhì)水平，以及項目的計量學(xué)參數(shù)。描述被試能力水平、項目參數(shù)與項目作答結(jié)果之間關(guān)系的數(shù)學(xué)模型稱為項目特征函數(shù)(item characteristic function, ICF)。常見模型有單參數(shù)(1-PL，也被成為Rasch模型)、雙參數(shù)(2-PL)與三參數(shù)(3-PL)模型，三參數(shù)模型的表達式如下：

(1)

模型中，D為常數(shù)，通常取值為1或者1.7；θ為受測者的能力值。另外有三個參數(shù)a、b、c。參數(shù)a為題目區(qū)分度或因子負荷，表明題目在擁有不同能力被試者間的區(qū)別有多好，即高θ值和低θ值在某題目上都答對的概率。參數(shù)b為題目難度，是被試者能力確定情況下答對某題目的可能性。參數(shù)c一般稱為“猜測參數(shù)”，其直觀意義為：當一個被試者的能力值非常低(比如接近負無窮)，但仍然能做對這道題目的概率。模型整體則表示，能力值為θ的被試者，在難度為b的題目上的答對概率。可見，項目反應(yīng)理論同時評估考察被試者和試題。

項目反應(yīng)理論模型有以下幾個假設(shè)前提：一維性，即被測項目僅取決于一種能力，其他能力的影響較小，可以忽略；局部獨立，被試者在回答該項目時不受其他項目影響；潛在特質(zhì)維度與模型契合。在這樣的強假設(shè)前提下，相較于經(jīng)典測量理論，項目反應(yīng)理論具有以下三個突出優(yōu)點：參數(shù)的估計不因樣本不同而不同；被試者能力的估計不因測驗改變而改變；可以針對不同被試對象估計每個項目及測驗的測量誤差[15]。鑒于統(tǒng)計上的優(yōu)越性，項目反應(yīng)理論也逐漸從心理測量的研究走向其他學(xué)科領(lǐng)域。

(二)項目反應(yīng)模型的應(yīng)用

IRT是以潛在特質(zhì)論為基礎(chǔ)的測量理論，特質(zhì)是指被試者具有某種穩(wěn)定的、支配其對相應(yīng)的測驗項目做出反應(yīng)，并對反應(yīng)表現(xiàn)出一致的內(nèi)在特征，由于特質(zhì)不能被直接觀察到，因此稱為潛在特質(zhì)。其在心理學(xué)測量和教育測試中應(yīng)用最為廣泛,如在教育測試領(lǐng)域中，研究者利用雙參數(shù)或三參數(shù)模型分析了不同地區(qū)學(xué)生數(shù)學(xué)成績、語文選擇題的建構(gòu)[16-17]。在試題或試卷評判方面，與經(jīng)典測試理論相比，項目反應(yīng)理論模型可以反映試題信息量，代替?zhèn)鹘y(tǒng)信度作為評定內(nèi)部一致性的指針；并且能根據(jù)各項目在臨界分數(shù)附近的信息量，達到以最少題目達到所需的測量精確度[18]。

經(jīng)濟學(xué)、社會學(xué)等學(xué)科也開始應(yīng)用項目反應(yīng)理論來探討測量問題，如民意調(diào)查問卷設(shè)計[19]。Hoyland等利用項目反應(yīng)原理對幾個國際指數(shù)排名進行了分析，他們以各國在特定指數(shù)的二級指標上排名的差異作為測量不確定性(uncertainty)的代理變量，指出如果考慮不確定性，那么以往的這類排名就存在誤導(dǎo)性[20]。在企業(yè)社會責任測量中，應(yīng)用項目反應(yīng)理論得到的指數(shù)比以往的直接加總指數(shù)和因子得分指數(shù)能更好的反映實際情況[21-22]。胡安寧則將該理論應(yīng)用于對差序格局的測量，主要以單參數(shù)或雙參數(shù)模型確定個體對于不同對象的信任容易程度，即差序格局中的“差”(模型中的項目難度參數(shù)b)；并且利用2010中國綜合社會調(diào)查中一組信任問題，展示了項目反應(yīng)理論下差序格局測量方案的解釋力[23]。

由此可見，項目反應(yīng)理論適用于社會科學(xué)各領(lǐng)域的測量與評估?？蒲袡C構(gòu)排名本質(zhì)也是采用不同維度指標來測量機構(gòu)的科研學(xué)術(shù)能力?？蒲心芰κ菨撛陔y以直接觀測到的變量，但可以通過發(fā)表文章數(shù)、權(quán)威論文數(shù)、被引用數(shù)量等指標體現(xiàn)出來。接下來將首先介紹本研究嘗試建構(gòu)的一個科研機構(gòu)學(xué)術(shù)表現(xiàn)綜合評價指標體系，然后運用貝葉斯方法來實現(xiàn)具體的估計。

三、指標與構(gòu)建

學(xué)術(shù)表現(xiàn)(Academic performance) 是一所大學(xué)或者科研機構(gòu)在人力資源、學(xué)術(shù)生產(chǎn)、學(xué)術(shù)影響等方面綜合能力的反映。本研究正是基于這一視角深度挖掘?qū)W術(shù)出版數(shù)據(jù)，為建立以創(chuàng)新、質(zhì)量、貢獻為導(dǎo)向的科學(xué)研究評價體系提供多維度的客觀數(shù)據(jù)。堅持以創(chuàng)新、質(zhì)量、貢獻為導(dǎo)向，圍繞多維度展示學(xué)術(shù)表現(xiàn)的原則，遴選測量指標、設(shè)計指標體系。在指標選擇上，注重量化指標與評價目的相匹配；在客觀數(shù)據(jù)的選擇上，注重客觀指標的本土化特征，強調(diào)客觀數(shù)據(jù)的公信力和可靠性；在學(xué)術(shù)出版數(shù)據(jù)的采集中，將包括論文、著作、工具書、研究報告等多種類型的學(xué)術(shù)成果都納入統(tǒng)計視野。

表2所示的 “中文學(xué)科綜合評估指數(shù)(CSCEI)”擬從學(xué)科研究和發(fā)展的三個角度評估學(xué)科研究現(xiàn)狀，影響力情況及未來發(fā)展，力爭較為全面地反映某一個機構(gòu)的綜合學(xué)術(shù)水平。初步設(shè)計的中文學(xué)科綜合評估指數(shù)體系(CSCEI)由三個一級指標(人力資源、研究能力、影響水平)及一個系數(shù)指標構(gòu)成。

表2 中文學(xué)科綜合評估指數(shù)(CSCEI)

人力資源一級指標由三個二級指標構(gòu)成：隊伍規(guī)模、活躍程度、學(xué)術(shù)聲譽。隊伍規(guī)模指標反映了各機構(gòu)分學(xué)科的學(xué)術(shù)人口總數(shù)；活躍程度指標關(guān)注各類學(xué)術(shù)成果的學(xué)術(shù)人口數(shù)量；學(xué)術(shù)聲譽則著重考察各機構(gòu)在各類學(xué)術(shù)組織、重要學(xué)術(shù)期刊、重要學(xué)術(shù)獎項等方面的占有狀況。

研究能力一級指標由六個二級指標構(gòu)成：高端論文、學(xué)術(shù)論文、學(xué)術(shù)著作、研究報告、工具書、數(shù)據(jù)庫、主辦連續(xù)出版物等。高端論文指標是指本學(xué)科重要期刊上發(fā)表論文總數(shù)以及人均數(shù)量；論文指標由CSSCI數(shù)據(jù)庫中收錄的論文總數(shù)和人均數(shù)量構(gòu)成；學(xué)術(shù)著作指標是統(tǒng)計時段學(xué)術(shù)著作出版數(shù)量；研究報告指標是統(tǒng)計時段公開出版的研究報告數(shù)量；工具書(包括資料集)是指這一類型的公開出版物；主辦連續(xù)出版物的情況是指各機構(gòu)主辦期刊的情況。

影響水平一級指標由七個二級指標構(gòu)成：當年被引篇次、當年被引率、篇均被引、分層引用、高被引作者數(shù)、HCP(高影響)論文數(shù)、被引著作數(shù)。其中當年被引篇次指標由論文在當年被引篇次決定；當年被引率指標由論文在當年被引率決定；篇均被引指標由被引論文篇均被引數(shù)決定；分層引用指標由期刊的分層引用情況決定；高被引作者數(shù)指標由相關(guān)學(xué)科領(lǐng)域被引數(shù)前100位的學(xué)者人數(shù)決定；HCP論文數(shù)指標由各學(xué)科被收錄的高被引論文數(shù)決定；被引著作數(shù)指標由出版的著作被引用數(shù)決定。

統(tǒng)計指標時間窗的選擇可以根據(jù)評價實際需要進行調(diào)整。例如，在需要進行短時段評估時，可以選擇當年或近三年的數(shù)據(jù)，在需要進行長時段評估時，可以選擇近十年、甚至二十年的較長時段數(shù)據(jù)。

四、測量與模型

項目反應(yīng)理論中相關(guān)參數(shù)的估計有多種方法，貝葉斯估計是其中一種。貝葉斯分析允許不同來源的不確定性，所以其估計結(jié)果也更為保守，也即不確定性更強[24]。本文將參照Hoyland等人提出的方法來建構(gòu)學(xué)術(shù)綜合評價指數(shù)排名[25]。假定某學(xué)校某學(xué)科i的學(xué)術(shù)水平為fi，而觀測到的結(jié)果或指標為xij，其中j表示不同的觀測指標。筆者認為這些觀測指標xij能夠反映潛在的、無法觀測到的某學(xué)科的科研學(xué)術(shù)水平fi。兩者之間的關(guān)系如下：

xij=αj+βjfi+εij,var(εij)=σεj2

(2)

其中βj測量了指標j對不同學(xué)校學(xué)術(shù)水平fi的區(qū)分度或貢獻度。以往的排名指數(shù)建構(gòu)有一個內(nèi)涵的假定，即所有觀察指標對于不同學(xué)?？蒲兴降膮^(qū)別度是一樣，這可能是有問題的。以項目反應(yīng)理論思想為基礎(chǔ)，筆者利用手頭可獲得的數(shù)據(jù)，通過貝葉斯方法來估計出不同觀測指標的區(qū)分度βj，也即上文項目反應(yīng)理論中的題目區(qū)分度參數(shù)a。

不同于以往的方程和統(tǒng)計模型，因為方程(2)右邊的參數(shù)和變量都是未知的，我們只知道左邊的xij。因為“自變量”fi并未被觀測到, 所以無法以通常的OLS回歸來進行估計。為了使模型可識別，需要對不同學(xué)?？蒲兴?f)的分布結(jié)構(gòu)有所假定。由于我們關(guān)心的是不同學(xué)校之間科研水平的相對位置，并不存在一個像身高這樣的客觀尺度，因此可以假定該分布服從均值為0，標準差為1的正態(tài)分布。如不考慮同一組別內(nèi)部的二級指標之間可能存在的相關(guān)，那么方程(2)的誤差項εij就是隨機誤差項。

我們需要估計p(θ|x)，其中θ=α+β+σ+f，換言之，根據(jù)已有數(shù)據(jù)估計未知的參數(shù)和潛變量f。根據(jù)貝葉斯定理，p(θ|x)=[p(x|θ)p(θ)]/p(x)，即后驗概率分布等于先驗概率分布p(θ)乘以該假設(shè)下得到這一數(shù)據(jù)的概率(似然度)p(x|θ)，再除以任一假設(shè)下得到這一數(shù)據(jù)的概率(標準化常量)p(x)[26]。對先驗概率分布采用擴散先驗設(shè)置，對參數(shù)的取值不做任何限定，所以參數(shù)的識別僅取決于似然度,而似然度來自我們的方程(2)的設(shè)置。fi的起始值設(shè)定為因子分析計算得到的Bartlett分數(shù)，βj的起始值為xj對Bartlett分數(shù)的OLS回歸，其他的起始值都由軟件隨機設(shè)定。本文使用R軟件中R2jags進行貝葉斯估計。

五、例證與分析

基于中文學(xué)科綜合評估指數(shù)體系(CSCEI)，運用貝葉斯估計的方法，對哲學(xué)學(xué)科的數(shù)據(jù)進行了簡化的實證分析。采用了如下8個指標來測量哲學(xué)學(xué)科學(xué)術(shù)綜合能力：(1)2015—2017年CSSCI期刊論文發(fā)表合計；(2)2015-2017年在C100期刊論文發(fā)表數(shù)量占C刊論文總量的比例；(3)教師總?cè)丝跀?shù)；(4)活動人口比例；(5)2007-2016年C刊哲學(xué)論文被引比率；(6)2007-2016年被C100期刊引用比率；(7)機構(gòu)占有哲學(xué)HCP高被引作者數(shù)量；(8)機構(gòu)在本學(xué)科頂級期刊發(fā)表論文數(shù)量(2015-2017)。貝葉斯分析結(jié)果如表3和表4所示。

表3 哲學(xué)學(xué)科學(xué)術(shù)綜合能力的貝葉斯估計結(jié)果及與學(xué)科評估等級比較

貝葉斯分析出了各個學(xué)校哲學(xué)學(xué)科的潛在學(xué)術(shù)綜合能力得分點估計值，同時也給出了95%的最高密度區(qū)間(簡稱HDI，表示區(qū)間內(nèi)的估計值概率和為95%，區(qū)間內(nèi)的估計值可信度更高)。表3第二列是貝葉斯的點估計值，第四列是按照該點估計值得到的排名。[注]下述討論皆根據(jù)上文中所列的8個指標進行的分析，本文旨在提供一種看待學(xué)科評估排名的視角，而非提供一種完全不同的排名體系，因而不過多討論所納入的8個指標是否合適或足夠。第三列是貝葉斯估計值的HDI(95%)，這是貝葉斯估計的優(yōu)勢所在，即考慮了不同指標之間存在的不一致性(測量誤差)，從而估計最終指數(shù)的不確定性。由于貝葉斯估計容納不同來源的不確定性，因此其估計也更為保守，這從不同等級的學(xué)校存在較大的重合HDI中可見一斑。[注]如果兩個得分的HDI存在重合部分，說明有較大的可能性這兩個得分的估計值會落在重合部分，也即兩個得分相同。這對于排名具有重要意義，因為有助于了解不同學(xué)校指數(shù)得分之間的差異是否顯著。譬如，U1和U2雖然點估計值得分相差0.855，但兩者的95%HDI存在較大部分重合，因此很難說兩校的差異是否明顯或顯著。但U1和U2得分的HDI下限分別為2.087和1.260，都高于U5得分HDI的上限1.210，那么應(yīng)該可以認為U1和U2的哲學(xué)綜合學(xué)術(shù)能力顯著高于U5。同理，貝葉斯排名第42位的U40的HDI[-1.481, -0.542]，與排名第20位的U17的HDI[-0.716, 0.184]也存在重合。因此，簡單以因子得分或點估計值進行排名是存在一定問題的，并未考慮最終指數(shù)的不確定性，也即不同排名單位之間可能并不存在顯著的差異。因為學(xué)術(shù)綜合能力無法直接觀測到，屬于潛在變量，只能通過可觀測的指標來對其進行測量。而這些觀測變量可能存在遺漏，或包含其他信息，難以完美再現(xiàn)潛在的學(xué)術(shù)綜合能力。因此，根據(jù)HDI和估計值進行分組是一個可行的辦法，我們在最后一列呈現(xiàn)了第四輪學(xué)科評估的等級作為參照。由于本次測試只使用了體系中的部分與學(xué)術(shù)發(fā)表相關(guān)的指標，因此與學(xué)科評估結(jié)果存在一些差異，即分組會更為粗略。如U20[-0.543, 0.376]屬于B+，與四所A-高校中的三所(U8、U9和U11)都存在重合區(qū)間，僅U7顯著高于U20。U20與C+高校中的U24、U28、U37、U27的HDI也存在一定重合。

表4報告了系數(shù)β的估計值，包括點估計和區(qū)間估計。β的標準化系數(shù)β*，表明潛在指數(shù)f對觀測指標的貢獻度，那么其倒數(shù)1/β*可以大致等同于觀測指標對指數(shù)f的貢獻度，類似于項目反應(yīng)理論中的區(qū)分度。通過觀測指標x的標準差、f估計值的標準差(0.872)和β估計值可以計算1/β*。如表4第四列所示，8個指標中，指標2、5和6對學(xué)科學(xué)術(shù)綜合能力的影響更大。這也與一般性的認知相一致，衡量學(xué)科綜合實力的并非絕對發(fā)文總量多少，而是其中優(yōu)質(zhì)論文的數(shù)量和比例。

表4 哲學(xué)學(xué)科學(xué)術(shù)綜合能力的貝葉斯估計結(jié)果：指標區(qū)分度

六、結(jié)語

結(jié)合目前國內(nèi)外人文社會科學(xué)學(xué)科評估指標體系發(fā)展現(xiàn)狀以及存在的問題，“中文學(xué)科綜合評估指數(shù)體系(CSCEI)”在如下三個方面做出探索。

一是尊重學(xué)術(shù)研究和學(xué)科發(fā)展的規(guī)律，以創(chuàng)新和質(zhì)量為基本導(dǎo)向。2018年習(xí)近平總書記在全國教育大會上強調(diào)，要扭轉(zhuǎn)不科學(xué)的教育評價導(dǎo)向，堅決克服“唯分數(shù)、唯升學(xué)、唯文憑、唯論文、唯帽子的頑瘴痼疾”，從根本上解決教育評價指揮棒問題。對于學(xué)科評價來說，這就要求回歸初心，回歸學(xué)術(shù)規(guī)律，重視其“量”的表現(xiàn)，更加關(guān)注其“質(zhì)”的內(nèi)涵，同時在評估實踐中，逐步提煉出聚焦于學(xué)術(shù)創(chuàng)新、研究質(zhì)量和社會貢獻的評價指標。

二是夯實科學(xué)評價的理論基礎(chǔ)，構(gòu)建豐富多元的指標體系。本研究創(chuàng)新性地采用了項目反應(yīng)理論及其實踐方法——貝葉斯估計來進行綜合學(xué)術(shù)能力的測量，有助于改進現(xiàn)有評估指標體系，克服僅僅利用因子分析法或加權(quán)均值而未考慮測量不確定性的缺陷，同時強調(diào)指標的多元和體系的綜合性，有效地避免了共線性問題。

三是堅持走中國化的道路，積極探索本土化的學(xué)科評估方案。本研究使用的主要數(shù)據(jù)來源于CSSCI以及CBKCI等系列數(shù)據(jù)庫，都是基于中文學(xué)術(shù)出版數(shù)據(jù)的原創(chuàng)精選數(shù)據(jù)庫，其數(shù)據(jù)經(jīng)過嚴格遴選和規(guī)范序化。依托于CSSCI系列數(shù)據(jù)庫進行學(xué)科分析能夠較為全面地反映本土學(xué)術(shù)的研究習(xí)慣和研究水準，這有助于中文學(xué)術(shù)成果的對外傳播和全球共享，有助于學(xué)術(shù)話語體系的建設(shè)，堅持學(xué)術(shù)自信，在世界范圍內(nèi)提升中國學(xué)術(shù)研究的地位和影響力。

此外，本研究是圍繞學(xué)科評估體系進一步提升科學(xué)性、規(guī)范化開展的一次探索性嘗試，未來尚需在模型的擬合、不同學(xué)科指標的遴選等方面進一步深入研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“雙一流”學(xué)科建設(shè)評估體系初探——基于學(xué)術(shù)表現(xiàn)的綜合評估指數(shù)構(gòu)建

一、現(xiàn)狀與問題