基金項目:國家社會科學(xué)基金項目“大數(shù)據(jù)時代學(xué)術(shù)評價理論方法改進研究”(項目編號:17BTQ015)。
作者簡介:楊紅艷(1981-),女,編審,博士,研究方向:學(xué)術(shù)評價、信息資源管理。
摘要:[目的/意義]大數(shù)據(jù)時代的學(xué)術(shù)評價數(shù)據(jù)化,是指對有關(guān)評價的學(xué)術(shù)活動進行全面記錄、存儲、統(tǒng)計并形成有價值數(shù)據(jù)的過程,這是支撐對學(xué)術(shù)生態(tài)中各類對象的質(zhì)量或水平做出判斷的必要環(huán)節(jié)。數(shù)據(jù)化是實現(xiàn)“基于大數(shù)據(jù)的學(xué)術(shù)評價”的前提。[研究設(shè)計/方法]本文對相關(guān)文獻、概念和實踐進行歸納分析,探討了大數(shù)據(jù)時代學(xué)術(shù)評價數(shù)據(jù)化的難點及其應(yīng)對策略。[結(jié)論/發(fā)現(xiàn)]數(shù)據(jù)化的難點包括數(shù)據(jù)缺失或“隱形”、數(shù)據(jù)難獲取、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)化成本高、數(shù)據(jù)化意識不足。應(yīng)對策略包括3個方面,即搭建學(xué)術(shù)評價數(shù)據(jù)化的基本框架、變革學(xué)術(shù)評價的體系和流程、制定學(xué)術(shù)評價數(shù)據(jù)化的關(guān)鍵策略。[創(chuàng)新/價值]數(shù)據(jù)化是當前學(xué)術(shù)評價急需卻缺乏系統(tǒng)研究的一個領(lǐng)域,也是本文選題和觀點的主要價值所在。
關(guān)鍵詞:學(xué)術(shù)評價;數(shù)據(jù)化;大數(shù)據(jù);難點;策略
DOI:10.3969/j.issn.1008-0821.2020.11.014
〔中圖分類號〕G30〔文獻標識碼〕A〔文章編號〕1008-0821(2020)11-0136-08
The Difficulties and Solutions of Research Evaluation
Datamizing in the Era of Big Data
Yang Hongyan
(Center for Research Evaluation of Humanities and Social Sciences,Renmin University of China,
Beijing 100872,China)
Abstract:[Purpose/Significance]In the era of big data,DATAMIZING of research evaluation refers to the process of comprehensively recording,storing,statistics and forming valuable data for academic activities related to evaluation,which is necessary to support the judgment of the quality or level of various entities in academic ecology.DATAMIZING is the premise of RESEARCH EVALUATION BASED ON BIG DATA.[Design/Methodology]In this paper,by summarizing and analyzing the relevant literature,concepts and practices,the difficulties and countermeasures of research evaluation DATAMIZING in the era of big data were discussed.[Findings/Conclusion]The difficulties of DATAMIZING process include lack of data or invisible data,difficulty in data acquisition,low quality of data,high cost of DATAMIZING and insufficient awareness of DATAMIZING.Accordingly,coping strategies include three aspects:building the fundamental framework of research evaluation data,changing the system and process of research evaluation,and formulating the key strategies for research evaluation DATAMIZING.[Originality/Value]DATAMIZING is an urgent but lack of systematic research topic in the field of research evaluation,which is also the main value of this papers topic and views.
Key words:research evaluation;data;big data;difficulties;strategies
大數(shù)據(jù)時代的到來已成為不爭的事實。數(shù)據(jù)是新的石油,它正成為一種生產(chǎn)資料、稀有資產(chǎn)、重要戰(zhàn)略資源,并全面融入社會、生產(chǎn)、生活的各個方面,深刻改變著世界的經(jīng)濟格局、利益格局、安全格局[1]。這一時代的變革是不容忽視的,正如達文波特的研究指出:“大數(shù)據(jù)將會引發(fā)大事件,應(yīng)盡快思考應(yīng)對之策”[2]。而“所有的一切都證明,爆發(fā)無處不在”,如果我們不利用大數(shù)據(jù)未雨綢繆,那便會在未來中失利[3]。
大數(shù)據(jù)的影響也滲透到了學(xué)術(shù)領(lǐng)域,悄然改變著學(xué)術(shù)生態(tài)系統(tǒng)。2007年,圖靈獎得主JIM GRAY指出,“數(shù)據(jù)密集型科學(xué)”的新型研究范式已成為科學(xué)研究的第四范式,該范式以數(shù)據(jù)為中心進行思考、設(shè)計和實施科學(xué)研究,科學(xué)發(fā)現(xiàn)也依賴于對海量數(shù)據(jù)的收集和處理分析。社會科學(xué)領(lǐng)域也認為,大數(shù)據(jù)對于研究對象、服務(wù)決策、社會普及和效果評估等方面均有利于推動社會科學(xué)邁向新的發(fā)展高度[4]。如果將學(xué)術(shù)生態(tài)系統(tǒng)理解為由學(xué)術(shù)、人、環(huán)境組成的一個可以與外界不斷進行物質(zhì)、能量和信息交換的結(jié)構(gòu)系統(tǒng)[5],數(shù)據(jù)均已深度介入并影響著這個系統(tǒng)的投入、產(chǎn)出和生產(chǎn)成果的運轉(zhuǎn)過程。
作為學(xué)術(shù)生態(tài)系統(tǒng)不可或缺的組成部分之一,學(xué)術(shù)評價同樣也受到大數(shù)據(jù)時代的深刻影響,大數(shù)據(jù)時代的學(xué)術(shù)評價理應(yīng)被提上日程[6]?;诖髷?shù)據(jù)的評價新模式,應(yīng)著重實現(xiàn)數(shù)據(jù)化、多元化、全量化、集成化和網(wǎng)絡(luò)化5個重要趨勢[7],其中首要的是數(shù)據(jù)化。數(shù)據(jù)化也是大數(shù)據(jù)時代所倡導(dǎo)的理念之一,就像舍恩伯格所說的“世界的本質(zhì)是數(shù)據(jù)”[8]。數(shù)據(jù)化的核心是要解決“缺數(shù)據(jù)”和“數(shù)據(jù)不可用”的問題,這也反映出當前學(xué)術(shù)評價實踐對數(shù)據(jù)的迫切需求。無論采用何種評價方法,僅依靠“拍腦袋”或“片面的數(shù)據(jù)”不足以得出科學(xué)的評價結(jié)論。充足的學(xué)術(shù)評價大數(shù)據(jù)是使“基于大數(shù)據(jù)的學(xué)術(shù)評價”真正落地的前提,否則“基于大數(shù)據(jù)的學(xué)術(shù)評價”將是空談。
為此,本文在述評學(xué)術(shù)評價數(shù)據(jù)化相關(guān)概念的基礎(chǔ)上,分析歸納評價數(shù)據(jù)化的難點,并探討其應(yīng)對策略。
1學(xué)術(shù)評價數(shù)據(jù)化的相關(guān)概念
11數(shù)據(jù)和數(shù)據(jù)化
“數(shù)據(jù)”在拉丁文里是“已知”的意思,也可以理解為“事實”,代表對某件事物的描述。在維基百科上,英文Data是未經(jīng)翻譯的信息,從數(shù)據(jù)中可以提取出信息,并進一步提取出知識。覃雄派等認為,數(shù)據(jù)是對現(xiàn)實世界的實體或事實的符號化表示,表現(xiàn)為一系列符號化的值[1]。在《世界是數(shù)字的》[9]一書中,將數(shù)據(jù)的定義局限在數(shù)字化環(huán)境中,數(shù)據(jù)是指通過硬件及軟件收集、存儲和處理,并通過通信系統(tǒng)傳送到世界各地的全部信息,但這并沒有改變數(shù)據(jù)這一概念的本質(zhì),即數(shù)據(jù)是信息的原始狀態(tài)。同時,數(shù)據(jù)并不一定是指數(shù)值、量值,數(shù)據(jù)是人工形成的,其基本功能包括記錄、測量、存儲、表達等[10]。
那么何為“數(shù)據(jù)化”呢?化者,變也。維克托·邁爾-舍恩伯格等[8]把“數(shù)據(jù)化”闡釋為“一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程”;數(shù)據(jù)化具有“突變”的本質(zhì),這種全新的思維植根于以數(shù)據(jù)為核心構(gòu)造虛擬世界的技術(shù)哲學(xué)和數(shù)據(jù)友好、數(shù)據(jù)自由的科技倫理中,“反映了現(xiàn)實世界對信息科技應(yīng)用的非線性、標準化、透明和開放的訴求”。姜浩[10]則認為,數(shù)據(jù)化是“將均勻、連續(xù)的數(shù)字比特結(jié)構(gòu)化和可量化,形成標準化的、開放的、非線性的、通用的數(shù)據(jù)對象,并基于不同形態(tài)與類別的數(shù)據(jù)對象,實現(xiàn)相關(guān)應(yīng)用,開展相關(guān)活動”,并認為數(shù)據(jù)化是中文中獨有的一個重要概念,英文中對應(yīng)的詞應(yīng)是“Datamize”;此處的數(shù)據(jù)不是指狹義的數(shù)量值,而是指可以對應(yīng)于各種信息對象的、數(shù)字比特的結(jié)構(gòu)化集合。這兩個定義的前者強調(diào)數(shù)據(jù)化是“量化過程”,后者則進一步認為數(shù)據(jù)化不僅包括“量化過程”,并且強調(diào)了數(shù)據(jù)的“結(jié)構(gòu)化過程”。
其實,數(shù)據(jù)化是從思維到實踐的全面變革,指的是數(shù)據(jù)成為人類社會實踐中必不可少的工具。數(shù)據(jù)化與量化似乎是不一致的,就像前文定義中所述,既然數(shù)據(jù)不僅包含數(shù)值,也指對事物的描述,那么數(shù)據(jù)化的概念就不僅是量化,也包含量化以外的內(nèi)容。但是“一切皆可量化”[8,11]的觀點主張,所有無形之物均有法可測,從這個角度來說,盡管數(shù)據(jù)包含非數(shù)量化的內(nèi)容,但是本質(zhì)上仍是可量化的,描述性的數(shù)據(jù)為量化結(jié)論提供了依據(jù),所以數(shù)據(jù)化與量化的宗旨并無實質(zhì)區(qū)別,可認為兩者是一致的。
12數(shù)字化和大數(shù)據(jù)
維克托·邁爾-舍恩伯格[8]認為,數(shù)據(jù)化和數(shù)字化大相徑庭;數(shù)字化指的是把模擬數(shù)據(jù)轉(zhuǎn)換成二進制碼,而計量和記錄的需求卻是數(shù)據(jù)化的前提;在數(shù)字化時代來臨的幾個世紀前就已經(jīng)奠定好了數(shù)據(jù)化的基礎(chǔ);因此,數(shù)字化帶來了數(shù)據(jù)化,但是數(shù)字化無法取代數(shù)據(jù)化。姜浩[10]認為,數(shù)據(jù)化是對數(shù)字化的拓展與推進,是在電子化、信息化、計算機化和網(wǎng)絡(luò)化等術(shù)語之間自然出現(xiàn)的,關(guān)注的焦點更多地集中在數(shù)字比特更復(fù)雜、更高級的存在形態(tài)上;數(shù)字化對應(yīng)的基本單元是比特,數(shù)據(jù)化對應(yīng)的典型對象則是字節(jié)和字。可見,數(shù)字化著力關(guān)注信息技術(shù),數(shù)據(jù)化卻著重關(guān)注信息內(nèi)容及形態(tài)。
筆者認為,數(shù)據(jù)化甚至可以先于信息技術(shù)存在,大數(shù)據(jù)的發(fā)展和計算機的變革并不是同步的。雖然數(shù)字化讓大數(shù)據(jù)成為了可能,但是大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望,即數(shù)據(jù)化的需求和動力。數(shù)字化關(guān)注的焦點是技術(shù),而大數(shù)據(jù)關(guān)注的焦點是信息。在大數(shù)據(jù)時代,數(shù)據(jù)的價值從它最基本的用途轉(zhuǎn)變?yōu)槲磥淼臐撛谟猛?,這一轉(zhuǎn)變影響并改變了組織看待和使用數(shù)據(jù)的方式[8]。這就注定大數(shù)據(jù)雖然離不開數(shù)字化,但是與數(shù)據(jù)化也是密不可分的。
13學(xué)術(shù)評價的數(shù)據(jù)化
基于上述分析,數(shù)據(jù)化是指盡可能地將評價活動形成數(shù)據(jù)并進行記錄和管理[7];大數(shù)據(jù)時代的學(xué)術(shù)評價要實現(xiàn)的數(shù)據(jù)化,是指對學(xué)術(shù)活動進行全面地記錄、存儲、統(tǒng)計并形成有價值數(shù)據(jù)的過程,從而支撐對學(xué)術(shù)生態(tài)中各類對象的質(zhì)量或水平等做出判斷。這樣的學(xué)術(shù)評價大數(shù)據(jù)具有全面、廣泛、實時更新等特征,能夠充分反映學(xué)術(shù)活動各個環(huán)節(jié)的發(fā)展狀況?;谶@樣的數(shù)據(jù)化,將使學(xué)術(shù)評價活動從直接的主觀判斷或基于小數(shù)據(jù)的判斷,轉(zhuǎn)變?yōu)榛谠u價大數(shù)據(jù)的判斷。因此,必須分析學(xué)術(shù)生態(tài)系統(tǒng)的組成要素和活動過程,記錄、存儲、統(tǒng)計,甚至創(chuàng)造出評價所需的數(shù)據(jù)。
若把世界分為實體世界、思維世界、虛擬世界3個維度,數(shù)據(jù)化則是對實體世界的表示,也是思維世界的智能外化為虛擬世界數(shù)據(jù)的過程[10]。從這個角度說,學(xué)術(shù)評價的數(shù)據(jù)化,就是對實體世界中的學(xué)術(shù)活動進行記錄、存儲,學(xué)術(shù)評價中評委的主要任務(wù)就是通過虛擬世界的數(shù)據(jù)充分了解實體世界的信息,并結(jié)合思維世界中的信息做出學(xué)術(shù)評價結(jié)論,即做出基于數(shù)據(jù)的決策(Data Driven Decision Making,DDD),而不僅僅是基于直覺、拍腦袋進行決策[1]。研究表明,以這樣的數(shù)據(jù)做參考,傳統(tǒng)專家能夠做出更準確的建議[12]。這說明,大數(shù)據(jù)將使學(xué)術(shù)評價活動變得更為智能。
2學(xué)術(shù)評價數(shù)據(jù)化的難點分析
21數(shù)據(jù)缺失或“隱形”
評價數(shù)據(jù)的缺失是指評價數(shù)據(jù)與需求存在錯位,即有些評價需求缺少相關(guān)數(shù)據(jù)的支撐。評價數(shù)據(jù)首先要滿足學(xué)術(shù)發(fā)展自身的需求,盡可能全面、準確、及時地反映學(xué)術(shù)狀況和趨勢。其次,評價數(shù)據(jù)要滿足管理部門的需求,為其了解發(fā)展態(tài)勢、判斷發(fā)展水平、遴選人才、資源配置、制定政策等提供數(shù)據(jù)支撐。第三,評價數(shù)據(jù)要滿足社會大眾,尤其是學(xué)術(shù)成果直接用戶或利益相關(guān)者的需求,他們需要了解科研機構(gòu)實力、學(xué)者水平、成果質(zhì)量等方面的數(shù)據(jù)。有些評價活動雖然發(fā)生了,如學(xué)位論文評審、期刊論文評審、學(xué)術(shù)會議交流等,但這些評價數(shù)據(jù)有些未被及時記錄,有些記錄被束之高閣再無人問津,姑且稱之為“隱形數(shù)據(jù)”,本質(zhì)上也是評價數(shù)據(jù)的缺失。
評價數(shù)據(jù)覆蓋的評價對象不全及其引起的不同類型評價數(shù)據(jù)建設(shè)不均衡,是數(shù)據(jù)缺失的顯著表現(xiàn)之一。2020年2月,教育部、科技部印發(fā)的《關(guān)于規(guī)范高等學(xué)校SCI論文相關(guān)指標使用樹立正確評價導(dǎo)向的若干意見》提出了“摒棄‘以刊評文”“破除SCI至上”“完善同行評價”等具體意見,側(cè)面反映了這一狀況:“以刊評文”現(xiàn)象說明期刊評價數(shù)據(jù)較充分、論文評價數(shù)據(jù)相對不足;“SCI至上”說明國內(nèi)外期刊的評價數(shù)據(jù)不對等;“須完善同行評議”則說明引文計量為主的定量評價數(shù)據(jù)較多,但同行評議數(shù)據(jù)仍然較缺乏。
盡管目前我國的“千人計劃”“杰出青年”“長江學(xué)者”等評價體系很多,但是關(guān)于學(xué)者的評價數(shù)據(jù)仍是相對缺乏的。2018年11月,教育部辦公廳印發(fā)了《關(guān)于開展清理“唯論文、唯帽子、唯職稱、唯學(xué)歷、唯獎項”專項行動的通知》,從一個側(cè)面說明關(guān)于學(xué)者的評價數(shù)據(jù)仍然不能滿足政府遴選人才的需求。
對于社會大眾來講,了解各領(lǐng)域的高水平學(xué)術(shù)成果,用于有效的生產(chǎn)轉(zhuǎn)化、升學(xué)報考等需求的確切數(shù)據(jù)還很不足,這也是評價數(shù)據(jù)缺失的表現(xiàn)。學(xué)術(shù)評價數(shù)據(jù)化是對學(xué)術(shù)活動尤其是評價相關(guān)活動的記錄、存儲、描述,正是解決這一難點的基本思路。
22數(shù)據(jù)難獲取
當前,中國的學(xué)術(shù)評價數(shù)據(jù)主要包括如下類別:
第一,圖書館館藏或成果數(shù)據(jù)庫,其中包括成果的出版信息和少量可用于學(xué)術(shù)評價的下載、使用等數(shù)據(jù)。此類數(shù)據(jù)有些是公共部門掌管,有些則為企業(yè)所有,此類數(shù)據(jù)的數(shù)字化程度較高、可獲取性較強,且已覆蓋絕大多數(shù)科研成果。
第二,引文數(shù)據(jù)庫或評價數(shù)據(jù)庫,通常由各類專業(yè)評價機構(gòu)建設(shè)而成,總體上也覆蓋了絕大多數(shù)正式發(fā)表的期刊論文,專著、報告、會議論文、學(xué)位論文等類型也有一定程度的涉及,有些評價數(shù)據(jù)庫還涉及學(xué)者評價、機構(gòu)評價、學(xué)科評價等數(shù)據(jù),可獲取性較強。
第三,科研管理部門、政府管理部門和學(xué)術(shù)發(fā)表載體(如期刊)的評價、考核與獎勵數(shù)據(jù),這部分數(shù)據(jù)盡管整體上數(shù)量不小,但是數(shù)據(jù)通常掌握在采集者的手中,其他人較難獲取。
第四,互聯(lián)網(wǎng)和社會網(wǎng)絡(luò)評價數(shù)據(jù),如各類學(xué)術(shù)社區(qū)的數(shù)據(jù),具有一定的可獲取性。
以上所列舉的各類評價數(shù)據(jù),掌握在不同主體的手中,這種分散狀態(tài)導(dǎo)致的最大問題是有些數(shù)據(jù)難以被評價需求者獲取。商業(yè)性的數(shù)據(jù)庫可以通過交易獲取,但是有些公共部門為了特定目標生成的評價數(shù)據(jù)如何提供給其他用戶使用,尚無明確的機制或規(guī)程。然而,“大數(shù)據(jù)的價值不再單純來源于它的基本用途,而更多源于它的二次利用”[8],一旦解決了獲取性問題,這樣的評價大數(shù)據(jù)必然會對學(xué)術(shù)發(fā)展起到更為直接的推動作用。
23數(shù)據(jù)質(zhì)量低
在大數(shù)據(jù)時代,盡管對數(shù)據(jù)細節(jié)的精確性要求降低了,但是對數(shù)據(jù)整體的質(zhì)量要求仍然很高。谷歌利用大數(shù)據(jù)預(yù)測流感發(fā)生的錯誤率是傳統(tǒng)預(yù)測方式的15倍左右[4],正說明即使是大數(shù)據(jù),也不能過度強調(diào)混雜性而完全忽略數(shù)據(jù)質(zhì)量低、甚至不可用的問題。數(shù)據(jù)的質(zhì)量至少包括正確性和唯一性兩方面,其中前者又包括完整性、一致性、密度等內(nèi)容[1]。對于評價數(shù)據(jù)來講,對數(shù)據(jù)質(zhì)量的要求更高一些。
低質(zhì)量的數(shù)據(jù)通常存在如下4類問題,評價數(shù)據(jù)也不例外,即數(shù)據(jù)錯誤、數(shù)據(jù)異常、數(shù)據(jù)非結(jié)構(gòu)化和數(shù)據(jù)異構(gòu)。數(shù)據(jù)錯誤是很常見的,但在大數(shù)據(jù)中只要控制在一定范圍內(nèi)就可以;數(shù)據(jù)異??梢苑譃檎Z法類、語義類、覆蓋類3類異常[1]。然而,數(shù)據(jù)錯誤和數(shù)據(jù)異常的存在要求數(shù)據(jù)化過程中必須進行數(shù)據(jù)清洗。
按數(shù)據(jù)的結(jié)構(gòu)化程度可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。不同于傳統(tǒng)數(shù)據(jù)的特征之一是,絕大多數(shù)的大數(shù)據(jù)天生是非結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)化數(shù)據(jù),因而需要被有別于傳統(tǒng)的信息處理、分析技術(shù)和工具[13]。嚴格來說,數(shù)據(jù)非結(jié)構(gòu)化不是錯誤,但是對于數(shù)據(jù)的開發(fā)利用卻有很多不便,這就需要通過ETL(抽取、轉(zhuǎn)換和裝載)使描述同樣實體、事件的數(shù)據(jù)保持內(nèi)在聯(lián)系,還需要通過數(shù)據(jù)集成把不同來源、類型多樣、不同介質(zhì)的異構(gòu)數(shù)據(jù)整合在一起,提升數(shù)據(jù)的價值。
24數(shù)據(jù)化成本高
數(shù)據(jù)化的成本高這一觀點,本身就是一個錯誤的判斷,究其根源在于觀念和視角問題。因為無數(shù)的大數(shù)據(jù)實踐已證明了大數(shù)據(jù)的規(guī)模效應(yīng)和高效率,且能帶來明顯的成本降低的效果。如GroupM廣告?zhèn)髅酵顿Y管理機構(gòu),追蹤該公司各站點節(jié)目收看的數(shù)據(jù),通過紐約總部集中式的大數(shù)據(jù)追蹤方法,追蹤成本僅為原來的1/3多一點;Macys百貨連鎖公司,通過大數(shù)據(jù)可以將商品定價時間從27個多小時縮減至1個多小時,在硬件方面也降低了70%的成本;與10年前相比,今天有大量廉價和免費的大數(shù)據(jù)資源可供使用,如亞馬遜的彈性計算云、谷歌的計算引擎、微軟的Windows Azure;創(chuàng)業(yè)公司Recorded Future的CEO克里斯托弗·艾爾博格說:“我們使用的云計算實際上是相當昂貴的。但是,從一個架構(gòu)到另一個架構(gòu)的轉(zhuǎn)換成本大幅下降,或許下降了一兩個數(shù)量級。”[2]
對于學(xué)術(shù)評價數(shù)據(jù)化來講,關(guān)于成本要考慮的一個關(guān)鍵問題是“誰來買單”。在學(xué)術(shù)評價數(shù)據(jù)建設(shè)中,既有商業(yè)機構(gòu)也有公共機構(gòu),商業(yè)機構(gòu)投資評價數(shù)據(jù)的欲望與其他所有大數(shù)據(jù)的企業(yè)一般無二。公共機構(gòu)則不然,但公共機構(gòu)組織的各類大學(xué)排名、學(xué)科評估、人才選拔等評價活動,同樣也面臨實實在在的影響力競爭。既然“逃避數(shù)據(jù)化走向衰落”[10]已是不可回避的規(guī)律,那么唯一的選擇是“追求更強的數(shù)據(jù)力”。因此,評價數(shù)據(jù)建設(shè)各方的利益協(xié)調(diào)是必須要解決的難點。
25數(shù)據(jù)化意識不足
數(shù)據(jù)化的最后一個難點是意識不足。這似乎不能稱其為一個問題,但絕不能視而不見。數(shù)據(jù)化意識至少涉及兩個層面:一是前文提到的數(shù)字化與數(shù)據(jù)化的關(guān)系,此意識決定關(guān)注焦點是技術(shù)還是內(nèi)容;二是如何看待數(shù)據(jù)的價值,這將決定包含第一層在內(nèi)的大數(shù)據(jù)思維。這兩層都涉及數(shù)據(jù)相關(guān)的權(quán)利問題。
在數(shù)字化時代,數(shù)據(jù)只是被交易的對象,其直接用途被重視但間接作用被忽視。而在大數(shù)據(jù)時代,數(shù)據(jù)在未來的潛在用途更為重要,這無疑改變了我們看待和使用數(shù)據(jù)的方式。數(shù)據(jù)的直接價值就像海洋表面能看到的冰山一角,而真實價值就像整座冰山,也就是說,大數(shù)據(jù)的綜合價值比部分更有價值,而大數(shù)據(jù)價值鏈應(yīng)由數(shù)據(jù)、技術(shù)和思維3部分構(gòu)成[8]。我們要深刻地認識到,大數(shù)據(jù)特有的價值源于其規(guī)模效應(yīng),當數(shù)據(jù)量足夠大時,其價值能夠產(chǎn)生從量變到質(zhì)變的效應(yīng)[1],這樣的價值認知意味著大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)存在本質(zhì)區(qū)別。
對于學(xué)術(shù)評價數(shù)據(jù)化來講,評價大數(shù)據(jù)的價值不僅在于改變傳統(tǒng)評價中依賴“拍腦袋”或“樣本數(shù)據(jù)”的現(xiàn)狀,轉(zhuǎn)變到依賴更為可靠的“大數(shù)據(jù)”,更在于通過數(shù)據(jù)化清晰描述和記錄學(xué)術(shù)發(fā)展的軌跡,從而為更準確地發(fā)現(xiàn)學(xué)術(shù)發(fā)展的規(guī)律、繁榮學(xué)術(shù)科研、促進學(xué)術(shù)成果的轉(zhuǎn)化應(yīng)用,提供源源不斷的數(shù)據(jù)源動力。近年來,學(xué)術(shù)評價相關(guān)的管理政策一再強調(diào)“科學(xué)的量化評價”“加強定性評價”,這都需要來自學(xué)術(shù)評價數(shù)據(jù)化的有力支撐。
3學(xué)術(shù)評價數(shù)據(jù)化難點的應(yīng)對研究
為應(yīng)對上述學(xué)術(shù)評價數(shù)據(jù)化的難點,須從數(shù)據(jù)化的基本框架、學(xué)術(shù)評價體系變革、數(shù)據(jù)化推進策略3個方面著手,理順策略、規(guī)避風(fēng)險、推動實踐。
31搭建學(xué)術(shù)評價數(shù)據(jù)化的基本框架
搭建學(xué)術(shù)評價數(shù)據(jù)化的基本框架,即明確數(shù)據(jù)化相關(guān)要素的組成、實現(xiàn)模式及相關(guān)作用機理,是在學(xué)術(shù)生態(tài)系統(tǒng)的內(nèi)部深度認識數(shù)據(jù)化現(xiàn)狀并明確其推進路徑的必要過程。
311數(shù)據(jù)化的對象(即實體或事件)
明確數(shù)據(jù)化的對象,是對評價所涉及的學(xué)術(shù)生態(tài)系統(tǒng)要素及其關(guān)系的再梳理與優(yōu)化過程。數(shù)據(jù)化是對實體或事件的描述和量化,那么首先就要確定學(xué)術(shù)評價的哪些實體或事件可以數(shù)據(jù)化、應(yīng)該數(shù)據(jù)化。數(shù)據(jù)化的對象應(yīng)全面覆蓋學(xué)術(shù)生態(tài)系統(tǒng)的組成要素并保持關(guān)聯(lián)度,包括學(xué)術(shù)成果及出版、學(xué)術(shù)活動與交流、學(xué)者及其重要行為、科研管理考核與獎勵、成果普及與推廣應(yīng)用、學(xué)術(shù)服務(wù)等各類信息。目前,學(xué)術(shù)成果與出版信息的數(shù)據(jù)化程度相對較高,其余實體或事件的數(shù)據(jù)化程度尚與評價需求存在較大差距,其數(shù)據(jù)化也尚未得到充分重視,理應(yīng)作為數(shù)據(jù)化實踐的難點和重點。
312數(shù)據(jù)化的主體和用戶
在數(shù)據(jù)化的推進過程中,主體和用戶共同推進學(xué)術(shù)生態(tài)系統(tǒng)的升級換代。數(shù)據(jù)化的主體即學(xué)術(shù)評價數(shù)據(jù)化的實施者,包括數(shù)據(jù)的建設(shè)者和挖掘者。數(shù)據(jù)化的用戶則是學(xué)術(shù)評價大數(shù)據(jù)的需求者或受益者。如前所述,目前,我國的學(xué)術(shù)評價數(shù)據(jù)實施者包括公共機構(gòu)、商業(yè)機構(gòu),也包括學(xué)者群體。數(shù)據(jù)化的需求者或受益者則包括學(xué)者、管理者和社會大眾,其中管理者至少分為科研管理者、公共機構(gòu)管理者和企業(yè)管理者,社會大眾則因需求復(fù)雜,組成群體也較為多樣。
用戶對公正、全面、準確的學(xué)術(shù)評價數(shù)據(jù)的迫切需求,是數(shù)據(jù)化發(fā)展的動力所在,也對數(shù)據(jù)化主體提出了更高的要求。其中,學(xué)者和科研管理者既是數(shù)據(jù)化的主體也是用戶,是學(xué)術(shù)生態(tài)系統(tǒng)內(nèi)生的數(shù)據(jù)化核心動力。評價數(shù)據(jù)化過程既會改變生態(tài)系統(tǒng)中各要素的組成結(jié)構(gòu)甚至相互關(guān)系,也將改變學(xué)者的行為模式,推動學(xué)術(shù)研究向“數(shù)據(jù)密集式研究”發(fā)展[4]。
313評價數(shù)據(jù)的類型
數(shù)據(jù)類型存在差異,其數(shù)據(jù)化方式也可能不同。評價數(shù)據(jù)的分類方式很多,按其產(chǎn)生方式可分為內(nèi)容數(shù)據(jù)、行為數(shù)據(jù)和環(huán)境數(shù)據(jù)[4]。其中,內(nèi)容數(shù)據(jù)主要是指學(xué)術(shù)成果信息,行為數(shù)據(jù)主要是指主體對學(xué)術(shù)成果或?qū)嶓w的評議、引用、下載、交流等活動信息,環(huán)境數(shù)據(jù)是指科研管理政策與制度、網(wǎng)絡(luò)和系統(tǒng)環(huán)境等方面的信息。當前,在學(xué)術(shù)評價的內(nèi)容數(shù)據(jù)中,正式出版或發(fā)表的成果數(shù)據(jù)化程度較高,數(shù)據(jù)化難點在于非正式出版部分;行為數(shù)據(jù)中引用、下載的數(shù)據(jù)化程度相對較好,評議、交流等其他活動的數(shù)據(jù)化情況較差;環(huán)境數(shù)據(jù)則普遍缺乏有效記錄和規(guī)范管理,可用性不足;三類數(shù)據(jù)之間的關(guān)聯(lián)性更是堪憂。因此,推進評價行為與環(huán)境兩方面較為缺失數(shù)據(jù)的數(shù)據(jù)化,是提升學(xué)術(shù)評價數(shù)據(jù)化整體價值的重心。
314數(shù)據(jù)的采集方式
數(shù)據(jù)采集是把相關(guān)的業(yè)務(wù)數(shù)據(jù)采集保存起來[1]。采集方式的設(shè)計集中體現(xiàn)在數(shù)據(jù)化的智能性和創(chuàng)新性。學(xué)術(shù)評價數(shù)據(jù)的采集方式至少包括如下3種:一是從學(xué)術(shù)成果出版物上采集,如出版信息、引文數(shù)據(jù);二是網(wǎng)絡(luò)抓取,如下載率、書評等;三是面向評價活動采集,如填寫評分表。3種方式在科學(xué)性和可行性方面難度各異,更大的難點在于將3種方式采集的數(shù)據(jù)關(guān)聯(lián)整合。大數(shù)據(jù)的理念倡導(dǎo)創(chuàng)造性地、低成本地將數(shù)據(jù)從最不可能的地方、從看上去沒什么用處的事物中提取出來并轉(zhuǎn)化成具有獨特價值的信息。評價數(shù)據(jù)化就是要基于這樣的理念,深入分析并發(fā)掘適合各類數(shù)據(jù)特征的采集方式,使學(xué)術(shù)評價數(shù)據(jù)建設(shè)更科學(xué)、更便捷。
315數(shù)據(jù)化的實施分層
可將數(shù)據(jù)化分為微觀和宏觀兩個層面。學(xué)術(shù)評價數(shù)據(jù)化的推行,在不同層面有不同的側(cè)重和要求。微觀層面的評價數(shù)據(jù)化是指單個數(shù)據(jù)化主體開展的評價活動,如某學(xué)者為某項研究而做的評價,某機構(gòu)對內(nèi)部科研績效的評價等。微觀層面的數(shù)據(jù)化要轉(zhuǎn)變觀念,擅于發(fā)現(xiàn)評價活動的數(shù)據(jù)價值和需求,注重對日常數(shù)據(jù)的采集和存儲,逐步建立個人或機構(gòu)的評價數(shù)據(jù)池。宏觀層面的評價數(shù)據(jù)化則是針對整個學(xué)術(shù)生態(tài)系統(tǒng)而言的,涉及所有相關(guān)實體和事件的數(shù)據(jù)化,重點在于不同來源數(shù)據(jù)的集成和宏觀學(xué)術(shù)管理政策的制定,著重解決數(shù)據(jù)權(quán)利、采集方式、集成要求等方面的問題。
32變革學(xué)術(shù)評價的體系和流程
數(shù)據(jù)化的過程不是孤立的,而是伴隨著學(xué)術(shù)評價體系和流程的變革。只有充分認識變革的實質(zhì),才能使評價數(shù)據(jù)化真正落地。
321重構(gòu)學(xué)術(shù)評價體系
大數(shù)據(jù)時代,評價數(shù)據(jù)化直接改變了學(xué)術(shù)評價方法與工具這一要素,但同時也將對學(xué)術(shù)評價目標、主體、對象、流程、政策與環(huán)境等評價體系中的其他各要素產(chǎn)生變革[14]。具體來講,數(shù)據(jù)化使數(shù)據(jù)在評價中的重要性顯著提升,并要求數(shù)據(jù)符合大數(shù)據(jù)的要求,更全面、更高質(zhì)量、更易挖掘,相應(yīng)地,評價數(shù)據(jù)統(tǒng)計分析的技術(shù)、方法和工具也要更先進、更豐富、更符合大數(shù)據(jù)的特征,這樣的變化將從本質(zhì)上改變評價主體的行為模式,使之從偏重主觀或參考樣本的決策模式,轉(zhuǎn)變到大數(shù)據(jù)驅(qū)動決策的模式。為此,數(shù)據(jù)化必然使學(xué)術(shù)評價體系的其他要素根據(jù)新情況做出相應(yīng)改變,形成新的學(xué)術(shù)評價體系框架。
322重塑學(xué)術(shù)評價流程
傳統(tǒng)環(huán)境下的學(xué)術(shù)評價流程大體如下:先明確評價目標和對象,再構(gòu)建評價指標體系,之后根據(jù)目標和體系遴選專家或按指標采集數(shù)據(jù)(或二者兼有),最后形成評價結(jié)果。這樣的流程是以評價目的為導(dǎo)向、以指標體系為引領(lǐng)、以數(shù)據(jù)分析為輔助的。
數(shù)據(jù)化必將重塑學(xué)術(shù)評價的流程,新的流程將以發(fā)現(xiàn)數(shù)據(jù)的評價價值為導(dǎo)向、以基于數(shù)據(jù)的價值判斷為引領(lǐng)、以對評價活動的規(guī)范和監(jiān)督為輔助,從而滿足各類評價目標,其顯著特征是數(shù)據(jù)將處于評價流程更前端、更重要的位置。借鑒大數(shù)據(jù)分析生命周期的基本流程[13],數(shù)據(jù)化之后的學(xué)術(shù)評價流程如圖1所示。
根據(jù)圖1,基于大數(shù)據(jù)的評價流程可大致概括為:隨時發(fā)現(xiàn)評價需求或潛在數(shù)據(jù)源,采集數(shù)據(jù)和優(yōu)化工具,根據(jù)具體需求設(shè)計具體的評價指標體系,落實評價實施方案并得出評價結(jié)果。也就是說,不需為某個具體的評價活動專門采集和建設(shè)數(shù)據(jù),評價數(shù)據(jù)建設(shè)將成為學(xué)術(shù)生態(tài)系統(tǒng)的一項常規(guī)活動。
33制定學(xué)術(shù)評價數(shù)據(jù)化的關(guān)鍵策略
面對學(xué)術(shù)評價數(shù)據(jù)化的難點,以下5個方面應(yīng)作為推進數(shù)據(jù)化的進程的關(guān)鍵策略。
331評價數(shù)據(jù)采集常態(tài)化
數(shù)據(jù)采集常態(tài)化是指把評價數(shù)據(jù)采集作為數(shù)據(jù)化主體的日?;顒?,及時記錄、采集、存儲學(xué)術(shù)評價活動乃至學(xué)術(shù)活動的相關(guān)信息。建立這一機制旨在應(yīng)對數(shù)據(jù)缺失和“隱形”問題。學(xué)術(shù)評價是學(xué)術(shù)生態(tài)系統(tǒng)和學(xué)術(shù)發(fā)展不可或缺的組成部分。由于二次利用(或稱再利用)是大數(shù)據(jù)主要價值來源,評價數(shù)據(jù)理應(yīng)被常態(tài)化持續(xù)采集,并作為推進學(xué)術(shù)發(fā)展、優(yōu)化管理決策的依據(jù)。唯有如此,才能使學(xué)術(shù)數(shù)據(jù)實現(xiàn)“一次創(chuàng)造、多次利用”的潛在價值。因此,無論在微觀層面還是在宏觀層面,無論是商業(yè)機構(gòu)還是公共機構(gòu),無論是學(xué)者個人還是管理部門,建立評價數(shù)據(jù)采集的常態(tài)化機制均是大勢所趨。
332評價數(shù)據(jù)形態(tài)顯形化
評價數(shù)據(jù)形態(tài)顯形化是指評價數(shù)據(jù)“看得見、摸得著、用得上”,包含兩層含義:一是指從已發(fā)生的評價行為或活動中,提取描述這些行為或活動的數(shù)據(jù);二是指對已存在的數(shù)據(jù)進行處理,使之更規(guī)范、更可用,更好地支撐評價決策。“隱形”數(shù)據(jù)因其存在方式或形態(tài)問題,使利用者看不到其價值,所以通常不會去挖掘、開發(fā)、利用。顯形化的關(guān)鍵在于擅于發(fā)現(xiàn)那些“隱形”數(shù)據(jù),主要方式是改進數(shù)據(jù)的提取、轉(zhuǎn)化、存儲、清洗、檢索、利用等技術(shù),使數(shù)據(jù)價值顯現(xiàn),數(shù)據(jù)可視化、社交網(wǎng)絡(luò)分析、云計算平臺、Hadoop、Spark等均可作為可選的技術(shù)方法。
333評價數(shù)據(jù)存儲集成化
數(shù)據(jù)存儲集成化是指把不同來源的數(shù)據(jù)整合在一起,提供可以觀察、統(tǒng)計、分析所有數(shù)據(jù)的統(tǒng)一視圖的過程。這一策略主要針對評價數(shù)據(jù)存儲分散、格式不統(tǒng)一導(dǎo)致的數(shù)據(jù)難獲取問題。數(shù)據(jù)集成通常分為物理式和虛擬式2類;集成的方式包括聯(lián)邦式、數(shù)據(jù)倉庫和中介者3種[1]。對于評價數(shù)據(jù)來講,數(shù)據(jù)集成首先要確定針對同一實體或事件的數(shù)據(jù)關(guān)聯(lián)起來,即針對同一期刊、成果、機構(gòu)、學(xué)者的不同評價數(shù)據(jù)之間相關(guān)聯(lián);其次要以成果為紐帶,使學(xué)術(shù)生態(tài)系統(tǒng)中的數(shù)據(jù)實現(xiàn)有機關(guān)聯(lián),如論文發(fā)表的期刊、作者、作者機構(gòu)通過論文關(guān)聯(lián)起來,其附屬的學(xué)科屬性、地區(qū)屬性等也隨之產(chǎn)生關(guān)聯(lián)。評價數(shù)據(jù)集成化可把數(shù)據(jù)碎片形成整張“圖畫”,使評價數(shù)據(jù)之水流動起來,形成既可表達學(xué)術(shù)活動又可供價值挖掘的大數(shù)據(jù)“活泉”。
334評價數(shù)據(jù)應(yīng)用多樣化
評價數(shù)據(jù)應(yīng)用多樣化是評價數(shù)據(jù)化的延伸,在基于大數(shù)據(jù)的學(xué)術(shù)評價新模式中,是指數(shù)據(jù)化的目標要面向多樣化的目標場景,而非僵化地為單一場景而設(shè)計。為此,評價數(shù)據(jù)在采集和處理時應(yīng)覆蓋多種數(shù)據(jù)源和格式類型、多種評價活動相關(guān)的實體和事件、多種評價對象和評價主體的需求,有利于應(yīng)用多種評價標準和指標體系、多種評價方法,并形成多樣化的評價結(jié)果分析和展現(xiàn)方式。
335評價數(shù)據(jù)管理制度化
學(xué)術(shù)評價數(shù)據(jù)的管理尚無完善的制度可依,但管理規(guī)范和制度化應(yīng)是數(shù)據(jù)化的目標之一。盡管人們已經(jīng)在如火如荼地挖掘和享用大數(shù)據(jù),但諸多相關(guān)問題仍待解決。如,數(shù)據(jù)屬于誰?誰可以采集數(shù)據(jù)?誰可以掌控數(shù)據(jù)?誰可以使用數(shù)據(jù)?“學(xué)術(shù)乃天下之公器”的共識,使學(xué)術(shù)生態(tài)系統(tǒng)內(nèi)的眾多學(xué)者愿意為這一共同理想和建設(shè)學(xué)術(shù)評價大數(shù)據(jù)而努力。然而,在微觀層面上,數(shù)據(jù)化的不同主體、用戶的利益差異和沖突仍是客觀存在的。其中最突出的是數(shù)據(jù)涉及的隱私權(quán)問題和數(shù)據(jù)相關(guān)的商業(yè)利益分配問題。
在通過制度對評價數(shù)據(jù)的權(quán)利進行界定時,筆者贊成這樣的原則,即“只要未對實體造成侵害的數(shù)據(jù)行為,都不應(yīng)該列入法律懲罰范疇”[10],因為“即使某項技術(shù)存在隱患,不管我們多么不安,它的某些好處總能迅速誘使人們接受它”[3]。也就是說,在推進學(xué)術(shù)評價數(shù)據(jù)化時,我們的制度應(yīng)該傾向于盡可能地挖掘大數(shù)據(jù)的價值,而不是因為風(fēng)險畏首畏尾,相關(guān)制度應(yīng)著力使可操作的數(shù)據(jù)化行為落地、合法、有益。在制度化的同時也要著力打造大數(shù)據(jù)文化,包括對現(xiàn)狀的緊迫感、重視創(chuàng)新和探索、相信技術(shù)是突破的源泉、具備奉獻精神、實現(xiàn)扁平化管理以及精英式管理等[2]。
4結(jié)語
數(shù)據(jù)化是為了讓學(xué)術(shù)評價主體更好地判斷,所以評價仍然離不開評委的思考和決策,因為如何使用數(shù)據(jù)更重要。通過數(shù)據(jù)化推進大數(shù)據(jù)時代的學(xué)術(shù)評價,更為重要的目標是改進學(xué)術(shù)生態(tài)系統(tǒng)的運作模式,重塑學(xué)者的學(xué)術(shù)理想。長期以來,對學(xué)術(shù)生態(tài)系統(tǒng)各要素進行準確、及時、有效地評價,是學(xué)術(shù)評價研究者與實踐者,乃至于整個學(xué)術(shù)界和相關(guān)管理者的終極追求,但學(xué)術(shù)評價的效果卻不盡如人意。數(shù)據(jù)化是輔助評價決策的有力武器,是推動“以成果的質(zhì)量和效用論英雄”的有效路徑,也是間接推動學(xué)術(shù)生態(tài)系統(tǒng)中“學(xué)術(shù)評價民主集中制”的重要抓手。
學(xué)術(shù)界改革的首要任務(wù)是學(xué)術(shù)評價改革,因為評價(和獎勵)是“指揮棒”。數(shù)據(jù)化并不等于“量多者勝”,而是要更全面、更充分地從數(shù)據(jù)中挖掘出價值。評價之權(quán)利,“還政”于學(xué)者。自由的學(xué)術(shù)研究,依靠更為充分的學(xué)術(shù)評價、更為客觀的評價結(jié)果,這應(yīng)作為促進學(xué)術(shù)生態(tài)系統(tǒng)健康發(fā)展的基本機制。通過大數(shù)據(jù)將學(xué)術(shù)發(fā)展的過去、現(xiàn)在和未來連接起來,用數(shù)據(jù)減少行政干預(yù),充分發(fā)揮學(xué)者參與的評價數(shù)據(jù)化的作用,才能實現(xiàn)數(shù)據(jù)化的初衷。
參考文獻
[1]覃雄派,陳躍國,杜小勇.數(shù)據(jù)科學(xué)概論[M].北京:中國人民大學(xué)出版社,2018:74-85.
[2](美)托馬斯·達文波特.數(shù)據(jù)化轉(zhuǎn)型[M].盛楊燦,譯.杭州:浙江人民出版社,2018:74-76,145-149,169,188.
[3](美)艾伯特-拉斯洛·巴拉巴西.爆發(fā):大數(shù)據(jù)時代預(yù)見未來的新思維[M].馬慧,譯.北京:中國人民大學(xué)出版社,2012:133-144,253.
[4]林建寧,周忠高.數(shù)據(jù)與社會科學(xué)發(fā)展[M].濟南:山東人民出版社,2017:43,100-105,121.
[5]張風(fēng)帆,夏園園,計彤.我國學(xué)術(shù)生態(tài)系統(tǒng)的自組織模型研究[J].科教文匯,2013,(10):104-105.
[6]楊英倫,楊紅艷.學(xué)術(shù)評價大數(shù)據(jù)之路的推進策略研究[J].情報理論與實踐,2019,(5):62-66.
[7]楊紅艷.順勢而為:基于大數(shù)據(jù)的學(xué)術(shù)評價新模式探析[J].甘肅社會科學(xué),2018,(3):76-81.
[8](英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:127-197.
[9](美)Brian W Kernighan.世界是數(shù)字的[M].李松峰,譯.北京:人民郵電出版社,2013:1-20.
[10]姜浩.數(shù)據(jù)化:由內(nèi)而外的智能[M].北京:中國傳媒大學(xué)出版社,2017:28,113,161-199.
[11](美)道格拉斯·W哈伯德.數(shù)據(jù)化決策[M].鄧洪濤,譯.廣東:廣東人民出版社,2018:1-40.
[12](美)伊恩·艾瑞斯.大數(shù)據(jù)思維與決策[M].宮相真,譯.北京:人民郵電出版社,2014:115.
[13](美)EMC Education Services.數(shù)據(jù)科學(xué)與大數(shù)據(jù)分析:數(shù)據(jù)的發(fā)現(xiàn)分析可視化與表示[M].曹逾,劉文苗,李楓林,譯.北京:人民郵電出版社,2016:1-5.
[14]蔣玲,楊紅艷.大數(shù)據(jù)時代人文社科成果評價變革探析[J].情報資料工作,2015,(3):92-97.
(責(zé)任編輯:陳媛)