高亮++胡慶亮
摘要:大數(shù)據(jù)技術有效解決了學科評估中采集數(shù)據(jù)的困難,通過建立業(yè)務指標和評估指標的對應關系保證了評估指標的兼容性和擴展性,使評估指標體系更容易落地,OLAP技術的應用提高了學科評估工作效率。大數(shù)據(jù)相關技術在學科評估中的運用改變了以往的工作模式,具有創(chuàng)新意義,實踐證明該技術方案使學科評估實施更加快速、有效。
關鍵詞:大數(shù)據(jù);學科評估;多維分析
中圖分類號:G40-058.1
文獻標志碼:A
文章編號:1673-8454(2015)07-0013-04
一、現(xiàn)狀及問題
學科建設是高等學校發(fā)展的核心工作,是衡量一所高校辦學水平的重要評價標準。如何科學、客觀、準確地評價學科狀態(tài),從而更好地規(guī)劃資源配置促進各學科均衡發(fā)展是多年來各高校及研究機構的重點研究課題。學科評估的兩個關鍵因素是評估指標體系和基礎數(shù)據(jù),到目前為止,學科評估重點研究了評估指標體系及評估方法,并已取得了顯著成果,研究人員提出了多種比較成熟、完善的評估指標體系。但是,目前不論使用哪一套評估指標體系開展學科評估工作時都會遇到許多問題,使看起來完美的評估指標體系并不能順利實施。以下是三個典型的問題:
(1)無法準確、全面、及時地獲取各類業(yè)務數(shù)據(jù),導致評估結果不夠全面、不夠客觀、不夠準確。
(2)評估指標是對高校業(yè)務的抽象描述,無法與具體業(yè)務數(shù)據(jù)直接對應,導致無法直接得到與評估指標對應的評估結果,需要將評估指標轉換為業(yè)務標準才能與業(yè)務數(shù)據(jù)準確對應。
(3)目前學科評估主要靠人工收集數(shù)據(jù)、計算評估結果,基于一套比較復雜的評估指標體系采用人工方法去生成評估結果是一件非常困難的事情,如果要同時生成多套不同評估指標體系的評估報告更是一件不太現(xiàn)實的事情。
本文介紹使用大數(shù)據(jù)技術充分收集高校業(yè)務中與學科相關的結構化、半結構化和非結構化數(shù)據(jù),并將半結構化和非結構化數(shù)據(jù)轉化為更容易分析使用的結構化數(shù)據(jù),同時確定數(shù)據(jù)實體及其間的關系,最終將經(jīng)過清洗的數(shù)據(jù)按照統(tǒng)一標準進行存儲。基于標準化的業(yè)務數(shù)據(jù),充分發(fā)揮OLAP技術優(yōu)勢對學科進行多維分析并生成學科評估報表。
二、大數(shù)據(jù)解決方案
1.系統(tǒng)架構
基于大數(shù)據(jù)的學科評估系統(tǒng)框架(見圖1)主要包括:數(shù)據(jù)源層、數(shù)據(jù)處理層、數(shù)據(jù)存儲層和數(shù)據(jù)分析層。
(1)數(shù)據(jù)源層
數(shù)據(jù)源層是學科評估基礎數(shù)據(jù)的來源,主要包括分布于各業(yè)務系統(tǒng)的結構化數(shù)據(jù),系統(tǒng)外的半結構化數(shù)據(jù)和非結構化數(shù)據(jù),如TXT、XML等格式的文本文件。
(2)數(shù)據(jù)處理層
學科評估基礎數(shù)據(jù)分布于不同的業(yè)務系統(tǒng),而且數(shù)據(jù)量大,同時還有系統(tǒng)外的半結構化和非結構化數(shù)據(jù),傳統(tǒng)的ETL技術已經(jīng)無法完成處理任務。Hadoop技術能夠對海量數(shù)據(jù)進行分布式處理,尤其是處理半結構化和非結構化數(shù)據(jù)具有先天優(yōu)勢。數(shù)據(jù)處理層借助大數(shù)據(jù)技術對原始數(shù)據(jù)進行抽取、清洗、轉換,完成數(shù)據(jù)集成,按照存儲層數(shù)據(jù)模型重新組織數(shù)據(jù),形成能夠支持學科評估的標準化數(shù)據(jù)。
(3)數(shù)據(jù)存儲層
數(shù)據(jù)存儲層是學科評估數(shù)據(jù)的核心,主要包括業(yè)務數(shù)據(jù)庫、業(yè)務指標庫和評估指標庫。業(yè)務數(shù)據(jù)是與學科相關的基礎業(yè)務數(shù)據(jù),業(yè)務指標是指描述基礎數(shù)據(jù)的維度,評估指標是指不同評估體系中的各類指標。數(shù)據(jù)存儲層采用數(shù)據(jù)倉庫維度模型存儲業(yè)務數(shù)據(jù),這樣更有利于應用層的統(tǒng)計分析。數(shù)據(jù)存儲層會進行數(shù)據(jù)的標準化,建立統(tǒng)一的編碼規(guī)則,去除冗余和不一致。
(4)數(shù)據(jù)分析層
數(shù)據(jù)分析層是學科評估應用的核心。通過聯(lián)機分析平臺(OLAP)可以快速生成評估報表并進行多維分析,節(jié)省人工計算工作量,并以打印輸出、文件輸出、Email輸出、Web發(fā)布等多種方式展現(xiàn)。
2.業(yè)務數(shù)據(jù)模型
業(yè)務數(shù)據(jù)采用星型模型進行數(shù)據(jù)建模,建模的重點是識別業(yè)務實體與學科評估相關的最細粒度屬性,作為業(yè)務指標維度,它們將構成業(yè)務指標庫,這些指標可以綜合反映業(yè)務實體屬于哪一個學科評估指標,其他對學科評估不產(chǎn)生影響的實體屬性可選擇性地保留在模型中,方便進行多維分析。
圖2是以科研論文和科研項目為示例的科研業(yè)務數(shù)據(jù)模型。學科維度來標識論文和項目屬于哪一個學科,論文類型、刊物類型、刊物分區(qū)、第一作者類型維度是評估科研論文的業(yè)務指標,項目經(jīng)費、負責人類型、項目類別、項目級別、項目子級別是評估科研項目的業(yè)務指標。
3.評估指標模型
由于目前還沒有統(tǒng)一的、標準化的學科評估指標體系,各高校內部以及各權威機構的評估指標體系都不完全相同,而且經(jīng)常會有變動,如果每次開展學科評估都將基礎數(shù)據(jù)與評估指標重新對應,然后計算評估結果是一件非常困難的事情。
鑒于高校內部描述業(yè)務實體的屬性相對固定,提取這些屬性作為基礎業(yè)務指標,將業(yè)務指標與學科評估指標作匹配,這樣業(yè)務實體就能對應到具體的評估指標。圖3是以科研論文和科研項目為例設計的評估指標模型,設計說明如下:
(1)同一類業(yè)務數(shù)據(jù)用于學科評估的屬性可能不完全相同,如縱向項目用項目級別和項目子級別屬性來表示評估得分,橫向項目是用項目經(jīng)費來表示評估得分,所以業(yè)務指標庫要最細粒度,保證能唯一標識所有類別的業(yè)務數(shù)據(jù)。
(2)最細粒度的業(yè)務指標可以使評估指標粒度更小、更加科學,從而提高評估結果的科學性和準確性,同時可以滿足不同評估指標與業(yè)務數(shù)據(jù)的對應關系,保證了評估指標體系的兼容性和擴展性。如科研論文評估指標和科研項目評估指標都是基于科研論文和科研項目最細粒度業(yè)務指標生成。
(3)評估指標類型標識該評估指標是評估哪一業(yè)務,如科研論文、師資隊伍、人才培養(yǎng)等。評估指標體系標識該評估指標對應的是哪一種評估標準,如校內評估指標體系、國內某權威機構評估指標體系、國外某權威機構評估指標體系等。
(4)評估指標中的開始年份和結束年份用來標識該指標的適用范圍,支持生成歷史年份的評估報表,可以比較不同年份的評估結果。
(5)評估得分是對評估指標的量化表示,并不是每一個評估指標都有評估得分,有些統(tǒng)計實體數(shù)量的就沒有評估得分,如統(tǒng)計教師數(shù)量、學生數(shù)量等。
4.學科評估
學科評估的核心工作是按評估指標去匯總各類業(yè)務數(shù)據(jù)、計算評估得分,然后通過不同的維度去分析評估結果。業(yè)務系統(tǒng)通過數(shù)據(jù)共享方式將各類業(yè)務指標提供給學科評估系統(tǒng),學科評估系統(tǒng)管理員根據(jù)業(yè)務指標靈活設置評估指標、得分、指標對應時間段,業(yè)務數(shù)據(jù)根據(jù)業(yè)務指標就可以關聯(lián)查詢到對應的評估指標,進而可以得到評估得分,最終可以自動匯總數(shù)據(jù)得到評估報表。以科研項目學科評估為例,計算過程偽代碼如下:
SELECT EXTRACT (YEAR FROM Tl.立項日期)AS評估年份
,T4.評估指標體系名稱AS評估指標體系名稱
,T5.評估指標類型名稱AS評估指標類型名稱
,T3.評估指標名稱
AS評估指標名稱
.T2.二級學科名稱
AS二級學科名稱
,T2.一級學科名稱
AS一級學科名稱
,T2.學科門類名稱
AS學科門類名稱
,COUNT(T1.項目編號)AS項目數(shù)量
,SUM (T3.評估指標得分)AS評估得分
FROM 科研項目Tl
LEFT JOIN學科T2
ON
Tl.學科=T2.學科編號
LEFT JOIN科研項目評估指標T3
ON
Tl.負責人類型=T3.作者類型編號
AND Tl.項目類別=T3.項目類別編號
AND Tl.項目級別=T3.項目級別編號
AND Tl.項目子級別=T3.項目子級別編號
AND EXTRACT(YEAR FROM Tl.立項日期)BE-TWEEN T3.開始年份AND T3.結束年份
LEFT JOIN評估指標體系T4
ON T3.評估指標體系=T4.評估指標體系編號
LEFT JOIN評估指標類型T5
ON T3.評估指標類型=T5.評估指標類型編號
GROUP BY EXTRACT(YEAR FROM Tl.立項日期)
T4.評估指標體系名稱
T5.評估指標類型名稱
T3.評估指標名稱
T2.二級學科名稱
T2.一級學科名稱
T2.學科門類名稱
該學科評估系統(tǒng)具有如下特點:
(1)快速部署、靈活維護評估指標。只要建立評估指標與業(yè)務指標的對應關系,就可以完成業(yè)務數(shù)據(jù)與和評估指標的關聯(lián),從而可以快速生成學科評估報表。
(2)支持多評估指標體系,可以同時生成基于不同評估指標體系的評估報表,比較不同評估指標體系下的評估結果。
(3)評估指標中的時間屬性滿足在不同時間段使用不同的評估指標,達到保留歷史評估結果的目的。
(4)通過聯(lián)機分析(OLAP)功能可以快速計算評估得分并進行多維分析。如可以快速生成基于二級學科、一級學科和學科門類的評估報表。
三、應用實例和應用效果
1.應用實例
本文選取上海財經(jīng)大學校內評估指標體系中縱向科研項目評估為例,介紹具體應用情況。表1是根據(jù)縱向項目業(yè)務指標設置的評估指標,每一個縱向項目能找到對應的評估指標。
圖4是使用數(shù)據(jù)可視化工具Tableau開發(fā)的縱向項目學科評估報表,通過篩選器可以查看不同年份、不同評估指標對應的評估結果,通過鉆取功能可以得到學科門類、一級學科、二級學科的評估結果,達到多維分析的目的。如果有多種評估指標體系,可以同時展現(xiàn)在評估報表內,方便橫向比較評估結果。
2.應用效果
傳統(tǒng)方法做學科評估需要從各個業(yè)務部門采集數(shù)據(jù),然后分類、設置評估指標、賦值、計算,需要花費大量時間,生成的評估報表會有數(shù)據(jù)不準確、滯后性、一次性使用等問題。借助大數(shù)據(jù)技術保證了采集數(shù)據(jù)的全面性、準確性和及時性,充分發(fā)揮大數(shù)據(jù)技術分布式處理數(shù)據(jù)的優(yōu)勢,減少人工采集、整理數(shù)據(jù)需要的巨大工作量。O—LAP技術可以快速生成學科評估報表,完成多維分析,大大提高了學科評估的工作效率和評估結果的準確性。通過該系統(tǒng)校領導、院系領導、業(yè)務部門管理人員可以了解每一學科的評估結果,比較不同學科間的評估差異,觀察同一學科評估結果隨時間的變化趨勢,從而為管理決策提供科學依據(jù)。使用該系統(tǒng)我校已經(jīng)完成了校內2013年學科評估報表,同時支持教育部學科評估上報材料。
四、結束語
借助大數(shù)據(jù)技術可以很好地解決目前學科評估中采集基礎數(shù)據(jù)存在的困難;通過提取最細粒度業(yè)務指標,并將業(yè)務指標作為建立評估指標與基礎數(shù)據(jù)之間關系的橋梁,可以快速部署不同的評估指標,同時滿足評估指標的擴展性。借助OLAP技術可以快速、靈活生成學科評估報表,并實現(xiàn)多維分析??傊?,將大數(shù)據(jù)、數(shù)據(jù)倉庫和OLAP技術相結合在學科評估中使用具有創(chuàng)新意義,不僅解決了目前學科評估實施中存在的困難,而且可以使學科評估工作快速、有效實施,對高校開展學科評估具有積極推動作用。