王 鳴
(華南師范大學(xué)經(jīng)濟(jì)與管理學(xué)院,廣東 廣州 510006)
數(shù)據(jù)挖掘應(yīng)該更準(zhǔn)確地被命名為“從數(shù)據(jù)中挖掘知識”,在產(chǎn)業(yè)界、媒體和研究界,“數(shù)據(jù)挖掘”通常被用來表示整個知識發(fā)現(xiàn)過程。可以視為另外一個流行術(shù)語數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)的同義詞,因此,廣義的數(shù)據(jù)挖掘的定義是:從大量數(shù)據(jù)中發(fā)掘有趣模式和知識的過程,數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。
(一)標(biāo)準(zhǔn)性。數(shù)據(jù)多為標(biāo)準(zhǔn)字段,而不是文字描述。比如人員信息中,姓名、單位名稱、單位屬性、職稱、學(xué)歷、畢業(yè)院校等;成果中論文作者、論文名稱、發(fā)表時間、發(fā)表刊物等;項目成果里的項目名稱、立項時間、項目起止時間、經(jīng)費(fèi)等。標(biāo)準(zhǔn)數(shù)據(jù)有利于數(shù)據(jù)的收集、比對和整理。
(二)延續(xù)性。連續(xù)的科研過程很重要。比如一般的系統(tǒng),都是記錄該人員已發(fā)表或立項了的成果,這類信息不夠全面。特別是對于項目申報、課題立項,到課題完成這些時間點(diǎn)的記錄比較零散。如果數(shù)據(jù)能記錄時間上的屬性,則可以挖掘出很多有用的信息。隨著科研管理信息系統(tǒng)的使用,院校每年在各類科研申報中都能產(chǎn)生大量具備時間屬性的數(shù)據(jù)。
(三)周期性。數(shù)據(jù)產(chǎn)生有一定的周期性。比如各類型科研項目的申報、立項、管理在每年不同時段都有較固定的時間。以科研項目為例,國家社會科學(xué)基金項目申請時間一般為每年的2-3月,國家自然科學(xué)基金項目 (管理科學(xué))一般為3月,全國教育科學(xué)規(guī)劃項目一般為3-5月,等等,這些數(shù)據(jù)隨著年份的推進(jìn),其產(chǎn)生具有一定的周期性。
(四)實時性??蒲泄芾硇畔⑾到y(tǒng)能提供數(shù)據(jù)的實時錄入和實時查詢。系統(tǒng)是以人員、管理單位為用戶。教師個人、各級管理單位都通過賬戶登錄系統(tǒng)填報或查詢。由此產(chǎn)生實時性、標(biāo)準(zhǔn)化的數(shù)據(jù)。同時各級管理用戶都能查看到這些實時數(shù)據(jù),包括用戶的操作記錄,比如用戶登錄、查詢和點(diǎn)擊記錄等。
(五)關(guān)聯(lián)性??蒲泄芾硇畔⑾到y(tǒng)的數(shù)據(jù)由于具有人員、成果、活動、時間四個維度的多種組合,具有高度的關(guān)聯(lián)性。特定的人員與特定的成果、活動、時間相關(guān)聯(lián),同理兩兩相關(guān),共可衍生出16類數(shù)據(jù),如人員-成果、人員-活動、人員-時間、人員-人員;等等。以人員-成果為例,用于分析特定人員范圍的成果,而成果-人員則用于分析特定成果的人員組成。其他潛在的關(guān)聯(lián)性可通過數(shù)據(jù)挖掘來揭示。
(一)以科研成果匯總為主題。這是利用科研數(shù)據(jù)的首要主題,也是目前最為普遍應(yīng)用的主題??蒲谐晒膮R總主要以三個維度為基礎(chǔ):(1)時間范圍;(2)人員范圍;(3)成果范圍。這些匯總可提供各類統(tǒng)計數(shù)據(jù)。首先是常規(guī)性的科研業(yè)績考核,需要將每年度每個單位的科研成果匯總。其次是項目性的整體績效反饋,比如211三期驗收、第九輪省重點(diǎn)學(xué)科建設(shè)總結(jié)等,需要提供整體績效數(shù)據(jù)。
(二)以學(xué)科建設(shè)支持為主題。在各高等院校、科研院所越來越重視學(xué)科建設(shè)的背景下,這一主題越來越得到關(guān)注。通過收集單位內(nèi)外科研活動、科研成果等信息,包括人才引進(jìn)、團(tuán)隊組建、沙龍活動、信息平臺(QQ群、微博、其他學(xué)習(xí)型社區(qū))等,結(jié)合科研單位的學(xué)科發(fā)展情況,可以得出一些學(xué)科發(fā)展規(guī)律,為單位的學(xué)科建設(shè)提供決策支持,有意識地引導(dǎo)單位的學(xué)科發(fā)展,從而更好地指導(dǎo)未來的學(xué)科建設(shè)。
(三)以科研人員培養(yǎng)為主題??蒲腥藛T的成才成長規(guī)律一直是高等教育學(xué)、人才學(xué)等學(xué)科關(guān)注的主題,然而以往難以找到合適的定量技術(shù)加以研究。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)和成熟,為這一主題提供了工具。以人員活動為主題的挖掘也有一些有用的應(yīng)用,比如:記錄教師的一些重要的科研活動信息,包括學(xué)術(shù)交流(內(nèi)容、日期)、發(fā)表論文的日期、創(chuàng)建科研團(tuán)隊等,再結(jié)合一些成果信息或?qū)W界對其評價肯定[1],也可得出一些規(guī)律。
(一)挖掘的內(nèi)容。科研數(shù)據(jù)中可供挖掘的各類相關(guān)、關(guān)聯(lián)關(guān)系:
(1)人員信息與科研成果關(guān)系
(2)本單位發(fā)表的期刊偏好,這里指發(fā)表單位與期刊之間的雙向選擇
(3)個人與單位整體的科研成果關(guān)系
(4)科研成果與科研活動的關(guān)系
(5)學(xué)科發(fā)展與各類科研活動關(guān)系
(6)各類成果之間的關(guān)系,包括時間先后關(guān)系、相關(guān)相似關(guān)系、緊密或松散關(guān)系
(7)人員操作習(xí)慣隱含的科研導(dǎo)向性,比如通過點(diǎn)擊頻率或查詢詞頻,可揭示某類主題的受關(guān)注度,從而更好地為科研人員提供該方面的管理服務(wù)
(8)每個科研信息在發(fā)布過程中被關(guān)注的過程,比如響應(yīng)的快慢等,依此完善系統(tǒng)
以申報國家基金為例,如果能記錄申報項目和該項目最后是否立項,再匹配上人員的各種背景信息(比如學(xué)歷、學(xué)位、畢業(yè)院校類型、研究基礎(chǔ)等等),則能挖掘出很多具有指導(dǎo)性的信息。比如國家自然科學(xué)基金的立項偏好,每個教師的科研成長規(guī)律。等等。
(二)挖掘的方法。數(shù)據(jù)挖掘是使用智能的方法提取數(shù)據(jù)的模式。一般來說,數(shù)據(jù)挖掘采用以下幾種方法:描述統(tǒng)計、分類和聚類、關(guān)聯(lián)和相關(guān)、預(yù)測、優(yōu)化、結(jié)構(gòu)方程模型。此外,挖掘方法還需考慮諸如數(shù)據(jù)的噪聲、不確定性和不完全性等問題。
(三)挖掘的準(zhǔn)備。(1)數(shù)據(jù)清理,主要是消除噪聲和刪除不一致數(shù)據(jù)。比如教師在填報過程中的漏登漏報或錯等錯報的數(shù)據(jù)。
(2)數(shù)據(jù)集成,這里指把不同來源、格式、特點(diǎn)、性質(zhì)的數(shù)據(jù)有機(jī)地集中,從而為科研院所提供全面的數(shù)據(jù)共享。
(3)數(shù)據(jù)選擇,主要是指從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù)。比如選擇所有廣東省哲學(xué)社會科學(xué)項目獲資助者的情況等。
(4)數(shù)據(jù)變換,主要是通過匯總或聚焦操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式。[2]
(四)挖掘的評估。模式評估是指根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式。指示有趣的模式聯(lián)系,常見的有全置信度、最大置信度、Kulczynski、余弦、提升度和χ2這幾種度量方法。在這些方法中,只有后四種具有零不變性。值得推薦的度量是Kluz與不平衡配合使用。[3]
(五)挖掘的可視化展現(xiàn)。知識表示,這里主要指使用可視化和知識表示技術(shù),向系統(tǒng)用戶提供挖掘的知識。數(shù)據(jù)可視化最直觀的形式就是圖形,有些甚至是動態(tài)圖形。最簡單的應(yīng)用,比如科研院所最近10年發(fā)表的CSSCI學(xué)術(shù)論文數(shù)可用坐標(biāo)曲線展現(xiàn)出來,由此反映科研總體實力在各年間的變化;而最近10年國家社會科學(xué)基金申請數(shù)和立項數(shù)也可用兩條曲線表示出來,以反映本單位該項目的立項申報比,從一個側(cè)面反映申報的質(zhì)量。后者如果加進(jìn)第三維數(shù)據(jù)如這10年間的科研活動,則可探尋科研活動與立項申報比的關(guān)系。
此外,科研數(shù)據(jù)可視化展現(xiàn)還有以下幾個方面的應(yīng)用:
(1)科研成果的關(guān)聯(lián)性展示
各類成果之間的關(guān)聯(lián),比如立項項目的關(guān)鍵詞,與當(dāng)期教師發(fā)表論文的主題關(guān)鍵詞一致性,或滯后性,相關(guān)性等。由此有意識地指導(dǎo)項目申報或論文發(fā)表。
(2)基于地理位置的標(biāo)注
直觀地展示成果的地理環(huán)境關(guān)聯(lián),是可視化技術(shù)的一大應(yīng)用。比如可將近5年本單位教師的橫向項目簽約單位的輻射區(qū)域在地圖上標(biāo)注出來。顏色表示年度,大小表示每個項目的經(jīng)費(fèi)數(shù),可直觀地展示有關(guān)社會服務(wù)的某些規(guī)律。
(3)基于上下文的內(nèi)容推薦
在系統(tǒng)用戶查詢特定內(nèi)容時,能將“用戶可能關(guān)心的內(nèi)容”展現(xiàn)出來。采用基于上下文的查詢擴(kuò)展方法,解決用戶信息檢索查詢所使用的詞可能與文檔集中使用的詞不匹配從而影響檢索效果的問題。
(4)最新信息的實時顯示
在科研交流信息,可實時顯示更新的“最新最熱門關(guān)鍵詞或主題”等。這將有助于教師及時、實時了解科研動態(tài)。
(六)挖掘的優(yōu)化。在大數(shù)據(jù)的情況下,保證科研數(shù)據(jù)查詢、處理等的效率不會顯著降低,是必須要考慮和解決的重要問題,也是影響架構(gòu)設(shè)計的重要因素。特別是隨著時間累積,系統(tǒng)產(chǎn)生越來越大量數(shù)據(jù)的情況下,還應(yīng)該針對大數(shù)據(jù)的查詢、處理等可能導(dǎo)致系統(tǒng)瓶頸的問題進(jìn)行分析,提出優(yōu)化解決方案。因此,需保證系統(tǒng)能夠滿足硬件條件(包括主機(jī)系統(tǒng)、存儲系統(tǒng)、網(wǎng)絡(luò)配置等)的約束,在目前的基礎(chǔ)設(shè)施上流暢運(yùn)行,并且能適應(yīng)未來若干年科研發(fā)展的要求。
科研管理信息系統(tǒng)已越來越在各大科研院所普及,然而傳統(tǒng)的科研成果數(shù)據(jù)匯總已不能滿足為學(xué)科建設(shè)提供決策依據(jù)的需要。對系統(tǒng)產(chǎn)生的大量科研數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,具有重要的應(yīng)用前景。數(shù)據(jù)自身的標(biāo)準(zhǔn)性、延續(xù)性、周期性、實時性、關(guān)聯(lián)性為數(shù)據(jù)挖掘提供基礎(chǔ),通過應(yīng)用數(shù)據(jù)挖掘技術(shù)對科研數(shù)據(jù)進(jìn)一步分析,有益于更科學(xué)地了解科研規(guī)律,指導(dǎo)科研活動,促進(jìn)學(xué)科建設(shè)。
[1]吳小妹,陳敏玲,繆仁炳.基于科技創(chuàng)新人才信息平臺數(shù)據(jù)挖掘的科研能力評價模型研究.科技通報,2011(1):154-160
[2]胡佳.數(shù)據(jù)挖掘技術(shù)在高校科研管理系統(tǒng)中的應(yīng)用研究.華東師范大學(xué)碩士學(xué)位論文,2011:36-39.
[3]Jiawei Han,Micheline Kamber,Jian Pei著.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)(原書第3版).北京:機(jī)械工業(yè)出版社,2012.173-175.