伍芳芳
DOI:10.19392/j.cnki.16717341.201714245
摘要:在大數(shù)據(jù)時(shí)代,圖書館將在數(shù)據(jù)搜集、數(shù)據(jù)分析、數(shù)據(jù)處理等方面面臨巨大的挑戰(zhàn),復(fù)雜數(shù)據(jù)的處理或?qū)⒊蔀閳D書館發(fā)展的方向。由此,圖書館數(shù)據(jù)科學(xué)家的作用顯得越發(fā)重要。文章主要分析了圖書館數(shù)據(jù)科學(xué)家做什么,如何培養(yǎng)圖書館數(shù)據(jù)科學(xué)家以適應(yīng)大數(shù)據(jù)時(shí)代的圖書館發(fā)展需要。
關(guān)鍵詞:大數(shù)據(jù);圖書館數(shù)據(jù)科學(xué)家;數(shù)據(jù)科學(xué)家;數(shù)據(jù)素養(yǎng)
1 數(shù)據(jù)科學(xué)家與圖書館數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家(Data Scientist)一詞是由Natahn Yau在2009年提出來(lái)的。什么是數(shù)據(jù)科學(xué)家目前還沒有統(tǒng)一的定義,普遍認(rèn)可的是:“數(shù)據(jù)科學(xué)家是指運(yùn)用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、分布式處理等技術(shù),從大量數(shù)據(jù)中提取出對(duì)使用者有意義的信息,以易懂的形式傳達(dá)給使用者和決策者,并創(chuàng)造出新的數(shù)據(jù)運(yùn)用服務(wù)的人才”。
在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)具有信息類型繁多,更新速度快,綜合價(jià)值大等眾多特性,如何選擇可靠、更有價(jià)值的信息,進(jìn)而進(jìn)行分析、處理以為領(lǐng)導(dǎo)的戰(zhàn)略決策提供參考,滿足學(xué)校教學(xué)科研的需求,滿足用戶個(gè)性化服務(wù)的需要,是當(dāng)今圖書情報(bào)工作人員面臨的重要挑戰(zhàn)。因此,圖書館員只有快速的向數(shù)據(jù)科學(xué)家轉(zhuǎn)變,才能適應(yīng)大數(shù)據(jù)時(shí)代的圖書館發(fā)展需要而不被淘汰。
2 圖書館數(shù)據(jù)科學(xué)家做什么
筆者于2017年4月24日至28日在西南交通大學(xué)(九里堤校區(qū))參加了為期5天的“圖書館數(shù)據(jù)科學(xué)家技術(shù)培訓(xùn)班”,通過(guò)學(xué)習(xí),了解了大數(shù)據(jù)理念在實(shí)踐運(yùn)用中的一些成功案列;了解了信息搜集的一些成功案例;了解了使用Lucidworks Fusion對(duì)數(shù)據(jù)進(jìn)行整合搜索和挖掘;了解了有關(guān)數(shù)據(jù)可視化的知識(shí);掌握了利用Xpath來(lái)抓取京東、當(dāng)當(dāng)?shù)膱D書信息,以及抓取外文圖書數(shù)據(jù)庫(kù)、期刊數(shù)據(jù)庫(kù)、外文學(xué)位論文數(shù)據(jù)庫(kù)的內(nèi)容。
通過(guò)學(xué)習(xí),個(gè)人認(rèn)為圖書館數(shù)據(jù)科學(xué)家可以完成以下這些工作。
2.1 采集分析圖書館各類大數(shù)據(jù),為圖書館的建設(shè)、管理、服務(wù)提供決策支持
圖書館數(shù)據(jù)科學(xué)家的首要任務(wù)便是對(duì)各類館藏?cái)?shù)據(jù)的采集和分析。比如對(duì)用戶的進(jìn)館閱覽記錄、借閱記錄、圖書館的館藏書目檢索記錄、用戶訪問數(shù)據(jù)庫(kù)的記錄等這些用戶行為數(shù)據(jù)進(jìn)行分析和處理。通過(guò)這些數(shù)據(jù),我們可以分析用戶的訪問時(shí)間、閱讀傾向和使用習(xí)慣等,從而幫助我們分析和預(yù)測(cè)用戶的信息需求,以為圖書館的建設(shè)、管理、服務(wù)提供決策支持。因此,圖書館應(yīng)重視各類數(shù)據(jù)的采集、整理和分析。
2.2 培養(yǎng)用戶的數(shù)據(jù)素養(yǎng)
目前,國(guó)外圖書館探索數(shù)據(jù)素養(yǎng)教育越發(fā)系統(tǒng),并在長(zhǎng)期實(shí)踐中形成了較為成熟的教育模式,就如何確定教學(xué)對(duì)象、設(shè)置教學(xué)目標(biāo)、設(shè)計(jì)教學(xué)大綱、選定教學(xué)方法和實(shí)施教學(xué)評(píng)價(jià)等方面累積了豐富的經(jīng)驗(yàn)和成果。而縱觀國(guó)內(nèi)高校,目前大學(xué)生的數(shù)據(jù)素養(yǎng)水平差別巨大,對(duì)數(shù)據(jù)采集、處理和利用數(shù)據(jù)的能力普遍較低,在數(shù)據(jù)倫理道德上的觀念比較薄弱。由此,高校圖書館開展對(duì)用戶的數(shù)據(jù)素養(yǎng)教育顯得迫在眉睫。
2.3 統(tǒng)計(jì)分析學(xué)校科研論文數(shù)據(jù)
圖書館數(shù)據(jù)科學(xué)家還有一個(gè)重要任務(wù)便是搜集整理學(xué)校的科研論文數(shù)據(jù),通過(guò)分析提供科研論文分析報(bào)告,以促進(jìn)學(xué)校科研水平再上新臺(tái)階。
2.4 開展大數(shù)據(jù)相關(guān)的培訓(xùn)講座
為了提高學(xué)校的整體數(shù)據(jù)素養(yǎng),圖書館數(shù)據(jù)科學(xué)家可以為學(xué)校的師生開展大數(shù)據(jù)相關(guān)的講座培訓(xùn)。介紹數(shù)據(jù)在論文中的重要作用,因?yàn)閺谋姸嗪诵钠诳撐闹形覀兛梢钥闯?,高質(zhì)量的論文一般都有大量真實(shí)可靠的數(shù)據(jù)來(lái)做支撐。
3 圖書館數(shù)據(jù)科學(xué)家培養(yǎng)路徑
3.1 提高圖書館員的數(shù)據(jù)素養(yǎng)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)素養(yǎng)已成為21世紀(jì)公民必備的技能,尤其是在數(shù)據(jù)密集型的科研范式下,研究人員創(chuàng)建、獲取、存儲(chǔ)及運(yùn)用數(shù)字科研數(shù)據(jù)的能力已成為推動(dòng)科技進(jìn)步、應(yīng)對(duì)經(jīng)濟(jì)和社會(huì)挑戰(zhàn)創(chuàng)新的關(guān)鍵,并對(duì)全球生產(chǎn)力、競(jìng)爭(zhēng)力和生活質(zhì)量具有潛在影響。因此,只有館員具備較高的數(shù)據(jù)素養(yǎng)后才有基礎(chǔ)和能力為用戶提供有關(guān)數(shù)據(jù)的服務(wù)以及培養(yǎng)用戶的數(shù)據(jù)素養(yǎng)。
3.2 優(yōu)化圖書館員的知識(shí)能力結(jié)構(gòu)
科學(xué)數(shù)據(jù)管理人才的知識(shí)結(jié)構(gòu)總體上應(yīng)由計(jì)算機(jī)技能、數(shù)據(jù)管理理論、管理學(xué)知識(shí)和其他相關(guān)學(xué)科知識(shí)組成。而圖書館數(shù)據(jù)科學(xué)家則應(yīng)具備系統(tǒng)的管理學(xué)知識(shí)和豐富的管理實(shí)踐經(jīng)驗(yàn),懂得數(shù)據(jù)管理的一般理論,初通計(jì)算機(jī)知識(shí),并具有較強(qiáng)的執(zhí)行力和組織協(xié)調(diào)能力。隨著圖書館參與科學(xué)數(shù)據(jù)管理進(jìn)程的加快,數(shù)據(jù)科學(xué)家的作用越來(lái)越突出,他們是圖書館科學(xué)數(shù)據(jù)服務(wù)的領(lǐng)導(dǎo)者,主要任務(wù)是制訂圖書館數(shù)據(jù)化管理和發(fā)展戰(zhàn)略,因此數(shù)據(jù)科學(xué)家應(yīng)該是既具備信息技術(shù)及相關(guān)理論知識(shí),也精通管理、戰(zhàn)略和實(shí)踐的通才。同時(shí),由于數(shù)據(jù)科學(xué)家所處職位和承擔(dān)的責(zé)任要求,需具備較強(qiáng)的規(guī)劃策劃能力、分析判斷能力以及項(xiàng)目執(zhí)行能力,以及領(lǐng)導(dǎo)圖書館的科學(xué)數(shù)據(jù)管理隊(duì)伍的建設(shè)能力。
3.3 掌握大數(shù)據(jù)分析處理工具
由于圖書館數(shù)據(jù)科學(xué)要處理巨量的數(shù)據(jù),因此,其必須掌握常用的數(shù)據(jù)采集工具,例如Hadoop、Spark、Map Reduce、Mahout、Xpath等,要熟悉大數(shù)據(jù)應(yīng)用案例,要掌握信息可視化、數(shù)據(jù)挖掘等相關(guān)技術(shù)。
3.4 加強(qiáng)外語(yǔ)知識(shí)的學(xué)習(xí)
由于圖書館數(shù)據(jù)科學(xué)家應(yīng)具備較好的信息技術(shù)及相關(guān)理論知識(shí),要掌握大數(shù)據(jù)采集、分析和處理工具,而這些最新的理論知識(shí)、處理工具及科研成果往往都是最先出現(xiàn)在外文文獻(xiàn)中。圖書館員只有具備較好的外語(yǔ)水平才能理解和傳遞這些信息,否則不能充分利用它以為用戶提供服務(wù)。因此,圖書館數(shù)據(jù)科學(xué)家還應(yīng)具備較高的外語(yǔ)水平。
4 結(jié)語(yǔ)
隨著信息技術(shù)不斷發(fā)展,大數(shù)據(jù)的優(yōu)勢(shì)將在日常生活中體現(xiàn)得更加淋漓盡致,民眾也將隨著這些人性化、個(gè)性化的高滿意度服務(wù)的出現(xiàn)而對(duì)圖書館的服務(wù)呈現(xiàn)出明確和迫切的需求。
因此,各類型圖書館在未來(lái)的發(fā)展中都應(yīng)高度重視和培養(yǎng)本單位的圖書館數(shù)據(jù)科學(xué)家,這樣才能適應(yīng)大數(shù)據(jù)時(shí)代的圖書館發(fā)展需要。
參考文獻(xiàn):
[1]王伯秋.數(shù)據(jù)科學(xué)家及其對(duì)圖書館未來(lái)發(fā)展的作用[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(6).
[2]胡卉.國(guó)外圖書館數(shù)據(jù)素養(yǎng)教育最佳實(shí)踐研究與啟示[J].現(xiàn)代情報(bào),2016,36(8).
[3]崔濤.圖書館視角下科學(xué)數(shù)據(jù)管理人才培養(yǎng)模式研究[J].圖書館建設(shè),2017(3).
[4]朱揚(yáng)勇.大數(shù)據(jù)時(shí)代的數(shù)據(jù)科學(xué)家培養(yǎng)[J].大數(shù)據(jù),2016(3).
[5]田偉.大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新研究[J].檔案學(xué)研究,2014(5).