張影
摘要:對海量學術(shù)文獻資源進行知識挖掘,是保障知識服務(wù)質(zhì)量的關(guān)鍵。圖書館要合理利用知識挖掘工具,做好學術(shù)文獻資源的開發(fā)利用工作。文章從有利于海量學術(shù)文獻資源的采集、檢索和有利于數(shù)字圖書館建設(shè)方面,論述了圖書館開展知識挖掘的必要性,提出了面向知識服務(wù)的海量學術(shù)文獻資源的知識組織流程,即知識采集與篩選、知識有序化組織、知識挖掘分析。從文獻資源的內(nèi)容、結(jié)構(gòu)、用法3個維度進行知識挖掘,以建構(gòu)海量學術(shù)文獻資源的知識挖掘系統(tǒng)。
關(guān)鍵詞:知識服務(wù);學術(shù)文獻;知識挖掘;圖書館
中圖分類號:G250.7;G252 ? ?文獻標識碼:A ? ?文章編號:2095-5707(2020)03-0034-03
Abstract: Knowledge mining of massive academic literature resources is the key to ensuring the quality of knowledge services. Libraries should make rational use of knowledge mining tools and do a good job in the development and utilization of academic literature resources. This article expounded the necessity of knowledge mining in libraries from the aspects of being conducive to the collection and retrieval of massive academic literature resources and the construction of digital libraries, and proposed the knowledge organization process of massive academic literature resources for knowledge services, namely knowledge collection and screening, knowledge orderly organization, and knowledge mining analysis. It also recommended that knowledge mining should be carried out from the three dimensions of content, structure and usage of literature resources to construct a knowledge mining system of massive academic literature resources.
Key words: knowledge services; academic literature; knowledge mining; libraries
網(wǎng)絡(luò)環(huán)境下信息呈指數(shù)級增長,形成海量大數(shù)據(jù),改變了人們的生活、學習方式。但是由于信息來源多樣,處于混沌、無序狀態(tài),增加了用戶獲取和利用的難度。隨著情報學、信息處理技術(shù)的進步,知識服務(wù)逐漸得到人們的重視,人們迫切期望獲得優(yōu)質(zhì)的知識資源,以應(yīng)對激烈的市場競爭[1]。尤其是圖書館擁有海量學術(shù)文獻資源,但很多用戶并不能有效整合利用這些資源,難以從中發(fā)現(xiàn)有價值的知識,無法發(fā)揮館藏資源的應(yīng)用價值。所以,需要圖書館改變傳統(tǒng)的信息組織方式,從認知層面進行知識組織,借助知識挖掘工具,發(fā)現(xiàn)海量學術(shù)文獻資源的關(guān)聯(lián),讓雜亂的信息資源有序化,實現(xiàn)知識的高效組織與深入挖掘,進而提高知識服務(wù)的效益,方便用戶檢索和利用,促進知識的傳播、利用和共享,促進信息服務(wù)向
知識服務(wù)轉(zhuǎn)型升級。
1 ?圖書館開展知識挖掘的必要性
知識挖掘是借助文本挖掘、機器學習等多種技術(shù)的支持,從海量信息中篩選出可供利用的知識,實現(xiàn)高效的知識服務(wù),有助于圖書館提升資源整合效率。
1.1 ?有利于海量學術(shù)文獻資源的采集
隨著人們對圖書館學術(shù)文獻資源的需求量增大,對知識服務(wù)的深度與廣度提出了更高的要求。圖書館依托數(shù)據(jù)挖掘、機器學習、云計算等知識挖掘技術(shù),可以實現(xiàn)對網(wǎng)絡(luò)資源的快速抓取、科學分類和高效整合,也可以提高數(shù)據(jù)統(tǒng)計、歷史數(shù)據(jù)查詢的速度。依托知識挖掘工具,圖書館可以全面分析用戶需求,確定所需的文獻采訪目錄,減少文獻采訪經(jīng)費,提升文獻采訪效率[2]。尤其是數(shù)據(jù)挖掘技術(shù)可以輔助采集互聯(lián)網(wǎng)上的各類信息,并發(fā)現(xiàn)海量學術(shù)文獻之間的關(guān)聯(lián),將知識以可視化的方式展現(xiàn)出來,并輔助圖書館建立專門的知識庫,促使圖書館由文獻管理提升到知識服務(wù)的新高度。
1.2 ?有利于海量學術(shù)文獻資源的檢索
如今用戶檢索信息的渠道更加多樣化,要求檢索的信息更加完整準確,也期望圖書館提供更加便捷高效的信息檢索服務(wù)。各類知識挖掘技術(shù)的應(yīng)用,有助于圖書館對復(fù)雜的數(shù)據(jù)進行分析,發(fā)現(xiàn)其中有用的信息,并主動將這些信息展現(xiàn)給用戶。尤其是文本挖掘技術(shù)可以迅速發(fā)現(xiàn)海量學術(shù)文獻中隱含的信息,可以與計算機存儲、管理相關(guān)的本體論相結(jié)合,實現(xiàn)知識資源的集成、交換與轉(zhuǎn)化,提升圖書館知識服務(wù)的精準度。智能檢索技術(shù)的引入,則可以根據(jù)用戶的檢索行為,對用戶的查詢意圖、計劃等進行預(yù)測,借助復(fù)雜的算法和模型,從海量學術(shù)文獻資源中抽取可理解的、有趣的知識,并以動態(tài)可視化的方式提供給用戶[3]。
1.3 ?有利于數(shù)字圖書館的建設(shè)
研究人員不再滿足于對文獻資料的借閱,而是期望獲得針對咨詢問題的更深層次的解答。圖書館應(yīng)順應(yīng)網(wǎng)絡(luò)時代用戶需求的新趨勢,加快館藏資源的數(shù)字化,促進信息服務(wù)的智能化。與傳統(tǒng)的圖書館服務(wù)不同,數(shù)字圖書館的建設(shè)是利用先進信息技術(shù),實現(xiàn)對大規(guī)模數(shù)據(jù)的整合利用,建立兼容性強、可拓展的知識庫,實現(xiàn)信息資源的有序組織和深入挖掘,進而滿足用戶的個性化需求。面對傳播方式、格式、來源多樣的信息,要經(jīng)過數(shù)據(jù)整合得到符合用戶需求的內(nèi)容,常規(guī)的數(shù)字化技術(shù)很難做到,只有借助知識挖掘工具,實現(xiàn)對海量文獻資源的深入分析,保障獲取知識的完整性、準確性和安全性,才能真正發(fā)揮知識挖掘的應(yīng)用價值,這也有助于數(shù)字圖書館的發(fā)展。
2 ?面向知識服務(wù)的學術(shù)文獻資源知識組織流程
知識組織是在特定的知識情境下,利用知識組織工具和方法,對知識資源進行分類處理,形成有序化的知識集合,是實現(xiàn)知識挖掘的基礎(chǔ)。為了提高知識服務(wù)質(zhì)量,圖書館需要改變傳統(tǒng)的知識組織方式,實現(xiàn)有序化的知識服務(wù)目標,并在此基礎(chǔ)上深入挖掘,獲得新的知識內(nèi)容(見圖1)。
2.1 ?知識采集與篩選
圖書館利用互聯(lián)網(wǎng)技術(shù),從專業(yè)數(shù)據(jù)庫、學術(shù)網(wǎng)站等獲取大量學術(shù)文獻資源后,借助決策樹、神經(jīng)網(wǎng)絡(luò)、自然語言處理等技術(shù),發(fā)現(xiàn)隱含的規(guī)律,挖掘符合用戶需求的內(nèi)容,并做好知識提取工作。從大規(guī)模數(shù)據(jù)中獲取用戶所需的知識后,要按照細粒度原理進行清洗、篩選,為后續(xù)的有序化組織奠定基礎(chǔ)[4]。這個階段要獲取的知識,包括用戶要求、用戶行為數(shù)據(jù)、情境數(shù)據(jù)、文獻資料等,然后要對目標資源進行篩選,從海量學術(shù)文獻資源中挑選適宜的知識,剔除冗余信息,減少不必要的干擾。對知識元的抽取,則是按照特定的規(guī)則,從海量學術(shù)文獻資源中自動篩選知識點,做好知識點的分類工作,最后將經(jīng)過篩選的知識自動存儲,對不符合要求的需返回知識篩選階段重新處理。
2.2 ?知識有序化組織
對知識的有序化組織是發(fā)現(xiàn)不同類型學術(shù)文獻資源之間的關(guān)聯(lián),將這些資源按照特定的規(guī)范進行排布,以便于統(tǒng)計分析和識別理解。在這個階段,要先做好知識表示工作,即根據(jù)知識建構(gòu)標準,將用戶所需的知識、熱點信息等,根據(jù)類型差異選取合適的編碼方式,從結(jié)構(gòu)、功能等多個角度,形成層次多樣的知識粒度,便于機器理解和挖掘處理,也便于用戶的理解和信息交互。知識表示也可以稱作知識描述,是采用語義標注、過程表示、框架法等方式,體現(xiàn)不同知識之間的關(guān)聯(lián),形成可供計算機識別的知識結(jié)構(gòu)[5]。然后將知識元作為最小的知識表示單元,對經(jīng)過描述的知識進行有序化處理,使其按照一定的規(guī)律排布,便于在知識庫建構(gòu)、知識挖掘等環(huán)節(jié),能夠更好地利用、傳播、共享。
2.3 ?知識挖掘分析
在對知識資源進行規(guī)范化表示后,需要根據(jù)用戶的實際需求,做好知識的深度挖掘與聚類分析工作。這是提供知識服務(wù)的核心環(huán)節(jié),直接決定著知識服務(wù)的質(zhì)量[6]。在這個過程中,圖書館要借助神經(jīng)網(wǎng)絡(luò)、機器學習等,對粒度知識進行合理分類、關(guān)聯(lián)與推理,從中挖掘可供理解的、有用的、新穎的內(nèi)容,形成細粒度知識網(wǎng)絡(luò),為知識服務(wù)提供可靠支持。知識挖掘旨在解決用戶提出的問題,根據(jù)不同的問題變換粒度大小,從中發(fā)現(xiàn)隱含的規(guī)律,為不同問題提供多層次的知識。圖書館也可以依托Agent技術(shù),實現(xiàn)統(tǒng)一的粒度知識聚類,在分析推理基礎(chǔ)上建立動態(tài)學習模型,借助不同Agent組之間的交換操作,實現(xiàn)不同接口之間數(shù)據(jù)對象的傳遞,從而更有針對性地解決問題。
3 ?面向知識服務(wù)的學術(shù)文獻資源知識挖掘維度
根據(jù)不同用戶知識服務(wù)需求的差異,對學術(shù)文獻資源的知識挖掘可以分為3個維度,即內(nèi)容挖掘、結(jié)構(gòu)挖掘和用法挖掘。圖書館需要結(jié)合實際,選擇適宜的知識挖掘技術(shù),從不同的維度對海量數(shù)據(jù)進行處理。
3.1 ?文獻資源內(nèi)容挖掘
通過對學術(shù)文獻資源進行內(nèi)容層面的分析,進而發(fā)現(xiàn)有用知識的過程就是內(nèi)容挖掘。學術(shù)文獻來源廣泛,種類多樣,從中發(fā)現(xiàn)潛在的、新穎的、有趣的知識,涉及特征抽取、學科分類和關(guān)聯(lián)分析等多個步驟。從挖掘?qū)ο笊蟻砜?,包括多媒體文件和文本文檔。其中互聯(lián)網(wǎng)環(huán)境下多媒體形式的資源日益增多,如視頻、音頻、圖像等,私人數(shù)據(jù)或系統(tǒng)數(shù)據(jù)由于無法被索引,故而很難被發(fā)現(xiàn)和利用。圖書館從網(wǎng)上抓取學術(shù)文獻資源后,還需要借助多媒體分析工具,根據(jù)文件內(nèi)容進行關(guān)聯(lián)分析,以特征提取的方式發(fā)現(xiàn)有用的知識。對于學術(shù)文獻文本資源的挖掘,則是對大規(guī)模文檔進行聚類分析,通過分類、歸納、推理等方式抽取知識。
3.2 ?文獻資源結(jié)構(gòu)挖掘
從海量學術(shù)文獻資源中挖掘鏈式結(jié)構(gòu),根據(jù)不同信息資源之間的鏈接關(guān)系,從中提取有用的知識,即是結(jié)構(gòu)挖掘。互聯(lián)網(wǎng)環(huán)境下,不同的網(wǎng)頁、多媒體文件之間存在關(guān)聯(lián),通過對其中的聯(lián)系進行分析,發(fā)現(xiàn)不同信息之間的相似度,并對相似性進行排序,就可以幫助用戶找到權(quán)威的站點,從而發(fā)現(xiàn)所需的學術(shù)文獻資源。這種挖掘方法源于引文分析,最初見于網(wǎng)頁歸類中,即對不同的網(wǎng)頁鏈接和對象進行分拆,建立對應(yīng)的鏈式結(jié)構(gòu)模式,有助于發(fā)現(xiàn)重要的頁面信息。為了避免單純從鏈接層面挖掘知識的局限性,一些學者提出,提供指向重要站點的鏈接集合,這些站點可以是有關(guān)某學科的參考文獻下載網(wǎng)站,也可以是文獻推薦列表,能夠方便用戶更好地獲取權(quán)威的學術(shù)信息。
3.3 ?文獻資源用法挖掘
與上述基于原始數(shù)據(jù)進行知識挖掘的方法不同,基于用法的挖掘主要針對系統(tǒng)數(shù)據(jù)和用戶行為數(shù)據(jù),通過對圖書館信息系統(tǒng)的數(shù)據(jù)進行分析,從中提煉第二手資料,包括服務(wù)器日志記錄、瀏覽器訪問記錄、注冊信息、用戶交互信息等,目的在于全面掌握不同用戶的需求,通過預(yù)測分析了解用戶喜愛的學術(shù)文獻類型,進而有針對性地開展學術(shù)文獻整合工作。圖書館服務(wù)系統(tǒng)中保留了用戶的訪問記錄,在知識挖掘過程中不僅可以采用追蹤個性化記錄的方式,了解不同用戶的偏好,也可以根據(jù)不同用戶的訪問情況,主動推送個性化服務(wù)內(nèi)容。通過深入挖掘日志文件中隱含的規(guī)律,有助于識別潛在的用戶,改進學術(shù)文獻服務(wù)模式,強化用戶對圖書館服務(wù)的認知。
4 ?面向知識服務(wù)的學術(shù)文獻資源知識挖掘系統(tǒng)構(gòu)建
依托知識挖掘工具發(fā)現(xiàn)有價值的知識,是商家、科研人員、普通用戶的共同需求。圖書館建立基于關(guān)聯(lián)數(shù)據(jù)的知識挖掘系統(tǒng),能夠提高知識挖掘的效率,促進館藏學術(shù)文獻資源得到更好的利用。
4.1 ?總體設(shè)計目標
圖書館根據(jù)用戶的知識服務(wù)需求,建立包括知識挖掘、知識展示等功能模塊的服務(wù)系統(tǒng),對采集的學術(shù)文獻資源進行知識挖掘,可以憑借自然語言處理、語義分析、可視化等技術(shù),在服務(wù)系統(tǒng)頁面展示學術(shù)文獻資源之間的關(guān)聯(lián)關(guān)系,標注不同資源的屬性、用戶訪問情況等信息,獲得更加清晰的知識地圖。基于此,用戶可以高效獲取所需文獻,館員也可以借助關(guān)聯(lián)數(shù)據(jù),挖掘不同用戶的興趣愛好,進而提供具有針對性的服務(wù)。知識挖掘系統(tǒng)的設(shè)計,可以選擇合適的開源軟件作為程序開發(fā)平臺,如NetBeans開發(fā)平臺就可以提供多種便捷的系統(tǒng)管理窗口,方便對海量學術(shù)信息資源進行管理,并且可選擇Java語言等對關(guān)聯(lián)數(shù)據(jù)進行讀取,實現(xiàn)不同類型數(shù)據(jù)的關(guān)聯(lián)構(gòu)建。
4.2 ?知識挖掘模塊
圖書館對學術(shù)文獻資源進行過濾、清洗等操作后,借助離群點分析的方式,對數(shù)據(jù)進行離散化處理,去除關(guān)聯(lián)數(shù)據(jù)中的噪聲,明確不同數(shù)據(jù)對象之間的關(guān)系,并輸入知識挖掘模塊中。然后借助語義挖掘、聚類分析等技術(shù),實現(xiàn)對學術(shù)文獻資源的深度分析,從中提取有價值的知識。關(guān)聯(lián)數(shù)據(jù)的應(yīng)用涉及本體技術(shù),可以將海量孤立的信息聯(lián)系起來,并以資源描述框架(RDF)鏈接的方式發(fā)現(xiàn)實體資源之間的關(guān)聯(lián)映射,并將關(guān)聯(lián)數(shù)據(jù)分類納入本地知識庫中。在系統(tǒng)查詢頁面,用戶可以直接輸入檢索詞獲取所需的學術(shù)文獻,系統(tǒng)會自動調(diào)取與之相關(guān)的數(shù)據(jù),借助語義描述、邏輯推理等方式獲取顯性知識,便于用戶更好地瀏覽和利用。
4.3 ?知識展示模塊
圖書館開展知識挖掘的目的,是獲得更有價值的知識,讓更多的用戶受益。知識展示模塊的功能在于評估知識挖掘模式,并以可視化的方式將提取的知識推送給用戶,提高圖書館知識服務(wù)的質(zhì)量。該模塊主要針對數(shù)字化資源進行展示,其中的查詢解析器可以標注用戶輸入的檢索詞,便于系統(tǒng)對用戶需求進行識別,自動選擇適宜的關(guān)聯(lián)算法,對海量學術(shù)文獻資源進行整合處理,對館藏文獻中的知識元進行標引,對知識元之間的邏輯關(guān)系進行推理,抽取關(guān)聯(lián)知識庫中有用的知識,并通過查詢引擎將結(jié)果推送給用戶。依托知識挖掘系統(tǒng)強大的知識挖掘能力,圖書館可以提供科技查新、決策支持、情報分析等服務(wù),便于用戶在圖書館知識服務(wù)平臺獲得更多新的知識。
5 ?小結(jié)
圖書館為達成提供高水平知識服務(wù)滿足用戶個性化需求的目標,需要借助智能工具或技術(shù),構(gòu)建知識挖掘系統(tǒng),建立知識庫,從海量學術(shù)文獻資源中發(fā)現(xiàn)隱含的知識,對大規(guī)模數(shù)據(jù)進行處理調(diào)用,根據(jù)不同用戶在特定情境下的知識需求,推送具有針對性的知識服務(wù)產(chǎn)品,促進館藏學術(shù)文獻資源的深層次開發(fā)。
參考文獻
[1] 潘杏仙,康琳,宛鳳英.智慧圖書館個性用戶分析及培育思路構(gòu)想[J].大學圖書情報學刊,2016,34(2):5-8,23.
[2] 肖洪,趙洪,毋曉霞.基于知識挖掘與協(xié)同融合的情報研究方法[J].情報理論與實踐,2018,41(10):15-19.
[3] 趙淑媛.淺析數(shù)字檔案信息資源的知識挖掘技術(shù)[J].蘭臺世界, 2017(A01):36-37.
[4] 劉海濤,趙衛(wèi)東.基于知識模式挖掘的流程知識推薦系統(tǒng)[J].計算機集成制造系統(tǒng),2017,23(2):396-403.
[5] 柳益君,何勝,熊太純,等.大數(shù)據(jù)挖掘視角下的圖書館智慧服務(wù)——模型、技術(shù)和服務(wù)[J].現(xiàn)代情報,2017,37(11):81-86.
[6] 王凱,孫濟慶,李楠.面向?qū)W術(shù)文獻的知識挖掘方法研究[J].現(xiàn)代情報,2017,37(5):47-51,110.
(收稿日期:2019-10-31)
(修回日期:2019-11-20;編輯:魏民)