鄒昕
【摘 要】隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其應(yīng)用領(lǐng)域也得到了進(jìn)一步的拓展,圖書館的現(xiàn)代化建設(shè)也因此迎來了新的機(jī)遇,在圖書館文獻(xiàn)管理過程中,每天都產(chǎn)生大量的讀者借閱數(shù)據(jù),合理地利用這些有價(jià)值的信息對(duì)圖書館的采購、館藏、咨詢等業(yè)務(wù)工作有著很大的指導(dǎo)作用。通過應(yīng)用數(shù)據(jù)挖掘技術(shù),圖書館管理者能夠更加全面地了解讀者訪問圖書館的趨勢(shì)和目的,進(jìn)一步的改善圖書館系統(tǒng)的人性化服務(wù),為圖書館現(xiàn)代化管理提供技術(shù)支持和決策管理支持。
【關(guān)鍵詞】數(shù)據(jù)挖掘;圖書館管理;技術(shù)
1 技術(shù)背景
隨著信息技術(shù)和計(jì)算機(jī)技術(shù)的向前發(fā)展,近些年信息量呈現(xiàn)爆發(fā)式增長,這些超大型數(shù)據(jù)庫能夠涉及社會(huì)的科學(xué)研究、政府部門、天文學(xué)、超級(jí)市場、行政辦公、金融機(jī)構(gòu)等領(lǐng)域,使得傳統(tǒng)信息分析方法在一定得程度上不能滿足現(xiàn)實(shí)的需求。在這種背景下,信息和知識(shí)的數(shù)據(jù)挖掘技術(shù)慢慢走入人們的視野。
2 課題研究意義和目的
圖書館作為學(xué)術(shù)性、科研性、服務(wù)性機(jī)構(gòu),在學(xué)校的教學(xué)及科研中承擔(dān)著重要角色,迫切需要聚類分析、序列模式分析、關(guān)聯(lián)分析、分類分析和概念描述等數(shù)據(jù)挖掘的技術(shù)對(duì)獲取的信息做進(jìn)一步的加工,以此來更好的發(fā)展圖書館管理業(yè)務(wù)。
文獻(xiàn)管理集成系統(tǒng)能夠很好的對(duì)文獻(xiàn)信息資源進(jìn)行資源共享、有效的開發(fā)、科學(xué)的管理,這些也恰恰是數(shù)字化圖書館建設(shè)的重要內(nèi)容。
3 國內(nèi)外研究現(xiàn)狀
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及市場交易量的逐步擴(kuò)大,數(shù)據(jù)挖掘系統(tǒng)的應(yīng)用也越來越普遍。目前,數(shù)據(jù)挖掘系統(tǒng)的研究與應(yīng)用主要集中在醫(yī)藥、天體、電信、零售、體育、營銷分析、農(nóng)業(yè)、生物、電力、化工和金融等行業(yè)。
在我國,國家自然科學(xué)基金對(duì)數(shù)據(jù)挖掘的研究提供支持是在1993年,自此之后,我國很多高等院校和科研單位相繼開展發(fā)現(xiàn)知識(shí)的基礎(chǔ)理論研究工作,參與的單位主要有:海軍裝備論證中心、空軍第三研究所、中科院計(jì)算技術(shù)研究所、清華大學(xué)等。其中,在知識(shí)發(fā)現(xiàn)應(yīng)用領(lǐng)域中應(yīng)用模糊方法的研究單位有北京系統(tǒng)工程研究所;對(duì)數(shù)據(jù)立方體代數(shù)的研究單位有北京大學(xué);對(duì)關(guān)聯(lián)規(guī)則開采算法的改造和優(yōu)化進(jìn)行了深入研究的單位有華中科技大學(xué)、復(fù)旦大學(xué)、吉林大學(xué)、中科院數(shù)學(xué)研究所、中國科技大學(xué)、浙江大學(xué)等單位;對(duì)非結(jié)構(gòu)化數(shù)據(jù)的Web數(shù)據(jù)挖掘以及知識(shí)發(fā)現(xiàn)研究的單位主要有上海交通大學(xué)、四川大學(xué)和南京大學(xué)等。
在圖書館領(lǐng)域方面,《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》(國家“十一五”重大出版工程項(xiàng)目)的建設(shè)取得了很好的突破,“網(wǎng)上個(gè)人與機(jī)構(gòu)數(shù)字圖書館”系統(tǒng)在2008上半年正式投入使用?!熬W(wǎng)上個(gè)人與機(jī)構(gòu)數(shù)字圖書館”已經(jīng)整合《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》出版的國內(nèi)期刊、本博碩士學(xué)位論文、會(huì)議論文、報(bào)紙文獻(xiàn)、工具書和年鑒數(shù)目分別為9000多種、60多萬篇、90多萬篇、800多萬篇、1600多種和2300多種,同時(shí)還整合了科技成果、標(biāo)準(zhǔn)、專利等各類資源。該體系是在知識(shí)管理系統(tǒng)(由清華大學(xué)開發(fā))的基礎(chǔ)上開發(fā)出的信息資源服務(wù)系統(tǒng),能夠自由定制多種個(gè)性化服務(wù),為各類醫(yī)務(wù)人員、公務(wù)人員、技術(shù)人員、科研人員、管理人員和單位服務(wù),具有實(shí)時(shí)性、自動(dòng)化、專業(yè)化、個(gè)性化的特點(diǎn)。
4 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘就是從隨機(jī)的、不完全的、模糊的、有噪聲的、大量的應(yīng)用數(shù)據(jù)中,挖掘出潛在有用的、事先不知道的、隱含在其中的知識(shí)和信息的過程。
從概念上來講,與數(shù)據(jù)挖掘相近的有決策支持、數(shù)據(jù)分析和數(shù)據(jù)融合等。該概念可能包括的含義有:數(shù)據(jù)源必須是含噪聲的、大量的、真實(shí)的;發(fā)現(xiàn)的知識(shí)是用戶所感興趣的;并不要求知識(shí)在任何情況都被人們所接受;發(fā)現(xiàn)的知識(shí)要可運(yùn)用、可理解、可接受。
從本質(zhì)上說,與傳統(tǒng)的數(shù)據(jù)分析相比,數(shù)據(jù)挖掘可以理解為是在不帶任何針對(duì)性的條件下去發(fā)現(xiàn)知識(shí)、挖掘信息,其挖掘出來的信息主要特征有三個(gè),分別為可實(shí)用,有效和先未知。
5 數(shù)據(jù)挖掘的技術(shù)
在數(shù)據(jù)挖掘的過程中,需要采用一定的技術(shù),常用的主要有:關(guān)聯(lián)規(guī)則方法、統(tǒng)計(jì)技術(shù)、神經(jīng)元網(wǎng)絡(luò)、決策樹和規(guī)則推理、連接分析、聚集檢測(cè)、基于歷史的分析MBR方法、遺傳算法等。
5.1 關(guān)聯(lián)規(guī)則方法
關(guān)聯(lián)規(guī)則是數(shù)據(jù)庫中某些特定事件一起發(fā)生的概率的簡單陳述。運(yùn)用一定的方法來發(fā)現(xiàn)數(shù)據(jù)庫中隱藏的關(guān)聯(lián)規(guī)則這個(gè)經(jīng)過是關(guān)聯(lián)規(guī)則挖掘?,F(xiàn)在數(shù)據(jù)挖掘領(lǐng)域的研究中關(guān)鍵的一個(gè)方向是關(guān)聯(lián)規(guī)則挖掘的研究。
5.2 統(tǒng)計(jì)技術(shù)
挖掘數(shù)據(jù)集利用統(tǒng)計(jì)技術(shù),操作原則是針對(duì)已給的數(shù)據(jù)集合先預(yù)設(shè)一個(gè)概率的模型或者正態(tài)分布,后運(yùn)用特定的方法挖掘模型。
5.3 神經(jīng)元網(wǎng)絡(luò)
因特網(wǎng)是由服務(wù)器互聯(lián)形成,而神經(jīng)網(wǎng)絡(luò)是由諸多神經(jīng)元互聯(lián)形成的,兩者形成原理較為相似。可以根據(jù)組織的特征或者“神經(jīng)元”互聯(lián)形成神經(jīng)網(wǎng)絡(luò)。
5.4 決策樹和規(guī)則推理
類似于一棵樹的預(yù)測(cè)模型是決策樹。在決策樹中,分布或者類的結(jié)果呈現(xiàn)在樹葉上,每個(gè)屬性上的測(cè)試結(jié)果顯現(xiàn)在內(nèi)部節(jié)點(diǎn)上,而每一個(gè)分類的問題是呈現(xiàn)在樹的每一個(gè)分支上的。
5.5 連接分析
圖論是其基本理論。找到一個(gè)能得出好而不完美結(jié)果的算法是圖論的思想。這種思想模式可行雖然不完美,所以在更加廣泛的用戶群中可以使用這種模式。
5.6 聚集檢測(cè)
聚類是對(duì)抽象對(duì)象或者物理的集合進(jìn)行分組,讓相似的對(duì)象形成若干個(gè)類。因此,對(duì)象的相似性存在于由聚類產(chǎn)生的數(shù)據(jù)對(duì)象集合中,而有別于其他集合的對(duì)象,存在相異性。可以依據(jù)對(duì)象的屬性值來計(jì)算出相異度,通常的度量方法是距離。
5.7 基于歷史的分析MBR方法
MBR先是從數(shù)據(jù)中找尋與其類似的數(shù)據(jù),其次分類和估值類似的數(shù)據(jù)。通俗來講,就是先依據(jù)經(jīng)驗(yàn)找相似的,后根據(jù)找到的信息運(yùn)用到新的數(shù)據(jù)中。
5.8 遺傳算法
基于遺傳機(jī)理的隨機(jī)搜索與生物自然選擇形成的一種仿生全局優(yōu)化方法叫遺傳算法,其可以在數(shù)據(jù)挖掘中運(yùn)用,因?yàn)榫邆湟子诤推渌P徒Y(jié)合、隱含并行性等性質(zhì)。
6 數(shù)據(jù)挖掘的體系結(jié)構(gòu)和基本過程
6.1 數(shù)據(jù)挖掘的體系結(jié)構(gòu)
從大型數(shù)據(jù)庫中挖掘出之前可實(shí)用的、未知的、有效的信息,并對(duì)信息做出豐富知識(shí)或者決策的整個(gè)過程是數(shù)據(jù)挖掘。一般來說,如圖1所示,常用的數(shù)據(jù)挖掘系統(tǒng)可分三層。即數(shù)據(jù)源、挖掘器、用戶層。在第一層中,數(shù)據(jù)倉庫、數(shù)據(jù)庫等屬于數(shù)據(jù)源;第二層使用多種數(shù)據(jù)挖掘方法分析和提取數(shù)據(jù)庫中的數(shù)據(jù)在數(shù)據(jù)挖掘系統(tǒng)中,滿足用戶需要;第三層是通過多種途徑將發(fā)現(xiàn)的知識(shí)和獲得的信息反饋給用戶。
6.2 數(shù)據(jù)挖掘的基本過程
數(shù)據(jù)挖掘是一個(gè)從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、概要和導(dǎo)出值的過程。
數(shù)據(jù)挖掘過程是一個(gè)歸納的過程。其過程如下:
6.2.1 確定業(yè)務(wù)對(duì)象
數(shù)據(jù)挖掘中關(guān)鍵的一步是業(yè)務(wù)問題的明晰,從而摸準(zhǔn)數(shù)據(jù)挖掘的目的。挖掘的最后結(jié)果具有不確定性。
6.2.2 數(shù)據(jù)準(zhǔn)備
從與業(yè)務(wù)對(duì)象相關(guān)的所有內(nèi)外數(shù)據(jù)信息中尋找并選擇出合適的能應(yīng)用于數(shù)據(jù)挖掘中的數(shù)據(jù)是數(shù)據(jù)的選擇。數(shù)據(jù)挖掘成功的關(guān)鍵是建立一個(gè)真正適合挖掘算法的分析模型。
6.2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是挖掘得到結(jié)果轉(zhuǎn)換的數(shù)據(jù),其所有的工作是自動(dòng)完成,除卻選擇適合的挖掘算法。
6.2.4 結(jié)果分析
對(duì)結(jié)果進(jìn)行解釋和評(píng)估。一般使用可視化技術(shù),具體分析方法是根據(jù)數(shù)據(jù)挖掘操作來設(shè)定。
6.2.5 知識(shí)的同化
在業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中并入分析得到的知識(shí)。
當(dāng)前,作為一門新的學(xué)科,數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于人工智能技術(shù)、數(shù)據(jù)庫技術(shù)、模式識(shí)別、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)與應(yīng)用、信息檢索、硬件與操作系統(tǒng)、計(jì)算機(jī)軟件等諸多交叉學(xué)科中。目前數(shù)據(jù)挖掘的研究結(jié)果呈現(xiàn)多樣性,有諸多成果研究完成,研究者們都是從某一角度去深入挖掘,到目前為止數(shù)據(jù)挖掘研究沒有形成系統(tǒng)完善的體系。除此之外,算法的不高效是當(dāng)前出現(xiàn)的一個(gè)重大的問題,因?yàn)閿?shù)據(jù)庫的規(guī)模、問題的背景、操作系統(tǒng)、編程語言等問題使得橫向比較不能用在很多算法中。挖掘有用的知識(shí)是數(shù)據(jù)挖掘的目的,那么數(shù)據(jù)挖掘關(guān)鍵的研究點(diǎn)是如何創(chuàng)造高效挖掘。
[責(zé)任編輯:許麗]