賈生 王宇
〔摘要〕從科研人員的實(shí)際需求出發(fā),基于對(duì)期刊文獻(xiàn)的理解與分析,首先設(shè)計(jì)了針對(duì)文獻(xiàn)數(shù)據(jù)的解析流程,確定了期刊文獻(xiàn)數(shù)據(jù)倉庫三層體系結(jié)構(gòu);進(jìn)而采用三級(jí)維度建模技術(shù)具體構(gòu)造數(shù)據(jù)倉庫三級(jí)模型;最后利用SQL Server 2008平臺(tái)實(shí)現(xiàn)了一個(gè)期刊文獻(xiàn)數(shù)據(jù)倉庫原型系統(tǒng),并利用該數(shù)據(jù)倉庫對(duì)文獻(xiàn)資源進(jìn)行了OLAP操作,取得了較好的分析效果。
〔關(guān)鍵詞〕文獻(xiàn)數(shù)據(jù)倉庫;文獻(xiàn)數(shù)據(jù)解析;體系結(jié)構(gòu);三級(jí)維度建模;OLAP
收稿日期:2011-03-10
基金項(xiàng)目:教育部人文社科研究項(xiàng)目“期刊文獻(xiàn)知識(shí)元挖掘及知識(shí)倉庫構(gòu)建研究”(項(xiàng)目編號(hào):09YJA870005)研究成果之一
作者簡介:賈 生(1985-),男,碩士研究生,研究方向:文獻(xiàn)資源管理。
DOI:10.3969/j.issn.1008-0821.2011.06.019
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2011)06-0069-04
Design and Implementation on Periodical Literature Data Warehouse
Jia Sheng Wang Yu
(College of Management Science and Engineering,Dalian University of Technology,Dalian 116024,China)
〔Abstract〕With the actual requirements of scientist workers,this text firstly designed a data analysis process for periodical literature and determine the three-tier architecture of periodical literature data warehouse based on the understanding and analysis of periodical literature.Then constructed a tree-level model of date warehouse by three dimensional modeling technology.Finally,implemented a prototype system of periodical periodical literature data warehouse based on SQL Server 2008 platform, making OLAP operations towards the periodical literature data warehouse and have achieved good results.
〔Key words〕literature data warehouse;literature data analysis;architecture;three-dimensional modeling;OLAP
文獻(xiàn)是一種寶貴的信息資源,是人們獲取信息和知識(shí)的一個(gè)重要渠道,而期刊又是所有文獻(xiàn)類型中最重要的信息情報(bào)來源,據(jù)統(tǒng)計(jì)向人們提供了所需文獻(xiàn)信息的50%~70%。近年來,隨著數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)和數(shù)字化圖書館技術(shù)的飛速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,使得以電子期刊文獻(xiàn)為主要形式的文獻(xiàn)資源不斷膨脹。如何從浩如煙海的文獻(xiàn)資源中獲取有用的信息和知識(shí)始終是科學(xué)工作者所關(guān)心的一個(gè)問題同時(shí)也是圖書情報(bào)學(xué)研究的一個(gè)重要方向。目前,各級(jí)各類圖書館特別是大中型圖書館都擁有了大量如CNKI(中國期刊全文數(shù)據(jù)庫)、VIP(維普資訊)、萬方等大型文獻(xiàn)數(shù)據(jù)庫系統(tǒng),這些數(shù)據(jù)庫系統(tǒng)為人們獲取文獻(xiàn)提供了方便快捷的途徑。但由于這些文獻(xiàn)資料大多以摘要或全文的形式存儲(chǔ)在計(jì)算機(jī)中,計(jì)算機(jī)不能對(duì)這些文獻(xiàn)資料進(jìn)行更深層次的數(shù)據(jù)挖掘,而需要人工對(duì)所檢索的信息進(jìn)行分析處理,其處理效率和深度都非常低[1]。因此,建立一個(gè)文獻(xiàn)數(shù)據(jù)倉庫系統(tǒng),對(duì)期刊文獻(xiàn)信息進(jìn)行深度挖掘,使讀者迅速、準(zhǔn)確獲取所需要的信息,為決策需要面向主題進(jìn)行數(shù)據(jù)重組具有非常重要的意義。
當(dāng)前數(shù)據(jù)倉庫技術(shù)已相當(dāng)成熟,應(yīng)用也日益廣泛。但在文獻(xiàn)資源管理領(lǐng)域,論述文獻(xiàn)數(shù)據(jù)倉庫建設(shè)思想[2-4]的文獻(xiàn)目前還很少,詳細(xì)介紹文獻(xiàn)數(shù)據(jù)倉庫設(shè)計(jì)方法和實(shí)施過程的文獻(xiàn)更是鳳毛麟角。在國外,Owen Kaser[4]等于2006年提出過文獻(xiàn)OLAP(聯(lián)機(jī)分析處理)項(xiàng)目,Steven W.Keith[5]對(duì)文獻(xiàn)數(shù)據(jù)倉庫的不同存儲(chǔ)方法進(jìn)行了研究。近年來,國內(nèi)學(xué)者也對(duì)文獻(xiàn)數(shù)據(jù)倉庫建設(shè)進(jìn)行了思考和探索,其中徐慧所提出的文獻(xiàn)數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)的4個(gè)步驟[1],對(duì)文獻(xiàn)數(shù)據(jù)倉庫建設(shè)具有重要啟發(fā)。但這些研究都沒有涉及文獻(xiàn)數(shù)據(jù)倉庫的詳細(xì)設(shè)計(jì)和具體實(shí)現(xiàn)。由于期刊文獻(xiàn)結(jié)構(gòu)規(guī)范,信息量大,覆蓋面廣,數(shù)據(jù)也易于提取、處理和管理,研究起來相對(duì)方便也具有可行性,因此我們選取期刊文獻(xiàn)作為本文的研究對(duì)象,通過建立一個(gè)文獻(xiàn)數(shù)據(jù)倉庫原型系統(tǒng)來研究期刊文獻(xiàn)數(shù)據(jù)倉庫的設(shè)計(jì)和實(shí)現(xiàn)流程,并利用該數(shù)據(jù)倉庫進(jìn)行OLAP分析。
1 期刊文獻(xiàn)數(shù)據(jù)倉庫分析
由于期刊文獻(xiàn)資源的特殊性,如何高效地獲取期刊文獻(xiàn)資源數(shù)據(jù)并對(duì)其進(jìn)行解析和處理是期刊文獻(xiàn)數(shù)據(jù)倉庫實(shí)施的關(guān)鍵,設(shè)計(jì)一個(gè)合理的數(shù)據(jù)倉庫體系結(jié)構(gòu)是期刊文獻(xiàn)數(shù)據(jù)倉庫建設(shè)的基礎(chǔ)。
1.1 源數(shù)據(jù)的獲取和解析問題分析
期刊文獻(xiàn)數(shù)據(jù)倉庫的構(gòu)建應(yīng)以文獻(xiàn)數(shù)據(jù)庫系統(tǒng)為基礎(chǔ)。因此我們選取現(xiàn)有的文獻(xiàn)數(shù)據(jù)庫系統(tǒng)作為期刊文獻(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)源,從中提取滿足分析需要的數(shù)據(jù)。但是,以常規(guī)渠道從現(xiàn)有的文獻(xiàn)數(shù)據(jù)庫中獲得的數(shù)據(jù)包含很多冗余,也存在格式不一致等諸多問題,并不能直接加載到數(shù)據(jù)倉庫中,因而必須首先對(duì)其進(jìn)行解析和預(yù)處理?;诖耍覀?cè)O(shè)計(jì)了一個(gè)期刊文獻(xiàn)數(shù)據(jù)解析流程來對(duì)源數(shù)據(jù)進(jìn)行預(yù)處理。本文選擇維普資訊(VIP)中文科技期刊數(shù)據(jù)庫(1989-2010年9月底)作為文獻(xiàn)資料來源。文獻(xiàn)的檢索方法是:在“分類檢索”中選擇“社會(huì)科學(xué)總論”下的“管理學(xué)”中的“管理計(jì)劃與控制”進(jìn)行搜索,得到351篇文獻(xiàn)記錄。以50篇為1個(gè)單位下載這351篇文獻(xiàn)的全部詳細(xì)信息,得到1個(gè)txt文本。進(jìn)而利用JAVA編程對(duì)該文本文件進(jìn)行處理,得到相應(yīng)的excel文件。該excel文件包含除標(biāo)題欄外351條記錄,分別記錄每篇文獻(xiàn)的題名、作者、機(jī)構(gòu)、刊名、ISSN號(hào)、CN號(hào)、館藏號(hào)、關(guān)鍵詞、分類號(hào)和文摘信息,將其作為數(shù)據(jù)源文件。再利用VBA編程進(jìn)行數(shù)據(jù)處理,刪除如館藏號(hào)之類無用的信息,并對(duì)原來包括期刊名、年份等數(shù)據(jù)的刊名信息進(jìn)行分解得到期刊名、年份、卷號(hào)、期號(hào)和頁碼信息,將機(jī)構(gòu)信息分解得到機(jī)構(gòu)和地區(qū)信息,最終處理后的部分結(jié)果如圖1所示。
圖1 源數(shù)據(jù)解析結(jié)果
1.2 期刊文獻(xiàn)數(shù)據(jù)倉庫總體結(jié)構(gòu)分析
數(shù)據(jù)倉庫作為一個(gè)系統(tǒng),是多種技術(shù)的綜合體,結(jié)合期刊文獻(xiàn)數(shù)據(jù)的特點(diǎn)和決策分析的需要,我們將期刊文獻(xiàn)數(shù)據(jù)倉庫設(shè)計(jì)為結(jié)構(gòu)化的三層體系結(jié)構(gòu),如圖2所示自底向上依次為數(shù)據(jù)獲?。馕鰧?、存儲(chǔ)/管理層和分析/應(yīng)用層三部分。
圖2 期刊文獻(xiàn)數(shù)據(jù)倉庫總體結(jié)構(gòu)
1.2.1 數(shù)據(jù)獲?。馕鰧?/p>
該層是期刊文獻(xiàn)數(shù)據(jù)倉庫與普通企業(yè)數(shù)據(jù)倉庫相區(qū)別的地方。由于從外部數(shù)據(jù)源(主要指文獻(xiàn)數(shù)據(jù)庫系統(tǒng))獲取的數(shù)據(jù)不能直接加載到期刊文獻(xiàn)數(shù)據(jù)倉庫,因而在該層我們要首先通過上文設(shè)計(jì)的文獻(xiàn)數(shù)據(jù)解析流程對(duì)獲取的源數(shù)據(jù)進(jìn)行解析處理進(jìn)而得到可以直接進(jìn)行加載的數(shù)據(jù)倉庫數(shù)據(jù)源。
1.2.2 存儲(chǔ)/管理層
該層是聯(lián)結(jié)數(shù)據(jù)層和分析層的橋梁,是期刊文獻(xiàn)數(shù)據(jù)倉庫的主體部分。本層首先通過抽取、轉(zhuǎn)換和加載,填充和實(shí)現(xiàn)了數(shù)據(jù)倉庫,并對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)予以存儲(chǔ)。同時(shí)該層還負(fù)責(zé)利用數(shù)據(jù)倉庫管理工具對(duì)所存儲(chǔ)的數(shù)據(jù)進(jìn)行管理和維護(hù)以保證數(shù)據(jù)倉庫的正常工作。
1.2.3 分析/應(yīng)用層
該層是期刊文獻(xiàn)數(shù)據(jù)倉庫的功能部分,也是與傳統(tǒng)文獻(xiàn)數(shù)據(jù)庫系統(tǒng)的根本區(qū)別所在。面向系統(tǒng)的一般用戶,通過OLAP向用戶展示查詢、分析的結(jié)果,滿足用戶決策需要,最終實(shí)現(xiàn)對(duì)期刊文獻(xiàn)資源的數(shù)據(jù)深度分析和挖掘。
2 期刊文獻(xiàn)數(shù)據(jù)倉庫三級(jí)維度建模
數(shù)據(jù)倉庫模型設(shè)計(jì)可分為自上而下(從需求出發(fā))與自下而上(從底層數(shù)據(jù)出發(fā))兩種。三級(jí)規(guī)范化維度建模過程分為:概念模型、邏輯模型與物理模型3個(gè)階段[6]。在期刊文獻(xiàn)數(shù)據(jù)倉庫設(shè)計(jì)中我們依據(jù)對(duì)數(shù)據(jù)的深入分析,選取期刊文獻(xiàn)作為數(shù)據(jù)倉庫分析的主題,將數(shù)據(jù)驅(qū)動(dòng)與需求驅(qū)動(dòng)相結(jié)合,采用三級(jí)維度建模方法進(jìn)行數(shù)據(jù)倉庫的設(shè)計(jì)。
2.1 概念模型設(shè)計(jì)
概念模型的設(shè)計(jì)是以信息打包的方法用二維表格的形式反映主題數(shù)據(jù)多維性,從總體上表示用戶對(duì)信息的需求。根據(jù)對(duì)期刊文獻(xiàn)數(shù)據(jù)倉庫的分析,可以確定信息包圖的3個(gè)對(duì)象:(1)定義關(guān)鍵性能指標(biāo):文獻(xiàn)數(shù)。(2)定義維度:時(shí)間維、作者維、文獻(xiàn)維、期刊維、機(jī)構(gòu)維、分類維、期刊類型維、地區(qū)維。(3)定義各個(gè)維度的類別:類別提供一個(gè)維的詳細(xì)信息。由于篇幅所限本文對(duì)各個(gè)類別定義不進(jìn)行深入說明,其中由于文獻(xiàn)的關(guān)鍵詞和作者大多是幾個(gè)組合在一起,為降低粒度以便進(jìn)一步對(duì)每個(gè)關(guān)鍵詞和作者進(jìn)行分析,我們首先用一個(gè)共編號(hào)來表示關(guān)鍵詞和作者的組合,然后在下層具體情況表中再分別對(duì)每個(gè)作者和關(guān)鍵詞進(jìn)行編號(hào)和說明;對(duì)文獻(xiàn)全文內(nèi)容在數(shù)據(jù)倉庫中我們暫時(shí)不予以存儲(chǔ),僅以存放位置進(jìn)行標(biāo)識(shí)。在各種詳細(xì)類別確定之后,將各個(gè)維度對(duì)象、指標(biāo)對(duì)象以及類別對(duì)象用信息打包的方式,形成一個(gè)如圖3所示的完整信息包圖。
圖3 期刊文獻(xiàn)信息包圖
2.2 邏輯模型設(shè)計(jì)
建立了完整的信息包圖后,就需要將信息包圖轉(zhuǎn)換成星形圖。按照轉(zhuǎn)換的原則,首先定義指標(biāo)實(shí)體,指標(biāo)實(shí)體是由數(shù)據(jù)指標(biāo)和邏輯指標(biāo)構(gòu)成的。信息包圖的指標(biāo)對(duì)象對(duì)應(yīng)著星型圖中的數(shù)據(jù)指標(biāo),而每個(gè)維度的最低級(jí)類別可以納入邏輯指標(biāo)中,這樣得到的數(shù)據(jù)指標(biāo)和邏輯指標(biāo)共同構(gòu)成了星型圖中的指標(biāo)實(shí)體。接下來,要定義維度實(shí)體,維度實(shí)體對(duì)應(yīng)信息包圖的維度對(duì)象,它位于星形圖的角上,用菱形表示。隨著指標(biāo)實(shí)體、維度實(shí)體在星形圖上的定位,就要進(jìn)一步定義兩者的關(guān)系。有了各種實(shí)體后,我們就可以建立一個(gè)完整星形圖。根據(jù)信息包圖和星形圖,我們可以初步確定數(shù)據(jù)倉庫中應(yīng)包括八個(gè)維度表和一個(gè)事實(shí)表。同時(shí)為減少數(shù)據(jù)冗余我們將作者維、文獻(xiàn)維和期刊維,進(jìn)一步細(xì)分建立詳細(xì)類別表(用八邊形表示)使之具有較低的粒度,這樣原來的星形圖模型就擴(kuò)展為如圖4所示的雪花模型。
圖4 雪花模型圖
2.3 物理模型設(shè)計(jì)
數(shù)據(jù)倉庫物理模型是邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn)。主要解決如何組織和存儲(chǔ)數(shù)據(jù)以滿足系統(tǒng)處理的要求,如處理速度、響應(yīng)時(shí)間和存儲(chǔ)容量等問題。建立物理模型是一個(gè)從邏輯模型向更加具體的依賴于數(shù)據(jù)庫平臺(tái)的物理形式轉(zhuǎn)化的過程,如實(shí)體到表、記錄到行、屬性到列、關(guān)系到外鍵、惟一標(biāo)識(shí)符到主鍵的轉(zhuǎn)化過程等[7]。在期刊文獻(xiàn)數(shù)據(jù)倉庫設(shè)計(jì)中,我們以信息包圖和雪花型模型為基礎(chǔ)設(shè)計(jì)各個(gè)表最終結(jié)構(gòu),其中在設(shè)計(jì)期刊文獻(xiàn)事實(shí)表時(shí)以各個(gè)維度表的主鍵為公共主鍵同時(shí)加入一列文獻(xiàn)數(shù)指標(biāo)、各個(gè)維度表的設(shè)計(jì)以信息包圖中的相應(yīng)類別為表中各個(gè)列、首行為各表的主鍵,具體情況表的設(shè)計(jì)相對(duì)比較簡單,設(shè)計(jì)完各個(gè)表我們要確定事實(shí)表、維度表和具體情況表之間的關(guān)系最終形成事實(shí)表/維度表關(guān)系基本結(jié)構(gòu),然后再考慮確定索引策略、數(shù)據(jù)存放位置及存儲(chǔ)分配等。最后我們用SQL Server 2008平臺(tái)建立數(shù)據(jù)倉庫的基本結(jié)構(gòu)。
3 期刊文獻(xiàn)數(shù)據(jù)倉庫的實(shí)現(xiàn)及應(yīng)用
經(jīng)過比較分析,我們選取Microsoft SQL Server 2008的商業(yè)智能解決方案來部署數(shù)據(jù)倉庫并進(jìn)行OLAP分析。SQL Server 2008商業(yè)智能平臺(tái)主要包括以下三大服務(wù):Analysis Services(分析服務(wù)),Integration Services(集成服務(wù)),Reporting Services(報(bào)告服務(wù))和一個(gè)工具:Business Intelligence Development Studio(商業(yè)智能開發(fā)套件),使數(shù)據(jù)倉庫實(shí)現(xiàn)和OLAP變得更為便捷高效。
3.1 數(shù)據(jù)的抽取、轉(zhuǎn)換和加載及Cube創(chuàng)建
數(shù)據(jù)的抽取、轉(zhuǎn)換和加載(ETL)是源數(shù)據(jù)庫和數(shù)據(jù)倉庫之間的橋梁也是數(shù)據(jù)倉庫生成實(shí)現(xiàn)的主要步驟。本文采用SQL Server Integration Services(SSIS)服務(wù)將包含解析后期刊文獻(xiàn)數(shù)據(jù)的Excel表格導(dǎo)入到已創(chuàng)建的數(shù)據(jù)庫中并創(chuàng)建一個(gè)完整的SSIS包,然后將數(shù)據(jù)裝載到期刊文獻(xiàn)數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫是在RDBMS中管理的一個(gè)結(jié)構(gòu)特殊的數(shù)據(jù)庫,Cube(數(shù)據(jù)立方)是從數(shù)據(jù)倉庫中提取的全部或部分表構(gòu)成的多維數(shù)據(jù)集合,是進(jìn)行OLAP分析的前提。SQL Server 2008中的Analysis Services是建立和管理多維數(shù)據(jù)集并對(duì)Cube進(jìn)行分析的工具,在創(chuàng)建時(shí)我們先使用多維數(shù)據(jù)集向?qū)В凑赵O(shè)計(jì)文檔建立量度、維度,再通過SSAS提供的工具自動(dòng)生成關(guān)系架構(gòu),最終自上而下的創(chuàng)建數(shù)據(jù)立方[8]。至此,期刊文獻(xiàn)數(shù)據(jù)倉庫已基本上部署完成了。
3.2 基于期刊文獻(xiàn)數(shù)據(jù)倉庫的OLAP
能夠進(jìn)行分析處理是數(shù)據(jù)倉庫區(qū)別于傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的最主要特征,也是我們?cè)O(shè)計(jì)期刊文獻(xiàn)數(shù)據(jù)倉庫的根本目的。OLAP通過多維的方式對(duì)數(shù)據(jù)進(jìn)行分析、查詢和定制報(bào)表并以多維視圖的形式從多個(gè)角度、多個(gè)側(cè)面及多個(gè)層次向用戶展示分析結(jié)果[9]。OLAP分析的基本多維分析操作有切片(slice)、切塊(dice)、鉆?。╮oll-up)、下鉆(drill-down)及轉(zhuǎn)軸(pivot)等[8]。我們以期刊文獻(xiàn)數(shù)據(jù)倉庫為平臺(tái),利用SSAS服務(wù)逐步實(shí)現(xiàn)了以上操作。由于篇幅所限,我們僅以切塊和轉(zhuǎn)軸操作為例介紹和展示一下OLAP的效果。切塊是在立方體中的3個(gè)維上取一定區(qū)間的屬性成員或全部屬性成員。如圖5中左圖所示,我們選取地區(qū)、機(jī)構(gòu)和作者3個(gè)維度來分析,通過切塊我們可以發(fā)現(xiàn)地區(qū)編號(hào)為R43、機(jī)構(gòu)編號(hào)為1000099和作者共編號(hào)為CA000045等3個(gè)維組合的文獻(xiàn)數(shù)、地區(qū)編號(hào)R43匯總數(shù)以及地區(qū)編號(hào)R43和機(jī)構(gòu)編號(hào)1000099等2個(gè)維組合的匯總數(shù)。轉(zhuǎn)軸又稱旋轉(zhuǎn),是改變一個(gè)報(bào)告或頁面顯示的維方向,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。通過進(jìn)行轉(zhuǎn)軸和旋轉(zhuǎn)操作我們可以靈活的從多個(gè)角度觀察數(shù)據(jù)。如圖5中的右圖所示,通過轉(zhuǎn)軸操作,年編從左側(cè)標(biāo)注轉(zhuǎn)換到上部標(biāo)注我們可以更靈活地選取所需的數(shù)據(jù)。通過這些操作,我們可以根據(jù)需要對(duì)期刊文獻(xiàn)資源進(jìn)行分析和挖掘從中發(fā)現(xiàn)所隱含的信息和知識(shí)。
圖5 OLAP切塊、轉(zhuǎn)軸效果圖
4 結(jié)束語
隨著文獻(xiàn)數(shù)據(jù)庫系統(tǒng)的迅速發(fā)展,如何對(duì)海量增長的文獻(xiàn)資源進(jìn)行分析、開發(fā)和利用是亟待解決的問題。本文將數(shù)據(jù)倉庫技術(shù)應(yīng)用于文獻(xiàn)資源管理領(lǐng)域,確定了期刊文獻(xiàn)數(shù)據(jù)倉庫的特有結(jié)構(gòu),采用三級(jí)規(guī)范化維度建模方法設(shè)計(jì)數(shù)據(jù)倉庫,利用SQL Server 2008平臺(tái)實(shí)現(xiàn)了期刊文獻(xiàn)數(shù)據(jù)倉庫原型系統(tǒng)并在其基礎(chǔ)之上運(yùn)用聯(lián)機(jī)分析處理工具進(jìn)行多維分析,提供多視角查詢分析文獻(xiàn)數(shù)據(jù)資源,為科學(xué)研究者搭建了一個(gè)綜合、面向分析的平臺(tái)。期刊文獻(xiàn)數(shù)據(jù)倉庫設(shè)計(jì)與實(shí)現(xiàn)的最終目的是為了對(duì)期刊文獻(xiàn)數(shù)據(jù)的知識(shí)發(fā)現(xiàn),本文的研究對(duì)期刊文獻(xiàn)數(shù)據(jù)倉庫建設(shè)研究具有一定意義也為今后進(jìn)行文獻(xiàn)知識(shí)倉庫的構(gòu)建和知識(shí)挖掘奠定了一定的基礎(chǔ)。
接下來針對(duì)期刊文獻(xiàn)資源的分析和挖掘研究還有許多工作要做。目前我們所設(shè)計(jì)的期刊文獻(xiàn)數(shù)據(jù)倉庫還沒有考慮參考文獻(xiàn)這一重要數(shù)據(jù),也沒有涉及對(duì)文獻(xiàn)內(nèi)容的分析處理。下一步我們將會(huì)考慮以參考文獻(xiàn)信息為分析對(duì)象利用數(shù)據(jù)倉庫技術(shù)對(duì)期刊文獻(xiàn)資源進(jìn)行引文分析;同時(shí)研究對(duì)期刊文獻(xiàn)內(nèi)容的知識(shí)表示、存儲(chǔ)、檢索和分析等問題,結(jié)合知識(shí)元研究理論,以期刊文獻(xiàn)數(shù)據(jù)倉庫體系結(jié)構(gòu)為基礎(chǔ)構(gòu)建期刊文獻(xiàn)知識(shí)倉庫,從而進(jìn)一步實(shí)現(xiàn)對(duì)文獻(xiàn)資源的知識(shí)挖掘。
參考文獻(xiàn)
[1]徐慧.文獻(xiàn)數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)方法[J].煤礦自動(dòng)化,2000(1):29-32.
[2]徐彬榮.論文獻(xiàn)數(shù)據(jù)倉庫邏輯建模[J].情報(bào)雜志,2005,(4):63-65.
[3]徐彬榮.文獻(xiàn)數(shù)據(jù)倉庫新探索[J].情報(bào)雜志,2004,(5):57-60.
[4]O.Kaser,S.Keith,D.Lemire.The LitOLAP project:Data warehousing with literature,in:CaSTA06,2006.
[5]Steven W.Keith.Efficient storage methods for a literary data warehouse[D].Master餾 thesis,UNB,2006.
[6]邢攸達(dá).港口生產(chǎn)數(shù)據(jù)倉庫設(shè)計(jì)方法研究[D].大連:大連理工大學(xué),2007.
[7]邢攸達(dá),王宇,潘明霞.港口生產(chǎn)數(shù)據(jù)倉庫設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)輔助工程,2007,16(4):84-89.
[8]朱德利.SQL Server 2005數(shù)據(jù)挖掘與商業(yè)智能完全解決方案[M].北京:電子工業(yè)出版社,2007.
[9]楊武成,孫俊茹,張武剛.基于OLAP的礦井局部通風(fēng)系統(tǒng)故障數(shù)據(jù)倉庫的建立[J].工礦自動(dòng)化,2008,(3):9-11.