国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

論數(shù)據(jù)挖掘技術(shù)在高職院校信息資源共享中的應(yīng)用

2016-11-14 00:14劉珊珊
電腦知識與技術(shù) 2016年24期
關(guān)鍵詞:信息資源共享數(shù)據(jù)挖掘高職院校

劉珊珊

摘要:通過分析我國高職院校信息資源在“院校內(nèi)部”,“院校-院?!币约啊霸盒?社會”共享過程中存在的主要問題,提出基于數(shù)據(jù)挖掘技術(shù)的信息資源共享模式,建議針對不同的資源共享方式,通過精確而有效的信息資源預(yù)處理過程,構(gòu)建多個高職院校信息資源數(shù)據(jù)庫,以提升我國高職院校信息資源的共享,使信息資源能夠在高職院校教學(xué)科研,日?;顒右约吧鐣顒舆^程中得以充分并高效的利用。

關(guān)鍵詞:高職院校;信息資源共享;數(shù)據(jù)挖掘;數(shù)據(jù)庫

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)24-0010-03

信息資源,是指在以信息為核心的各類信息活動要素,為人類生活和社會活動所搜索并使用。在當(dāng)前信息資源大爆炸的時代里,高職院校更是信息重要的集散地[1]。大量而繁雜的信息資源充斥著高職院校的各個角落。但是由于缺乏有效的探索分析手段,使得高職院校中的信息資源并沒有得到充分而有效的利用[1]。同時,高職院校信息資源也極度缺乏與社會大眾的共享[2, 3]。如何提高高職院校信息資源的共享率是高職院校信息資源處理過程中亟需解決的問題。得益于計算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,數(shù)據(jù)挖掘技術(shù)應(yīng)用而生。因此,本文通過探討數(shù)據(jù)挖掘技術(shù)在高職院校信息資源共享中的應(yīng)用,來為我國高職院校信息資源共享建設(shè)提供有效一定的科學(xué)依據(jù)和建議。

1高職院校信息資源類型

所謂高職院校信息資源,就是指高職院校的日常教學(xué)、科研活動、校園生活中所產(chǎn)生和使用的各種信息的總和[4, 5]。通過資源共享機(jī)制,可以使得高職院校信息資源得以充分的利用并實現(xiàn)信息本身的價值。

高職院校信息資源可主要分類兩類:1)服務(wù)于教學(xué)科研的信息資源:主要指圖書館所藏紙質(zhì)書籍、電子文獻(xiàn)資源、國內(nèi)外電子文獻(xiàn)數(shù)據(jù)庫、教學(xué)信息資源等。高職院校是主要的教學(xué)科研活動場所。學(xué)校會有大量的信息資源是為了服務(wù)教學(xué)科研活動的順利進(jìn)行。學(xué)校圖書館所收藏的大量的紙質(zhì)書籍、文獻(xiàn)資源是高職院校教學(xué)科研的基礎(chǔ)。此外,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,高職院校通過購買大量的國內(nèi)外文獻(xiàn)數(shù)據(jù)庫擴(kuò)大了傳統(tǒng)以圖書館為基礎(chǔ)的文獻(xiàn)資源。在高職院校IP范圍內(nèi),可以方便查詢大量的國內(nèi)外最新文獻(xiàn)資源。最后,教師所使用的教學(xué)課件是主要的高職院校內(nèi)部最為重要的教學(xué)資源。2)豐富校園生活的信息資源:主要指為了豐富校園生活,高職院校經(jīng)常進(jìn)行的講座信息、培訓(xùn)信息、招聘信息等信息資源。高職院校除了教學(xué)科研任務(wù)之外,高職院校通過豐富校園生活,使得學(xué)生在教學(xué)科研之外能夠有大量的機(jī)會得到全方面地提升和鍛煉。如大量的講座通知信息、培訓(xùn)信息以及社會企業(yè)招聘信息等。

通過共享機(jī)制使得各類信息得以共享并充分利用,從而使高職院校的信息資源共享率、使用率得以最大化是高職院校信息資源共享亟需解決的問題。本文就以高職院校中服務(wù)于教學(xué)科研的信息資源為例,探討如何通過數(shù)據(jù)挖掘技術(shù)充分提高高職院校信息資源的共享。

2 高職院校信息資源共享中主要存在的問題

當(dāng)前,我國高職院校信息資源在共享過程中存在大量的問題,主要可以劃分為三類:較差的“院校內(nèi)部”共享;薄弱的“院校-院?!惫蚕?;缺乏的“院校-社會”共享。

1)較差的“院校內(nèi)部”共享。高職院校圖書館中集中了高校教學(xué)與科研所需的絕大部分學(xué)術(shù)資源與文獻(xiàn)信息資源,是主要的信息集散地。但是,長期以來,我國圖書館,特別是高校圖書館,受到傳統(tǒng)的思想“以藏為主,以用為輔”的影響,大量圖書資源閑置,得以閱讀并使用的圖書資源極為有限,有近50%的信息資源長期處于“靜止”狀態(tài)。共享率、使用率極低。高職院校內(nèi)部教學(xué)過程中所使用的教學(xué)課件是高職院校內(nèi)部教學(xué)科研主要的一個信息資源。目前,教學(xué)課件的共享主要是在課間通過直接拷貝的方式從教師共享到學(xué)生(只限定在該課程的學(xué)生)。這在一定程度上大大降低了信息資源的使用價值。如何提升圖書文獻(xiàn)資源的共享,以及教學(xué)課件的共享是高職院校信息資源共享過程中最為重要的一個環(huán)節(jié)。

2) 薄弱的“院校-院?!惫蚕?。我國高職院校的主要職能是培養(yǎng)技術(shù)性人才,特別是培養(yǎng)應(yīng)對市場需求的專業(yè)型人才。基于這樣的培養(yǎng)目標(biāo)。我國當(dāng)前高職院校的資源相對單一而且局限。以計算機(jī)類高職院校為例,其所擁有的信息大多關(guān)于計算學(xué)科方面。如何加強(qiáng)和其他類型高校之間的其他學(xué)科信息的共享是未來高職院校信息共享的一個亟需解決的問題。通過“院校-院校”共享環(huán)節(jié)既能優(yōu)化學(xué)科交流,又能開拓學(xué)生視野。同時同類高職院校之間對于信息資源的共享問題重視度也較為不夠,這也是高職院校信息共享過程中需要面對的一個問題。通過“院校-院?!惫蚕?,既能加強(qiáng)同類高職院校之間的緊密合作又能提高信息量。得以實現(xiàn)知識的相互傳播和發(fā)展。

3) 缺乏的“院校-社會”共享。高職院校信息資源針對社會大眾的分享程度及其缺乏[2, 3, 6]。當(dāng)前,我國高職院校是孤立于社會所存在的。絕大部分的高職院校針對社會是封閉的。高職院校內(nèi)部的所有教學(xué)、科研信息資源記錄著科學(xué)活動,是人類社會的寶貴財富,它們科研幫助人們認(rèn)識事物的發(fā)展規(guī)律,豐富自我知識素養(yǎng),拓展思維角度等。但是,我國當(dāng)前很少有高職院校愿意將自己的信息資源共享給社會大眾。這就在很大程度上限制了高職院校與社會之間的交流。因此促進(jìn)“院校-社會”之間的信息資源共享是高職院校信息資源共享過程中亟需嘗試的一個環(huán)節(jié)。

3 數(shù)據(jù)挖掘技術(shù)的內(nèi)涵

數(shù)據(jù)挖掘被稱為知識發(fā)現(xiàn)(knowledge Discovery in Database, KDD),即知識發(fā)現(xiàn)、尋找并最終使用的過程。目前數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用到高職院校信息資源共享過程中以幫助高職院校內(nèi)部龐大而繁雜的信息得以高校使用[12-14]。

數(shù)據(jù)挖掘主要分為三個具體步驟[15]:數(shù)據(jù)預(yù)處理階段、數(shù)據(jù)挖掘階段以及數(shù)據(jù)使用評估階段。

1) 數(shù)據(jù)預(yù)處理階段:將不同資源文本信息準(zhǔn)備好之后,系統(tǒng)將進(jìn)行相似度的計算,分析信息資源之間的關(guān)聯(lián)程度,并將信息資源存放到數(shù)據(jù)庫中作為源數(shù)據(jù)。2) 數(shù)據(jù)挖掘分析階段:可以通過提出問題或者輸入關(guān)鍵詞,借助數(shù)據(jù)挖掘技術(shù)創(chuàng)建一個模型來幫助獲取者獲取相似度最高的信息資源。3) 信息資源使用和評估:用戶使用信息資源之后,可以針對本次數(shù)據(jù)挖掘進(jìn)行評估,其目的是為了信息資源共享平臺的更新優(yōu)化以及后來著對該信息的搜索使用效率的提高。

有研究顯示,在一個完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理要花費(fèi)60%左右的時間,為了是挖掘內(nèi)核能夠快速有效的挖掘出用戶想要的信息,就必須要為挖掘系統(tǒng)提供準(zhǔn)確而又干凈的源數(shù)據(jù)[16-18]。但是遺憾的是,高職院校中未經(jīng)處理的信息資源往往多而繁雜等諸多問題:如缺乏統(tǒng)一的標(biāo)識和定義;原始數(shù)據(jù)中可能存在大量的重復(fù)信息造成數(shù)據(jù)冗余。

數(shù)據(jù)預(yù)處理主要是接受并理解用戶的發(fā)現(xiàn)需求.整理與需求相關(guān)的原始數(shù)據(jù),根據(jù)背景知識中的約束性規(guī)則對數(shù)據(jù)進(jìn)行合理性檢查,通過清理和歸納操作,生成工挖掘使用的源數(shù)據(jù)。主要分為四個步驟:

1)數(shù)據(jù)集成:數(shù)據(jù)集成的操作過程其實是為了將不同源的數(shù)據(jù)進(jìn)行合并處理。2)數(shù)據(jù)清理:數(shù)據(jù)清理的過程是為了去除數(shù)據(jù)集成之后所產(chǎn)生的數(shù)據(jù)集中噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù)。3)數(shù)據(jù)變換:數(shù)據(jù)變換是希望通過數(shù)據(jù)的某種特征來進(jìn)行表示。4)數(shù)據(jù)簡化:在盡量保持?jǐn)?shù)據(jù)原貌的前提下,通過數(shù)據(jù)變換過程中找尋的數(shù)據(jù)特征進(jìn)行數(shù)據(jù)的篩選和縮減。

4挖掘技術(shù)在高職院校信息資源共享中的應(yīng)用

分析我國高職院校信息資源共享中存在問題,“院校內(nèi)部”,“院校-院?!币约啊霸盒?社會”三個共享問題的存在是我國高職院校共享中亟需解決的問題。為了應(yīng)對這樣的問題,我們提出多平數(shù)據(jù)庫共享的理念。這樣的理念是基于合理并有效的信息資源預(yù)處理的基礎(chǔ)之上。

為了使得信息資源可以實現(xiàn)共享,特別是實現(xiàn)“院校-院?!惫蚕淼淖罱K目的,各共享高職院校之間必須保持信息資源實行統(tǒng)一的標(biāo)識和編碼。所以基于數(shù)據(jù)挖掘技術(shù)的高職院校信息資源共享可以具體劃分為如下幾個步驟:

1)數(shù)據(jù)預(yù)處理。為了使得多個高職院校之間能夠進(jìn)行后續(xù)順利的信息資源共享,其前提要有充分的數(shù)據(jù)預(yù)處理過程。信息資源保存方式存在差異等一系列的不標(biāo)準(zhǔn)、不規(guī)范的過程是在數(shù)據(jù)預(yù)處理過程中必須投入大量時間精力解決的問題。不同高職院校之間要指定統(tǒng)一的標(biāo)準(zhǔn),并按照統(tǒng)一的標(biāo)準(zhǔn)對信息資源進(jìn)行預(yù)處理并轉(zhuǎn)換為數(shù)據(jù)挖掘技術(shù)可以使用的數(shù)據(jù)形式。

數(shù)據(jù)的篩選和縮減是信息資源共享過程中特別要關(guān)注的問題,因為,有些信息資源針對不同的數(shù)據(jù)資源獲取者來說保密程度是不一樣的,所以,尊重一定的保密的基礎(chǔ)之上,進(jìn)行信息資源的篩選并進(jìn)行保密設(shè)置是高職院校信息資源預(yù)處理過程中極為重要的一個環(huán)節(jié)。最終形成數(shù)據(jù)庫。另外,在形成數(shù)據(jù)庫之后,通過更加嚴(yán)格的篩選方式,可以對該數(shù)據(jù)庫進(jìn)行第二次的縮減,主要保留一些對社會大眾重要的一些信息,這些信息可能包括,高職院校主要科研成果,高職院校重要圖書信息資源等。而同時,這些信息資源必須是可以被社會大眾所理解并可能得到應(yīng)用的一些信息。進(jìn)而形成另外一個簡易的數(shù)據(jù)庫。

常見的數(shù)據(jù)庫中數(shù)據(jù)濃縮的方法是概念樹法。即在數(shù)據(jù)庫中,通過數(shù)據(jù)屬性對數(shù)據(jù)進(jìn)行歸類,各屬性值和概念一句抽象程度不同可以構(gòu)成一個層次結(jié)構(gòu),通常稱為概念樹,本文建議在進(jìn)行數(shù)據(jù)預(yù)處理的過程中,所產(chǎn)生的數(shù)據(jù)庫可以用來進(jìn)行“院校內(nèi)部”以及“院校-院?!毙畔①Y源共享。

2)數(shù)據(jù)挖掘操作。數(shù)據(jù)庫準(zhǔn)備就緒之后,數(shù)據(jù)挖掘過程即可開始。通過數(shù)據(jù)挖掘工具在數(shù)據(jù)庫中對數(shù)據(jù)進(jìn)行挖掘,通過系統(tǒng)自動發(fā)現(xiàn)信息之間的關(guān)聯(lián)進(jìn)而篩選出信息獲取者所需要的信息資源。

3)信息使用和評估。通過數(shù)據(jù)挖掘之后,所得到的信息可以直接被信息資源獲取者所使用。信息資源獲取者也可以通過一定的評估手段進(jìn)行反饋利于信息資源共享的后期優(yōu)化和完善。

5結(jié)語

數(shù)據(jù)挖掘技術(shù)主要是基于計算機(jī)網(wǎng)絡(luò)、統(tǒng)計分析等技術(shù),并在近年來多個領(lǐng)域得到廣泛應(yīng)用的一門技術(shù)。基于數(shù)據(jù)挖掘的信息資源共享就是其中特別重要的一個應(yīng)用方面。高職院校信息量龐大,信息資源復(fù)雜,基于數(shù)據(jù)挖掘技術(shù)的高職院校信息資源共享是當(dāng)前高職院校信息資源共享的主要模式。針對高職院校在信息共享過程中所面對的諸多問題以及諸多不足。特別在針對“院校內(nèi)部”,“院校-院?!币约啊霸盒?社會”三個共享方面的不足和薄弱。我們提出通過精確的信息資源預(yù)處理過程構(gòu)建多個信息資源數(shù)據(jù)庫,進(jìn)而解決共享薄弱問題從而實現(xiàn)高職院校內(nèi)部龐大的信息的充分和有效的利用。

參考文獻(xiàn):

[1] 郭俐虹.對我國高校信息資源開發(fā)利用現(xiàn)狀的思考[J].華中農(nóng)業(yè)大學(xué)學(xué)報:社會科學(xué)版, 2007, (2): 119-121.

[2] 劉江玲.高校信息資源校地協(xié)同發(fā)展和共享機(jī)制探析[J].河南科技學(xué)院學(xué)報:社會科學(xué)版, 2014, (12): 11-13.

[3] 崔秀芬.地方高校信息資源與地方聯(lián)合共建共享初探[J].圖書館論壇, 2005, 25(5): 126-128.

[4] 程聰.高職院校信息資源的管理和利用[J]. 北京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報, 2012, 11(3):91-94.

[5] 丁文霞,付巧云.高職院校信息資源建設(shè)與運(yùn)用研究[J]. 中國教育技術(shù)裝備, 2015, (19): 73-74.

[6] 肖希明.經(jīng)濟(jì)發(fā)達(dá)地區(qū)文獻(xiàn)資源共享網(wǎng)絡(luò)的構(gòu)建——以珠江三角洲地區(qū)為例[J]. 中國圖書館學(xué)報, 2000, 26(6): 44-46.

[7] 羅可,蔡碧野,卜勝賢, et al.數(shù)據(jù)挖掘及其發(fā)展研究[J].計算機(jī)工程與應(yīng)用, 2002, 38(14): 182-184.

[8] 趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用[J]. 現(xiàn)代圖書情報技術(shù), 2000, (6): 41-44.

[9] 鐘曉,馬少平. 數(shù)據(jù)挖掘綜述[J]. 模式識別與人工智能, 2001, 14(1): 48-55.

[10] Han J, Kamber M. Data mining: Concepts and techniques[J]. Data Mining Concepts Models Methods & Algorithms Second Edition, 2000, 5(4): 1-18.

猜你喜歡
信息資源共享數(shù)據(jù)挖掘高職院校
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
以信息資源共享為基礎(chǔ)的高校檔案管理模式探究
淺談我國高校圖書館信息資源的共享現(xiàn)狀及對策
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
启东市| 仁化县| 宁陕县| 东城区| 永州市| 嘉义市| 界首市| 蕉岭县| 永德县| 平泉县| 辽阳县| 文水县| 新干县| 桐乡市| 海伦市| 漳州市| 邹城市| 盈江县| 东丽区| 酉阳| 南郑县| 仙桃市| 张家口市| 清涧县| 虎林市| 紫云| 神农架林区| 淮阳县| 灵丘县| 沅陵县| 黄龙县| 闻喜县| 十堰市| 左贡县| 佛教| 张北县| 克什克腾旗| 汤阴县| 新建县| 含山县| 台北市|