国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校知識(shí)圖譜的構(gòu)建與數(shù)字資源分配新融合

2018-09-08 11:15房棟
中國信息技術(shù)教育 2018年16期
關(guān)鍵詞:數(shù)字資源知識(shí)圖譜可視化

房棟

摘要:本文提出,知識(shí)圖譜系統(tǒng)通過大數(shù)據(jù)和可視化技術(shù),建立以關(guān)鍵詞為中心的知識(shí)體系,能讓資源以結(jié)構(gòu)化、可視化的方式呈現(xiàn),讓知識(shí)的獲取更加快速、準(zhǔn)確。同時(shí),在移動(dòng)互聯(lián)時(shí)代為學(xué)校的數(shù)字資源建設(shè)、管理、服務(wù)提供了一個(gè)獲取、存儲(chǔ)、組織、管理、更新和展示的有效手段。

關(guān)鍵詞:知識(shí)圖譜;大數(shù)據(jù);數(shù)字資源;可視化

中圖分類號(hào):G434 文獻(xiàn)標(biāo)識(shí)碼:A 論文編號(hào):1674-2117(2018)15/16-0164-04

引言

當(dāng)今的信息化社會(huì),從商業(yè)經(jīng)濟(jì)運(yùn)行到科研醫(yī)療創(chuàng)新,從政府管理到互聯(lián)網(wǎng)服務(wù)支持,各個(gè)領(lǐng)域都爆炸式產(chǎn)生巨量的數(shù)據(jù),谷歌公司每天要處理超過24拍字節(jié)的數(shù)據(jù),谷歌子公司YOUTUBE每月接待多達(dá)8億的訪客,平均每一秒鐘就有一段長度在一小時(shí)以上的視頻上傳,F(xiàn)ACEBOO每天更新的照片量超過1000萬張,每天人們?cè)诰W(wǎng)站上點(diǎn)贊或評(píng)論次數(shù)大約有三十億次,TEITTER上的信息量幾乎每年翻一倍,每天都會(huì)發(fā)布超過4億條微博,這些數(shù)據(jù)支撐了社會(huì)各方面的運(yùn)行,也成為人類發(fā)展進(jìn)步歷程的寶貴財(cái)富積累。2015年,一個(gè)名為AlphaGo的計(jì)算機(jī)程序橫空出世,在短短25個(gè)月的時(shí)間里斬落了中日韓的圍棋頂尖高手,不斷地挑戰(zhàn)人類對(duì)圍棋的認(rèn)知。從這些事例可以看出,知識(shí)圖譜、大數(shù)據(jù)和深度學(xué)習(xí)成為推動(dòng)人工智能發(fā)展的核心驅(qū)動(dòng)力。高校作為人類社會(huì)知識(shí)創(chuàng)造、記錄和傳承的智力機(jī)構(gòu),聚集了大量的科研和教學(xué)數(shù)據(jù)資源,因此,高??衫萌斯ぶ悄芗夹g(shù)整合校內(nèi)外數(shù)字?jǐn)?shù)據(jù)資源,構(gòu)建基于校本特色的知識(shí)圖譜,為學(xué)校的智力支持構(gòu)建一個(gè)智能、高效的知識(shí)組織方式,形成信息技術(shù)與資源的新融合,幫助師生更加快速而準(zhǔn)確地查找自己需要的信息。

數(shù)字資源分配中知識(shí)圖譜的構(gòu)建價(jià)值

谷歌公司于2012年首先提出知識(shí)圖譜的概念,表示將在其搜索結(jié)果中加入知識(shí)圖譜的功能,同年5月推出谷歌知識(shí)圖譜,強(qiáng)化其搜索引擎的搜索結(jié)果,標(biāo)志著大規(guī)模知識(shí)在互聯(lián)網(wǎng)語義搜索中的成功應(yīng)用。知識(shí)圖譜力求通過將知識(shí)進(jìn)行更加有序、有機(jī)的組織,對(duì)用戶提供更加智能的訪問接口,使用戶可以更加快速、準(zhǔn)確地訪問自己需要的知識(shí)信息,并進(jìn)行一定的知識(shí)挖掘和智能決策。近年來在機(jī)構(gòu)知識(shí)庫和互聯(lián)網(wǎng)搜索引擎等方面,學(xué)者和機(jī)構(gòu)紛紛在知識(shí)圖譜上深入研究,希望以更加清晰、動(dòng)態(tài)的方式展現(xiàn)各種概念之間的聯(lián)系,實(shí)現(xiàn)知識(shí)的智能獲取和管理。有調(diào)查數(shù)據(jù)顯示,Google在2015年時(shí)完成KG知識(shí)圖譜系統(tǒng)的構(gòu)建,實(shí)體超過5億個(gè),實(shí)體關(guān)系信息達(dá)到35億條;微軟公司在2016年構(gòu)建的知識(shí)圖譜系統(tǒng)Probase已經(jīng)擁有總量超過千萬級(jí)的概念,核心概念數(shù)達(dá)到了270萬個(gè);上海交通大學(xué)是國內(nèi)最早構(gòu)建知識(shí)庫的單位,建設(shè)的shizhi.me系統(tǒng)通過提供關(guān)聯(lián)開放數(shù)據(jù)進(jìn)行知識(shí)庫服務(wù);中國科學(xué)院后來建設(shè)了國內(nèi)規(guī)模最大的知識(shí)庫CAS-IR,累計(jì)采集和保存超過44萬個(gè)科研成果供搜索下載;國內(nèi)知名的搜索引擎百度公司推出的“知心”、數(shù)字資源知識(shí)服務(wù)供應(yīng)商維普資訊公司推出的“智立方”和超星公司推出的“發(fā)現(xiàn)系統(tǒng)”都是利用知識(shí)圖譜技術(shù)搭建的知識(shí)服務(wù)平臺(tái)。與以往的搜索引擎相比,知識(shí)圖譜系統(tǒng)通過大數(shù)據(jù)和可視化,讓知識(shí)更加快速、準(zhǔn)確和智能地獲取,使數(shù)據(jù)以結(jié)構(gòu)化、可視化的方式呈現(xiàn),同時(shí)建立以關(guān)鍵詞為中心的知識(shí)體系,直觀地展示數(shù)據(jù)間的相互關(guān)系。

數(shù)字資源知識(shí)圖譜的數(shù)據(jù)基礎(chǔ)

知識(shí)圖譜的構(gòu)建基礎(chǔ)是龐大的數(shù)據(jù),高校擁有大量的數(shù)字資源供科研和學(xué)習(xí)用,數(shù)字資源作為當(dāng)今資源重要的存在形式,存儲(chǔ)于光盤、硬盤、閃存等非紙質(zhì)介質(zhì)載體中,并通過網(wǎng)絡(luò)通信、計(jì)算機(jī)或移動(dòng)終端再現(xiàn)出來,數(shù)字資源有動(dòng)態(tài)的也有靜態(tài)的,具體呈現(xiàn)為文字、視頻、音頻、動(dòng)畫等多種形式。為數(shù)字資源構(gòu)建知識(shí)圖譜系統(tǒng),需要突破不同數(shù)據(jù)庫的限制,通過提升搜索能力來實(shí)現(xiàn)更快速更精準(zhǔn)的知識(shí)查找,為此就必須對(duì)繁雜的結(jié)構(gòu)化數(shù)字資源數(shù)據(jù)進(jìn)行包括數(shù)據(jù)標(biāo)記格式標(biāo)準(zhǔn)和數(shù)字資源描述標(biāo)準(zhǔn)建設(shè)。

1.格式規(guī)范

通過規(guī)范不同類型數(shù)字資源的標(biāo)準(zhǔn)文件格式,實(shí)現(xiàn)數(shù)字資源在不同計(jì)算機(jī)系統(tǒng)間無障礙交換,格式規(guī)范有文本格式標(biāo)準(zhǔn)(如TXT、WORD、PDF)、圖形格式標(biāo)準(zhǔn)(如JPEG、TIFF、GIF)、音頻格式標(biāo)準(zhǔn)(如WAV、APE、MP3)、結(jié)構(gòu)信息標(biāo)準(zhǔn)(如SGML)等。其中SGML通用標(biāo)記語言、HTML超文本標(biāo)記語言與XML可擴(kuò)展標(biāo)記語言作為元數(shù)據(jù)編碼語言,是用于數(shù)字資源組織標(biāo)準(zhǔn)化的典型語言,所有數(shù)據(jù)庫都需要參照標(biāo)準(zhǔn)進(jìn)行各自的規(guī)范。數(shù)據(jù)標(biāo)記格式標(biāo)準(zhǔn)的制定是數(shù)字資源組織標(biāo)準(zhǔn)化的必要保證。

2.描述規(guī)范

數(shù)字資源的數(shù)據(jù)庫以字段為單位,需對(duì)每個(gè)數(shù)字資源的屬性進(jìn)行標(biāo)準(zhǔn)化描述,如標(biāo)題、作者、單位、關(guān)鍵詞等。描述方法主要有元數(shù)據(jù)規(guī)范和著錄規(guī)范兩種,元數(shù)據(jù)規(guī)范提供框架體系和行為方法來描述數(shù)字資源的基本特征,使用通用編碼將來源各異的數(shù)字資源歸納到一個(gè)標(biāo)準(zhǔn)元數(shù)據(jù)體系中;著錄規(guī)范提供了對(duì)數(shù)字資源描述的著錄規(guī)則,按規(guī)則對(duì)數(shù)字資源著錄項(xiàng)目、著錄順序、著錄用的符號(hào)、各個(gè)著錄項(xiàng)目的著錄方法以及參考文獻(xiàn)在正文中的標(biāo)注等內(nèi)容進(jìn)行描述,從而實(shí)現(xiàn)數(shù)字資源的共享。

數(shù)字資源知識(shí)圖譜的構(gòu)建模式(如下圖)

數(shù)字資源知識(shí)圖譜以Nodejs為開發(fā)平臺(tái),異步、時(shí)間驅(qū)動(dòng)模型和非阻塞式的IO處理使得系統(tǒng)在相對(duì)低資源消耗下仍具備出眾的負(fù)載能力。系統(tǒng)采用B/S架構(gòu),用戶可隨時(shí)查詢和瀏覽信息。系統(tǒng)結(jié)構(gòu)分為客戶層、服務(wù)層、數(shù)據(jù)處理層和數(shù)據(jù)存儲(chǔ)層,采用分層設(shè)計(jì),可降低耦合性提高維護(hù)性??蛻魧有杩紤]用戶的使用體驗(yàn),實(shí)現(xiàn)系統(tǒng)的交互和可視化呈現(xiàn),滿足知識(shí)點(diǎn)的伸縮、移動(dòng)和保存功能。服務(wù)層需解析用戶請(qǐng)求,獲取Post參數(shù),訪問不同數(shù)據(jù)集合以JSON格式回傳驗(yàn)證。數(shù)據(jù)處理層包含數(shù)據(jù)爬取和數(shù)據(jù)解析兩個(gè)模塊,數(shù)據(jù)爬取因數(shù)據(jù)源中URL數(shù)據(jù)量巨大,應(yīng)采用多線程的廣度優(yōu)先的爬蟲策略,數(shù)據(jù)解析則是為了得到結(jié)構(gòu)清晰統(tǒng)一的數(shù)據(jù),因HTML網(wǎng)頁語言規(guī)范化程度低,需要對(duì)數(shù)據(jù)進(jìn)行容錯(cuò)、過濾和提取等操作,將其轉(zhuǎn)化為DOM樹進(jìn)行封裝和抽象化。數(shù)據(jù)存儲(chǔ)層需要建立校本知識(shí)數(shù)據(jù)庫以提高圖譜繪制的實(shí)效性,選用NoSQL類型的MongoDB能夠隨時(shí)存儲(chǔ)自定義的數(shù)據(jù)格式,具有較高的易擴(kuò)展性和讀寫性能。

系統(tǒng)構(gòu)建所需數(shù)據(jù)資源主要來自兩個(gè)方面:一類是校本已有的結(jié)構(gòu)化和半結(jié)構(gòu)化異構(gòu)語義資源,一類是互聯(lián)網(wǎng)空間中,開放的、共享的海量非結(jié)構(gòu)化異構(gòu)資源。

對(duì)于校本資源知識(shí)圖譜的構(gòu)建需要重視知識(shí)的表達(dá)和組織工作,需要服從于數(shù)字資源知識(shí)系統(tǒng)整體的需求定位和框架,目前采用面向師生用戶對(duì)象的思想來搭建知識(shí)表示框架,將教學(xué)課件、教學(xué)案例、研究報(bào)告、制度流程等數(shù)據(jù)庫知識(shí)拆解成實(shí)體、實(shí)體屬性和實(shí)體之間的關(guān)系三個(gè)要素,基于現(xiàn)有存儲(chǔ)的校內(nèi)知識(shí)數(shù)據(jù),將其格式和描述進(jìn)行規(guī)范,經(jīng)過分類和序化,結(jié)合系統(tǒng)的分析等深度學(xué)習(xí)功能,對(duì)知識(shí)系統(tǒng)中的實(shí)體和關(guān)系進(jìn)行表示學(xué)習(xí),將知識(shí)中蘊(yùn)含的語義信息表示為稠密低維實(shí)值向量,從而實(shí)現(xiàn)在低維空間中高效計(jì)算實(shí)體和關(guān)系的語義聯(lián)系,實(shí)現(xiàn)結(jié)構(gòu)化校本資源數(shù)據(jù)的處理,從而幫助師生實(shí)現(xiàn)知識(shí)獲取、融合和推理的目的。

購買的數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)整齊、順序存儲(chǔ),便于重新組織,所以可聯(lián)系供應(yīng)商按照知識(shí)圖譜構(gòu)建中實(shí)體、實(shí)體屬性和實(shí)體之間的關(guān)系三個(gè)要素制定開放獲取資源統(tǒng)一接口協(xié)議來獲取結(jié)構(gòu)化數(shù)據(jù)和擴(kuò)充其他數(shù)據(jù)??山梃b與OA相關(guān)的重要標(biāo)準(zhǔn),如解決開放獲取系統(tǒng)之間數(shù)據(jù)互通問題的OAI協(xié)議、支持全文檢索的OAI-PMH協(xié)議、解決開放獲取版權(quán)問題的創(chuàng)作共同署名許可等標(biāo)準(zhǔn)。

通過知識(shí)交換和互聯(lián)網(wǎng)平臺(tái)爬取的共享數(shù)據(jù)往往呈現(xiàn)出結(jié)構(gòu)不一致、規(guī)范化程度低等問題?;ヂ?lián)網(wǎng)平臺(tái)網(wǎng)頁共享數(shù)據(jù)作為知識(shí)圖譜最大的數(shù)量來源,通過爬取來獲得。針對(duì)百科類的網(wǎng)頁包含了許多結(jié)構(gòu)化的信息,標(biāo)題、分類標(biāo)簽、分類系統(tǒng)、信息模塊、摘要等都作為固定條目出現(xiàn),可以將其結(jié)構(gòu)化處理,還有大量的其他普通類網(wǎng)頁也是知識(shí)圖譜構(gòu)建的重要數(shù)據(jù)來源,因大量的冗余信息和不可信信息,所以需要建立構(gòu)造一個(gè)面向網(wǎng)站的包裝器,利用網(wǎng)站的相似性對(duì)代表性網(wǎng)頁進(jìn)行標(biāo)注,利用模式學(xué)習(xí)算法實(shí)現(xiàn)對(duì)網(wǎng)站中知識(shí)的自動(dòng)化抽取,這種方法也需通過手動(dòng)調(diào)整和添加適當(dāng)?shù)哪J絹韽浹a(bǔ)數(shù)據(jù)挖掘質(zhì)量。

基于知識(shí)圖譜的數(shù)字資源分配新模式

1.知識(shí)服務(wù)的中心化

基于數(shù)字資源知識(shí)圖譜系統(tǒng)的建設(shè)從底層實(shí)現(xiàn)了“資源聚合、信息共享”,面向師生提供知識(shí)服務(wù)對(duì)學(xué)校的學(xué)習(xí)管理和資源建設(shè)都提出了更高的要求,以用戶為中心的服務(wù)理念和系統(tǒng)設(shè)計(jì)都要求我們?cè)诳蛻魬?yīng)用層建設(shè)集中統(tǒng)一的知識(shí)服務(wù)中心,這里有四個(gè)“中心”的概念:一是“資源中心”,將教學(xué)資源集中、教學(xué)工具集中、研究材料集中,將傳統(tǒng)檔案等多種資源進(jìn)行匯聚共享,將數(shù)字資源進(jìn)行分類,形成資源、學(xué)習(xí)和專題三大板塊;二是“工具中心”,整合期刊、論文、圖書、報(bào)紙、視頻、??荣Y源元數(shù)據(jù),利用知識(shí)圖譜系統(tǒng)進(jìn)一步提升一站式檢索的高效性和精準(zhǔn)性;三是“推薦中心”,通過收集用戶在使用知識(shí)服務(wù)平臺(tái)過程中產(chǎn)生的數(shù)據(jù)基礎(chǔ)上,在個(gè)人中心里進(jìn)行關(guān)注熱點(diǎn)和研究領(lǐng)域的知識(shí)協(xié)同推薦;四是“服務(wù)中心”,收集熱門實(shí)用問題建設(shè)知識(shí)庫,搭建以問題形式呈現(xiàn)的智能問答系統(tǒng),對(duì)師生在使用過程中遇到的問題進(jìn)行智能機(jī)器人服務(wù),利用知識(shí)圖譜系統(tǒng)的語義學(xué)習(xí)功能對(duì)新產(chǎn)生的問題和描述進(jìn)行分析,形成新的知識(shí)條目。在整個(gè)知識(shí)服務(wù)中心化的建設(shè)過程中要注意知識(shí)服務(wù)實(shí)體與虛擬的融合,將物理環(huán)境的建設(shè)與虛擬空間的建設(shè)打通,將服務(wù)從線下延伸到線上。

2.知識(shí)服務(wù)的跨平臺(tái)呈現(xiàn)

基于數(shù)字資源知識(shí)圖譜系統(tǒng)的建設(shè),其經(jīng)梳理整合的數(shù)字資源不僅可以提高檢索質(zhì)量和效益,還可以將相關(guān)知識(shí)實(shí)體和關(guān)系描述以節(jié)點(diǎn)關(guān)系圖的方式直觀化呈現(xiàn),這不僅打破了原有以單個(gè)數(shù)據(jù)庫為單位的信息壁壘,形成并凝聚起某領(lǐng)域?qū)W術(shù)共同體,而且適應(yīng)了用戶閱讀習(xí)慣向移動(dòng)端轉(zhuǎn)型的問題。數(shù)字資源知識(shí)圖譜系統(tǒng)的構(gòu)建,實(shí)現(xiàn)了具有時(shí)代特征的流媒體格式多終端同時(shí)上線,無并發(fā)、使用次數(shù)和時(shí)空的限制,方便解決個(gè)性化閱讀需求的采集、專業(yè)化閱讀線索和閱讀方案的提供、社區(qū)化閱讀的交流與傳播、線上閱讀和線下閱讀的互動(dòng)以及知識(shí)的全媒體解讀與可視化呈現(xiàn)。

結(jié)束語

在信息大爆炸的時(shí)代,大數(shù)據(jù)、深度學(xué)習(xí)和人工智能已經(jīng)成為決勝未來的重要技術(shù),知識(shí)圖譜作為人工智能的重要應(yīng)用,為學(xué)校的數(shù)字資源建設(shè)、管理、服務(wù)等提供了有效手段。在教育部啟動(dòng)教育信息化2.0建設(shè)的重要?dú)v史節(jié)點(diǎn)上,利用好知識(shí)圖譜系統(tǒng),為師生用戶提供更友好和便捷的知識(shí)服務(wù)方式是助力學(xué)校優(yōu)質(zhì)校建設(shè)的重要任務(wù)。

參考文獻(xiàn):

[1]劉靜.“互聯(lián)網(wǎng)+”時(shí)代數(shù)字資源組織標(biāo)準(zhǔn)研究[J].河南圖書館學(xué)刊,2016(9):129-131.

[2]李濤,王次臣,李華康.知識(shí)圖譜的發(fā)展與構(gòu)建[J].南京理工大學(xué)學(xué)報(bào),2017,41(1):22-34.

[3]李涓子,侯磊.知識(shí)圖譜研究綜述[J]山西大學(xué)學(xué)報(bào):自然科學(xué)版,2017,40(3):454-459.

基金項(xiàng)目:本文系浙江省教育技術(shù)研究規(guī)劃重點(diǎn)課題“高校數(shù)字資源在移動(dòng)互聯(lián)下的再分配策略研究”(項(xiàng)目編號(hào):JA056)研究成果。

猜你喜歡
數(shù)字資源知識(shí)圖譜可視化
數(shù)據(jù)可視化設(shè)計(jì)在美妝類APP中的應(yīng)用
思維可視化
復(fù)變函數(shù)級(jí)數(shù)展開的可視化實(shí)驗(yàn)教學(xué)
復(fù)變函數(shù)級(jí)數(shù)展開的可視化實(shí)驗(yàn)教學(xué)
復(fù)變函數(shù)共形映射的可視化實(shí)驗(yàn)教學(xué)
復(fù)變函數(shù)共形映射的可視化實(shí)驗(yàn)教學(xué)
基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢分析
圖書館員新角色
西和县| 报价| 柯坪县| 鄂托克旗| 长治市| 澄城县| 南雄市| 前郭尔| 霍林郭勒市| 丰原市| 黄山市| 登封市| 炎陵县| 重庆市| 敦煌市| 鄂托克旗| 济宁市| 高唐县| 鄱阳县| 西乌珠穆沁旗| 东平县| 德清县| 青阳县| 合水县| 涪陵区| 绩溪县| 连南| 武城县| 鸡东县| 西乡县| 大石桥市| 甘谷县| 临海市| 凤凰县| 新巴尔虎左旗| 从化市| 双柏县| 临沭县| 漳州市| 鄂伦春自治旗| 中阳县|