国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Alfresco的出版社資源庫系統(tǒng)的研究與實現(xiàn)

2015-08-22 08:17:59李亞芬李征
軟件 2015年5期
關(guān)鍵詞:數(shù)字出版資源庫

李亞芬 李征

摘要:針對出版社內(nèi)資源采集渠道不便,資源管理混亂等問題,本文使用開源資源庫Alfresco開發(fā)全新的資源庫系統(tǒng),實現(xiàn)了對社內(nèi)資源的重新整合與統(tǒng)一管理。特別是,提出詞語語義相似度加權(quán)的TextRank方法對采集到的文本資源進(jìn)行自動標(biāo)注,這對數(shù)字出版中教材的創(chuàng)作有著非常大的幫助作用。

關(guān)鍵詞:數(shù)字出版;資源庫;Alfresco;TextRank

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1003-6970.2015.05.008

0 引言

隨著計算機(jī)技術(shù)、通訊技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字出版業(yè)務(wù)相對傳統(tǒng)出版業(yè)務(wù),逐漸顯示出獨特的優(yōu)勢。外研社正處在由傳統(tǒng)出版到數(shù)字出版的轉(zhuǎn)型期。數(shù)字出版是為數(shù)據(jù)庫而編寫內(nèi)容,更強(qiáng)調(diào)了內(nèi)容數(shù)據(jù)的重要性和內(nèi)容的可重復(fù)利用性。它將內(nèi)容拆分成一個個的獨立的內(nèi)容單元,通過模板對這些內(nèi)容單元進(jìn)行按需重組,最后由動態(tài)發(fā)布引擎,生成紙質(zhì)書、電子書、光盤等一系列的出版產(chǎn)品,實現(xiàn)按需出版業(yè)務(wù)。因此,資源的采集和初步加工是實現(xiàn)數(shù)字出版的前序環(huán)節(jié)。

目前,外研社的出版業(yè)務(wù)中存在以下一些問題。作者編寫內(nèi)容的結(jié)構(gòu)差異,導(dǎo)致了出版社在處理作者交稿的時候,需要占用很大的精力去處理內(nèi)容結(jié)構(gòu)差異,同時,資源采集渠道的不便也會影響資源采集的數(shù)量和質(zhì)量,也不便于出版社實現(xiàn)采集的資源的全社使用和統(tǒng)一管理。社里目前只是對資源進(jìn)行簡單地存儲和基于文件夾的分類,缺乏對資源的描述,使資源的可利用性差。所以,本文設(shè)計實現(xiàn)了一個面向互聯(lián)網(wǎng)和內(nèi)網(wǎng)的資源采集、資源標(biāo)注等綜合型的資源庫系統(tǒng),可以提供方便快捷的資源上傳、資源轉(zhuǎn)換功能,在很大程度上減少出版社收集資源的時間和人工成本。本文還使用詞語語義相似度加權(quán)的TextRank方法對社內(nèi)的教育資源進(jìn)行基于知識點的自動標(biāo)注,方便創(chuàng)作者按照教學(xué)目的對內(nèi)容資源進(jìn)行檢索和重新組織,這對數(shù)字出版中教材的創(chuàng)作有著非常大的幫助作用。

1 系統(tǒng)功能設(shè)計

1.1 總體功能模塊

本文重點對外研社的出版生產(chǎn)業(yè)務(wù)過程進(jìn)行了詳細(xì)的調(diào)研,設(shè)計出的資源庫系統(tǒng)由資源管理、資源加工、用戶管理、日志管理四大功能模塊組成。詳細(xì)見圖l所示。

(1)資源管理模塊主要提供資源的上傳下載、查看預(yù)覽、查詢等;

(2)資源加工模塊主要提供對資源的格式轉(zhuǎn)換拆分和資源的知識點標(biāo)注;

(3)用戶管理模塊主要提供對用戶的權(quán)限、信息的編輯和查詢;

(4)日志管理模塊負(fù)責(zé)記錄用戶行為,包括登陸、查看數(shù)據(jù)、下載數(shù)據(jù)、使用數(shù)據(jù)等。

1.2 資源知識點標(biāo)注

資源加工模塊提供對資源的知識點標(biāo)注。資源知識點標(biāo)注是資源智能化的重要體現(xiàn)方式之一。外研社資源主要包括各類大中小學(xué)教材教輔,文本資源占絕對大部分,每個文本資源內(nèi)部都有一定的知識結(jié)構(gòu)。經(jīng)過知識點標(biāo)注的資源具有功能上的獨立性。方便創(chuàng)作者按照教學(xué)目的對內(nèi)容資源進(jìn)行組織。編輯人員的專業(yè)領(lǐng)域知識往往不夠完備,知識點標(biāo)注易受主觀因素影響,使標(biāo)注的準(zhǔn)確度降低。人工標(biāo)注還要耗費一定的精力和體力,工作效率會降低。因此,本文提出了資源的知識點自動標(biāo)注。

關(guān)鍵詞是表達(dá)一個文檔核心意義的最小單元。本文選擇文本關(guān)鍵詞作為知識點。選擇適當(dāng)?shù)年P(guān)鍵詞提取方法就顯得非常重要。目前的關(guān)鍵詞提取方法分為有監(jiān)督的方法和無監(jiān)督的方法兩大類。有監(jiān)督的方法需要通過訓(xùn)練語料構(gòu)建模型實現(xiàn),無監(jiān)督的方法僅借助于詞語之間的關(guān)系直接從文本本身提取,無需訓(xùn)練過程,計算速度快,應(yīng)用較為方便??紤]到在上傳文檔資源時,自動完成關(guān)鍵詞的提取,無監(jiān)督方法既可以保證提取關(guān)鍵詞的準(zhǔn)確性,又能保證計算的快速性,因此本文選用無監(jiān)督的方法實現(xiàn)關(guān)鍵詞的提取。TextRank方法其中的代表,在眾多無監(jiān)督關(guān)鍵詞提取方法中表現(xiàn)出卓越的性能。本文對傳統(tǒng)的TextRank進(jìn)行改進(jìn),使用詞語語義相似度加權(quán)的TextRank關(guān)鍵詞提取算法,使其更加適用于知識點的標(biāo)注。

資源庫提供基于知識點的查詢。在輸入查詢檢索詞后,首先將檢索詞與知識點關(guān)聯(lián)網(wǎng)中的知識點進(jìn)行匹配。知識點關(guān)聯(lián)網(wǎng)是以樹形結(jié)構(gòu)表示知識點之間關(guān)聯(lián)的網(wǎng)絡(luò)。若匹配成功,則選擇該知識點的上一級知識點一同作為檢索詞拋給搜索引擎,進(jìn)行資源的知識點檢索,這樣可以檢索到相關(guān)資源。

2 資源庫架構(gòu)設(shè)計

本系統(tǒng)主要是基于外研社內(nèi)網(wǎng)和互聯(lián)網(wǎng),除了為社外人員提供提交資源的入口外,主要為社內(nèi)工作人員搭建一個共享社內(nèi)數(shù)字資源的平臺。因此決定采用browser/server(簡稱B/S)結(jié)構(gòu)的設(shè)計思想。Alfresco一款優(yōu)秀的開源資源庫,是一個完全的Java應(yīng)用程序,基于J2EE框架,如圖2所示。它是B/S結(jié)構(gòu)。Alfresco中的內(nèi)容應(yīng)用程序和web應(yīng)用程序都是基于內(nèi)容存儲庫的服務(wù)上開發(fā)的,內(nèi)容存儲庫處于資源庫的最底層,由數(shù)據(jù)庫、索引和內(nèi)容文件組成,是資源庫的核心。

Alfresco是基于Java開源框架Spring開發(fā)的,它提供了一系列可以通過不同接口調(diào)用的數(shù)據(jù)存儲服務(wù),通過以下三個基本服務(wù)實現(xiàn)存儲訪問內(nèi)容:節(jié)點服務(wù)、內(nèi)容服務(wù)和搜索服務(wù)。內(nèi)容是信息數(shù)據(jù)的載體,通過內(nèi)容服務(wù),元數(shù)據(jù)及內(nèi)容都可以根據(jù)內(nèi)容模型的規(guī)則定義被結(jié)構(gòu)化。

本文通過對Alfresco進(jìn)行開發(fā)與定制,使其滿足本文的需求。Alfresco中,資源的元數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫里,而內(nèi)容本身則以二進(jìn)制文件的形式存儲在文件系統(tǒng)中,數(shù)據(jù)庫存儲提供高效的查詢、事務(wù)處理及管理功能,而文件系統(tǒng)則保存比較大的內(nèi)容數(shù)據(jù)。根據(jù)Alfresco的架構(gòu)形式,本文對資源庫進(jìn)行架構(gòu)設(shè)計,如圖3所示,使用內(nèi)容存儲庫提供的基本服務(wù)實現(xiàn)資源加工模塊、資源管理模塊,用戶管理模塊功能的開發(fā)。關(guān)系數(shù)據(jù)庫中主要提供資源元數(shù)據(jù)信息的存儲、用戶信息的存儲、機(jī)構(gòu)組織信息以及知識點關(guān)聯(lián)信息的存儲。物理文件系統(tǒng)提供對資源的二進(jìn)制形式文件存儲。

3 資源庫實現(xiàn)的關(guān)鍵方法和技術(shù)

3.1 詞語語義相似度加權(quán)TextRank

關(guān)鍵詞提取算法

TextRank的思想來源于PageRank,通過把文本分割成若干組成單元并建立圖模型,結(jié)點代表詞語,邊代表詞語之間的關(guān)聯(lián),利用投票機(jī)制對文本中的重要成分進(jìn)行排序,一個結(jié)點鏈人的結(jié)點集表示其投票支持者,投票者越重要,數(shù)量越多,則被投票者的排名越靠前。僅利用單篇文檔本身的信息即可實現(xiàn)關(guān)鍵詞提取。傳統(tǒng)TextRank中,某個詞語的影響力分值是均勻傳遞到與其相鄰的詞語中,構(gòu)建的圖模型是一種無項無權(quán)圖,考慮到本文要處理的是自然語言文本,部分詞語之間的關(guān)聯(lián)度會更高一些,因此,本文引入邊權(quán)重計算。由于教育資源中,知識點易共現(xiàn),同時知識點之間存在較大語義相似度,本文考慮將相關(guān)聯(lián)的詞之間的語義相似度,加入邊權(quán)重計算中,夏天等考慮詞語本身的重要性差異,提出了考慮詞語結(jié)點影響力的相關(guān)因素的詞語位置加權(quán)的TextRank方法,該方法引入詞語的覆蓋影響力、位置影響力和頻度影響力用于計算詞語之間的影響力概率轉(zhuǎn)移矩陣。本文考慮到知識點往往出現(xiàn)在文章標(biāo)題中,往往是文中的高頻詞匯,因此本文在邊權(quán)重計算中加入位置影響力和頻度影響力,提出了詞語語義相似度加權(quán)的TextRank方法。

令G=(V,E)為結(jié)點集和邊集構(gòu)成的有向圖,V為結(jié)點集,由文本中的候選關(guān)鍵詞構(gòu)成,候選關(guān)鍵詞指經(jīng)過中文分詞、詞性過濾、去停用詞處理后,獲得的詞語集。對于任意一個結(jié)點vi

資源加工模塊中的知識點標(biāo)注是在上傳文檔的動作中自動完成的。本文創(chuàng)建新的java類TextAnalyser,該類封裝了讀取文本內(nèi)容、關(guān)鍵詞提取、關(guān)鍵字存儲的功能。將其加入上傳文檔時對應(yīng)的spring配置文件中。該類首先調(diào)用內(nèi)容服務(wù)ContentService獲取資源的文本內(nèi)容,接著調(diào)用使用詞語語義相似度加權(quán)的TextRank方法對文本內(nèi)容進(jìn)行分析,提取后的關(guān)鍵詞通過節(jié)點服務(wù)(NodeService)和內(nèi)容服務(wù)(contentService)獲取資源在數(shù)據(jù)庫中的存儲位置信息,將關(guān)鍵詞保存到相應(yīng)的元數(shù)據(jù)數(shù)據(jù)庫中。

通過對Alfresco中的相應(yīng)頁面的JSP文件進(jìn)行擴(kuò)展或重寫,可以定制實現(xiàn)資源管理前臺界面。實現(xiàn)上述功能的Spring Beans、java class、iava script、JSP等文件將作為Alfresco的應(yīng)用程序進(jìn)行重新打包和部署,Alfresco提供AMP(Alfresco Module Packages)來實現(xiàn)打包,可以實現(xiàn)定制代碼與Alfresco核心代碼的分離,打包部署后,新的功能就加入到Alfresco中了。

4 結(jié)論

本文中,本文使用開源資源庫Alfresco開發(fā)全新的資源庫系統(tǒng),實現(xiàn)了對社內(nèi)資源的高效存儲、加工與管理。提出了詞語語義相似度加權(quán)的TextRank關(guān)鍵詞提取算法,將其應(yīng)用到資源知識點標(biāo)注中,使資源庫成為面向教育的知識庫,更加滿足數(shù)字出版業(yè)務(wù)的需求。

猜你喜歡
數(shù)字出版資源庫
廣州園科院木棉野牡丹種質(zhì)資源庫入選國家林木種質(zhì)資源庫
園林科技(2021年3期)2021-04-03 04:33:46
健身氣功開放課程資源庫建設(shè)研究
貴州●石斛種質(zhì)資源庫
基于共享資源庫的混合式教學(xué)考核模式研究
電子制作(2017年10期)2017-04-18 07:22:55
高中歷史信息化教育資源庫應(yīng)用探索
學(xué)術(shù)期刊數(shù)字出版的運行模式與市場結(jié)構(gòu)
出版廣角(2016年15期)2016-10-18 00:24:33
淺談新媒體在美術(shù)類圖書出版中的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:34:07
做一個全民閱讀時代的“悅”讀人
今傳媒(2016年9期)2016-10-15 23:11:36
國際圖書出版市場現(xiàn)狀及趨勢分析
今傳媒(2016年9期)2016-10-15 22:36:15
福建基礎(chǔ)教育教學(xué)資源庫建設(shè)研究——以福建基礎(chǔ)教育網(wǎng)資源庫為例
旌德县| 锦屏县| 育儿| 兰西县| 沙田区| 千阳县| 临高县| 东光县| 德保县| 临清市| 榆社县| 漯河市| 余姚市| 晋宁县| 黄骅市| 鸡西市| 来安县| 德兴市| 邹城市| 炉霍县| 仲巴县| 筠连县| 岳阳市| 奉化市| 苏尼特右旗| 黎川县| 霍州市| 江华| 高密市| 陵水| 宝兴县| 阿尔山市| 鄯善县| 睢宁县| 河池市| 健康| 井冈山市| 广河县| 平陆县| 广宗县| 乌兰察布市|