国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

煙草文獻(xiàn)數(shù)據(jù)知識檢索服務(wù)平臺的設(shè)計與實(shí)現(xiàn)

2022-03-25 13:26:48王永勝劉亞麗宗國浩鄭新章馮偉華
煙草科技 2022年3期
關(guān)鍵詞:資源庫煙草檢索

王永勝,劉亞麗,賈 楠,宗國浩,王 銳,王 迪,鄭新章,馮偉華

中國煙草總公司鄭州煙草研究院,鄭州高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)楓楊街2 號 450001

科技文獻(xiàn)資源是重要的科技基礎(chǔ)條件[1],國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006—2020)指出,科技投入和科技基礎(chǔ)條件平臺是科技創(chuàng)新的物質(zhì)基礎(chǔ),是科技持續(xù)發(fā)展的重要前提和根本保障。國家煙草專賣局在行業(yè)中長期科技發(fā)展規(guī)劃綱要(2006—2020)中也提出,要充分利用現(xiàn)代信息技術(shù)手段,加強(qiáng)煙草科學(xué)數(shù)據(jù)平臺、科技文獻(xiàn)平臺、科技資源平臺和網(wǎng)絡(luò)科技環(huán)境平臺建設(shè)。而信息資源的有效利用是推動行業(yè)自主創(chuàng)新的重要基礎(chǔ)[2],積極推進(jìn)信息化與煙草產(chǎn)業(yè)的深度融合,構(gòu)筑以“用戶為中心”的煙草文獻(xiàn)數(shù)據(jù)知識檢索服務(wù)平臺是推動煙草文獻(xiàn)數(shù)據(jù)共享服務(wù)向智能化、精準(zhǔn)化、知識化轉(zhuǎn)型的重要舉措[3-4]。2000 年張曉林[5]提出知識服務(wù)的概念,即知識服務(wù)是用戶目標(biāo)驅(qū)動的服務(wù),是面向知識內(nèi)容的服務(wù),是提出解決方案的服務(wù),是貫穿用戶解決問題過程的服務(wù),也是能夠增值的服務(wù)。知識服務(wù)和信息服務(wù)雖本質(zhì)相同,但在服務(wù)程度上存在差別。信息服務(wù)是一種檢索和傳遞顯性知識的服務(wù),而知識服務(wù)是提供解決方案的智力服務(wù),可同時提供顯性和隱性知識。信息服務(wù)是知識服務(wù)的基礎(chǔ),知識服務(wù)是信息服務(wù)的深層次服務(wù),是信息服務(wù)的升華[6]。中國知網(wǎng)、萬方數(shù)據(jù)知識服務(wù)平臺、維普、超星等機(jī)構(gòu)的數(shù)據(jù)庫均擁有海量的文獻(xiàn)數(shù)據(jù)資源,面向互聯(lián)網(wǎng)用戶提供各類文獻(xiàn)數(shù)據(jù)資源的信息檢索和知識服務(wù)[6]。煙草文獻(xiàn)數(shù)據(jù)是煙草行業(yè)重要的數(shù)據(jù)資源,包含中外文煙草期刊論文、會議論文、學(xué)位論文、科技成果、國內(nèi)外專利、標(biāo)準(zhǔn)、科技信息、科技圖書、法律法規(guī)和設(shè)備樣本等數(shù)據(jù)。近年來,隨著信息技術(shù)的發(fā)展,煙草行業(yè)對科技信息資源的需求已從單純的資源獲取演變?yōu)閿?shù)據(jù)知識服務(wù)[7-9],滿足行業(yè)科技人員資源檢索和知識服務(wù)的需求已成為亟待解決的問題。為此,通過對煙草文獻(xiàn)數(shù)據(jù)資源進(jìn)行結(jié)構(gòu)化和碎片化處理,利用大數(shù)據(jù)分析和自然語言處理(Natural Language Processing,NLP)技術(shù)構(gòu)建了煙草文獻(xiàn)數(shù)據(jù)知識檢索服務(wù)平臺,以期促進(jìn)煙草文獻(xiàn)的知識化整合,滿足行業(yè)科技人員對文獻(xiàn)信息資源更深層次的知識需求,為推動煙草行業(yè)科技創(chuàng)新提供支持。

1 系統(tǒng)設(shè)計

1.1 體系架構(gòu)

煙草文獻(xiàn)數(shù)據(jù)知識服務(wù)平臺基于B/S 架構(gòu)進(jìn)行設(shè)計,遵循J2EE開發(fā)標(biāo)準(zhǔn)規(guī)范并采用前后端分離的開發(fā)模式。前端主要采用LayUI、JQuery 等框架,數(shù)據(jù)檢索采 用 SolrCloud 構(gòu) 建索引[10];后 端采用RESTFUL API 接口技術(shù),通過JSON 實(shí)現(xiàn)與前臺的數(shù)據(jù)交互。結(jié)構(gòu)化數(shù)據(jù)采用Oracle 數(shù)據(jù)庫存儲,非結(jié)構(gòu)化數(shù)據(jù)采用FastDFS分布式文件系統(tǒng)存儲。

系統(tǒng)體系架構(gòu)主要分為數(shù)據(jù)層、服務(wù)層和應(yīng)用層,見圖1。數(shù)據(jù)層為上層應(yīng)用提供數(shù)據(jù)支撐,包括煙草學(xué)科領(lǐng)域的中外文期刊、會議論文、學(xué)位論文、科技成果、國內(nèi)外專利、煙草標(biāo)準(zhǔn)、科技信息、科技圖書、法律法規(guī)和設(shè)備樣本等文獻(xiàn)數(shù)據(jù)資源庫;服務(wù)層包括數(shù)據(jù)處理和知識加工兩個模塊,數(shù)據(jù)處理模塊完成采集、清洗、融合、加工等功能,知識加工模塊完成索引構(gòu)建、文本提取、語義識別、統(tǒng)計分析、可視化展示等功能;根據(jù)服務(wù)層提供的知識資源整合服務(wù),應(yīng)用層實(shí)現(xiàn)煙草文獻(xiàn)數(shù)據(jù)資源的智能檢索、智能推薦、智能分析、科技評價以及查新查重等功能,并設(shè)置熱點(diǎn)專題和個人中心模塊。此外,系統(tǒng)公共組件還包括爬蟲服務(wù)、資源加工、檢索服務(wù)、賬戶管理、日志監(jiān)控、權(quán)限控制以及規(guī)則庫管理等模塊。

圖1 系統(tǒng)體系架構(gòu)Fig.1 System architecture diagram

1.2 業(yè)務(wù)流程

系統(tǒng)業(yè)務(wù)流程包括文獻(xiàn)數(shù)據(jù)采集、整合、加工、審核發(fā)布、知識庫構(gòu)建、知識分析應(yīng)用等部分,見圖2。數(shù)據(jù)來源主要有互聯(lián)網(wǎng)上離散的煙草文獻(xiàn)數(shù)據(jù)、行業(yè)內(nèi)非結(jié)構(gòu)化文本數(shù)據(jù)、已有業(yè)務(wù)系統(tǒng)存儲的文獻(xiàn)數(shù)據(jù)以及其他文獻(xiàn)數(shù)據(jù)。這些海量的煙草文獻(xiàn)數(shù)據(jù)經(jīng)過采集、碎片化處理、自動化導(dǎo)入和手動錄入等方式實(shí)現(xiàn)了異構(gòu)文獻(xiàn)資源的集成,再經(jīng)過融合、去重、清洗、標(biāo)引等知識加工處理后由相應(yīng)人員審核并發(fā)布到緩存庫。索引管理中心針對緩存庫中的元數(shù)據(jù)和全文數(shù)據(jù)構(gòu)建主題索引和專題索引。文獻(xiàn)檢索分析引擎通過檢索與分析接口對檢索結(jié)果進(jìn)行合并、排序、分類和分析等處理,為用戶提供文獻(xiàn)檢索、知識展示、智能分析、科技評價等服務(wù)。

圖2 系統(tǒng)業(yè)務(wù)流程Fig.2 System process diagram

2 功能實(shí)現(xiàn)

系統(tǒng)以煙草文獻(xiàn)數(shù)據(jù)為基礎(chǔ),采用數(shù)據(jù)融合、文本分析、知識挖掘、文獻(xiàn)計量等技術(shù),對煙草文獻(xiàn)資源進(jìn)行知識挖掘和知識關(guān)聯(lián)分析,從廣度和深度上揭示文獻(xiàn)資源的隱性信息。系統(tǒng)核心功能模塊見圖3。

圖3 系統(tǒng)核心功能模塊Fig.3 System core function modules

2.1 文獻(xiàn)智能檢索服務(wù)

針對期刊、科技成果、專利、標(biāo)準(zhǔn)等煙草文獻(xiàn)資源,采用先進(jìn)的檢索技術(shù)和知識發(fā)現(xiàn)算法,實(shí)現(xiàn)了模糊檢索、語義檢索、意圖識別、以圖搜索等多種智能檢索服務(wù)。此外,采用精準(zhǔn)的知識聚類和篩選機(jī)制,開展學(xué)科分布、收錄分布、機(jī)構(gòu)篩選等自動聚類服務(wù),實(shí)現(xiàn)了文獻(xiàn)檢索結(jié)果的細(xì)化和分層顯示,幫助用戶在海量資源中快速、精準(zhǔn)地定位到最佳匹配結(jié)果,提升用戶獲取和利用知識的能力。文獻(xiàn)智能檢索服務(wù)功能頁面見圖4。

圖4 文獻(xiàn)智能檢索服務(wù)頁面Fig.4 Intelligent retrieval of literature resources

2.2 科技分析與評價服務(wù)

為幫助用戶把握國內(nèi)外研究主題的分布趨勢,探究研究主題滲透的學(xué)科領(lǐng)域,發(fā)現(xiàn)研究主題的相關(guān)學(xué)者和代表機(jī)構(gòu)等內(nèi)容,從學(xué)術(shù)產(chǎn)出、學(xué)術(shù)影響、發(fā)文趨勢、學(xué)科分布、期刊分布、代表學(xué)者、基金資助、代表機(jī)構(gòu)以及最新文獻(xiàn)等方面對檢索主題詞進(jìn)行多維度、全方位分析,并借助數(shù)據(jù)可視化技術(shù)展示研究主題的知識脈絡(luò)。針對煙草科研活動的特點(diǎn)和規(guī)律,結(jié)合煙草行業(yè)科技創(chuàng)新評價原則,研究制定了涵蓋科技項目、科技成果、科技獎勵、學(xué)術(shù)論文、專利、標(biāo)準(zhǔn)、著作等評價指標(biāo)的煙草機(jī)構(gòu)和科研人員綜合性評價指標(biāo)體系,實(shí)現(xiàn)了煙草機(jī)構(gòu)和人員科研能力的綜合評價功能??萍挤治雠c評價服務(wù)功能頁面見圖5。

圖5 科技分析與評價服務(wù)頁面Fig.5 Scientific and technological analysis and evaluation

2.3 知識智能擴(kuò)展服務(wù)

基于細(xì)粒度、碎片化、結(jié)構(gòu)化的煙草文獻(xiàn)知識元,圍繞作者、機(jī)構(gòu)、期刊、參考文獻(xiàn)、關(guān)鍵詞等內(nèi)容構(gòu)建煙草知識脈絡(luò),實(shí)現(xiàn)了煙草知識多維度、全方位的知識智能擴(kuò)展服務(wù),包括概念擴(kuò)展、同義詞擴(kuò)展、相關(guān)熱詞、相關(guān)文獻(xiàn)、合作網(wǎng)絡(luò)、學(xué)者知識脈絡(luò)等功能。其中,學(xué)者知識脈絡(luò)可以提供學(xué)者文獻(xiàn)引用情況、學(xué)術(shù)關(guān)鍵詞、學(xué)術(shù)成果趨勢分析、代表性合作學(xué)者及科研產(chǎn)出詳細(xì)列表等服務(wù)。學(xué)者知識脈絡(luò)功能頁面見圖6。

圖6 學(xué)者知識脈絡(luò)服務(wù)頁面Fig.6 Scholar knowledge vein

3 關(guān)鍵技術(shù)

3.1 統(tǒng)一檢索技術(shù)

采用SolrCloud 分布式搜索技術(shù),構(gòu)建了煙草文獻(xiàn)統(tǒng)一檢索引擎,實(shí)現(xiàn)了中文期刊資源庫、外文期刊資源庫、中國專利資源庫、國外專利資源庫、科技成果資源庫、煙草標(biāo)準(zhǔn)資源庫等12 種文獻(xiàn)資源庫的統(tǒng)一檢索。SolrCloud 是一種基于Solr 和Zookeeper 的分布式搜索方法,具有中心化集群配置、自動容錯、近實(shí)時搜索、查詢時自動負(fù)載均衡等特點(diǎn)[11]。在進(jìn)行檢索時,SolrCloud 先將索引數(shù)據(jù)進(jìn)行Shard 分片,每個分片均由多臺服務(wù)器共同完成;當(dāng)接收到索引或搜索請求時分別在不同Shard服務(wù)器中操作,提供檢索服務(wù)。采用SolrCloud 分布式搜索技術(shù)可使全文檢索準(zhǔn)確度達(dá)到97%以上。

3.2 文獻(xiàn)碎片化處理技術(shù)

按照已制定的標(biāo)準(zhǔn)格式或規(guī)則,采用中文分詞、自動標(biāo)引等文獻(xiàn)碎片化處理技術(shù)對煙草科技文獻(xiàn)的PDF 文件進(jìn)行處理。依據(jù)文獻(xiàn)標(biāo)注模型,根據(jù)中文文本版面的特征規(guī)律,自動完成文檔的碎片化和結(jié)構(gòu)化,主要包括元數(shù)據(jù)標(biāo)引,文章的篇、章、節(jié)結(jié)構(gòu)分析和拆分,自動提取文本中的段落、圖片、表格、公式等內(nèi)容,實(shí)現(xiàn)PDF 文檔版面的自動識別和結(jié)構(gòu)化解析,并生成具有統(tǒng)一格式、統(tǒng)一命名規(guī)范和組織規(guī)范的結(jié)構(gòu)化數(shù)據(jù)[12]。此外,利用文獻(xiàn)碎片化工具還可生成XML結(jié)構(gòu)及附圖,方便與其他業(yè)務(wù)系統(tǒng)進(jìn)行交互及數(shù)據(jù)的二次加工。

3.3 關(guān)鍵詞提取算法

文本關(guān)鍵詞是指能夠表達(dá)文檔中心內(nèi)容的詞語[13-14]。在信息檢索中,準(zhǔn)確提取關(guān)鍵詞可以大幅度提升檢索效率;在知識推薦中,關(guān)鍵詞的發(fā)現(xiàn)有助于獲取主題思想。在煙草文獻(xiàn)數(shù)據(jù)的文本預(yù)處理階段,采用詞向量聚類加權(quán)的TextRank 算法、LDA(Latent Dirichlet Allocation)算法等關(guān)鍵詞提取技術(shù),通過提取文本中的學(xué)者、機(jī)構(gòu)等信息以及文獻(xiàn)相關(guān)主題詞,可以為合作關(guān)系網(wǎng)絡(luò)的發(fā)現(xiàn)、文獻(xiàn)標(biāo)簽體系的構(gòu)建、學(xué)術(shù)關(guān)鍵詞的提取以及研究熱點(diǎn)主題詞分析等提供技術(shù)保障。

3.4 文獻(xiàn)共引聚類算法

文獻(xiàn)共引是指兩篇文獻(xiàn)同時被另外一篇或多篇論文引用的關(guān)系[15]。采用共引加權(quán)算法從文獻(xiàn)的標(biāo)題、摘要、作者、關(guān)鍵詞等內(nèi)容中提取特征詞構(gòu)建特征向量,利用共引加權(quán)的相似度計算函數(shù)計算特征向量間的相似度,得到文獻(xiàn)相似度矩陣,進(jìn)而實(shí)現(xiàn)共引文獻(xiàn)的聚類分析。該技術(shù)可以揭示學(xué)科內(nèi)部的相互關(guān)系以及研究熱點(diǎn)的發(fā)展脈絡(luò)[16]。

4 結(jié)論

基于大數(shù)據(jù)和自然語言處理等技術(shù),采用先進(jìn)的檢索技術(shù)和知識發(fā)現(xiàn)算法,結(jié)合知識圖譜可視化分析技術(shù),對煙草文獻(xiàn)數(shù)據(jù)資源進(jìn)行了深度融合與分析,研究構(gòu)建了煙草文獻(xiàn)數(shù)據(jù)知識檢索服務(wù)平臺,可實(shí)現(xiàn)煙草科技文獻(xiàn)的智能檢索、科技分析與評價、知識智能擴(kuò)展等功能,提高了煙草學(xué)科領(lǐng)域文獻(xiàn)資源的整合能力、信息檢索能力、知識精準(zhǔn)定位能力以及領(lǐng)域知識分析能力。該平臺目前還處于發(fā)展和完善中,在知識服務(wù)方面仍存在許多有待研究和改進(jìn)之處,未來將圍繞煙草行業(yè)科技創(chuàng)新發(fā)展布局和科研工作知識服務(wù)需求,從科研項目選題定題、煙草百科、領(lǐng)域?qū)<抑悄芡扑]等方面入手,進(jìn)一步開展相關(guān)研究,推動煙草文獻(xiàn)數(shù)據(jù)共享服務(wù)向全面的知識服務(wù)轉(zhuǎn)型。

猜你喜歡
資源庫煙草檢索
煙草具有輻射性?
健身氣功開放課程資源庫建設(shè)研究
貴州●石斛種質(zhì)資源庫
2019年第4-6期便捷檢索目錄
煙草依賴的診斷標(biāo)準(zhǔn)
高中歷史信息化教育資源庫應(yīng)用探索
福建基礎(chǔ)教育教學(xué)資源庫建設(shè)研究——以福建基礎(chǔ)教育網(wǎng)資源庫為例
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
煙草中茄酮的富集和應(yīng)用
煙草鏡頭與歷史真實(shí)
聲屏世界(2014年6期)2014-02-28 15:18:09
邢台县| 平远县| 鲜城| 平安县| 裕民县| 新宁县| 阿尔山市| 岐山县| 杭锦旗| 昆明市| 三江| 博爱县| 九龙县| 布尔津县| 东莞市| 茶陵县| 平凉市| 阿坝| 东台市| 镶黄旗| 锡林浩特市| 莱州市| 阜宁县| 吐鲁番市| 焉耆| 石河子市| 五寨县| 大埔区| 平凉市| 阿坝县| 浮梁县| 宣化县| 布拖县| 望江县| 富源县| 乳山市| 合江县| 华宁县| 英吉沙县| 门头沟区| 霸州市|