国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python的科技情報(bào)智能化識(shí)別檢索系統(tǒng)的研究與設(shè)計(jì)

2019-06-20 01:22賀洪煜
科技視界 2019年11期
關(guān)鍵詞:檢索系統(tǒng)科技情報(bào)關(guān)鍵字

賀洪煜

【摘 要】科技情報(bào)不僅能提供科研人員開(kāi)展科技研發(fā)工作的基本資源,更為科研工作者的研究方向與研究?jī)?nèi)容提供了決策支持。因此,如何為科技工作者提供多渠道、及時(shí)準(zhǔn)確的科技情報(bào)成為科研院校及企業(yè)科技部門(mén)亟需面對(duì)的問(wèn)題。本文提出了一個(gè)利用Python編程語(yǔ)言定時(shí)對(duì)動(dòng)態(tài)網(wǎng)頁(yè)中與本行業(yè)相關(guān)的科技情報(bào)進(jìn)行數(shù)據(jù)抓取方法,將獲取的有用信息保存到本地?cái)?shù)據(jù)庫(kù)中,再使用B/S架構(gòu)的信息系統(tǒng)為科研人員提供查詢及訂閱功能。該系統(tǒng)具備較高的實(shí)時(shí)性及準(zhǔn)確性,并已經(jīng)在企業(yè)科技部門(mén)中進(jìn)行使用。

【關(guān)鍵字】大數(shù)據(jù);科技情報(bào);Python;網(wǎng)絡(luò)爬蟲(chóng)

中圖分類(lèi)號(hào): G351.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2019)11-0072-003

DOI:10.19694/j.cnki.issn2095-2457.2019.11.033

【Abstract】Scientific and technological information can not only provide the basic resources for researcher workers, but also provide decision support for the research direction and content of scientific research workers. Therefore, how to provide multi-channel, timely and accurate scientific and technological information for science and technology researcher workers has become an urgent problem for research institutes and enterprises. This paper proposes a method for data capture of scientific and technological information related to the industry in dynamic web pages using Python programming language. This system saves the useful information to a local database, and then the system of B/S architecture provides scientific research workers searching and subscription features. The system is highly time-sensitive and accurate and has been used in the corporate technology sector.

【Key words】Big data; Scientific and technological information; Python; Web crawler

近年來(lái),各個(gè)領(lǐng)域的企業(yè)都積極地開(kāi)展對(duì)大數(shù)據(jù)的挖掘和利用。隨著物聯(lián)網(wǎng)、智能設(shè)備與互聯(lián)網(wǎng)+的概念不斷普及,每天在互聯(lián)網(wǎng)上產(chǎn)生的數(shù)據(jù)已經(jīng)超過(guò)2.5萬(wàn)億字節(jié),致使這些巨量的數(shù)據(jù)無(wú)法在短時(shí)間內(nèi)被捕捉和處理,提煉成為我們?nèi)粘S杏玫臄?shù)據(jù)。大數(shù)據(jù)與信息技術(shù)的應(yīng)用融合,將科技情報(bào)研究工作轉(zhuǎn)變?yōu)橐环N基于海量數(shù)據(jù)的知識(shí)發(fā)現(xiàn)和知識(shí)分析過(guò)程,科技情報(bào)研究已經(jīng)向"數(shù)據(jù)密集型科學(xué)"這一新的研究范式演進(jìn)[1]。企業(yè)的科技研發(fā)部門(mén)肩負(fù)著企業(yè)科技創(chuàng)新與成果轉(zhuǎn)化的重?fù)?dān),科研人員每年必須積極參與國(guó)家及地方各部委發(fā)布的科研課題從而獲得科研經(jīng)費(fèi)的支撐。在海量數(shù)據(jù)的環(huán)境下,真正需要的有價(jià)值的知識(shí)被淹沒(méi),準(zhǔn)確的科技情報(bào)收集工作不但占用了科研人員寶貴的時(shí)間,不能很好地為企業(yè)的科研工作提供保障。

作為國(guó)家知識(shí)庫(kù)的概念,中國(guó)知網(wǎng)(CNKI)擁有世界上最大的中文知識(shí)信息資源數(shù)據(jù)庫(kù),每天提供數(shù)千種信息檢索服務(wù),且其平臺(tái)KBase服務(wù)于包括歐美、日本在內(nèi)的發(fā)達(dá)國(guó)家,并取得了成功。在全球5,000個(gè)機(jī)構(gòu)用戶中,其卓越的性能和穩(wěn)定性深受用戶歡迎。此外,在調(diào)查了美國(guó)的蘭德公司(RAND)、加拿大科技情報(bào)研究所(CISTI)、日本科學(xué)技術(shù)政策研究所(NISTEP)等幾家國(guó)際著名情報(bào)機(jī)構(gòu)的情報(bào)分析方法后發(fā)現(xiàn),國(guó)外典型科技情報(bào)機(jī)構(gòu)的情報(bào)分析與應(yīng)用呈現(xiàn)出工具化、系統(tǒng)化與平臺(tái)化的特征。

綜上分析,企業(yè)情報(bào)部門(mén)及科研人員需要獲得粒度更細(xì)更精準(zhǔn)的科技情報(bào)服務(wù),亟需設(shè)計(jì)開(kāi)發(fā)一套符合企業(yè)實(shí)際情況、開(kāi)發(fā)靈活、簡(jiǎn)單易用、具備科技情報(bào)收集與分析功能的軟件平臺(tái)系統(tǒng)。Python語(yǔ)言是一種功能強(qiáng)大的具有解釋性、交互性和面向?qū)ο蟮牡谒拇?jì)算機(jī)編程語(yǔ)言,它開(kāi)發(fā)代碼的效率非常高,具有強(qiáng)大和豐富實(shí)用的第三方標(biāo)準(zhǔn)庫(kù),使得編程變得簡(jiǎn)潔快速并支持廣泛的應(yīng)用程序開(kāi)發(fā),從簡(jiǎn)單的文字處理到基于Web的開(kāi)發(fā)及游戲設(shè)計(jì)的應(yīng)用[2]。使用基于Python的網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用,不僅可以實(shí)時(shí)監(jiān)控提供科技情報(bào)的網(wǎng)站發(fā)布的所有信息,并且還能進(jìn)行關(guān)鍵字等的過(guò)濾,無(wú)需人工干預(yù),就能向指定的用戶提供有效信息的推送。

1 系統(tǒng)的主要功能及目標(biāo)

根據(jù)前期對(duì)企業(yè)科研部門(mén)調(diào)研,本文所研究的基于Python的科技情報(bào)智能化識(shí)別檢索系統(tǒng)需要實(shí)現(xiàn)以下功能:定時(shí)從系統(tǒng)預(yù)設(shè)的網(wǎng)絡(luò)渠道獲取最新發(fā)布的科研情報(bào);建立可視化科技情報(bào)智能化識(shí)別檢索系統(tǒng),用戶還可自行訂閱相關(guān)類(lèi)型或關(guān)鍵字的情報(bào)。系統(tǒng)建設(shè)完成后,能推廣至集團(tuán)及下屬子集團(tuán)各科研單位進(jìn)行使用。

2 系統(tǒng)的功能設(shè)計(jì)

2.1 系統(tǒng)的設(shè)計(jì)

本系統(tǒng)程序設(shè)計(jì)分為兩大模塊:(1)通過(guò)Python網(wǎng)絡(luò)爬蟲(chóng)程序抓取可自定義類(lèi)型及關(guān)鍵字的科技情報(bào),將非結(jié)構(gòu)化數(shù)據(jù)按指定格式保存到數(shù)據(jù)庫(kù)中;(2)建立基于B/S架構(gòu)的可視化管理平臺(tái),可實(shí)現(xiàn)包括用戶管理、信息檢索、內(nèi)容訂閱、數(shù)據(jù)維護(hù)、日志管理等功能。程序設(shè)計(jì)功能框架如圖1所示。

猜你喜歡
檢索系統(tǒng)科技情報(bào)關(guān)鍵字
基于數(shù)據(jù)工程的國(guó)防科技情報(bào)生態(tài)體系構(gòu)建
履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤(pán)點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
成功避開(kāi)“關(guān)鍵字”
銅陵市科技情報(bào)工作存在的問(wèn)題與發(fā)展對(duì)策
收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫(kù)
收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫(kù)
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫(kù)收錄
本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫(kù)收錄
加強(qiáng)科技情報(bào)檔案管理工作的建議
基于創(chuàng)新環(huán)境下的科技情報(bào)研究