国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于科技檔案的學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)設(shè)計(jì)研究

2018-01-31 05:31:47
天津科技 2018年1期
關(guān)鍵詞:科技情報(bào)情報(bào)學(xué)情報(bào)

陳 默

(機(jī)械工業(yè)信息研究院 北京100037)

1 論文的研究背景和意義

科技檔案是指在自然科學(xué)研究、生產(chǎn)技術(shù)、基本建設(shè)等活動(dòng)中形成的應(yīng)當(dāng)歸檔保存的圖紙、圖表、文字材料、計(jì)算材料、照片、影片、錄像、錄音帶等科技文件材料。隨著信息網(wǎng)絡(luò)技術(shù)的發(fā)展,云科技、大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)信息呈現(xiàn)出爆炸式增長(zhǎng)。在這種情況下,再采用人工手段來(lái)檢索情報(bào)信息已經(jīng)成為不可能完成的任務(wù)。

本文基于數(shù)字檔案平臺(tái)、科技報(bào)告系統(tǒng)等數(shù)據(jù)庫(kù)設(shè)計(jì)建立一套以人為主,數(shù)據(jù)、信息、知識(shí)和智慧綜合集成,高度智能化的人機(jī)結(jié)合智慧情報(bào)系統(tǒng)。從系統(tǒng)的物理構(gòu)成來(lái)看,包括3部分(見圖1)。

文章將主要運(yùn)用信息智能檢索、數(shù)據(jù)統(tǒng)一結(jié)構(gòu)化、信息抽取、機(jī)器學(xué)習(xí)、自然語(yǔ)言理解等前沿?cái)?shù)據(jù)挖掘分析技術(shù),對(duì)各數(shù)據(jù)庫(kù)的結(jié)構(gòu)化與非結(jié)構(gòu)化文本進(jìn)行處理,實(shí)現(xiàn)對(duì)海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的關(guān)鍵詞輸入、引文爬取、數(shù)據(jù)解析分析、統(tǒng)計(jì),最終形成關(guān)于學(xué)術(shù)專題情報(bào)報(bào)告的雛形。

圖1 基于綜合集成研討廳的人機(jī)結(jié)合智慧情報(bào)系統(tǒng)框架示意圖Fig.1 Schematic of human-machine integration smart intelligence system framework based on HWME

2 功能需求分析與系統(tǒng)設(shè)計(jì)

2.1 系統(tǒng)需求分析

本系統(tǒng)需要在普通搜索引擎的基礎(chǔ)上通過(guò)重點(diǎn)、互動(dòng)、專業(yè)垂直搜索,完成深入的、交互式的、專業(yè)的科技情報(bào)搜索。本部分的科技情報(bào)專用搜索工具是由元搜索系統(tǒng)、重點(diǎn)搜索系統(tǒng)、互動(dòng)搜索系統(tǒng)、垂直搜索系統(tǒng)和深網(wǎng)接口系統(tǒng)封裝在一起構(gòu)成。本系統(tǒng)根據(jù)研究?jī)?nèi)容設(shè)定采集數(shù)據(jù)的范圍,力爭(zhēng)把數(shù)以十萬(wàn)計(jì)的海量信息壓縮到600條以內(nèi),同時(shí)保存足夠的核心信息,并采用人機(jī)結(jié)合的工作方式,提供專家判讀的界面,為數(shù)據(jù)篩選的準(zhǔn)確性提供保障。

2.2 系統(tǒng)模塊設(shè)計(jì)

本系統(tǒng)根據(jù)關(guān)鍵詞并行進(jìn)行科技報(bào)告系統(tǒng)網(wǎng)頁(yè)爬取與數(shù)字檔案館中的科技檔案爬取,獲取有效的網(wǎng)頁(yè)信息與檔案信息,去重、去噪后得到需要的網(wǎng)頁(yè)信息與檔案信息。具體流程如圖2所示。

按照檔案情報(bào)流程節(jié)點(diǎn)的不同,該學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)可以細(xì)分為幾個(gè)大模塊:搜索大模塊、控制大模塊、整理大模塊、分析大模塊及結(jié)論生成大模塊。大模塊下又可細(xì)分為幾個(gè)小模塊。學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)模塊劃分如圖3所示。

圖2 系統(tǒng)數(shù)據(jù)流程圖Fig.2 Flowchart of system data

圖3 系統(tǒng)功能模塊圖Fig.3 System functional modules

2.3 系統(tǒng)架構(gòu)設(shè)計(jì)

系統(tǒng)結(jié)構(gòu)共包括元搜索、多線程控制器、垂直搜索、數(shù)據(jù)存儲(chǔ)器、URL調(diào)度器、源碼解析器和數(shù)據(jù)分析等七大模塊。由于網(wǎng)頁(yè)數(shù)據(jù)與檔案庫(kù)的格式差異較大,故本系統(tǒng)開發(fā)兩個(gè)軟件分別對(duì)網(wǎng)頁(yè)數(shù)據(jù)和檔案數(shù)據(jù)進(jìn)行處理。從系統(tǒng)結(jié)構(gòu)上說(shuō),除了信息采集模塊外,兩個(gè)軟件的結(jié)構(gòu)基本一致,都是通過(guò)上述模塊進(jìn)行相互協(xié)調(diào)控制(見圖4)。

圖4 系統(tǒng)整體結(jié)構(gòu)圖Fig.4 Overall system structure

系統(tǒng)的基本流程:在傳統(tǒng)網(wǎng)絡(luò)爬蟲的基礎(chǔ)上進(jìn)行改進(jìn),抽取各類網(wǎng)頁(yè)信息,將抽取下來(lái)的各類信息存儲(chǔ)于內(nèi)存之中,每次抽取與前一次鏈接相同,每當(dāng)存儲(chǔ)的信息超過(guò)設(shè)定的閾值,信息存入本地文件。

抓取下的數(shù)據(jù)被分為互聯(lián)網(wǎng)數(shù)據(jù)與檔案庫(kù)數(shù)據(jù),檔案庫(kù)數(shù)據(jù)一般為標(biāo)準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)(雙層 PDF等除外),重復(fù)率低,可直接使用系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行分析。

3 系統(tǒng)的功能實(shí)現(xiàn)

以人工智能領(lǐng)域?yàn)槔?,使用本系統(tǒng)進(jìn)行實(shí)驗(yàn),驗(yàn)證本系統(tǒng)的可行性和有效性。

①可以實(shí)現(xiàn)對(duì)檔案數(shù)據(jù)庫(kù)、科技報(bào)告數(shù)據(jù)庫(kù)的中文數(shù)據(jù)采集搜索,可以自動(dòng)實(shí)現(xiàn)對(duì)檔案、科技報(bào)告相關(guān)詞庫(kù)的搜索,對(duì)相關(guān)文獻(xiàn)詳細(xì)信息(包標(biāo)題、摘要、完成人、完成單位、完成時(shí)間、項(xiàng)目名稱等)進(jìn)行搜索采集,對(duì)相關(guān)文獻(xiàn)內(nèi)高頻詞匯進(jìn)行統(tǒng)計(jì)分析。系統(tǒng)檢索過(guò)程見圖5~7。

圖5 搜索工具Fig.5 Search tool

圖6 詞庫(kù)內(nèi)數(shù)據(jù)Fig.6 Data within the lexicon

圖7 詳細(xì)信息內(nèi)數(shù)據(jù)Fig.7 Data within the detailed information

②系統(tǒng)對(duì)采集到的數(shù)據(jù)進(jìn)行歸類、去噪、去重處理,篩選出較具情報(bào)價(jià)值的信息,運(yùn)用文獻(xiàn)計(jì)量學(xué)方法對(duì)篩選完的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,形成清晰的檔案文獻(xiàn)相關(guān)信息統(tǒng)計(jì)分析表格。

③系統(tǒng)可以用來(lái)搜索某學(xué)術(shù)領(lǐng)域相關(guān)機(jī)構(gòu)、相關(guān)專家,還可以對(duì)機(jī)構(gòu)之間的合作關(guān)系、專家之間的合作關(guān)系、專家學(xué)術(shù)研究點(diǎn)之間的關(guān)系進(jìn)行可視化展示。

科技情報(bào)是情報(bào)學(xué)的主要學(xué)科,檔案信息、科技報(bào)告是情報(bào)采集的重要來(lái)源,基于科技檔案的學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)可以有效提高情報(bào)機(jī)構(gòu)數(shù)據(jù)資源建設(shè)能力,對(duì)于打造情報(bào)機(jī)構(gòu)核心競(jìng)爭(zhēng)力具有重要促進(jìn)作用。

[1] 鄭彥寧,宋振峰. 我國(guó)科技情報(bào)行業(yè)現(xiàn)狀與發(fā)展對(duì)策分析[J]. 情報(bào)學(xué)報(bào),2007,26(5):10-15.

[2] 賀德方. 我國(guó)科技情報(bào)行業(yè)發(fā)展方向的探討[J]. 情報(bào)學(xué)報(bào),2007,26(4):23-29.

[3] 賀德方. 我國(guó)科技情報(bào)行業(yè)發(fā)展戰(zhàn)略與發(fā)展路徑的思考[J]. 情報(bào)學(xué)報(bào),2007,26(4):54-61.

[4] 成帥. 文獻(xiàn)增長(zhǎng)規(guī)律的研究[J]. 科技情報(bào)開發(fā)與經(jīng)濟(jì),2005,15(22):13-20.

猜你喜歡
科技情報(bào)情報(bào)學(xué)情報(bào)
開放與融合:公安情報(bào)學(xué)進(jìn)入情報(bào)學(xué)方式研究*
情報(bào)
情報(bào)
情報(bào)
基于數(shù)據(jù)工程的國(guó)防科技情報(bào)生態(tài)體系構(gòu)建
構(gòu)建中國(guó)特色的情報(bào)學(xué)
銅陵市科技情報(bào)工作存在的問(wèn)題與發(fā)展對(duì)策
安徽科技(2018年9期)2018-12-31 12:54:31
加強(qiáng)科技情報(bào)檔案管理工作的建議
交接情報(bào)
基于創(chuàng)新環(huán)境下的科技情報(bào)研究
柳州市| 烟台市| 剑川县| 察隅县| 靖安县| 秦安县| 忻城县| 游戏| 罗田县| 宣化县| 阳谷县| 旺苍县| 咸阳市| 葵青区| 顺义区| 仪征市| 六安市| 贵南县| 南汇区| 砀山县| 稷山县| 高淳县| 虎林市| 延庆县| 边坝县| 洛阳市| 丹阳市| 北流市| 土默特右旗| 汨罗市| 岳西县| 高台县| 苍山县| 琼结县| 汾阳市| 南昌县| 谢通门县| 左云县| 泾源县| 安塞县| 沙雅县|