国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互聯(lián)網(wǎng)的情報收集技術研究

2018-01-28 09:07:08郭建偉陳佳宇
天津科技 2018年5期
關鍵詞:科技情報搜索引擎檢索

郭建偉,燕 娜,陳佳宇

(北京市科學技術情報研究所 信息資源部 北京100044)

0 引 言

互聯(lián)網(wǎng)已經(jīng)越來越深入地融入了人們的生活,并在不斷地改變著人們的思維及工作方式[1]。有一句名言被改為:“知之為知之,不知百度知”。由此可見,人們已經(jīng)習慣到互聯(lián)網(wǎng)上,借助信息技術尋找自己需要的各種信息。網(wǎng)民除了瀏覽新聞、收發(fā)郵件之外,對查找資料、網(wǎng)上購物等深層次應用的需求和接受程度大幅度提高。

傳統(tǒng)的情報收集以印刷型文獻、電子信息資源、報紙、廣播等大眾傳媒、會議、訪談等為主要科技情報信息源[2]。隨著互聯(lián)網(wǎng)的普及,大量的科技情報信息開始在互聯(lián)網(wǎng)上傳輸,如政府部門、各行業(yè)部門、各種企事業(yè)單位等,都已經(jīng)或準備在互聯(lián)網(wǎng)運行大量的信息,讓用戶更方便快捷獲取資訊?;ヂ?lián)網(wǎng)由于其信息量大、時效性強等特點,將逐漸成為最主要的情報來源。目前,通過搜索引擎、網(wǎng)絡數(shù)據(jù)庫、網(wǎng)站、數(shù)字圖書館、網(wǎng)絡出版物、網(wǎng)絡討論組等工具和方式可以快速獲取第一手資料。因此,了解并掌握基于互聯(lián)網(wǎng)的信息收集方法,對于提高情報研究的質(zhì)量和效率,具有重要意義。

1 搜索引擎在情報收集工作中的應用

搜索引擎(Search Engine)是一種利用互聯(lián)網(wǎng)自采集技術,對各種情報信息資源進行標識,并為使用者提供搜索的工具,例如:AltaVista、Yahoo!、Google和百度[3]。搜索引擎作為用戶訪問互聯(lián)網(wǎng)的入口和指南,已經(jīng)成為人們利用最廣泛的工具。搜索引擎的收集對象是互聯(lián)網(wǎng)網(wǎng)站的各種文檔,如 html、htm、asp、nsf、shtml、txt、pdf等格式的文檔。最大特點是把分散在全球的數(shù)據(jù)統(tǒng)一成一個標準的大型數(shù)據(jù)庫,查詢信息結(jié)果是優(yōu)質(zhì)信息源,而不是信息本身。

搜索引擎通過從網(wǎng)絡抓取的有關網(wǎng)站的信息,查詢到使用者查找的相匹配的記錄,反饋給使用者。全文搜索引擎的特點是能夠?qū)Ω骶W(wǎng)站的每個頁面中的每個詞進行搜索,缺點是提供的科技情報信息數(shù)據(jù)量雖大,但因可選擇的條件多而降低命中率。由于沒有按照類別搜索的結(jié)構(gòu),會給使用者多而雜的感覺。

1.1 目錄索引搜索

目錄索引搜索按照目錄進行檢索,分類目錄也能找到需要的信息。最具代表性的有 Yahoo!,國內(nèi)的Sohu、Sina等也屬于這一類。目錄索引搜索特點是查準率高、查全率低、搜索范圍較小。

1.2 分類全文搜索引擎

分類全文搜索引擎是基于全文搜索引擎和分類搜索引擎的缺點而設計的,設計上加入了全文檢索。這樣既可以使用戶在分類目錄中瀏覽,保證了一定的查準率,又可以使用戶進行全文查詢。其特點是誤查率低,搜索范圍小。

1.3 “二次檢索”

“二次檢索”是指在上一次檢索的結(jié)果中再進行更為精確的檢索[4]。百度、雅虎、infoseek等都提供“在結(jié)果內(nèi)查找”的查詢功能。

1.4 垂直搜索引擎

垂直搜索引擎是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶[5]。

垂直搜索引擎具有搜索功能模塊強大,切換性強,使用者容易上手操作;瀏覽器會發(fā)現(xiàn)新的引擎,成為默認瀏覽;內(nèi)容豐富,適于用多款瀏覽器瀏覽模式;兼容性強,基于多種內(nèi)核瀏覽器;安全性高,收集大量正規(guī)金融、新聞、咨詢等網(wǎng)站功能的優(yōu)點。

1.5 利用搜索引擎進行信息檢索的技巧

利用搜索引擎進行信息檢索是一項實踐性很強的工作,科技情報工作者應該在使用過程中不斷總結(jié)檢索技巧,以提高有用信息的命中率。

1.5.1 搜索關鍵字設置

我們在使用中發(fā)現(xiàn):在搜索引擎中如果只輸入一個字或短句來進行查詢,會有大量相關性不大的文檔,查詢者使用起來浪費時間。要進行針對性的搜索,應該輸入多且精準的詞或詞組,使之在搜索時自動過濾掉無用的信息。提供的詞組越精確,搜索得到的結(jié)果越少,文檔的相關性越強。搜索關鍵字應盡量選用專指詞或非常用詞,如果應用布爾邏輯符,或者加上引號,檢索結(jié)果可以更加精確。

1.5.2 選擇合適的搜索引擎

目前,互聯(lián)網(wǎng)上的搜索引擎種類繁多,面向的對象各有不同,從中找出與所查信息主題相符合的搜索引擎,可以做到有的放矢,快速、準確、全面地找到所需信息。在使用搜索引擎之前,應研究一下它的用法和特殊之處,能夠收到事半功倍的效果。進行搜索前需要從搜索引擎的類型、功能、特點,檢索問題的類型,查詢目標可能的存在形式(是網(wǎng)頁還是FTP)等方面綜合考慮,選擇相應類型的檢索工具。例如,對于一般性的瀏覽查詢,或希望獲取較為綜合、準確的信息時,一般應使用雅虎(http∶//www.yahoo.com/)這樣的目錄型檢索工具。

1.5.3 根據(jù)結(jié)果進一步修訂搜索策略

系統(tǒng)返回檢索結(jié)果后,可根據(jù)檢索效果進一步修訂搜索策略。雖然有時檢索結(jié)果并不理想,甚至包含有大量的“垃圾信息”,但也有可能在這些結(jié)果中發(fā)現(xiàn)一些更合適的檢索詞或提供更準確的檢索信息。這樣就可以進一步確定檢索表達式,或者轉(zhuǎn)向其他引擎搜索。

2 網(wǎng)絡數(shù)據(jù)庫

互聯(lián)網(wǎng)作為海量信息源,具有3個特點:

①擴大了數(shù)據(jù)資源共享范圍、便于數(shù)據(jù)傳輸交流。哪里有網(wǎng)絡,哪里就可以實現(xiàn)數(shù)據(jù)資源共享。

②大批量的數(shù)據(jù)處理,可分解給不同的計算機處理,實現(xiàn)分布式處理的目的。

③既可以采用 C/S方式,也可以采用 B/S。降低了系統(tǒng)的使用費用,提高了計算機可用性。

正是由于互聯(lián)網(wǎng)信息資源分布零散,并且難以規(guī)范化、結(jié)構(gòu)化,因此對信息資源的組織和管理提出了更高的要求。網(wǎng)絡數(shù)據(jù)庫的出現(xiàn)可以很好地解決上述問題。

網(wǎng)絡數(shù)據(jù)庫具有以下特點:

①信息資源專業(yè)性較強,主題明確,檢索的相關性非常高。

②資源被有效地分類和標識,存取的效率比較高。

③實現(xiàn)異地遠程檢索,故障率較低,能夠不間斷提供服務。

④數(shù)據(jù)更新快,用戶可隨時利用,并且具有豐富、可靠、權(quán)威的數(shù)據(jù)資源和全面多樣的服務方式。

3 數(shù)字圖書館

數(shù)字圖書館[6]提供的特色資源主要集中在本地區(qū)的歷史沿革、發(fā)展現(xiàn)狀、社會狀況、資源分布、民俗風情、人文景觀等,便于訪問者了解該地區(qū)的投資環(huán)境和發(fā)展前景,比如首都圖書館(www.clcn.net.cn)擁有明清北京城垣資源庫、北京地方文獻報刊索引數(shù)據(jù)庫、中國共產(chǎn)黨北京黨史資源庫、奧林匹克運動會與藝術多媒體資源庫、中國人民解放軍將帥多媒體資源庫等特色資源。上海圖書館的《全國報刊索引》數(shù)據(jù)庫、國內(nèi)專業(yè)會議數(shù)據(jù)庫、家譜書目數(shù)據(jù)庫;吉林圖書館的吉林省兩院院士及省管優(yōu)秀專家數(shù)據(jù)庫、省文化法規(guī)數(shù)據(jù)庫、省生態(tài)信息數(shù)據(jù)庫等都因內(nèi)容翔實而全面在業(yè)界具有重要的地位。

4 專業(yè)科技情報網(wǎng)站

目前,互聯(lián)網(wǎng)上已經(jīng)存在著上千萬個網(wǎng)站,以文字、圖片、語音、動畫、電影等多媒體技術及各種綜合手段進行實時信息發(fā)布。充分利用互聯(lián)網(wǎng)網(wǎng)站獲取有價值的信息可以收到事半功倍的效果。在我國,政府網(wǎng)站可以提供政策法規(guī)、經(jīng)濟信息、服務信息等三大類信息;各種行業(yè)(學會、協(xié)會)網(wǎng)站可提供行業(yè)新聞、行業(yè)動態(tài)、市場行情、學術動態(tài)、行業(yè)政策法規(guī)等資源和信息,用戶可以通過行業(yè)網(wǎng)站,對整個行業(yè)有所了解,掌握行業(yè)目前的狀況;企業(yè)網(wǎng)站可提供公司信息、經(jīng)營動態(tài)、產(chǎn)品宣傳、新產(chǎn)品研究方案、售后服務、合作伙伴信息等??梢姡ヂ?lián)網(wǎng)網(wǎng)站中蘊含了豐富的科技情報資源??萍记閳蠊ぷ髡咴趯λ鸭繕瞬缓苊鞔_或不知從何處入手時,直接登錄相關網(wǎng)站是最好的選擇。

5 總 結(jié)

互聯(lián)網(wǎng)由于其信息量大、時效性強等特點,已逐漸成為最主要的情報來源。了解并掌握基于互聯(lián)網(wǎng)的信息收集方法,對于提高情報研究的質(zhì)量和效率具有重要的意義。搜索引擎是情報搜集的主要工具之一,本章介紹了搜索引擎的各種分類和適用情況,總結(jié)了利用搜索引擎進行信息檢索的技巧。介紹了更加專業(yè)、更有針對性的搜索引擎——垂直搜索引擎,并總結(jié)了幾種發(fā)展比較成熟,且能夠在科技情報收集工作中發(fā)揮較大作用的垂直搜索引擎。網(wǎng)絡數(shù)據(jù)庫由于專業(yè)性強,檢索相關度高,是科技查新工作及科技情報收集工作的基礎。介紹了網(wǎng)絡數(shù)據(jù)庫的特點。由于許多數(shù)字圖書館既是各種文獻資源的聚集地,同時也是各種特色數(shù)據(jù)資源的建設者和提供者,情報工作者通過訪問數(shù)字圖書館可以獲得多種渠道的信息來源,所以本文也將數(shù)字圖書館作為網(wǎng)絡信息的來源之一進行了介紹。另外,一些專業(yè)的科技情報網(wǎng)站中蘊含了豐富的科技情報資源,介紹了政府門戶網(wǎng)站、行業(yè)(協(xié)會)網(wǎng)站在情報搜集中的應用。■

[1]王興偉,李婕,譚振華,等.面向“互聯(lián)網(wǎng)+”的網(wǎng)絡技術發(fā)展現(xiàn)狀與未來趨勢[J].計算機研究與發(fā)展,2016,53(4):727-741.

[2]劉佳.如何通過互聯(lián)網(wǎng)收集情報[J].中國牧業(yè)通訊,2011(7):93.

[3]印鑒,陳憶群,張鋼,等.搜索引擎技術研究與發(fā)展[J].計算機工程,2005,31(14):54-56.

[4]嚴永松.XML在搜索引擎中的應用[J].數(shù)字技術與應用,2009(12):58-60.

[5]肖冬梅.垂直搜索引擎研究[J].圖書館學研究,2003(2):87-89.

[6]鄭志蘊,宋瀚濤,牛振東,等.基于網(wǎng)格技術的數(shù)字圖書館互操作關鍵技術[J].北京理工大學學報,2005,25(12):1066-1070.

猜你喜歡
科技情報搜索引擎檢索
基于數(shù)據(jù)工程的國防科技情報生態(tài)體系構(gòu)建
2019年第4-6期便捷檢索目錄
銅陵市科技情報工作存在的問題與發(fā)展對策
安徽科技(2018年9期)2018-12-31 12:54:31
加強科技情報檔案管理工作的建議
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
網(wǎng)絡搜索引擎亟待規(guī)范
基于創(chuàng)新環(huán)境下的科技情報研究
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
國際標準檢索
卫辉市| 手游| 兰西县| 马鞍山市| 金门县| 娱乐| 岐山县| 昌图县| 安宁市| 乌什县| 南和县| 安溪县| 商丘市| 德保县| 安宁市| 和平县| 大余县| 尉氏县| 崇义县| 沂源县| 巴林右旗| 蒙城县| 讷河市| 玉门市| 布尔津县| 德保县| 应用必备| 江陵县| 革吉县| 揭阳市| 丘北县| 新源县| 当阳市| 股票| 乌拉特后旗| 大关县| 承德县| 仪征市| 清苑县| 改则县| 汝城县|