劉 念,張魯冀,趙燕燕,陳 默
(1. 北京電子科技學(xué)院 北京100070;2. 北京市科學(xué)技術(shù)情報(bào)研究所 北京100048;3. 大唐電信科技股份有限公司 北京100094;4. 機(jī)械工業(yè)信息研究院 北京100037)
基于項(xiàng)目檔案的學(xué)術(shù)專題情報(bào)快速輔助生成系統(tǒng)技術(shù)分析
劉 念1,張魯冀2,趙燕燕3,陳 默4
(1. 北京電子科技學(xué)院 北京100070;2. 北京市科學(xué)技術(shù)情報(bào)研究所 北京100048;3. 大唐電信科技股份有限公司 北京100094;4. 機(jī)械工業(yè)信息研究院 北京100037)
從情報(bào)研究、信息源、分析需求等層面探討了信息情報(bào)的概念和特征,提出簡單的統(tǒng)計(jì)分析已不能滿足當(dāng)前社會(huì)的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來的發(fā)展,這就涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)。目前,國外對(duì)情報(bào)研究中的智能化技術(shù)沒有統(tǒng)一的界定,但概觀之,可以將情報(bào)研究智能化的本質(zhì)概括為定量化、可計(jì)算、可重復(fù)。就此進(jìn)行了闡述和分析。
信息挖據(jù) 情報(bào) 算法
搜索引擎是一種在Web上搜索和挖掘信息的軟件系統(tǒng),通過結(jié)合若干種策略,可以自動(dòng)地將信息搜集起來并以統(tǒng)一的組織形式呈現(xiàn)出來,給用戶提供系統(tǒng)的信息查詢業(yè)務(wù)。搜索引擎的種類有很多,包括元搜索、垂直搜索、全文索引、目錄索引等。目前較為主流的搜索引擎有百度、Google、AltaVista、雅虎、SOSO、必應(yīng)等。在信息搜索方面,搜索引擎不僅需要龐大的硬件系統(tǒng)作為后備支持力量,還需要相當(dāng)復(fù)雜的軟件結(jié)構(gòu)的設(shè)計(jì)。
從結(jié)構(gòu)上來講,搜索引擎主要分為網(wǎng)絡(luò)爬蟲、資料庫和索引庫,系統(tǒng)首先會(huì)啟動(dòng)大批量的爬蟲對(duì)網(wǎng)絡(luò)上的檔案數(shù)據(jù)進(jìn)行采集,將這些數(shù)據(jù)保存到資料庫中,其中會(huì)運(yùn)用到復(fù)雜的URL調(diào)度策略和數(shù)據(jù)抓取策略,以保證同一個(gè)網(wǎng)頁不會(huì)被重復(fù)抓取。然后系統(tǒng)會(huì)對(duì)資料庫中的數(shù)據(jù)建立索引,保存到索引庫中,將無序的資料整理成有序的資料庫。目前建立索引的主流方式是倒排索引,也稱倒排文件法,由于本文主要介紹搜索引擎的網(wǎng)頁爬蟲部分,不涉及建立索引的工作,故在此不進(jìn)行過度敘述。最后,用戶通過輸入關(guān)鍵詞,系統(tǒng)將對(duì)用戶輸入的信息進(jìn)行分析,包括分詞、去噪、合并同義詞等處理,最后從有序資料庫中將結(jié)果返回給用戶(見圖1)。
圖1 搜索引擎工作原理結(jié)構(gòu)圖Fig.1 Working principle diagram of search engine
1.1 基本概念
元搜索是搜索引擎中的一種,也可稱為“多搜索引擎”,它的本質(zhì)是通過調(diào)用其他搜索引擎來進(jìn)行工作,元搜索中的“元”有總的、超越的意思,故也有人稱之為“搜索引擎之母”。Metacrawler是世界上最早的元搜索引擎,作者是華盛頓大學(xué)的教授Oren Etzi以及學(xué)生Erik。它是InfoSpaceInc的一部分,于1995年正式在網(wǎng)絡(luò)上運(yùn)行。元搜索模型不需要獨(dú)立的網(wǎng)頁數(shù)據(jù)庫,它可以根據(jù)用戶的特定需求選擇不同的搜索引擎進(jìn)行檢索,傳統(tǒng)意義上的元搜索模型都是采用并行結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行抓取,還能根據(jù)需要對(duì)特定的數(shù)據(jù)類型進(jìn)行檢索,如圖片、視頻、文檔等。
元搜索模型解決了傳統(tǒng)搜索引擎搜索結(jié)果不足的問題,使之更為全面,如果元搜索引擎對(duì)一個(gè)關(guān)鍵詞檢索到了若干個(gè)相同或相似的信息,則說明該信息對(duì)于用戶輸入的關(guān)鍵詞最為有用,相關(guān)度最高。相反地,元搜索模型會(huì)帶來更多的網(wǎng)頁噪音,對(duì)于網(wǎng)頁去噪帶來更大的挑戰(zhàn)。元搜索模型有著很好的發(fā)展前景,通過對(duì)檢索的個(gè)性化設(shè)置和數(shù)據(jù)的整合優(yōu)化,給用戶提供大而全的信息,這可以為很多行業(yè)帶來方便。
1.2 工作原理
元搜索模型可以被看作是有著雙層C/S結(jié)構(gòu)的系統(tǒng)。元搜索引擎接收用戶發(fā)送的請(qǐng)求后,同時(shí)并行連接多個(gè)搜索引擎,向其發(fā)送實(shí)際的檢索條件,然后將各個(gè)搜索引擎返回的結(jié)果收集起來,做統(tǒng)一處理,最后顯示給用戶。元搜索模型的系統(tǒng)結(jié)構(gòu)包括檢索請(qǐng)求發(fā)送模塊、接口代理模塊以及檢索結(jié)果處理顯示模塊,以環(huán)形結(jié)構(gòu)相互順序連接。從搜索方式上可以分為詞語搜索、目錄搜索和高級(jí)搜索3種搜索方式。詞語搜索的對(duì)象是文本,可以是一個(gè)詞、詞組或是一句話,然后對(duì)其進(jìn)行分詞處理以及同義詞合并、關(guān)聯(lián)搜索。目錄搜索也被稱為“分類搜索”,用戶不需要輸入關(guān)鍵詞,而是通過搜索引擎提供的類別選擇不同的目錄進(jìn)行檢索。高級(jí)檢索也被稱為“定制檢索”,需要用戶輸入布爾邏輯匹配組來進(jìn)行檢索(見圖2)。
圖2 元搜索模型結(jié)構(gòu)圖Fig.2 Meta model structure
2.1 基本概念
垂直搜索模型是搜索引擎的一種表現(xiàn)形式,比較百度、Google等通用搜索引擎“大而全”的檢索方式,垂直搜索引擎的特點(diǎn)則是“小而精”,是一種專門為某一行業(yè)或工作設(shè)計(jì)的搜索引擎。垂直搜索引擎不能為用戶提供數(shù)以億計(jì)的檢索結(jié)構(gòu),而是提供匹配程度極高的精確數(shù)據(jù)。垂直搜索針對(duì)的用戶群體普遍穩(wěn)定性強(qiáng)、專業(yè)性強(qiáng),且具有一定的行業(yè)色彩。與通用的搜索引擎比較,最大的不同是垂直搜索引擎使用結(jié)構(gòu)化的信息抽取方法,將數(shù)據(jù)以結(jié)構(gòu)化的方式存儲(chǔ)到數(shù)據(jù)庫中。通用搜索引擎是以網(wǎng)頁或鏈接為最小單元,而垂直搜索引擎則是以結(jié)構(gòu)化數(shù)據(jù)為最小單元,這種方法的好處在于可以利用不同數(shù)據(jù)的特征對(duì)象進(jìn)行比較分析。
2.2 工作原理
以購物垂直搜索引擎為例,它的數(shù)據(jù)來源是網(wǎng)絡(luò)上各種各樣的購物網(wǎng)站,首先購物垂直搜索模型會(huì)對(duì)多個(gè)購物網(wǎng)站與該產(chǎn)品相同或相關(guān)的產(chǎn)品信息進(jìn)行檢索,按照結(jié)構(gòu)化的形式將數(shù)據(jù)保存到數(shù)據(jù)庫中,例如該產(chǎn)品的名稱、重量、產(chǎn)地、價(jià)格等參數(shù),最后對(duì)結(jié)構(gòu)化數(shù)據(jù)建立索引。當(dāng)用戶通過輸入關(guān)鍵詞對(duì)某一產(chǎn)品進(jìn)行檢索時(shí),購物垂直搜索引擎會(huì)從索引庫中根據(jù)關(guān)鍵詞提取數(shù)據(jù),然后返回給用戶。購物垂直搜索引擎不僅能對(duì)用戶輸入的信息進(jìn)行采集,還能將產(chǎn)品按照價(jià)格、規(guī)格、產(chǎn)地等參數(shù)信息進(jìn)行統(tǒng)計(jì)和比較,給用戶提供最佳的選擇方案,或者滿足用戶特定的檢索需求。這種搜索模式產(chǎn)出的檢索結(jié)果比通用搜索引擎的結(jié)果有更大的參考價(jià)值,同時(shí)也滿足了商家的促銷目的。
3.1 網(wǎng)頁信息采集策略
網(wǎng)頁信息采集主要使用網(wǎng)絡(luò)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲是使用某種策略對(duì)Web頁面信息進(jìn)行采集的程序,是搜索引擎中重要的組成部分(見圖3)。傳統(tǒng)的網(wǎng)絡(luò)爬蟲以一個(gè)或若干個(gè)URL作為初始節(jié)點(diǎn),然后將該URL頁面上的所有鏈接下載到服務(wù)器內(nèi),在爬蟲搜索的過程中,不斷地從當(dāng)前網(wǎng)頁上獲取新的URL,直到滿足一定的終止條件時(shí)停止抓取。實(shí)現(xiàn)網(wǎng)頁抓取主要有廣度優(yōu)先策略、深度優(yōu)先策略以及最佳優(yōu)先策略。
圖3 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)圖Fig.3 Web crawler structure
廣度優(yōu)先搜索策略(Breadth First Search)也被稱為寬度優(yōu)先搜索策略,是指在網(wǎng)頁抓取的過程中,在獲取當(dāng)前層次中的全部URL后,再進(jìn)行下一層次的搜索。該算法的目的是為了盡可能多地覆蓋網(wǎng)頁URL。聚焦爬蟲就是使用了這種搜索策略,其主要思想是與初始URL距離越近的網(wǎng)頁,與搜索的主題相關(guān)性就越大。此外還能與網(wǎng)頁過濾技術(shù)結(jié)合,首先使用廣度優(yōu)先策略對(duì)網(wǎng)頁進(jìn)行抓取,再過濾掉其中相關(guān)性較低的網(wǎng)頁。這些方法的缺點(diǎn)在于,隨著抓取URL數(shù)量的增多,將會(huì)下載并過濾大量不相關(guān)頁,結(jié)果降低了算法的效率。
深度優(yōu)先搜索策略(Depth First Search)是指從起始URL開始,獲取該URL中的其中一個(gè)鏈接,從這個(gè)鏈接進(jìn)入,分析這個(gè)網(wǎng)頁中的某一個(gè)URL,再選擇一個(gè)進(jìn)入。如此循環(huán)地抓取下去,直到完全處理一條URL路線上的鏈接后,再處理下一個(gè)URL。深度優(yōu)先搜索策略比較簡單易行,網(wǎng)絡(luò)爬蟲的初始網(wǎng)站往往具有較高的價(jià)值,網(wǎng)頁排名也很高,但每深入一層,網(wǎng)頁的價(jià)值和排名都會(huì)有一定比例的下降。這說明了重要網(wǎng)頁通常距離初始URL較近,非重要網(wǎng)頁與初始URL距離較遠(yuǎn)。同時(shí),深度優(yōu)先搜索策略直接影響了搜索的準(zhǔn)確度和搜索效率,這種缺點(diǎn)是致命的,所以相對(duì)于其他兩種搜索策略來說,這種搜索策略極少被用到實(shí)際需求中。
最佳優(yōu)先搜索策略(Best First Search)是指系統(tǒng)通過對(duì)URL的分析做出評(píng)價(jià),對(duì)評(píng)價(jià)值較高的URL進(jìn)行抓取,直接拋棄評(píng)價(jià)較低的URL,也就是說這種搜索策略只會(huì)抓取系統(tǒng)認(rèn)為有用的網(wǎng)頁。這種策略容易陷入局部最優(yōu)解,一旦某些有用的網(wǎng)頁存在于被過濾掉的URL路徑的后面節(jié)點(diǎn)中,搜索的精度就會(huì)下降。但是這種搜索策略可以過濾掉30%,~90%,的無關(guān)網(wǎng)頁,故在實(shí)際應(yīng)用中結(jié)合需求會(huì)對(duì)該算法進(jìn)行改進(jìn)。
3.2 并行抓取策略
為了提高信息采集的效率,需要使用多臺(tái)服務(wù)器進(jìn)行并行抓取,通用的搜索引擎如百度搜索引擎,至少使用上萬臺(tái)服務(wù)器進(jìn)行并行抓取,如何保證不同的服務(wù)器抓取的URL不同是并行抓取技術(shù)的關(guān)鍵點(diǎn)之一。通用搜索引擎通常采用哈希表或信息指紋排重法來解決重復(fù)URL的下載問題,在這之中需要網(wǎng)絡(luò)爬蟲系統(tǒng)配置一個(gè)專用的模塊來對(duì)龐大的服務(wù)器群進(jìn)行信息溝通,以避免服務(wù)器之間發(fā)生沖突。而使用元搜索模型或垂直搜索模型時(shí),往往不需要考慮服務(wù)器之間的通信問題,因?yàn)樵阉髂P秃痛怪彼阉髂P驮诤芏嗲闆r下只需要對(duì)某些搜索結(jié)果進(jìn)行抓取。例如對(duì)百度搜索引擎的結(jié)果進(jìn)行抓取時(shí),共有K臺(tái)服務(wù)器,每臺(tái)服務(wù)器的編號(hào)是Ki(i∈[1,k]),檢索結(jié)果共有M頁,則每臺(tái)服務(wù)器只需要抓取第到第頁即可。在不考慮服務(wù)器之間通信情況下,理論上網(wǎng)絡(luò)爬蟲的執(zhí)行效率會(huì)提高K倍(K為服務(wù)器數(shù)量)。
此外,每臺(tái)服務(wù)器在系統(tǒng)內(nèi)部也需要使用多線程控制模塊進(jìn)行加速,線程的數(shù)量依照服務(wù)器硬件水平、網(wǎng)絡(luò)帶寬以及即時(shí)網(wǎng)速而定。使用多線程技術(shù)可以有效地在網(wǎng)速范圍內(nèi)大大加快爬蟲執(zhí)行效率,但線程過多會(huì)導(dǎo)致系統(tǒng)將過多的資源分配在線程調(diào)度上,從而導(dǎo)致系統(tǒng)崩潰;而線程過少又是對(duì)系統(tǒng)資源和網(wǎng)絡(luò)資源的浪費(fèi)。
3.3 斷點(diǎn)續(xù)傳技術(shù)
對(duì)于網(wǎng)頁抓取技術(shù)而言,斷點(diǎn)續(xù)傳是實(shí)現(xiàn)爬蟲軟件的必要手段之一,顧名思義,斷點(diǎn)續(xù)傳就是當(dāng)爬蟲軟件遇到錯(cuò)誤、線路中斷或者遇到意外強(qiáng)制關(guān)閉后,下次開啟程序依然可以從上一個(gè)斷點(diǎn)處繼續(xù)運(yùn)行,這樣很大程度上減少了用戶的煩惱。如果一個(gè)爬蟲軟件不支持?jǐn)帱c(diǎn)續(xù)傳,那么這個(gè)爬蟲系統(tǒng)是非常不健全和不完整的。實(shí)現(xiàn)斷點(diǎn)續(xù)傳的方法很簡單,每當(dāng)程序執(zhí)行到一定程度,例如系統(tǒng)抓取了1,000條數(shù)據(jù)時(shí),系統(tǒng)就將當(dāng)前的參數(shù)保存到一個(gè)文件中,這個(gè)文件可以保存到本地也可以保存到服務(wù)器上,文件中需要寫入本次執(zhí)行的全部必要參數(shù),如檢索的關(guān)鍵詞、網(wǎng)址、開始檢索的頁數(shù)、當(dāng)前檢索到多少頁、檢索結(jié)果總頁數(shù)、輸出文件路徑等,每次寫斷點(diǎn)時(shí)更新這個(gè)文件,如果程序關(guān)閉,下次執(zhí)行時(shí)就先預(yù)讀這個(gè)斷點(diǎn)文件,然后從上次的斷點(diǎn)位置重新開始抓取。
一般的爬蟲軟件都設(shè)置有啟動(dòng)后自動(dòng)運(yùn)行斷點(diǎn)續(xù)傳數(shù)據(jù)的功能,并且啟動(dòng)后自動(dòng)托盤化或執(zhí)行后臺(tái)運(yùn)行程序,這樣配合斷點(diǎn)續(xù)傳功能就可以真正脫離人工干預(yù)實(shí)現(xiàn)自動(dòng)運(yùn)行了。
表1 布爾模型在文本表示中的樣例Tab.1 The sample of the Boolean model in text representation
評(píng)價(jià)文本聚類算法的標(biāo)準(zhǔn)有很多,從類型上來說可以分為外部度量法、內(nèi)部度量法和相對(duì)度量法。外部度量法是使用有監(jiān)督的評(píng)價(jià)方法,人工事先對(duì)文檔集合進(jìn)行標(biāo)注,即有文檔集合X={x1,x2,x3…xn},已知人工標(biāo)注的結(jié)果為{{x1,x3…},{x2,x4…},{xn-1},{xn}},對(duì)使用聚類算法進(jìn)行實(shí)際聚類后得到的結(jié)果再與人工標(biāo)注的方式進(jìn)行比對(duì)來評(píng)價(jià)。內(nèi)部度量是使用無監(jiān)督的評(píng)價(jià)方法,利用聚類后的文檔集合直接對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià),不需要人工干預(yù),例如通過計(jì)算每個(gè)簇的平均誤差等方法進(jìn)行評(píng)價(jià)。相對(duì)度量法是結(jié)合上述兩種方法對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià)。
聚類算法評(píng)價(jià)的指標(biāo)主要是依據(jù)簇內(nèi)相似度最大,簇間相似度最小的標(biāo)準(zhǔn)來評(píng)價(jià)以及利用人工標(biāo)注的結(jié)果作為參考。本文中主要使用主流的外部度量評(píng)價(jià)方法,下面介紹有關(guān)的幾種算法。
5.1 基于F值的評(píng)價(jià)方法
F-Measure[48]值采用準(zhǔn)確率和召回率的方法進(jìn)行評(píng)價(jià),把文檔的類別記作{A1,A2…An},把文檔經(jīng)過聚類后的結(jié)構(gòu)類別記作{B1,B2…Bm},那么對(duì)于每個(gè)初始類別Ai,找到一個(gè)與其具有最大公共子集的類別Bj,它們重復(fù)的序列數(shù)為K,則召回率為;準(zhǔn)確率為。如圖4所示,簇A為聚類之前進(jìn)行過人工標(biāo)注的一個(gè)類別,簇B是聚類后的一個(gè)類別,首先找到與簇B有最大交集的簇A,有,對(duì)于簇B的召回率為,準(zhǔn)確率為,整體的召回率與準(zhǔn)確率等于每個(gè)簇的平均值,即。召回率體現(xiàn)同一類別的元素被分到同一類別中的程度,準(zhǔn)確率體現(xiàn)不同類別的元素被分到不同類別的程度,F(xiàn)值是對(duì)準(zhǔn)確率和召回率的綜合評(píng)價(jià)指標(biāo),,由于準(zhǔn)確率和召回率是此消彼長的關(guān)系,因此一般取β=1,表示召回率和準(zhǔn)確率的比重相同(見圖4)。
圖4 準(zhǔn)確率與召回率計(jì)算示意圖Fig.4 Accuracy and recall rate calculation diagram
5.2 基于熵的評(píng)價(jià)方法
熵使用了內(nèi)部一致性的方法對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià),Ai表示人工標(biāo)注的簇,Bj表示聚類后的簇,Cj表示與Bj存在的最大公共子集,K表示人工標(biāo)注的簇個(gè)數(shù),M表示經(jīng)過聚類算法計(jì)算得出的簇個(gè)數(shù),則熵E的計(jì)算方法為:
5.3 Jaccard、Rand及FM系數(shù)法
與上面的方法類似,下面使用4種聚類結(jié)果與人工標(biāo)注的不同情況來進(jìn)行評(píng)價(jià)(見表2)。
表2 Jaccard、Rand及FM系數(shù)法的參數(shù)說明Tab.2 Jaccard,Rand,and the parameters of FM coefficient method
Jaccard系數(shù)法,又被稱為Jaccard相似性系數(shù),Jaccard系數(shù)等于樣本集交集與樣本集合集的比值:
Rand系數(shù)法體現(xiàn)了聚類結(jié)果與人工標(biāo)注的統(tǒng)一性的程度:
FM系數(shù)法考慮了兩種情況下正確聚類的簇所占的比重:
建設(shè)了覆蓋所有學(xué)科領(lǐng)域的科技詞庫,該項(xiàng)工作為人機(jī)結(jié)合智能情報(bào)工具的設(shè)計(jì)實(shí)現(xiàn)奠定了關(guān)鍵基礎(chǔ),是大數(shù)據(jù)時(shí)代和大科學(xué)時(shí)代科技情報(bào)工作的基石?!?/p>
[1] 夏寧霞,蘇一丹. 一種高效的K-medoids聚類算法[J]. 計(jì)算機(jī)應(yīng)用研究,2010,27(12):56-65.
[2] 周洪翠,莊新妍. 基于向量空間模型的文本信息表示[J]. 呼倫貝爾學(xué)院學(xué)報(bào),2011,6(1):35-44.
[3] 鄭彥寧. 我國科技情報(bào)行業(yè)創(chuàng)新發(fā)展的關(guān)鍵問題[J].情報(bào)學(xué)報(bào),2008,27(6):15-18.
Technical Analysis of Fast Aid System for Information Generation for Academic Subjects Based on Project Archives
LIU Nian1, ZHANG Luji2,ZHAO Yanyan3,CHEN Mo4
(1.Beijing Electronic Science and Technology Institute,Beijing 100070,China;2.Beijing Institute of Science and Technology Information,Beijing 100048,China;3.Datang Telecom Technology Co.,LTD.,Beijing 100094,China;4.Machinery Industry Information Institute,Beijing 100037,China)
The concept and features of informational intelligence were discussed from the aspects of intelligence research,information source and demand for analysis.It points out that the demand for simple statistical analysis cannot meet the demand of social decision now,and it needs to find potential models from a large number of information to guide the development of the future,which involves data mining and machine learning techniques.Today,there is no unified definition of intelligent technology in the circle of information research in foreign countries,but the nature can be summed up as quantification,calculability and repeatability.The above mentioned topic was discussed.
information mining;intelligence;algorithm
G27
A
1006-8945(2016)06-0043-04
本論文得到“北京市科技計(jì)劃項(xiàng)目”資助,項(xiàng)目名稱:數(shù)字科技檔案自動(dòng)化與利用服務(wù)系統(tǒng)設(shè)計(jì)研發(fā)(Z151100003215042)。
2016-05-12