楊 柳,仇順海
互聯(lián)網(wǎng)上存在的國(guó)外軍事特種醫(yī)學(xué)研究信息具有一定的保密性和時(shí)效性,采用簡(jiǎn)單搜索方式難以查取。因信息大多在深網(wǎng)中存在,采用人工跟蹤和捕獲的方式耗費(fèi)時(shí)間多,數(shù)據(jù)初加工的人力消耗大,不利于數(shù)據(jù)的長(zhǎng)期積累。
由于科研任務(wù)的需要,筆者在開(kāi)展網(wǎng)上特種醫(yī)學(xué)資源研究時(shí)接觸到大量處于網(wǎng)站深層結(jié)構(gòu)中的拒絕鏈接或未被鏈接的“孤島網(wǎng)頁(yè)”、動(dòng)態(tài)網(wǎng)頁(yè)等深網(wǎng)數(shù)據(jù)。這些網(wǎng)頁(yè)因隱藏的專(zhuān)業(yè)數(shù)據(jù)數(shù)量多,且發(fā)展速度快,成為重要的網(wǎng)絡(luò)數(shù)據(jù)來(lái)源。據(jù)統(tǒng)計(jì),大約一半的軍事醫(yī)學(xué)研究類(lèi)數(shù)據(jù)存在于主體明確的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,其中,部分隱蔽數(shù)據(jù)難以通過(guò)普通搜索引擎但可以通過(guò)相關(guān)技術(shù)手段追蹤獲?。?]。
由于深網(wǎng)數(shù)據(jù)數(shù)量多、鏈接層次深,利用傳統(tǒng)人工追蹤和獲取方式進(jìn)度慢,人力和物力消耗大,不利于深網(wǎng)信息的長(zhǎng)期提取。針對(duì)此特點(diǎn),筆者提出利用已較為成熟的計(jì)算機(jī)技術(shù)和信息技術(shù),研究適用于深網(wǎng)的信息抽取和索引方法,以形成對(duì)信息資源自動(dòng)捕獲的數(shù)據(jù)建構(gòu)模式。
筆者以實(shí)現(xiàn)深網(wǎng)信息自動(dòng)化獲取為研究目標(biāo),從面向深網(wǎng)資源的搜索提取方法、面向?qū)嶓w層Web的信息索引和分類(lèi)技術(shù)、面向用戶(hù)的信息檢索平臺(tái)建設(shè)3個(gè)技術(shù)層面展開(kāi)研究,有計(jì)劃地將大量無(wú)序的特色網(wǎng)絡(luò)資源實(shí)現(xiàn)自有化并得以快捷利用。
2.1 基于半監(jiān)督順序回歸模型的爬蟲(chóng)算法 在資源搜索方面,將搜索目標(biāo)設(shè)定為通常無(wú)法訂購(gòu)但軍事特種醫(yī)院特點(diǎn)鮮明的特色資源。通常,這些網(wǎng)絡(luò)資源都是以深網(wǎng)的方式存儲(chǔ),并且無(wú)法直接獲取。為此,筆者研究了面向深網(wǎng)的信息提取技術(shù),研究并實(shí)現(xiàn)了一種面向軍事特種醫(yī)院資源的基于半監(jiān)督順序回歸模型的快速爬蟲(chóng)算法[2]。
此算法主要包括以下3個(gè)步驟:首先,根據(jù)軍事特種醫(yī)院網(wǎng)站資源的特點(diǎn),利用半監(jiān)督順序回歸的方法構(gòu)造深網(wǎng)頁(yè)面分類(lèi)器,定義所需的主題相關(guān)的網(wǎng)頁(yè)分為N個(gè)不同的層次。此時(shí)層次的數(shù)量級(jí)根據(jù)所給定網(wǎng)站資源特點(diǎn)設(shè)定。一般情況下,N≤4。其次,構(gòu)造深網(wǎng)鏈接信息抽取器,抽取對(duì)應(yīng)N層次的有效鏈接。在提取這些鏈接信息時(shí),采用多線程的方法完成。最后,把深網(wǎng)頁(yè)面分類(lèi)器的分類(lèi)作為指導(dǎo),形成特征庫(kù),利用讓爬蟲(chóng)自動(dòng)提取滿(mǎn)足要求的鏈接特征,快速實(shí)時(shí)地找到各層有效鏈接。
對(duì)于爬行過(guò)程而言,筆者具體采用如下方法:在開(kāi)始爬行前,把預(yù)先定義的符合特種醫(yī)院資源信息的種子放入最低層的鏈接隊(duì)列中,鏈接信息提取器從深網(wǎng)頁(yè)面中抽取滿(mǎn)足特點(diǎn)規(guī)則的鏈接信息,包括鏈接的網(wǎng)址、頁(yè)面標(biāo)題,鏈接的錨屬性等信息,并同時(shí)交付鏈接特征學(xué)習(xí)器。在鏈接特征學(xué)習(xí)器中,筆者將采用深度機(jī)器學(xué)習(xí)方法,將這些特征進(jìn)行歸類(lèi)、分析。然后,按照上述方法,將所有N層隊(duì)列中的鏈接進(jìn)行爬行。對(duì)于同一層次的鏈接,根據(jù)預(yù)先定義的規(guī)則讓距離網(wǎng)站主頁(yè)近的鏈接先爬行。這樣,既可以爬行到最佳的鏈接,又保證讓所有的鏈接都被爬行到。系統(tǒng)運(yùn)行結(jié)果表明筆者提出的爬行策略能夠提取深網(wǎng)中有效鏈接的基本特征,并過(guò)濾掉無(wú)關(guān)鏈接,提高了爬蟲(chóng)的速度和準(zhǔn)確度。
2.2 面向?qū)嶓w層Web的信息索引技術(shù)[3]采用高效的爬蟲(chóng)技術(shù)從Deep Web上抽取出的軍事特種醫(yī)院特點(diǎn)鮮明的特色資源之后,將其存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)中。對(duì)于索引而言,由于軍事特種醫(yī)院信息的特色,其索引對(duì)象可表示為Web實(shí)體(Web Entity)。Web實(shí)體通常具有各種屬性,并由屬性進(jìn)行描述。如海軍信息、潛水艇實(shí)體,具有長(zhǎng)、寬、重量、下水深度等屬性,可以將軍事特種醫(yī)院信息劃歸為多種不同實(shí)體。
顯然,進(jìn)行實(shí)體搜索,索引的對(duì)象為實(shí)體而非頁(yè)面,其索引域?yàn)閷?shí)體的各個(gè)屬性。用戶(hù)進(jìn)行檢索時(shí),搜索器根據(jù)搜索關(guān)鍵字來(lái)查詢(xún)實(shí)體索引域,然后進(jìn)行綜合排序?;诖?,筆者提出了一種基于迭代和組合的信息抽取方法,實(shí)現(xiàn)Web實(shí)體的信息抽取及其索引建立[4]。圖1為整個(gè)基于迭代和組合的信息抽取和索引方法實(shí)現(xiàn)框架圖。為實(shí)現(xiàn)此信息抽取方法,首先生成簡(jiǎn)單的頁(yè)面索引。頁(yè)面層的索引技術(shù),主要采用基于關(guān)鍵字的倒排排序方法,然后再對(duì)其按實(shí)體關(guān)鍵屬性進(jìn)行分類(lèi)。其次,采用學(xué)習(xí)和深度搜索的方法抽取基本實(shí)體屬性信息。在該過(guò)程,首先利用基于反饋的條件隨機(jī)域模型來(lái)抽取實(shí)體的屬性信息,之后通過(guò)快速排序及其深度搜索方法窮盡搜索包含某些特定實(shí)例的所有頁(yè)面集。采用基于反饋的條件隨機(jī)域模型的基本思想是先從已有的實(shí)體集中構(gòu)造訓(xùn)練數(shù)據(jù)集,采用預(yù)先定義的規(guī)則對(duì)訓(xùn)練數(shù)據(jù)集中的頁(yè)面進(jìn)行有條件的標(biāo)注,然后進(jìn)行模型訓(xùn)練[5]。在訓(xùn)練中,筆者采用基于反饋的方式進(jìn)行,即通過(guò)已有的訓(xùn)練結(jié)果對(duì)訓(xùn)練模型進(jìn)行反饋,提高訓(xùn)練的速度和效率,最終使得抽取精度較高。最后,在迭代抽取和組合集成過(guò)程中,采用方法的基本原理是[6]:對(duì)所有的待抽取頁(yè)面集,進(jìn)行用戶(hù)交互定義的頁(yè)面快速分割,將頁(yè)面分割成多個(gè)不同的部分。然后,根據(jù)實(shí)體模型,對(duì)于還未抽取的相關(guān)實(shí)體屬性,采用上述的抽取方法進(jìn)行迭代抽取,并將抽取的數(shù)據(jù)結(jié)果集成在一起,最后構(gòu)成一個(gè)完整可信的信息實(shí)體。
圖1 基于迭代和組合的信息抽取和索引方法
2.3 面向用戶(hù)的分布式信息檢索平臺(tái)建設(shè) 在此分布式信息檢索平臺(tái)建設(shè)中,根據(jù)用戶(hù)的需求,采用上述相關(guān)關(guān)鍵技術(shù),設(shè)計(jì)了一個(gè)面向用戶(hù)的分布式信息檢索平臺(tái)。本平臺(tái)的后端服務(wù)器采用主從分布式架構(gòu),總體架構(gòu)如圖2所示。
本檢索平臺(tái)由3個(gè)主要部分構(gòu)成,分別為:總體控制服務(wù)器、半監(jiān)督順序回歸爬蟲(chóng)服務(wù)器和迭代與組合實(shí)體索引檢索服務(wù)器。其中,總體控制服務(wù)器主要負(fù)責(zé)整個(gè)爬蟲(chóng)系統(tǒng)的整體控制管理、各個(gè)服務(wù)器之間消息的發(fā)送、傳遞以及任務(wù)的分配等等;半監(jiān)督順序回歸爬蟲(chóng)服務(wù)器主要負(fù)責(zé)爬行深網(wǎng),下載軍事特種醫(yī)院信息網(wǎng)頁(yè),并抽取網(wǎng)頁(yè)中包含的各種實(shí)體信息;索引檢索服務(wù)器主要負(fù)責(zé)接收采集到的特種醫(yī)院軍事等實(shí)體信息,并以建立索引,為用戶(hù)提信息搜索等服務(wù)[7]。
圖2 分布式信息檢索平臺(tái)后端服務(wù)器
此外,為了保證系統(tǒng)運(yùn)行的可靠性,總體控制服務(wù)器和迭代與組合實(shí)體索引檢索服務(wù)器均采用了雙機(jī)熱備份的方式,以維護(hù)服務(wù)器和對(duì)應(yīng)的備用服務(wù)器之間數(shù)據(jù)的同步。本系統(tǒng)中的控制服務(wù)器是采用按用戶(hù)指定的靜態(tài)任務(wù)分配模式來(lái)進(jìn)行網(wǎng)頁(yè)采集,所以控制服務(wù)器和它的備用服務(wù)器之間的通信量不會(huì)太大,之間的數(shù)據(jù)同步壓力并不大,從而可以解決主從式分布爬蟲(chóng)系統(tǒng)中控制服務(wù)器的效率瓶頸問(wèn)題。
綜上所述,采用基于順序回歸模型的爬蟲(chóng)方法,跟蹤搜集獲取深網(wǎng)中不定期發(fā)布的各類(lèi)難以獲取的專(zhuān)業(yè)文獻(xiàn)信息,準(zhǔn)確度和時(shí)效性均高于利用人工進(jìn)行數(shù)據(jù)篩選的方式;采用基于迭代和組合的信息抽取和索引方法,結(jié)合面向軍事特種醫(yī)學(xué)學(xué)科的網(wǎng)絡(luò)實(shí)體信息分類(lèi)技術(shù),可以實(shí)現(xiàn)專(zhuān)業(yè)文獻(xiàn)分類(lèi)架構(gòu)及其專(zhuān)業(yè)分類(lèi)簡(jiǎn)表的構(gòu)建,獲取數(shù)據(jù)的基本屬性識(shí)別率達(dá)到85%以上。結(jié)合上述關(guān)鍵技術(shù),可有效提高構(gòu)建基于深網(wǎng)信息的軍事特種醫(yī)學(xué)全文數(shù)據(jù)信息檢索平臺(tái)的速度。
[1] 宋暉,張嶺,葉允明,等.基于標(biāo)記樹(shù)對(duì)象抽取技術(shù)的Hiddenweb獲取研究[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(23):9-12.
[2] 鄭冬冬,趙朋朋,崔志明.DeepWeb爬蟲(chóng)研究與設(shè)計(jì)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2005,45(51):1896-1902.
[3] Barbosa L,F(xiàn)reire J.An Adaptive Craw1er for Locating Hidden Web Entry Points[C].In Proeeedings of WWW,2007:441-450.
[4] 高嶺.Deepweb分類(lèi)搜索引擎關(guān)鍵技術(shù)研究[D].蘇州:蘇州大學(xué),2007.
[5] Panagiotis G Ipeirotis,Luis Gravano.C1assification-aware hiddenweb text Database se1ection[J].ACM TOIS,2008,26(2):1-48.
[6] Jayant M,David K,Lucja K.Goog1e's Deep-Web Craw1[C].In Proceedings of the VLDB,2008.
[7] 王娜,常珍珠.泛在網(wǎng)絡(luò)中信息資源管理的國(guó)內(nèi)外研究綜述[J].圖書(shū)館學(xué)研究,2014,14(1):13-18.