胡玲 李鵬 趙德平
摘要:隨著Internet深入發(fā)展,Web產生的信息迅速增長,使用專業(yè)搜索引擎進行信息查詢已經成為搜索引擎的發(fā)展趨勢。當前,鋼鐵行業(yè)作為我國傳統的制造業(yè)信息化程度發(fā)展也十分迅速,人們對鋼鐵行業(yè)的信息需求也越來越多,但是目前還沒有專門針對鋼鐵行業(yè)信息的專業(yè)的搜索引擎。本文根據現實需求提出了針對鋼鐵行業(yè)信息的專業(yè)搜索引擎設計方法。重點論述了專業(yè)搜索引擎如何進行信息采集,并提出了一種符合實際的針對鋼鐵行業(yè)信息的專業(yè)搜索引擎的設計方案。
關鍵詞:專業(yè)搜索;搜索引擎;鋼鐵行業(yè);信息;
中圖分類號:TP311.52 文獻標識碼 A 文章編號:1009-3044(2018)28-0224-03
當前我國鋼鐵企業(yè)和鋼鐵交易企業(yè)以及相關的第三方構建起來的鋼鐵信息平臺已經達到300多家,國內的鋼鐵信息平臺注冊用戶達到了64.8萬,鋼鐵電子商務鋼材銷售量占重點企業(yè)總銷售量的22.3%,占重點企業(yè)其余銷售量(鋼材直供量除外)的比例為35.1%[1-4]。但是這些建立起來的鋼鐵行業(yè)的網站和平臺大多數都沒有建立起來一條能夠進行綜合信息的有效查詢。同時通過通用的搜索引擎進行信息查詢返回的數據信息非常龐大,有許多的無用和不相關的信息。想要獲取鋼鐵行業(yè)的信息仍然非常困難。
隨著互聯網信息的快速增長以及信息的多方面發(fā)展,通用的搜索引擎需要收集的網頁數量越來越大。這種情況使得通用搜索引擎的工作量急劇增大,而且越來越不能滿足專業(yè)用戶的查詢需求。對于專業(yè)用戶來說,他們迫切需要一個能夠對數據進行細致分類、精確及時、全面更新的面向專業(yè)的搜索引擎,來獲得相關專業(yè)的資源信息。專業(yè)搜索引擎面向某個特定專業(yè)領域,這樣就能實現對該領域信息的全面收集和及時更新。通過建立面向鋼鐵行業(yè)信息搜索引擎可以為廣大的鋼鐵商業(yè)從業(yè)者、科研人員、管理部門和鋼鐵行業(yè)市場提供準確快速的鋼鐵商業(yè)信息,必將能進一步推動我國鋼鐵行業(yè)的信息化和互聯網化,同時構建鋼鐵行業(yè)的電子商務市場。當前的搜索引擎的相關技術已發(fā)展到了第四代,但是當前的搜索引擎關鍵技術大多是面向通用搜索引擎的,專業(yè)信息的檢索還沒有非常好的解決方法。本文在論述專業(yè)搜索引擎的基礎上,著重討論了專業(yè)信息的收集策略,提出了一個比較適合鋼鐵行業(yè)的專業(yè)搜索引擎設計方案。
1鋼鐵行業(yè)信息的內容及特點
1.1 信息內容
鋼鐵行業(yè)信息內容包括了各個地區(qū)的鋼鐵企業(yè)的信息、產品信息、生產產量和銷售信息等概況,同時還包括上游的一些鋼鐵礦石是相關信息,同時也還包括一些法律法規(guī)等以文件形式出現的內容,信息的主要表現形式有文本,表格和文獻等不同類型,也是所有與鋼鐵行業(yè)有關的綜合體。
1.2 鋼鐵行業(yè)信息的特點
1)內容復雜,范圍廣闊。鋼鐵行業(yè)信息涉及方方面面,地理范圍廣闊,內容形式多種多樣,格式不統一,極其復雜。
2)新技術新產品多,更新快。隨著鋼鐵行業(yè)的新技術的快速投入使用,產生很多新的信息。造成網絡信息更新嚴重滯后,更新不及時等問題。
3)利用廣泛、能重復應用。各種信息資源不僅可以給各級政府提供信息支持,也能夠為相關的鋼鐵企業(yè)和礦產企業(yè)提供信息服務,為本領域的專業(yè)學者等研究人員提供最新的行業(yè)動態(tài),也能夠給廣大的普通網絡用戶提供更好的信息參考。
4)信息收集困難、獲取代價高。鋼鐵行業(yè)的信息主要以人工或者半人工的方式進行收集,因此速度較慢,更新也慢,同時需要投入的人力物力比較多,這樣的成本高、代價大。
2 專業(yè)搜索引擎的發(fā)展概況
傳統的搜索引擎是互聯網上信息查詢重要工具。當前互聯網的信息量快速增長,同時信息向多維度發(fā)展,人們使用搜索引擎開始從怎樣查詢到需要的信息,轉換成怎樣才能快速、準確地找到有用信息上來。傳統的搜索引擎已經很難滿足專業(yè)用戶的需求,主要體現在如下兩個方面:
1)由于社會分工越來越細,不同專業(yè)領域的信息也越來越具體,信息的維度也越來越高?;ヂ摼W用戶在查詢信息時,通常需要得到的是一個專業(yè)領域內的信息,而不是把所有不相關領域信息一起呈現給用戶,讓用戶自己去分辨信息的領域。
2)傳統搜索引擎是無目的性地全互聯網的去收集信息,這樣對系統的軟件擴張性和硬件的穩(wěn)定性都是巨大的考驗。
面對這樣的情況,專業(yè)搜索引擎就應運而生并成為發(fā)展的新趨勢,同時也可以叫作主題搜索引擎、專用搜索引擎或者垂直搜索引擎。專用搜索引擎只是針對某個領域進行信息采集,這樣就可以加快索引的更新周期,通常1~2天能更新全部信息,甚至根據有效的算法可以在幾個小時內完成重要信息的快速更新。
當前專業(yè)搜索引擎正處于蓬勃發(fā)展的時期,已經有推出專業(yè)的搜索引擎平臺。Google公司的學術搜索,NEC公司的CiteSeer等都是使用比較廣泛的科學論文搜索平臺。國內的專業(yè)搜索引擎也有建設,賽迪公司的“IT羅盤”、中搜公司也推出了行業(yè)搜索平臺和房地產行業(yè)的“房老大”等。
但是目前面對鋼鐵行業(yè)的上下游產業(yè)和全領域的信息搜索引擎還沒有建立;因此急需建立起這樣一個專業(yè)搜索引擎平臺來實現對鋼鐵行業(yè)的信息全面處理,提升整個行業(yè)的信息化水平,融入互聯網發(fā)展浪潮中,提升行業(yè)的整體競爭力。
3鋼鐵行業(yè)專業(yè)搜索引擎的設計
鋼鐵行業(yè)專業(yè)搜索引擎應該提供與鋼鐵行業(yè)相關的信息而不是收集所有互聯網的網頁信息,因此需要制定與傳統搜索引擎有區(qū)別的信息采集技術才能滿足用戶的需求。在系統設計和實現的時候,主要考慮的就是專業(yè)信息采集方法,這個是專業(yè)搜索引擎和傳統搜索引擎最重要的區(qū)別[5]。專業(yè)搜索引擎的信息采集是通過專業(yè)的智能爬蟲(ProfessionalRobotCrawler)來完成,要完成這個工作也需要多種的輔助算法。本文介紹鋼鐵行業(yè)專業(yè)搜索引擎的總體設計方案,其中重點說明ProfessionalRobotCrawler的實現。在鋼鐵行業(yè)的專業(yè)搜索引擎中需要采用的是特征集首頁關聯、鏈接長度比較和預測頁面內容等技術,實現對鋼鐵行業(yè)的專業(yè)信息采集。在網頁內容信息提取方面,本文提出了鋼鐵行業(yè)專業(yè)詞典用于對行業(yè)特征信息的提取,同時還并提出一個基于網頁架構的簡潔高效的計算權值的方法。
3.1 系統架構
同傳統搜索引擎一樣,專業(yè)搜索引擎也是四部分組成的:信息收集模塊(Robot, Crawler)、索引模塊( Indexer)、檢索模塊(Retriever)和用戶接口模塊((Query)[6]。信息收集模塊負責從互聯網上收集網頁,對所有抓取的網頁進行判斷篩選并進行標記;索引模塊是從收集到的信息中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索模塊的功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,并能按用戶的查詢需求合理反饋信息;用戶接口模塊是提供用戶查詢的界面,并根據用戶的檢索關鍵詞,從信息庫中檢索出相關信息返回給用戶[7-8]。本文提出的鋼鐵行業(yè)的專業(yè)搜索引擎總體架構如圖1所示。
3. 2 關鍵技術
1)專業(yè)信息抓取技術
特征集首頁關聯算法可以使用是因為絕大部分網站中的首個網頁基本都包括了該網站的大部分內容,是網站的一個索引,對于大型的互聯網網站更是如此。
專業(yè)的信息抓取技術就是首先構建出鋼鐵行業(yè)的專業(yè)字典。在需要訪問一個全新站點的時候,對該站點首頁用鋼鐵行業(yè)專業(yè)字典的專業(yè)詞進行檢索匹配。如果首頁中沒有相關的匹配詞,就說明該網站不是鋼鐵行業(yè)的有關站點。系統就把該網站網址列入ProfessionalRobotCrawler禁止訪問的URL網址列表中,如果下次再訪問到該站點的網址就直接拋棄不再進行訪問抓取。因為特征集的首頁關聯方法能夠把非鋼鐵行業(yè)領域的網頁直接排除在訪問范圍外,極大地提高了ProfessionalRobotCrawler的網頁抓取速度和準確率。
2)預測頁面內容技術
ProfessionalRobotCrawler對一個頁面進行下載的時候,不是先把整個頁面都下載下來,而是先把網頁中的HTML中的HRAD部分下載下來,返回出網頁頭部信息,通過該信息進行分析做出下列判斷:1)該網頁是否是與鋼鐵行業(yè)相關的;2)網頁的最近的更新時間。如果網頁和鋼鐵行業(yè)沒有關系,就不處理拋棄,進入到下一個網址繼續(xù)處理;如果網頁上次下載以后到現在為止沒有進行更新,也不需要再進行下載。這樣系統就只會收集到與鋼鐵行業(yè)相關的同時也是上一次下載以后沒有更新的網頁來建立起索引。
3)Bloom過濾器去重
ProfessionalRobotCrawler執(zhí)行過程中,每次抓取到的一個鏈接都要判別它的重復性,當這個鏈接不是重復,進行下一步的解析操作,如果是重復,就丟棄這個鏈接,這樣就能夠減少重復的解析操作,加快系統的處理速度。本文就是使用Bloom過濾器對相關的鏈接進行去重操作。目前國內外也有許多研究者人員把這項技術應用到網頁去重中[9-12]。Bloom過濾器是由Bloom在1970年提出的一種多Hash函數映射的快速查找算法,通常應用在一些需要快速判斷某個元素是否屬于集合,這個算法有較好的時間和空間效率。該算法的描述如下:假設使用三個Hash函數對每個元素進行映射,這樣每個元素對應HashTable中的三個位置,
如果要查找[W]是否在HashTable中則仍舊利用三個哈希函數對其進行映射,當且僅當三個哈希函數映射的位置的標記都為1的時候,才表明[W]存在于集合中;但是由于HashTable中的每一個位由所有映射元素共享,[W]的三個映射位置可能分別被其他元素標記[13],具體過程如圖2所示。Bloom過濾器算法實現有許多開源代碼,本文參考部分開源代碼利用Java語言實現。當然Bloom過濾器也存在一些缺點,比如具有一定的誤判概率和刪除困難。不過在處理海量的網頁抓取過程,這樣的誤判概率是完全在接受范圍之內。
4)專業(yè)特征提取技術
目前搜索引擎技術和文本挖掘技術都是按照首先把需要處理的文本進行特征化,就使用能夠表達文本基本含義的文本特征集合或者向量來表示原來文本的意思。而特征提取技術就是使用向量空間模型處理信息查詢的關鍵技術。
本文提出的系統是為查詢鋼鐵行業(yè)的專業(yè)信息進行設計的,系統處理的目標就是一個專業(yè)領域的技術文檔,網頁內容中的特征項就是鋼鐵行業(yè)的專業(yè)詞語,在進行特征提取的時候就不需要對普通詞語進行分詞和詞頻統計。因此為了能夠顯著提供系統運行效率和分詞準確性,本系統就不再使用通用大型分詞算法對詞語進行分詞處理,而提出了專業(yè)詞典的概念來處理。系統針對專業(yè)搜索引擎平臺而構建出鋼鐵行業(yè)領域的專業(yè)詞典,就可以利用較少的專業(yè)詞匯全面地覆蓋鋼鐵行業(yè)信息,這樣詞匯量就會大量減少,可以顯著降低算法的時間和空間復雜度;系統在進行特征提取時,只會去匹配專業(yè)字典中有的詞匯,這樣就會大大降低向量空間的維度,從而能夠在保證準確提取特征值的情況下大幅度提高系統的整體運行效率。
本文采取兩個方法來進行專業(yè)詞典的更新:一個是根據鋼鐵行業(yè)的專家或者系統管理員不定期將鋼鐵行業(yè)的中出現的新詞語加入專業(yè)詞典中;二是建立一個全新的詞典庫,每次遇到一個新的詞語如果不在詞典庫中,就將這個詞收錄到新詞典庫中,同時記錄日期和賦予相應權值,在一定的時間范圍內如果一個新詞的權值達到了設定的閾值,就把這個詞加入專業(yè)詞典中,如果在設定的時間范圍內權值沒有任何改變或者變動很?。]有達到預定的閾值),就把這個詞從新詞庫中刪除掉,這樣就達到了更新專業(yè)詞典的目的。
4系統實現及結果分析
1)系統實現
本文系統算法使用Java 實現,版本為jdk1.8.0,操作系統為Windows 10 64位專業(yè)版,集成開發(fā)環(huán)境為MyEclipse 2016。系統實現主要包和類如圖3所示。其中,頂層的Crawler、Indexer、Retriever、Query分別用于專業(yè)信息抓取和提取、建立倒排索引、建立檢索和用戶查詢等核心功能。第二層次的ParaNounRcg用于進行專業(yè)詞匯識別,ResultOps用于對專業(yè)詞典識別結果進行進一步的分析處理,AnsjOps用于導入和更新與鋼鐵行業(yè)相關自定義詞典,這樣就可以顯著提高專業(yè)詞匯的識別率。
2)結果分析
由于目前沒有專門針對鋼鐵行業(yè)的搜索引擎,其他行業(yè)的專業(yè)搜索引擎也無法提供對鋼鐵行業(yè)信息搜索結果的驗證。因此,本文系統選擇與常見的中文綜合搜索引擎進行測試比較。
本文系統的專業(yè)搜索引擎是配備了鋼鐵行業(yè)的專業(yè)字典,在查全率方面具有顯著的提高。在隨機選擇1000個鋼鐵行業(yè)的關鍵詞搜索的情況下,與Google、百度等中文搜索引擎檢索結果的數量相比,平均高出約23.32%左右。測試結果如圖4所示。
本文系統利用Ajax技術能夠分析用戶行為,進而掌握用戶的搜索意圖,自動進行鋼鐵行業(yè)專業(yè)詞匯的匹配,同時利用Cookie 和 Session 技術對用戶進行標識并存放歷史搜索記錄,最終達到快速搜索匹配的效果。通過對1000個鋼鐵行業(yè)的隨機關鍵詞進行搜索,分別以搜索結果前15、30為例,能找到目標信息占搜索次數的比例為評價標準,本文系統的查準率明顯優(yōu)于其他傳統搜索18.72%左右。測試結果如圖5所示。
因此,經過測試比較結果顯示,本文系統在查全率和查準率等方面超過了傳統的綜合搜索引擎平均水平,在分類準確率及查全率方面明顯優(yōu)于傳統綜合搜索引擎。
5 結束語
通過提升企業(yè)信息化水平,走信息化道路是我國鋼鐵行業(yè)的必然選擇。本文利用專業(yè)搜索引擎的信息收集方案,通過使用專業(yè)信息抓取、預測頁面內容、Bloom過濾器去重和專業(yè)特征提取等關鍵技術結合起來,設計出了一個面向鋼鐵行業(yè)的專業(yè)搜索引擎,通過系統的實驗和測試,本文系統搜索結果明顯優(yōu)于傳統的綜合搜索引擎。下一步還需要完成的工作主要有:一是建立面向鋼鐵行業(yè)的圖片、音頻和視頻的信息搜索。二是對
多個主題詞的專用搜索引擎的實現。當然,本文還是存在一定局限性,一些算法是通過開源代碼實現,還有許多工作要在后續(xù)工作陸續(xù)展開。
參考文獻:
[1] 袁久柱.鋼鐵行業(yè)信息化建設現狀及前景展望[J].河北冶金,2017(07).
[2] 漆永新.鋼鐵信息化現狀及發(fā)展趨勢分析[J].中國制造業(yè)信息化.2011(16).
[3] 謝世誠.鋼鐵行業(yè)信息化現狀及發(fā)展趨勢[J].中國信息界制造,2011(1).
[4] 閆祥嶺.“互聯網+鋼鐵”成為中國鋼鐵產業(yè)發(fā)展新趨勢.建筑時報,2015年12月21日.
[5] 陳俊源,北大宏博.SQL SERVER 2000中文版建置與管理手冊[M].北京:.北京大學出版社, 2001.
[6] GUO A,YANG T.Research and improvement of featurewords weight based on TFIDF algorithm[C] IEEE.Pro-ceedings of IEEE Information Technology,Networking,Electronic and Automation Control Conference. New York:IEEE Pubhcafions,2016:415-419.
【通聯編輯:光文玲】