突破俄語搜索引擎蜘蛛檢索封鎖的研究

2016-02-22 11:53:08陳龍仁

科技視界 2016年4期

陳龍仁

【摘要】“突破俄語搜索引擎蜘蛛檢索封鎖”對國內(nèi)企業(yè)有更多的機會將產(chǎn)品銷售到獨聯(lián)體的各個國家和地區(qū)，有非常重要的歷史意義。本文結(jié)合中俄兩種文化文字的互譯技術(shù)，設(shè)計符合中國企業(yè)習(xí)慣的搜索引擎系統(tǒng)，重點分析了“蜘蛛”和“目錄搜索”的核心技術(shù)，面對主要技術(shù)障礙，提出了系統(tǒng)平臺解決方案。

【關(guān)鍵詞】搜索；引擎；蜘蛛；俄語

0 引言

為加強中國企業(yè)在獨聯(lián)體市場當(dāng)中的競爭力，增加其產(chǎn)品的附加值。加強對獨聯(lián)體各國的信息渠道建設(shè)，加大開放本國的國門，建設(shè)此“突破俄語搜索引擎蜘蛛檢索封鎖”具有非常重要的歷史意義。

1 俄語系引擎分析

目前，電子商務(wù)由于缺乏編碼方案來解決中俄這兩種不同語言體系的協(xié)調(diào)問題，一直以來，在計算機語言中標(biāo)識困難，導(dǎo)致中國的商品基本上通過歐美、日、韓等國家轉(zhuǎn)銷至俄語世界，原因是中國用戶不能通過搜索引擎，直接通往俄語國家的信息交流通道[1]。UTF-8 編碼接軌較早。為了通過網(wǎng)絡(luò)技術(shù)，給中俄企業(yè)溝通、交流、發(fā)布及獲取信息提供直接的渠道，雙方需要有設(shè)計全新的編碼模型方案解決中俄這兩種不同語言體系在計算機語言中表示的問題，首要解決的，就是搜索引擎的標(biāo)準(zhǔn)問題。

俄語Yandex成立于1997年，提供搜索引擎、主題分類目錄、免費郵件系統(tǒng)、新聞、反垃圾系統(tǒng)、虛擬主機、百科全書、詞典、比較購物系統(tǒng)等服務(wù)，同樣有競價和合作聯(lián)盟。對于能利用文獻進行研究的學(xué)者來說，這些Yandex資源所提供的電子資源中的文獻，研究者可以利用其中的俄文文獻進行相關(guān)研究，利用Yandex本身提供的資源進行互證；另一方而還可以利用文獻進行佐證。按照Yandex的技術(shù)風(fēng)格和運作習(xí)慣，不能更有利于中國企業(yè)參與當(dāng)?shù)氐氖袌龈偁?。如何讓俄語詞性變化，更加適應(yīng)中國用戶，需要開發(fā)一種新的搜索引擎系統(tǒng)，任務(wù)是十分急迫的。

中文和俄語分別是世界上最復(fù)雜的語言之一，中文的特點在于獨特的文字形式，詞與詞之間沒有明顯的分隔；而俄語最大的特點就是單詞形式多變，詞多義現(xiàn)象非常普遍，這些特點使得查詢搜索異常困難，但同時也正是因為百度與Yandex都很好地把握了本土語言的特點，保證了搜索的高效性和結(jié)果的微準(zhǔn)確性[2]。

2 搜索引擎設(shè)計

中俄文搜索引擎，要收集因特網(wǎng)上幾千萬到幾十億個中俄文字網(wǎng)頁，并對網(wǎng)頁中的每一個詞（即關(guān)鍵詞）進行索引，建立索引數(shù)據(jù)庫的全文搜索引擎，不能適應(yīng)中文用戶的習(xí)慣。當(dāng)用戶查找某個關(guān)鍵詞的時候，所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來，根據(jù)預(yù)定的優(yōu)選規(guī)則，排列相應(yīng)的名次。

百度與Yandex搜索引擎都屬于本土化搜索引擎，而Yandex同時兼有門戶網(wǎng)站的功能。兩者有一個很明顯的共同點，就是它們都充分體現(xiàn)出本土化語言特點，比較符合本土用戶的搜索習(xí)慣。在該搜索引擎的后臺模塊中，收集的信息一般是能表明網(wǎng)站內(nèi)容（包括網(wǎng)頁本身、網(wǎng)頁的URL地址、構(gòu)成網(wǎng)頁的代碼以及進出網(wǎng)頁的連接）的關(guān)鍵詞或者短語，俄方服務(wù)器沒有中文字庫，需在俄方服務(wù)器設(shè)備中嵌入中俄兩國的標(biāo)準(zhǔn)字符庫，從而避免在境外使用出現(xiàn)的文字亂碼現(xiàn)象[3]，索引存放到數(shù)據(jù)庫中。

本項目搜索引擎的系統(tǒng)架構(gòu)和運行方式吸收了信息檢索系統(tǒng)設(shè)計中許多有價值的經(jīng)驗，也針對萬維網(wǎng)數(shù)據(jù)和用戶的特點進行了許多修改[4]，其核心的文檔處理和查詢處理過程與傳統(tǒng)信息檢索系統(tǒng)的運行原理基本類似，但其所處理的數(shù)據(jù)對象即萬維網(wǎng)數(shù)據(jù)的繁雜特性決定了搜索引擎系統(tǒng)必須進行系統(tǒng)結(jié)構(gòu)的調(diào)整，以適應(yīng)處理數(shù)據(jù)和用戶查詢的需要。中俄雙方頁面在異域的運行速度非常慢，為實現(xiàn)雙方文字在應(yīng)用終端準(zhǔn)確、實時的顯現(xiàn)，中俄雙方專家擬采用架設(shè)鏡像服務(wù)器（Mirror server）的方式，完成主服務(wù)器數(shù)據(jù)定時備份至鏡像服務(wù)器，從而分擔(dān)主機的負(fù)載。

2.1 信息抓取方案

搜索引擎系統(tǒng)設(shè)計了一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序，這個程序通常稱之為“蜘蛛”。搜索蜘蛛從已知的數(shù)據(jù)頁出發(fā)，就像正常用戶的瀏覽器一樣，抓取文件，符合中俄網(wǎng)絡(luò)語言編碼接口軟件編制，會跟蹤鏈接，自動訪問更多的網(wǎng)頁（爬行）。搜索引擎蜘蛛是24小時不停頓的。跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛發(fā)現(xiàn)新網(wǎng)址的最基本的方法，搜索蜘蛛遇到的新網(wǎng)址，會被存入任務(wù)數(shù)據(jù)庫，百隊等待抓取，抓取的優(yōu)先次序策略，是核心技術(shù)。

（1）深度優(yōu)先策略。深度優(yōu)先就是搜索引擎蜘蛛在一個頁面發(fā)現(xiàn)一個連接然后順著這個連接爬下去，然后在下一個頁面又發(fā)現(xiàn)一個連接，然后就又爬下去并且全部抓取。假如，網(wǎng)頁A在搜索引擎中的權(quán)威度是最高的，D網(wǎng)頁的權(quán)威是最低的。如果搜索引擎蜘蛛按照深度優(yōu)先的策略來抓取網(wǎng)頁，那么就會反過來了，就是D網(wǎng)頁的權(quán)威度變?yōu)樽罡摺?/p>

（2）寬度優(yōu)先策略。寬度優(yōu)先就是搜索引擎蜘蛛先把整個頁面的鏈接全部抓取一次，然后在抓取下一個頁面的全部鏈接。寬度優(yōu)先就是大家平時所說的扁平化結(jié)構(gòu)。網(wǎng)頁的層度不能太多，如果太多會導(dǎo)致收錄很難，其實就是搜索引擎蜘蛛的寬度優(yōu)先策略的原因。

（3）權(quán)重優(yōu)先策略

如果說寬度優(yōu)先比深度優(yōu)先好，其實也不是絕對的，只能說是各有各的好處。本項目搜索引擎蜘蛛是兩種抓取策略一起用，也就是深度優(yōu)先+寬度優(yōu)先，并且在使用這兩種策略抓取的時候，要參照這條連接的權(quán)重，如果說這條連接的權(quán)重較高，那么就采用深度優(yōu)先，如果說這條連接的權(quán)重很低，那么就采用寬度優(yōu)先。

（4）重訪抓取策略

昨天搜索引擎的蜘蛛來抓取的網(wǎng)頁，今天這個網(wǎng)頁又加了新的內(nèi)容，那么搜索引擎蜘蛛今天優(yōu)先來抓取新的內(nèi)容，這就是重訪抓取。重訪抓取分為兩類：1.全部重訪：所謂全部重訪指的是蜘蛛上次抓取的鏈接，然后在這一個月的某一天，全部重新去訪問抓取一次。2.單個重訪：單個重訪一般都是針對某個頁面更新的頻率比較快比較穩(wěn)定的頁面。在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種[5]。一種是定期搜索，即每隔一段時間（比如Google一般是28天，yandex 為30天），搜索引擎主動派出“蜘蛛”程序，對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址，它在一定時間內(nèi)（2天到數(shù)月不等）定期向你的網(wǎng)站派出“蜘蛛”程序，掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫，以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化，主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫，因此目前最好的辦法是多獲得一些外部鏈接，讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。例如：一個頁面，1個月也不更新一次，搜索引擎蜘蛛第一天來了，是這個樣子，第二天，還是這個樣子，那么，第三天搜索引擎蜘蛛就不會來了，會隔一段時間在來一次，比如隔1個月再來一次，或者等全部重訪的時候，才更新一次。

蜘蛛在抓取網(wǎng)頁時往往選擇離它最近的服務(wù)器、最近的網(wǎng)站進行抓取、分析、收錄。在本系統(tǒng)中，我們在俄羅斯建立主網(wǎng)站，就是考慮到Y(jié)ANDEX 的工作原理和抓取習(xí)慣。YANDEX為俄羅斯最大的搜索引擎，成立于1997年，現(xiàn)在已發(fā)展成為俄羅斯使用率最高、最流行、廣告服務(wù)最專業(yè)的搜索引擎，是獨聯(lián)體及東歐地區(qū)最普及的搜索引擎。目前YANDEX在俄羅斯搜索引擎市場份額占比為67%，目前日訪問量達(dá)到5000萬人次。由于本系統(tǒng)俄語網(wǎng)站全部翻譯、設(shè)計、制作、SEO優(yōu)化、關(guān)鍵詞擺放全部由俄羅斯美格公司來存儲，更適合YANDEX的抓取習(xí)慣，有利于YANDEX更快、更完速的收錄網(wǎng)站，從而使網(wǎng)站在搜索引擎中排名更靠前，打破了擎蜘蛛檢索默認(rèn)技術(shù)。

2.2 索引方案

頁面文件的分解、分析，并以巨大表格的形式存入數(shù)據(jù)庫，這個過程需要合理的索引（index）技術(shù)來管理數(shù)據(jù)庫。網(wǎng)頁文字內(nèi)容，關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。

（1）搜索詞提取。用戶在搜索引擎界面輸入關(guān)鍵詞，單擊“搜索”按鈕后，搜索引擎程序即對搜索詞進行處理。如特有的分詞處理，去除停止詞，判斷是否需要啟動整合搜索，判斷是否有拼寫錯誤或錯別字等情況，搜索詞的處理必須十分快速[6]。

（2）排序

對搜索詞處理后，搜索引擎程序便開始工作，從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁，并且根據(jù)排名算法計算出哪些網(wǎng)頁應(yīng)該排在前面，然后按照一定格式返回到“搜索”頁面。沒有基于搜索詞的搜索引擎優(yōu)化，搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。

（3）核心數(shù)據(jù)結(jié)構(gòu)

搜索引擎的核心數(shù)據(jù)結(jié)構(gòu)為倒排文件（也稱倒排索引），倒排索引是指用記錄的非主屬性值（也叫副鍵）來查找記錄而組織的文件叫倒排文件，即次索引。倒排文件中包括了所有副鍵值，并列出了與之有關(guān)的所有記錄主鍵值，主要用于復(fù)雜查詢。與傳統(tǒng)的SQL查詢不同，在搜索引擎收集完數(shù)據(jù)的預(yù)處理階段，搜索引擎往往需要一種高效的數(shù)據(jù)結(jié)構(gòu)來對外提供檢索服務(wù)。而現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)就是“倒排文件”。倒排文件簡單一點可以定義為“用文檔的關(guān)鍵詞作為索引，文檔作為索引目標(biāo)的一種結(jié)構(gòu)（類似于普通書籍中，索引是關(guān)鍵詞，書的頁面是索引目標(biāo)）。

（4）目錄索引

目錄索引，顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中，建立中俄貿(mào)易交流雙語平臺。在查詢信息時，可選擇關(guān)鍵詞搜索，也可按分類目錄逐層查找。與全文搜索引擎相比，目錄索引有許多不同之處。首先，搜索引擎屬于自動網(wǎng)站檢索，而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后，目錄編輯人員會親自瀏覽你的網(wǎng)站，然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象，決定是否接納你的網(wǎng)站。如果審核通過，你網(wǎng)頁才會出現(xiàn)于搜索引擎中，否則不會顯示。搜索引擎收錄俄文網(wǎng)站時，只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則，一般都能登錄成功，而目錄索引對網(wǎng)站的要求則高得多，有時即使登錄多次也不一定成功。

目錄索引時則必須將網(wǎng)站放在一個最合適的目錄。搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的，用戶擁有更多的自主權(quán)，而目錄索引則要求必須手工另外填寫網(wǎng)站信息，而且還有各種各樣的限制。如果系統(tǒng)認(rèn)為目標(biāo)網(wǎng)站的目錄、網(wǎng)站信息不合適，可以隨時對其進行調(diào)整。按關(guān)鍵詞搜索，返回的結(jié)果根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站，其中人為因素要多一些。如果按分層目錄搜索，網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定。

3 總結(jié)

面向俄語市場的國際營銷服務(wù)的搜索引擎平臺將能成為一條新的網(wǎng)絡(luò)“絲綢之路”。中國企業(yè)界急需一個更好、更快捷的“搜索引擎”進入獨聯(lián)體國家，了解獨聯(lián)體國家日益豐富的物質(zhì)需求，進入獨聯(lián)體國家的千家萬戶，打開他們的市場，擴大他們的市場，讓中國企業(yè)的品牌能夠在獨聯(lián)體國家深入人心。俄語系國家也迫切需要一個兼顧中國文化的搜索引擎，來解決國內(nèi)日益飽和的生產(chǎn)加工能力，擴大對外貿(mào)易額度，促進本土技術(shù)進步。

實施過程中，分別委托兩國有資質(zhì)的技術(shù)監(jiān)測部門，利用測試工具按照中俄文本互譯方案，根據(jù)需要編寫，測試并投入使用。中俄網(wǎng)絡(luò)語言編碼接口軟件，填補了中俄互譯搜索技術(shù)空白，實現(xiàn)GB2312與UTF-8網(wǎng)絡(luò)語言編碼腳本的無縫隙、無差異、無時間間隔實時自動轉(zhuǎn)換。配備相應(yīng)的軟件工具，并成立專門技術(shù)小組，設(shè)計和維護測試系統(tǒng)，妥善保存測試用例、測試計劃、測試報告和最終分析報告，以備測試及維護之用。

【參考文獻】

[1]張冬楊.俄羅斯信息技術(shù)產(chǎn)業(yè)現(xiàn)狀及發(fā)展趨勢[J].歐亞經(jīng)濟，2015，02：68-82+128.

[2]顏素莉.主流中俄文搜索引擎核心技術(shù)分析與比較研究[J].計算機時代，2012， 01：3-4+7.

[3]武斌.面向俄文信息處理的機器翻譯實驗研究[D].中國人民解放軍外國語學(xué)院，2007.

[4]任俊革，劉曉坤.網(wǎng)絡(luò)環(huán)境下獲取期刊原文的途徑及難點解決方案[J].圖書館學(xué)刊，2010，05：55-57.

[5]王寒松.計算機俄文視窗操作系統(tǒng)詞語研究[D].黑龍江大學(xué)，2002.

[6]周國長，呂瑞林.俄語互聯(lián)網(wǎng)有關(guān)俄國史研究的資源綜述[J].俄羅斯學(xué)刊，2014，03：86-92.

[責(zé)任編輯：楊玉潔]

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

突破俄語搜索引擎蜘蛛檢索封鎖的研究