卞華文
DOI:10.16661/j.cnki.1672-3791.2015.36.056
摘 要:網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,使人們對信息的接收方式發(fā)生了翻天覆地的變化。搜索引擎已經(jīng)成為人們查詢信息的主要方式。同時對于查詢的速度,準(zhǔn)確率提出了更高的要求。由此各種針對某一行業(yè)的垂直搜索引擎為此應(yīng)運而生。目前面向教育的垂直搜索引擎已經(jīng)有了很大的發(fā)展。但是針對中等職業(yè)教育的垂直搜索引擎還很少。該文通過對垂直搜索引擎的核心技術(shù)分析、研究,設(shè)計了面向中等職業(yè)教育的垂直搜索引擎的系統(tǒng)結(jié)構(gòu),并對其中涉及的關(guān)鍵技術(shù):Web搜集器、信息抽取技術(shù)、中文分詞和檢索技術(shù)進(jìn)行了深入研究,期望對推進(jìn)該領(lǐng)域的技術(shù)發(fā)展作出一定的貢獻(xiàn)。
關(guān)鍵詞:中等職業(yè)教育 垂直搜索引擎 網(wǎng)絡(luò)爬蟲
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2015)12(c)-0056-02
1 緒論
1.1 概述
目前我們的社會已經(jīng)進(jìn)入高度信息化時代,人們對獲取信息的方式發(fā)生了根本性的變化,我們學(xué)習(xí)的途徑不再局限于課堂和書籍,而是越來越多地通過互聯(lián)網(wǎng)來找到我們所需要的信息。那么為了能夠更快更好地獲取互聯(lián)網(wǎng)上的資源,那么搜索引擎技術(shù)就應(yīng)運而生了,搜索引擎(雅虎、百度、Google)能夠使人們快速地搜索網(wǎng)絡(luò)上我們需要的相關(guān)信息。但是,獲得的信息也是非常龐大和分散的,而且其中包含了許多與我們查詢主題無關(guān)的內(nèi)容,需要浪費用戶大量的時間和精力來加以區(qū)別。垂直搜索引擎技術(shù)的產(chǎn)生就是為了解決通用搜索引擎專業(yè)性不夠、集中度不高的問題,大大地提高了搜索的速度和精確度。而隨著我國執(zhí)行大力發(fā)展中等職業(yè)教育的政策,教育資源不足嚴(yán)重地制約著中等職業(yè)教育質(zhì)量的提高[1]。目前面向普通教育資源的垂直搜索引擎發(fā)展的也很迅速,但是對于專門面向中等職業(yè)教育的垂直搜索引擎仍然嚴(yán)重不足。目前我們國家對于中等職業(yè)教育非常重視,投入的力度也很大,對于計算機(jī)和網(wǎng)絡(luò)的硬件條件已經(jīng)完全具備在中等職業(yè)學(xué)校建立輔助教學(xué)的信息檢索平臺。
1.2 國內(nèi)外研究現(xiàn)狀分析
通用搜索引擎從誕生到現(xiàn)在已經(jīng)經(jīng)歷了十余年的發(fā)展,目前已經(jīng)廣泛應(yīng)用于互聯(lián)網(wǎng),成為人們搜索互聯(lián)網(wǎng)資源必不可少的工具,實際上,搜索引擎的出現(xiàn)是個必然,因為隨著網(wǎng)絡(luò)資源的幾何級別的增長,同時網(wǎng)絡(luò)傳播的速度大大超出了人們的想象,互聯(lián)網(wǎng)行業(yè)的應(yīng)用已經(jīng)滲透到人類生活的方方面面。搜索引擎就像茫茫大海中燈塔一樣指引著人們在互聯(lián)網(wǎng)中遨游。
搜索引擎的發(fā)展經(jīng)歷了幾個重要的歷史時期:最開始出現(xiàn)的搜索引擎只是檢索FTP上邊的文件;隨后的搜索引擎開始收錄網(wǎng)絡(luò)地址;搜索引擎開始收錄標(biāo)題;目前的搜索引擎,已經(jīng)開始抓取網(wǎng)頁全文了。
1.3 面向教育的搜索引擎的發(fā)展現(xiàn)狀
目前流行的通用搜索引擎其工作原理及核心代碼是不對外公開的,其產(chǎn)生查詢結(jié)果的排序方法也被視為商業(yè)機(jī)密。甚至有人質(zhì)疑由于商業(yè)利益的關(guān)系對查詢結(jié)果的排序造成了扭曲。面向教育的垂直搜索引擎的研究有很多的文章,但未對教育搜索引擎框架和核心給出詳細(xì)的描述。這使得開發(fā)教育搜索引擎成為教育技術(shù)領(lǐng)域一項困難的任務(wù)。為此該文結(jié)合教育領(lǐng)域特征和搜索需求的多樣化研究對面向教育的垂直搜索引擎框架及其關(guān)鍵技術(shù)進(jìn)行了深入地探討和研究。
1.4 面向中等職業(yè)教育的垂直搜索引擎發(fā)展現(xiàn)狀
面向中等職業(yè)學(xué)校的垂直搜索引擎的研究目前嚴(yán)重不足。對于垂直搜索引擎來說專業(yè)性越強(qiáng)其搜索的效果越好,由于我國的經(jīng)濟(jì)形勢的發(fā)展,各種產(chǎn)業(yè)不斷升級,社會需要大量具有合格工作技能的專業(yè)人才,國家對于中等職業(yè)教育越來越重視,投入也越來越大,甚至達(dá)到了職業(yè)教育與義務(wù)教育同等重要的地位。
2 垂直搜索引擎技術(shù)分析
垂直搜索引擎系統(tǒng)由4部分組成:信息采集(Crawler)、分析、索引(Indexer)和查詢(Query)。信息采集模塊負(fù)責(zé)在互聯(lián)網(wǎng)上查找網(wǎng)頁信息,并對所采集的網(wǎng)頁內(nèi)容進(jìn)行解析、過濾、分詞處理;索引模塊對采集到的信息分析之后進(jìn)行倒排序的方式存放到索引數(shù)據(jù)庫中;查詢模塊根據(jù)用戶輸入的關(guān)鍵詞,從索引數(shù)據(jù)庫中找到相關(guān)的網(wǎng)頁,并根據(jù)相關(guān)度排序?qū)⒕W(wǎng)址和網(wǎng)頁摘要反饋給用戶。
2.1 信息采集模塊
搜索引擎采集網(wǎng)頁通常采用網(wǎng)絡(luò)爬蟲(Spider)[2]方式。通過它可以生成以用戶輸入的關(guān)鍵詞為依據(jù)排序的URL及摘要的索引數(shù)據(jù)庫,它的工作原理是從初始URL開始不斷抓取URL。這些URL信息集成一個URL隊列,一直到不滿足查詢條件為止。通過分析過濾掉不相關(guān)的網(wǎng)頁鏈接,將有用的網(wǎng)頁鏈接放到URL隊列中,并在URL隊列中找到后面要抓取的網(wǎng)頁。最后將抓取的URL和摘要按相關(guān)度的順序保存到索引數(shù)據(jù)庫中,用于后面的索引和查詢。
2.2 信息的分析模塊
目前互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量呈幾何級別的增長,如何從浩如煙海的網(wǎng)絡(luò)中抓取用戶需要的信息,過濾掉無關(guān)的網(wǎng)頁需要建立一個判定的規(guī)則。通用搜索引擎是不進(jìn)行主題相關(guān)性判定的,造成抓取的網(wǎng)頁數(shù)量龐大且分散。由于垂直搜索具地專業(yè)特性、精確度高、深度大的特點,要對信息采集模塊采集到的網(wǎng)頁進(jìn)行主題相關(guān)度的判定。使其能夠盡量地抓取高度相關(guān)的網(wǎng)頁,這樣提高了搜索的精確度和搜索的速度。同時還要制定一定的策略來解決網(wǎng)頁重復(fù)和網(wǎng)頁內(nèi)容變化的問題。
2.3 信息索引模塊
信息采集模塊抓取的網(wǎng)頁,保存在一個結(jié)構(gòu)化的數(shù)據(jù)庫中,按照類型進(jìn)行排列建立索引數(shù)據(jù)庫以便進(jìn)行快速檢索。通用搜索引擎抓取的網(wǎng)頁龐雜、分散,因此不能進(jìn)行全文檢索,垂直搜索引擎因為是針對某一特定領(lǐng)域或某一特定人群,因此支持進(jìn)行全文檢索。使其具有相比于通用搜索引擎搜索深度大的優(yōu)點。
2.4 用戶界面
用戶輸入和輸出的接口,現(xiàn)在通常使用Ajax技術(shù)來設(shè)計用戶使用的界面。利用Lucene全文檢索工具根據(jù)用戶輸入的關(guān)鍵詞將索引的相關(guān)網(wǎng)頁以列表的形式反饋給用戶。
3 面向中等職業(yè)教育的垂直搜索引擎的分析和研究
3.1 中等職業(yè)教育的特點
中等職業(yè)教育具不同于普通教育的特殊性,簡單的說有些類似于高等教育與義務(wù)制普通教育的結(jié)合體。既有高等教育按專業(yè)分類的特點,又有普通教育課程分配的特點。要求的知識內(nèi)容和技術(shù)水平接近于高中教育水平。雖然中等職業(yè)教育是以培養(yǎng)專業(yè)技術(shù)型人才為目標(biāo),但同時也要兼顧文化素養(yǎng)和德智體美全面發(fā)展。即不僅要學(xué)好專業(yè)課程和專業(yè)相關(guān)領(lǐng)域知識,同時也要加強(qiáng)文化課程的學(xué)習(xí)。
3.2 構(gòu)建面向中等職業(yè)教育資源的垂直搜索引擎框架
根據(jù)我國中等職業(yè)教育的自身特點,搜索引擎框架從下面幾個角度來設(shè)計,分別為專業(yè)課程、文化課程、技能鑒定和實習(xí)就業(yè)4個部分。學(xué)生可以根據(jù)自己在學(xué)習(xí)當(dāng)中的需要,有針對性地查詢自己所想要的信息。
3.3 各個子系統(tǒng)的設(shè)計
信息采集系統(tǒng)的設(shè)計:網(wǎng)絡(luò)爬蟲的工作步驟。首先蜘蛛搜索網(wǎng)站首頁的根網(wǎng)址,保存到待抓取的地址列表中,若地址列表不為空就判斷是否曾經(jīng)訪問過該地址,假如此網(wǎng)頁沒有被訪問過就讀取網(wǎng)頁內(nèi)容,并對讀取的網(wǎng)頁內(nèi)容進(jìn)行解析,然后對內(nèi)容主題相關(guān)度進(jìn)行判斷,并將關(guān)聯(lián)主題的網(wǎng)頁內(nèi)容保存到數(shù)據(jù)庫中,并把這些網(wǎng)頁的網(wǎng)址保存到已訪問網(wǎng)頁列表中,否則去掉此網(wǎng)頁地址。最后當(dāng)待抓取的網(wǎng)頁列表為空的時候,或者抓取的深度滿足制定要求的時候結(jié)束讀取,重復(fù)執(zhí)行抓取其他網(wǎng)站直到結(jié)束。
索引系統(tǒng)的設(shè)計。索引過程可分為3個主要的操作步驟:將信息轉(zhuǎn)換成文本,分析文本,將分析過的文本保存到數(shù)據(jù)庫中。要想對信息分類和建立索引,那么首先必須將信息轉(zhuǎn)換成純文本字符流。但是在網(wǎng)絡(luò)中信息是以各種富媒體文檔格式存在的:比如PDF,WORD,EXCEL,HTML,XML等。為此需要使用文檔解析器,將富媒體轉(zhuǎn)換成純文字字符流。分析文本。在對信息進(jìn)行索引之前,還必須將轉(zhuǎn)換后的文本進(jìn)行分詞技術(shù)處理,才能更好地建立索引。當(dāng)數(shù)據(jù)分析時,首先將文本拆成若干個塊和單元詞匯,接著可選擇操作,比如:大小寫轉(zhuǎn)換在索引操作之前,避免大小寫的錯誤;比較典型的是去除經(jīng)常使用卻沒用的詞匯,比如介詞、冠詞(the、a、in、on、an等)。同樣道理,找到一些沒有意義的詞匯在索引之前就把它們?nèi)サ粢詼p少索引的次數(shù)提高索引的效率。對輸入數(shù)據(jù)分析處理完成后,就可以將結(jié)果寫入索引文件中。結(jié)果一般包括網(wǎng)頁標(biāo)題,正文,所屬住地址,主機(jī),內(nèi)容摘要,當(dāng)前URL地址等,并根據(jù)具體情況和需要建立索引和存儲。
信息查詢算法。通過預(yù)處理網(wǎng)頁后,每個元素由下面幾個信息構(gòu)成:編號,網(wǎng)頁地址和主題,初始網(wǎng)頁文檔包含的系統(tǒng)關(guān)鍵詞的集合以及它們在文檔中出現(xiàn)的位置數(shù)據(jù)同時還包括一些其他的重要信息(例如重要級別,代碼類別等)。而關(guān)鍵詞集合和文檔的編號共同組成了一個倒排索引文件結(jié)構(gòu),能夠迅速地輸出相關(guān)文檔的集合編號。查詢方式指的是搜索引擎承認(rèn)的查詢方法。由于客戶的不同要求所以不能只有一種查詢方法。通常對于普通的客戶的查詢方式,那就是輸入他最想要的詞匯。然而這不能作為一種準(zhǔn)確定義的查詢方式。
比如客戶寫“技師學(xué)?!?,可能是他想了解技術(shù)學(xué)校目前的招生狀況,可能需要找到技師學(xué)校教務(wù)系統(tǒng)的網(wǎng)址,可能需要了解大家對技師學(xué)校的評價。這是3種相當(dāng)不同的需求。在其他一些情況下,用戶可能關(guān)心的是間接的信息,例如“技師學(xué)校錄取分?jǐn)?shù)線”,450分應(yīng)該是他需要的,但不可能包含在這個短語中。盡管如此,用一個字或短語來間接表達(dá)查詢需要,如果網(wǎng)頁內(nèi)容或標(biāo)題中包括輸入的詞或短語,仍然是最普遍的查詢方法。原因是他所查詢出現(xiàn)的概率是最多的,還包括如此查詢也更簡單和容易完成。如此來說,搜索引擎接收的語句。通常用q0作為客戶的初始查詢,比如,q0 =“網(wǎng)絡(luò)與分布式系統(tǒng)實驗室”。它最先要被分詞成一個詞的序列。所以則變成“網(wǎng)絡(luò)與分布式系統(tǒng)實驗室”(注意,分詞軟件的不同有可能導(dǎo)致不一樣的查詢結(jié)果)。接著要過濾掉那些幾乎在所有文檔中都會出現(xiàn)的那些沒有意義的字符,最后生成查詢詞表用于匹配,q={t1,t2,…,tm},從上面的實例來說q={網(wǎng)絡(luò),分布式,系統(tǒng),實驗室}。倒排文件就是把所有的詞按倒序的方式依次保存到搜索引擎的索引文件中,所以q中的詞一定要存在于搜索引擎所產(chǎn)生的查詢倒排文件。那么作為用戶所輸入的q,客戶輸入的詞匯會分割成一個個的關(guān)鍵詞而抓取到文檔編號的集合,記作L(ti),所產(chǎn)生的交集就是相關(guān)查詢的倒排文件,也就是達(dá)到了查詢和網(wǎng)頁文檔的匹配。因此用戶總是要求所輸入的詞匯被包含在網(wǎng)頁文檔當(dāng)中。
3.4 專業(yè)課程模塊設(shè)計
專業(yè)技術(shù)的學(xué)習(xí)是中等職業(yè)教育的核心和重點,專業(yè)技能的高低直接決定了學(xué)生未來的就業(yè)前景。由于中等職業(yè)學(xué)校規(guī)模的限制不可能像大學(xué)那樣建立大而全的專業(yè)體系。大體上來講,中等職業(yè)學(xué)校的專業(yè)可以籠統(tǒng)地分為工業(yè)類包括機(jī)械、工程、電子等,信息類包括計算機(jī)、金融、會計等,服務(wù)類包括藝術(shù)、旅游、餐飲、教育等。用戶可以根據(jù)不同的專業(yè)來搜索相應(yīng)預(yù)處理過的信息。
4 該文的主要工作
該文通過分析了中等職業(yè)教育的特點,對垂直搜索引擎的核心技術(shù)分析、研究。設(shè)計了面向中等職業(yè)教育的垂直搜索引擎的系統(tǒng)結(jié)構(gòu),并對其中涉及的關(guān)鍵技術(shù):網(wǎng)頁搜集器、信息抓取技術(shù)、查詢技術(shù)從事了探討和研究,希望對中等職業(yè)教育領(lǐng)域的垂直搜索引擎的應(yīng)用能夠做出一點貢獻(xiàn)。
參考文獻(xiàn)
[1] 趙翠.中等職業(yè)教育擴(kuò)招:意義、問題與對策[J].機(jī)械職業(yè)教育,2011(8):14-16.
[2] 趙洋,滕桂法,張玉新.基于Intemet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計[J].河北農(nóng)業(yè)大學(xué)學(xué)報,2009,32(6):125.