摘 要:中文搜索引擎的出現(xiàn),提高了我們檢索信息的速度。但是,現(xiàn)在它的發(fā)展還并不健全,存在著不少的問題。本文通過闡述中文搜索引擎發(fā)展現(xiàn)狀,進(jìn)而分析如何解決這些瓶頸的對(duì)策。
關(guān)鍵詞:搜索引擎 查準(zhǔn)率 查全率
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2012)12(c)-0022-01
搜索引擎在國外發(fā)展的較早,比較著名的有:Google,Yahoo,Excit,Lycos等。其中根據(jù)ComScore公司近兩年的統(tǒng)計(jì),全球近75%的網(wǎng)民使用過谷歌搜索引擎或其提供的各種衍生服務(wù)。而我國主要從1997年開始發(fā)展面向中文信息檢索的中文搜索引擎。到現(xiàn)在,國內(nèi)搜索行業(yè)已被百度所統(tǒng)領(lǐng)。
雖然搜索引擎的出現(xiàn)確實(shí)為人們?cè)诰W(wǎng)上查找信息提供了強(qiáng)有力的手段和有效的工具,但是目前,屬于某個(gè)領(lǐng)域的各種中文搜索引擎的數(shù)量越來越多,從而使搜索引擎產(chǎn)生了一定的局限性。并且在信息維護(hù)、網(wǎng)絡(luò)站點(diǎn)負(fù)載,管理及服務(wù)等方面暴露了一些問題與不足。
1 搜索效率
搜索引擎的兩個(gè)主要指標(biāo)是查準(zhǔn)率(precision)和查全率(recall)。查準(zhǔn)率從一個(gè)方面描述了搜索引擎系統(tǒng)的查詢開銷。如果某次查詢的查準(zhǔn)率是85%,則15%的文獻(xiàn)是不相關(guān)文獻(xiàn),但用戶瀏覽其中的內(nèi)容以確定它們是否包含所需信息。對(duì)于實(shí)際系統(tǒng),索引速度和檢索速度也是重要指標(biāo)。事實(shí)上,在測(cè)試中,絕大多數(shù)系統(tǒng)的平均查準(zhǔn)率都在0.1~0.5之間,最好的測(cè)試結(jié)果平均查準(zhǔn)率也不到0.6。根據(jù)直觀估計(jì)當(dāng)前Internet上的著名搜索引擎,如yahoo,google等,它們的平均查準(zhǔn)率小于0.2。這說明搜索引擎系統(tǒng)的性能還有很大的提高空間,但提高系統(tǒng)性能是非常困難的。
2 站點(diǎn)和網(wǎng)絡(luò)負(fù)載
這也是目前網(wǎng)絡(luò)搜索引擎存在的最大問題。網(wǎng)絡(luò)搜索機(jī)器人快速地讀取文檔,必然會(huì)導(dǎo)致了大量的網(wǎng)絡(luò)流量和站點(diǎn)負(fù)載,傳輸大量的數(shù)據(jù)時(shí),某些站點(diǎn)很有可能會(huì)因?yàn)闄C(jī)器人要讀取文檔而一直處于繁忙狀態(tài)。機(jī)器人所造成的負(fù)載很大程度上是由于機(jī)器人為了對(duì)相應(yīng)數(shù)據(jù)建立索引,需要讀取整個(gè)文檔造成的。另外,當(dāng)機(jī)器人沿鏈接作深度優(yōu)先搜索時(shí),WEB服務(wù)器的負(fù)載往往也很重。
3 搜索引擎間的數(shù)據(jù)重復(fù)
常用的搜索引擎很少能夠與其它的搜索引擎共享它們的數(shù)據(jù)。其結(jié)果就是多個(gè)搜索引擎檢索相同的資源和文檔,多個(gè)機(jī)器人搜索訪問同樣的WEB站點(diǎn),無疑帶來了不必要的網(wǎng)絡(luò)和服務(wù)器負(fù)載。當(dāng)用戶使用多個(gè)搜索引擎尋找信息時(shí),也給用戶造成不必要的麻煩。
4 鏈接和數(shù)據(jù)的易變性
這是搜索引擎所面臨的一個(gè)重要問題。對(duì)搜索引擎的影響是,索引數(shù)據(jù)庫存儲(chǔ)的文檔和鏈接信息很有可能已經(jīng)改變了位置或己經(jīng)被刪除。當(dāng)用戶查詢某些信息時(shí),搜索引擎給出文檔和鏈接的列表,而當(dāng)用戶試圖沿著鏈接到遠(yuǎn)程站點(diǎn)訪問這些信息時(shí),他們也許會(huì)收到這樣的出錯(cuò)信息,“沒有找到服務(wù)器”。
5 缺乏統(tǒng)一的規(guī)劃、協(xié)調(diào)與合作
目前國內(nèi)搜索行業(yè)百度已是一方霸主。然而,搜狗也在推出搜索引擎開放平臺(tái),中搜更是強(qiáng)力打造自己的第三代搜索引擎,包括一淘網(wǎng)、網(wǎng)易有道等垂直搜索也漸成“氣候”。搜索是互聯(lián)網(wǎng)產(chǎn)品中的高科技產(chǎn)品,企業(yè)間的競爭不應(yīng)局限于與同業(yè)者的橫向競爭,更應(yīng)該在自身的技術(shù)深度上勤加耕耘。同時(shí)相互協(xié)作,取長補(bǔ)短,為用戶提供更好的搜索產(chǎn)品和體驗(yàn)。
6 網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)立法落后
我國對(duì)網(wǎng)絡(luò)中的侵權(quán)行為,沒有成型的法律進(jìn)行規(guī)定。目前大多采用《著作權(quán)法》的相關(guān)規(guī)定來解決,但是在網(wǎng)絡(luò)環(huán)境下,知識(shí)產(chǎn)權(quán)的客體得到了拓展,網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)侵權(quán)的類型也呈現(xiàn)多樣化。因此傳統(tǒng)的著作權(quán)法有著其局限性,為適應(yīng)網(wǎng)絡(luò)知識(shí)產(chǎn)權(quán)保護(hù)范圍擴(kuò)大化的要求,必須揭示和分析存在的問題并加強(qiáng)和完善保護(hù)措施,以保證權(quán)利人的權(quán)益得到切實(shí)的保護(hù)。
針對(duì)中文搜索引擎存在的種種問題,結(jié)合國外搜索引擎發(fā)展過程中的經(jīng)驗(yàn),筆者認(rèn)為中文搜索引擎可采取以下對(duì)策。
(1)建立垂直化、專業(yè)化搜索引擎。
垂直搜索引擎是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等提出來的新的搜索引擎服務(wù)模式。
它是針對(duì)性的為某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)??梢院唵蔚恼f成是搜索引擎領(lǐng)域的行業(yè)化分工。市場(chǎng)需求多元化決定了搜索引擎的服務(wù)模式必將出現(xiàn)細(xì)分,針對(duì)不同行業(yè)提供更加精確的行業(yè)服務(wù)模式。通用搜索引擎的發(fā)展為垂直搜索引擎的出現(xiàn)提供了良好的市場(chǎng)空間,勢(shì)必將出現(xiàn)垂直搜索引擎在互聯(lián)網(wǎng)中占據(jù)部分市場(chǎng)的趨勢(shì),也是搜索引擎行業(yè)細(xì)分化的必然趨勢(shì)。
(2)建立搜索引擎協(xié)調(diào)機(jī)制,制定網(wǎng)站的有關(guān)標(biāo)準(zhǔn)。
隨著中文搜索引擎的日益增多,各類搜索引擎開發(fā)與資源建設(shè)的重復(fù)現(xiàn)象也越來越嚴(yán)重。因此,建立統(tǒng)一的機(jī)構(gòu),協(xié)調(diào)各搜索引擎網(wǎng)站之間的開發(fā)設(shè)計(jì)與資源建設(shè)也就提上了日程。
(3)發(fā)展中文搜索引擎的個(gè)性化信息服務(wù)。
個(gè)性化搜索是以用戶為中心的搜索技術(shù),它獲取以多種形式表達(dá)的用戶需求,并綜合利用這些用戶信息,提高搜索引擎滿足用戶需求的能力。個(gè)性化服務(wù)通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,從而實(shí)現(xiàn)主動(dòng)推薦的目的。
目前的技術(shù)發(fā)展過程中,搜索引擎逐漸更加注重對(duì)于用戶群體的個(gè)性化使用習(xí)慣的培養(yǎng),百度推出的“個(gè)性化首頁”產(chǎn)品就為用戶提供登錄后推薦信息和應(yīng)用的極大便利,以此鼓勵(lì)用戶提供個(gè)性化信息,提升搜索效果并增加用戶黏性。隨著搜索引擎在網(wǎng)絡(luò)應(yīng)用環(huán)境中的更深層次參與,這類個(gè)性化產(chǎn)品的數(shù)量和應(yīng)用規(guī)模也有繼續(xù)擴(kuò)大的趨勢(shì),而個(gè)性化搜索技術(shù)的發(fā)展也呈現(xiàn)出更加積極的前景。
(4)多媒體搜索技術(shù)。
隨著多媒體信息處理技術(shù)在近年來的發(fā)展,搜索引擎的部分多媒體搜索產(chǎn)品開始越來越多的依靠媒體內(nèi)容提升搜索服務(wù)水平。2011年,谷歌、百度和搜狗搜索都提供了以圖片作為查詢需求表示的“以圖搜圖”的圖片搜索功能,滿足用戶對(duì)于圖片獲取的信息訴求。
(5)健全有關(guān)的網(wǎng)絡(luò)法規(guī)。
法律法規(guī)不健全會(huì)為搜索引擎的發(fā)展帶來一定的阻礙。所以,我們要制定并健全現(xiàn)有的法律法規(guī)。
隨著互聯(lián)網(wǎng)的飛速發(fā)展,各類中文信息資源的日益豐富,賦予了中文搜索引擎無限的生機(jī),同時(shí)也給中文搜索引擎的發(fā)展帶來了嚴(yán)峻挑戰(zhàn)。各類中文搜索引擎只有切實(shí)研究用戶信息需求的特點(diǎn),不斷完善和發(fā)展搜索技術(shù),走適合自己發(fā)展的商業(yè)化道路,才能在眾多的搜索引擎中獲得屬于自己的發(fā)展空間,才能在激烈的競爭過程中立于不敗之地。
參考文獻(xiàn)
[1]劉奕群.中文搜索引擎發(fā)展研究報(bào)告[R].中國人工智能學(xué)會(huì)通訊,2012(5).
[2]孫宏,李戴維,董旭陽,等.搜索引擎技術(shù)與發(fā)展綜述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2012(14).
[3]陳俊杰.中文搜索引擎現(xiàn)狀與發(fā)展研究[J].佳木斯教育學(xué)院學(xué)報(bào),2011(3).