国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

主流中俄文搜索引擎核心技術(shù)分析與比較研究

2012-04-29 00:44:03顏素莉
計算機時代 2012年1期
關(guān)鍵詞:搜索引擎本土化百度

顏素莉

摘要從本土化角度分析了中又搜牽引擎百度與俄又搜索引擎Yandex的核心技未及其特點百度基于特有的中又分詞技術(shù),Yandex依賴于獨一無二的俄語詞型變化處理技術(shù)。通過具體的查詢實例對兩者進行分析比較,指出了各自的優(yōu)缺點。

關(guān)鍵詞搜索引擎,百度,Yandex,本土化

中圖分類號TP399文章編號A文章編號:1006-8228(2012)01-03-03

0引言

百度公司(WWW batdu aom)創(chuàng)立于1999~1212月,由兩位北京大學的畢業(yè)生李彥宏和徐勇先生在美國硅谷成立?!鞍俣取币辉~來源于辛棄疾膾炙人口的詞句“眾里尋他千百度”,象征著百度對中文信息檢索技術(shù)執(zhí)著的追求。

百度搜索引擎是目前全球規(guī)模最大的中文搜索引擎。高效的數(shù)據(jù)收集系統(tǒng),智能化中文語言處理系統(tǒng)、智能化相關(guān)性算法和搜索結(jié)果排名技術(shù)、本土化語言等特點使百度成為中國最受歡迎、影響力最大的中文網(wǎng)站和搜索引擎技術(shù)供應商之一。

Yandex公司(www yandexm)成立于1997年。早在1990年創(chuàng)始人阿卡季弗洛日和阿卡季勃可夫斯基一起創(chuàng)建了Yandex的前身Arkadla?!癥andex”一詞俄語含義是“3 hI KB o index”(語言索引),英語含義是“Yet Another indexer”(還存在另外一種索引)。

Yandex搜索引擎是俄羅斯使用率最高最流行的搜索引擎,也是東歐地區(qū)最普及的俄文搜索引擎之一。Yandex最大的特色是“M p n o r”,即俄語詞型變化的處理,以及關(guān)于查詢關(guān)鍵詞相關(guān)性的精確算法,如計算關(guān)鍵詞在文檔中出現(xiàn)的相對頻率、關(guān)鍵詞串問的距離等等。

根據(jù)Alexa官方網(wǎng)站2011年最新數(shù)據(jù)顯示,在全球網(wǎng)站流量排名中,Google位居第一,Bmdu位居第五,Yandex位居第二十二位。在國內(nèi)百度與Yandex的網(wǎng)站流量均居領(lǐng)先地位。

1本土化核心技術(shù)

百度與Yandex搜索引擎都屬于本土化搜索引擎,而Yandex同時兼有門戶網(wǎng)站的功能。兩者-個很明顯的共同點,就是它們都充分體現(xiàn)出本土化語言特點,比較符合本土用戶的搜索習慣。中文和俄語分別是世界上最復雜的語言之一。中文的特點在于獨特的文字形式,詞與詞之間沒有明顯的分隔,而俄語最大的特點就是單詞形式多變,一詞多義現(xiàn)象非常普遍。這些特點使得查詢搜索異常困難。但同時也正是因為百度與Yandex都很好地把握了本土語言的特點,保證了搜索的高效性和結(jié)果的微準確性。

1.1百度的中文分詞技術(shù)

分詞技術(shù)是中文搜索引擎特有的一種技術(shù),也是充分體現(xiàn)中文本土化信息搜索優(yōu)勢的核心技術(shù)之一。在中文語法中,詞匯以字為單位,多個字組成一個詞,而詞與詞之間是沒有空格的。分詞,又叫切詞,就是將由多個連續(xù)的字組成的關(guān)鍵詞或句子重新按指定的算法分割成若干個有獨立含義的字或詞。中文詞匯的組合非常靈活多變,容易對文字的理解上產(chǎn)生歧義。如,對關(guān)鍵詞“從小學畢業(yè)”,可以切分為“從小/學/畢業(yè)”,也可以切分為“從/小學/畢業(yè)”,根據(jù)這兩種不同的切分結(jié)果,返回的查詢結(jié)果也會是迥然不同。因此,分詞的準確性將直接決定了搜索引擎的查詢結(jié)果。

目前中文分詞的算法主要有三大類,基于字典的分詞技-術(shù)、基于統(tǒng)計的分詞技術(shù)和基于規(guī)則的分詞技術(shù)。其中基于字典的中文分詞技術(shù)占主導地位?;谧值涞乃惴ㄓ址诌@么幾種正向最大匹配法,逆向最大匹配法,雙向最大匹配,語言模型方法,最短路徑算法等等。

實例1、輸入一個很經(jīng)典的分詞測試關(guān)鍵詞“毛澤東北京華煙云”。該關(guān)鍵詞包含了人名和電視劇名兩個專用名詞。其中容易引起分詞歧義的是“毛澤東”和“東北”,“北京”和“京華煙云”。

該關(guān)鍵詞可能存在的分詞組合有1、“毛澤東/北京/華/煙云”。2、“毛澤/東北/京華煙云”。3、”毛澤東/北/京華煙云”。百度返回的排名較前的搜索結(jié)果是最后—種“毛澤東/北/京華煙云”。而事實上最后—種查詢結(jié)果也最符合用戶的查詢要求。

實例2、輸入一個容易引起分歧的關(guān)鍵詞“生強大小”??赡艽嬖诘那蟹纸M合“生/強大/小”和“生/強/大小”兩種。根據(jù)百度返回的搜索結(jié)果,排名較前的部分關(guān)鍵詞是1)“強大小生”。2)夢幻四“大小生強烈”要求修改手部動作3)“大小”。其中關(guān)鍵詞“大小”出現(xiàn)的頻率最高。

查詢結(jié)果分析

(1)百度分詞能夠很輕易地識別人名或?qū)S妹~。因此可以猜測百度采取了至少兩個詞典,一個是普通詞典,一個是專用詞典。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。如實例1,分詞切分的步驟分別如下①毛澤東,北京華煙云,②毛澤東/北/京華煙云。

(2)百度基本上不關(guān)注關(guān)鍵詞出現(xiàn)的位置順序,凡是出現(xiàn)關(guān)鍵詞中任意單詞的網(wǎng)頁都會被搜索到。如實例2,輸入“大小”和輸入“小大”的結(jié)果是完全一樣的。而且其中返回的—個搜索結(jié)果竟包含了關(guān)鍵詞“大小生強烈”。

(3)幾種算法基本上是混合使用。上述實例證明,百度采用的分詞算法優(yōu)先級排序如下首先查詢專用詞典(如人名,影視劇、地名等),將專有名稱切出(實例1中先將專用名詞“毛澤東”解析出來,剩下了字符串“北京華煙云”,)。其次,剩余部分采取雙向分詞策略,如果兩者切分結(jié)果相同,說明沒有歧義,直接輸出分詞結(jié)果。如果不一致,則輸出最短路徑的分詞結(jié)果。如果切分長度相同,則選擇單字最少的那一組切分結(jié)果。如果單字也相同,則選擇正向分詞結(jié)果。以此類推,最終將經(jīng)過切分重新組合過的查詢結(jié)果返回給用戶(實例1中最后切詞是“北,京華煙云“,說明是反向最大匹配的分詞結(jié)果)。

技術(shù)是一種專門針對俄語詞型變化的處理技術(shù),有點類似于中文特有的分詞技術(shù)。俄語的形態(tài)非常的豐富、語法形式繁雜,一方面俄語的多義現(xiàn)象非常突出,容易引起理解分歧,另一方面正是由于這種嚴謹繁雜的語法形式,使得基于俄語的搜索引擎的查詢結(jié)果變得更加準確和復雜。Google的搜索算法能將輸入的關(guān)鍵字在網(wǎng)頁中匹配,卻無法查找到內(nèi)容相同但文字不同的俄文網(wǎng)頁,而Yandex則能找到Google無法找到的俄文網(wǎng)頁。Yandex正是借助于這種無與倫比的俄語形態(tài)學創(chuàng)建了海量數(shù)據(jù)庫的俄語詞庫,并開創(chuàng)了智能化的俄語詞性變化處理技術(shù)。

目前Yandex基于的俄語處理算法主要側(cè)重于對關(guān)鍵詞語法多義的分析和查找。比如,因名詞變格形式的交叉現(xiàn)象(以一結(jié)尾的陰性名詞的二、三、六格均以一H結(jié)尾等類似情況)導致的詞法多義情況的分析。俄語動詞陳述式單數(shù)第二人稱具有表示某個具體人的行為和泛指一切人的行為的雙項語法功能。再如,詞匯兼類現(xiàn)象的分析俄語常見的兼類詞有形、名同形(如),代、名同形(如),數(shù)、名同形(如),疑問詞、關(guān)聯(lián)詞、連接詞同形(如),形動詞同形容詞同形,疑問詞同副詞同形等等。

Yandex提供的俄文查詢語言非常豐富,至少有15種查詢

語言和11種特殊限制查詢語言(包括幾種基本的通用查詢語言)。

實例1、應用查詢語言“”,如(輸入雙引號)。查詢的結(jié)果和雙引號里面的內(nèi)容格式完全保持—致。該功能和百度的“《》”很相似。

實例2、應用查詢語言!,如默認情況下,系統(tǒng)搜索關(guān)鍵詞的所有形態(tài),利用符號”只能搜索指定形態(tài)的關(guān)鍵詞,既包括單詞和單詞。如果輸入關(guān)鍵詞。則查詢結(jié)果僅包括單詞。

實例3、應用查詢語言fI。同樣是關(guān)鍵詞,結(jié)合不同的查詢語言查詢的結(jié)果完全不一樣。如輸入關(guān)鍵詞ⅡeH b。搜索與關(guān)鍵詞e H b相關(guān)的所有單詞形態(tài),包括ⅡH H,Hm,H e M等六個單數(shù)形式變格單詞,同時還包括和關(guān)鍵詞Ⅱe T b有關(guān)的所有變形單詞。輸入關(guān)鍵詞Ⅱen n。僅僅搜索與關(guān)鍵詞Ⅱe H b相關(guān)的所有形態(tài),包括Ⅱn H,Ⅱ,ⅡH e M等數(shù)個相關(guān)的變形單詞,但不包括關(guān)鍵詞Ⅱe T b及與其有關(guān)的所有變形單詞。

實例4、應用查詢語言~。如q a n~Ⅱa n T e M。搜索與關(guān)鍵詞q a n相關(guān)的所有單詞但排除與單詞Ⅱa n r e M相關(guān)的所有單詞。

實例5、應用查詢語言$。如”Ⅱp H 6 b1Ⅱ Ⅱ0 c 0Ⅱ”。查找與雙引號里面完全符合的,并且忽略單詞p H 6 bI n和Ⅱo c oⅡ中間的任何單詞或句子。

在如此強大的查詢語言輔助下,俄語由于詞形變化多端的問題造成查詢困難的問題可以得到有效解決。同時,用戶在關(guān)鍵詞的選取上更加靈活自由,搜索系統(tǒng)返回給用戶的查詢結(jié)果也更加準確和完整。

2百度與Yandex的主要功能的比較分析

(1)對其他外文網(wǎng)頁的搜索,Yandex占有明顯優(yōu)勢。比如在Yandex網(wǎng)頁中輸入任意中文單詞,返回網(wǎng)站的查詢結(jié)果基本上準確。這說明Yandex搜索引擎已經(jīng)具備能夠區(qū)分中文單--詞的功能,而且也基本掌握了中文分詞的技術(shù)。而在百度網(wǎng)頁中輸八俄文時查詢結(jié)果非常不如人意。百度是按照中文分詞的算法來切分俄文,將俄文單詞+個分割開,自然查詢結(jié)果不準確了。但是在搜索英文時卻沒有類似問題,這說明百度在對其他外文網(wǎng)頁的搜索技術(shù)上還有待提高。

(2)在支持多語種翻譯的輔助功能方面,實例證明Yandex占有優(yōu)勢。目前Yandex支持7種語言的單詞翻譯。百度目前僅支持中英互譯,顯然在詞典翻譯功能上有待擴展。

(3)在雙方的搜索主頁面布局上各有秋千。百度的主頁面風格和Google很像,簡明大方。而Yandex的主頁面整體風格也很明朗干練,不過更接近于門戶網(wǎng)站的風格。但是Yandex有一個優(yōu)點很吸引客戶,就是它提供了一種新的技術(shù)(基于算法“c n e m n n c x”)根據(jù)網(wǎng)站訪問客戶的IP地址迅速判讀出所在國家或區(qū)域,然后直接在主頁面上方顯示出與來訪客戶國家有關(guān)的搜索信息,如國家名稱,首都,天氣預報,并羅列出與客戶國家相關(guān)的熱點新聞和相關(guān)聯(lián)的鏈接。這種設(shè)計方法非常的貼心,也很方便??梢宰屚鈬L客通過該網(wǎng)站了解本國的一些其他信息。

(4)在對混合語言的關(guān)鍵詞網(wǎng)頁進行搜索時,兩者的效果都不盡人意。這說明雖然百度和Yandex在推廣本土化語言的搜索服務技術(shù)上有很大的創(chuàng)新和突破,但是在國際化的推廣服務方面還是遠遠不夠的。這一點他們都必須向Google學習。Google在國際化推廣業(yè)務上做得非常出色,迄今已經(jīng)推出了支持88種語言檢索的網(wǎng)站,并向很多國家提供了基于Google核心技術(shù)的搜索引擎服務,網(wǎng)站域名形式普遍統(tǒng)一為“wwwgoogle”加上國家頂級域名(如俄羅斯,www google m)。

(5)百度是全球最大的中文搜索網(wǎng)站,是專門提供中文信息的專業(yè)搜索引擎,因此在提供搜索信息方面功能非常強大,內(nèi)容也非常豐富,基本上搜索引擎網(wǎng)站上有的功能它都有,如,社區(qū)搜索、移動搜索、娛樂游戲以及專門的圖片、音樂搜索等等。在這一點上Yandex可能會遜色一點,因為它同時兼?zhèn)渌阉饕婧烷T戶網(wǎng)站的功能,因此不能像百度或谷歌一樣專門主攻搜索引擎這個領(lǐng)域的技術(shù)。

3結(jié)束語

可以看出這兩種引擎各有特色,雙方都致力于發(fā)展本土的搜索引擎技術(shù)并成績斐然。根據(jù)Alex官方網(wǎng)站顯示,除了谷歌,全球能夠把本土化搜索引擎技術(shù)做好做大的國家似乎并不多見。但是在支持多語種頁面檢索功能時,兩者的查詢結(jié)構(gòu)都不甚理想。雙方在多語種檢索,提供跨國際化搜索服務方面都還很薄弱,還需要相互學習和借鑒。

猜你喜歡
搜索引擎本土化百度
Robust adaptive UKF based on SVR for inertial based integrated navigation
訴前強制調(diào)解的邏輯及其本土化建構(gòu)
美樂家迎來本土化元年
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
論電視節(jié)目的本土化
新聞傳播(2016年4期)2016-07-18 10:59:22
百度遭投行下調(diào)評級
IT時代周刊(2015年8期)2015-11-11 05:50:22
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
百度“放衛(wèi)星”,有沒有可能?
太空探索(2014年4期)2014-07-19 10:08:58
困惑·解疑·感悟——評《嘀哩嘀哩》兼及奧爾夫教學法“本土化”實踐
华坪县| 日照市| 通辽市| 邮箱| 昌都县| 进贤县| 紫云| 札达县| 醴陵市| 府谷县| 突泉县| 孝义市| 三明市| 岳阳市| 龙口市| 襄城县| 郯城县| 华蓥市| 西乡县| 庆城县| 巴中市| 雅江县| 阳西县| 平江县| 沈阳市| 图木舒克市| 乌兰浩特市| 扬中市| 黔南| 启东市| 北川| 安宁市| 永定县| 澳门| 甘南县| 寿光市| 宿州市| 茂名市| 水城县| 乐业县| 新密市|