馮佳捷 王瑞
摘要:隨著我國(guó)科學(xué)技術(shù)的進(jìn)步,網(wǎng)絡(luò)信息化的快速發(fā)展,搜索引擎成為了人們查找數(shù)據(jù)的最主要工具。在搜索引擎中,為了提高用戶查找所需要數(shù)據(jù)信息的準(zhǔn)確性和全面性,可以使用中文分詞技術(shù),中文分詞技術(shù)在中文搜索引擎中占據(jù)了重要的地位。用戶在使用中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率有著深刻的影響。
關(guān)鍵詞:搜索引擎;中文分詞技術(shù);查準(zhǔn)率;查全率;深刻影響
中圖分類號(hào):TP391.3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2013) 06-0000-02
隨著網(wǎng)絡(luò)信息化的飛速發(fā)展,搜索引擎成為了人們的主要查找信息數(shù)據(jù)的工具后,科技人員為了讓人們查找信息能夠更加方便,便積極研究新的技術(shù)。在中文分詞技術(shù)得到發(fā)展后,它能夠推動(dòng)中文搜索引擎的發(fā)展,也極大的方便了人們的生活方式和節(jié)省了人們搜索信息所需要的時(shí)間。中文分詞技術(shù)的應(yīng)用方法會(huì)對(duì)搜索引擎造成怎樣的影響,是需要專業(yè)的技術(shù)人員能夠更好的分析,尤其是中文搜索引擎的查準(zhǔn)率與查全率。
1中文分詞技術(shù)的應(yīng)用方法
1.1在中文分詞技術(shù)的應(yīng)用當(dāng)中可以使用字符串匹配的方法。字符串匹配是將待切分的字串與涵蓋內(nèi)容全面的詞條使用一定的策略進(jìn)行匹配。如果在一個(gè)詞典中,沒(méi)有找到其中一個(gè)字符串,就表示著匹配不成功,不能夠進(jìn)行切分。而在經(jīng)常使用中文分詞技術(shù)中人們常用正向最大匹配法以及逆向最大匹配法進(jìn)行字符串匹配。但是運(yùn)用這兩種方法在搜索引擎中有一定的優(yōu)勢(shì)與局限性。
1.2、理解的中文分詞方法是通過(guò)計(jì)算機(jī)對(duì)中文句子結(jié)構(gòu)進(jìn)行自動(dòng)分詞的過(guò)程。在一個(gè)中文句子中,計(jì)算機(jī)利用中文中的詞組、語(yǔ)義等等來(lái)對(duì)這個(gè)句子進(jìn)行分析評(píng)價(jià),然后找出與原句意思最接近的句子。理解中文分詞方法在搜索引擎中并沒(méi)有得到實(shí)際的應(yīng)用,它需要巨大的工作量,對(duì)一個(gè)句子的理解力也是及其復(fù)雜的,所以,它在搜索引擎中得到應(yīng)用還需要進(jìn)一步的研究與驗(yàn)證。
1.3利用統(tǒng)計(jì)的中文分詞方法是根據(jù)在搜索引擎系統(tǒng)中,分詞中的詞組出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),然后根據(jù)次數(shù)來(lái)決定該字符串是否能夠成為一個(gè)詞組。在使用統(tǒng)計(jì)的中文分詞方法時(shí),是不需要對(duì)中文進(jìn)行理解以及切分詞典,只需要對(duì)分詞所出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),然后,我們也可以稱這種方法為無(wú)詞典分詞方法圈。同時(shí),統(tǒng)計(jì)中文分詞法也可以對(duì)字符串相鄰的字符出現(xiàn)的次數(shù)進(jìn)行一定的統(tǒng)計(jì)分析,然后確定這些相鄰字符的關(guān)系,然后確定它們是否可以組成詞組。
2中文搜索引擎的查準(zhǔn)率及查全率的缺點(diǎn)
2.1在中文搜索引擎當(dāng)中,查準(zhǔn)率與查全率有著一定的局限性,這就需要我們要對(duì)此有著一個(gè)準(zhǔn)確的認(rèn)識(shí)。在查全率當(dāng)中,對(duì)相關(guān)的信息量和全部的相關(guān)信息量進(jìn)行對(duì)比。但是,在搜索引擎的系統(tǒng)當(dāng)中所包含的信息量是巨大的并且人們是不可獲知的,只能對(duì)這些相關(guān)的信息量進(jìn)行大致的估計(jì);還有的就是查全率由于一定的不確定性,導(dǎo)致有許多假設(shè)的可能出現(xiàn),而這些假設(shè)的出現(xiàn),認(rèn)為搜索出來(lái)的信息與用戶所需要的信息是具備著相同的價(jià)值,而這種假設(shè)的認(rèn)為恰恰是不正確的,用戶永遠(yuǎn)就是認(rèn)為信息的相關(guān)程度越高對(duì)自己的用處也是越高的。
即使是在一些發(fā)達(dá)的國(guó)家,擁有著比我國(guó)更高的技術(shù)水平,也會(huì)有一些網(wǎng)頁(yè)不能讓搜索引擎很好的檢索出來(lái)。作為發(fā)展中國(guó)家,我國(guó)的大部分網(wǎng)站都是由網(wǎng)絡(luò)管理者提供瀏覽方式顯示內(nèi)容,雖然有些網(wǎng)站經(jīng)過(guò)設(shè)計(jì)者科學(xué)合理的組織和安排,但是還有百分之七十到百分之八十不能讓搜索引擎檢索出來(lái)。
我國(guó)所具備的引擎技術(shù)不管是在網(wǎng)絡(luò)信息化上還是在應(yīng)用的環(huán)節(jié)上都存在著一定的缺陷性,沒(méi)有統(tǒng)一規(guī)范的管理措施以及技術(shù)水平。另外,搜索引擎在進(jìn)行檢索時(shí),因?yàn)闄z索體系不能很好的相互配合,導(dǎo)致,用戶在進(jìn)行檢索時(shí)會(huì)遇到一定的操作障礙。
2.2在中文搜索引擎當(dāng)中,查準(zhǔn)率也是具備著一定的局限性。用戶在搜索所需要的信息時(shí),要進(jìn)行題錄式搜索,而題錄式的內(nèi)容是非常簡(jiǎn)單的,用戶在看見(jiàn)自己所檢索的信息時(shí)是不能很好的判斷與自己所需要的信息是否有著密切的聯(lián)系;這樣,用戶就得找出搜索出來(lái)信息的全文,才能保證是否只自己所需要的信息,而這就浪費(fèi)了用戶的大部分時(shí)間。同樣,查準(zhǔn)率在搜索出來(lái)的相關(guān)信息當(dāng)中也具有著與查全率一樣的假設(shè)可能的局限性。
有些搜索引擎沒(méi)有對(duì)信息進(jìn)行相關(guān)的統(tǒng)計(jì)和分類,導(dǎo)致系統(tǒng)內(nèi)的信息都混亂不清,各個(gè)信息之間的邏輯性沒(méi)有進(jìn)行一定的明確分析;搜索引擎中沒(méi)有科學(xué)知識(shí)體系進(jìn)行一定的聯(lián)系與溝通,通常都會(huì)造成搜索引擎與檢索的信息出現(xiàn)錯(cuò)誤。在搜索引擎當(dāng)中,由于沒(méi)有適當(dāng)?shù)臋z索詞,導(dǎo)致檢索的查準(zhǔn)率降低。
3中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
3.1中文分詞技術(shù)的準(zhǔn)確性對(duì)搜索引擎的影響是十分重大的。在搜索引擎當(dāng)中,如果由于中文分詞的速度太慢,即使分詞的準(zhǔn)確性再高,都是不可用的,對(duì)檢索的查準(zhǔn)率會(huì)產(chǎn)生一定的影響。搜索引擎當(dāng)中,都需要處理數(shù)以萬(wàn)計(jì)的網(wǎng)頁(yè),如果在中文分詞中耗用過(guò)長(zhǎng)的時(shí)間,然后會(huì)影響搜索引擎中不斷更新內(nèi)容的速度,這時(shí),就會(huì)嚴(yán)重影響到檢索的查全率。
3.2在搜索引擎當(dāng)中,利用理解的分詞方法,需要大量的語(yǔ)言知識(shí)和信息。然而,一直由于中文的語(yǔ)言知識(shí)一直是比較復(fù)雜的,每個(gè)詞都有好幾種意識(shí),基于理解的分詞方法難以將各種的語(yǔ)言組織成一定的詞組,導(dǎo)致中文分詞技術(shù)對(duì)搜索引擎的查準(zhǔn)率有一定的局限作用。
3.3基于字符串的中文分詞方法在搜索引擎當(dāng)中有著一定的優(yōu)點(diǎn),能夠在一定的程度上促進(jìn)檢索的查全率。但是由于在對(duì)字符進(jìn)行匹配時(shí),由于中文語(yǔ)言的復(fù)雜性,會(huì)在一定程度上限制了用戶所需要信息的準(zhǔn)確性,這時(shí)對(duì)檢索的查準(zhǔn)率產(chǎn)生了一定的阻礙。
3.4中文分詞技術(shù)中,利用統(tǒng)計(jì)的分詞方法,將詞組在搜索引擎中出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),然后可以出現(xiàn)新的詞組,然后對(duì)分詞進(jìn)行切分,利用它們的語(yǔ)言特征進(jìn)行統(tǒng)計(jì),從而,能夠提高搜索引擎中檢索的查準(zhǔn)率。
3.5中文分詞的各種技術(shù)都會(huì)對(duì)搜索引擎產(chǎn)生或大或小或優(yōu)或劣的影響。這就需要科研人員以及相關(guān)的技術(shù)人員對(duì)中文分詞進(jìn)行一定的分析,將那些不好的影響運(yùn)用相關(guān)的技術(shù)加以改善,讓中文分詞技術(shù)在搜索引擎中發(fā)揮出最大的良好的影響。雖然,依照我國(guó)目前的現(xiàn)狀看來(lái),中文分詞技術(shù)沒(méi)有很好的研究隊(duì)伍,讓這項(xiàng)技術(shù)服務(wù)于更多的產(chǎn)品還有很長(zhǎng)的路走,但是,現(xiàn)代的分詞技術(shù)對(duì)搜索引擎中的查準(zhǔn)率還有查全率都有著一定的促進(jìn)作用。
4總結(jié)
在網(wǎng)絡(luò)信息化高速發(fā)展的時(shí)代,給人們的生活方式、生產(chǎn)方式帶來(lái)了極大的方便。尤其是中文分詞技術(shù)在搜索引擎中的應(yīng)用,不僅提高了人們的生活水平,也推動(dòng)了信息化的發(fā)展。在搜索引擎當(dāng)中,查準(zhǔn)率與查全率只能存其一,不能夠同時(shí)存在。在利用中文分析技術(shù)后,對(duì)搜索引擎的查全率與查準(zhǔn)率有著一定的推動(dòng)作用,這就需要研究人員要全面的發(fā)展中文分詞技術(shù),改善搜索引擎中出現(xiàn)的問(wèn)題,保證查全率與查準(zhǔn)率能夠同時(shí)出現(xiàn),全面發(fā)展。
參考文獻(xiàn):
[1]曹羽中,曹勇剛,金茂忠,劉超.支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,27(23):36-39.
[2]何莘,王琬蕪.自然語(yǔ)言檢索中的中文分詞技術(shù)研究進(jìn)展及應(yīng)用[J].情報(bào)科學(xué),2008,26(05):03-05.
[3]鄭京華.提高搜索引擎檢索準(zhǔn)確率的策略[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2007,21(17):67-69.
[作者簡(jiǎn)介]馮佳捷(1990.8-),男,河北省石家莊人,研究方向:計(jì)算機(jī)算法應(yīng)用,工程實(shí)踐;單位:華中師范大學(xué) 軟件工程 2010級(jí);王瑞(1991.1-),男,重慶市人,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)安全,華中師范大學(xué) 軟件工程 2010級(jí)。
計(jì)算機(jī)光盤(pán)軟件與應(yīng)用2013年6期