胡風(fēng)華 王 磊
(安徽理工大學(xué)計(jì)算機(jī)與工程學(xué)院,安徽 淮南 232001)
隨著互聯(lián)網(wǎng)網(wǎng)站頁面的激增和用戶隊(duì)伍的不斷壯大,搜索引擎越來越成為人們上網(wǎng)瀏覽時(shí)的重要工具,用以在浩瀚的網(wǎng)站頁面的海洋中迅速地找到自己所需的信息。從用戶的角度來看,當(dāng)前的搜索引擎主要存在信息檢索質(zhì)量不高、檢索方式單一、個(gè)性化服務(wù)問題、搜索引擎對(duì)信息的標(biāo)引深度不夠、信息收集與檢索的分離等幾個(gè)方面的不足。
智能搜索引擎的人機(jī)接口和網(wǎng)絡(luò)蜘蛛高度智能化,可跨平臺(tái)工作、處理多種混合文檔、支持多種語言搜索,并能根據(jù)用戶的興趣、愛好、特性、定題需求,不斷實(shí)時(shí)推薦、推送相關(guān)的信息、知識(shí),定制個(gè)性化頁面等,表現(xiàn)出較大的智能性、主動(dòng)性、交互性、人性化特征。使其用戶范圍從具有良好信息檢索素質(zhì)的專業(yè)人士,擴(kuò)展為無任何檢索技能背景的普通用戶。
智能型的自然語言技術(shù)包括"自然語言搜索"和"動(dòng)態(tài)關(guān)聯(lián)詞、聯(lián)想詞提示"技術(shù)。內(nèi)建完整的"布爾邏輯運(yùn)算組合"的搜索條件和"鄰近搜索"功能,配合"智能型快速響應(yīng)模式",有效提高搜索速度和精確度。用戶可靈活選擇欲搜索的數(shù)據(jù)庫,配合"中文同音"、"中英文近似概念"、簡(jiǎn)繁轉(zhuǎn)換"、通配字符搜索"、詞組搜索"和"多字段平行檢索"等多項(xiàng)智能搜索功能,從而更加高效、便捷獲取有用信息。
提供多重模板設(shè)計(jì)功能,可按照用戶自身需求輕松修改搜索結(jié)果的顯示畫面;并可依據(jù)不同的搜索方式,套用可獲得不同的搜索結(jié)果的模板文件。提供"機(jī)動(dòng)權(quán)值排序機(jī)制"、"階層式分類目錄"、"動(dòng)態(tài)關(guān)聯(lián)詞、聯(lián)想詞提示"等功能,向用戶提供更友好的搜索界面,增加搜索結(jié)果的適用性。
采用"多線式資料獲取機(jī)制"、"平行索引模式"、"動(dòng)態(tài)文件分析技術(shù)"及"實(shí)時(shí)差異式索引更新技術(shù)"等多種功能,有效提高文件與數(shù)據(jù)庫的索引速度,大幅降低索引等候時(shí)間和更新周期。提供"多重索引數(shù)據(jù)庫"架構(gòu)及"群組式分類目錄"功能,縮短資料索引時(shí)間,靈活整合文檔資料。
3.1知識(shí)的定義
知識(shí)是人類對(duì)客觀世界的認(rèn)識(shí),通常知識(shí)是先由底層數(shù)據(jù)經(jīng)過分類、歸納、綜合等處理過程而得到的上層信息,這種信息再經(jīng)過解釋、比較、推理得到我們所獲取的知識(shí),這種過程主要是在語義的層面來進(jìn)行的。
3.2知識(shí)的類型:過程型知識(shí)、描述型知識(shí)和元知識(shí)。
3.3知識(shí)的表示
知識(shí)表示是指知識(shí)在計(jì)算機(jī)內(nèi)部的存儲(chǔ)和組織,是數(shù)據(jù)結(jié)構(gòu)和解釋過程的結(jié)合。數(shù)據(jù)結(jié)構(gòu)用于知識(shí)的形式化描述,而解釋過程則用來說明知識(shí)的現(xiàn)實(shí)含義。知識(shí)的表示方法主要有一階謂詞邏輯表示法、產(chǎn)生式表示法、語義網(wǎng)絡(luò)表示法和面向?qū)ο蟮闹R(shí)表示方法等。
3.3.1一階謂詞邏輯表示法
謂詞的一般形式為P(x1,x2,…,xn),其中,P是謂詞;x1,x2,…,xn是個(gè)體(常量、變?cè)蚝瘮?shù))。謂詞邏輯適用于表示事物的狀態(tài)、屬性、概念等事實(shí)性的知識(shí),也可以用來表示事物間確定的因果關(guān)系,即規(guī)則。例如:"書在課桌上"可以描述成:ON(book,desk)。謂詞邏輯是一種形式語言,是目前能夠表達(dá)人類思維活動(dòng)的一種最精確的語言,它與人類的自然語言比較接近,因此一階謂詞邏輯表示方法是最早使用的一種知識(shí)表示方法。它具有簡(jiǎn)單、自然、精確、靈活、容易實(shí)現(xiàn)等優(yōu)點(diǎn)。
3.3.2產(chǎn)生式表示法
產(chǎn)生式表示法又稱為產(chǎn)生式規(guī)則表示法它是依據(jù)人類大腦記憶模式中各種知識(shí)之間的大量存在的因果關(guān)系,以"IF-THEN"的形式,即產(chǎn)生式規(guī)則表示出來的。它的基本結(jié)構(gòu)包括前提和結(jié)論兩部分:前提(IF部分)描述狀態(tài),結(jié)論(THEN部分)描述在狀態(tài)存在的條件下所做的某些動(dòng)作:
前提狀態(tài)→結(jié)論動(dòng)作或 IF狀態(tài)THEN動(dòng)作
整個(gè)產(chǎn)生式的含義是:如果前提被滿足,則可推出結(jié)論或執(zhí)行所規(guī)定的操作。產(chǎn)生式表示法具有自然性好,便于推理的優(yōu)點(diǎn),且有利于對(duì)知識(shí)的增加、刪除和修改。另外,產(chǎn)生式表示法既可以表示確定性知識(shí),又可以表示不確定性知識(shí);既有利于表示啟發(fā)式知識(shí),又可方便地表示過程性知識(shí);既可表示領(lǐng)域知識(shí),又可表示元知識(shí)。但是產(chǎn)生式表示法不能表達(dá)具有結(jié)構(gòu)性的知識(shí),工作效率不高;而且在求解復(fù)雜問題時(shí)容易引起組合爆炸。
3.3.3語義網(wǎng)絡(luò)表示法
語義網(wǎng)絡(luò)是一種通過概念及其語義關(guān)系來表示知識(shí)的一種網(wǎng)絡(luò)圖。一個(gè)語義網(wǎng)絡(luò)就是一個(gè)帶有標(biāo)志的有向圖。其中,有向圖的節(jié)點(diǎn)表示各種事物、概念、動(dòng)作、狀態(tài)、屬性等;有向弧表示它所連接的節(jié)點(diǎn)間的某種語義聯(lián)系,每個(gè)節(jié)點(diǎn)可以包含若干個(gè)屬性。語義網(wǎng)絡(luò)表示法具有靈活、自然、易于實(shí)現(xiàn)、善于表示結(jié)構(gòu)性知識(shí)等優(yōu)點(diǎn)。語義網(wǎng)絡(luò)表示法的局限性主要表現(xiàn)在它對(duì)知識(shí)表示的非嚴(yán)格性,這使得有可能存在二義性,而且存在知識(shí)處理的復(fù)雜性。
3.3.4面向?qū)ο蟮闹R(shí)表示方法
按照面向?qū)ο蠓椒▽W(xué)的觀點(diǎn),一個(gè)對(duì)象的形式可定義為四元組〈對(duì)象〉::=(ID,DS,MS,MI)。其中ID代表對(duì)象標(biāo)志符,DS代表數(shù)據(jù)結(jié)構(gòu),MS代表方法集合,MI代表消息接口。這種方法可以將知識(shí)抽象為對(duì)象的內(nèi)部狀態(tài)和靜態(tài)特征屬性進(jìn)行封裝和隱藏,而知識(shí)的處理方法表示為對(duì)內(nèi)部狀態(tài)和特征屬性的操作,并由消息接口與外界發(fā)生聯(lián)系。
3.4知識(shí)庫
知識(shí)庫是關(guān)于某一領(lǐng)域的陳述性知識(shí)、過程性知識(shí)和策略性知識(shí)的集合。知識(shí)庫中不但包含了大量的簡(jiǎn)單事實(shí),還包含了規(guī)則、過程型知識(shí)和策略性知識(shí)。從存儲(chǔ)知識(shí)的角度來看,以描述型方法來存儲(chǔ)和管理知識(shí)的機(jī)構(gòu)叫做知識(shí)庫。從使用知識(shí)的角度來看,知識(shí)庫是由知識(shí)和知識(shí)處理機(jī)構(gòu)組成。
3.5知識(shí)庫系統(tǒng)
3.5.1知識(shí)庫系統(tǒng)的體系結(jié)構(gòu)
知識(shí)庫系統(tǒng)包括知識(shí)的獲得、利用和管理三個(gè)方面。知識(shí)庫、推理機(jī)及存貯器是知識(shí)庫系統(tǒng)的三個(gè)組成要素。知識(shí)庫系統(tǒng)的核心組成部分是知識(shí)庫和推理機(jī)構(gòu)。
3.5.2推理機(jī)構(gòu)
利用知識(shí),解釋輸入的數(shù)據(jù)或事實(shí),推導(dǎo)出用戶所需的結(jié)論;并根據(jù)要求,說明得出結(jié)論的依據(jù),用于進(jìn)行這種推理控制的模塊稱為推理機(jī)構(gòu)。推理機(jī)構(gòu)應(yīng)具備以下四個(gè)功能:
(1)知識(shí)庫中新知識(shí)的獲取功能。
(2)推理機(jī)構(gòu)與知識(shí)庫相互獨(dú)立功能。
(3)知識(shí)庫中信息交換及知識(shí)擴(kuò)充功能。
(4)知識(shí)庫與待解決問題之間的協(xié)調(diào)功能。
目前的搜索引擎具有關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),為了克服這些缺點(diǎn),應(yīng)該采用自然語言理解技術(shù)來進(jìn)行自然語言智能答詢。這樣就可以將信息檢索從目前基于關(guān)鍵詞的層面提高到基于知識(shí)(或概念)的層面,對(duì)知識(shí)有一定的理解與處理能力,可以實(shí)現(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識(shí)別以及機(jī)器翻譯技術(shù)等。下面就是當(dāng)前智能搜索引擎基于知識(shí)庫系統(tǒng)所采用的一些自然語言理解技術(shù)。
關(guān)鍵詞查詢的前提是將查詢條件分解成若干關(guān)鍵詞。對(duì)英文而言,一個(gè)單詞就是一個(gè)詞,但中文詞之間的關(guān)系卻復(fù)雜得多,主要問題是中文詞與詞之間沒有界定符,需要人為切分,但人為的切分有很大的靈活性和操作性,往往容易產(chǎn)生詞義失真。
漢語詞語之間復(fù)雜性的另一個(gè)方面是同義詞的問題,同一個(gè)詞組往往有許多不同的意思,處理同義詞的一種方法是在語義知識(shí)庫中人工構(gòu)造同義詞表,對(duì)專用領(lǐng)域的搜索引擎,這種方法是非常有效的。
用短語描述查詢請(qǐng)求的情況很常見,但是因?yàn)闈h語詞組的復(fù)雜性,所以在中文搜索引擎中,我們不能象英文詞組一樣簡(jiǎn)單的將中文短語分離成詞組。
以提供主動(dòng)服務(wù)為主的智能搜索代理技術(shù),能夠?qū)⑿畔⒅鲃?dòng)推送到用戶面前,免去了用戶被動(dòng)搜索的困擾。搜索的是活動(dòng)窗口而不是某一個(gè)關(guān)鍵詞的主導(dǎo)概念,增強(qiáng)了相關(guān)性提供的鏈接除網(wǎng)絡(luò)信息外,還包括客戶端的本地內(nèi)容、相關(guān)社區(qū)中的同類用戶及相關(guān)內(nèi)容的百科全書、參考資料等。
智能化搜索引擎能夠?qū)崿F(xiàn)信息服務(wù)的人性化、高效化,為用戶檢索互聯(lián)網(wǎng)信息提供了極大的便利。在應(yīng)用需求和相關(guān)科學(xué)技術(shù)的推動(dòng)下,智能搜索引擎技術(shù)正逐步發(fā)展起來,它將會(huì)越來越好地為人們的生活服務(wù)。
[1]殷雪松,徐斌.WWW網(wǎng)絡(luò)搜索引擎介紹.大學(xué)圖書館學(xué)報(bào),1998.
[2]吳丹.搜索引擎的智能化研究[J].情報(bào)理論與實(shí)踐,2002.
[3]李研,陳新中.基于web挖掘的智能門戶搜索引擎的研究[J].計(jì)算機(jī)工程與應(yīng)用,2002.
[4]張興華.智能搜索引擎的機(jī)理,實(shí)現(xiàn)技術(shù)及發(fā)展趨勢(shì)[J].現(xiàn)代情報(bào),2003.
[5]沈一棟.知識(shí)工程[M].北京:科學(xué)出版社,1992.