文|黃以寶
空間信息技術(shù)已經(jīng)成為眾多行業(yè)發(fā)展重要組成部分,這使得空間信息數(shù)據(jù)數(shù)量、質(zhì)量日益上升,對(duì)數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索等工作增加了難度,尤其是多樣化、復(fù)雜化空間信息元數(shù)據(jù),給搜索領(lǐng)域帶來(lái)諸多挑戰(zhàn)。本文主要分析自然語(yǔ)言發(fā)展現(xiàn)狀,明確自然語(yǔ)言處理空間信息檢索的優(yōu)勢(shì),而后剖析現(xiàn)階段自然語(yǔ)言檢索存在的不足,并提出了具體優(yōu)化應(yīng)用對(duì)策,旨在運(yùn)用自然語(yǔ)言處理工具,優(yōu)化空間信息檢索效果。
自然語(yǔ)言處理本質(zhì)上就是建立在統(tǒng)計(jì)學(xué)基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,可以處理、理解自然語(yǔ)言。將自然語(yǔ)言應(yīng)用到信息搜索引擎中,能夠更好理解用戶搜索行為,提升空間信息檢索準(zhǔn)確性,為用戶帶來(lái)良好使用體驗(yàn)。不少學(xué)者一直在探索嘗試在空間信息檢索中應(yīng)用自然語(yǔ)言處理技術(shù),目的在于使系統(tǒng)更好理解人類自然語(yǔ)言,發(fā)揮這一處理工具作用,提高檢索效果。
國(guó)外相關(guān)領(lǐng)域研究者要早于國(guó)內(nèi)學(xué)者發(fā)現(xiàn)自然語(yǔ)言工具性,并嘗試將其應(yīng)用到計(jì)算機(jī)編程語(yǔ)言中,以此提高用戶操作便利性,進(jìn)一步提高網(wǎng)絡(luò)檢索質(zhì)量,為用戶帶來(lái)良好的使用體驗(yàn)。由于國(guó)外研究技術(shù)受到較大局限,導(dǎo)致研究范圍非常有限,只能利用自然語(yǔ)言檢索簡(jiǎn)單內(nèi)容,通過(guò)自然語(yǔ)言處理一些單一的文檔、斷句,或者分析簡(jiǎn)單句子。在此后發(fā)展過(guò)程中,國(guó)外才有學(xué)者提出將自然語(yǔ)言應(yīng)用到空間信息檢索領(lǐng)域中,并在不斷研究中構(gòu)建受控語(yǔ)言的性能、信息檢索質(zhì)量問(wèn)題,使得復(fù)合詞、各詞之間的權(quán)重問(wèn)題得到合理解決。
相比之下,我國(guó)在自然語(yǔ)言處理應(yīng)用研究方面起步晚,直到20世紀(jì)90年代才受到相關(guān)領(lǐng)域重視。起初國(guó)內(nèi)學(xué)者在研究自然語(yǔ)言處理技術(shù)時(shí),只是單一的注重漢語(yǔ)自然語(yǔ)言標(biāo)注,研究?jī)?nèi)容并不全面。隨著計(jì)算機(jī)技術(shù)推廣普及,為滿足更多用戶多元化需求,相關(guān)領(lǐng)域?qū)W者進(jìn)行了進(jìn)一步探究。從實(shí)際研究過(guò)程看,不僅遇到諸多挑戰(zhàn),也受到漢語(yǔ)語(yǔ)言本身復(fù)雜性、多樣性影響,再加上我國(guó)學(xué)者缺乏自然語(yǔ)言檢索方面的理論、技術(shù)方面的支持,導(dǎo)致自然語(yǔ)言應(yīng)用到信息檢索領(lǐng)域研究工作各個(gè)環(huán)節(jié)備受阻礙,直接影響了此項(xiàng)技術(shù)在國(guó)內(nèi)的發(fā)展速度。
一是具有較強(qiáng)針對(duì)性。在空間信息檢索中應(yīng)用自然語(yǔ)言處理,可以針對(duì)性地檢索相關(guān)語(yǔ)言。比如在文獻(xiàn)、資料中隨意選取一個(gè)詞語(yǔ),將該詞語(yǔ)作為關(guān)鍵詞用于檢索相關(guān)內(nèi)容,能夠直接精確到具體的段落,這也足以證明自然語(yǔ)言處理方式具有極高的針對(duì)性。
二是準(zhǔn)確性極高。自然語(yǔ)言包含了大量文獻(xiàn)作者的書(shū)面語(yǔ)言,屬于一個(gè)龐大的書(shū)面語(yǔ)言庫(kù),因此,借助自然語(yǔ)言進(jìn)行信息搜索,可以直接具體到指定的位置,檢索準(zhǔn)確性非常突出。當(dāng)用戶根據(jù)自身需求進(jìn)行分類查詢時(shí),可以根據(jù)不同學(xué)科分類檢索,這與查詢方式同以往傳統(tǒng)受控語(yǔ)言相比,更加準(zhǔn)確快捷。
三是檢索更加方便快捷。傳統(tǒng)檢索會(huì)受到語(yǔ)言本身的限制,相比之下,基于自然語(yǔ)言處理技術(shù)的空間信息檢索更加便利,可以快速檢索。前提是用戶選擇的檢索關(guān)鍵詞與中心文獻(xiàn)詞語(yǔ)意思相近,若是意思偏離較大則無(wú)法體現(xiàn)這種便捷性、準(zhǔn)確性。用戶只需要使用自然語(yǔ)言,便可快速檢索,并獲得精準(zhǔn)信息內(nèi)容。
四是更新速度較快。對(duì)于一些文獻(xiàn)中出現(xiàn)的新詞語(yǔ),用戶可以將新詞語(yǔ)納入到檢索系統(tǒng)中,并設(shè)置對(duì)應(yīng)的檢索入口。與以往局限于語(yǔ)言搜索的方式相比,此種檢索方法適用性更強(qiáng),用戶只需要轉(zhuǎn)換相關(guān)詞義,利用一些意思、類型相近的規(guī)范化語(yǔ)句便可完成檢索任務(wù),此種檢索適用范圍更大,覆蓋面更廣。
五是具有較低容錯(cuò)率。在空間信息檢索中應(yīng)用自然語(yǔ)言,能夠拓展多條路徑,作為檢索入口,這在很大程度上可以降低出錯(cuò)率,有效防止受控語(yǔ)言搜索路徑少而產(chǎn)生的一系列問(wèn)題。
六是具有較高的自動(dòng)化水平。由于自然語(yǔ)言誕生在大數(shù)據(jù)、互聯(lián)網(wǎng)+環(huán)境下,所以語(yǔ)言標(biāo)引更加方便、快捷,具有較高的自動(dòng)化水平,用戶在實(shí)際應(yīng)用過(guò)程中,可以節(jié)約更多時(shí)間,提高檢索效率,整體應(yīng)用體驗(yàn)感較好。
七是節(jié)省更多時(shí)間和精力?;谧匀徽Z(yǔ)言處理下的空間信息檢索有統(tǒng)一標(biāo)準(zhǔn)。以往受控語(yǔ)言檢索中主要由標(biāo)引人員完成大量工作,但標(biāo)引人員作為獨(dú)立個(gè)體,其在學(xué)識(shí)、專業(yè)素養(yǎng)方面存在明顯差異。同時(shí)不同人的理解能力、判斷能力不同,所以極易導(dǎo)致詞語(yǔ)分類、選詞路徑差異,進(jìn)而影響到使用者信息檢索。相比之下,自然語(yǔ)言處理方法可以很好的規(guī)避這些現(xiàn)象,標(biāo)準(zhǔn)統(tǒng)一,很多自然語(yǔ)言主要選自“現(xiàn)成詞語(yǔ)”,所以即便解釋不同,其總體上也不會(huì)出現(xiàn)較大誤差,能夠保證為用戶提供統(tǒng)一的解釋,使得用戶信息檢索節(jié)省更多時(shí)間和精力。
通過(guò)上文分析不難發(fā)現(xiàn),將自然語(yǔ)言應(yīng)用到空間信息檢索中,具有明顯優(yōu)勢(shì),也表現(xiàn)出更為廣闊的發(fā)展前景。從實(shí)際應(yīng)用情況看,其中也存在一些不足,若想更好發(fā)揮自然語(yǔ)言檢索作用,有必要重視這些問(wèn)題。經(jīng)過(guò)具體分析后可知,若是自然語(yǔ)言應(yīng)用中不采用任何方式限制標(biāo)引詞語(yǔ),會(huì)導(dǎo)致搜索中出現(xiàn)較多的近義詞、同義詞,并且詞和詞之間的關(guān)聯(lián),也無(wú)法進(jìn)行準(zhǔn)確提示。在不設(shè)限制的情況下,會(huì)直接影響檢索準(zhǔn)確性,無(wú)法得到精準(zhǔn)檢索信息,出現(xiàn)一些明顯的錯(cuò)誤搭配,導(dǎo)致信息檢索范圍更大。除此之外,一些搜索引擎在開(kāi)發(fā)設(shè)置階段就不完善,比如缺乏明確的分類,各科目間界限模糊,知識(shí)體系梳理不明、缺乏嚴(yán)謹(jǐn)邏輯性等,都會(huì)嚴(yán)重影響到信息檢索質(zhì)量,導(dǎo)致檢索速度得不到提高。
總體來(lái)看,目前自然語(yǔ)言檢索主要問(wèn)題可以概括為兩點(diǎn):一是怎樣才能提取自然文本庫(kù)中最主要、最核心的詞語(yǔ)來(lái)明確表達(dá),針對(duì)用戶需求可以及時(shí)準(zhǔn)確滿足;二是改變一些不規(guī)范用語(yǔ)、語(yǔ)義關(guān)聯(lián)性等問(wèn)題。漢語(yǔ)言不僅語(yǔ)義復(fù)雜,而且有的漢語(yǔ)中詞與詞之間缺乏明確的分割符號(hào),往往一個(gè)漢字可以與其他多個(gè)漢字組合,最終表達(dá)的意思也多種多樣,不同詞語(yǔ)在不同語(yǔ)境下表達(dá)的含義也存在較大差異,針對(duì)此類問(wèn)題,若想使得計(jì)算機(jī)處理過(guò)程中可以準(zhǔn)確表達(dá),必須克服斷句難題,同時(shí)也要做到準(zhǔn)確識(shí)別一些漢字與詞語(yǔ)的具體連接,才能保證語(yǔ)句中相關(guān)語(yǔ)氣詞的理解正確。
在信息化時(shí)代,計(jì)算機(jī)依托互聯(lián)網(wǎng)技術(shù)得到進(jìn)一步發(fā)展,同時(shí)大眾對(duì)信息檢索的需求也發(fā)生了極大改變,以往代替檢索的中介性行為已經(jīng)無(wú)法迎合受眾需求,并且這種方式也很難實(shí)現(xiàn)大量數(shù)據(jù)資料的復(fù)制和應(yīng)用。現(xiàn)代社會(huì)多樣化發(fā)展,使得人們?cè)谛畔z索中,更想獲得知識(shí)并相互聯(lián)系,由此獲得新知識(shí),而非單一的將目錄相關(guān)內(nèi)容直接提供給用戶?,F(xiàn)階段,網(wǎng)絡(luò)搜索功能開(kāi)發(fā)與研究工作不斷深入,為更好滿足各類用戶多樣化需求,必須高度關(guān)注并深入了解用戶對(duì)空間信息檢索的喜好等特點(diǎn),全面了解并熟練掌握不同使用者的搜索習(xí)慣和行為,并與使用者過(guò)往搜索行為進(jìn)行對(duì)比,找出其中存在的誤差,以此作為依據(jù)和導(dǎo)向,逐步優(yōu)化、提升用戶體驗(yàn)感,減少錯(cuò)誤情況。
現(xiàn)代社會(huì),將智能化技術(shù)引入到信息檢索中,可以進(jìn)一步提高檢索技術(shù)智能化水平。智能化檢索技術(shù)主要原理就是通過(guò)模擬人腦,結(jié)合相關(guān)詞語(yǔ),借助大數(shù)據(jù)、云計(jì)算技術(shù),精準(zhǔn)、快速分析出用戶想要獲取的信息,并進(jìn)行展現(xiàn)?,F(xiàn)階段進(jìn)行智能檢索主要分為三個(gè)步驟:第一是理解語(yǔ)義;第二是管理知識(shí);第三是搜索知識(shí)。用戶根據(jù)自身需求輸入關(guān)鍵詞后,系統(tǒng)會(huì)自動(dòng)識(shí)別相關(guān)詞義,并進(jìn)行分類處理,而后提取數(shù)據(jù)庫(kù)中的準(zhǔn)確含義,通過(guò)整理后最終呈現(xiàn)給用戶。在自然語(yǔ)言檢索中,最為關(guān)鍵的技術(shù)就是智能代理技術(shù),該技術(shù)包含了一些關(guān)鍵性智能化程序,當(dāng)用戶在不斷搜索時(shí),該智能化程序會(huì)分析、學(xué)習(xí)用戶的搜索行為,了解用戶實(shí)際偏好,在此基礎(chǔ)上,通過(guò)搜索系統(tǒng)找出用戶需求的信息,在實(shí)際應(yīng)用中可以進(jìn)一步提高用戶信息檢索效率。同時(shí),智能化檢索技術(shù)也會(huì)不斷更新,更好為用戶服務(wù)??梢哉f(shuō),智能化檢索技術(shù)是結(jié)合用戶需求而不斷發(fā)展的,通過(guò)不斷分析、建立智能化數(shù)據(jù)庫(kù),構(gòu)建智能搜索模式,可以滿足數(shù)據(jù)庫(kù)自動(dòng)維護(hù)、數(shù)據(jù)庫(kù)自動(dòng)更新等功能,簡(jiǎn)化檢索流程,節(jié)省用戶搜索時(shí)間。
在空間信息檢索中,混合檢索技術(shù)的應(yīng)用受到業(yè)內(nèi)人士廣泛重視,混合檢索技術(shù)地主要工作機(jī)理就是對(duì)自然語(yǔ)言的良好控制,防止出現(xiàn)一些相近詞義大范圍出現(xiàn)的情況。深入分析混合檢索技術(shù)可知,其主要就是構(gòu)建一種混合詞表,在設(shè)計(jì)混合詞表過(guò)程中,并沒(méi)有具體要求,對(duì)精確度也不高,屬于一種較大范圍的詞表,并且數(shù)量非常少,通常只要幾百個(gè)詞匯便可形成一種長(zhǎng)條形的檢索流程。用戶在搜索標(biāo)引詞語(yǔ)時(shí),無(wú)法精確到具體的詞語(yǔ),只需要輸入一個(gè)模糊的詞語(yǔ),便可將文獻(xiàn)、資料中的詞語(yǔ)提取出來(lái)。此種混合檢索方式,不僅包含了傳統(tǒng)受控語(yǔ)言,也借助自然語(yǔ)言檢索,具有一定復(fù)雜性。
一方面,需要從先控技術(shù)入手,加強(qiáng)優(yōu)化。所謂先控技術(shù),主要就是在技術(shù)使用前建立一個(gè)與自然語(yǔ)言、檢索語(yǔ)言相對(duì)應(yīng)的語(yǔ)言庫(kù),當(dāng)中包含了自然語(yǔ)言和檢索語(yǔ)言,用戶在運(yùn)用自然語(yǔ)言檢索所需信息時(shí),計(jì)算機(jī)系統(tǒng)可以結(jié)合對(duì)應(yīng)的自然語(yǔ)言,找出相關(guān)檢索語(yǔ)言,借助這種互換體系,實(shí)現(xiàn)對(duì)文本庫(kù)內(nèi)容的精準(zhǔn)檢索。在實(shí)際檢索中,該方法僅僅是一小部分,對(duì)原有標(biāo)引工具、相關(guān)數(shù)據(jù)信息并無(wú)影響,由于其存在可以提升受控語(yǔ)言性能,使自然語(yǔ)言自身的優(yōu)勢(shì)得以充分發(fā)揮,這在很大程度上可以提高檢索準(zhǔn)確性,進(jìn)而降低容錯(cuò)率,對(duì)使用者帶來(lái)很好的使用體驗(yàn)。
另一方面,除了先控技術(shù)之外,檢索過(guò)程中還涉及到后控技術(shù),后控技術(shù)主要應(yīng)用在人工智能檢索系統(tǒng)、后控詞表中。用戶利用關(guān)鍵詞進(jìn)行檢索后,在人工智能檢索技術(shù)作用下,可以分析、分類用戶自然語(yǔ)言,在此基礎(chǔ)上,運(yùn)用一些數(shù)據(jù)進(jìn)行轉(zhuǎn)化,并在計(jì)算機(jī)系統(tǒng)下準(zhǔn)確識(shí)別、規(guī)范檢索要求,使得對(duì)應(yīng)指令傳達(dá)給后續(xù)程序,最終檢索任務(wù)順利完成。分析這一過(guò)程不難發(fā)現(xiàn),后控技術(shù)在檢索技術(shù)中發(fā)揮著重要作用,若用戶輸入自然語(yǔ)言后,智能化機(jī)器可以結(jié)合自然語(yǔ)言情況,在后控詞表中提取出準(zhǔn)確、規(guī)范的詞語(yǔ),展現(xiàn)給用戶。用戶也可以根據(jù)提示,小范圍檢索。此技術(shù)可以作為自然語(yǔ)言檢索的補(bǔ)充,有效提高檢索精準(zhǔn)度。應(yīng)用此種方法,能夠在一定程度上放寬對(duì)標(biāo)引階段的控制。與此同時(shí),當(dāng)用戶利用這種方法進(jìn)行檢索時(shí),能夠以一個(gè)關(guān)鍵詞切入,而后從文本庫(kù)內(nèi)搜索出大量與之相近的等級(jí)詞、近義詞。用戶在檢索過(guò)程中,并不需要考慮自己搜索的主題、關(guān)鍵詞是什么,以及到底有哪些近義詞、等級(jí)詞等情況,而是直接利用后控技術(shù),獲得更多相關(guān)詞語(yǔ),并且獲取速度更快、檢索任務(wù)完成效率更高,這對(duì)用戶而言,會(huì)減少使用負(fù)擔(dān),提高檢索效率,帶來(lái)更多體驗(yàn)。
綜上所述,在自然語(yǔ)言檢索技術(shù)發(fā)展中,我國(guó)雖然起步較晚,但隨著技術(shù)人員不斷實(shí)踐與探究,已經(jīng)獲得很大的發(fā)展空間,各領(lǐng)域?qū)W者也都提高了對(duì)自然語(yǔ)言的重視程度。在日后研究中,希望有關(guān)學(xué)者和相關(guān)領(lǐng)域研究人員可以從其他語(yǔ)言學(xué)角度入手,深入探究存在于自然語(yǔ)言檢索過(guò)程中的問(wèn)題,并不斷積累經(jīng)驗(yàn),積極創(chuàng)新發(fā)展。