陳 銳,傅永梅,楊冬梅,陳建建
(山東華宇工學(xué)院,山東 德州 253000)
隨著互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的不斷發(fā)展,大數(shù)據(jù)概念越來(lái)越深入人心?;ヂ?lián)網(wǎng)信息量飛速增長(zhǎng),人們正處于信息爆炸時(shí)代,從龐大的信息中檢索到所需的資源,這是對(duì)信息檢索系統(tǒng)最大的挑戰(zhàn)。提高檢索系統(tǒng)的智能化是人們急需解決的問(wèn)題之一,大數(shù)據(jù)的發(fā)展為智能檢索系統(tǒng)設(shè)計(jì)提供了新的思路,其有利于我國(guó)智能檢索技術(shù)的發(fā)展和進(jìn)步。
信息資源利用過(guò)程中存在著信息資源過(guò)于分散的問(wèn)題?;ヂ?lián)網(wǎng)用戶為了查詢所需的信息,常常瀏覽不同的網(wǎng)站,嘗試各種不同的檢索方式,更換各種檢索關(guān)鍵詞,這樣的檢索不具有系統(tǒng)性,無(wú)形中降低了檢索效率。而大數(shù)據(jù)的使用和開發(fā),改變了傳統(tǒng)的信息存儲(chǔ)習(xí)慣,云端檢索的存在使得網(wǎng)絡(luò)用戶能夠借助大數(shù)據(jù)檢索平臺(tái)將檢索條件直接進(jìn)行整合,提高信息檢索的整體性。國(guó)內(nèi)外的搜索工具多種多樣,每個(gè)搜索引擎的建立基礎(chǔ)各不相同,但是每個(gè)搜索引擎也僅能涵蓋網(wǎng)絡(luò)資源的30%左右,其中可靠的信息只占很小的一部分,具有較大的局限性。用戶在網(wǎng)絡(luò)檢索中需要嘗試使用不同的檢索工具,才能找到自己滿意的信息資源。
現(xiàn)有的檢索工具大多需要用戶提供足夠準(zhǔn)確的檢索詞,利用關(guān)鍵詞、規(guī)則與分類讓客戶進(jìn)行判斷,但是與客戶缺乏充分的互動(dòng),不能智能化地詢問(wèn)和猜測(cè)客戶想法。大部分檢索系統(tǒng)都是采用不同的算法來(lái)匹配不同檢索詞,這種匹配方式導(dǎo)致系統(tǒng)不同,匹配結(jié)果也不相同,與用戶檢索式息息相關(guān)?,F(xiàn)有的檢索模式是采用集中串行式檢索,檢索效率較低,如果在某個(gè)節(jié)點(diǎn)出錯(cuò),會(huì)導(dǎo)致整個(gè)檢索過(guò)程受到嚴(yán)重影響[1]。
人工智能簡(jiǎn)稱AI,是當(dāng)前最前沿的科學(xué)技術(shù),通過(guò)模擬、延伸和擴(kuò)展,可使檢索系統(tǒng)越來(lái)越智能化,涉及社會(huì)新聞、文學(xué)知識(shí)及科學(xué)知識(shí)等學(xué)科,用戶借助信息檢索系統(tǒng)查找信息時(shí),如果系統(tǒng)智能性不夠,會(huì)導(dǎo)致信息不具有系統(tǒng)性和完整性。
基于大數(shù)據(jù)的智能檢索系統(tǒng)可分為以下幾部分,即知識(shí)存儲(chǔ)系統(tǒng)(知識(shí)庫(kù))、知識(shí)采集系統(tǒng)、知識(shí)處理系統(tǒng)及知識(shí)表達(dá)系統(tǒng)。
知識(shí)的保存是信息檢索過(guò)程中的重點(diǎn)建設(shè)部分,只有足夠的信息存儲(chǔ)量,才能保證信息檢索過(guò)程的覆蓋范圍,才能體現(xiàn)信息檢索的全面性和整體性。信息檢索根據(jù)檢索方式可以劃分為3種,即硬件設(shè)備檢索、軟件檢索和系統(tǒng)檢索。硬件設(shè)備中存儲(chǔ)的信息是所有軟件和系統(tǒng)檢索的根基,只有足夠數(shù)量的存儲(chǔ)量才能保證信息系統(tǒng)的完善性,為用戶提供良好的服務(wù),實(shí)現(xiàn)智能系統(tǒng)的開發(fā)和完善。知識(shí)的存儲(chǔ)應(yīng)是有序的、分門別類的,在存儲(chǔ)過(guò)程中應(yīng)重視知識(shí)間的關(guān)聯(lián)性,在系統(tǒng)分類的基礎(chǔ)上將知識(shí)有機(jī)關(guān)聯(lián)起來(lái),便于用戶對(duì)知識(shí)的調(diào)用及信息處理。
為了提高信息檢索系統(tǒng)中知識(shí)的豐富性,應(yīng)注重信息采集工作,要保證信息檢索系統(tǒng)中的知識(shí)與時(shí)俱進(jìn),充分實(shí)現(xiàn)知識(shí)的更新和補(bǔ)充。知識(shí)采集系統(tǒng)主要分為書本知識(shí)采集及數(shù)據(jù)知識(shí)檢索收集。書本知識(shí)采集系統(tǒng)是將書本信息進(jìn)行掃描,以PDF、Word等數(shù)據(jù)文本形式保存,將前人的經(jīng)驗(yàn)轉(zhuǎn)為文本數(shù)據(jù),分享給更多的人。數(shù)據(jù)采集系統(tǒng)主要分為以下幾個(gè)過(guò)程:一是建立鏡像,通過(guò)站點(diǎn)鏡像對(duì)網(wǎng)站內(nèi)容進(jìn)行復(fù)制,將內(nèi)容復(fù)制到系統(tǒng)中,實(shí)現(xiàn)采集效率的提高。二是采用智能化的信息監(jiān)控系統(tǒng),保證系統(tǒng)信息的合理性。三是對(duì)資源的智能發(fā)現(xiàn),出現(xiàn)新的信息資源后,知識(shí)庫(kù)中的信息能夠與其進(jìn)行交換,保證系統(tǒng)能夠自動(dòng)采集信息。四是智能信息資源的轉(zhuǎn)換,將信息資源進(jìn)行合理化的加工和分配,形成新的意義[2]。
在大數(shù)據(jù)環(huán)境下,網(wǎng)絡(luò)廣泛普及,智能技術(shù)廣泛應(yīng)用,用戶給軟件授權(quán)后生成通信協(xié)議,可使信息檢索順利進(jìn)行。例如:用戶需要搜索一個(gè)信息,但用戶又不太了解這個(gè)信息,智能化知識(shí)處理系統(tǒng)可以采用模糊處理,根據(jù)用戶之前的生活習(xí)慣和檢索習(xí)慣,給出與其相關(guān)的關(guān)鍵詞,并在篩選結(jié)果中進(jìn)行智能化鑒別,除去與搜索主題無(wú)關(guān)的、無(wú)用的信息,這種智能處理技術(shù)在多種搜索引擎中及大型數(shù)據(jù)庫(kù)中較為常見。智能處理系統(tǒng)的使用雖然處于起步發(fā)展階段,但在多個(gè)方面給人們帶來(lái)了便利,如在網(wǎng)絡(luò)管理方面,智能處理系統(tǒng)可以幫助用戶查找到最合適的網(wǎng)站下載資源,推送功能可使用戶找到最受大眾歡迎的網(wǎng)站,為生產(chǎn)和生活提供幫助。
知識(shí)處理技術(shù)主要分為幾個(gè)方面:一是信息過(guò)濾技術(shù)。進(jìn)行過(guò)濾和查詢,對(duì)網(wǎng)絡(luò)垃圾、病毒等進(jìn)行防范。在信息過(guò)濾技術(shù)中增加人工智能,可以使信息過(guò)濾更加靈活,體現(xiàn)智能化。二是圖像視頻檢索技術(shù)(機(jī)器視覺(jué))。將拍攝到的圖像進(jìn)行處理,轉(zhuǎn)化為圖像信號(hào),并從信號(hào)中提取出有用的信息。提取過(guò)程中,要充分重視圖像中的主要特征,根據(jù)這些特征采用計(jì)算機(jī)技術(shù)、數(shù)學(xué)分析及經(jīng)驗(yàn)來(lái)完成目標(biāo)檢測(cè)、跟蹤、識(shí)別和表達(dá)。三是自然語(yǔ)言處理技術(shù)。它是能夠被人類廣泛識(shí)別的語(yǔ)言,智能檢索系統(tǒng)需要將自然語(yǔ)言處理為機(jī)器語(yǔ)言,進(jìn)行加工后再轉(zhuǎn)化為自然語(yǔ)言。應(yīng)對(duì)自然語(yǔ)言加強(qiáng)研究,實(shí)現(xiàn)人與機(jī)器間的有效互動(dòng),使計(jì)算機(jī)能夠準(zhǔn)確判斷出自然語(yǔ)言是否可信,并完成自然語(yǔ)言的加工和理解[3]。
智能檢索的優(yōu)勢(shì)是實(shí)現(xiàn)與人的友好交流,一個(gè)成熟的智能檢索系統(tǒng)需要充分和人實(shí)現(xiàn)智能互動(dòng),“想用戶之所想,急用戶之所急”。智能檢索系統(tǒng)不僅要將信息準(zhǔn)確完整地搜集出來(lái),還需要將信息科學(xué)合理地向用戶進(jìn)行表達(dá),讓用戶能夠全面了解知識(shí)。知識(shí)表達(dá)系統(tǒng)的建立能夠更好地幫助用戶進(jìn)行信息劃分和查詢處理,挖掘出更多的信息資源,彌補(bǔ)過(guò)去智能處理信息的局限性,提高信息的交互性和流動(dòng)性[4]。
大數(shù)據(jù)、云計(jì)算等技術(shù)被人們廣泛應(yīng)用于信息檢索中,為互聯(lián)網(wǎng)發(fā)展帶來(lái)了巨大的機(jī)遇,影響著人們的生產(chǎn)和生活。在這種情況下,智能信息檢索技術(shù)改變了過(guò)去信息資源分散、算法匹配程度較差的問(wèn)題,充分實(shí)現(xiàn)了信息檢索過(guò)程的互動(dòng)性和智能化,大幅度降低了用戶檢索過(guò)程的時(shí)間成本?;诖髷?shù)據(jù)理念,應(yīng)加強(qiáng)智能檢索系統(tǒng)的設(shè)計(jì)工作,促進(jìn)信息檢索技術(shù)的進(jìn)步,為數(shù)據(jù)中國(guó)發(fā)展做出貢獻(xiàn)。