国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于矩陣分析的語義化web智能檢索平臺(tái)設(shè)計(jì)與研究*

2019-01-22 01:30:12
關(guān)鍵詞:檢索語義矩陣

黃 珍 蔡 亮

(蘭州文理學(xué)院數(shù)字媒體學(xué)院 甘肅蘭州 730000)

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息總量在不斷增加。信息數(shù)據(jù)的增加使可以開發(fā)的資源變得更多,越來越多的人能夠利用互聯(lián)網(wǎng)做信息的共享、利用和交流,不斷刷新自己的認(rèn)知,創(chuàng)新價(jià)值?,F(xiàn)在,人人基本都會(huì)利用檢索技術(shù)查找信息資源,這種方式也使人們的學(xué)習(xí)生活變得更加容易。目前,各領(lǐng)域?qū)W者都在致力于研究如何在互聯(lián)網(wǎng)環(huán)境中快速簡(jiǎn)單地提取出有價(jià)值的信息。網(wǎng)絡(luò)的表現(xiàn)形式為信息化形式,計(jì)算機(jī)自身是不能理解和處理網(wǎng)絡(luò)信息的,所以在建立信息格式時(shí)存在異構(gòu),而網(wǎng)絡(luò)語義具有多重性,在檢索、抽取、表達(dá)等方面都存在困難,目前主要的檢索技術(shù)還是利用關(guān)鍵字檢索,應(yīng)用數(shù)學(xué)算法實(shí)現(xiàn)搜索[1]。如何解決檢索過程的語義問題是當(dāng)前研究的重點(diǎn)。在檢索時(shí)加入語義的概念不僅可以實(shí)現(xiàn)網(wǎng)絡(luò)信息的預(yù)處理,而且能夠有效提高交所效率,真正意義的實(shí)現(xiàn)智能化檢索。

Web網(wǎng)絡(luò)可以將人們輸入的智能信息以一種特定的格式顯示出來,所以人們也稱web網(wǎng)絡(luò)是超媒體數(shù)字資源平臺(tái),web網(wǎng)絡(luò)會(huì)在上面顯示工作序列。語義化web智能檢索平臺(tái)是web網(wǎng)絡(luò)平臺(tái)的一項(xiàng)延伸,在語義化web網(wǎng)絡(luò)中信息擁有明確的格式,人們?cè)谌粘I钪姓f話會(huì)有一定的語法,但是機(jī)器并不具有人的思想觀念,所以必須通過智能化的手段將更復(fù)雜的語義轉(zhuǎn)給機(jī)器[2]。

基于矩陣分析技術(shù)設(shè)計(jì)并研究了一種新的語義化web智能檢索平臺(tái),分析了平臺(tái)的基本構(gòu)造,對(duì)平臺(tái)的軟件工作技術(shù)進(jìn)行了深入具體的剖析。文章研究的web智能檢索平臺(tái)是一種針對(duì)整個(gè)互聯(lián)網(wǎng)的檢索平臺(tái),換言之,是一個(gè)全球性平臺(tái),擁有全球性的數(shù)據(jù)庫,能夠精準(zhǔn)詳細(xì)地對(duì)信息進(jìn)行解釋和處理,對(duì)于以后的檢索發(fā)展有重要的指導(dǎo)意義[3]。

1 基于矩陣分析的語義化web智能檢索平臺(tái)框架設(shè)計(jì)

在矩陣分析技術(shù)中,所有的信息都擁有獨(dú)立自主的組織方式和存儲(chǔ)方式,信息檢索實(shí)際上并不只是單單地信息檢索,而是包含信息存儲(chǔ)和信息檢索。所以在設(shè)計(jì)智能檢索平臺(tái)時(shí)也要分兩方面設(shè)計(jì)[4],所設(shè)計(jì)的基于矩陣分析的語義化web智能檢索平臺(tái)框架如下圖1所示。

圖1 基于矩陣分析的語義化web智能檢索平臺(tái)框架

由圖1可知,信息存儲(chǔ)需要利用多方面的手段去搜索信息,在收集到的信息中進(jìn)行特征分析,根據(jù)一定的形式或者規(guī)則對(duì)信息進(jìn)行存儲(chǔ),而信息查找是信息存儲(chǔ)的逆過程,在存儲(chǔ)信息以后根據(jù)一定的規(guī)則整理信息,在數(shù)據(jù)庫中確定用戶需要的信息。

矩陣分析具有極高的自主性,可以快速準(zhǔn)確地對(duì)各個(gè)標(biāo)引程序包含的內(nèi)容作分析,然后進(jìn)行精確提煉,概括出一類信息表達(dá)的主旨概念,最后與檢索關(guān)鍵字對(duì)比[5]。

把信息檢索過程解剖開,可以發(fā)現(xiàn)這個(gè)過程是一個(gè)匹配的過程,是用戶將自己的需求與信息的存儲(chǔ)匹配到一起的過程。如果二者不存在共性,則代表檢索不成功,不能匹配,存儲(chǔ)的信息就不再具有意義。

智能檢索平臺(tái)具有不同的等級(jí)標(biāo)準(zhǔn),可以劃分成如下幾類:①按檢索對(duì)象可分為文本檢索和圖像檢索[6]。②按匹配方式可分為模糊檢索和精確檢索。③按檢索方法可分為邏輯檢索和嵌套檢索。

檢索本質(zhì)是一種串字符的匹配手段,計(jì)算機(jī)自身不具有轉(zhuǎn)換功能,如用戶輸入“study”這個(gè)單詞,計(jì)算機(jī)只能對(duì)應(yīng)的檢索出英文結(jié)果,不能找到中文“學(xué)習(xí)”這個(gè)詞對(duì)應(yīng)的解釋詞條。而引入矩陣分析的web智能檢索平臺(tái)能夠更加精準(zhǔn)地理解出用戶想要表達(dá)的信息,對(duì)檢索方案做出有效的改善[7]。

2 基于矩陣分析的語義化web智能檢索模型

每一個(gè)信息檢索系統(tǒng)都是利用算法模型來實(shí)現(xiàn)匹配的,在合理查詢信息的基礎(chǔ)上,計(jì)算相似度,按照信息排列相關(guān)的框架和算法。智能檢索模型是智能檢索平臺(tái)的一項(xiàng)核心內(nèi)容,在信息數(shù)據(jù)中尋找關(guān)鍵詞,引用不同的關(guān)鍵詞對(duì)信息做出區(qū)分[8]。在資源空間和信息空間中進(jìn)行匹配存在很大的不確定性,所以需要源源不斷的信息資源投入,這是一個(gè)摸索過程,在摸索中尋求最精的解決方案。

基于矩陣分析的語義化web智能檢索平臺(tái)包括四元內(nèi)容:①尋求數(shù)據(jù)與數(shù)據(jù)之間的邏輯關(guān)系,畫出邏輯關(guān)系視圖;②尋找用戶信息與信息之間的關(guān)系,建立查找集合和任務(wù)列表;④通過數(shù)學(xué)函數(shù)將用戶信息和計(jì)算機(jī)數(shù)據(jù)匹配出來,找出一個(gè)權(quán)重值;④構(gòu)建數(shù)據(jù)框架,分析數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,把所有數(shù)據(jù)和信息統(tǒng)合到一個(gè)框架中,形成語義化web智能檢索平臺(tái)模型[9],具體如圖2所示。

圖2 基于矩陣分析的語義化web智能檢索平臺(tái)

根據(jù)相關(guān)度判別各種方法,建立數(shù)學(xué)模型,由于判別方法的不同,所信息檢索模型也不同,包括邏輯模型、空間向量模型和統(tǒng)計(jì)模型[10]。這三種模型都是經(jīng)典模型的延展模型,在檢索時(shí)離不開關(guān)鍵詞。在文檔數(shù)據(jù)中,存在一些簡(jiǎn)單名詞,關(guān)鍵詞不能離開數(shù)據(jù)庫中的文檔數(shù)據(jù)。需要特別指出的是,用戶絕大多數(shù)搜索的關(guān)鍵詞都是名詞,相對(duì)于副詞和其他類連接詞而言,名詞的語義更加容易確定和識(shí)別[11]。當(dāng)然并非所有的關(guān)鍵詞都可以與文檔中的詞對(duì)應(yīng),需要在一系列關(guān)鍵詞中找出一個(gè)權(quán)重值,根據(jù)關(guān)鍵詞的重要性來進(jìn)行搜索[12]。

(1)布爾檢索模型。布爾檢索邏輯模型是最簡(jiǎn)單的檢索模型,在布爾邏輯中向用戶提出問題,選擇一組有效的指引詞,按照布爾邏輯劃分,在數(shù)據(jù)庫中搜索,每個(gè)提問都會(huì)得到一個(gè)對(duì)應(yīng)的邏輯匹配值。在布爾邏輯檢索模型中用戶需要一個(gè)簡(jiǎn)單的框架,在框架中羅列出各個(gè)提問的優(yōu)點(diǎn),可以完成快速檢索,檢索的結(jié)果也十分豐富。但是布爾檢索模型的檢索策略過于僵硬,只局限在關(guān)鍵詞的檢索,對(duì)于同義詞、近義詞和模糊性語句,布爾檢索模型的檢索效果往往不盡人意[13]。

(2)向量空間模型。也可以稱其為代數(shù)模型,具有很高的創(chuàng)造性,能夠精準(zhǔn)地揭示出文檔與數(shù)據(jù)之間的關(guān)系,但是復(fù)雜度和要求都要高于其它模型。向量空間模型包括屬性向量、數(shù)據(jù)向量和提問向量,在空間正產(chǎn)生不同的權(quán)重值,利用權(quán)重值決定檢索文獻(xiàn)之間的相關(guān)度。通常相關(guān)度越大,文檔數(shù)據(jù)與檢索數(shù)據(jù)的匹配能力越強(qiáng)。

向量空間模型引用最多的函數(shù)就是余弦函數(shù),在計(jì)算出各維空間中的文檔數(shù)量和提問數(shù)量中測(cè)量余弦夾角,當(dāng)提問向量和搜索向量余弦夾角一致時(shí),則代表二者相關(guān)性最強(qiáng)[14]。向量空間模型擁有自己獨(dú)立的排序系統(tǒng),在檢索后把根據(jù)相關(guān)度排列出來,相關(guān)系數(shù)越大,證明二者接近。

(3)概率檢索模型?;诟怕逝判蛟砼帕形臋n之間的關(guān)系。提問和數(shù)據(jù)不僅存在某種關(guān)系,而且存在某種概率上的聯(lián)系,所以判斷二者概率關(guān)系也能很容易地確定出檢索結(jié)果是否有效。概率模型不需要尋找一個(gè)特定函數(shù),只要找出相關(guān)度即可[15]。

隨著信息技術(shù)的發(fā)展,各種各樣新的模型被不斷提出,概率推理檢索模型具有一定的代表性。在一個(gè)概率推理模型中存在大量節(jié)點(diǎn),包括文檔節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)、信息管理節(jié)點(diǎn),能夠針對(duì)抽象文本、實(shí)體文本和特征文本進(jìn)行描述[16]。在查詢時(shí),用戶只要查詢某一節(jié)點(diǎn)即可。概率推理可以借助概率推理理論分析網(wǎng)絡(luò)節(jié)點(diǎn)之間的相關(guān)性,這種方式的理論基礎(chǔ)較為堅(jiān)實(shí)。

上述三種模型為經(jīng)典模型的延伸模型,目前也有一些模型是上述三種模型的延伸模型,檢索質(zhì)量更好,檢索效率更高。

3 基于矩陣分析的語義化web智能檢索平臺(tái)工作結(jié)構(gòu)

語義web可以與現(xiàn)有的所有網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)無縫對(duì)接,應(yīng)用服務(wù)能力極強(qiáng)。傳統(tǒng)的網(wǎng)絡(luò)只能根據(jù)現(xiàn)有的要求去連接,但是在web語義平臺(tái)中,就能夠?qū)⒉煌挠蛞淮芜B接到一起[17]。

在矩陣分析的基礎(chǔ)上研發(fā)的web智能檢索平臺(tái)工作結(jié)構(gòu)如圖3所示。

圖3 基于矩陣分析的語義化web智能檢索平臺(tái)工作結(jié)構(gòu)

由圖3可以看出,一個(gè)智能檢索平臺(tái)中包含多個(gè)層次:URI(統(tǒng)一字符編碼)、XML、本體、邏輯、證明、信任[18],具體如下:

(1)統(tǒng)一字符編碼層是web智能檢索平臺(tái)的編碼基礎(chǔ)層,能夠?qū)⒖绲貐^(qū)的字符編碼統(tǒng)一成為一個(gè)標(biāo)準(zhǔn)格式。在統(tǒng)一編碼層中用于標(biāo)準(zhǔn)的編碼字符集,即國(guó)際通用字符集,當(dāng)所有的信息資源精確成一個(gè)字符集后,精確檢索信息工作就會(huì)變得更加容易[19]。

(2)第二層為NS層,是基礎(chǔ)層的進(jìn)一步延展層,能夠?qū)π畔①Y源進(jìn)行基礎(chǔ)的編程,分析檢索詞的語法結(jié)構(gòu)。NS可以按照結(jié)構(gòu)、內(nèi)容和數(shù)據(jù)將標(biāo)記的語言分離,同時(shí)允許用戶做自行標(biāo)記,記錄發(fā)布的信息。NS層對(duì)文檔類型有一定的定義,可以通過標(biāo)簽約束關(guān)鍵詞與關(guān)鍵詞之間的結(jié)構(gòu)[20]。文檔機(jī)制通??梢詮恼Z法上表示數(shù)據(jù)內(nèi)容和結(jié)構(gòu),在格式化語言中表現(xiàn)信息資源。數(shù)據(jù)結(jié)構(gòu)和內(nèi)容的分離處理使計(jì)算機(jī)在理解結(jié)構(gòu)化語義和非結(jié)構(gòu)化語義上面更加容易。

(3)第三層是資源描述層,可以根據(jù)提供的語義模型描述資源,為資源描述提供一種有效的解決方式。資源描述層自身對(duì)于數(shù)據(jù)沒有特殊的規(guī)定,但是在描述時(shí),需要利用一個(gè)固定的體系。資源描述層具有很強(qiáng)的開放性,利用機(jī)器描述數(shù)字語言[21]。

(4)第四層是檢索擴(kuò)展層,可以分析各個(gè)資源之間的關(guān)系,展示資源與資源之間的關(guān)系,挖掘資源的進(jìn)一步含義,信息按照內(nèi)容和結(jié)構(gòu)分離,這種分離方式是一種完全意義的形式化分離,對(duì)計(jì)算機(jī)的數(shù)據(jù)理解能力有很高的要求。

(5)第五層是邏輯層,不僅能夠推斷規(guī)則,同時(shí)也能提供智能化服務(wù)[22]。

(6)第六層為證明層,根據(jù)各項(xiàng)函數(shù)以及數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,證明邏輯層的檢索結(jié)果是否正確。

(7)第七層為信任層。Web智能化檢索平臺(tái)必須要有相關(guān)的認(rèn)證理論和信任機(jī)制,根據(jù)這些信任機(jī)制確保建立的語義web是安全且有效的。用戶在網(wǎng)絡(luò)中不僅要建立合作的關(guān)系,還會(huì)有適當(dāng)?shù)慕灰?,所以該檢索平臺(tái)必須是安全可靠的,只有這樣才能真正意義上的實(shí)現(xiàn)廣泛使用。

5 實(shí)驗(yàn)研究

為了檢測(cè)文章設(shè)計(jì)的基于矩陣分析的語義化web智能檢索平臺(tái)的實(shí)際檢索效果,與傳統(tǒng)檢索平臺(tái)進(jìn)行了對(duì)比,設(shè)計(jì)了對(duì)比實(shí)驗(yàn)。

5.1 實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)參數(shù)如表1所示。

表1 實(shí)驗(yàn)參數(shù)

5.2 實(shí)驗(yàn)過程

根據(jù)設(shè)定的參數(shù)進(jìn)行實(shí)驗(yàn),選用傳統(tǒng)檢索平臺(tái)和文章研究的智能化檢索平臺(tái)同時(shí)檢索幾個(gè)關(guān)鍵詞,對(duì)比檢索時(shí)間和檢索內(nèi)容的相關(guān)度,分析兩種平臺(tái)的實(shí)際工作效果。

5.3 實(shí)驗(yàn)結(jié)果與分析

(1)檢索時(shí)間。觀察圖4可知,在搜索同一內(nèi)容時(shí),傳統(tǒng)平臺(tái)消耗的時(shí)間要多與文章研究的智能檢索平臺(tái)。如檢索內(nèi)容為2kb時(shí),傳統(tǒng)檢索平臺(tái)花費(fèi)的時(shí)間為1.1μs,而文章研究的智能化檢索平臺(tái)花費(fèi)的時(shí)間為0.21μs。

圖4 檢索時(shí)間實(shí)驗(yàn)結(jié)果

(2)檢索相關(guān)度實(shí)驗(yàn)結(jié)果。由圖5可知,智能化檢索平臺(tái)相對(duì)于傳統(tǒng)平臺(tái)檢索到的內(nèi)容與關(guān)鍵詞的相關(guān)度更高。如當(dāng)檢索內(nèi)容為20kb時(shí),傳統(tǒng)系統(tǒng)檢索到的結(jié)果與關(guān)鍵詞相關(guān)度為5%,文章系統(tǒng)檢索到的結(jié)果與關(guān)鍵詞相關(guān)度為16%。

圖5 檢索相關(guān)度實(shí)驗(yàn)結(jié)果

5.4 實(shí)驗(yàn)結(jié)論

由實(shí)驗(yàn)結(jié)果可知,傳統(tǒng)的檢索平臺(tái)和文章的檢索平臺(tái)都可以根據(jù)關(guān)鍵詞和輸入的信息進(jìn)行檢索工作,但是在檢索同一類型的信息時(shí),文章研究的智能檢索平臺(tái)檢索耗費(fèi)時(shí)間要遠(yuǎn)遠(yuǎn)少于傳統(tǒng)檢索平臺(tái)。而且在短時(shí)間內(nèi)文章研究的智能檢索平臺(tái)可以檢索到大量相關(guān)性內(nèi)容,但是傳統(tǒng)的檢索平臺(tái)檢索的內(nèi)容和關(guān)鍵詞相關(guān)度相差很大。

綜上所述,基于矩陣分析的語義化web智能檢索平臺(tái)檢索的能力要遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的檢索平臺(tái),消耗的成本更低,給用戶帶來的搜索體驗(yàn)更好,更加值得推廣和使用。

6 結(jié)束語

矩陣分析是一種有效的計(jì)算機(jī)智能技術(shù),可以賦予計(jì)算機(jī)人工性思維,在各個(gè)領(lǐng)域都有廣泛的應(yīng)用。利用矩陣分析技術(shù)設(shè)計(jì)了一款語義化web智能檢索平臺(tái),該款平臺(tái)將最先進(jìn)的智能技術(shù)引入其中,在布爾檢索模型、向量空間模型和邏輯模型三種模型上進(jìn)行延展,通過統(tǒng)一字符編碼層、NS層、資源描述層、檢索擴(kuò)展層、邏輯層、證明層和信任層來完成檢索工作。不僅能夠有效提高檢索質(zhì)量,同時(shí)也能提高檢索速度,廣泛適用于各種網(wǎng)絡(luò)檢索。文章研究的智能化檢索平臺(tái)缺少一定的實(shí)踐,在未來的使用中可能會(huì)出現(xiàn)一些未知性的問題,有待進(jìn)一步驗(yàn)證。

猜你喜歡
檢索語義矩陣
語言與語義
2019年第4-6期便捷檢索目錄
初等行變換與初等列變換并用求逆矩陣
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
矩陣
南都周刊(2015年1期)2015-09-10 07:22:44
認(rèn)知范疇模糊與語義模糊
語義分析與漢俄副名組合
巴彦县| 保康县| 永德县| 敖汉旗| 滨州市| 南阳市| 杭锦旗| 屯门区| 裕民县| 津市市| 平山县| 呈贡县| 阜阳市| 团风县| 巧家县| 白山市| 汕尾市| 元阳县| 石嘴山市| 连城县| 临颍县| 迁安市| 维西| 萨嘎县| 永寿县| 巴青县| 玉屏| 冀州市| 宁武县| 博野县| 广平县| 西充县| 拜泉县| 贡觉县| 溧阳市| 稻城县| 彭水| 乌审旗| 芦溪县| 英德市| 浦县|