◆王麗穎
(保利國防科技研究中心有限公司 北京 100088)
互聯(lián)網(wǎng)搜索引擎的特型展現(xiàn)技術
◆王麗穎
(保利國防科技研究中心有限公司 北京 100088)
互聯(lián)網(wǎng)搜索引擎一經(jīng)問世便為人們的生活帶來了極大的便利,有效提高了信息搜索的效率與質量,而特型展現(xiàn)技術的運用,使得搜索引擎再次得到發(fā)展,為用戶帶來了更加優(yōu)質的信息搜索體驗。本文將就特型展現(xiàn)技術在互聯(lián)網(wǎng)搜索引擎中的運用方式展開全面論述,希望能夠對信息搜索引擎的發(fā)展提供一定助益。
信息資源;互聯(lián)網(wǎng);搜索引擎;特型展現(xiàn)技術
現(xiàn)代人們對于網(wǎng)頁信息搜索的要求正在逐步提升,要求信息搜索必須要達到一定的效率以及準確度,信息服務要更加人性化、智能化。而特型展現(xiàn)技術的推出,改變了以往單一的信息搜索解答方式,不覺會得到更加豐富的信息收索結果,能夠滿足不同使用者的需求,同時信息形式更加多樣化,能夠成功激發(fā)出用戶的新需求,可以有效促進互聯(lián)網(wǎng)的發(fā)展。
1.1 特型展現(xiàn)技術
特性展現(xiàn)起源于谷歌,指的是運用信息圖譜形式來對用戶的搜索需求進行滿足,會根據(jù)用戶提供的關鍵詞,提供出完整性的信息內容{1}。這種技術在對信息內容進行展示時,還會在相應位置提供信息圖譜,像同領域人物、百科以及圖片等等,這樣不僅能夠滿足客戶的信息收索需求,同時還能為客戶提供更多信息選擇,服務更加人性化。這一技術的到來,使搜索引擎迎來了新的時代,各大網(wǎng)頁都對推出了相應的特型展現(xiàn)模式,該項技術的發(fā)展前景值得期待。
1.2 搜索引擎
所謂“搜索引擎”就是指,運用互聯(lián)網(wǎng)進行信息收集,并在整理之后提供給用戶進行查詢的信息系統(tǒng)[2]。目前我們已經(jīng)進入到了大數(shù)據(jù)時代,網(wǎng)絡信息內容規(guī)模極大,如果直觀進行信息提取難度較大。為了方便用戶進行使用,互聯(lián)網(wǎng)網(wǎng)站會通過信息搜索的方式,來提升相關信息的提取效率。主要是因為搜索引擎實際就是一種網(wǎng)絡服務設備,主要分為查詢軟件、搜索軟件以及索引軟件三部分內容,其索引數(shù)據(jù)庫規(guī)模極大,通過三種軟件的相互配合與使用,便能實現(xiàn)短時間內對信息內容的查詢工作。
通過對特型展現(xiàn)技術的分析可以發(fā)現(xiàn),該技術結構主要分為功能層、資源層以及中間資源層與控制層四部分內容[3]。而特型展現(xiàn)基礎與主要技術主要有知識生成、知識庫構建以及語義分析技術等內容,而按照互聯(lián)網(wǎng)環(huán)境特征而言,知識挖掘是以及網(wǎng)絡為基礎的數(shù)據(jù)提取方式。
就互聯(lián)網(wǎng)本質而言,其可以被視綜合型功能信息庫,會對信息實施過濾以及采集等處理之后,通過對文檔分類技術的運用,來對網(wǎng)頁頁面類型進行區(qū)分。且會就用戶視角,對用戶信息進行后期追蹤,從而判斷出用戶的信息查詢喜好,從而建立起用戶專屬樣本模型,進而向其提供更加合理的信息服務。同時特型展現(xiàn)技術會對數(shù)字信息進行轉化,將其規(guī)劃到特定分類體系之中,形成中間資源層,進而妥善解決知識共享與知識融合存在的弊端,保證獨立本體之間能夠構建起良好地關系表,實現(xiàn)共享與融合模式的切實落實,促進互聯(lián)網(wǎng)搜索引擎的發(fā)展。
3.1 建設知識庫
在進行知識和建設時,技術人員需要對五種知識庫進行構建:(1)屬性型。技術會按照實體、屬性以及相關附加信息的模式,進行該類型知識庫的建立,以便人們在進行信息搜索時,能夠得到更加全面的內容,像胡歌-職業(yè)-演員等等,會對資源信息進行有效挖掘,庫中資源以半結構化知識以及結構化知識為主;(2)專有名詞型。庫中資源以應用領域專名資源、分類以及熱度等專名信息為主;(3)上下層型。在該知識庫內,用信息儲存都有著一定的概念聯(lián)系,像植物-花卉-水仙等,是層次逐漸細化的概念組成方式,主要用于概念泛化以及推廣等方面;(4)標簽型。顧名思義該知識庫就是對信息內容進行標簽與分類,以便對其進行后續(xù)信息的搜索與推送,像電影捉妖記的標簽為電影、搞笑、奇幻等,會對實體描述進行一定程度的補充;(5)相關型。該知識庫是運用實體內在聯(lián)系,像人物之間的關聯(lián),如鄧超與孫儷是夫妻關系等等,來對信息進行組合。
3.2 知識挖掘技術
知識挖掘技術主要分為兩種,一種是知識資源整合技術,而另一種是整合資源再挖掘技術。在進行知識資源整合時,該項技術會對用戶日志、百科知識以及領域知識與網(wǎng)頁資源進行信息價值開發(fā)與整理,并將結果整合成為實體信息數(shù)據(jù)庫,這里的信息資源不僅儲存量較為豐富,而且能夠對信息關聯(lián)屬性進行精準描述,信息處理更加智能。
在信息完成整合之后,為了實現(xiàn)資源價值的最大化,還會運用資源挖掘技術對其內在價值進行開發(fā)。像“三元組”挖掘技術,可以自動對相應領域內部的垂直站點半結構以及結構信息進行開發(fā)。知識挖掘過程實際就是通過人工資能學以及統(tǒng)計學對資源實施整合與相應處理,主要會運用時間序列分析、數(shù)理統(tǒng)計以及多元統(tǒng)計等方式來完成相應的任務。而人工智能手段多以自動機為主,會對人類思維為模擬基礎,對現(xiàn)實世界問題進行科學分析與處理,該項技術在知識挖掘運用過程中,多以成熟性技術與算法為主,像模糊邏輯、人工神經(jīng)網(wǎng)絡以及規(guī)則推理等等。同時“專家系統(tǒng)技術”以及“運籌學技術”等新型技術也應用到了該項工作之中,為工作發(fā)展方向帶來了新的啟發(fā),信息資源挖掘水平勢必會得到不斷的提升。
3.3 語義分析技術
3.3.1 內涵
與傳統(tǒng)只對關鍵詞進行搜索的信息搜尋方式有所不同,語義分析技術的應用會使信息搜索變得更加智能化,會對關鍵詞進行更加深入的分析,并會對關鍵詞實體類型進行區(qū)別,同時會對實體屬性進行研究,例如會按照植物、顏色以及生長季節(jié)等內容逐一進行分析,內容涉及更加全面,可以對關鍵詞進行更加深層次的解讀。
3.3.2 技術組成
該項技術組成主要分為四個部分:第一,分析詞語相關性。
就是指對客戶關鍵詞進行分析,已明確客戶真實需求,并對關鍵詞相關內容進行確定;第二,關聯(lián)性知識設計。在對知識點之間的關聯(lián)性進行明確之后,該項技術會對知識相關內容進行推薦,例如在搜索張藝興母親時,該項技術不僅會提供張藝興母親的信息,同時還會對他其他家庭成員內容進行計算,并做出同時進行信息推出;第三,結果聚類。該項技術會對檢索結果整理與統(tǒng)計,并會對其實施聚類,會對每一類的代表性語義進行標注,并會按照語義標簽對搜索詞潛在需求進行分析;第四,知識展現(xiàn)相關性。該項技術會對用戶需求進行分析,并對檢出信息進行適當取舍與展現(xiàn),以確保能夠對用戶的信息搜索目標進行滿足,在實施分析過程中,會對用戶的實際性需求、潛在需求以及知識相關性需求等內容進行分析,從而在滿足用戶搜索目的的同時激發(fā)出用戶的新搜索意愿,進而獲得更大的經(jīng)濟效益[4]。
通過本文對互聯(lián)網(wǎng)搜索引擎以及特型展現(xiàn)技術相關內容的介紹,使我們對互聯(lián)網(wǎng)搜索中的特型展現(xiàn)技術有了更加深刻的了解。該項技術的到來,不僅有效提高了信息搜索的效率以及速度,而且推送信息內容更加豐富、多樣,這樣能夠在滿足用戶查詢需要的同時,為其提供更多相關信息選項,整體信息數(shù)據(jù)展現(xiàn)更加高效、準確,能夠對信息搜尋本體所關聯(lián)的內容進行更加全面的展現(xiàn),已經(jīng)成為了互聯(lián)網(wǎng)搜索引擎發(fā)展的最佳動力。
[1]高云全,李小勇,方濱興.物聯(lián)網(wǎng)搜索技術綜述[J].通信學報,2015.
[2]萬飛,趙溪,梁循,潘登,倪志豪.基于移動互聯(lián)網(wǎng)日志的搜索引擎用戶行為研究[J].中文信息學報,2014.
[3]陳弄祺.國內互聯(lián)網(wǎng)搜索引擎評價研究[J].統(tǒng)計與決策,2017.
[4]竇志成,文繼榮.大數(shù)據(jù)時代的互聯(lián)網(wǎng)分析引擎[J].大數(shù)據(jù),2015.
網(wǎng)絡安全技術與應用2017年4期