賈博研,王瑞琰,鄭宇峰,王丹丹
(江蘇大學,江蘇 鎮(zhèn)江 212013)
搜索的本質(zhì)是用戶通過互聯(lián)網(wǎng)工具找尋信息,搜索行為就是二者之間的交流。搜索引擎的更多渠道引導有效信息直達,從“單流主導”到“人與信息雙向互動”,從“信息找人”到雙向“選擇搜索”,形成“信息流”與“搜索流”的閉環(huán)。
早期的搜索引擎主要是PC端的信息檢索,單單通過技術爬蟲去全網(wǎng)抓取海量信息,供用戶使用;而現(xiàn)在的搜索引擎則是基于內(nèi)容平臺和移動互聯(lián)網(wǎng)的產(chǎn)物。移動時代到來后,海量APP涌現(xiàn),移動端的搜索引擎面對擁有海量客戶與優(yōu)質(zhì)內(nèi)容的平臺,需要在技術與內(nèi)容上不斷優(yōu)化,在實現(xiàn)精確搜索的同時,通過地理與時間標簽,發(fā)掘用戶興趣,提高用戶粘性[1]。
若兩個或多個變量的取值之間存在某種規(guī)律,就稱為關聯(lián)。關聯(lián)規(guī)則是尋找同一個事件中出現(xiàn)的不同項的相關性,比如,在一次購買活動中所購買不同商品的相關性。關聯(lián)分析,即利用關聯(lián)規(guī)則進行數(shù)據(jù)挖掘,目的是挖掘隱藏在數(shù)據(jù)間的相互關系,自動探測以前未發(fā)現(xiàn)的、隱藏著的新模式[2]。
解決關聯(lián)規(guī)則問題的原始算法是AIS算法,為改進AIS算法,提出了OCD算法、Apriori算法。由于Apriori算法I/O開銷很大,因此,大多改進算法都在如何減少搜索次數(shù)上做文章。其后又提出一個基于Hash技術的DHP算法與數(shù)據(jù)進行分區(qū)的Partition算法。Partition算法提出了頻繁模式增長(FP-Growth)的思想,設計了基于該思想的頻繁模式樹(FP-tree)存儲結構,并在此結構上的頻繁模式挖掘算法FP-growth,F(xiàn)P-growth在效率上較Apriori算法有較大的提高。在國外,關聯(lián)規(guī)則已經(jīng)進入產(chǎn)品化階段。
近年來,國內(nèi)隨著大數(shù)據(jù)時代的到來和互聯(lián)網(wǎng)的發(fā)展,關聯(lián)規(guī)則算法開始應用于各方面,如:挖掘電子商務潛在客戶,在臨床醫(yī)療診斷、精準扶貧中的應用,基于關聯(lián)規(guī)則分析的物流定制服務推送系統(tǒng)、學校教育和學生行為分析等[3]。
現(xiàn)如今,在智能搜索引擎的發(fā)展中,關聯(lián)規(guī)則能夠提供一定技術支持,進行搜索引擎優(yōu)化(Search Engine Optimization,SEO)。關聯(lián)規(guī)則的概念擴展包括:頻繁模式、序列模式挖掘、時序模式挖掘、空間模式挖掘、結構(圖)挖掘、多媒體挖掘、其他高級挖掘等方面,對搜索引擎搜索與推薦等不斷進行優(yōu)化,可通過用戶搜索索引提取時間、地理標簽等,進一步搭建用戶興趣庫模型,與用戶保持良好粘性。
搜索引擎的工作原理是從互聯(lián)網(wǎng)上抓取網(wǎng)頁,建立索引數(shù)據(jù)庫并進行搜索排序。整個工作過程大體分為4個部分:信息采集、信息分析、信息查詢和用戶接口。
搜索引擎的信息主要源自于互聯(lián)網(wǎng)網(wǎng)頁,通過網(wǎng)絡爬蟲將整個互聯(lián)網(wǎng)的信息獲取到本地,當搜索引擎接收到用戶的查詢后,首先,需要對查詢詞進行分析,結合查詢詞和用戶信息來正確推導用戶的真正搜索意圖。其次,檢索器根據(jù)用戶輸入的關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。
結果排序最重要的兩個參考排序中,一個是內(nèi)容相似性因素,即網(wǎng)頁是和用戶查詢密切相關的;另外一個是網(wǎng)頁重要性因素,即網(wǎng)頁是質(zhì)量較好或相對重要的,往往從鏈接分析的結果獲得。結合以上兩個考慮因素,就可以對網(wǎng)頁進行排序,作為用戶查詢的搜索結果。搜索引擎的最重要目的是為用戶提供準確、全面的搜索結果,滿足用戶查詢需求并實時提供準確結果,最終構成了搜索引擎前臺計算系統(tǒng)。
本次研究實際體驗各搜索引擎的搜索效率、設計及用戶體驗等,并進行橫向比較,以“世界上最大的島嶼是”為檢索字句,體驗結果如表1所示。
表1 各搜索引擎體驗分析
對于用戶現(xiàn)階現(xiàn)使用搜索引擎現(xiàn)狀的數(shù)據(jù)獲取,本次研究采用了問卷調(diào)查法,共收集問卷217份,皆為有效數(shù)據(jù),基于此,共分為以下4個方面對用戶使用情況做數(shù)據(jù)分析。
常用搜索引擎使用占比:百度為34%,自帶瀏覽器為20%,360搜索為20%,其他占比相對較低,對于搜索引擎的使用主要為國內(nèi)搜索引擎,且對于移動設備的搜索引擎有一定依賴性;對于調(diào)查人員,18~25歲居多,使用搜索引擎的年限為6年以上的人群占比超過50%,在一定程度上表明搜索引擎在用戶的使用中仍占有重要地位[4]。
對于無法使用平臺的失望度可側面反映用戶對于平臺的依賴性,對于所搜集的數(shù)據(jù)進行統(tǒng)計,將近90%的用戶對搜索引擎平臺有較強的依賴性;同時,對于附加擴展應用的用戶使用情況,在一定程度上也表明用戶對于搜索引擎的粘性。
對于平臺使用頻率(見圖1),結合調(diào)查的用戶學歷發(fā)現(xiàn),高學歷人群使用搜索引擎的頻率相對較高,專本科及本科以上的用戶使用搜索引擎的頻率平均每天10次以上,在一定程度上表明對于知識、信息的獲取,有專業(yè)研究的人群更傾向于對搜索引擎的使用。
對于搜索平臺的使用,大部分是需要查詢特定信息,對于搜索平臺的選擇因素,主要看重搜索平臺使用的簡易度、搜索范圍、搜索準確度與相關瀏覽信息等;對于平臺的使用期望最首要的就是搜索結果的準確性、搜索頁面的簡潔性、減少廣告的植入,并由搜索信息對于其他知識領域的擴展等方面,對于平臺的個性化搜索期望不高。
搜索內(nèi)容的選擇性瀏覽方面,用戶會優(yōu)先選擇與信息相關度較高詞條,描述內(nèi)容簡單易懂,對于搜索結果的返回,一些信息的更新也會對內(nèi)容的選擇有一定影響,如圖2所示。
圖1 搜索引擎使用頻率
圖2 搜索內(nèi)容選擇
隨著互聯(lián)網(wǎng)的誕生與新技術的不斷興起,處于信息時代的用戶最重要的就是對信息的檢索與獲取。搜索引擎平臺除了提供搜索功能外,現(xiàn)下智能化互聯(lián)網(wǎng)搜索與推薦應用也將會推動搜索引擎的進一步更新與完善,兼具搜索與自動問答功能,并結合可視化技術,能為用戶更好地提供檢索服務[5]。
Google,Yahoo、百度、搜狐等傳統(tǒng)的搜索引擎也在不斷探索新的、符合時代潮流的搜索方式,并隨之衍生了個性化推薦的功能,讓用戶不僅能夠主動搜索信息,也能被動接受自己需要信息的擴展部分。對于興起的、結合社交媒介的社會化引擎,更傾向于將自己定位為社交與新聞熱點推薦的引擎產(chǎn)品,即為用戶提供有特色的、個性化的信息。無論是傳統(tǒng)的搜索引擎,或是社會化搜索引擎,都面臨著如何保持用戶粘性與提高用戶體驗的問題。
5.2.1 搜索界面的優(yōu)化
依據(jù)問卷數(shù)據(jù)可知,用戶對于搜索界面的簡潔度選擇有一定偏好;在搜索入口的優(yōu)化方面,可以設置多個小搜索入口,如熱點推薦、猜你喜歡、與你相關、學科細分等;對于搜索路徑,也可以添加個性化時間搜索、位置搜索。
5.2.2 技術上的革新
技術決定搜索的體驗,搜索引擎的技術支持主要依賴于協(xié)同過濾算法與關聯(lián)規(guī)則算法,協(xié)同過濾算法對于電商平臺的個性化推薦有一定的準確性,而關聯(lián)規(guī)則在智能引擎上的應用也逐漸深入,二者結合推動智能引擎的發(fā)展。用戶檢索詞條記錄的數(shù)據(jù)庫要不斷更新,提高自然語言處理能力,建立詞條索引,通過對頻繁搜索索引,可在用戶再次搜索時進行推薦。對于用戶興趣庫的建立,也可關聯(lián)規(guī)則算法進行搭建,通過用戶的搜索行為及點擊行為對用戶行為心理進行分析,選擇適合用戶偏好的推薦結果,從而提高用戶與搜索引擎粘性。
5.2.3 內(nèi)容上的優(yōu)化
內(nèi)容是搜索的根本,對于用戶搜索內(nèi)容的返回,準確性為最首要的因素。返回結果的準確性也影響著用戶對于搜索引擎的粘性。對于內(nèi)容返回的準確性,一方面,要擴大檢索數(shù)據(jù)庫,聯(lián)合互聯(lián)網(wǎng)生成內(nèi)容,知識庫等;另一方面,要對檢索匹配技術進行優(yōu)化,提取有效信息。
對于搜索引擎,要提供多場景優(yōu)質(zhì)內(nèi)容,滿足多行業(yè)搜索需求,依據(jù)問卷數(shù)據(jù),專業(yè)人士更傾向于使用搜索引擎以滿足知識需求,多場景打造垂直內(nèi)容,滿足多行業(yè)商業(yè)信息搜索需求。支持用戶創(chuàng)造內(nèi)容,國內(nèi)一些視頻軟件擁有巨大而無可替代的內(nèi)容池,建立了更加豐富與優(yōu)質(zhì)的內(nèi)容,搜索引擎也可與其結合,形成多場景、多內(nèi)容、多信息數(shù)據(jù)庫的聚合憑條,一站式滿足用戶需求,提高用戶與平臺的粘性。