●陳 臣(蘭州商學(xué)院信息中心,蘭州 730020)
大數(shù)據(jù)時(shí)代基于個(gè)性化服務(wù)的數(shù)字圖書(shū)館數(shù)據(jù)搜索引擎設(shè)計(jì)
●陳臣(蘭州商學(xué)院信息中心,蘭州730020)
[關(guān)鍵詞]數(shù)據(jù)時(shí)代;數(shù)據(jù)搜索引擎;設(shè)計(jì);圖書(shū)館 數(shù)據(jù)搜索過(guò)程缺乏或所設(shè)置的 不準(zhǔn)確時(shí),搜索引擎可通過(guò)機(jī)器自主學(xué)習(xí)過(guò)程,保證所搜索的數(shù)據(jù)全面、準(zhǔn)確。第三,搜索引擎應(yīng)具備較強(qiáng)的讀者閱讀服務(wù)保障功能,可為用戶提供即搜即得、即搜即用、不搜即得的服務(wù)。搜索引擎應(yīng)具有較強(qiáng)的搜索數(shù)據(jù)預(yù)測(cè)和數(shù)據(jù)關(guān)系挖掘功能,可依據(jù)數(shù)據(jù)圖譜的關(guān)系挖掘出更深層次的知識(shí)關(guān)聯(lián)。用戶不通過(guò)數(shù)據(jù)搜索就可得到所需要的數(shù)據(jù)信息,搜索引擎可為用戶提供自動(dòng)推送式服務(wù)。[7]
[摘要]大數(shù)據(jù)時(shí)代,數(shù)據(jù)搜索引擎在用戶個(gè)性化服務(wù)保障過(guò)程中的重要性不斷增長(zhǎng)。本文設(shè)計(jì)了一種大數(shù)據(jù)環(huán)境下數(shù)字圖書(shū)館數(shù)據(jù)搜索引擎,該搜索引擎減少了大量的對(duì)歷史查詢的重復(fù)計(jì)算,節(jié)省了搜索時(shí)間,提高了查詢效率,并可使查詢成本最小,顯著提高了系統(tǒng)的整體搜索性能。
大數(shù)據(jù)時(shí)代具有數(shù)據(jù)規(guī)?;?shù)據(jù)類型多樣性、高價(jià)值、處理速度快和社會(huì)化5個(gè)特點(diǎn)。隨著數(shù)字圖書(shū)館讀者云閱讀需求和服務(wù)模式的變革,以及云計(jì)算技術(shù)、無(wú)線傳輸技術(shù)、傳感器網(wǎng)絡(luò)和閱讀終端技術(shù)的發(fā)展與普及,目前,基于大數(shù)據(jù)平臺(tái)為讀者提供安全、高效、經(jīng)濟(jì)、便捷、可定制的個(gè)性化閱讀推送式服務(wù),已成為圖書(shū)館用戶服務(wù)模式發(fā)展的一個(gè)重要趨勢(shì)。
大數(shù)據(jù)時(shí)代,圖書(shū)館的數(shù)據(jù)量呈現(xiàn)爆發(fā)式的增長(zhǎng),數(shù)據(jù)集的規(guī)模將達(dá)到TB或者PB的級(jí)別。此外,圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)將占據(jù)數(shù)據(jù)總量的80%以上,大幅度增強(qiáng)了數(shù)據(jù)存儲(chǔ)、管理、搜索和查詢的難度。傳統(tǒng)以數(shù)字文本存儲(chǔ)、搜索和分析的數(shù)據(jù)庫(kù)關(guān)聯(lián)算法、語(yǔ)義分析方法,已不適合大數(shù)據(jù)時(shí)代用戶服務(wù)高效、準(zhǔn)確、快速和經(jīng)濟(jì)的需求。因此,如何依據(jù)大數(shù)據(jù)時(shí)代讀者閱讀內(nèi)容和服務(wù)質(zhì)量需求,提高圖書(shū)館搜索引擎信息發(fā)現(xiàn)和知識(shí)挖掘的效率、容錯(cuò)性、可控性和可擴(kuò)展,確保信息搜索過(guò)程智能、快速、低成本和負(fù)載均衡,是關(guān)系讀者大數(shù)據(jù)時(shí)代閱讀滿意度和圖書(shū)館市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵。[1]
(1)用戶私有化數(shù)據(jù)快速增長(zhǎng)。大數(shù)據(jù)時(shí)代,以讀者個(gè)性化定制為核心的用戶推送式服務(wù),已成為數(shù)字圖書(shū)館服務(wù)模式變革的主要方向。為了滿足讀者數(shù)字化閱讀需求和提高用戶滿意度,圖書(shū)館將與云服務(wù)商、電子商務(wù)運(yùn)營(yíng)商、第三方增值服務(wù)商、通信服務(wù)商等,以大數(shù)據(jù)平臺(tái)數(shù)據(jù)共享的方式進(jìn)行服務(wù)數(shù)據(jù)和用戶數(shù)據(jù)資源共享。當(dāng)運(yùn)營(yíng)商所采集的用戶數(shù)據(jù)量達(dá)到一定規(guī)模后,會(huì)通過(guò)屏蔽搜索引擎和加密等技術(shù)手段,對(duì)所存儲(chǔ)的個(gè)人隱私數(shù)據(jù)進(jìn)行保密和屏蔽搜索。這大幅度增加了圖書(shū)館大數(shù)據(jù)共享平臺(tái)數(shù)據(jù)搜索體驗(yàn)的難度和可靠性,降低了所搜索數(shù)據(jù)的價(jià)值和數(shù)據(jù)可用性,嚴(yán)重影響了數(shù)字讀者個(gè)性化閱讀服務(wù)的質(zhì)量和用戶滿意度。[2]
(2)海量未WEB化的數(shù)據(jù)增加了數(shù)據(jù)搜索難度。大數(shù)據(jù)時(shí)代數(shù)據(jù)呈現(xiàn)海量級(jí)數(shù)增長(zhǎng)的態(tài)勢(shì)。圖書(shū)館所采集和用戶服務(wù)保障數(shù)據(jù),主要包括讀者閱讀行為數(shù)據(jù)、用戶個(gè)人信息數(shù)據(jù)、讀者社會(huì)關(guān)系數(shù)據(jù)、論壇與博客等社交流動(dòng)產(chǎn)生的數(shù)據(jù)、APP(Accelerated Parallel Processing)應(yīng)用產(chǎn)生的數(shù)據(jù)、個(gè)人云應(yīng)用產(chǎn)生的數(shù)據(jù)、物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)等。這些數(shù)據(jù)海量存儲(chǔ)于圖書(shū)館與其他共享服務(wù)商的數(shù)據(jù)中心,卻并未進(jìn)行有效的價(jià)值提取、類別劃分、組織編目、定位存儲(chǔ)、檢索維護(hù)和網(wǎng)頁(yè)WEB化,大幅度增加了數(shù)據(jù)搜索的復(fù)雜度、成本、時(shí)間和準(zhǔn)確性。
(3)要求搜索引擎具備較強(qiáng)的大數(shù)據(jù)價(jià)值發(fā)現(xiàn)功能。根據(jù)摩爾定律可得出,每18個(gè)月圖書(shū)館數(shù)據(jù)中心的存儲(chǔ)性能可提高一倍,同時(shí)存儲(chǔ)設(shè)備硬件成本降低一半。因此,大數(shù)據(jù)時(shí)代圖書(shū)館數(shù)據(jù)中心的存儲(chǔ)能力和成本,將不再是困擾大數(shù)據(jù)環(huán)境讀者服務(wù)有效性的主要因素,而大數(shù)據(jù)的價(jià)值挖掘和應(yīng)用有效性,則成為關(guān)系圖書(shū)館服務(wù)能力建設(shè)和用戶滿意度的關(guān)鍵。
大數(shù)據(jù)環(huán)境下,圖書(shū)館擁有的標(biāo)準(zhǔn)化、結(jié)構(gòu)化數(shù)
據(jù)約占數(shù)據(jù)總量的15%,近85%的數(shù)據(jù)為半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。部分關(guān)系用戶個(gè)性化服務(wù)有效性的重要數(shù)據(jù),則分別存儲(chǔ)于政府、第三方增值服務(wù)商和運(yùn)營(yíng)商的大數(shù)據(jù)庫(kù)中,并隨著其所擁有數(shù)據(jù)的數(shù)量、價(jià)值的快速增長(zhǎng)而具有較強(qiáng)的壟斷性。其次,服務(wù)數(shù)據(jù)具有內(nèi)容龐大和鏈接復(fù)雜的特點(diǎn),對(duì)搜索引擎的運(yùn)行效率、并發(fā)處理能力、智能化和經(jīng)濟(jì)性要求較高。[3]
(4)要求搜索引擎具備較強(qiáng)的可用性和可控性。大數(shù)據(jù)時(shí)代,圖書(shū)館通常以自建大數(shù)據(jù)平臺(tái)和簽署合作協(xié)議的方式,與相關(guān)政府?dāng)?shù)據(jù)庫(kù)、運(yùn)營(yíng)服務(wù)商大數(shù)據(jù)平臺(tái)、企業(yè)大數(shù)據(jù)平臺(tái)共享大數(shù)據(jù)資源。但是,不同的政府機(jī)構(gòu)、運(yùn)營(yíng)服務(wù)商和企業(yè)大數(shù)據(jù)平臺(tái)之間,可能存在數(shù)據(jù)存儲(chǔ)與管理標(biāo)準(zhǔn)不統(tǒng)一、不同的大數(shù)據(jù)平臺(tái)之間的數(shù)據(jù)缺乏橫向與縱向交流、平臺(tái)數(shù)據(jù)管理與搜索存在信息盲點(diǎn)、圖書(shū)館缺乏大數(shù)據(jù)管理與整合工具等問(wèn)題,會(huì)導(dǎo)致搜索引擎在數(shù)據(jù)搜索過(guò)程中降低數(shù)據(jù)的價(jià)值密度和共享性。因此,可能會(huì)影響數(shù)據(jù)采集、處理、分析和挖掘結(jié)果的可用性,最終將影響圖書(shū)館在制定讀者個(gè)性化服務(wù)策略、優(yōu)化服務(wù)資源、提高服務(wù)收益率和降低服務(wù)風(fēng)險(xiǎn)活動(dòng)的有效性。[4]
大數(shù)據(jù)時(shí)代,圖書(shū)館數(shù)據(jù)環(huán)境具有規(guī)模龐大、平臺(tái)結(jié)構(gòu)復(fù)雜、搜索效率和準(zhǔn)確率要求高、搜索時(shí)間和成本控制難度大的特點(diǎn)。因此,要求搜索引擎具備快速響應(yīng)和復(fù)雜查詢、分析的能力。同時(shí),可支持不同的大數(shù)據(jù)平臺(tái)系統(tǒng)結(jié)構(gòu),具有較高的容錯(cuò)性、可擴(kuò)展性和較低搜索延遲,數(shù)據(jù)接口開(kāi)放并向下兼容性。結(jié)合大數(shù)據(jù)時(shí)代數(shù)據(jù)環(huán)境特點(diǎn)和圖書(shū)館讀者個(gè)性化服務(wù)要求,本文設(shè)計(jì)的圖書(shū)館大數(shù)據(jù)搜索引擎如下圖所示。
圖 圖書(shū)館大數(shù)據(jù)搜索引擎
sss
設(shè)計(jì)的搜索引擎主要由爬蟲(chóng)與索引器、查詢器、HDFS(Hadoop Distributed File System)、Hbase、搜索管理平臺(tái)五部分組成。爬蟲(chóng)是一種自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的程序,負(fù)責(zé)在后臺(tái)從互聯(lián)網(wǎng)、圖書(shū)館與第三方大數(shù)據(jù)平臺(tái)、論壇與博客服務(wù)器、APP應(yīng)用服務(wù)器之中周期性地爬取數(shù)據(jù),并為數(shù)據(jù)建立索引。查詢器主要利用這些索引,通過(guò)檢索用戶的查找關(guān)鍵詞來(lái)產(chǎn)生查找結(jié)果。HDFS自動(dòng)提供了文件在集群中的存儲(chǔ)和冗余備份,是專為大文件的存儲(chǔ)而設(shè)計(jì)的。它將大的文件切分成多個(gè)小塊,然后將這些小塊分散存儲(chǔ)在多個(gè)數(shù)據(jù)結(jié)點(diǎn)中,具有存儲(chǔ)成本低廉、具備較強(qiáng)的容錯(cuò)性和數(shù)據(jù)快速讀取的特點(diǎn)。Hbase是一種分布式、半結(jié)構(gòu)化和基于列的分布式數(shù)據(jù)庫(kù),適合非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)??蓪?duì)HDFS之中提取出來(lái)的文件進(jìn)行存儲(chǔ)、修改與檢索。搜索管理平臺(tái)可根據(jù)用戶搜索定制需求,從Hbase中全面、準(zhǔn)確、經(jīng)濟(jì)、快速地提取出所需要的數(shù)據(jù)和信息。[5]
(1)應(yīng)具備較強(qiáng)的數(shù)據(jù)過(guò)濾和去重功能。大數(shù)據(jù)時(shí)代,數(shù)字圖書(shū)館除自身?yè)碛旋嫶蟮拇髷?shù)據(jù)用戶管理、服務(wù)平臺(tái)外,還可以簽署合作協(xié)議的方式,與第三方運(yùn)營(yíng)服務(wù)商、政府機(jī)構(gòu)和企業(yè)共享大數(shù)據(jù)信息平臺(tái)。圖書(shū)館大數(shù)據(jù)平臺(tái)內(nèi)部不同的存儲(chǔ)空間之間,以及圖書(shū)館大數(shù)據(jù)平臺(tái)與其他運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)之間,會(huì)不可避免地存在著大量重復(fù)數(shù)據(jù)。大量重復(fù)數(shù)據(jù)的存在,不但大幅度降低了圖書(shū)館大數(shù)據(jù)平臺(tái)的數(shù)據(jù)價(jià)值密度,而且嚴(yán)重影響了圖書(shū)館讀者大數(shù)據(jù)閱讀服務(wù)質(zhì)量。因此,圖書(shū)館必須提高搜索引擎的數(shù)據(jù)過(guò)濾和去重功能,來(lái)增強(qiáng)所搜索數(shù)據(jù)的價(jià)值密度和可用性。
首先,搜索引擎應(yīng)注重提取信息的代表性特征。應(yīng)從語(yǔ)義、用法、結(jié)構(gòu)和統(tǒng)計(jì)上,分析詞匯、短語(yǔ)、命名實(shí)體或流行用語(yǔ)的知識(shí)特征,明確各種類型重復(fù)數(shù)據(jù)的知識(shí)結(jié)構(gòu)方式,通過(guò)數(shù)據(jù)清洗、整合過(guò)程有效降低數(shù)據(jù)冗余。其次,搜索引擎應(yīng)根據(jù)用戶設(shè)定的搜索模式和數(shù)據(jù)權(quán)重,及時(shí)發(fā)現(xiàn)關(guān)系圖書(shū)館用戶服務(wù)和讀者閱讀體驗(yàn)的特征數(shù)據(jù)。同時(shí),應(yīng)具備快速搜索、精確處理、準(zhǔn)確排序和開(kāi)放接口的能力,并支持對(duì)博客、短信等非結(jié)構(gòu)化數(shù)據(jù)的分析。第三,搜索引擎應(yīng)擁有海量處理規(guī)模、多字段過(guò)濾、智能篩選、高效過(guò)濾的功能,具有較高的數(shù)據(jù)搜索效率和較低的數(shù)據(jù)發(fā)現(xiàn)成本。[6]
(2)搜索引擎擁有智能、自動(dòng)化的數(shù)據(jù)搜索能力。大數(shù)據(jù)時(shí)代,圖書(shū)館搜索引擎應(yīng)具備智能管理、自動(dòng)處理、自主學(xué)習(xí)和推薦服務(wù)的功能。首先,搜索引擎應(yīng)具備對(duì)已搜索過(guò)程記憶、未搜索數(shù)據(jù)預(yù)測(cè)、最佳搜索模式判定和自主學(xué)習(xí)的功能。能夠自動(dòng)發(fā)現(xiàn)、識(shí)別新的語(yǔ)言知識(shí)和適應(yīng)網(wǎng)絡(luò)環(huán)境變化,按照用戶搜索定義分類整理、過(guò)濾出所需的數(shù)據(jù)內(nèi)容。其次,當(dāng)
(3)搜索引擎系統(tǒng)應(yīng)功能強(qiáng)大和可靠。圖書(shū)館應(yīng)根據(jù)大數(shù)據(jù)時(shí)代讀者閱讀需求、用戶服務(wù)模式和數(shù)據(jù)環(huán)境特點(diǎn),加強(qiáng)搜索引擎的可用性、可控性和功能性建設(shè),確保搜索引擎可靠、易用、經(jīng)濟(jì)和便捷。首先,搜索引擎在設(shè)計(jì)過(guò)程中,應(yīng)對(duì)服務(wù)器日志數(shù)據(jù)、讀者訪問(wèn)記錄、Office文檔、XML格式的電子表格數(shù)據(jù)、博客與論壇數(shù)據(jù)、APP應(yīng)用產(chǎn)生的數(shù)據(jù)、圖片、音頻、視頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一搜索界面、統(tǒng)一運(yùn)營(yíng)模式和完成數(shù)據(jù)渠道的整合搜索。其次,通過(guò)建立高效的索引來(lái)加快數(shù)據(jù)的讀取速度和完整性檢查。索引過(guò)程應(yīng)盡量保證語(yǔ)句符合查詢優(yōu)化器的規(guī)則,避免進(jìn)行數(shù)據(jù)庫(kù)全表掃描以提高數(shù)據(jù)查詢的效率。同時(shí),搜索算法應(yīng)允許同步更新索引和搜索,保證優(yōu)先返回最佳查詢結(jié)果。第三,圖書(shū)館應(yīng)獨(dú)立或與第三方開(kāi)發(fā)商合作,利用谷歌、百度、亞馬遜、微軟等大型信息服務(wù)商預(yù)留的API(應(yīng)用程序編程接口),結(jié)合圖書(shū)館管理和讀者服務(wù)需求進(jìn)行二次開(kāi)發(fā),實(shí)現(xiàn)對(duì)大型信息服務(wù)商大數(shù)據(jù)庫(kù)的數(shù)據(jù)共享和增值服務(wù)。圖書(shū)館管理員和讀者可利用大型信息服務(wù)商的大數(shù)據(jù)處理能力,實(shí)現(xiàn)諸如用戶所處地理位置查找、在線翻譯、數(shù)據(jù)統(tǒng)計(jì)分析、大數(shù)據(jù)處理和云計(jì)算等大數(shù)據(jù)增值服務(wù)。
(4)提高搜索引擎的讀者個(gè)性化服務(wù)水平。大數(shù)據(jù)時(shí)代,圖書(shū)館用戶具有客戶群數(shù)量龐大、數(shù)據(jù)搜索需求個(gè)體差異大、單一用戶定制需求小和對(duì)搜索引擎定制能力要求高的特點(diǎn)。同時(shí),圖書(shū)館搜索引擎的系統(tǒng)功能,將由傳統(tǒng)IT環(huán)境下利用關(guān)鍵字進(jìn)行網(wǎng)站、網(wǎng)頁(yè)和匹配數(shù)據(jù)的查找,轉(zhuǎn)變?yōu)槊嫦蛴脩魝€(gè)性化需求的潛在數(shù)據(jù)挖掘和信息推薦搜索服務(wù)。
圖書(shū)館搜索引擎設(shè)計(jì)與實(shí)現(xiàn)中,首先,應(yīng)注重用戶個(gè)性化搜索服務(wù)的時(shí)效性要求。搜索引擎在用戶服務(wù)過(guò)程中,應(yīng)及時(shí)感知用戶大數(shù)據(jù)搜索的目的與內(nèi)容,并在用戶下一次搜索前快速做出響應(yīng)。其次,搜索引擎的設(shè)計(jì)應(yīng)基于先進(jìn)的信息統(tǒng)計(jì)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和知識(shí)管理等技術(shù),確保搜索引擎在運(yùn)行過(guò)程中,不會(huì)將用戶輸入的關(guān)鍵字作為唯一的搜索依據(jù),而應(yīng)將重點(diǎn)放在發(fā)現(xiàn)用戶真實(shí)信息與數(shù)據(jù)需求的語(yǔ)義搜索上。第三,搜索引擎在設(shè)計(jì)過(guò)程中,應(yīng)加強(qiáng)系統(tǒng)個(gè)性化搜索推薦算法的科學(xué)性與經(jīng)濟(jì)性,根據(jù)用戶特點(diǎn)和需求為用戶創(chuàng)建個(gè)性化定制推薦模型。并設(shè)置大數(shù)據(jù)搜索信息推薦的位置、大小、內(nèi)容、目數(shù)、URL范圍和展現(xiàn)形式等參數(shù),保證所推薦數(shù)據(jù)具有較高的價(jià)值密度、可靠性和可用性。[8]
(5)搜索引擎應(yīng)保護(hù)讀者的隱私安全。讀者隱私安全保護(hù),不僅關(guān)系讀者大數(shù)據(jù)環(huán)境閱讀活動(dòng)的安全性、有效性、滿意度和可持續(xù)性,同時(shí)也涉及圖書(shū)館服務(wù)的可用性、可靠性、市場(chǎng)競(jìng)爭(zhēng)力和未來(lái)發(fā)展,是大數(shù)據(jù)時(shí)代搜索引擎設(shè)計(jì)應(yīng)重點(diǎn)關(guān)注的問(wèn)題。
首先,圖書(shū)館應(yīng)結(jié)合國(guó)家的法律、法規(guī)和行業(yè)安全規(guī)定,對(duì)圖書(shū)館管理數(shù)據(jù)、讀者個(gè)人信息、用戶行為數(shù)據(jù)和社會(huì)關(guān)系數(shù)據(jù)進(jìn)行安全級(jí)別劃分。并與開(kāi)發(fā)者簽署搜索引擎開(kāi)發(fā)安全管理協(xié)議,通過(guò)數(shù)據(jù)屏蔽、高性能數(shù)據(jù)過(guò)濾接口等技術(shù)手段,限制搜索引擎對(duì)讀者隱私數(shù)據(jù)的采集。其次,針對(duì)搜索引擎讀取保密與隱私資料可能帶來(lái)的安全問(wèn)題,圖書(shū)館管理員應(yīng)利用robots協(xié)議,將放置圖書(shū)館系統(tǒng)管理密鑰、用戶服務(wù)系統(tǒng)帳號(hào)與密碼、讀者注冊(cè)信息數(shù)據(jù)、網(wǎng)站配置目錄、讀者社會(huì)關(guān)系等敏感文件的目錄,設(shè)置為拒絕搜索引擎讀取目錄,提高保密數(shù)據(jù)存儲(chǔ)的安全、可靠性。第三,應(yīng)加強(qiáng)圖書(shū)館內(nèi)部網(wǎng)絡(luò)與用戶訪問(wèn)的安全管理,防止管理員與讀者因訪問(wèn)非法網(wǎng)站而導(dǎo)致搜索引擎被病毒、木馬劫持,繞過(guò)網(wǎng)絡(luò)安全防御系統(tǒng)從內(nèi)部向大數(shù)據(jù)庫(kù)發(fā)起攻擊,導(dǎo)致讀者隱私數(shù)據(jù)被泄露、截獲、竊取和篡改。
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大數(shù)據(jù)將為圖書(shū)館運(yùn)營(yíng)、管理和讀者服務(wù)提供有效的數(shù)據(jù)應(yīng)用和決策支持,成為關(guān)系讀者個(gè)性化服務(wù)質(zhì)量保障和圖書(shū)館可持續(xù)發(fā)展的重要因素。但是,大數(shù)據(jù)環(huán)境也存在著數(shù)據(jù)海量、種類繁多、數(shù)據(jù)價(jià)值密度低和數(shù)據(jù)知識(shí)發(fā)現(xiàn)難度大的問(wèn)題。如何結(jié)合圖書(shū)館大數(shù)據(jù)環(huán)境特點(diǎn)和讀者服務(wù)需求,通過(guò)強(qiáng)化搜索引擎功能確保數(shù)據(jù)搜索過(guò)程可管、可控、經(jīng)濟(jì)和可用,已成為提高圖書(shū)館大數(shù)據(jù)時(shí)代服務(wù)能力和市場(chǎng)競(jìng)爭(zhēng)力的重要途徑。同時(shí),也是關(guān)系讀者大數(shù)據(jù)時(shí)代閱讀體驗(yàn)愉悅感和滿意度的關(guān)鍵因素。
因此,只有從圖書(shū)館大數(shù)據(jù)環(huán)境特點(diǎn)、讀者個(gè)性化服務(wù)能力建設(shè)、用戶閱讀需求和未來(lái)可持續(xù)發(fā)展出
發(fā),在搜索引擎設(shè)計(jì)與實(shí)現(xiàn)過(guò)程中堅(jiān)持安全、高效、智能和可擴(kuò)展的理念,才能保證大數(shù)據(jù)搜索、挖掘和信息發(fā)現(xiàn)過(guò)程全面、高效、精確和經(jīng)濟(jì),才能為圖書(shū)館大數(shù)據(jù)管理和讀者個(gè)性化服務(wù)提供科學(xué)、全面、經(jīng)濟(jì)、可靠的數(shù)據(jù)支持。
[參考文獻(xiàn)]
[1]王珊,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
[2]殷哲,曹炬.帶差商信息的云搜索優(yōu)化算法及其收斂性分析[J].計(jì)算機(jī)科學(xué),2012,39(1): 252-255,267.
[3]陳國(guó)華,等.基于學(xué)術(shù)社區(qū)的學(xué)術(shù)搜索引擎設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2011,38(8):171-175.
[4]康波,劉勝?gòu)?qiáng).基于大數(shù)據(jù)分析的互聯(lián)網(wǎng)業(yè)務(wù)用戶體驗(yàn)管理[J].電信科學(xué),2013(3):32-35.
[5]王大玲,等.基于用戶搜索意圖的Web網(wǎng)頁(yè)動(dòng)態(tài)泛化[J].軟件學(xué)報(bào),2010,21(5):1083-1097.
[6]余肖生,司新霞.基于聚類分析的元搜索引擎模型[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011, 25(6):69-72.
[7]李伏,朱青.混合MapReduce環(huán)境下大數(shù)據(jù)劃分的查詢優(yōu)化[J].計(jì)算機(jī)科學(xué)與探索,2012,6 (10):877-887.
[8]尤川川,張桂剛.一種基于大數(shù)據(jù)的有效搜索方法[J].計(jì)算機(jī)科學(xué),2013,40(6):183-186.
[收稿日期]2013-08-12 [責(zé)任編輯]菊秋芳
[作者簡(jiǎn)介]陳臣(1974-),男,副教授,碩士,研究方向:云計(jì)算,大數(shù)據(jù),數(shù)字圖書(shū)館建設(shè)。
[文章編號(hào)]1005-8214(2015)04-0091-03
[文獻(xiàn)標(biāo)志碼]A
[中圖分類號(hào)]G250.76