陳 碩,李曉戈
(西安郵電大學(xué) 陜西 西安 710119)
當(dāng)今的人類社會已然步入到了信息時代,特別是受到各種自動化機(jī)器人大規(guī)模應(yīng)用影響,用戶行為得到了更加精細(xì)化的記錄,若能夠?qū)⒂脩粜袨閿?shù)據(jù)充分挖掘出來,進(jìn)而掌握其中的行為模式,對用戶需求做出預(yù)估,掌握經(jīng)濟(jì)社會需求規(guī)律,為用戶提供更具個性化的服務(wù),以實現(xiàn)對全社會生產(chǎn)效率的大幅度提升,有著巨大的現(xiàn)實意義。而在開展用戶行為分析工作時,對大數(shù)據(jù)與云計算技術(shù)的應(yīng)用便是其中必須要應(yīng)用到的技術(shù)手段,基于大數(shù)據(jù)與云計算背景下之下的用戶行為分析將迎來一輪新的發(fā)展高峰。
目前有關(guān)用戶行為分析的研究已經(jīng)取得一定的成果,但大數(shù)據(jù)的引入也為用戶行為分析帶來了許多新的難題,主要反映在以下幾方面當(dāng)中:
與以往的數(shù)據(jù)記錄方式相對比而言,大數(shù)據(jù)不單單僅是規(guī)模上的擴(kuò)大,且其本質(zhì)內(nèi)涵也發(fā)生了徹底性的轉(zhuǎn)變。以往所采取的用戶行為分析在數(shù)據(jù)存儲方面更多還是依靠的數(shù)據(jù)倉庫。然而基于大數(shù)據(jù)的背景下,數(shù)據(jù)存儲則會面臨數(shù)據(jù)前移代價過大及適應(yīng)性不強(qiáng)的問題。為應(yīng)對大規(guī)模數(shù)據(jù)信息存儲與處理,開展用戶行為分析將是必備前提。
(1)大數(shù)據(jù)信息的主要來源途徑之一即各種設(shè)備在運行過程中所產(chǎn)生出的數(shù)據(jù)信息,以及用戶在瀏覽網(wǎng)站過程中所產(chǎn)生出的交互信息,上述信息內(nèi)容存在著大量的半結(jié)構(gòu)化數(shù)據(jù)信息,且有許多數(shù)據(jù)仍未原始數(shù)據(jù)。因缺乏對數(shù)據(jù)結(jié)構(gòu)與內(nèi)涵的釋義,許多數(shù)據(jù)定義不明確,成為了真?zhèn)坞y辨的雜亂數(shù)據(jù),這也就導(dǎo)致數(shù)據(jù)預(yù)處理工作將面臨著更加困難的挑戰(zhàn)要求。(2)從大數(shù)據(jù)用戶行為數(shù)據(jù)挖掘來分析,這是一項需長期堅持且不斷積累的發(fā)展過程,考慮到數(shù)據(jù)信息總量規(guī)模龐大,對于數(shù)據(jù)信息的挖掘結(jié)果仍需基于多個云平臺之上的數(shù)據(jù)節(jié)點體系內(nèi)來開展。直接面向大數(shù)據(jù)的知識架構(gòu)應(yīng)能夠滿足于更高的拓展性且要支持即時更新,以及快捷化的信息整合等能力。
近年來有關(guān)云計算的概念已經(jīng)席卷了整個互聯(lián)網(wǎng)行業(yè),同時也使得用戶行為分析在迎來巨大機(jī)遇的同時也面臨著新的困難挑戰(zhàn)。云計算可為用戶行為分析提供以下幾項技術(shù)支持:
為獲得大數(shù)據(jù)存儲及訪問,眾多公司都開展了分布式網(wǎng)絡(luò)文件系統(tǒng)研究。以谷歌公司所研發(fā)出的GFS系統(tǒng)為例,這一系統(tǒng)硬件是一項大規(guī)模中低端計算機(jī)集群組織,其中含括了兩大節(jié)點,即主節(jié)點和眾多的數(shù)據(jù)節(jié)點。程序在進(jìn)行數(shù)據(jù)訪問時,最先對主節(jié)點進(jìn)行訪問,得到數(shù)據(jù)節(jié)點信息及授權(quán)以后,再訪問數(shù)據(jù)節(jié)點。其中任意一處數(shù)據(jù)節(jié)點發(fā)生故障,對于整體數(shù)據(jù)應(yīng)用都不會造成影響。
云計算將計算工作從用戶終端集中到“云端”,是基于互聯(lián)網(wǎng)的一種計算模式。在國外的一些國家中,將云計算技術(shù)逐漸作為維持國家核心競爭力的重要手段,例如,美國軍隊、司法、農(nóng)業(yè)等都應(yīng)用了云計算服務(wù),通過構(gòu)建云計算生態(tài)系統(tǒng),推動產(chǎn)業(yè)鏈的發(fā)展。還有澳大利亞政府通過頒布相應(yīng)的文件,注重將大數(shù)據(jù)分析應(yīng)用到公共行業(yè)中,進(jìn)行服務(wù)改革,制定出公共政策。我國在云計算方面,已經(jīng)突破了存儲系統(tǒng)軟、硬件設(shè)備技術(shù),在彈性計算、分布式計算等方面有了很大的突破,我國的教育云、北京電力等的機(jī)構(gòu)都已經(jīng)應(yīng)用了H3C云計算。
這一系統(tǒng)與GFS較為相似,是通過主節(jié)點掌控并配置每一處子節(jié)點的計算資源。每一項子節(jié)點均可由集群內(nèi)移除,且對于當(dāng)下所執(zhí)行的任務(wù)并不會造成干擾。容錯、分布計算及負(fù)載平衡等技術(shù)均可通過系統(tǒng)直接完成,用戶本身也無需利用此方面知識便可高效應(yīng)用分布式計算。以開源分布式計算架構(gòu)Hadoop為例,其整體架構(gòu)具備以下功能:提供支持Hadoop系統(tǒng)的公用組件;幫助用戶實現(xiàn)對海量數(shù)據(jù)吞吐的分布式系統(tǒng);任務(wù)規(guī)劃及子節(jié)點程序調(diào)度、實現(xiàn)大規(guī)模數(shù)據(jù)集平行計算。
當(dāng)前所搜集到的各項大數(shù)據(jù)信息均是通過業(yè)務(wù)、日志等數(shù)據(jù)方式所生成的,但卻未能夠認(rèn)識應(yīng)當(dāng)如何確保此類數(shù)據(jù)更加適用在對用戶行為的分析上,這同時也為更加高效化的分析用戶行為帶來了新的挑戰(zhàn)。開展用戶行為分析能夠依據(jù)用戶需求,提出大數(shù)據(jù)信息組織規(guī)范,利用元數(shù)據(jù)或是標(biāo)記語言等策略標(biāo)示出大數(shù)據(jù)的信息內(nèi)涵,從而為用戶行為分析軟件提供便利,更好的搜集并分析相關(guān)數(shù)據(jù)信息。
信息資源整合類型包括兩大類型,即同類數(shù)據(jù)合并與異類數(shù)據(jù)關(guān)聯(lián)。其中第一種關(guān)于同類數(shù)據(jù)的合并類似與將網(wǎng)絡(luò)用戶的發(fā)帖信息匯聚起來便可研究某一類用戶群體的關(guān)注熱點,盡管數(shù)據(jù)本身為同一類型,但在數(shù)據(jù)格式、規(guī)模等方面仍有所區(qū)別,因此在實施資源整合時就必須充分考慮到數(shù)據(jù)格式的統(tǒng)一性,以及不同數(shù)據(jù)規(guī)模的代表性。而后一種如科技信息的檢索,一般是將相關(guān)的用戶日志、文獻(xiàn)摘要、關(guān)鍵詞等信息予以整合。
這一方面的應(yīng)用在大數(shù)據(jù)集用戶行為分析方面優(yōu)勢突出,主要體現(xiàn)在以下兩個方面:(1)因受到數(shù)據(jù)異構(gòu)性、安全性和相關(guān)的法律限制影響,將相關(guān)的數(shù)據(jù)信息內(nèi)容采取集中化分析顯然有些不切實際,因此可采取本地處理后再進(jìn)一步采取后續(xù)處理措施;(2)把數(shù)據(jù)源分為多個小模塊,盡可能在本地即做到對數(shù)據(jù)信息的預(yù)處理及數(shù)據(jù)挖掘,最終合并所挖掘到的數(shù)據(jù)信息,能夠大幅度減小數(shù)據(jù)傳輸與系統(tǒng)計算的費用支出。
總而言之,隨著大數(shù)據(jù)的產(chǎn)生也預(yù)示著更大規(guī)模的數(shù)據(jù)信息將會被應(yīng)用到用戶行為分析過程當(dāng)中,這不僅能夠為用戶行為分析帶來新發(fā)展,同時也將會使得當(dāng)前所沿用的理論架構(gòu)與技術(shù)面臨新的挑戰(zhàn)。在開展大數(shù)據(jù)應(yīng)用研究時,可采用傳統(tǒng)情報學(xué)作為指導(dǎo),將數(shù)據(jù)生成、信息分析與知識重構(gòu)視作為一個整體,從更加廣闊的視野角度來研究大數(shù)據(jù)用戶行為分析。
[1] 季正波,白光偉,沈航等.基于用戶行為記錄的云服務(wù)隱私保護(hù)體系和算法[J].計算機(jī)科學(xué),2015,42(8).
[2]毛建景,張凱萍.云計算環(huán)境下海量用戶行為信任評估模型[J].計算機(jī)仿真,2016,33(3).
[3] 王兵.基于云計算技術(shù)的大數(shù)據(jù)用戶行為引擎設(shè)計[J].電腦知識與技術(shù),2016,12(5).
[4] 盧小賓,王建亞.云計算采納行為研究現(xiàn)狀分析[J].中國圖書館學(xué)報,2015,(1).