蔡江輝,楊雨晴
(太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)
2008年9月,《大數(shù)據(jù):PB時(shí)代的科學(xué)》一文在《nature》雜志上發(fā)表,大數(shù)據(jù)開(kāi)始慢慢進(jìn)入人們的社會(huì)生活。如今,“大數(shù)據(jù)”不僅僅是網(wǎng)絡(luò)熱詞,其相關(guān)技術(shù)已經(jīng)滲透到各行各業(yè)。賽迪顧問(wèn)分析顯示,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模從2015年的2 231.6億元增長(zhǎng)至2019年的5 386.2億元,年復(fù)合增長(zhǎng)率達(dá)24.6%[1];互聯(lián)網(wǎng)數(shù)據(jù)中心和IBM的研究數(shù)據(jù)表明,信息將以每年50%的速度快速的增長(zhǎng),每?jī)赡陼?huì)增加一倍[2]。2008年全球數(shù)據(jù)總量?jī)H為 0.49 ZB,2012年已達(dá)到 2.8 ZB,2020年有望達(dá)到40 ZB[3].上述數(shù)據(jù)充分表明,當(dāng)今世界已經(jīng)處于數(shù)據(jù)爆炸式增長(zhǎng)的“大數(shù)據(jù)”時(shí)代。
數(shù)據(jù)爆炸式增長(zhǎng)給大數(shù)據(jù)的分析和處理帶來(lái)了巨大挑戰(zhàn)。比如說(shuō),來(lái)自不同地點(diǎn)的數(shù)據(jù)規(guī)模增速驚人,這些數(shù)據(jù)如何才能以可伸縮的方式收集并集成;如何在大數(shù)據(jù)處理的諸多環(huán)節(jié)(預(yù)處理、建模、分析、預(yù)測(cè)、優(yōu)化、可視化等)提高決策效率。針對(duì)上述挑戰(zhàn),Google,Facebook,Microsoft,amazon,Alibaba 等互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)領(lǐng)域積極探索不斷尋求技術(shù)創(chuàng)新,極大促進(jìn)了大數(shù)據(jù)行業(yè)和相關(guān)技術(shù)的發(fā)展。本文從大數(shù)據(jù)分析及處理出發(fā),簡(jiǎn)述了大數(shù)據(jù)的概念及特性,重點(diǎn)分析了大數(shù)據(jù)領(lǐng)域的發(fā)展現(xiàn)狀;最后總結(jié)了目前大數(shù)據(jù)分析和處理存在的問(wèn)題并對(duì)相關(guān)問(wèn)題進(jìn)行了簡(jiǎn)單分析。
什么是“大數(shù)據(jù)”?這個(gè)問(wèn)題一直以來(lái)都是業(yè)界爭(zhēng)論的焦點(diǎn),學(xué)者和從事大數(shù)據(jù)有關(guān)研究的專(zhuān)家們對(duì)大數(shù)據(jù)的定義都有其自己的見(jiàn)解。維基百科中將大數(shù)據(jù)界定為:常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間限制的數(shù)據(jù)集[4]。徐宗本院士對(duì)大數(shù)據(jù)的描述為“不能夠集中存儲(chǔ)、并且難以在可接受時(shí)間內(nèi)分析處理,其中個(gè)體或部分?jǐn)?shù)據(jù)呈現(xiàn)低價(jià)值性而數(shù)據(jù)整體呈現(xiàn)高價(jià)值的海量復(fù)雜數(shù)據(jù)集[5]”。從上述定義可以看出,大數(shù)據(jù)是一個(gè)與傳統(tǒng)數(shù)據(jù)集相對(duì)的概念,為了區(qū)分大數(shù)據(jù)還得拿它和傳統(tǒng)數(shù)據(jù)做一番比較。
大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)差異首先不得不說(shuō)的就是數(shù)據(jù)量,它是區(qū)分大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的關(guān)鍵因素。傳統(tǒng)數(shù)據(jù)集一般僅僅達(dá)到GB,而大數(shù)據(jù)則已經(jīng)達(dá)到PB、EB甚至ZB.其次,傳統(tǒng)數(shù)據(jù)通常是結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)進(jìn)行標(biāo)注和存儲(chǔ)一般來(lái)說(shuō)相對(duì)容易。而大數(shù)據(jù)則大部分都是半結(jié)構(gòu)和非結(jié)構(gòu)化的,比如文本、圖像、音頻、視頻文件等。對(duì)大數(shù)據(jù)進(jìn)行標(biāo)注和存儲(chǔ)是相當(dāng)困難的,大數(shù)據(jù)的標(biāo)注任務(wù)在大多數(shù)情況下都是無(wú)法完成的。從對(duì)數(shù)據(jù)處理速率的要求上看,大數(shù)據(jù)的產(chǎn)生速率是極快的,大數(shù)據(jù)對(duì)處理速度的要求更高(大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)集的比較如圖1所示)。此外,從產(chǎn)生機(jī)制上來(lái)說(shuō),大數(shù)據(jù)已經(jīng)突破了傳統(tǒng)數(shù)據(jù)產(chǎn)生的時(shí)空概念,是“人”“機(jī)”“物”三者高度融合,相互協(xié)同作用的結(jié)果[6]。
表1 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的比較Tab.1 Comparison between big data and traditional data
大數(shù)據(jù)的復(fù)雜產(chǎn)生機(jī)制讓大數(shù)據(jù)具有了多種復(fù)雜特性,其中業(yè)界廣泛認(rèn)可的是META集團(tuán)分析師在2001年提出的3V特性,包括規(guī)模性(Volume),多樣性(Variety),高速性(Velocity)。此后,數(shù)據(jù)的價(jià)值性(Value)也被提出,由此發(fā)展成了4V特性。2012年,IBM又加入了真實(shí)性(Veracity),大數(shù)據(jù)特性由4V發(fā)展到了5V,即規(guī)模性(Volume)、多模態(tài)(Variety),高速性(Velocity)、價(jià)值密度低(Value)和真實(shí)性(Veracity).截止目前,大數(shù)據(jù)特性已經(jīng)由5V發(fā)展到了7V(如圖1所示)。
圖1 大數(shù)據(jù)的特性Fig.1 Characteristics of big data
信息技術(shù)的飛速發(fā)展讓數(shù)據(jù)的獲取變得容易快捷,數(shù)據(jù)量在短時(shí)間內(nèi)迅速膨脹,數(shù)據(jù)的存儲(chǔ)、查詢(xún)、索引等都面臨著前所未有的挑戰(zhàn)。要在短時(shí)間內(nèi)響應(yīng)用戶(hù)的需求,準(zhǔn)確完成數(shù)據(jù)分析任務(wù)并將結(jié)果可視化呈現(xiàn)給用戶(hù)是傳統(tǒng)數(shù)據(jù)分析與處理中沒(méi)有遇到的。目前,大量研究旨在解決大數(shù)據(jù)在產(chǎn)生、收集、存儲(chǔ)、分析與挖掘、可視化等各階段中所面臨的問(wèn)題。經(jīng)過(guò)分析綜合,本文將大數(shù)據(jù)的分析與處理體系概括為大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)分析及挖掘、可視化呈現(xiàn)5個(gè)部分(如圖2所示)。
圖2 大數(shù)據(jù)分析與處理體系Fig.2 The framework for big data analysis and processing
(1)大數(shù)據(jù)采集:數(shù)據(jù)無(wú)處不在,其來(lái)源涵蓋了金融、醫(yī)療、互聯(lián)網(wǎng)、交通、通信、教育、科研等領(lǐng)域。上述領(lǐng)域的大數(shù)據(jù)在規(guī)模、數(shù)據(jù)特性上存在很大差異,選擇什么樣的數(shù)據(jù)采集方法既要考慮數(shù)據(jù)源的物理性質(zhì),又要考慮數(shù)據(jù)分析的目標(biāo)。常用的數(shù)據(jù)采集設(shè)備主要有傳感器、移動(dòng)終端、日志文件、web爬蟲(chóng)[7]等。
(2)大數(shù)據(jù)存儲(chǔ)[8]:數(shù)據(jù)的類(lèi)型可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)3類(lèi)。相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)多是半結(jié)構(gòu)化和非結(jié)構(gòu)化的。以往關(guān)系型的輕型數(shù)據(jù)庫(kù)只能完成某些簡(jiǎn)單的查詢(xún)和處理請(qǐng)求,當(dāng)數(shù)據(jù)存儲(chǔ)和處理任務(wù)超過(guò)輕型數(shù)據(jù)庫(kù)能力范圍時(shí)需要對(duì)其做出一定改進(jìn),或者借助于大型分布式數(shù)據(jù)庫(kù)或集群或云儲(chǔ)存平臺(tái)。
(3)大數(shù)據(jù)預(yù)處理[9]:數(shù)據(jù)源的多樣性以及數(shù)據(jù)傳輸中的某些因素使得大數(shù)據(jù)質(zhì)量具有了不確定性,噪聲、冗余、缺失、數(shù)據(jù)不一致等問(wèn)題嚴(yán)重影響了大數(shù)據(jù)的質(zhì)量。為了獲得可靠的數(shù)據(jù)分析和挖掘結(jié)果必須利用預(yù)處理手段提高大數(shù)據(jù)的質(zhì)量。數(shù)據(jù)清洗[10-11]可以發(fā)現(xiàn)大數(shù)據(jù)中不準(zhǔn)確、不完整或不合理的數(shù)據(jù)并對(duì)其進(jìn)行修補(bǔ)或移除;冗余檢測(cè)和數(shù)據(jù)壓縮[12]可以消除數(shù)據(jù)不一致并降低存儲(chǔ)開(kāi)銷(xiāo)。
(4)大數(shù)據(jù)分析與挖掘[13]:大數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理體系的核心,其目標(biāo)是通過(guò)一定的分析和挖掘技術(shù)發(fā)現(xiàn)大數(shù)據(jù)中隱藏的有價(jià)值的信息或知識(shí)從而輔助決策。大數(shù)據(jù)分析和挖掘涵蓋了統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別等多個(gè)領(lǐng)域的技術(shù)和方法,比如說(shuō)通過(guò)數(shù)據(jù)挖掘的方法發(fā)現(xiàn)人類(lèi)的移動(dòng)模式[14-16]。
(5)可視化呈現(xiàn)[17]:為了讓用戶(hù)更好地理解數(shù)據(jù)分析和挖掘的結(jié)果,需要將挖掘到的知識(shí)或者模式在終端以友好、易于理解的方式直觀展示給用戶(hù),為用戶(hù)決策提供意見(jiàn)或支持。
大數(shù)據(jù)分析與挖掘是將海量、復(fù)雜、高速、低密度的大數(shù)據(jù)轉(zhuǎn)化成為人類(lèi)生產(chǎn)生活服務(wù)的知識(shí)或模式的重要技術(shù)。為了實(shí)現(xiàn)上述目標(biāo)國(guó)內(nèi)外專(zhuān)家和學(xué)者們開(kāi)展了大量研究工作。本文剩余部分將從數(shù)據(jù)分析及挖掘的相關(guān)技術(shù)和方法著手簡(jiǎn)單敘述數(shù)據(jù)分析和挖掘的國(guó)內(nèi)外研究現(xiàn)狀。
2012年11月6日,美國(guó)時(shí)任總統(tǒng)、民主黨候選人奧巴馬擊敗共和黨挑戰(zhàn)者羅姆尼成功連任。據(jù)《時(shí)代》雜志透露奧巴馬成功連任得益于其在過(guò)去兩年時(shí)間內(nèi)對(duì)其國(guó)家網(wǎng)絡(luò)大數(shù)據(jù)的分析和挖掘。通過(guò)分析用戶(hù)的消費(fèi)、搜索和游覽習(xí)慣等數(shù)據(jù),馬云旗下的淘寶和天貓網(wǎng)站每年雙十一的銷(xiāo)售額達(dá)到了幾百億人民幣,堪稱(chēng)互聯(lián)網(wǎng)行業(yè)規(guī)模最大最成功的商業(yè)活動(dòng)。上述大數(shù)據(jù)分析和挖掘的成功經(jīng)驗(yàn)讓各行各業(yè)的大數(shù)據(jù)生產(chǎn)者和消費(fèi)者們都看到了大數(shù)據(jù)的價(jià)值,同時(shí)也激發(fā)著各行各業(yè)的專(zhuān)家和學(xué)者們投身于大數(shù)據(jù)分析與挖掘的宏偉事業(yè)。目前,國(guó)內(nèi)外出現(xiàn)了眾多大數(shù)據(jù)分析和挖掘的技術(shù),本小節(jié)從大數(shù)據(jù)分類(lèi)上分析了文本大數(shù)據(jù)分析與挖掘、網(wǎng)絡(luò)大數(shù)據(jù)分析與挖掘、多媒體大數(shù)據(jù)分析與挖掘、移動(dòng)大數(shù)據(jù)分析與挖掘的國(guó)內(nèi)外研究現(xiàn)狀。
伴隨著各種社交媒體的廣泛應(yīng)用,文本數(shù)據(jù)量劇增。文本作為數(shù)據(jù)存儲(chǔ)的最常見(jiàn)的形式,既不是完全無(wú)結(jié)構(gòu)也不是完全結(jié)構(gòu)化的。常見(jiàn)的文本數(shù)據(jù)包括電子郵件、文檔、網(wǎng)頁(yè)和社交媒體內(nèi)容等。文本大數(shù)據(jù)的分析和挖掘能夠從無(wú)結(jié)構(gòu)或者半結(jié)構(gòu)化的文本中獲取由價(jià)值的信息或知識(shí)。
為了描述長(zhǎng)文檔的主體結(jié)構(gòu),文獻(xiàn)[18]中建立了一個(gè)新的主題超圖模型,在處理長(zhǎng)文檔上獲得了很好的分析結(jié)果。文獻(xiàn)[19]中提出了用于提取多元文檔摘要一種演化網(wǎng)絡(luò),該演化網(wǎng)絡(luò)能夠?qū)⒃嘉臋n中重要的語(yǔ)句或者字段連接在一起形成文檔摘要。除此以外,文本分類(lèi)和文本聚類(lèi)也是文本大數(shù)據(jù)挖掘研究的熱點(diǎn)。文本分類(lèi)技術(shù)多用于識(shí)別文檔主題,將主題相同的文檔分類(lèi)到預(yù)先定義的主題下或在眾多的主題集合中找到目標(biāo)文檔所對(duì)應(yīng)的主題集合;而文檔聚類(lèi)則是將相似度高的文檔劃為一類(lèi),并沒(méi)有預(yù)先定義的主題作為先驗(yàn)知識(shí)。
同一個(gè)詞匯在不同領(lǐng)域中可能具有不同含義,某些用來(lái)對(duì)文檔進(jìn)行分類(lèi)的關(guān)鍵和重點(diǎn)詞匯也可能存在上述情況,阻礙了高效的檢索。為了解決上述問(wèn)題,文獻(xiàn)[20]提出了一種基于模糊邏輯的文檔分類(lèi)方法,該方法建立了一個(gè)模糊規(guī)則推理系統(tǒng),能夠利用統(tǒng)計(jì)特征來(lái)分離多個(gè)或未定義類(lèi)別的文檔,實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下的文檔高效檢索。文獻(xiàn)[21]針對(duì)海量網(wǎng)絡(luò)文檔中涵蓋的廣泛主題和類(lèi)別,利用模糊規(guī)則的分類(lèi)器,提出一種增強(qiáng)型網(wǎng)絡(luò)文檔分類(lèi)模型,該模型將網(wǎng)絡(luò)文檔歸到不同類(lèi)別(領(lǐng)域)中,并利用進(jìn)化模糊算法依據(jù)文檔內(nèi)容的變化實(shí)現(xiàn)文檔分類(lèi)的動(dòng)態(tài)實(shí)時(shí)更新。
大數(shù)據(jù)背景下文本數(shù)據(jù)的大量、高維、稀疏的特性給聚類(lèi)這種無(wú)監(jiān)督的學(xué)習(xí)任務(wù)增加了難點(diǎn)?,F(xiàn)有很多文本的聚類(lèi)算法在精度和實(shí)時(shí)性上并不能滿足實(shí)際應(yīng)用的需求。著眼于上述問(wèn)題,文獻(xiàn)[22]中提出了一種針對(duì)高維稀疏文本數(shù)據(jù)聚類(lèi)的并行pkmeans算法,該算法包含數(shù)據(jù)降維、聚類(lèi)以及并行設(shè)計(jì)三個(gè)模塊。降維模塊利用自編碼網(wǎng)絡(luò)的降維模型進(jìn)行文檔特征選擇;其次,聚類(lèi)算法模塊以密度k-means++算法為基礎(chǔ)選擇初始聚類(lèi)中心;最后,利用CUDA架構(gòu)和MPI消息傳遞接口實(shí)現(xiàn)算法并行性,降低了算法的時(shí)間開(kāi)銷(xiāo)。文獻(xiàn)[23]將文本大數(shù)據(jù)的研究集中在了大數(shù)據(jù)的語(yǔ)義上,給出了一種基于臨床文檔標(biāo)準(zhǔn)和用戶(hù)用例一致性的約束模型,解決了傳統(tǒng)醫(yī)療大數(shù)據(jù)文檔劃分過(guò)程中的語(yǔ)義丟失問(wèn)題。
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算、三網(wǎng)融合、新媒體等技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)大數(shù)據(jù)規(guī)??涨埃瑢?duì)其進(jìn)行分析與挖掘成了許多行業(yè)共同面的的嚴(yán)峻挑戰(zhàn)和寶貴機(jī)遇。網(wǎng)絡(luò)大數(shù)據(jù)分析與挖掘早期的研究主要集中在文獻(xiàn)計(jì)量學(xué)分析[24]和社會(huì)學(xué)網(wǎng)絡(luò)分析[25]上,隨著社交網(wǎng)絡(luò)的興起,社交網(wǎng)絡(luò)分析與挖掘成了新一輪研究的熱點(diǎn)。
為了發(fā)現(xiàn)社交網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)[26],文獻(xiàn)[27]提出了基于拓?fù)涞臋z測(cè)方法,該方法依據(jù)一個(gè)目標(biāo)函數(shù)來(lái)反映社區(qū)的結(jié)構(gòu)。Du 等[28]基于真現(xiàn)實(shí)世界中社區(qū)存在重疊的特性,提出了大規(guī)模社交網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)算法。Palla等人也致力于重疊社區(qū)結(jié)構(gòu)的研究,他們?cè)谖墨I(xiàn)[29]中基于完全子圖滲流來(lái)發(fā)現(xiàn)社區(qū)結(jié)構(gòu),并在生物、信息、社會(huì)等網(wǎng)絡(luò)中得到了成功應(yīng)用;進(jìn)一步,Shen等[30]人利用聚合式的層次聚類(lèi)技術(shù),提出了一種新的社區(qū)發(fā)現(xiàn)方法,該方法既能揭示網(wǎng)絡(luò)層次又能發(fā)現(xiàn)重疊社區(qū)結(jié)構(gòu)。近幾年,文獻(xiàn)[31]提出了用于檢測(cè)復(fù)雜網(wǎng)絡(luò)大數(shù)據(jù)中重疊社區(qū)的DOC算法。同樣針對(duì)復(fù)雜網(wǎng)絡(luò)的社區(qū)重疊問(wèn)題,文獻(xiàn)[32]提出了一種基于群體智能思想的并行自組織重疊社區(qū)檢測(cè)算法,該算法不僅能很好地處理重疊的社區(qū)檢測(cè)問(wèn)題,還具有分析大規(guī)模網(wǎng)絡(luò)的能力。同樣基于群體智能思想,文獻(xiàn)[33]重新定義了PSO算法中的粒子編碼、粒子速度、粒子位置和進(jìn)化操作,提出了基于離散粒子群算法的復(fù)雜網(wǎng)絡(luò)社區(qū)檢測(cè)方法。
為了自適應(yīng)地發(fā)現(xiàn)復(fù)雜網(wǎng)絡(luò)的動(dòng)態(tài)社區(qū),文獻(xiàn)[34]提出了一種線性譜聚類(lèi)算法發(fā)現(xiàn)靜態(tài)網(wǎng)絡(luò)社區(qū),然后在此基礎(chǔ)上引入卡普拉斯矩陣、拉普拉斯本征映射相關(guān)方法提出了一種增量式譜聚類(lèi)自適應(yīng)地發(fā)現(xiàn)動(dòng)態(tài)網(wǎng)絡(luò)社區(qū)。文獻(xiàn)[35]以AP(Affinity Propagation )算法為基礎(chǔ)結(jié)合t分布提出了APT算法從多尺度、高維的網(wǎng)絡(luò)中檢測(cè)社區(qū)。
通常情況下多媒體數(shù)據(jù)比文本數(shù)據(jù)包含的信息更豐富,因此,多媒體數(shù)據(jù)研究的復(fù)雜度更高且涵蓋范圍更廣,包含多媒體摘要、多媒體標(biāo)注、多媒體索引和檢索、多媒體推薦等。
多媒體摘要[36]和文本摘要任務(wù)類(lèi)似,主要從原始數(shù)據(jù)文件中提取重要的詞句或者視頻、音頻片段。文獻(xiàn)[37]中選擇一系列重要的視頻片段表示原視頻,然后利用原視頻的特征平滑視頻片段得到更加平滑的視頻摘要。文獻(xiàn)[38]中構(gòu)造了一個(gè)視頻超圖模型,并在此基礎(chǔ)上利用超圖排序?qū)⒁曨l按照不同內(nèi)容分類(lèi),最后通過(guò)函數(shù)優(yōu)化的方式生成視頻摘要。
為了實(shí)現(xiàn)多媒體數(shù)據(jù)的管理和檢索等任務(wù)需要對(duì)不同的多媒體數(shù)據(jù)進(jìn)行標(biāo)注。多媒體標(biāo)注存在人工標(biāo)注和自動(dòng)標(biāo)注兩種,早期的多媒體標(biāo)注主要采用了人工和計(jì)算機(jī)自動(dòng)標(biāo)注兩種方式結(jié)合的混合標(biāo)注方法[39],目前則以自動(dòng)標(biāo)注和混合式標(biāo)注方法居多。為了改善多媒體地理位置標(biāo)注中信息標(biāo)注不完備以及標(biāo)注精度不高的問(wèn)題,文獻(xiàn)[40]中提出了一種基于視覺(jué)定位技術(shù)的圖像地理位置標(biāo)注方法。
多媒體索引和檢索[41]通過(guò)對(duì)多媒體信息的描述、存儲(chǔ)和組織讓用戶(hù)快速準(zhǔn)確地獲取其所需的多媒體信息。Shao 等[42]提出一種基于視頻內(nèi)容的視頻檢索技術(shù),該技術(shù)利用時(shí)空定位手段能夠從數(shù)據(jù)庫(kù)中準(zhǔn)確檢索出符合時(shí)空約束的視頻。針對(duì)某些算法時(shí)間復(fù)雜度高,對(duì)亮度和尺寸變化敏感等不足,文獻(xiàn)[43]提出一種基于圖像灰度值的編碼表示方法。Yang等[44]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的圖像檢索方法,有效地保留了顯著區(qū)域之間的空間結(jié)構(gòu)。
多媒體推薦能依據(jù)用戶(hù)的偏好為用戶(hù)推薦其可能感興趣的多媒體內(nèi)容,主要包含基于內(nèi)容、基于協(xié)助過(guò)濾[45]以及二者混合[46]的多媒體推薦方法?;趦?nèi)容的方法依賴(lài)于內(nèi)容相似性度量的選擇,受內(nèi)容分析結(jié)果的影響很大?;趨f(xié)作過(guò)濾的方法先將用戶(hù)按照興趣分組,通過(guò)監(jiān)控其他組內(nèi)成員的行為未用戶(hù)進(jìn)行多媒體推薦。上述二者混合的方法能夠在一定程度上減輕對(duì)分析內(nèi)容的依賴(lài)并吸收了協(xié)作過(guò)濾的優(yōu)點(diǎn),二者混合方法的多媒體推薦質(zhì)量更高。
移動(dòng)終端,如移動(dòng)手機(jī)、傳感器[47]和RFID[48]等的普及產(chǎn)生了巨量的移動(dòng)數(shù)據(jù)[49-50]。這些數(shù)據(jù)中普遍存在著的噪聲、冗余和數(shù)據(jù)不一致等問(wèn)題給移動(dòng)大數(shù)據(jù)分析提出了更高的要求。
本文從以生態(tài)文明的發(fā)展為根本目的,保證生態(tài)信息資源關(guān)注度的提高,空間型高校教育資源的開(kāi)發(fā)、整合以及利用等幾個(gè)方面闡述了高校教育資源體系構(gòu)建的生態(tài)化方向。然后從重視高校教育資源自然性特征的開(kāi)發(fā)、注重教育資源能量與信息的交換、控制高校教育資源能量出入的平衡等幾個(gè)方面提出了體現(xiàn)生態(tài)能量資源體系構(gòu)建的側(cè)重點(diǎn)。
為了分析移動(dòng)數(shù)據(jù)的語(yǔ)義從而發(fā)現(xiàn)移動(dòng)對(duì)象活動(dòng)的異常情況,文獻(xiàn)[11]對(duì)移動(dòng)對(duì)象軌跡數(shù)據(jù)開(kāi)展了時(shí)間和空間兩方面的研究。針對(duì)移動(dòng)數(shù)據(jù)中的移動(dòng)性預(yù)測(cè)問(wèn)題,文獻(xiàn)[12]中提出了一種新的演化算法,該算法通過(guò)移動(dòng)模式挖掘、移動(dòng)規(guī)則提取以及移動(dòng)性預(yù)測(cè)三個(gè)階段來(lái)預(yù)測(cè)移動(dòng)用戶(hù)在個(gè)人通訊系統(tǒng)中的下一次移動(dòng)。為了提高移動(dòng)數(shù)據(jù)的安全性,文獻(xiàn)[51]提出了一種收集實(shí)時(shí)信息并實(shí)時(shí)報(bào)警的框架。為了挖掘游客的行為模式,文獻(xiàn)[52]結(jié)合地理信息和移動(dòng)網(wǎng)絡(luò)數(shù)據(jù)在游客分類(lèi)和游客團(tuán)體識(shí)別方面做了大量工作,其行為分析結(jié)果為旅游行業(yè)意義重大。為了挖掘移動(dòng)對(duì)象的周期模式,文獻(xiàn)[53]提出了閉包多限制條件樹(shù)算法,解決了周期模式挖掘中的模式支持度和周期距離難獲取的問(wèn)題。
RFID是一種產(chǎn)品電子標(biāo)簽?zāi)軌蛟谝欢ǚ秶鷥?nèi)追蹤、定位和監(jiān)控標(biāo)識(shí)對(duì)象,其在倉(cāng)庫(kù)和固定資產(chǎn)管理、商品信息管理、物流運(yùn)輸、門(mén)禁考勤、公共交通安檢、醫(yī)療信息追蹤、國(guó)防和軍事等領(lǐng)域均得到了廣泛應(yīng)用。文獻(xiàn)[54]對(duì)RFID數(shù)據(jù)的位置、時(shí)間和聚集簇等信息推斷追蹤目標(biāo)和監(jiān)控系統(tǒng)所處的狀態(tài)。針對(duì)傳統(tǒng)序列式的RFID數(shù)據(jù)挖掘方法不考慮RFID數(shù)據(jù)的特性,將數(shù)據(jù)看成整體來(lái)對(duì)待使得挖掘效果不理想的情況,文獻(xiàn)[55]提出一種RFID移動(dòng)數(shù)據(jù)挖掘算法,該算法首先利用序列模式挖掘方法挖掘位置信息,然后在此基礎(chǔ)上進(jìn)一步開(kāi)展時(shí)間序列挖掘,獲得了較為理想的挖掘結(jié)果。
大數(shù)據(jù)行業(yè)的飛速發(fā)展既帶來(lái)了機(jī)遇也帶來(lái)了前所未有的挑戰(zhàn),本小節(jié)通過(guò)對(duì)大數(shù)據(jù)分析與處理體系中各過(guò)程的分析綜合,總結(jié)出來(lái)一下幾點(diǎn)挑戰(zhàn)(如表2所示)。
表2 大數(shù)據(jù)發(fā)展的挑戰(zhàn)Tab.2 Challenges of big data development
存儲(chǔ)問(wèn)題是大數(shù)據(jù)分析和處理過(guò)程中首先面臨的一個(gè)重要問(wèn)題。談及大數(shù)據(jù)人們對(duì)其的第一反應(yīng)就是數(shù)據(jù)量大,而數(shù)據(jù)量其實(shí)是一個(gè)相對(duì)來(lái)說(shuō)好解決的問(wèn)題,隱藏在海量數(shù)據(jù)背后的復(fù)雜關(guān)系以及復(fù)雜數(shù)據(jù)類(lèi)型才是大數(shù)據(jù)存儲(chǔ)中面臨的真正挑戰(zhàn)。數(shù)據(jù)存儲(chǔ)并不是簡(jiǎn)單的將數(shù)據(jù)保存在存儲(chǔ)設(shè)備或介質(zhì)中,存儲(chǔ)作為數(shù)據(jù)生命周期中的一個(gè)環(huán)節(jié),需要考慮的是在整個(gè)生命周期中數(shù)據(jù)上可能發(fā)生哪些操作,如何存儲(chǔ)才能方便對(duì)數(shù)據(jù)進(jìn)行存取和調(diào)度。大數(shù)據(jù)的特性及需求要求大數(shù)據(jù)存儲(chǔ)是必須具備可擴(kuò)展性、高的容錯(cuò)機(jī)制、低數(shù)據(jù)分析延遲以及低成本的,針對(duì)上述挑戰(zhàn)開(kāi)展更加深入的研究將極大推動(dòng)大數(shù)據(jù)分析和處理的發(fā)展。
大數(shù)據(jù)預(yù)處理和集成是大數(shù)據(jù)分析和處理的關(guān)鍵環(huán)節(jié),考慮數(shù)據(jù)的異構(gòu)性和時(shí)空特性,提升數(shù)據(jù)的質(zhì)量是預(yù)處理和數(shù)據(jù)集成成功的關(guān)鍵。大數(shù)據(jù)的數(shù)據(jù)量是巨大的,由于先驗(yàn)知識(shí)的匱乏使得數(shù)據(jù)分析的難度大大加大;此外,大數(shù)據(jù)突破了傳統(tǒng)的時(shí)空界限,其隨著時(shí)間發(fā)生相應(yīng)變化,這就要求能夠?qū)崟r(shí)增量式地開(kāi)展分析任務(wù)以適應(yīng)大數(shù)據(jù)的動(dòng)態(tài)變化特性。
大數(shù)據(jù)建模是發(fā)現(xiàn)大數(shù)據(jù)中有價(jià)值知識(shí)或模式的重要手段,大數(shù)據(jù)模型不僅靠考慮數(shù)據(jù)的動(dòng)態(tài)性也要兼顧大數(shù)據(jù)的統(tǒng)計(jì)和語(yǔ)義特性,然而做到上述這點(diǎn)也具有一定的挑戰(zhàn);一個(gè)可以解決的方法就是多模型融合,然而多模型融合本身也是一個(gè)復(fù)雜而艱巨的任務(wù)。
對(duì)于開(kāi)發(fā)大數(shù)據(jù)系統(tǒng)來(lái)說(shuō),系統(tǒng)必須可用易用、具備人機(jī)交互的能力,同時(shí)系統(tǒng)的計(jì)算效率和吞吐量要高,為了適應(yīng)大數(shù)據(jù)隨時(shí)間變化的特性系統(tǒng)也需要具備演化能力,上述這些需求均對(duì)大數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)帶來(lái)了不小的挑戰(zhàn)。
為了讓大數(shù)據(jù)的分析和處理結(jié)果真正被用戶(hù)理解從而為決策提供支持,對(duì)結(jié)果的解釋是必須的。在結(jié)果解釋方面,數(shù)據(jù)復(fù)雜性、語(yǔ)義復(fù)雜性、參數(shù)及假設(shè)復(fù)雜性、分析驗(yàn)證步驟的復(fù)雜性以及模型復(fù)雜性等都給恰當(dāng)而準(zhǔn)確的結(jié)果解釋設(shè)置了障礙,尋求合適的結(jié)果解釋或者表示方法對(duì)大數(shù)據(jù)發(fā)展來(lái)說(shuō)意義重大。
大數(shù)據(jù)隱私保護(hù)也是目前大數(shù)據(jù)行業(yè)關(guān)注的話題,隱私保護(hù)的主要障礙來(lái)自于數(shù)據(jù)的暴露和數(shù)據(jù)的動(dòng)態(tài)特性,而大數(shù)據(jù)的規(guī)模又在一定程度上限制了隱私保護(hù)機(jī)制的復(fù)雜性,太復(fù)雜的安全保護(hù)機(jī)制開(kāi)銷(xiāo)太大,在大數(shù)據(jù)上適用性和實(shí)用性不強(qiáng),因此,大數(shù)據(jù)隱私保護(hù)中普遍使用的是相對(duì)簡(jiǎn)單的保護(hù)機(jī)制。上述簡(jiǎn)單的隱私保護(hù)機(jī)制使得大數(shù)據(jù)中存在較大的信息安全隱患,如何才能突破這一限制,設(shè)計(jì)出更加符合大數(shù)據(jù)要求的隱私保護(hù)機(jī)制也是目前亟待解決的挑戰(zhàn)。
我們正生活在大數(shù)據(jù)的浪潮中,空前的大數(shù)據(jù)資源既是機(jī)遇又是挑戰(zhàn)。迄今為止,大數(shù)據(jù)分析與挖掘作方面所在的工作還很有限,要克服大數(shù)據(jù)領(lǐng)域的上述挑戰(zhàn),還需要開(kāi)展大量的工作。本文從大數(shù)據(jù)的內(nèi)涵和特性出發(fā),簡(jiǎn)單介紹了大數(shù)據(jù)分析與處理的技術(shù)體系;從文本大數(shù)據(jù)分析與挖掘、網(wǎng)路大數(shù)據(jù)分析與挖掘、多媒體大數(shù)據(jù)分析與挖掘以及移動(dòng)大數(shù)據(jù)分析與挖掘四個(gè)方面重點(diǎn)概述了國(guó)內(nèi)外大數(shù)據(jù)分析與處理的研究現(xiàn)狀;最后對(duì)大數(shù)據(jù)分析與處理領(lǐng)域面臨的挑戰(zhàn)進(jìn)行了簡(jiǎn)單概括,并對(duì)其中的主要挑戰(zhàn)進(jìn)行了簡(jiǎn)單分析。