王海洋 王寧 朱專?!⊥蹊?/p>
摘 要:構(gòu)建一個(gè)基于人臉識(shí)別的智能大數(shù)據(jù)處理系統(tǒng),將圖片中提取的人臉數(shù)據(jù)特征上傳到HBase分布式數(shù)據(jù)庫中進(jìn)行存儲(chǔ),使用Mahout提供的推薦、分類等數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)挖掘,使用Echarts框架將挖掘結(jié)果直觀顯示給用戶。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)可視化;數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理
1 概述
面對(duì)互聯(lián)網(wǎng)絡(luò)的海量數(shù)據(jù),如何提取有用的信息并進(jìn)行數(shù)據(jù)分析和挖掘就顯得尤為重要。一般置于商場(chǎng)和公共場(chǎng)所的數(shù)字標(biāo)牌廣告機(jī)只具有信息顯示和信息發(fā)布功能,無法了解用戶更多行為,運(yùn)用先進(jìn)的人臉識(shí)別技術(shù)和視頻智能分析技術(shù)提供一套完善的解決方案,能夠智能統(tǒng)計(jì)和分析用戶狀態(tài),幫助了解用戶的喜好。
基于人臉識(shí)別技術(shù)設(shè)計(jì)一個(gè)對(duì)人臉信息進(jìn)行智能處理的系統(tǒng),利用人臉識(shí)別技術(shù)統(tǒng)計(jì)商家數(shù)字標(biāo)牌內(nèi)容的觀看人數(shù)、觀看人的性別、年齡等信息,基于收集的數(shù)據(jù)利用大數(shù)據(jù)分析技術(shù)輔助產(chǎn)品提供者制定更加精準(zhǔn)、人性化的推廣方案和內(nèi)容。
2 關(guān)鍵技術(shù)簡(jiǎn)介
2.1 Hadoop分布式數(shù)據(jù)處理平臺(tái)
Hadoop是基于MapReduce數(shù)據(jù)集計(jì)算框架對(duì)原始的數(shù)據(jù)集進(jìn)行處理的平臺(tái),可以快速、高效的對(duì)海量數(shù)據(jù)進(jìn)行快速處理。
2.2 HBase分布式數(shù)據(jù)
HBase是基于Hadoop平臺(tái)的分布式的開源數(shù)據(jù)庫,是一種基于列存儲(chǔ)的、非關(guān)系型的數(shù)據(jù)庫。
2.3 Mahout數(shù)據(jù)挖掘工具
Mahout是Apache旗下的一款數(shù)據(jù)挖掘工具,可以運(yùn)行在Hadoop平臺(tái)上對(duì)數(shù)據(jù)進(jìn)行處理,包含了諸多的挖掘算法,例如:聚類、分類、推薦等,對(duì)數(shù)據(jù)處理提供了極大的便利性。
2.4 Echarts數(shù)據(jù)可視化工具
Echarts商業(yè)報(bào)表技術(shù)是一個(gè)純的JavaScript的圖表庫,其中包含了諸多的商用圖表,例如:折線圖、柱狀圖、散點(diǎn)圖、K線圖、餅圖等等,提供了簡(jiǎn)潔、直觀、生動(dòng)、可交互的數(shù)據(jù)可視化圖表。
2.5 Face++人臉識(shí)別技術(shù)
Face++人臉識(shí)別技術(shù)可用于對(duì)圖片中人臉的檢測(cè)、微笑分析以及性別、年齡、種族、面部器官等坐標(biāo)數(shù)據(jù)的獲取。
3 系統(tǒng)功能描述
基于人臉識(shí)別的大數(shù)據(jù)智能處理系統(tǒng)首先通過人臉識(shí)別技術(shù)收集信息,利用大數(shù)據(jù)處理技術(shù)分析用戶對(duì)內(nèi)容的喜好,為不同性別、年齡、情緒狀態(tài)的用戶提供更加人性化的內(nèi)容,在不同時(shí)段投放不同內(nèi)容作出參考依據(jù),為用戶帶來更好體驗(yàn)同時(shí)為投資者帶來更豐厚的回報(bào)。具體包括人臉識(shí)別和數(shù)據(jù)分析兩部分內(nèi)容。
3.1 人臉識(shí)別
(1)人臉檢測(cè):通過攝像頭獲取人臉輪廓,提取特征生成特征數(shù)據(jù)庫。
(2)表情檢測(cè):通過攝像頭判斷當(dāng)前人臉是否注視攝像頭,可識(shí)別睜眼、閉眼、眨眼等動(dòng)作。
(3)姿態(tài)檢測(cè):通過攝像頭判斷當(dāng)前人臉是平視、抬頭、低頭、左右轉(zhuǎn)頭等。
3.2 數(shù)據(jù)分析
通過人臉特征的提取,對(duì)其中的信息進(jìn)行分析,根據(jù)統(tǒng)計(jì)數(shù)據(jù),給出推薦的廣告位置和投放時(shí)間等信息,為商家提供參考依據(jù)。
4 系統(tǒng)構(gòu)建
4.1 系統(tǒng)設(shè)計(jì)
針對(duì)系統(tǒng)的功能描述,構(gòu)建分布式集群環(huán)境,通過圖片預(yù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)可視化三大核心模塊,完成系統(tǒng)的構(gòu)建。
(1)圖片預(yù)處理
在數(shù)據(jù)處理前期對(duì)圖片進(jìn)行預(yù)處理,利用Face++人臉識(shí)別技術(shù),提取人臉信息,并將其上傳到HBase分布式數(shù)據(jù)庫中進(jìn)行存儲(chǔ)。
(2)數(shù)據(jù)挖掘
使用Mahout開源的數(shù)據(jù)挖掘框架,進(jìn)行參數(shù)設(shè)置后調(diào)用推薦、分類算法進(jìn)行數(shù)據(jù)挖掘工作,獲取挖掘結(jié)果,并將其存放到數(shù)據(jù)庫中。
(3)數(shù)據(jù)可視化
從前臺(tái)獲取數(shù)據(jù)庫中存儲(chǔ)的挖掘結(jié)果,使用Echarts可視化工具進(jìn)行數(shù)據(jù)顯示。
4.2系統(tǒng)實(shí)現(xiàn)
(1)人種興趣圖
鼠標(biāo)放在某一區(qū)域時(shí)會(huì)顯示該人種所占的比例,點(diǎn)擊下載圖標(biāo)時(shí)可將整個(gè)圖表以圖片的形式保存下來。
(2)數(shù)據(jù)分布圖
查看每個(gè)區(qū)域的數(shù)據(jù)分布情況,直觀明了。
5 結(jié)束語
本系統(tǒng)可以快速的對(duì)大量的人臉數(shù)據(jù)進(jìn)行處理并提取出有效信息,在數(shù)據(jù)可視化平臺(tái)進(jìn)行數(shù)據(jù)展示,給用戶以直觀、生動(dòng)的數(shù)據(jù)感受。同時(shí),用戶可以對(duì)相關(guān)結(jié)果進(jìn)行下載、打印等操作。
參考文獻(xiàn)
[1]董西成.hadoop技術(shù)內(nèi)幕:深入解析YARN架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M].北京:機(jī)械工業(yè)出版社,2013.
[2]張霄宏,雒芬,賈宗璞,等.一種適用于HadoopMapReduce環(huán)境的數(shù)據(jù)預(yù)取方法[J].西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,41(2).
[3]萬兵,黃夢(mèng)醒,段茜.一種基于資源預(yù)取的Hadoop作業(yè)調(diào)度算法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(6).
[4]何榮波.MapReduce模型在Hadoop中的性能優(yōu)化及改進(jìn)[D].北京:北京化工大學(xué),2011.
作者簡(jiǎn)介:王海洋,長(zhǎng)春工業(yè)大學(xué)應(yīng)用技術(shù)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)152401班學(xué)生;王寧,長(zhǎng)春工業(yè)大學(xué)應(yīng)用技術(shù)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)152401班學(xué)生;朱專專,長(zhǎng)春工業(yè)大學(xué)應(yīng)用技術(shù)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)152401班學(xué)生。
*通訊作者:王璐(1980-),女,副教授。