国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)特征選擇的深度學(xué)習(xí)算法

2019-09-10 07:22劉芳
關(guān)鍵詞:特征選擇深度學(xué)習(xí)大數(shù)據(jù)

劉芳

摘要:隨著信息社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)的快速增長(zhǎng)既是機(jī)遇也是挑戰(zhàn).一方面,大數(shù)據(jù)可以為深度學(xué)習(xí)提供大規(guī)模的樣本集進(jìn)行訓(xùn)練繼而對(duì)數(shù)據(jù)挖掘和選擇,有效地分析和處理這些數(shù)據(jù);另一方面,大數(shù)據(jù)的異構(gòu)性和海量性又會(huì)造成維數(shù)災(zāi)難,同時(shí)需要先進(jìn)的硬件平臺(tái)支撐以及優(yōu)化技術(shù).因此,選擇一種合適的深度學(xué)習(xí)模型是解決這一問(wèn)題的關(guān)鍵.本文針對(duì)傳統(tǒng)的深度學(xué)習(xí)模型無(wú)法選擇大量不同的數(shù)據(jù)特征,提出一種基于大數(shù)據(jù)特征選擇的深度學(xué)習(xí)算法,首先構(gòu)建一個(gè)大數(shù)據(jù)特征選擇框架繼而進(jìn)行數(shù)據(jù)融合和深度學(xué)習(xí).實(shí)驗(yàn)表明,算法較好地解決了數(shù)據(jù)龐大與信息貧乏之間的矛盾,具有一定的前瞻性.

關(guān)鍵詞:大數(shù)據(jù);特征選擇;深度學(xué)習(xí)

中圖分類號(hào):TP391.4 ?文獻(xiàn)標(biāo)識(shí)碼:A ?文章編號(hào):1673-260X(2019)05-0046-03

隨著互聯(lián)網(wǎng)技術(shù)以及高清數(shù)字視頻的普及,數(shù)據(jù)量正在呈現(xiàn)指數(shù)規(guī)模的增長(zhǎng),數(shù)據(jù)的規(guī)模達(dá)到了TB級(jí)、PB級(jí)甚至是EB級(jí),這就使數(shù)據(jù)具有規(guī)模性[1].然而大量的數(shù)據(jù),只有極少數(shù)數(shù)據(jù)被分析和有效利用,這就造成了數(shù)據(jù)龐大與信息貧乏之間的矛盾[2].因此,需要找到一種能夠?qū)Υ髷?shù)據(jù)進(jìn)行充分挖掘的智能學(xué)習(xí)算法,從規(guī)模龐大的數(shù)據(jù)中發(fā)現(xiàn)隱藏的規(guī)律和特點(diǎn),挖掘大數(shù)據(jù)的潛在價(jià)值進(jìn)行特征選擇,繼而進(jìn)行后續(xù)的分類或決策.深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一部分,能夠在龐大的數(shù)據(jù)中進(jìn)行映射變換,借助復(fù)雜的模型處理規(guī)模龐大的數(shù)據(jù),提取到數(shù)據(jù)的多層特征[3].雖然深度學(xué)習(xí)能夠?qū)Υ髷?shù)據(jù)進(jìn)行變換提取,但由于數(shù)據(jù)具有異構(gòu)性、動(dòng)態(tài)變化以及不完整性,因此深度學(xué)習(xí)仍需進(jìn)一步優(yōu)化.

1 大數(shù)據(jù)特征選擇

1.1 大數(shù)據(jù)的基本特征

隨著云計(jì)算、移動(dòng)互聯(lián)等技術(shù)的應(yīng)用數(shù)據(jù)量由TB到PB模式的增長(zhǎng),1996年John Mashey提出了大數(shù)據(jù)的概念,大數(shù)據(jù)是融合信息空間、人類社會(huì)和物理世界的連接器[4].麥肯錫在此基礎(chǔ)上重新定義了大數(shù)據(jù)的概念:數(shù)據(jù)集合規(guī)模大的傳統(tǒng)數(shù)據(jù)庫(kù)程序無(wú)法對(duì)其進(jìn)行管理、分析,計(jì)算時(shí)間遠(yuǎn)遠(yuǎn)大于預(yù)期的數(shù)據(jù)集合[5].大數(shù)據(jù)隱含有小數(shù)據(jù)不具備的規(guī)律和價(jià)值,但對(duì)大數(shù)據(jù)準(zhǔn)確的定義并沒(méi)有統(tǒng)一的說(shuō)法,并不僅僅體現(xiàn)在規(guī)模和速度上.普遍認(rèn)為的大數(shù)據(jù)具有的三個(gè)特征為:高速性(Velocity)、大容量(Volume)和多樣性(Variety),即所謂的3V特征,也就是數(shù)據(jù)的異構(gòu)多樣性和大規(guī)模,同時(shí)數(shù)據(jù)流的快速運(yùn)行[6].在3V特征的基礎(chǔ)上,有人認(rèn)為大數(shù)據(jù)的特征不僅僅局限于此,提出了數(shù)據(jù)的真實(shí)性(Veracity)、價(jià)值性(Value)等概念,也就是所謂的4V和5V特征,總結(jié)起來(lái),大數(shù)據(jù)的基本特征可以概括為以下幾個(gè)方面,如表1所示.

1.2 特征選擇過(guò)程

在機(jī)器學(xué)習(xí)算法中,特征選擇是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,即為了從高維數(shù)據(jù)集中得到數(shù)據(jù)的低維表示形式,從大數(shù)據(jù)中篩選出能表示出原始數(shù)據(jù)的最優(yōu)特征子集[7].特征選擇方法主要有過(guò)濾法(Filter)、嵌入法(Embedded)以及封裝法(Wrapper),過(guò)濾法選擇的目標(biāo)對(duì)象為數(shù)據(jù)的統(tǒng)計(jì)特性,通過(guò)對(duì)每個(gè)特征對(duì)應(yīng)的值進(jìn)行估計(jì)進(jìn)而選擇特征;嵌入法的前提是已知特征空間的模型,繼而從特征空間中尋找能夠提高系統(tǒng)性能的最優(yōu)子空間,通過(guò)分析樣本中是否具有已知數(shù)據(jù)分為無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí);封裝法是利用得到的特征子空間進(jìn)行分類,通過(guò)分析分類的準(zhǔn)確率來(lái)判斷特征,由于選擇的特征子空間對(duì)象不同,因此需要對(duì)樣本進(jìn)行多次訓(xùn)練得到.特征選擇的一般流程如圖1所示:

特征選擇的實(shí)質(zhì)是求解線性或非線性組合優(yōu)化的過(guò)程,亦稱為屬性約簡(jiǎn),屬于NP問(wèn)題,評(píng)價(jià)函數(shù)和搜索方法是特征選擇的核心部分,搜索作為解決組合優(yōu)化的主要方法,有啟發(fā)搜索策略、完全搜索策略和隨機(jī)搜索策略;作為影響特征選擇結(jié)果的評(píng)價(jià)函數(shù)是度量特征集優(yōu)劣的標(biāo)準(zhǔn),而評(píng)價(jià)函數(shù)則通過(guò)誤差度量、一致性度量、距離度量和依賴性度量準(zhǔn)則,作為評(píng)判特征集的優(yōu)劣影響特征選擇結(jié)果[8].

2 深度學(xué)習(xí)

2.1 淺層學(xué)習(xí)與深度學(xué)習(xí)

從特征數(shù)據(jù)中經(jīng)過(guò)一系列計(jì)算,提取出有用信息的過(guò)程叫作特征提取[9].特征提取經(jīng)歷了從人工設(shè)計(jì)到淺層學(xué)習(xí)和深度學(xué)習(xí)的過(guò)程,人工設(shè)計(jì)進(jìn)行特征提取利用圖像的底層特征,觀察和分析如顏色特征、紋理特征和局部特征等,進(jìn)而人為設(shè)計(jì)出便于提取的有效信息;淺層學(xué)習(xí)模型層數(shù)較少,著重強(qiáng)調(diào)數(shù)據(jù)之間的可區(qū)分性,主要有高斯混合模型(GMM)、稀疏編碼和支持向量機(jī)(SVM);深度學(xué)習(xí)相較于淺層學(xué)習(xí)隱層有兩層甚至更多,為了發(fā)現(xiàn)數(shù)據(jù)的分布特征和潛在屬性,將低層特征組合轉(zhuǎn)換為高層的抽象特征,核心是通過(guò)非線性變換使數(shù)據(jù)由具體到抽象、低層到高層,主要有自編碼(AE)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)、受限玻爾茲曼機(jī).淺層學(xué)習(xí)模型與深度學(xué)習(xí)模型如圖2所示:

2.2 深度學(xué)習(xí)關(guān)鍵技術(shù)

深度學(xué)習(xí)利用分層結(jié)構(gòu),構(gòu)建多個(gè)隱層處理復(fù)雜的高維數(shù)據(jù)[10].深度學(xué)習(xí)關(guān)鍵技術(shù)為:

(1)對(duì)大量的樣本數(shù)據(jù)進(jìn)行處理以及訓(xùn)練復(fù)雜的隱層模型對(duì)計(jì)算機(jī)的硬件性能提出了更高要求,高效的硬件平臺(tái)及并行處理方法是必不可少的;

(2)深度學(xué)習(xí)依賴于對(duì)大量樣本進(jìn)行訓(xùn)練,模型訓(xùn)練集的規(guī)模決定了模型的適用性即泛化性,因此大數(shù)據(jù)可以避免過(guò)擬合現(xiàn)象的發(fā)生以及泛化不足適應(yīng)能力差;

(3)深度學(xué)習(xí)模型結(jié)構(gòu)復(fù)雜,訓(xùn)練困難為了提高學(xué)習(xí)效果采用新的優(yōu)化技術(shù),如修正線性單元避免過(guò)擬合、修正非線性激活函數(shù)減少計(jì)算復(fù)雜度,進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練防止出現(xiàn)局部最小值循環(huán).

2.3 典型的深度學(xué)習(xí)模型

典型的深度學(xué)習(xí)模型主要有深度置信網(wǎng)絡(luò)、棧式自動(dòng)編碼機(jī)、多層卷積神經(jīng)網(wǎng)絡(luò).將若干個(gè)受限玻爾茲曼機(jī)模型進(jìn)行堆疊得到一個(gè)多層神經(jīng)網(wǎng)絡(luò)即為深度置信網(wǎng)絡(luò)[11].深度置信網(wǎng)絡(luò)模型在預(yù)訓(xùn)練階段可以通過(guò)無(wú)監(jiān)督訓(xùn)練進(jìn)行,不需要大量的標(biāo)簽數(shù)據(jù),大大提高了模型的適應(yīng)性;在預(yù)訓(xùn)練過(guò)程中通過(guò)對(duì)參數(shù)進(jìn)行選擇,能夠加快收斂速度,降低計(jì)算復(fù)雜度;無(wú)監(jiān)督訓(xùn)練提高了訓(xùn)練參數(shù)的有效性,避免了計(jì)算結(jié)果進(jìn)入局部最優(yōu)而非全局最優(yōu)[12].

4 實(shí)驗(yàn)仿真

針對(duì)大數(shù)據(jù)樣本的特征選擇對(duì)計(jì)算機(jī)的硬件提出了更高的要求,高效的硬件平臺(tái)及并行處理方法是多層深度學(xué)習(xí)必不可少的.實(shí)驗(yàn)首先搭建所需硬件平臺(tái),所需服務(wù)器采用8核16線程,圖形處理器(GPU)采用Tesla V100,CPU采用酷睿i7處理器主頻為3.8GHz,內(nèi)存為金士頓16GB;仿真環(huán)境為MATLAB7.0;大數(shù)據(jù)樣本數(shù)據(jù)庫(kù)為了體現(xiàn)算法的適應(yīng)性采用兩個(gè)樣本數(shù)據(jù)庫(kù),分別為ORL人臉數(shù)據(jù)庫(kù)和Yale人臉數(shù)據(jù)庫(kù),ORL人臉數(shù)據(jù)庫(kù)包含40人,每人10張相片,通過(guò)臉部微小姿態(tài)以及表情變化來(lái)區(qū)分,尺度變化再0%以內(nèi);Yale人臉數(shù)據(jù)庫(kù)包含15人,每人11張相片,相片的特征主要表現(xiàn)在表情以及外部光照對(duì)臉部的影響.

為了驗(yàn)證算法的有效性,分別將本文算法與深度置信網(wǎng)絡(luò)、多層棧式自動(dòng)編碼機(jī)在人臉數(shù)據(jù)庫(kù)上進(jìn)行分類研究,比較其分類精度;而為了驗(yàn)證算法的適應(yīng)性,需要將兩個(gè)人臉數(shù)據(jù)庫(kù)進(jìn)行混合然后再比較其分類精確度,具體分類精確度如表2所示.

通過(guò)分析實(shí)驗(yàn)數(shù)據(jù)可知,基于大數(shù)據(jù)特征選擇的深度學(xué)習(xí)算法在兩個(gè)數(shù)據(jù)庫(kù)上的,分類效果具有一定優(yōu)勢(shì),但在混合數(shù)據(jù)庫(kù)上三種模型的分類準(zhǔn)確率都有一定程度下降,但本文算法的準(zhǔn)確率還是優(yōu)于其他算法,因此具有一定的適應(yīng)性.

5 總結(jié)展望

規(guī)模龐大的數(shù)據(jù)量一方面帶來(lái)維數(shù)災(zāi)難,對(duì)計(jì)算機(jī)的硬件帶來(lái)新挑戰(zhàn),另一方面大數(shù)據(jù)提供了大量訓(xùn)練樣本,可以解決深度網(wǎng)絡(luò)泛化能力差容易出現(xiàn)過(guò)擬合的缺點(diǎn).因此,基于大數(shù)據(jù)特征選擇的深度學(xué)習(xí)模型具有一定的實(shí)用價(jià)值,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)深度計(jì)算模型在分類準(zhǔn)確性和適應(yīng)性上,都得到了進(jìn)一步提高.

參考文獻(xiàn):

〔1〕馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246-258.

〔2〕程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014(9):1889-1908.

〔3〕陳海華,張立臣.大數(shù)據(jù)下的CPS自適應(yīng)路由服務(wù)[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(1):94-101.

〔4〕魯亮,于炯,卞琛,等.大數(shù)據(jù)流式計(jì)算框架Storm的任務(wù)遷移策略[J].計(jì)算機(jī)研究與發(fā)展,2018,55(1):71-92.

〔5〕胡志剛,劉佳.面向大數(shù)據(jù)實(shí)體識(shí)別的超圖分割算法[J].小型微型計(jì)算機(jī)系統(tǒng),2018,39(7):32-33.

〔6〕林學(xué)民,杜小勇,李翠平.基于圖結(jié)構(gòu)的大數(shù)據(jù)分析與管理技術(shù)??把訹J].軟件學(xué)報(bào),2018,29(3):70-74.

〔7〕馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報(bào),2016,11(6):728-742.

〔8〕江洲,朱旭東.基于大數(shù)據(jù)和深度學(xué)習(xí)的人臉識(shí)別布控系統(tǒng)[J].電子世界,2018(9):52-55.

〔9〕段艷杰,呂宜生,張杰,等.深度學(xué)習(xí)在控制領(lǐng)域的研究現(xiàn)狀與展望[J].自動(dòng)化學(xué)報(bào),2016,42(5):643-654.

〔10〕李爽.基于多特征融合和深度學(xué)習(xí)的圖像分類算法[J].河南科技學(xué)院學(xué)報(bào),2018,46(4):50-55.

〔11〕卜范玉,陳志奎,張清辰.基于深度學(xué)習(xí)的不完整大數(shù)據(jù)填充算法[J].微電子學(xué)與計(jì)算機(jī),2014(12):55-61.

〔12〕陳瑞瑞.基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法[J].河南科技學(xué)院學(xué)報(bào),2018,46(4):56-60.

猜你喜歡
特征選擇深度學(xué)習(xí)大數(shù)據(jù)
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
故障診斷中的數(shù)據(jù)建模與特征選擇
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
reliefF算法在數(shù)據(jù)發(fā)布隱私保護(hù)中的應(yīng)用研究
一種多特征融合的中文微博評(píng)價(jià)對(duì)象提取方法
通道| 福建省| 美姑县| 冀州市| 太白县| 祁连县| 轮台县| 年辖:市辖区| 临潭县| 海丰县| 固原市| 海门市| 通江县| 聂拉木县| 玉环县| 萍乡市| 色达县| 广安市| 宜州市| 青川县| 监利县| 舞钢市| 遂川县| 宜黄县| 常山县| 双城市| 临猗县| 宜兰县| 九龙县| 武强县| 深泽县| 茶陵县| 大洼县| 柞水县| 太和县| 峨眉山市| 虎林市| 招远市| 合肥市| 绩溪县| 上高县|