駱 焦 煌
(閩南理工學(xué)院 信息管理學(xué)院, 福建 泉州 362000)
以文本信息為主體的網(wǎng)絡(luò)信息主要存儲(chǔ)于各級(jí)數(shù)據(jù)庫(kù)中, 基于數(shù)據(jù)表的大小、 類(lèi)別和用途歸類(lèi), 將數(shù)據(jù)庫(kù)中的信息分為粗粒度信息和細(xì)粒度信息[1]. 粗粒度表示類(lèi)別級(jí), 即僅考慮對(duì)象的類(lèi)別, 不考慮對(duì)象的某個(gè)特定實(shí)例. 粗粒度文本信息在本文中被稱(chēng)為粗粒度數(shù)據(jù), 是一種不具特定實(shí)例的信息或數(shù)據(jù). 在現(xiàn)實(shí)數(shù)據(jù)庫(kù)系統(tǒng)中粗粒度信息較難獲得, 而在很多場(chǎng)景下粗粒度信息在綜合信息評(píng)價(jià)方面用途較廣, 因此對(duì)粗粒度信息的分類(lèi)、 評(píng)價(jià)與應(yīng)用, 已成為當(dāng)前大數(shù)據(jù)挖掘與應(yīng)用領(lǐng)域的研究熱點(diǎn)之一. 數(shù)據(jù)庫(kù)中的粗粒度信息與細(xì)粒度信息具有緊密的關(guān)聯(lián)性, 粗粒度數(shù)據(jù)的挖掘還要基于不同粒度數(shù)據(jù)庫(kù)表之間的權(quán)重和關(guān)聯(lián)關(guān)系.
關(guān)于粗粒度文本數(shù)據(jù)挖掘、 分類(lèi)及計(jì)算的傳統(tǒng)方法主要包括基于決策樹(shù)與基于不同粒度數(shù)據(jù)之間關(guān)聯(lián)度的計(jì)算方法, 存在召回率較低和泛化誤差較高等問(wèn)題. 近年來(lái), 隨著人工智能技術(shù)和機(jī)器學(xué)習(xí)算法的發(fā)展, 人工神經(jīng)網(wǎng)絡(luò)被應(yīng)用于粗粒度數(shù)據(jù)的分布式計(jì)算中, 人工神經(jīng)網(wǎng)絡(luò)方法具有強(qiáng)大的泛化能力與學(xué)習(xí)能力, 能集中處理和訓(xùn)練海量不確定性的大數(shù)據(jù)集. 隨著文本數(shù)據(jù)規(guī)模的不斷擴(kuò)大及數(shù)據(jù)結(jié)構(gòu)差異化程度的提高, 已有數(shù)據(jù)庫(kù)中通常包含結(jié)構(gòu)數(shù)據(jù)、 非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)混合數(shù)據(jù), 且數(shù)據(jù)庫(kù)中各種信息的均衡度不同, 給文本數(shù)據(jù)的分類(lèi)挖掘帶來(lái)很大難度. 以人工神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)方法在計(jì)算效率、 計(jì)算復(fù)雜度等方面都需提高和改善. 因此, 本文在原有一維卷積粗粒度數(shù)據(jù)計(jì)算模式基礎(chǔ)上, 提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的粗粒度數(shù)據(jù)分布式算法, 利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的后饋性能和泛化性能[2], 更精確地提取網(wǎng)絡(luò)文本中的粗粒度數(shù)據(jù)信息, 提高系統(tǒng)的分布式運(yùn)算能力.
在數(shù)據(jù)庫(kù)表的分析與處理, 尤其是文本信息的拆分與使用中, 為提高數(shù)據(jù)類(lèi)的復(fù)用性和計(jì)算機(jī)語(yǔ)言的功能性, 常將功能更復(fù)雜的粗粒度信息拆分成若干細(xì)粒度信息. 在數(shù)據(jù)庫(kù)設(shè)計(jì)中, 為減少文本數(shù)據(jù)庫(kù)表的復(fù)雜度, 常會(huì)減少數(shù)據(jù)庫(kù)表之間的連接關(guān)系, 進(jìn)而獲取數(shù)據(jù)庫(kù)文本數(shù)據(jù)的粗粒度信息. 與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型相比, 卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)要經(jīng)過(guò)卷積層、 池化層和全連接層, 再經(jīng)過(guò)神經(jīng)元的模擬計(jì)算輸出[3], 卷積神經(jīng)網(wǎng)絡(luò)模型的框架結(jié)構(gòu)如圖1所示.
在自然語(yǔ)言處理中, 由于文本文件無(wú)法直接作為輸入數(shù)據(jù)使用, 因此在處理文本文件時(shí)先將自然語(yǔ)言轉(zhuǎn)換為數(shù)值型數(shù)據(jù). 卷積層是模型的中心結(jié)構(gòu), 輸入經(jīng)過(guò)處理和轉(zhuǎn)換的數(shù)據(jù)在卷積層要經(jīng)過(guò)疊加和加權(quán)處理, 完成特征的歸類(lèi)和提取[4]. 卷積層包括多個(gè)不同大小的濾波器[5], 輸入經(jīng)過(guò)卷積計(jì)算復(fù)雜度能得到控制, 也簡(jiǎn)化了神經(jīng)元系統(tǒng)的運(yùn)算流程. 池化層主要負(fù)責(zé)對(duì)輸入數(shù)據(jù)進(jìn)行多維度采樣[6], 以增強(qiáng)網(wǎng)絡(luò)泛化能力, 經(jīng)池化后的數(shù)據(jù)進(jìn)入神經(jīng)網(wǎng)絡(luò)模型全連接, 并完成對(duì)文本數(shù)據(jù)的分類(lèi)或聚類(lèi). 卷積神經(jīng)網(wǎng)絡(luò)模型在結(jié)構(gòu)設(shè)計(jì)上優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型, 因?yàn)榧尤肓司矸e計(jì)算和數(shù)據(jù)的池化環(huán)節(jié), 故在數(shù)據(jù)粒度劃分方面更有效. 卷積神經(jīng)網(wǎng)絡(luò)提升了神經(jīng)元的局部連接性能[7], 因此不受傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)模型最多神經(jīng)元數(shù)量容納的限制, 提高了神經(jīng)網(wǎng)絡(luò)的容納深度. 網(wǎng)絡(luò)局部連接性能的提升主要得益于網(wǎng)絡(luò)結(jié)構(gòu)匯總卷積層的引入, 若在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的第n層含有5個(gè)基礎(chǔ)神經(jīng)元, 則在第(n+1)和(n-1)層的局部連接方式如圖2所示. 由圖2可見(jiàn), 當(dāng)增加網(wǎng)絡(luò)層數(shù)時(shí), 神經(jīng)元層相對(duì)于輸入層中感受野的值也會(huì)增大, 這種結(jié)構(gòu)具有更強(qiáng)大的過(guò)濾性能, 減少網(wǎng)絡(luò)參數(shù)設(shè)定的復(fù)雜度. 隨著網(wǎng)絡(luò)層數(shù)的增加, 神經(jīng)元的泛化能力會(huì)拓展到全局, 并實(shí)現(xiàn)權(quán)值的共享與分配. 與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)方式相比, 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率更高[8], 在對(duì)粗粒度文本信息處理中, 特征提取的準(zhǔn)確率也更有優(yōu)勢(shì).
圖1 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
圖2 神經(jīng)元局部連接示意圖
本文用于粗粒度數(shù)據(jù)計(jì)算的卷積神經(jīng)網(wǎng)絡(luò)模型包括卷積層、 池化層、 連接層和激活層, 其中卷積層是最關(guān)鍵部分, 大量分布在底層網(wǎng)絡(luò)中的卷積核構(gòu)成了卷積層, 該層的功能是提取粗粒度集的文本數(shù)據(jù)特征, 更適用于文本數(shù)據(jù)特征的提取與存儲(chǔ), 相對(duì)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型在分布式運(yùn)算中的處理能力更強(qiáng).
算法描述如下:
步驟1) 初始化各隱藏層和輸出層的Weight,bias值為隨機(jī)值;
步驟2) for iter from 1 to Max;
步驟3) forj=1 tom;
步驟4) 將Convolutional Neural Network輸入a1設(shè)置為xi對(duì)應(yīng)的張量;
步驟5) fork=2 toL-1;
步驟6) 如果當(dāng)前層是全連接層, 則aj,k=σ(wkai,k-1+bl);
步驟7) 如果當(dāng)前是卷積層, 則ai,k=σ(wk*ai,k-1+bl);
步驟8) 如果當(dāng)前層是池化層, 則ai,k=pool(ai,k-1);
步驟9) 對(duì)于輸出層ai,k=softmax(zi,k);
步驟10) 通過(guò)損失函數(shù)計(jì)算輸出δi,k;
步驟11) fork=L-1 to 2;
步驟12) 如果當(dāng)前層是全連接層, 則δi,k=(wk+1)Tδi,k+1⊙σ′(zi,k);
步驟13) 如果當(dāng)前層是卷積層, 則δi,k=δi,k+1*rot180(wk+1)T⊙σ′(zi,k);
步驟14) 如果當(dāng)前層是池化層, 則δi,k=upsample(δi,k+1)⊙σ′(zi,k);
步驟15) fork=2 toL;
步驟16) 更新當(dāng)前全連接層或卷積層;
步驟17) 如果所有更新后的Weight和bias值都小于停止迭代閾值ε, 則跳出迭代循環(huán).
(1)
g(x)=(1+ex)-1,
(2)
而非Sigmoid型函數(shù)的變換區(qū)間為[-1,1], 其值域區(qū)間定義為
g(x)=tanh(x)=(1-e-2x)/(1+e-2x).
(3)
由于非Sigmoid型函數(shù)的值域范圍更廣, 因此應(yīng)用范圍也更廣, 在模型梯度優(yōu)化和調(diào)整過(guò)程中, 非Sigmoid型函數(shù)激活卷積層的神經(jīng)元細(xì)胞, 并調(diào)整網(wǎng)絡(luò)權(quán)值, 直至模型梯度函數(shù)中數(shù)據(jù)擴(kuò)散現(xiàn)象消除. 粗粒度文本數(shù)據(jù)在經(jīng)過(guò)卷積函數(shù)處理后, 提高了特征分布的均勻度, 有利于數(shù)據(jù)的分類(lèi)、 聚類(lèi)和特征輸出, 同時(shí)也減輕了數(shù)據(jù)庫(kù)過(guò)度細(xì)分帶來(lái)的運(yùn)算壓力.
卷積處理后的文本數(shù)據(jù)維度仍較高, 池化層主要負(fù)責(zé)對(duì)高維粗粒度數(shù)據(jù)的降維處理和數(shù)據(jù)采樣, 并提取出粗粒度文本數(shù)據(jù)的固有特征. 池化采樣包括最大池化和平均池化兩個(gè)過(guò)程, 按照一定的順序和規(guī)則池化窗在數(shù)據(jù)間移動(dòng), 并輸出池化特征. 傳統(tǒng)最大池化和平均池化過(guò)程效率較低, 過(guò)程冗余, 因此本文模型中將兩種池化方法相結(jié)合, 采用一種混合池化方法處理卷積激活后的文本數(shù)據(jù):
(4)
其中: 參數(shù)λ為(0,1)內(nèi)的隨機(jī)變量; |Mij|為池化池中的全部數(shù)據(jù)個(gè)數(shù). 卷積與池化參數(shù)列于表1.
給定一個(gè)訓(xùn)練集A={(xi,yj)|i,j=1,2,…,n,yj∈{1,2,…,k}}, 其中yj為文本數(shù)據(jù)xi所對(duì)應(yīng)的函數(shù)值, 在粗粒度數(shù)據(jù)計(jì)算中需先確定損失函數(shù). 采用隨機(jī)梯度算法以保證不影響模型的收斂速度[11], 每次迭代中僅保證一小部分樣本數(shù)據(jù)參與, 以獲得更快的模型收斂速度. 為保證評(píng)估模型的可靠性, 將全部樣本數(shù)據(jù)平均分成若干小組計(jì)算均值, 并優(yōu)化參數(shù), 確保粗粒度數(shù)據(jù)分布式計(jì)算的效率和準(zhǔn)確率.
表1 卷積與池化參數(shù)
用粒度梯度下降法求解模型的最小損失函數(shù), 并持續(xù)更新權(quán)值, 在參數(shù)更新中為保證損失函數(shù)迭代過(guò)程的穩(wěn)定, 采用如下參數(shù)優(yōu)化與更新策略:
(5)
卷積網(wǎng)絡(luò)模型的訓(xùn)練包括前饋操作和反向操作兩個(gè)過(guò)程[8], 前饋操作從卷積層開(kāi)始依次傳遞到池化層、 神經(jīng)網(wǎng)絡(luò)層, 非Sigmoid型函數(shù)的工作模式可描述為
g(x)ypre=gn[gn-1ωn(gn-2ωn-1+c1)+…+cn],
(6)
(7)
訓(xùn)練后獲得的梯度函數(shù)為
(8)
圖3 基于卷積神經(jīng)網(wǎng)絡(luò)分布式運(yùn)算的實(shí)現(xiàn)過(guò)程
經(jīng)過(guò)多次迭代確定閾值范圍后滿足粗粒度數(shù)據(jù)模態(tài)處理的要求, 還可保證權(quán)值之和為1, 方便后續(xù)模型的訓(xùn)練與測(cè)試. 卷積神經(jīng)網(wǎng)絡(luò)模型下的分布式計(jì)算方法以模型并行和數(shù)據(jù)并行兩種方法為主, 并實(shí)現(xiàn)了兩種分布式計(jì)算方法的融合. 在模型運(yùn)行中卷積神經(jīng)網(wǎng)絡(luò)包含的各種神經(jīng)元, 將粗粒度數(shù)據(jù)均勻劃分到各節(jié)點(diǎn), 各節(jié)點(diǎn)協(xié)調(diào)工作, 共同完成訓(xùn)練任務(wù). 分布式運(yùn)算的處理方式避免了過(guò)多的網(wǎng)絡(luò)開(kāi)銷(xiāo), 在粗粒度數(shù)據(jù)并行處理過(guò)程中, 轉(zhuǎn)換后的輸入數(shù)據(jù)被分成若干小型的數(shù)據(jù)塊[13], 再將數(shù)據(jù)塊分發(fā)到Hadoop網(wǎng)絡(luò)集群中實(shí)現(xiàn)對(duì)初始數(shù)據(jù)的并行化處理. 卷積和池化處理后的文本數(shù)據(jù)維度降低, 提高了訓(xùn)練精度. 在Hadoop網(wǎng)絡(luò)結(jié)構(gòu)模式下, 并行的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)模式如圖3所示.
Hadoop網(wǎng)絡(luò)具有強(qiáng)大的并行計(jì)算能力, 借助Hadoop網(wǎng)絡(luò)結(jié)構(gòu), 卷積神經(jīng)網(wǎng)絡(luò)模型將卷積和池化后的數(shù)據(jù)分成了m個(gè)數(shù)據(jù)塊, 并將處理后的數(shù)據(jù)傳遞到神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn). 在相同條件下, 每個(gè)獨(dú)立的網(wǎng)絡(luò)節(jié)點(diǎn)單獨(dú)訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù), 但這種模式效率較低, 卷積神經(jīng)網(wǎng)絡(luò)模型將局部神經(jīng)元連接成一體, 形成一個(gè)鏈狀的網(wǎng)絡(luò)結(jié)構(gòu), 并賦予結(jié)構(gòu)不同的權(quán)重, 與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型相比效率更高. 同時(shí), 交叉鏈狀結(jié)構(gòu)與Hadoop網(wǎng)絡(luò)結(jié)構(gòu)的兼容性更好, 也可更好地發(fā)揮Map函數(shù)的分類(lèi)和聚類(lèi)功能. 當(dāng)訓(xùn)練完成后, Reduce函數(shù)重新將分散加工的節(jié)點(diǎn)數(shù)據(jù)聚合, 并重新計(jì)算權(quán)重值, 直到迭代后滿足設(shè)定的閾值. 卷積神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)模型中增加了卷積層和池化層[14], 不僅提高了模型的海量數(shù)據(jù)處理能力, 還提升了數(shù)據(jù)運(yùn)算效率, 在網(wǎng)絡(luò)層和中間隱含層中, 基于權(quán)重確定了神經(jīng)元之間的內(nèi)在關(guān)聯(lián)度, 從而保證了粗粒度文本數(shù)據(jù)處理的效率和準(zhǔn)確率.
為提升實(shí)驗(yàn)驗(yàn)證應(yīng)用結(jié)果的普遍性, 樣本數(shù)據(jù)集包含中文數(shù)據(jù)集和英文數(shù)據(jù)集兩類(lèi). 其中中文數(shù)據(jù)集以某高校中文系教學(xué)實(shí)驗(yàn)數(shù)據(jù)為研究樣本, 具體類(lèi)別包含經(jīng)濟(jì)、 科技、 社會(huì)、 體育4個(gè)類(lèi)別的15 250個(gè)樣本; 英文數(shù)據(jù)采用美國(guó)加州大學(xué)歐文分校Iris數(shù)據(jù)集中的14 750個(gè)樣本. 實(shí)驗(yàn)環(huán)境: CPU為Core i7 3.6 GHz, RAM為16 GB, ROM為2 TB, 采用Hadoop 2.8.0, 編程語(yǔ)言為Python 2.8. 參數(shù)配置: 中、 英文數(shù)據(jù)各占1/2, 數(shù)據(jù)維度為50, 訓(xùn)練倍數(shù)為20, 分塊數(shù)為10.
在Hadoop網(wǎng)絡(luò)框架下, 將卷積神經(jīng)網(wǎng)絡(luò)模型與分布式網(wǎng)絡(luò)框架相結(jié)合, 運(yùn)行步驟如下:
1) 利用卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層訓(xùn)練全部的粗粒度文本詞條, 并將樣本轉(zhuǎn)換成二維矩陣的模式, 格式轉(zhuǎn)換后的粗粒度數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)模型;
2) 將輸入神經(jīng)網(wǎng)絡(luò)系統(tǒng)的文本數(shù)據(jù)矩陣模型按高斯分布初始化處理, 并逐層驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)特征歸類(lèi)中的有效性;
3) 利用Hadoop網(wǎng)絡(luò)框架模型對(duì)輸入系統(tǒng)的分布式特征數(shù)據(jù)降維, 并基于神經(jīng)網(wǎng)絡(luò)中隱含神經(jīng)元訓(xùn)練粗粒度文本數(shù)據(jù), 用分布式計(jì)算方法提高模型訓(xùn)練效率, 獲得最優(yōu)的分類(lèi)計(jì)算結(jié)果.
圖4 單機(jī)模式下各算法的分布式計(jì)算效率對(duì)比
圖5 集群環(huán)境下各算法的分布式計(jì)算效率
以全部30 000個(gè)中英文混合數(shù)據(jù)為訓(xùn)練樣本, 并將全部樣本數(shù)據(jù)分成10個(gè)區(qū)塊. 首先考察在單機(jī)條件下卷積神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練效率. 為使訓(xùn)練對(duì)比結(jié)果更直觀, 與傳統(tǒng)基于決策樹(shù)的算法和一維卷積算法進(jìn)行對(duì)比, 單機(jī)模式下不同算法的分布式計(jì)算效率如圖4所示. 由圖4可見(jiàn), 隨著迭代次數(shù)的增加, 卷積神經(jīng)網(wǎng)絡(luò)分布式算法對(duì)訓(xùn)練耗時(shí)的控制效果更好, 當(dāng)?shù)螖?shù)為140次時(shí), 訓(xùn)練時(shí)間控制在1.34 h內(nèi), 顯著優(yōu)于傳統(tǒng)基于決策樹(shù)的分布式算法和一維卷積算法. 這主要是由于卷積神經(jīng)網(wǎng)絡(luò)中將輸入的文本數(shù)據(jù)疊加及加權(quán)處理, 提高了分類(lèi)器的數(shù)據(jù)處理能力, 而文本數(shù)據(jù)的池化環(huán)節(jié)將50維的高維數(shù)據(jù)降至10維以下, 更有助于混合數(shù)據(jù)的聚類(lèi)和分類(lèi)處理, 效率更高. Hadoop網(wǎng)絡(luò)框架結(jié)構(gòu)的應(yīng)用, 能提高單機(jī)操作模式下的粗粒度數(shù)據(jù)分布效率, 在Hadoop2.8.0集群環(huán)境下不同算法的計(jì)算效率如圖5所示. 由圖5可見(jiàn), 在Hadoop2.8.0集群環(huán)境下, 基于卷積神經(jīng)網(wǎng)絡(luò)的粗粒度文本計(jì)算效率十分穩(wěn)定, 隨著迭代次數(shù)的變化穩(wěn)定性更強(qiáng); 決策樹(shù)算法和一維卷積算法相對(duì)于單機(jī)模式下計(jì)算效率也有改善.
下面對(duì)決策樹(shù)算法、 一維卷積算法和卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行對(duì)比, 檢驗(yàn)各算法對(duì)中英文混合數(shù)據(jù)集的處理性能及在相同環(huán)境下粗粒度數(shù)據(jù)的分布式處理性能. 將30 000個(gè)中英文混合數(shù)據(jù)劃分為10個(gè)區(qū)塊, 分別測(cè)試不同算法對(duì)粗粒度數(shù)據(jù)的分類(lèi)準(zhǔn)確率、 召回率、 訓(xùn)練時(shí)間和測(cè)試時(shí)間, 3種算法在相同的數(shù)據(jù)分塊和Hadoop集群環(huán)境進(jìn)行測(cè)試, 統(tǒng)計(jì)結(jié)果分別列于表2~表4.
表2 決策樹(shù)算法性能評(píng)估
表3 一維卷積算法性能評(píng)估
表4 卷積神經(jīng)網(wǎng)絡(luò)算法性能評(píng)估
圖6 不同算法的泛化誤差對(duì)比
由表2~表4可見(jiàn), 卷積神經(jīng)網(wǎng)絡(luò)分布式算法文本數(shù)據(jù)的分類(lèi)準(zhǔn)確率和召回率更高, 與決策樹(shù)算法相比, 兩個(gè)指標(biāo)的平均值分別提高了6.91%和7.58%; 在訓(xùn)練時(shí)間和測(cè)試時(shí)間方面, 卷積神經(jīng)網(wǎng)絡(luò)算法分別節(jié)省了0.629 h和1.649 h. 與一維卷積算法相比, 兩個(gè)指標(biāo)的平均值分別提高了8.59%和12.01%; 在訓(xùn)練時(shí)間和測(cè)試時(shí)間方面, 卷積神經(jīng)網(wǎng)絡(luò)算法分別節(jié)省了1.48 h和2.46 h. 分布式運(yùn)算效率得到了明顯提高和改善.
泛化能力是衡量算法性能的重要指標(biāo)之一, 通常對(duì)泛化誤差的控制能力越強(qiáng), 表明算法的泛化能力越強(qiáng). 圖6為11個(gè)數(shù)據(jù)區(qū)塊范圍內(nèi)粗粒度數(shù)據(jù)處理的泛化誤差邊界范圍. 由圖6可見(jiàn), 卷積神經(jīng)網(wǎng)絡(luò)算法誤差控制在±0.01內(nèi), 優(yōu)于決策樹(shù)網(wǎng)絡(luò)和一維卷積的算法性能, 因此本文算法具有更強(qiáng)的泛化能力及分布式數(shù)據(jù)處理能力.
綜上所述, 本文針對(duì)傳統(tǒng)粗粒度文本數(shù)據(jù)計(jì)算方法及一維卷積算法在數(shù)據(jù)訓(xùn)練和測(cè)試中存在的問(wèn)題, 提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的粗粒度數(shù)據(jù)分布式算法. 由于在神經(jīng)網(wǎng)絡(luò)模型中加入了卷積函數(shù)運(yùn)算和池化降維環(huán)節(jié), 因此算法的性能和泛化能力得到了顯著改善.