国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)系拓展的改進詞袋模型研究

2019-05-10 02:00:24陳行健胡雪嬌
小型微型計算機系統(tǒng) 2019年5期
關(guān)鍵詞:特征提取圖譜聚類

陳行健,胡雪嬌,薛 衛(wèi)

(南京農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,南京 210095)

1 引 言

詞袋模型源于文本處理領(lǐng)域,其原理是將目標(biāo)文檔看作若干無序單詞的集合,通過統(tǒng)計每個單詞在該文檔中出現(xiàn)的次數(shù),得到單詞頻率直方圖向量用于文本分類[1].傳統(tǒng)詞袋模型在機器學(xué)習(xí)與模式識別等領(lǐng)域均取得了較好的效果,但該模型假設(shè)特征單詞之間相互獨立,忽略了特征單詞之間的空間位置信息,在目標(biāo)對象的特征表示方面還存在局限性.為提高BoW模型的分類性能,提出了一些改進算法.主要可分為三類:一是在局部特征提取階段選擇合適的特征,如Zhang等人提出采用ORB(Oriented Fast and Rotated BRIEF)描述子代替SIFT(Scale-Invariant Feature Transform)優(yōu)化圖像特征,從而提高了檢索效率[2];Xie等人通過分析鄰域像素和局部圖像,引入LQP(Local Quantized Pattern)構(gòu)建字典,取得了較好效果[3];二是在聚類分析過程中對字典進行優(yōu)化,如Irfan等人通過對字典降維并使用TF_IDF(Term Frequency_Inverse Document Frequency)算法賦予相應(yīng)詞權(quán)重,解決了文本錯誤匹配問題[4];Zhu等人利用模糊均值(Fuzzy C-Means)代替K均值(K-Means)優(yōu)化字典,使初始聚類中心的選擇更加合理[5];三是在統(tǒng)計信息的基礎(chǔ)上融入空間位置信息,如Wang等人引入顯著區(qū)域提取,結(jié)合三角剖分方法融入圖像全局信息,得到了較好的預(yù)測效果[6];Li等人使用空間金字塔匹配技術(shù)(Spatial Pyramid Matching,簡稱SPM),在圖像表示階段加入局部特征的空間位置信息,從而提高了分類性能[7];Ramesh等人提出上下文詞袋特征,結(jié)合空間共生矩陣對視覺詞組進行特征表示,提高了圖像識別的準(zhǔn)確率[8].

雖然當(dāng)前的方法在不同領(lǐng)域均取得了較好的效果,但其中大部分算法仍然是針對局部特征提取或聚類分析過程進行改進,而并未考慮聚類后得到的特征單詞之間的空間位置關(guān)系,且在結(jié)合特征單詞空間信息方面,所生成的單詞特征表達能力和區(qū)分度不足.因此,本文在傳統(tǒng)詞袋模型的基礎(chǔ)上,對聚類后得到的特征單詞提出位置關(guān)系圖譜,并與傳統(tǒng)詞袋特征相融合,可以使目標(biāo)對象的特征表述更具有代表性,從而提高分類性能.

2 基于關(guān)系圖譜的詞袋模型

本文主要以字符序列作為研究對象.字符序列被廣泛應(yīng)用于文檔、Web用戶訪問日志、金融數(shù)據(jù)庫的交易序列以及生物信息領(lǐng)域的基因和蛋白質(zhì)序列等應(yīng)用中[9].近年來,隨著大數(shù)據(jù)時代的來臨,字符數(shù)據(jù)庫呈現(xiàn)爆炸式的增長趨勢,字符序列的數(shù)據(jù)挖掘也逐漸成為機器學(xué)習(xí)領(lǐng)域的重點研究內(nèi)容.

傳統(tǒng)詞袋模型忽略特征單詞之間的詞序、語法及語義等要素,將目標(biāo)對象僅僅看作是由若干個無序單詞組成的集合,這種方法沒有考慮到特征單詞之間的空間位置信息,得到的詞袋特征表達能力和區(qū)分度不足.針對上述問題,本文提出一種基于關(guān)系拓展的改進詞袋模型,該模型在傳統(tǒng)詞袋模型的基礎(chǔ)上,對序列單詞提取位置關(guān)系圖譜,將得到的關(guān)系圖譜進行特征轉(zhuǎn)換、降維并與傳統(tǒng)詞袋特征相融合作為模型最終特征.相比傳統(tǒng)詞袋模型,本文提出的模型能更加全面地反映目標(biāo)序列的特征分布規(guī)律.其流程如圖1所示.

圖1 基于關(guān)系圖譜的詞袋模型流程Fig.1 Process of BoW model based on relational graph

2.1 局部特征提取

假定對于任意字符序列,首先對序列進行分割處理提取局部特征,本文采用滑動窗口分割法.滑動窗口分割法即將每條字符序列按照一定窗口進行切分,通過設(shè)定窗口大小和滑動間距得到不同長度和數(shù)量的序列片段,經(jīng)特征提取后得到序列單詞集合形成構(gòu)建字典的基礎(chǔ).這種方法能完整保留字符序列的全部信息.本文取滑動間隔為1,滑動窗口大小決定序列單詞長度,需滿足以下條件:

(1)

其中L1,L2,…,Ln表示數(shù)據(jù)集中所有字符序列長度,L即為數(shù)據(jù)集中最短字符序列長度,d為滑動窗口大小,即序列單詞長度在L/2到L之間選取,具體值根據(jù)實驗經(jīng)驗選取.

分割后對序列片段進行特征提取得到特征單詞,對特征單詞進行K-Means聚類[10]構(gòu)建字典,將目標(biāo)序列的各個特征單詞映射到與之距離最近的聚類中心,則目標(biāo)序列可由若干個聚類中心唯一表示,即對于任意字符序列經(jīng)上述步驟后可表示為:

F=(x1,x2,x3,…,xn),1≤i≤n,n∈Z

(2)

其中F為目標(biāo)序列,xi表示序列F中第i個特征單詞片段所映射的聚類中心標(biāo)簽,n為序列切分長度.

2.2 關(guān)系圖譜

馬爾科夫模型是刻畫隨機過程的重要模型,具有極強的對動態(tài)過程序列的建模能力和時序模式的分類能力[11].本文結(jié)合馬爾科夫模型對特征單詞提出位置關(guān)系圖譜.對于一個隨機過程,如果它所處的未來狀態(tài)僅與它的當(dāng)前狀態(tài)有關(guān),并且獨立于過去已發(fā)生的狀態(tài),那么該隨機過程被稱為馬爾科夫過程.對于任意有限狀態(tài)序列X={x1,x2,…,xt},用x1,x2,…,xt表示該狀態(tài)序列在T=1,2,…,t時刻所處的狀態(tài).則將滿足以下條件的狀態(tài)序列X稱為馬爾科夫鏈:

(3)

(4)

基于馬爾科夫鏈,則對于任意目標(biāo)序列F,假設(shè)x1,x2,…,xn表示該序列在N=1,2,…,n時刻所處的狀態(tài),則序列F在N時刻所處的狀態(tài)只與前面已出現(xiàn)的N-1個時刻的狀態(tài)有關(guān),序列F中任一時刻所處的狀態(tài)xN滿足以下條件函數(shù):

xN=g(xN-1,xN-2,…,x1)

(5)

如果假設(shè)影響序列F未來的當(dāng)前狀態(tài)僅有一個,即序列F中任一時刻所處狀態(tài)xN僅取決于上一時刻所處狀態(tài)xN-1,那么上式將變?yōu)?

xN=g(xN-1)

(6)

在一個隨機馬爾可夫過程中,k階馬爾科夫鏈表示當(dāng)前狀態(tài)僅與前k個相鄰狀態(tài)有關(guān).則對于序列F中任意一個聚類中心xi,xi所映射的單詞片段僅與前面已出現(xiàn)的k個聚類中心所映射的單詞片段有關(guān),其中k為馬爾科夫相關(guān)系數(shù),1≤k≤i-1,k=1時表示當(dāng)前聚類中心xi僅與前面已出現(xiàn)的一個聚類中心xi-1有關(guān),k=i-1時表示當(dāng)前聚類中心xi與前面已出現(xiàn)的i-1個聚類中心有關(guān),則對于序列F,依次提取F中每個特征單詞與前面已出現(xiàn)過的特征單詞之間的相鄰關(guān)系,即可得到位置關(guān)系圖譜.本文k取i-1.具體算法思路如下:

(7)

其中m為聚類中心個數(shù),vij為矩陣D中任意元素值,對應(yīng)聚類片段(xi,xj)出現(xiàn)的次數(shù),矩陣的行和列分別對應(yīng)不同聚類中心標(biāo)簽.

提取算法過程如下:

輸入:目標(biāo)序列F,聚類中心個數(shù)m,序列切分長度n,初始零矩陣D

輸出:位置關(guān)系矩陣

1)for(i=1;i≤n;i++)

2)for(j=i-k;j≤i-1;j++)

3)D(xi,xj)+=1

4) 重復(fù)步驟3)直至j=i-1

5)vij=D(xi,xj)

6) 重復(fù)步驟5)直至i=n

7) 輸出D

目標(biāo)序列F經(jīng)上述步驟后被表示成一個m*m的位置關(guān)系矩陣,將矩陣轉(zhuǎn)化為關(guān)系圖譜,圖譜中各個不同亮度的像素點分別代表相應(yīng)聚類片段出現(xiàn)的次數(shù).當(dāng)馬爾科夫系數(shù)k=1時,提取過程如圖2所示.

圖2 詞袋關(guān)系圖譜提取步驟Fig.2 Extraction process of BoW relational graph

2.3 特征轉(zhuǎn)換

經(jīng)上述步驟得到的關(guān)系圖譜以二維矩陣的形式存在,如果直接展開進行串接表示數(shù)據(jù)量過大,訓(xùn)練分類器時的內(nèi)存和時間消耗代價過高.一般用池化的方法來為特征向量降維.池化操作常用于圖像處理領(lǐng)域,對圖像不同位置的特征進行聚合統(tǒng)計,提取有效特征,減少計算量.常用的池化方法有最大池化(Max-pooling)[12]和平均池化(Mean-pooling)[13].Max-pooling即對鄰域內(nèi)特征點取最大值,能更多的保留圖像的背景信息,而Mean-pooling則是對鄰域內(nèi)特征點求平均值,能更多的保留圖像的紋理信息.考慮到對矩陣直接進行池化可能會丟失部分信息,因此本文使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,簡稱CNN)對矩陣進行特征轉(zhuǎn)換.

已有研究表明,卷積神經(jīng)網(wǎng)絡(luò)的全連接層能更為全面的捕捉到全局空間的布局信息,因此本文直接提取全連接層的輸出作為關(guān)系圖譜的特征表示.考慮到經(jīng)上述步驟得到的關(guān)系圖譜比較稀疏,為了進一步提高CNN模型的魯棒性,本文借鑒自然語言處理中的詞嵌入方法對稀疏圖譜進行密集表示.詞嵌入是將詞的稀疏向量轉(zhuǎn)換為稠密向量的一類方法.具體方法是隨機生成一個m*m的權(quán)重矩陣,將上文得到的關(guān)系圖譜矩陣映射到隨機權(quán)重矩陣,則矩陣中每一個維度都被轉(zhuǎn)化為密集向量的形式,該過程的輸出即為密集圖譜[14].將密集處理后的關(guān)系圖譜送入CNN進行深度特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.

圖3 CNN模型結(jié)構(gòu)Fig.3 Model structure of CNN

卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、下采樣層、全連接層和輸出層等五個部分組成.其中,輸入層即為關(guān)系圖譜X,卷積層則通過制定不同的窗口值對X進行特征提取,池化層使用最大池化對特征圖進行降維來減少后續(xù)層的參數(shù).全連接層將卷積層或者池化層中具有類別區(qū)分性的分布式特征映射到高維向量輸出.本文采用糾正線性單元(Rectified Linear Unit,簡稱ReLU)作為激活函數(shù).為了有效地緩解訓(xùn)練過程中的過擬合現(xiàn)象,在卷積層和全連接層中均使用了Dropout技術(shù),經(jīng)驗值取0.5.實驗選取Cross-Entropy作為損失函數(shù),并引入Weight-Decay對參數(shù)進行正則化,提取全連接層的輸出作為關(guān)系圖譜的最終特征表示,其向量維度為p.

2.4 特征融合

基于關(guān)系圖譜的特征表示方法雖引入了局部特征的空間位置信息,但其缺少特征單詞的全局統(tǒng)計信息,分類性能仍有待提高.因此本文利用多特征融合的方式對圖譜特征及詞袋特征進行進一步處理以提高模型精度.將提取到的兩種不同的特征向量拼接形成最終特征,經(jīng)過融合后的特征向量能更加全面地反映目標(biāo)序列的全局信息,其最終表示為:

V=[vt1,vt2,vt3,…,vtm,vs1,vs2,vs3,…,vsp]

(8)

其中vt為詞袋特征向量,vs為位置特征向量,m和p分別代表相應(yīng)特征向量維數(shù).由于拼接后得到的向量維數(shù)較大,因此本文使用主成分分析(Principal Component Analysis,簡稱PCA)的方法進行降維.將降維后的數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化后作為模型最終向量送入分類器進行分類.

3 實驗與分析

為檢驗?zāi)P托阅?將其應(yīng)用到蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測研究中.蛋白質(zhì)亞細(xì)胞區(qū)間定位對于確定蛋白質(zhì)功能、設(shè)計藥物靶標(biāo)、揭示分子交互機理等方面都有很大的促進作用,是生物數(shù)據(jù)挖掘中的研究熱點[15-19].蛋白質(zhì)序列是由20 種氨基酸殘基以不同的字母形式組合而成的生物字符序列.蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測即根據(jù)蛋白質(zhì)序列預(yù)測其所處的亞細(xì)胞區(qū)間,屬于分類問題.

3.1 實驗環(huán)境

本文使用Pytorch作為深度學(xué)習(xí)框架,實驗環(huán)境為:Intel Core E5-2650 v4 CPU,2.2GHz主頻,GTX 1080Ti顯卡*2,16G內(nèi)存,1T硬盤.Windows10操作系統(tǒng),Anaconda開發(fā)平臺.

3.2 數(shù)據(jù)集

在蛋白質(zhì)亞細(xì)胞區(qū)間定位研究中,傳統(tǒng)實驗方法所需時間周期較長,人工標(biāo)注完善的蛋白質(zhì)序列數(shù)據(jù)庫規(guī)模有限.本文采用國際公認(rèn)有效且使用較為廣泛的ZD98、ZW225及CL317作為實驗數(shù)據(jù)集.其中ZD98由Zhou和Doctor[16]構(gòu)建,共有98條蛋白質(zhì)序列,分為4個亞細(xì)胞區(qū)間類別;ZW225由Zhang等人[17]構(gòu)建,共有225條蛋白質(zhì)序列,分為4個亞細(xì)胞區(qū)間類別;CL317由Chen和Li[18]構(gòu)建,共有317條蛋白質(zhì)序列,分為6個亞細(xì)胞區(qū)間類別.

3.3 檢驗方法與評價指標(biāo)

實驗基于一對一算法(one-versus-one)構(gòu)造支持向量機(Support Vector Machine,簡稱SVM)多類分類器進行預(yù)測.采用Jackknife進行假設(shè)檢驗.Jackknife是蛋白質(zhì)亞細(xì)胞定位預(yù)測中使用最多的測試方法,即每次從數(shù)據(jù)集中取出一條蛋白質(zhì)序列作為測試集,其余序列作為訓(xùn)練集送入分類器進行訓(xùn)練,以此類推直至所有序列均預(yù)測完畢,是一種客觀有效的假設(shè)檢驗方法[19].本文使用準(zhǔn)確率(Acc)作為最終評價指標(biāo),其定義如下:

(9)

其中,TPi代表第i類蛋白質(zhì)序列亞細(xì)胞區(qū)間預(yù)測正確的條數(shù),FNi代表第i類蛋白質(zhì)序列亞細(xì)胞區(qū)間預(yù)測錯誤的條數(shù),M為蛋白質(zhì)亞細(xì)胞區(qū)間類別總數(shù).

3.4 實驗結(jié)果與分析

為了驗證本文模型的有效性,將本文方法在三種數(shù)據(jù)集上的預(yù)測結(jié)果列于表1中,同時將選取的在蛋白質(zhì)亞細(xì)胞區(qū)間定位中具有代表性的氨基酸組成(Amino acid composition,簡稱AAC)算法[20]、偽氨基酸組成(Pseudo Amino acid composition,簡稱PseAAC)算法[15]及二肽組成(Dipeptide,簡稱Dipe)算法[21]得到的預(yù)測結(jié)果一并列出,如表中AAC、PseAAC及Dipe所示,其中Dipe是蛋白質(zhì)序列特征表示方法中使用較多的位置信息提取算法.

基于關(guān)系圖譜的特征表示方法在實際應(yīng)用中也取得了不錯的效果,為了便于比較,本文也列出了基于各種序列位置特征提取算法的實驗結(jié)果.其中Markov為Bulashevska等人通過計算蛋白質(zhì)序列在一階馬爾科夫鏈下的狀態(tài)轉(zhuǎn)移矩陣進行預(yù)測的實驗結(jié)果[22];Seq_Index為Liao等人基于橫向和縱向編碼整合氨基酸殘基位置分布信息進行預(yù)測的實驗結(jié)果[23];Bow_Index為本文結(jié)合傳統(tǒng)詞袋模型基于Liao等人的實驗方法提取片段位置信息進行預(yù)測的結(jié)果;Bow_Matrix為將本文關(guān)系圖譜作為最終特征表示進行預(yù)測的結(jié)果.

此外,本文列出了Zhao等人將傳統(tǒng)詞袋模型應(yīng)用到相同數(shù)據(jù)集進行預(yù)測的實驗結(jié)果[24],如表中BoW所示,同時也進行了多次基于不同改進算法的預(yù)測實驗.其中TF_IDF為文獻[4]中的詞頻-逆文檔頻率算法;FCM為文獻[5]中的模糊均值聚類算法;SPM為文獻[7]中的空間金字塔匹配算法.不同對比算法在局部特征提取階段均使用AAC進行特征提取,預(yù)測時均使用SVM作為最終分類器,最終比較結(jié)果如表1所示.

表1 數(shù)據(jù)集預(yù)測準(zhǔn)確率比較
Table 1 Comparison of the accuracy of data sets

MethodsZD98ZW225CL317AAC[20]0.80610.80440.8196PseAAC[15]0.83330.82670.8228Dipe[21]0.82290.81780.8196Markov[22]0.88780.83110.7911Seq_Index[23]0.86730.84780.8386Bow_Index0.88780.84000.8611Bow_Matrix0.91890.84450.8924BoW[24]0.90820.86220.8829TF_IDF0.89790.86220.8544FCM0.89790.85780.8924SPM0.86730.84890.8386Max_Pooling0.88780.83110.8228Mean_Pooling0.86730.84000.8196Bow_Flatten0.90820.85780.8924Our0.94890.89780.9304

從表1可以看出,本文模型相比傳統(tǒng)蛋白質(zhì)序列特征提取算法AAC、PseAAC和Dipe等在ZD98、ZW225和CL317數(shù)據(jù)集的總體預(yù)測精度上最大提升了約11個百分點,實驗證明本文模型能有效增加蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測的準(zhǔn)確率.對比Dipe、Seq_Index與Bow_Matrix的實驗結(jié)果,進一步證實了本文關(guān)系圖譜對序列位置特征提取的有效性.將本文方法與基于傳統(tǒng)詞袋模型(BoW)及其改進算法(TF_IDF,FCM,SPM)的實驗結(jié)果進行對比,在相同數(shù)據(jù)集上的準(zhǔn)確率也都提高了約2到5個百分點,實驗表明本文模型較傳統(tǒng)詞袋模型及其改進算法具有顯著優(yōu)勢.

對比Markov、Bow_Index與Bow_Matrix的實驗結(jié)果可知,就蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測研究而言,經(jīng)詞袋模型處理后的蛋白質(zhì)序列所表示的單詞信息量比單個字符更加豐富,其相鄰切片類別的先驗知識信息優(yōu)于只考慮序列相鄰氨基酸殘基關(guān)系的先驗信息,故其預(yù)測精度優(yōu)于基于位置先驗信息的馬爾可夫算法.

對于關(guān)系矩陣,文獻[12,13]中有多種處理算法,如將矩陣直接串接形成一維向量(Bow_Flatten),及當(dāng)前應(yīng)用較廣泛的池化算法(Max_Pooling,Mean_Pooling),提取關(guān)系矩陣每一列的最大值或平均值,然后串接形成一維向量等.實驗結(jié)果表明,直接連接形成一維向量會造成維數(shù)災(zāi)難,降低模型精度,池化提取特征又忽略掉關(guān)系矩陣每一列的大量信息,導(dǎo)致特征表達能力不足,通過CNN提取關(guān)系圖譜的全局信息,能更加全面地反映序列位置特征的分布規(guī)律,提高分類準(zhǔn)確率.

4 結(jié)束語

本文提出了一種基于關(guān)系拓展的詞袋模型,引入位置關(guān)系圖譜對聚類單詞提取位置信息,并與統(tǒng)計信息相融合作為模型最終特征,對提升傳統(tǒng)詞袋模型特征表達能力方面具有重要意義.實驗表明,本文提出的關(guān)系圖譜能有效解決傳統(tǒng)詞袋模型中統(tǒng)計信息區(qū)分度不足的問題,改進了傳統(tǒng)詞袋模型的應(yīng)用性能.結(jié)合卷積神經(jīng)網(wǎng)絡(luò)對關(guān)系圖譜進行特征提取,相比池化等方法效果更優(yōu).此次針對傳統(tǒng)詞袋模型進行了一些改進,在字符序列特征提取方面做了研究工作并取得了一些成果,接下來將在對稀疏矩陣的特征提取算法上做進一步的改進,并嘗試在其他應(yīng)用領(lǐng)域做進一步的拓展,重點關(guān)注圖像識別以及文本分類等.

猜你喜歡
特征提取圖譜聚類
繪一張成長圖譜
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
補腎強身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
Bagging RCSP腦電特征提取算法
主動對接你思維的知識圖譜
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
基于MED和循環(huán)域解調(diào)的多故障特征提取
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
龙州县| 涡阳县| 兴业县| 鹤岗市| 杨浦区| 瓦房店市| 江源县| 兴城市| 丹阳市| 酒泉市| 苍溪县| 茶陵县| 左云县| 蕲春县| 永州市| 定西市| 元阳县| 洪洞县| 万州区| 杂多县| 淳化县| 布尔津县| 金湖县| 崇礼县| 克拉玛依市| 漠河县| 永康市| 文水县| 云安县| 宜州市| 呼和浩特市| 交口县| 留坝县| 宁国市| 平塘县| 乐陵市| 呼图壁县| 伊春市| 锡林郭勒盟| 滁州市| 新巴尔虎左旗|