摘 ?要:隨著科技的發(fā)展,數(shù)據(jù)分類問題應用在生活的多個方面,然而在面對龐大的數(shù)據(jù)時,往往采用壓縮過的稀疏數(shù)據(jù),這就為分類模型的發(fā)展帶來了極大的挑戰(zhàn)。為了提高稀疏數(shù)據(jù)分類的準確性和正確率,提出了基于稀疏邏輯回歸的鏈接神經(jīng)網(wǎng)絡(luò)模型,由此構(gòu)建成可靠的分類模型。以兩類數(shù)據(jù)作為研究對象,首先進行數(shù)據(jù)預處理,再提取出數(shù)據(jù)特征對其進行分類。研究結(jié)果表明,分類模型不僅可以應用于稀疏數(shù)據(jù),而且正確率較神經(jīng)網(wǎng)絡(luò)模型的結(jié)果有所提升,手寫字的正確率從90.1%提高到94.86%,聲音分類的正確率從70.3%提高到74.4%,證實該模型有效。
關(guān)鍵詞:邏輯回歸;稀疏性;神經(jīng)網(wǎng)絡(luò);多分類
中圖分類號:TP391 ? ? 文獻標識碼:A
Abstract: With the development of science and technology, data classification is applied in many aspects of life. However, when facing huge data, compressed sparse data is often used, which brings great challenges to the development of classification models. In order to improve the precision and accuracy of sparse data classification, this paper proposes a link neural network model based on sparse logistic regression, so to build a reliable classification model. Taking two types of data as research object, data is preprocessed first, and then data features are extracted to classify them. The research results show that the classification model proposed in this paper can not only be applied to sparse data, but the accuracy is improved compared with the results of the neural network model. Accuracy of handwriting has increased from 90.1% to 94.86%, and accuracy of sound classification has increased from 70.3% to 74.4%, which proves that the model is effective.
Keywords: logistic regression; sparsity; neural network; multi-classification
1 ? 引言(Introduction)
在現(xiàn)代數(shù)據(jù)分析中,具有挑戰(zhàn)性的熱點問題是從看似不足的數(shù)據(jù)量中恢復高維的信號,即數(shù)據(jù)的稀疏表示,這類問題在多個領(lǐng)域都有所涉及,例如壓縮感知、稀疏近似和低秩矩陣恢復。本文受文獻[1]1-Bit壓縮感知中邏輯回歸模型的收斂性以及可行性證明的啟發(fā),利用邏輯回歸模型并結(jié)合稀疏性對實際應用問題進行研究。邏輯回歸是最基本的回歸形式,也是常用的分類方法。
現(xiàn)代生活的各個方面都離不開“分類”這一概念,應用邏輯回歸模型解決分類問題備受研究者的關(guān)注,應用于圖片分類[2]、醫(yī)學診斷[3]等多個領(lǐng)域。本文對手寫字和海洋哺乳動物數(shù)據(jù)集進行分類,海洋哺乳動物選取大西洋點斑原海豚、弓頭鯨等10類作為研究對象,通過神經(jīng)網(wǎng)絡(luò)對分類數(shù)據(jù)集進行訓練之后的訓練集再進行邏輯回歸模型訓練的多分類實驗,從而提高正確率。
2 ? 邏輯回歸模型(Logistic regression model)
2.1 ? 基本邏輯回歸模型
回歸問題通常被分為兩種形式:線性回歸和邏輯回歸[4-5]。在統(tǒng)計學方面,線性回歸通常用于預測分析。它在數(shù)學模型上決定了一個或多個自變量與一個因變量之間在線性關(guān)系中的程度。第二種類型的回歸分析是邏輯回歸[6],這也是本文要關(guān)注和進行分析的。邏輯回歸雖然命名為回歸,但實際上是一種線性模型的分類器。在這個模型中,描述單個試驗可能結(jié)果的概率是用一個邏輯函數(shù)來建模的,用來計算或預測二進制事件是否發(fā)生的概率。作為一個最優(yōu)化問題,彈性網(wǎng)正則化是和的組合,并最小化以下代價函數(shù):
3 ? 實驗(Experiment)
本文運用上文中基于稀疏性的邏輯回歸模型進行手寫字和海洋哺乳動物的分類,但是分類結(jié)果并沒有預想的結(jié)果好,還有待提高。故由此引入了神經(jīng)網(wǎng)絡(luò)的概念,將神經(jīng)網(wǎng)絡(luò)訓練后的數(shù)據(jù)與稀疏性邏輯回歸模型相鏈接,經(jīng)過實驗證實,正確率有了大大提高。
3.1 ? 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是目前在國內(nèi)外很受歡迎的機器學習技術(shù)[8],也是深度學習的基礎(chǔ),主要包括輸入層、輸出層和隱藏層。輸入層和輸出層中的神經(jīng)元個數(shù)固定不變,隱藏層可以根據(jù)需要作出調(diào)整。本文選用的模型包含兩層隱藏層,為四層神經(jīng)網(wǎng)絡(luò),與兩層神經(jīng)網(wǎng)絡(luò)相比參數(shù)較多,也意味著有較強的模擬能力。神經(jīng)網(wǎng)絡(luò)的本質(zhì)目的就是建模特征與目標之間的函數(shù)關(guān)系,當參數(shù)變多時,模擬出的函數(shù)會更加復雜,也會有足夠的容量去擬合特征與目標之間真正的關(guān)系。
各層神經(jīng)元之間相連接,每一個連接上都設(shè)置權(quán)重,若想將神經(jīng)網(wǎng)絡(luò)的訓練算法達到最優(yōu)值,通過調(diào)整權(quán)重的值即可,從而使預測結(jié)果達到最精準。在已知輸入和參數(shù)、時,就會通過下列各式得出輸出值:
其中為激活函數(shù),經(jīng)常會被用到的激活函數(shù)包括Sgn函數(shù)、Sigmoid函數(shù)、Relu函數(shù)。本文中將使用Relu函數(shù),其為分段線性函數(shù),與其他函數(shù)相比具有較好的收斂性,從而使預測結(jié)果更好。其表達式為,當≤時,;當時,。
3.2 ? 基于稀疏性的邏輯回歸鏈接神經(jīng)網(wǎng)絡(luò)模型
本文以手寫字和海洋哺乳動物分類為例,手寫字的總樣本中訓練集有12,500 個數(shù)據(jù),測試集有2,000 個數(shù)據(jù);海洋哺乳動物聲音的總樣本中訓練集有700余個數(shù)據(jù),其中每種海洋哺乳動物聲音各50 個左右;測試集有190 個數(shù)據(jù)。本文的數(shù)據(jù)集取材于Kesci中的相關(guān)數(shù)據(jù),截取了10類海洋哺乳動物聲音對比度、色度和音頻特征等特征的數(shù)據(jù)值,再對這些數(shù)據(jù)通過編號、降維、擬合和轉(zhuǎn)換等過程整理成我們需要的數(shù)據(jù),并將類別向量轉(zhuǎn)換成二進制矩陣類型,為后續(xù)的分類訓練做準備。
首先利用Keras搭建包含兩層隱藏層的四層神經(jīng)網(wǎng)絡(luò)來解決多分類問題,讀取訓練之后的數(shù)據(jù),將其轉(zhuǎn)化為稀疏矩陣。此時要注意的是,通過Dropout函數(shù)得到稀疏數(shù)據(jù)時,需要把讀取到的數(shù)據(jù)復制100 遍,才能保證分類時數(shù)據(jù)被正確訓練。得到稀疏矩陣之后再通過邏輯回歸分類器進行訓練,從而得到我們希望的分類結(jié)果。本文的核心實驗代碼如表1所示。
3.3 ? 分類結(jié)果
本實驗比較了只進行神經(jīng)網(wǎng)絡(luò)訓練和神經(jīng)網(wǎng)絡(luò)與邏輯回歸相鏈接分類時的正確率和模型損失,手寫字的正確率從90.1%提高到94.86%,海洋哺乳動物分類的正確率從70.3%提高到74.4%??梢钥闯觯M行兩次分類訓練的結(jié)果是較好的,經(jīng)過后續(xù)實驗也可以反映出數(shù)據(jù)集的數(shù)據(jù)量越大,正確率提高得越明顯。我們用一張對比圖可以清晰地看出在添加邏輯回歸模型之前與添加之后正確率的變化,如圖1所示。
以下展示了應用兩種模型對手寫字進行分類的正確率結(jié)果,如圖2和圖3所示。
以下展示了應用兩種模型對海洋哺乳動物進行分類的正確率結(jié)果,如圖4和圖5所示。
4 ? 結(jié)論(Conclusion)
本文主要探討了邏輯回歸模型,并利用這一模型結(jié)合稀疏性進行分析。核心內(nèi)容稀疏性邏輯回歸模型經(jīng)過本文中的實驗證實,嵌入神經(jīng)網(wǎng)絡(luò)可以明顯提高正確率,因而在今后的分類問題當中也可以有效被運用。在今后的研究中,可以加強稀疏性在程序運行方面的設(shè)置,并且運用多種方法與神經(jīng)網(wǎng)絡(luò)模型相鏈接并進行比較,選取正確率較高的鏈接模型。
參考文獻(References)
[1] PLAN Y, VERSHYNIN R. Robust 1-bit compressed sensing and sparse logistic regression: A convex programming approach[J]. IEEE Transactions on Information Theory, 2012(7):13-15.
[2] CAO F X, YANG Z J, REN J C, et al. Extreme sparse multinomial logistic regression: A fast and robust framework for hyperspectral image classification[J]. Remote Sensing, 2017, 9(12):1255-1269.
[3] 劉蕾.基于邏輯回歸算法的乳腺癌診斷數(shù)據(jù)分類研究[J].軟件工程,2018,21(2):21-23.
[4] FAN J, HECKMAN N. Local polynomial kernel regression for generalized linear models and quasi-likelihood functions[J]. Journal of the American Statistics Association, 1995, 90(429):141-150.
[5] 王正存,肖中俊,嚴志國.邏輯回歸分類識別優(yōu)化研究[J].齊魯工業(yè)大學學報,2019,33(5):47-52.
[6] 王鵬.面向不平衡數(shù)據(jù)分類問題的核邏輯回歸算法的設(shè)計與實現(xiàn)[D].西安:西安電子科技大學,2015.
[7] CAI T, XU G. Shifting inequality and recovery of sparse signals[J]. IEEE Transactions on Signal Processing, 2010, 58(3):1300-1308.
[8] 邢珍珍.卷積神經(jīng)網(wǎng)絡(luò)在圖像處理中的應用研究[J].軟件工程,2019,22(6):5-7.
作者簡介:
常鈺迪(1996-),女,碩士生.研究領(lǐng)域:壓縮感知,稀疏恢復.