凌宇 杜玉曉 李向歡
摘要:隨著癲癇腦電信號自動檢測算法研究地不斷深入,需要處理的特征維度也不斷增加,且冗余特征增大了算法的復雜度,導致算法性能下降。為此,提出一種基于F-Score特征選擇的癲癇腦電信號識別方法。首先,從原始癲癇腦電信號數(shù)據(jù)集中提取特征,并計算每個特征的F-Score統(tǒng)計值;然后,根據(jù)分類模型的分類準確率,通過序列前向搜索方法,選擇最優(yōu)特征集;最后,利用支持向量機和邏輯回歸分類模型進行實驗,并與傳統(tǒng)的特征降維方法PCA進行對比。實驗結(jié)果表明,本文方法可有效降低特征矩陣的維數(shù),提高算法運算效率。
關(guān)鍵詞:F-Score;PCA;特征提?。惶卣鬟x擇;癲癇腦電信號識別
中圖分類號:R742.1 ??????????文獻標志碼:A ???????????文章編號:1674-2605(2023)05-0009-06
DOI:10.3969/j.issn.1674-2605.2023.05.009
Epileptic EEG Signal Recognition Method Based on F-Score Feature Selection
LING Yu ?DU Yuxiao ?LI Xianghuan
(Guangdong University of Technology, Guangzhou 510006, China)
Abstract:With the continuous deepening of research on automatic detection algorithms for epileptic EEG signals, the number of feature dimensions to be processed continues to increase, and redundant features increase the complexity of the algorithm, leading to a decrease in algorithm performance. To this end, a method for epileptic EEG signal recognition based on F-Score feature selection is proposed. Firstly, extract features from the original epileptic EEG signal dataset and calculate the F-Score statistical value for each feature; Then, based on the classification accuracy of the classification model, the optimal feature set is selected through a sequence forward search method; Finally, experiments were conducted using support vector machines and logistic regression classification models, and compared with the traditional feature dimensionality reduction method PCA. The experimental results show that the proposed method can effectively reduce the dimensionality of the feature matrix and improve the computational efficiency of the algorithm.
Keywords:F-Score; PCA; feature extraction; feature selection; epileptic EEG signal recognition
0??引言
目前,癲癇的臨床診斷主要以腦電圖(electro-encephalogram,?EEG)為依據(jù)。隨著計算機技術(shù)的飛速發(fā)展,人們開始利用計算機處理癲癇腦電信號。計算機處理癲癇腦電信號的基本原理是提取癲癇腦電信號的特征并進行分類[1],應用較多的分類方法是機器學習算法。在機器學習算法中,理論上認為特征越多,
分類性能就越好。然而,大量特征可能存在冗余,降低分類模型的準確率。機器學習算法的基礎(chǔ)是特征選擇,從原始數(shù)據(jù)特征集中篩選出最優(yōu)特征子集,可降低特征矩陣的維度[2],提高算法的運算效率。目前,常用的特征選擇方法可分為過濾式和封裝式[3]。其中,過濾式方法通過設(shè)置閾值對特征評價進行篩選;封裝式方法通過機器學習算法來尋找特征評價。常用的特
征評價標準有相關(guān)系數(shù)[4]和互信息[5]。文獻[6]先利用極限學習機對非線性特征進行評價,再利用多目標演化算法來篩選最優(yōu)子集。
為全面反映癲癇腦電信號,需要從原始腦電信號中提取多個維度的特征,包括時域、頻域、時頻域和非線性特征[7],導致原始癲癇腦電信號特征集中有許多冗余特征。為此,本文提出一種基于F-Score特征選擇的癲癇腦電信號識別方法。首先,利用F-Score對原始腦電信號的特征進行評價;然后,采用序列前向搜索方法,以分類模型的分類準確率為反饋來尋找最優(yōu)的特征子集。
1 ?特征提取與特征選擇算法
1.1 ?PCA特征降維
主分量分析(principal component analysis, PCA)是一種常用的數(shù)據(jù)降維方法[8],它將原始數(shù)據(jù)集中的多維特征映射到低維空間,從而減少數(shù)據(jù)的維度。PCA可以減少計算量,提高算法的運算效率,消除噪聲,提高模型的泛化能力;但可能丟失重要的特征信息,影響算法的準確率。
1.基于F-Score的特征選擇算法具體步驟為:
1) 對特征集F中的每個特征進行基于F-Score算法的特性評價,計算每個特征的F-Score值;
2) 將每個特征的F-Score值降序排序,重新構(gòu)建特征集F1;
3) 每次從特征集F1中取出F-Score值最大的特征放入最優(yōu)特征子集S,如果特征集F1為空,算法結(jié)束,否則繼續(xù)執(zhí)行下一步;
4) 將特征子集S輸入到分類模型中進行分類,以分類模型的K為判據(jù);假設(shè)當前的特征集為Si,分類模型的判據(jù)值為Ki,從F1中取出當前F-Score值最大的特征加入Si中,記為Si+1,同樣計算Si+1的判據(jù)值Ki+1;
5) 比較Ki與Ki+1,如果Ki+1 ≤Ki,表示這個特征對分類效果起不到正向促進作用,將這個特征從S中去除,并返回步驟3);如果Ki+1 >Ki,表示這個特征可以提高分類效果,將這個特征保留在S中,并返回步驟3);
6) 直到遍歷特征集F1的所有特征,生成的特征集S即為最優(yōu)特征子集。
2 ?實驗結(jié)果及分析
本文實驗仿真采用MATLAB實現(xiàn)。實驗對比PCA和F-Score 2種特征選擇算法在SVM和LR 2種分類模型上的性能。
2.1 ?實驗數(shù)據(jù)
本文采用的EEG數(shù)據(jù)集來自伯恩大學的Bonn數(shù)據(jù)集。Bonn數(shù)據(jù)集中包含Set A、Set B、Set C、Set D、Set E 5組數(shù)據(jù),選取Set A(正常腦電信號)和Set E(癲癇腦電信號)2組進行分類實驗。Set A和Set E腦電信號波形圖如圖2所示。
實驗前,將每個EEG信號分成4個相等的部分,獲得400個標準的EEG樣本和400個癲癇發(fā)作樣本,每個樣本長度為1 024。
2.2 ?實驗結(jié)果分析
本文對比經(jīng)過PCA和F-Score特征選擇后的特征集,分別在SVM模型和LR模型的分類效果,實驗流程如圖3所示,特征選擇的結(jié)果如表1所示。
本文選取準確率(Accuracy)、精確率(Precision)、特異性(Specificity)和敏感度(Sensitivity)4個指標對分類模型進行評估。其中,準確率是模型正確預測的樣本數(shù)量與總樣本數(shù)量之比;精確率衡量模型在預測為正類的樣本中的準確性;特異性衡量模型對于實際為負類的樣本的預測能力;敏感度衡量模型對于實際為正類的樣本的預測能力。分類效果如表2和表3所示。
由表2和表3可以看出:原始特征經(jīng)過特征選擇后,分類模型的分類效果有一定提升,且F-Score特征選擇算法的分類效果比PCA特征降維的效果更好。
原始癲癇腦電信號特征集為31維,經(jīng)F-Score特征選擇算法得到的最優(yōu)特征子集為15維;經(jīng)PCA特征降維后特征為18維,表明經(jīng)過F-Score特征選擇算法處理過后可有效降低特征集維度,減少分類模型計算的復雜度。
3 ?結(jié)論
本文提出基于F-Score特征選擇的癲癇腦電信號識別方法,首先,采用原始EEG數(shù)據(jù)集中的F-Score統(tǒng)計特性對特征進行評價,并結(jié)合序列前向搜索方法搜尋最優(yōu)特征子集,在搜索過程中采用分類性能評價所選擇的特征子集。該特征選擇方法能夠選擇出優(yōu)化的特征子集,降低數(shù)據(jù)維數(shù)和計算復雜度,進一步提高分類器的性能。
參考文獻
[1] YILDIZ A, ZAN H, SAID S. Classification and analysis of epileptic EEG recordings using convolutional neural network and class activation mapping[J]. Biomedical Signal Processing and Control, 2021, 68:102720.
[2] CAI J, LUO J, WANG S, et al. Feature selection in machine learning: A new perspective[J]. Neurocomputing, 2018,300: 70-79.
[3] 計智偉,胡珉,尹建新.特征選擇算法綜述[J].電子設(shè)計工程, 2011,19(9):6.
[4] 周金治,唐肖芳.基于相關(guān)系數(shù)分析的腦電信號特征選擇[J]. 生物醫(yī)學工程學雜志, 2015,32(4):5.
[5] PENG H, LONG F, DING C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27(8):1226-1238.
[6] WANG X, HU T, TANG L. A multiobjective evolutionary nonlinear ensemble learning with evolutionary feature selection for silicon prediction in blast furnace[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021,(99):1-14.
[7] WU M, SUN Y B, WEI Z H, et al. Automatic detection of epileptiform transients in EEG by a two-stage algorithm based on sparse representation[J]. Chinese Journal of Biomedical Engineering, 2009,60:101966.
[8] KE Xi, CHENG Cai. Feature selected based on PCA and optimized LMC[C]//2020 2nd International Conference on Computer Science Communication and Network Security (CSCNS2020)(2020年第二屆計算機科學, 通信和網(wǎng)絡(luò)安全國際學術(shù)會議)論文集, 2020:1-6.
[9] HUANG WEI, YAN HONGMEI, LIU RAN, et al. F-score feature selection based Bayesian reconstruction of visual image from human brain activity[J]. Neurocomputing, 2018,316(17): 202-209.
[10] HYDE, CHARLES E. The Piotroski F-score: evidence from Australia[J]. Accounting and finance,2018,58(2):423-444.
[11] MIROWSKI P, MADHAVAN D, LECUN Y, et al. Classifica-tion of patterns of EEG synchronization for seizure prediction [J]. Clinical Neurophysiology, 2009,120(11):1927-1940.
[12] ISLAM K A, TCHESLAVSKI G V. Independent Component Analysis for EOG artifacts minimization of EEG signals using kurtosis as a threshold[C]// International Conference on Electri-?cal Information & Communication Technology. IEEE, 2016.
[13] BO H. EEG analysis based on time domain properties[J]. Electroencephalography & Clinical Neurophysiology, 1970, 29(3):306-310.
[14] BOYLAN G B, RENNIE J M. Automated neonatal seizure detection[J]. Clinical Neurophysiology Official Journal of the International Federation of Clinical Neurophysiology, 2006, 117(7):1412-1413.
[15] GAO W W. Entropy measures for biological signal analyses[J]. Nonlinear dynamics, 2012, 68(3).
[16] MIRZAEI A, AYATOLLAHI A, GIFANI P, et al. Spectral Entropy for Epileptic Seizures Detection[C]// Second Interna-tional Conference on Computational Intelligence. IEEE, 2010.
[17] KUMAR Y, DEWAL M L, ANAND R S. Epileptic seizure detection using DWT based fuzzy approximate entropy and support vector machine[J]. Neurocomputing, 2014,133(8): 271-279.
[18] CHEN S, ZHANG X, CHEN L, et al. Automatic Diagnosis of Epileptic Seizure in Electroencephalography Signals Using Nonlinear Dynamics Features[J]. IEEE Access, 2019(99):1.
[19] ROY S, KIRAL-KORNEK I, HARRER S. Deep learning enabled automatic abnormal EEG identification[C]//2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). IEEE, 2018:2756-2759.
作者簡介:
凌宇,男,1999年生,碩士研究生,主要研究方向:腦機接口、癲癇腦電信號的特征提取與分類。E-mail:?3467255048@qq.com
杜玉曉(通信作者),男,1973年生,副教授,碩士生導師,主要研究方向:醫(yī)療器械設(shè)備及腦機接口(BCI)技術(shù)、數(shù)字圖像處理、自動化裝備與集成。E-mail: yuxiaodu@gdut.edu.cn
李向歡,男,1997年生,碩士研究生,主要研究方向:腦電信號檢測、智能信號處理以及腦機接口。