桂洪冠,位凱
(1.達而觀信息科技(上海)有限公司,上海 201203;2.上海海事大學,上海 200135)
目標識別在智能駕駛、智慧交通、智慧安防等多個領域有廣泛的應用,是實現(xiàn)系統(tǒng)智能決策的重要基礎。為了進一步準確地識別目標,需要使用標注數(shù)據(jù)預先訓練一個分類模型。在識別模型訓練過程中,需要對大量的識別目標進行特征選擇,所選特征的數(shù)量及其重要程度直接影響到分類準確率,進而影響目標識別的識別效果?,F(xiàn)有的特征聚類算法以聯(lián)合非負矩陣分解(Joint Nonnegative Matrix Factorization,JNMF)為主,該算法對噪聲較為敏感。聯(lián)合稀疏典型相關分析(Joint Sparse Canonical Correlation Analysis,JSCCA)是一種具有代表性的特征選擇算法,但JSCCA 及其改進算法大多為無監(jiān)督方法,無法在不同組別之間同時執(zhí)行并尋找組別之間的特征差異。
本文提出一種未知目標與已有知識圖譜中的目標之間的高效特征關聯(lián)與選擇的方法,旨在提高目標識別模型的分類準確率。首先基于JCB-SNMF(Joint Connectivity-based Sparse Nonnegative Matrix Factorization,JCB-SNMF)模型將兩個數(shù)據(jù)集中的顯著特征聚類,再將選出的特征放入MTSCCALR(Multi Task-Sparse Canonical Correlation Analysis Linear Regression,MT-SCCALR)模型進行特征關聯(lián)分析。在模擬數(shù)據(jù)集的實驗表明,該方法可以有效解決目標識別領域訓練數(shù)據(jù)集特征冗余以及分類準確率低下的技術問題。
現(xiàn)有的特征聚類算法以聯(lián)合非負矩陣分解(Joint Nonnegative Matrix Factorization,JNMF)為主,JNMF 算法通過將不同模態(tài)數(shù)據(jù)的矩陣進行拼接,然后再進行分解來達到降維的目的。降維后得到的基矩陣存放樣本信息,系數(shù)矩陣存放特征信息。對于特征共表達模塊的選擇,一般對系數(shù)矩陣的每一行采用z-score 標準化后與人為設定的閾值進行比較,當標準值大于閾值,則認為該特征有資格進入到該模塊。在JNMF 基礎上,將先驗知識加入能夠有效提高模型的特征關聯(lián)分析性能。但是,大多數(shù)改進算法對數(shù)據(jù)中存在的噪聲較為敏感,在噪聲較大的情況下無法正確選擇重要特征。聯(lián)合稀疏典型相關分析(Joint Sparse Canonical Correlation Analysis,JSCCA)是一種具有代表性的特征選擇算法。JSCCA 通過得到兩種數(shù)據(jù)特征之間最大相關性的線性組合挖掘更顯著的特征。在JSCCA 基礎上,也可加入各種先驗知識以增強數(shù)據(jù)之間的相關性。但是JSCCA 及其改進算法大多為無監(jiān)督方法,無法在不同組別之間同時執(zhí)行并尋找組別之間的特征差異。
當前技術的特征關聯(lián)分析與選擇方法還存在準確率和召回率不高的問題,尚無法達到實際應用的需要。如何高效利用已有的知識圖譜中的目標數(shù)據(jù)集信息進行有效的特征聚類與選擇,進而訓練出準確率高、召回率高的識別模型,目前尚未提出有效的技術方案。
本文提出的面向目標識別的知識圖譜輔助特征聚類與選擇方法包括兩部分,第一部分提出一種JCB-SNMF 的特征聚類方法,該方法能夠將目標識別的訓練數(shù)據(jù)集和對應的知識圖譜中的目標特征投影到同一個公共特征空間,通過這種方法可以實現(xiàn)將顯著特征聚類到顯著共表達模塊。第二部分提出一種MT-SCCALR 的特征關聯(lián)與選擇方法,該方法能夠將第一部分篩選出的訓練數(shù)據(jù)集和目標數(shù)據(jù)集顯著特征進行關聯(lián)分析,進而按需求選出其中的Top 特征用于后續(xù)分類。方法過程如圖1所示。
圖1 特征聚類與選擇過程
2.1.1 特征預處理
訓練數(shù)據(jù)樣本集指在目標識別之前預先訓練的已有標注的樣本,根據(jù)標注信息,可在知識圖譜中找到與其對應的目標類型和全部特征信息。根據(jù)訓練數(shù)據(jù)的標注信息對訓練數(shù)據(jù)按標注類型排序,對應于訓練數(shù)據(jù)的特征(如飛行目標的速度、高度、航向角等),形成一個每行為一個樣本,每一列為一個樣本特征的數(shù)值矩陣。
2.1.2 JCB-SNMF 特征聚類算法
JCB-SNMF 算法是在JSNMF(JointSparseNonnegative Matrix Factorization,JSNMF)算法的基礎上進行的改進。具體為:
NMF 是傳統(tǒng)的降維方法,其一般模型為:
其中,和分別是原始特征矩陣經(jīng)分解得到的基矩陣和系數(shù)矩陣,且的維度是行列,的維度是行列,的維度是行列。、和分別代表樣本數(shù)、特征數(shù)和降維數(shù)。JNMF 算法在NMF 算法的基礎上擴展了輸入數(shù)據(jù)的種類,即可對多個不同模態(tài)數(shù)據(jù)的特征矩陣同時進行分解,其目標函數(shù)為:
X∈R(=1,2,…)代表不同數(shù)據(jù)的特征矩陣,行數(shù)相同,列數(shù)不同?!?span id="syggg00" class="emphasis_italic">R代表分解后的公共基矩陣。H∈R代表分解后的對應于原始矩陣的多個具有很強獨立性的系數(shù)矩陣,實際使用中<<,有學者提出了JSNMNMF,文中為了改善數(shù)據(jù)之間關聯(lián)較弱,假設為相互作用鄰接矩陣,JSMNMNMF 采用了范數(shù)和范數(shù)分別控制和H的稀疏性以實現(xiàn)數(shù)據(jù)的稀疏化。因此,其目標函數(shù)為:
、、分別代表鄰接矩陣的權重,用于控制的稀疏度,用于控制H的稀疏度。
、分別代表、的拉普拉斯矩陣。給出所提出算法的目標函數(shù)為:
關于和H的偏導為:
根據(jù)式(9)的迭代規(guī)則,最終將和分解成基矩陣和系數(shù)矩陣、。為了找到的每一行的顯著特征對應的權重值,使用z-score 來提取H矩陣每一行的系數(shù)。它的定義為:
其中h代表H中的元素,μ代表中H特征的平均值,σ代表標準差。為了確定模塊成員資格,須人為設置一個閾值,如果它的z-score 值比給定的閾值大,則有資格分配到模塊。
接下來,評估每個模塊的顯著性。具體來說,假設A=[,,…,]、B=[,,…,]。其中,a、b分別是從、中選出的列向量。然后,使用式(9)計算同一模塊中元素的平均關聯(lián)性。
在本專利中,、分別代表訓練數(shù)據(jù)和知識圖譜中對應的目標樣本集,根據(jù)實際樣本數(shù)量和特征數(shù)量確定模塊數(shù),一般<<。通過式(8)隨機初始化、、,通過多次迭代,使其收斂到一個局部最小值。進而得到公共基矩陣,以及分別對應于、的系數(shù)矩陣、。然后根據(jù)式(9)計算同一模塊中元素的平均關聯(lián)性。最后根據(jù)式(10)、式(11)對所有模塊進行顯著性分析,篩選得到最顯著的模塊,模塊中包含兩個數(shù)據(jù)集的顯著特征用于后續(xù)分析。
將2.1 章節(jié)所述的不在模塊中的特征剔除,保留兩個矩陣在模塊中的特征。將訓練數(shù)據(jù)標簽和兩個矩陣拼接放入MT-SCCALR 模型,該模型同時執(zhí)行多個不同類型目標的任務,對于每種目標類型都會求出其每個特征的權重向量,對取絕對值后,按權重從大到小排列。根據(jù)需要取每一種目標的Top 特征用于后續(xù)分類器分類。具體有以下4 個步驟:
(1)將訓練數(shù)據(jù)樣本集和與其對應的知識圖譜中的目標樣本集一一對應。其中,根據(jù)訓練數(shù)據(jù)樣本集標注的信息,可在知識圖譜中找到與其對應的目標類型和全部特征信息。進而,分別得到訓練樣本集和知識圖譜的特征矩陣(行為樣本,列為特征),其行數(shù)相同,列數(shù)不同。兩個矩陣中樣本應是一一對應的。
(2)使用JCB-SNMF 模型將兩個數(shù)據(jù)集中的顯著特征聚類。
(3)將選出特征放入MT-SCCALR 模型進行特征關聯(lián)分析。MT-SCCALR 模型是在傳統(tǒng)的基于SCCA的無監(jiān)督方法基礎上實現(xiàn)的改進。
CCA算法是一種確定兩個數(shù)據(jù)集之間關聯(lián)的算法。給定數(shù)據(jù)集∈R和∈R,其中有個特征,有個特征,共個樣本。該算法能夠找到和最大相關性的線性組合。
其中,假定和的列已經(jīng)標準化,和是和對應的標準化后的特征權重。
SCCA 模型是在CCA 的基礎上加入了懲罰項,用于控制模型的稀疏性,SCCA 模型定義為:
MT-SCCA是一種新穎的模型,它在SCCA 上加入了多任務框架。創(chuàng)新性的在其基礎上加入線性回歸模型,這使得不同目標的類型標簽可以加入。使用來表示目標的種類。分別使用∈R和∈R表示經(jīng)JCB-SNMF 算法篩選得到的訓練數(shù)據(jù)集中的目標特征和對應的知識圖譜中的目標特征?!?span id="syggg00" class="emphasis_italic">R是X的權重矩陣,∈R是Y的權重矩陣。
其中,L和L分別代表和的拉普拉斯矩陣,可將其改寫為:
然后在模型中引入線性回歸,其目標函數(shù)為:
z代表第個任務的第個標簽?,F(xiàn)在可以給出加入線性回歸的模型的目標函數(shù):
然后,得到MT-SCCALR 算法的目標函數(shù),如式(19)所示:
其中,、、、、以及是需要調整的超參數(shù),、、和用于控制模型的稀疏度。刪除常量后,得到式(20):
為了最小化目標函數(shù)(20)以獲得最優(yōu)的和算法,使用交替凸搜索方法。首先,初始化和,然后,當固定時,修改,反之亦然。并重復上述過程直至收斂。
首先得到一個的值,當是常數(shù)時它被最小化。由于拉普拉斯矩陣是正定矩陣,基于連通性的懲罰是凸的,可以使用基于軟閾值的坐標進行優(yōu)化,因此(20)的坐標解定義為:
在得到之后,開始對求偏導,的目標函數(shù)如式(22):
用這種方式,可以迭代得到權重的值,如式(24):
(4)得到訓練樣本集各特征權重,取絕對值后按需要保留Top 特征。將步驟(3)中得到的權重向量u拼接,得到權重矩陣,對取絕對值,其中中列中的每個元素對應于矩陣的每個特征。將每一列從大到小排序。然后根據(jù)需要找到Top 特征,用于后續(xù)分類等。
對于原始訓練數(shù)據(jù)集,需要經(jīng)范數(shù)歸一化,目的在于:
統(tǒng)一數(shù)據(jù)單位:可以將有單位的數(shù)據(jù)轉為無單位的標準數(shù)據(jù),在目標識別場景下,訓練數(shù)據(jù)集和知識圖譜中已有目標的各種參數(shù)可能使用了不同單位,將這些數(shù)據(jù)經(jīng)過歸一化統(tǒng)一都映射到(0,1)這個區(qū)間,這樣能夠保證所有數(shù)據(jù)的取值范圍都在同一個區(qū)間里的。
此外,歸一化可有效避免模型梯度求導計算時在垂直等高線的方向上走大量無畏的之字形路線,從而減小迭代計算量和迭代次數(shù),加快模型收斂速度。
對應知識圖譜中的數(shù)據(jù)集,在知識圖譜中依據(jù)訓練數(shù)據(jù)標簽找出對應的目標全部特征,然后同樣進行范數(shù)歸一化處理。得到與訓練樣本集行數(shù)(樣本)相同、列數(shù)(樣本特征)不同的數(shù)值矩陣。
將預處理好的訓練樣本數(shù)值矩陣和與其對應的知識圖譜中的數(shù)據(jù)放入JCB-SNMF 模型中,調整模型參數(shù)、、、、。對于模塊數(shù)的選取,需要固定其他參數(shù),然后將逐漸增大,在保證<<的情況下,比較不同值下的目標函數(shù)值,選取目標函數(shù)值最小的作為模塊數(shù)。此外,固定以上參數(shù)后,隨機初始化100 組、、的參數(shù)組合后,計算100 組參數(shù)組合下的目標函數(shù)值,選取最小的目標函數(shù)值對應的參數(shù)組合。最后利用式(8)迭代更新使得模型收斂到局部最小值。
根據(jù)式(10)(11)可以計算出個共表達模塊的顯著性值,選取最顯著的模塊(<0.01)。提取最顯著的共表達模塊中包含的特征,更新矩陣和,使用該模塊中和的特征,將其余特征刪除,進而更新矩陣和。
將處理好的、放入MT-SCCALR 模型,調整模型中的、、、、以及。具體調整方法為:
由于盲網(wǎng)格搜索十分的耗時,采用了一些相關方法來加速調整參數(shù)的過程。一方面,如果參數(shù)太小了,SCCA 和CCA 會產(chǎn)生相似的結果。另一方面,如果參數(shù)過大,SCCA將過度懲罰結果。因此,參數(shù)的選取不宜過大或者過小。用五折交叉驗證的方法來尋找最優(yōu)參數(shù)。使得測試集結果的相關系數(shù)最高的參數(shù)組合將被定為最優(yōu)參數(shù)。公式如下。
根據(jù)式(21)(24)可以得到每種目標在訓練集和知識圖譜中的權重向量u和v。將得到的每一個權重向量u取絕對值,然后按從大到小的順序排列,按實際需要選取其中Top 特征,用于后續(xù)分類等。
本文提出了一種組合特征關聯(lián)與選擇方法,該方法通過JCB-SNMF 算法進行特征聚類和關聯(lián),通過MT-SCCALR方法進行特征選擇,獲得了更高的準確率。為目標的準確檢測提供新見解。然而,該方法也存在一些不足。如基于SCCA 的方法具有較高的時間復雜度,對于較高維的數(shù)據(jù)特征關聯(lián)分析較為困難。因此,在未來的研究中,需要對MTSCCALR 算法的目標函數(shù)求解進行進一步優(yōu)化,降低時間復雜度。此外,我們也將嘗試使用更多的數(shù)據(jù)集進行方法有效性驗證。