X光安檢數(shù)據(jù)集類別相互影響可視化分析方法

2022-09-09 03:16:22李小東焦天雨劉暢祁海濤

電子技術(shù)與軟件工程 2022年13期

李小東焦天雨劉暢祁海濤

（北京市地鐵運營一分公司北京市 102209）

1 序言

X 光安檢是地鐵、飛機(jī)等運輸工具中最常使用的安全檢測方法，其中人工檢查扮演著最重要的角色。由于檢測人員難以時刻保持高度的集中性和前后判斷的一致性，因此基于深度學(xué)習(xí)的X 光圖片目標(biāo)檢測成為一種理想的輔助檢測方法，因為計算機(jī)可以時刻不斷地工作，從而可提高檢測的可信度。

X 光圖片的目標(biāo)檢測中，數(shù)據(jù)集的大小、所含類別、標(biāo)記質(zhì)量等都會影響模型的識別結(jié)果，有一些X 光安檢圖片目標(biāo)檢測的研究者們對數(shù)據(jù)集進(jìn)行了研究，并發(fā)布了一些的數(shù)據(jù)集：最早的Grima X-ray Dataset數(shù)據(jù)集有 19,407 張圖片，但僅有五個類別，并且圖片太簡單；SIXray 數(shù)據(jù)集包含 1,059,231 張圖片，其中有違禁品有 8,929 張，并且包括不同尺度、角度和遮擋等情況；PIDray 數(shù)據(jù)包含了47,677 張圖片，并將測試數(shù)據(jù)集中的物品檢測難度分為了easy、hard、hidden 三個等級；OPIXray 數(shù)據(jù)集包含 8,885張圖片，也在測試集上對檢測難度進(jìn)行了劃分。這些數(shù)據(jù)集存在的普遍缺陷為包含非違禁品的圖片占比很大，而違禁品圖片較少，并且只對含違禁品的圖片進(jìn)行了標(biāo)記，因此，這些數(shù)據(jù)集可做研究用途，實用性尚不夠。

本文的X 光安檢數(shù)據(jù)集是聲迅股份公司在地鐵安檢實際環(huán)境中采集的彩色圖片，每張圖片包含多個目標(biāo)物品，經(jīng)過人工標(biāo)記制作成了 PascalVOC 格式的數(shù)據(jù)集，包括 JPEG格式的圖像和 XML 格式的標(biāo)記文件。整個數(shù)據(jù)集共有 9,211張圖片，包含 32 個類別，包括違禁品和非違禁品中的各個種類，圖像大小不一致，但大都在1000*1000 像素左右，每個種類的數(shù)量如圖1 所示。

圖1 ：實驗數(shù)據(jù)集類別數(shù)量分布柱狀圖

數(shù)據(jù)集經(jīng)過觀察，發(fā)現(xiàn)32 個類別有如下特點：

（1）baggedliquid 類與plastic 類和can 類之間在形狀和顏色方面很相似；

（2）fixture 類與oil 類和spray 類別之間形狀和顏色方面很相似；

（3）foldknife 類中，在折疊刀沒有折疊的時候，形狀與顏色與knife 類非常一致；

（4）wrench 類中，有一類扳手的形狀與scissors 類很相似。

造成上述特點的原因是這些物品圖像差異太小，在進(jìn)行類間劃分時，雖然人類認(rèn)知概念上屬于不同的類別，但實際上在組成材質(zhì)（展示在X 光安檢圖片上即為顏色）、外型（展示在X 光安檢圖片上極為輪廓）上都極為相似，這讓標(biāo)記人員在標(biāo)記的過程中需要耗費更大的精力來進(jìn)行區(qū)分。

同時，我們發(fā)現(xiàn)物品圖像差異太小會造成標(biāo)記不一致性的問題。在目標(biāo)檢測中包括目標(biāo)類別標(biāo)記和目標(biāo)物品的框標(biāo)記，標(biāo)記人員首先需要識別出目標(biāo)物品的位置，然后使用矩形框?qū)⑵淇蜃?，再判斷框?nèi)物品的類別，對于相同和相似物品的判斷，不同標(biāo)記人員之間具有不一致性，首先是框的大小、對物品的包裹情況存在不一致性，其次是對類似的物品每個標(biāo)記員的判斷具有不一致性，這就導(dǎo)致了在標(biāo)記問題中會存在較大的標(biāo)記不一致問題。

由于數(shù)據(jù)分類問題對模型的訓(xùn)練結(jié)果有著很大的影響，曠世在公布Objects365 數(shù)據(jù)集時，同時公布了構(gòu)建該數(shù)據(jù)集時重點關(guān)注的問題及解決方法，其中特別強(qiáng)調(diào)了數(shù)據(jù)分類一致性問題，指出由于數(shù)據(jù)集的規(guī)模很大，這個項目將會涉及到很多標(biāo)記人員，如果沒有一致的識別和注釋規(guī)則，對同一圖像將會得到不同的標(biāo)記結(jié)果，導(dǎo)致數(shù)據(jù)集標(biāo)記產(chǎn)生歧義。數(shù)據(jù)分類不一致屬于數(shù)據(jù)標(biāo)記錯誤中的一個種類，當(dāng)對幾個類別的數(shù)據(jù)邊界模糊不清，則會導(dǎo)致這些類別的標(biāo)記發(fā)生混亂，從而降低整個數(shù)據(jù)集的質(zhì)量，最終降低模型的表現(xiàn)性能。

為了改進(jìn)數(shù)據(jù)集的質(zhì)量，需要研究數(shù)據(jù)集中存在的分類問題，因此有必要研究一個有效的數(shù)據(jù)集分類合理性的分析方法。

2 研究方法

以R-CNN 進(jìn)行目標(biāo)檢測為例，找到可能存在物體的候選區(qū)域region proposal 大小resize 到227×227，通過CNN 對候選區(qū)域提取特征向量，2000 個建議框的CNN 特征組成2000×4096 為矩陣，將2000×4096 的特征矩陣和20 個SVM組成的權(quán)重矩陣4096×20 相乘，獲得2000×20 的矩陣；得到2000 個類別得分矩陣，得分最高的即為候選框中物體的類別?？梢姡惴▽嵸|(zhì)是對特征向量進(jìn)行判斷類來分類。因此對特征向量量化和可視化分析能夠評估數(shù)據(jù)集的分類質(zhì)量。

在計算機(jī)視覺領(lǐng)域面對的是高維的數(shù)據(jù)，常用的計算機(jī)視覺網(wǎng)絡(luò)會將維度上升至256、512 甚至更高的維度。高維的數(shù)據(jù)具有難以直觀分析的弊病，因此，為了更好的分析高維數(shù)據(jù)，便提出了降維的方法。降維包含以下基本作用：可以緩解維數(shù)災(zāi)難，即提高樣本密度，以及使基于歐氏距離的算法重新生效；可以對數(shù)據(jù)預(yù)處理，對數(shù)據(jù)去冗余、降低信噪比；方便可視化等。針對圖像高維數(shù)據(jù)，使用降維算法進(jìn)行降維，將難以可視化的高維數(shù)據(jù)盡量保持其高緯度的一定特性至低維，是一種讓研究者可以直觀分析數(shù)據(jù)集情況并且進(jìn)行數(shù)據(jù)分析的優(yōu)秀方法。

t-SNE(t-distributed stochastic neighbor embedding)是用于降維的一種機(jī)器學(xué)習(xí)算法，是由 Laurens van der Maaten 和Geoあrey Hinton 在2008年提出來。t-SNE 是一種非線性降維算法，非常適用于將高維數(shù)據(jù)降維到2 維或者3 維，進(jìn)行可視化。相對于PCA 來說，t-SNE 可以說是一種更高級有效的方法。t-SNE 基于隨機(jī)近鄰嵌入（SNE），屬于非線性降維技術(shù)（廣義上“非線性降維技術(shù)”≈“流形學(xué)習(xí)”，狹義上后者是前者子集）。這類技術(shù)假設(shè)高維數(shù)據(jù)實際上處于一個比所處空間維度低的非線性流形上，因此側(cè)重讓相似的近鄰點在低維表示中靠近。使用梯度下降的方法來進(jìn)行學(xué)習(xí)，將低維分布擬合高維分布。SNE 方法的兩個主要的降維思路為：將歐式距離轉(zhuǎn)化為條件概率來表征數(shù)據(jù)點之間的相似度，使用梯度下降算法來使低維分布擬合高維分布。

將其作為降維工具可視化MINIST 數(shù)據(jù)集6000 張圖片的效果如圖2 所示，各個數(shù)字間有較明顯的界限，且各類別較為聚集，可以看出t-SNE 具有優(yōu)秀的擬合效果。

圖2 ：MINIST 數(shù)據(jù)集t-SNE 可視化結(jié)果

本文采用t-SNE 簡單版本算法，其降維可視化的流程為：

Data：準(zhǔn)備數(shù)據(jù)集X={x，x，...，x}，

計算損失函數(shù)（cost function）參數(shù)：困惑度 Perp，

優(yōu)化參數(shù)（optimization parameters）：設(shè)置迭代次數(shù)T，學(xué)習(xí)率η，動量α(t)。

目標(biāo)結(jié)果：低維數(shù)據(jù)表示γ={y，y，...，y}。

3 可視化分析與實驗結(jié)果

3.1 可視化分析

降維可視化能夠與數(shù)據(jù)集高維特征的相對距離保持一致，通過在X 光安檢數(shù)據(jù)集中挑選了兩組數(shù)據(jù)進(jìn)行實驗，一組數(shù)據(jù)都含有類別刀，另一組組數(shù)據(jù)分別包含類別手機(jī)和類別塑料瓶，每組分別只選取兩個類別進(jìn)行實驗是為了讓實驗的結(jié)果更清晰、更易于分析。

根據(jù)人們對于分類的先驗知識，刀和塑料瓶、刀和手機(jī)都是完全不同的兩類物品，在高維數(shù)據(jù)中的分布應(yīng)該都有比較大的距離，相應(yīng)地映射到低維也會相互分離。因此根據(jù)標(biāo)記框信息剝離數(shù)據(jù)集中的這三類目標(biāo)物品，并分別對其中的兩類物品進(jìn)行t-SNE 可視化，對t-SNE 降維后的數(shù)據(jù)坐標(biāo)進(jìn)行了歸一化處理，以方便在二維平面進(jìn)行展示和分析，其可視化結(jié)果及目標(biāo)物品數(shù)量如表1 所示。

表1 ：物品t-SNE 可視化展示表

對數(shù)據(jù)集分類合理情況的分析，如上所做的實驗分析，類別間的數(shù)據(jù)重合程度對最終的模型表現(xiàn)結(jié)果會產(chǎn)生比較大的影響。當(dāng)對一個數(shù)據(jù)集進(jìn)行分析時，其類別間的重合程度是需要觀察的一個重要方面，在進(jìn)行t-SNE 降維可視化后，類別間重合度高的數(shù)據(jù)集相較于類別間重合度低的數(shù)據(jù)集訓(xùn)練出來的模型精度表現(xiàn)較差。在劃分類別時，僅根據(jù)人類主觀認(rèn)知中的物品類別來進(jìn)行分類對于模型來說是片面的。

t-SNE 可視化的結(jié)果說明，不同類別的兩種物品，在特征分布上可能會具有較大的相似性：刀和塑料瓶兩個類別的二維空間分布分離較好，只有邊緣的部分?jǐn)?shù)據(jù)相互交錯，說明這兩個類別的數(shù)據(jù)對于機(jī)器來說比較容易分辨，但是刀和手機(jī)兩個類別特征分布在二維空間大幅度重疊，在二維空間的模擬分布幾乎相同，說明這兩個類別的數(shù)據(jù)對機(jī)器來說則比較難以分辨，與人工分類產(chǎn)生了比較大的差距。

3.2 實驗結(jié)果

為了進(jìn)一步驗證t-SNE 在二維空間的分布擬合情況與實際模型訓(xùn)練精度的關(guān)系，進(jìn)行了實驗證明，在本實驗中，以及后續(xù)的未說明實驗網(wǎng)絡(luò)的實驗中，我們所使用來進(jìn)行訓(xùn)練的網(wǎng)絡(luò)都為YOLOv4 網(wǎng)絡(luò)。

AP 值與總的mAP 值來進(jìn)行分析。使用YOLOv4 網(wǎng)絡(luò)，且兩個實驗采用同樣的超參和迭代次數(shù)，得出的結(jié)果如表2所示。

表2 ：實驗結(jié)果

導(dǎo)致整體AP 值低和Precision（召回率）低的原因：因為是多目標(biāo)檢測，沒有對其他相似類的監(jiān)督信息，則很容易將其他類別判為當(dāng)前類，造成比較大的誤判率，在數(shù)據(jù)集中還有其他多個類別與以上三種類別特征相似，因此會對類別的判斷準(zhǔn)確度有影響，導(dǎo)致誤判提高。除此之外通過比較兩組類別的實驗相對值，容易得出：

（1）刀和塑料瓶的t-SNE 降維可視化特征分布重合較低，兩個類別的準(zhǔn)確度都較高；

（2）刀和電話的t-SNE 降維可視化特征分布重合度較高，刀的準(zhǔn)確度被拉低約2%，并且手機(jī)的準(zhǔn)確度也較低。

4 結(jié)論

實驗表明，僅憑人類對物品的認(rèn)知來進(jìn)行的分類在模型看來可能會具有很大的相似性，導(dǎo)致模型對這些類別難以分辨，從而拉低整個模型的表現(xiàn)；t-SNE 降維可視化方法是一個有效的數(shù)據(jù)集分類問題的可視化分析方法，可視化后展示的數(shù)據(jù)分布情況與模型訓(xùn)練的結(jié)果符合，因此，數(shù)據(jù)集類別劃分的合理性可以通過t-SNE 可視化方法來進(jìn)行分析。