国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多類SVM的新聞?wù)宋镒詣?dòng)標(biāo)識(shí)

2015-01-16 05:26蘇雪平彭進(jìn)業(yè)
電子設(shè)計(jì)工程 2015年11期
關(guān)鍵詞:訓(xùn)練樣本人臉聚類

蘇雪平,彭進(jìn)業(yè)

(西北工業(yè)大學(xué) 陜西 西安 710129)

網(wǎng)絡(luò)新聞數(shù)據(jù)包含豐富的文字和圖像信息,并且新聞中的人臉圖像與字幕中的人名存在多對(duì)多關(guān)系,如何準(zhǔn)確的匹配人臉圖像和人名之間的一一對(duì)應(yīng)關(guān)系成為一個(gè)極富挑戰(zhàn)性的問(wèn)題。針對(duì)這一問(wèn)題,傳統(tǒng)解決方法主要是基于文本方法和基于內(nèi)容的圖像方法(即,人臉識(shí)別方法)。但是,上述兩種方法不是產(chǎn)生錯(cuò)誤導(dǎo)致準(zhǔn)確率低就是無(wú)法獲得良好的性能。

Berg等[1]提出結(jié)合概率模型的聚類過(guò)程顯著提高了檢索結(jié)果。但是實(shí)驗(yàn)僅隨機(jī)挑選了一些真實(shí)數(shù)據(jù)集中的人臉,評(píng)價(jià)為其命名的正確率。Ozkan等[2]提出基于圖論的人臉命名方法,用于尋找與查詢?nèi)嗣嚓P(guān)的最相似人臉子集。蘇等[3]為了減小運(yùn)算量和提高聚類的準(zhǔn)確率,融合文本和視覺(jué)的多模信息提高了人名人臉匹配的性能,實(shí)驗(yàn)結(jié)果性能優(yōu)于Berg[1],Ozkan[2]等的方法。Le等[4]用迭代步驟自動(dòng)將搜索引擎返回的圖像分為相關(guān)或無(wú)關(guān)圖像。該方法是完全無(wú)監(jiān)督,并且訓(xùn)練的模型可以用于標(biāo)注新的人臉,但是需要一些經(jīng)驗(yàn)參數(shù)設(shè)置,影響性能的穩(wěn)定性。

文中結(jié)合AP聚類和SVM分類將新聞圖像中的多個(gè)人臉和多個(gè)人名的匹配問(wèn)題,轉(zhuǎn)化為多類分類問(wèn)題。為了改善訓(xùn)練樣本的可靠性,文中通過(guò)迭代更新挑選訓(xùn)練樣本并訓(xùn)練多類SVM。綜上所述,文中提出基于多類 SVM的新聞?wù)稳宋镒詣?dòng)標(biāo)識(shí)方法。

1 基于多類SVM的新聞?wù)宋镒詣?dòng)標(biāo)識(shí)

讀者瀏覽新聞時(shí),最關(guān)注的是誰(shuí)在新聞中。如何自動(dòng)挖掘新聞字幕中人名與新聞人臉圖像之間一一對(duì)應(yīng)關(guān)系已引起人們的廣泛關(guān)注。此外,網(wǎng)絡(luò)新聞圖像包含多種表情、姿態(tài)、年齡、光照等情況,使得基于文本相關(guān)性或基于人臉識(shí)別方法都很難適用于網(wǎng)絡(luò)新聞數(shù)據(jù)。針對(duì)網(wǎng)絡(luò)新聞數(shù)據(jù),本文提出基于多類SVM的新聞?wù)宋镒詣?dòng)標(biāo)識(shí)方法。算法流程框圖如圖1所示,具體細(xì)節(jié)如下所述。

圖1 算法流程框圖Fig.1 The flow chart of the method

1.1 人名檢測(cè)

本文使用L.Ratinov[5]的人名識(shí)別模型在新聞字幕中檢測(cè)人名。然而,一個(gè)人的名字經(jīng)常會(huì)以不同形式出現(xiàn)。例如,總統(tǒng)布什、喬治布什、總統(tǒng)喬治布什都是小布什的名字。本文手動(dòng)融合同一個(gè)人名的不同形式,并創(chuàng)建人名字典。

1.2 人臉檢測(cè)和描述

針對(duì)每一個(gè)人名,首先找到與該人名相關(guān)的圖像子集,建立人名與人臉的對(duì)應(yīng)關(guān)系。其次,對(duì)該人名的圖像子集,使用人臉檢測(cè)算法檢測(cè)人臉圖像。在檢測(cè)人臉時(shí),人臉特征點(diǎn)的精確定位對(duì)于人臉檢測(cè)起著至關(guān)重要的作用。但在實(shí)際應(yīng)用中,由于人臉差異、圖像質(zhì)量等原因,準(zhǔn)確定位人臉特征點(diǎn)并非那么容易。例如在人臉特征點(diǎn)定位中,由于光照、表情、遮擋、姿態(tài)等影響使得定位的難度加大。

主動(dòng)形狀模型(Active Shape Model-ASM)[6]是一種常用的人臉特征點(diǎn)定位方法,該方法最初是由 Cootes等人提出并定位圖像中某一特定類型的對(duì)象。ASM方法訓(xùn)練樣本圖像并統(tǒng)計(jì)分析得到準(zhǔn)確的局部灰度模型,再以此模型為依據(jù),在測(cè)試圖像中進(jìn)行快速定位。它的優(yōu)點(diǎn)不僅在于通過(guò)形狀建模得到目標(biāo)輪廓的初始位置,選取合理的參數(shù)加速定位,并借助特征點(diǎn)周圍的局部紋理特征精確地定位出人臉特征點(diǎn),而且在搜索目標(biāo)模型的變形時(shí)依賴于訓(xùn)練集,也保證了目標(biāo)定位的準(zhǔn)確性。本文使用ASM定位人臉特征點(diǎn),并利用眼睛中心的位置信息將人臉歸一化。

LGBPHS(local gabor binary pattern histogram sequence)是基于多分辨率空間直方圖方法。一方面它結(jié)合空間和局部強(qiáng)度信息,對(duì)光照、表情、年齡等外觀變量不敏感。另一方面,它也是非統(tǒng)計(jì)學(xué)習(xí)方法,不需要任何學(xué)習(xí)過(guò)程。所以本文用LGBPHS描述人臉特征,具體過(guò)程如下:1)采用多尺度多方向的小波濾波器得到多個(gè)小波幅值圖;2)局部二元模式將每幅小波幅值圖轉(zhuǎn)換為局部小波二元模式圖;3)將每個(gè)二元模式圖分成指定大小的非重疊塊,并計(jì)算每塊的直方圖;4)融合所有二元模式圖的直方圖作為描述人臉的模型。

1.3 AP聚類

AP(Affinity propagation)是 Frey等[7]介紹的一種聚類方法。它將數(shù)據(jù)點(diǎn)間的相似度作為輸入,并考慮所有的數(shù)據(jù)點(diǎn)作為潛在的中心進(jìn)行聚類。它不需要指定聚類數(shù)目,也不需要隨機(jī)選取初始值,運(yùn)行時(shí)間快,錯(cuò)誤率小,方法簡(jiǎn)單、并適用于大規(guī)模數(shù)據(jù)等優(yōu)點(diǎn),所以本文采用AP對(duì)人臉圖像進(jìn)行聚類。

依據(jù)Berg等[1]的假設(shè),該人名相關(guān)的人臉子集圖像中,使用聚類方法找到的最大類圖像是該人名的真實(shí)人臉圖像。此外,為了減少運(yùn)算量并且提高聚類的準(zhǔn)確率,將給定人名的圖像子集分成兩組圖像。第一組人臉圖像由滿足新聞圖像中僅有一個(gè)人臉圖像,并且新聞字幕只包含一個(gè)人名條件的圖像組成,剩余人臉圖像組成第二組人臉圖像。本文對(duì)第一組人臉圖像提取LGBPHS特征,并采用歐氏距離計(jì)算人臉圖像間的相似度,使用AP聚類找到最大類,并且最大類的人臉圖像作為該人名的初始訓(xùn)練樣本圖像,建立了人名與人臉的對(duì)應(yīng)關(guān)系。

不幸的是,實(shí)際聚類中,由于不同的表情、光照、姿勢(shì)等影響,不同的人臉會(huì)聚類到同一類中,AP聚類也不例外。然而同一幅圖像中,幾乎不可能同時(shí)出現(xiàn)一個(gè)人的多幅人臉圖像。所以,當(dāng)聚類中包含一幅圖像的多幅人臉圖像時(shí),僅保留其中一個(gè)人臉圖像。針對(duì)這種情況,文中計(jì)算這些人臉圖像與中心人臉圖像的相似度,保留相似度最小的人臉圖像,剔除其他人臉圖像。

1.4 多類SVM

支持向量機(jī)(SVM)是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)之上的機(jī)器學(xué)習(xí)方法,其最大的特點(diǎn)是根據(jù)Vapnik結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,即在函數(shù)復(fù)雜性和樣本復(fù)雜性之間進(jìn)行折中,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有優(yōu)良的分類性能。另外,支持向量機(jī)在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出了許多特有的優(yōu)勢(shì)。針對(duì)多類分類問(wèn)題的經(jīng)典SVM算法主要有一對(duì)一(1-vs-1)和一對(duì)多(1-vs-all)兩種方法。

對(duì)于k類問(wèn)題,一對(duì)一 SVM需要構(gòu)造k(k-1)/2個(gè)分類平面(k>2)。這種方法的本質(zhì)與兩類SVM并沒(méi)有區(qū)別,它相當(dāng)于將多類問(wèn)題轉(zhuǎn)化為多個(gè)兩類問(wèn)題來(lái)求解。該方法優(yōu)點(diǎn)在于每次投入訓(xùn)練的樣本相對(duì)較少,因此單個(gè)決策面的訓(xùn)練速度較快,同時(shí)精度也較高。但是當(dāng)k較大的時(shí)候決策面的總數(shù)將過(guò)多,因此會(huì)影響預(yù)測(cè)速度。然而一對(duì)多SVM僅需要構(gòu)造k個(gè)分類平面(k>2)。該方法也是兩類SVM方法的推廣,實(shí)際上它是將剩余的多類看成一個(gè)整體,然后進(jìn)行k次兩類識(shí)別。與一對(duì)一方法相比,由于一對(duì)多方法每次構(gòu)造決策平面需用全部樣本數(shù)據(jù),因而兩種方法訓(xùn)練所需要時(shí)間相差不多。但是一對(duì)多構(gòu)造的決策平面數(shù)相對(duì)少很多,其預(yù)測(cè)速度也快很多。本文數(shù)據(jù)類別數(shù)較多,綜合考慮使用一對(duì)多SVM方法進(jìn)行分類。對(duì)于給定人名,AP聚類找到的最大類的人臉圖像作為該人名的初始訓(xùn)練樣本圖像,對(duì)于其他人名,也采取同樣的方法,找到相應(yīng)的初始訓(xùn)練樣本圖像;將所有給定人名的初始訓(xùn)練樣本圖像用于多類SVM訓(xùn)練。此外,為了提高訓(xùn)練樣本的可靠性,通過(guò)迭代更新挑選訓(xùn)練樣本和訓(xùn)練多類SVM。第二組人臉圖像作為測(cè)試圖像,提取人臉的LGBPHS特征,并將訓(xùn)練好的多類SVM用于第二組圖像分類,依據(jù)分類結(jié)果,標(biāo)識(shí)人臉圖像。但是,訓(xùn)練一對(duì)多的SVM分類器時(shí),正例的數(shù)目與反例的數(shù)目樣本數(shù)量差異很大,也叫數(shù)據(jù)集偏斜。為了解決數(shù)據(jù)集偏斜問(wèn)題,在目標(biāo)函數(shù)中添加懲罰因子,即給樣本數(shù)量少的類更大的懲罰因子。目標(biāo)函數(shù)公式如下:

其中C是懲罰因子,ζi是松弛變量,l是樣本的數(shù)目。實(shí)驗(yàn)中,對(duì)于正類和負(fù)類,我們?cè)O(shè)置不同的懲罰因子,則目標(biāo)函數(shù)中的松弛變量公式如下:

其中,C+/C-分別是正類/負(fù)類的懲罰因子,ζi/ζj分別是正類/負(fù)類的松弛變量,p/q分別是正類/負(fù)類的樣本數(shù)目。多類SVM訓(xùn)練過(guò)程如圖2所示。

2 實(shí) 驗(yàn)

本文提出了基于多類SVM的新聞?wù)宋镒詣?dòng)標(biāo)識(shí)方法,并在大規(guī)模數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。首先,本文介紹實(shí)驗(yàn)數(shù)據(jù)集,并在數(shù)據(jù)集上進(jìn)行性能評(píng)估。其次,與其他方法比較,討論本文方法與其他方法的優(yōu)缺點(diǎn)。

2.1 數(shù)據(jù)集

圖2 多類SVM Fig.2 Multiple SVM

數(shù)據(jù)集是Berg等[1]在雅虎新聞中搜集的大約50萬(wàn)個(gè)帶有字幕的新聞圖像集。與人臉識(shí)別的實(shí)驗(yàn)數(shù)據(jù)庫(kù)相比,該數(shù)據(jù)集在非標(biāo)準(zhǔn)實(shí)驗(yàn)設(shè)置下獲取,同時(shí)包含多種光照、姿態(tài)、表情、遮擋等因素。

2.2 實(shí)驗(yàn)設(shè)置

首先,采用L.Ratinov[5]的命名實(shí)體標(biāo)注方法處理所有字幕,檢測(cè)到20 931個(gè)人名,每個(gè)人名都可以找到一組相關(guān)的圖像。然而,一方面一幅圖像中包含多幅人臉圖像,人名相應(yīng)圖像集中檢測(cè)的人臉圖像數(shù)目遠(yuǎn)遠(yuǎn)大于人名在總字幕中出現(xiàn)的次數(shù),另一方面一個(gè)特定人名有多種表示方法,本文手動(dòng)合并這些不同表示方式的人名并建立人名字典。綜上所述,本文只處理人名相應(yīng)人臉圖像數(shù)目多于60個(gè)的新聞?wù)嗣显摋l件的人名總共有54個(gè)。人名集及人名出現(xiàn)次數(shù)如圖3所示。

其次,采用主動(dòng)形狀模型定位人臉的特征點(diǎn)[6],該特征點(diǎn)包含68個(gè),主要分布在眉毛、眼睛、鼻子、嘴巴、面頰等區(qū)域。利用左右眼睛中心坐標(biāo)信息歸一化人臉。在LGBPHS方法中,窗口大小的設(shè)置影響識(shí)別性能。為了保留更多的空間信息和局部信息,當(dāng)人臉圖像歸一化到80*60像素(左右外眼角像素歸一化為50個(gè)像素),劃分為9個(gè)區(qū)域,融合這些區(qū)域的直方圖,得到3600維特征向量。此外,為了減少運(yùn)算量并且提高聚類的準(zhǔn)確率,我們將給定人名的圖像子集分成2組圖像。對(duì)第一組人臉圖像采用歐氏距離計(jì)算人臉圖像間的相似度,采用AP聚類,聚類中最大類的人臉圖像作為該人名的初始訓(xùn)練樣本圖像,對(duì)于其他人名,采取同樣的方法,找到相應(yīng)的初始訓(xùn)練樣本圖像。在迭代更新訓(xùn)練樣本和訓(xùn)練多類SVM的時(shí)候,設(shè)置迭代的次數(shù)為3,概率輸出的閾值設(shè)置為0.85,只要樣本的輸出概率大于閾值,該樣本選中作為下次訓(xùn)練的樣本。此外分別計(jì)算給定人名的圖像集、第一組圖像使用AP聚類找到的初始訓(xùn)練樣本和通過(guò)迭代更新挑選的訓(xùn)練樣本的準(zhǔn)確率。圖4給出了由不同圖像集獲得訓(xùn)練樣本的準(zhǔn)確率。在訓(xùn)練多類SVM中,公式(2)中的參數(shù)C+/C-設(shè)置為正負(fù)類樣本的數(shù)目比值,參數(shù)ζi/ζj都設(shè)置為0.1。最后,將多類SVM用于分類給定人名的第二組人臉圖像,實(shí)現(xiàn)新聞?wù)宋锏淖詣?dòng)標(biāo)識(shí)。

圖3 本文處理的人名及相應(yīng)出現(xiàn)的次數(shù)Fig.3 The names and occurrence number

圖4 不同圖像集獲得訓(xùn)練樣本的準(zhǔn)確率Fig.4 The precisions of different image subset

2.3 評(píng)價(jià)標(biāo)準(zhǔn)

為了有效評(píng)價(jià)本文方法,本文給出了基于F1-measure的實(shí)驗(yàn)結(jié)果。首先分別計(jì)算每個(gè)人名的召回率、查準(zhǔn)率和F1,然后計(jì)算整體的權(quán)重召回率、查準(zhǔn)率和F1。計(jì)算公式如下所示:

其中 r(i)/p(i)/F1(i)分別是第 ith人名的召回率、查準(zhǔn)率、F1,t(i)是第 ith人名相應(yīng)的總?cè)四様?shù)目。

2.4 分析與結(jié)果

在雅虎新聞出現(xiàn)頻率大于60次的54個(gè)新聞?wù)嗣臄?shù)據(jù)集上驗(yàn)證本文的方法,本文方法的加權(quán)平均F1值是77.5%。此外,本文與文獻(xiàn)[1]~[4]的方法進(jìn)行對(duì)比。一方面與文獻(xiàn)[1]~[2]的數(shù)據(jù)集相同,另一方面本文的假設(shè)與文獻(xiàn)[2]~[4]的假設(shè)一致,并且實(shí)驗(yàn)數(shù)據(jù)都包含多種姿態(tài)、表情、光照等因素。實(shí)驗(yàn)結(jié)果如表1所示。

表1 不同方法的實(shí)驗(yàn)結(jié)果Tab.1 The results of different methods

從表1可以看出,本文方法得到了較好的實(shí)驗(yàn)性能。文獻(xiàn)[1]使用人名在字幕中位置的文本信息和視覺(jué)信息,獲得了較高的召回率。文獻(xiàn)[2]提出的基于圖論中最大密度的方法與本文的最大聚類的方法比較類似,二者之間可以轉(zhuǎn)化。文獻(xiàn)[3]使用了文本信息和視覺(jué)信息,使得召回率較高,本文僅使用了視覺(jué)信息,通過(guò)改善樣本的可靠性提高了查準(zhǔn)率。另外,對(duì)比本文與文獻(xiàn)[3]、[4]在挑選訓(xùn)練樣本的準(zhǔn)確率(如表2所示)。

從表2可以看出,通過(guò)聚類尋找的訓(xùn)練樣本正例的準(zhǔn)確率優(yōu)于文獻(xiàn)[3]和[4]的結(jié)果。文獻(xiàn)[4]調(diào)選樣本正例和反例取決于參數(shù)的設(shè)定,參數(shù)設(shè)置直接影響了樣本的可靠性,從而降低了性能。

表2 訓(xùn)練樣本的準(zhǔn)確率Tab.2 The precision of different training samples

3 結(jié) 論

本文提出基于多類SVM的新聞?wù)宋镒詣?dòng)標(biāo)識(shí)方法。它不需要任何手工標(biāo)注,僅使用大規(guī)模數(shù)據(jù)集,并且實(shí)驗(yàn)數(shù)據(jù)集包含多種姿勢(shì)、表情、光照等因素,因而該方法可以普及到一般的人臉識(shí)別問(wèn)題。

在雅虎新聞大約50萬(wàn)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文方法的可行性。實(shí)驗(yàn)也實(shí)現(xiàn)了72%的加權(quán)平均召回率和83.4%的加權(quán)平均查準(zhǔn)率,對(duì)于單個(gè)人名而言,實(shí)現(xiàn)了高達(dá)91.6%的召回率和96.5%的查準(zhǔn)率。與其他文獻(xiàn)方法進(jìn)行比較,也實(shí)現(xiàn)了較好的性能。但是,對(duì)于出現(xiàn)頻率較低的人名,相應(yīng)的圖像子集數(shù)目太少無(wú)法聚類找到準(zhǔn)確的正例樣本,從而無(wú)法正確標(biāo)識(shí),并且考慮其他附加信息,在保證查準(zhǔn)率的同時(shí)提高召回率,這將是我們今后工作的重點(diǎn)。另外,本文方法也可以適用于如目標(biāo)識(shí)別、圖像標(biāo)注等其他問(wèn)題。

[1]Berg T L,Berg Er C,Edwards J,et al.Who’s in the picture[C].Proceedings of Advances in Neural Information Processing Systems, Cambridge,2005:137-144.

[2]Derya O,Pinar D.Interesting faces:A graph-based approach for finding people in news[J].Pattern Recognition,2010,43(5):1717-1735.

[3]SU Xue-ping,PENG Jin-ye,F(xiàn)ENG Xiao-yi,et al.Crossmodality based celebrity face naming for news image collections[J].Multimedia Tools and Application,2013,67 (3):687-708.

[4]D L,S Satoh.Unsupervised face annotation by mining the web[C].In International Conference on Data Mining, Pisa,2008:383-392.

[5]Ratinov L,Roth D.Design Challenges and Misconceptions in Named Entity Recognition[C].In proceedings of the 13th Conference on Computational Natural Language Learning,Boulder,2009:147-155.

[6]Stephen Milborrow and Fred Nicolls.Locating Facial Features with an Extended Active Shape Model[C].Proceedings of the 10th European Conference on Computer Vision,Marseille,2008:504-513.

[7]Frey B J,Dueck D.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.

猜你喜歡
訓(xùn)練樣本人臉聚類
有特點(diǎn)的人臉
一起學(xué)畫人臉
人工智能
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
三國(guó)漫——人臉解鎖
基于高斯混合聚類的陣列干涉SAR三維成像
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
融合原始樣本和虛擬樣本的人臉識(shí)別算法
基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)