劉碩明 劉佳
摘 要:早期動作識別的研究主要關注在簡單背景及可控環(huán)境下單個人體動作的分類從而忽略了人的身份信息。本文主提出如何同時識別動作和身份。提出時空興趣點不僅僅刻畫了動作的時空屬性,在采取不同的描述算子的情況下,它也能反映出關于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。
關鍵詞:動作識別;身份識別;碼書;主題模型
中圖分類號:TP915 文獻標識碼:A
1 概述
絕大多數(shù)用于識別的方法中,僅僅存在一種視覺碼書。本文提出利用兩種碼書來進行視頻表示。具體來說,用動作碼書來表示動作,而用作者碼書來表示身份?;舅枷腩愃朴谖恼碌膬?nèi)容用主題來表示,而寫文章的人用作者來表示。本文認為時空興趣點不僅僅刻畫了動作的時空屬性,在采取不同的描述算子的情況下,它也能反映出關于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。已經(jīng)有一些文獻致力于同時進行動作識別和身份驗證。例如文獻[1,2]。
2 動作身份模型
1)識別框架
基本框架如下:首先,利用時空興趣點檢測器提取局部時空點區(qū)域,然后分別對動作和身份兩種問題,提取不同的局部描述子,接著利用聚類的方法得到兩種碼書:動作碼書和作者碼書。利用LDA和AM進行模型參數(shù)的學習和推斷。
2)視頻表示及碼書
文中利用Dollar[3]提出的時空檢測器進行興趣點的檢測,它能產(chǎn)生穩(wěn)健的時空點,給定一組時空興趣點的描述子后,建立了兩種類型的碼書,分別用來進行動作信息的表示和身份信息的表示。首先為了學習得到碼書中的詞項,首先將所有訓練視頻中的時空興趣描述子進行聚類,本文采用K均值聚類的方法,每一個聚類中心對應碼書(動作碼書和身份碼書)中的一個詞項。
3)動作-身份模型
本文提出的動作身份模型是一個概率主題模型,因此可用圖模型的方法表示,如圖1所示。
其中ad表示身份信息,w1和w2分別表示動作碼書和身份碼書中的單詞項。Nd1和Nd2分別表示動作單詞和身份單詞的個數(shù),其余變量為隱含變量或模型參數(shù)。在這個生成模型中包含了兩種類型的碼書,w1和w2是分別來自動作碼書和身份碼書中的視覺詞。 實際上,這個包含兩種碼書的動作身份模型正是LDA模型[4]和作者模型[5]的組合。在動作模型和身份模型相對獨立時,可以將動作模型和身份模型分開進行學習和推斷。盡管w1和w2來自不同的描述子,但他們都對應相同的時空點位置,只是在這個時空點上提取的特征不同。
3 實驗及結(jié)果分析
本文在KTH 數(shù)據(jù)庫上進行了測試。通過利用時空興趣點局部特征以及采用隱主題模型進行動作身份分類,能夠有效的克服這些因素的影響。實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進行識別,同時還能給出關于身份的信息。平均識別率的混淆矩陣如圖3所示。6個主題的LDA模型對應的混淆矩陣如圖3 (a)所示,這里采用的動作碼書的大小為1000。關于身份模型的25類的混淆矩陣如圖3 (b)所示,這里作者碼書的大小也是1000。從圖中可以看出,對于身份的識別具有一定的可判別性。
(a)動作分類的結(jié)果(b)身份的分類結(jié)果平均分類正確率(54.6%)。
實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進行識別,同時還能給出關于身份的信息。
結(jié)語
本文在時空興趣點的基礎上,提出了一種動作身份模型用來識別動作的類型、位置以及動作執(zhí)行人的身份。文中將動作身份模型在三種數(shù)據(jù)庫上進行了測試,驗證了該方法的有效性。
參考文獻
[1]Fabio, C. Using bilinear models for view-invariant action and identity recognition. in CVPR. 2006.
[2].Jack M.. Multifactor Gaussian process models for style-content separation. In ICML. 2007. Corvallis.
[3] Dollar, , Behavior recognition via sparse spatio-temporal features. IEEE Workshop on VSPETS, 2005: p. 1-8.
[4] Blei, D.M., Latent Dirichlet allocation, In JMLR, 2003. 3(4-5): p. 993-1022.
[5] M. Rosen-Zvi, The author-topic model for authors and documents. in Conference on UAI. 2004.
摘 要:早期動作識別的研究主要關注在簡單背景及可控環(huán)境下單個人體動作的分類從而忽略了人的身份信息。本文主提出如何同時識別動作和身份。提出時空興趣點不僅僅刻畫了動作的時空屬性,在采取不同的描述算子的情況下,它也能反映出關于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。
關鍵詞:動作識別;身份識別;碼書;主題模型
中圖分類號:TP915 文獻標識碼:A
1 概述
絕大多數(shù)用于識別的方法中,僅僅存在一種視覺碼書。本文提出利用兩種碼書來進行視頻表示。具體來說,用動作碼書來表示動作,而用作者碼書來表示身份?;舅枷腩愃朴谖恼碌膬?nèi)容用主題來表示,而寫文章的人用作者來表示。本文認為時空興趣點不僅僅刻畫了動作的時空屬性,在采取不同的描述算子的情況下,它也能反映出關于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。已經(jīng)有一些文獻致力于同時進行動作識別和身份驗證。例如文獻[1,2]。
2 動作身份模型
1)識別框架
基本框架如下:首先,利用時空興趣點檢測器提取局部時空點區(qū)域,然后分別對動作和身份兩種問題,提取不同的局部描述子,接著利用聚類的方法得到兩種碼書:動作碼書和作者碼書。利用LDA和AM進行模型參數(shù)的學習和推斷。
2)視頻表示及碼書
文中利用Dollar[3]提出的時空檢測器進行興趣點的檢測,它能產(chǎn)生穩(wěn)健的時空點,給定一組時空興趣點的描述子后,建立了兩種類型的碼書,分別用來進行動作信息的表示和身份信息的表示。首先為了學習得到碼書中的詞項,首先將所有訓練視頻中的時空興趣描述子進行聚類,本文采用K均值聚類的方法,每一個聚類中心對應碼書(動作碼書和身份碼書)中的一個詞項。
3)動作-身份模型
本文提出的動作身份模型是一個概率主題模型,因此可用圖模型的方法表示,如圖1所示。
其中ad表示身份信息,w1和w2分別表示動作碼書和身份碼書中的單詞項。Nd1和Nd2分別表示動作單詞和身份單詞的個數(shù),其余變量為隱含變量或模型參數(shù)。在這個生成模型中包含了兩種類型的碼書,w1和w2是分別來自動作碼書和身份碼書中的視覺詞。 實際上,這個包含兩種碼書的動作身份模型正是LDA模型[4]和作者模型[5]的組合。在動作模型和身份模型相對獨立時,可以將動作模型和身份模型分開進行學習和推斷。盡管w1和w2來自不同的描述子,但他們都對應相同的時空點位置,只是在這個時空點上提取的特征不同。
3 實驗及結(jié)果分析
本文在KTH 數(shù)據(jù)庫上進行了測試。通過利用時空興趣點局部特征以及采用隱主題模型進行動作身份分類,能夠有效的克服這些因素的影響。實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進行識別,同時還能給出關于身份的信息。平均識別率的混淆矩陣如圖3所示。6個主題的LDA模型對應的混淆矩陣如圖3 (a)所示,這里采用的動作碼書的大小為1000。關于身份模型的25類的混淆矩陣如圖3 (b)所示,這里作者碼書的大小也是1000。從圖中可以看出,對于身份的識別具有一定的可判別性。
(a)動作分類的結(jié)果(b)身份的分類結(jié)果平均分類正確率(54.6%)。
實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進行識別,同時還能給出關于身份的信息。
結(jié)語
本文在時空興趣點的基礎上,提出了一種動作身份模型用來識別動作的類型、位置以及動作執(zhí)行人的身份。文中將動作身份模型在三種數(shù)據(jù)庫上進行了測試,驗證了該方法的有效性。
參考文獻
[1]Fabio, C. Using bilinear models for view-invariant action and identity recognition. in CVPR. 2006.
[2].Jack M.. Multifactor Gaussian process models for style-content separation. In ICML. 2007. Corvallis.
[3] Dollar, , Behavior recognition via sparse spatio-temporal features. IEEE Workshop on VSPETS, 2005: p. 1-8.
[4] Blei, D.M., Latent Dirichlet allocation, In JMLR, 2003. 3(4-5): p. 993-1022.
[5] M. Rosen-Zvi, The author-topic model for authors and documents. in Conference on UAI. 2004.
摘 要:早期動作識別的研究主要關注在簡單背景及可控環(huán)境下單個人體動作的分類從而忽略了人的身份信息。本文主提出如何同時識別動作和身份。提出時空興趣點不僅僅刻畫了動作的時空屬性,在采取不同的描述算子的情況下,它也能反映出關于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。
關鍵詞:動作識別;身份識別;碼書;主題模型
中圖分類號:TP915 文獻標識碼:A
1 概述
絕大多數(shù)用于識別的方法中,僅僅存在一種視覺碼書。本文提出利用兩種碼書來進行視頻表示。具體來說,用動作碼書來表示動作,而用作者碼書來表示身份?;舅枷腩愃朴谖恼碌膬?nèi)容用主題來表示,而寫文章的人用作者來表示。本文認為時空興趣點不僅僅刻畫了動作的時空屬性,在采取不同的描述算子的情況下,它也能反映出關于動作執(zhí)行人的身份信息。實驗的結(jié)果驗證了本文的想法。已經(jīng)有一些文獻致力于同時進行動作識別和身份驗證。例如文獻[1,2]。
2 動作身份模型
1)識別框架
基本框架如下:首先,利用時空興趣點檢測器提取局部時空點區(qū)域,然后分別對動作和身份兩種問題,提取不同的局部描述子,接著利用聚類的方法得到兩種碼書:動作碼書和作者碼書。利用LDA和AM進行模型參數(shù)的學習和推斷。
2)視頻表示及碼書
文中利用Dollar[3]提出的時空檢測器進行興趣點的檢測,它能產(chǎn)生穩(wěn)健的時空點,給定一組時空興趣點的描述子后,建立了兩種類型的碼書,分別用來進行動作信息的表示和身份信息的表示。首先為了學習得到碼書中的詞項,首先將所有訓練視頻中的時空興趣描述子進行聚類,本文采用K均值聚類的方法,每一個聚類中心對應碼書(動作碼書和身份碼書)中的一個詞項。
3)動作-身份模型
本文提出的動作身份模型是一個概率主題模型,因此可用圖模型的方法表示,如圖1所示。
其中ad表示身份信息,w1和w2分別表示動作碼書和身份碼書中的單詞項。Nd1和Nd2分別表示動作單詞和身份單詞的個數(shù),其余變量為隱含變量或模型參數(shù)。在這個生成模型中包含了兩種類型的碼書,w1和w2是分別來自動作碼書和身份碼書中的視覺詞。 實際上,這個包含兩種碼書的動作身份模型正是LDA模型[4]和作者模型[5]的組合。在動作模型和身份模型相對獨立時,可以將動作模型和身份模型分開進行學習和推斷。盡管w1和w2來自不同的描述子,但他們都對應相同的時空點位置,只是在這個時空點上提取的特征不同。
3 實驗及結(jié)果分析
本文在KTH 數(shù)據(jù)庫上進行了測試。通過利用時空興趣點局部特征以及采用隱主題模型進行動作身份分類,能夠有效的克服這些因素的影響。實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進行識別,同時還能給出關于身份的信息。平均識別率的混淆矩陣如圖3所示。6個主題的LDA模型對應的混淆矩陣如圖3 (a)所示,這里采用的動作碼書的大小為1000。關于身份模型的25類的混淆矩陣如圖3 (b)所示,這里作者碼書的大小也是1000。從圖中可以看出,對于身份的識別具有一定的可判別性。
(a)動作分類的結(jié)果(b)身份的分類結(jié)果平均分類正確率(54.6%)。
實驗結(jié)果表明本文的方法不僅能夠?qū)幼黝悇e和位置進行識別,同時還能給出關于身份的信息。
結(jié)語
本文在時空興趣點的基礎上,提出了一種動作身份模型用來識別動作的類型、位置以及動作執(zhí)行人的身份。文中將動作身份模型在三種數(shù)據(jù)庫上進行了測試,驗證了該方法的有效性。
參考文獻
[1]Fabio, C. Using bilinear models for view-invariant action and identity recognition. in CVPR. 2006.
[2].Jack M.. Multifactor Gaussian process models for style-content separation. In ICML. 2007. Corvallis.
[3] Dollar, , Behavior recognition via sparse spatio-temporal features. IEEE Workshop on VSPETS, 2005: p. 1-8.
[4] Blei, D.M., Latent Dirichlet allocation, In JMLR, 2003. 3(4-5): p. 993-1022.
[5] M. Rosen-Zvi, The author-topic model for authors and documents. in Conference on UAI. 2004.