国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

視覺標簽的語義三元組檢測模型

2023-05-12 12:07王思涵陳俊洪林大潤劉文印楊振國
小型微型計算機系統(tǒng) 2023年5期
關(guān)鍵詞:三元組注意力標簽

王思涵,陳俊洪,林大潤,劉文印,楊振國

(廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006)

1 引 言

語音識別是機器人識別人類需求的重要方式之一,人類可以與機器人交談并驅(qū)使機器人提供服務(wù)[1,2].傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語音識別方法[3]依賴于大量標記的文本數(shù)據(jù)進行訓(xùn)練.但是,在人機交互的場景下,獲得文本標簽較圖像或者視頻來得困難.基于視覺標簽的語音三元組識別網(wǎng)絡(luò)旨在采用圖像或視頻,而不是文本作為真實標簽來訓(xùn)練語音模型.

近年來,研究者們通常使用動態(tài)時間扭曲(DTW)[4]從測試的語音中檢索所需要的關(guān)鍵字.但是,這種方法無法同時處理來自多個不同語種或者不同發(fā)音者的情況.隨著深度學(xué)習(xí)的日漸成熟,相當(dāng)多的深度學(xué)習(xí)技術(shù),例如MTL-DNN[5]和CNN[6],已經(jīng)開始被研究者們用于語音關(guān)鍵字檢索任務(wù).盡管它們?nèi)〉昧撕芎玫男阅?但無論是哪一種神經(jīng)網(wǎng)絡(luò),都需要大規(guī)模數(shù)據(jù)集和文本標記數(shù)據(jù)進行訓(xùn)練.因此,Kampe等人[7]提出了使用圖像代替文本標簽進行語音網(wǎng)絡(luò)的訓(xùn)練從而識別關(guān)鍵字,這種技術(shù)雖然降低了文本標注的工作量,但是它存在以下問題,首先,圖像無法捕捉動態(tài)效果,特別是對于動作識別等任務(wù)表現(xiàn)較差.其次,圖像無法得知物體相互之間是否存在聯(lián)系.這促使本文利用視頻標簽替代圖像標簽來檢索語音中的關(guān)鍵字,從而識別動作三元組.

本文提出了一種基于視頻標簽的多頭自注意力語音模型,它可以從說話者語音中識別由主體物體、動作和受體物體組成的語義三元組,該模型包含視頻和語音兩個模塊.在視頻模塊,本文利用預(yù)訓(xùn)練的I3D模型[8]和Mask R-CNN[9]分別從視頻中提取動作和物體特征.隨后,使用兩個XGBoost[10]模型將物體特征分類為主體物體和受體物體.本文將使用從視頻中提取的三元組作為語音模型的軟標簽,而不使用文本標簽,目的是用單個視頻標注多個語音,降低了單個文本標注單個語音的工作量;除此之外,利用視頻這種動態(tài)時序方式可以提供更好的指令表達形式,為示范學(xué)習(xí)[11]提供了擴展的基礎(chǔ).在語音模塊中,本文構(gòu)建了一個基于視頻軟標簽的語音識別網(wǎng)絡(luò),該網(wǎng)絡(luò)將序列網(wǎng)絡(luò)和殘差模塊連接到多頭自注意力機制網(wǎng)絡(luò)中,目的是對語音的上下文信息進行建模并提取關(guān)鍵信息,最后網(wǎng)絡(luò)輸出概率值最高的3個對象和動作,并由其組成三元組.本文通過使用視頻模塊生成的視頻標簽替代文本標簽可以使語音模型的標簽更容易獲得.本文的主要貢獻總結(jié)如下:

· 本文設(shè)計了一個基于視覺標簽的語音模型,它可以利用視頻中的信息指導(dǎo)語言模型從而學(xué)習(xí)動作序列.

· 本文提出了一個基于多頭自注意力機制的語音模型,它能更好提取上下文信息的序列網(wǎng)絡(luò),以及提出了對抗梯度消失及爆炸的殘差模塊

· 本文擴展了MPII Cooking 2數(shù)據(jù)集的語音數(shù)據(jù),它可以用于對比使用視頻標簽的基準.

· 本文將提出的語音網(wǎng)絡(luò)部署在UR10e機器人上,使該機器人可以通過語音執(zhí)行人機交互.

本文的其余部分安排如下:在第2節(jié)中,回顧了該領(lǐng)域的相關(guān)工作;在第3節(jié)中,詳細介紹了所提出的方法;實驗報告則在第4節(jié);最后,在第5節(jié)中進行了總結(jié).

2 相關(guān)工作

2.1 關(guān)鍵字檢索

關(guān)鍵字檢索是語音識別的一個子分支,該任務(wù)的目的是從一段人類語音提取出一個或多個關(guān)鍵字.動態(tài)時間扭曲(DTW)[4]是一種傳統(tǒng)的方法,它通過計算目標關(guān)鍵字和語音的翹曲距離達到檢索的目的.但是,它無法處理存在不同的發(fā)音者或者不同語種的情況.近年來,隨著深度學(xué)習(xí)的發(fā)展,Chen等[12]設(shè)計了一個基于LSTM的深度神經(jīng)網(wǎng)絡(luò)模型,它能夠使用少量的計算機資源實現(xiàn)關(guān)鍵字檢索.Mir等[13]提出了將檢索匹配問題轉(zhuǎn)換為圖像的二進制分類,從而在關(guān)鍵字識別方面獲得更好的準確性.Yuan等[14]則通過時序上下文學(xué)習(xí)單詞的嵌入式,從而使得嵌入式更容易獲得.Ram[15]通過更低維屬性來表示更廣的特征,從而獲得更好的語音特征.然而,這些方法均需要大量文本標簽數(shù)據(jù)進行訓(xùn)練,這給模型帶來了巨大的局限性.為了解決這個問題,研究者們已經(jīng)提出了很多的半監(jiān)督方法來避免收集大量的文本標簽數(shù)據(jù)的工作.例如,Palaz等[16]設(shè)計了一個神經(jīng)網(wǎng)絡(luò),它使用更容易獲得的無序文本標簽去定位和分類詞組,并最終在檢索關(guān)鍵字任務(wù)上評估它的性能.Duong等[17]引入了一種注意力模型,它無需進行轉(zhuǎn)錄即可將語音翻譯成文本.然而,以上這些方法的使用場景存在著很大的局限性,因此,本文提出了一種能廣泛獲取標簽且易于部署的半監(jiān)督方式來解決上述問題.

2.2 視覺標簽

為了減輕對文本標記數(shù)據(jù)的依賴性,許多的研究者引入了視覺標簽去做類似的任務(wù).Yang等[18]提出將視頻和語音同時映射到同一個公共空間,使它們可以被相互檢索.Stewart[19]則提出可以結(jié)合視頻特征和音頻特征來識別語音,這使得語音模型更加具有魯棒性.Ephrat等[20]實現(xiàn)了在無聲的視頻中重建語音序列,使其可以用于人臉視頻的識別.最近,Kamper 等人[7]則提出了使用圖像作為文本標簽來訓(xùn)練語音模型,從而無需人工標注.然而,圖像只能表達場景的靜態(tài)情況,難以表達動作和序列信息,這促使本文將圖像擴展為視頻作為軟標簽.

2.3 多頭自注意力機制

近年來,多頭注意力機制已經(jīng)被證明能在時序任務(wù)上獲得很高的精度,因此,它已經(jīng)被廣泛應(yīng)用于各種場景.例如,Cho等[21]在機器翻譯任務(wù)上結(jié)合了定位信息和多頭自注意力模型,大大提高機器翻譯的準確性.Long等[22]則將多頭自注意力模型引入社交媒體的情感分析任務(wù)中.Wang等[23]通過多頭自注意力機制提高了聲學(xué)場景下語音識別的準確性.Dong等[24]在語音識別上應(yīng)用多頭自注意力機制,從而提升了模型訓(xùn)練的速度.此外,Chiu等[25]發(fā)現(xiàn)了使用多頭自注意力機制作為編碼器和解碼器之間的中間組件,可以在語音識別精度上取得很好的結(jié)果.受多頭自注意力機制的啟發(fā),本文使用并改進了多頭自注意力機制,從而可以更好的提取關(guān)鍵字識別的上下文聯(lián)系,從而提升識別的精度.

3 方 法

本文提出的方法的概述如圖1所示,它由視頻模塊和語音模塊組成.其中,視頻模塊旨在獲得視覺標簽,這將在第3.1節(jié)中介紹,其次是在第 3.2 節(jié)中介紹本文的語音模塊.

圖1 框架概述Fig.1 Overview of our framework

3.1 生成視頻標簽的視頻模塊

視頻模塊旨在從視頻中提取三元組特征作為視覺軟標簽.因此,本文將視頻網(wǎng)絡(luò)分為兩個模塊:第1個模塊提取動作特征;第2個模塊則提取主體對象和受體對象特征.由于動作特征在時間和空間上的表現(xiàn)有所不同,所以本文采用基于Inflated 3D ConvNet(I3D)網(wǎng)絡(luò)的雙流卷積網(wǎng)絡(luò)架構(gòu)作為提取動作特征的第一個模塊.相比而言,I3D與傳統(tǒng)的雙流卷積網(wǎng)絡(luò)不同,I3D通過擴展額外的時間維度將2D卷積核和池化核膨脹擴充為3D,這使得2D模型的特征權(quán)重可以直接應(yīng)用于3D模型,極大地減少了在模型上的訓(xùn)練時間.在該網(wǎng)絡(luò)中,本文首先在Kinetics數(shù)據(jù)集上對I3D進行預(yù)訓(xùn)練,并且針對本文的任務(wù)在MPII 2數(shù)據(jù)集上進行了微調(diào).網(wǎng)絡(luò)的輸入圖像被重新調(diào)整為為224×224×3,并分別輸入到空間流和時間流中.最后,這兩個流分別輸出時間和空間動作特征,將兩個特征連接并分類映射到N維的向量上,從而形成一個向量作為動作特征概率,其中N維的大小為所有動作和物體的總和.

在第2個模塊中,本文使用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練并在MPII 2數(shù)據(jù)集上進行過微調(diào)的 Mask R-CNN 來識別對象.更具體地說,首先使用該模型生成大量關(guān)于對象的候選邊界框.然后本文引入RexNet-101[31]來提取對象特征并過濾掉不相關(guān)的邊界框.最后,將網(wǎng)絡(luò)輸出對象標簽、掩碼、邊界框和置信度分數(shù)進行合并作為物體特征輸出.為了更進一步地細分對象信息,本文將對象特征和動作特征進行融合,并將它們傳遞到兩個XGBoost[32]模型中,同動作特征概率的識別一樣,分別將它們映射到N維的向量上以預(yù)測主體物體和受體物體的概率.

給定動作特征,主體物體特征和受體物體特征的概率,本文將它們映射到 M×N 矩陣.其中 M 表示三元組(動作,受體,主體)的個數(shù),即M=3.N表示動作,主體物體和受體物體的個數(shù)的總數(shù).隨后,本文將該矩陣作為視覺標簽用于后續(xù)語音模型的訓(xùn)練.注意:視頻模塊僅在語音模型訓(xùn)練時存在,當(dāng)語音模型進入測試階段時,由于不再需要軟標簽,所以視頻模塊將被剔除.

3.2 多頭自注意力語音模型網(wǎng)絡(luò)

現(xiàn)有的深度學(xué)習(xí)關(guān)鍵字檢索模型通常使用Mel Frequency Cepstrum Coefficient(MFCC)來提取語音特征,這些特征會直接被送入神經(jīng)網(wǎng)絡(luò)進行預(yù)測,如CNN[6]、RNN[1]等,但是這樣做會使其模型很容易忽略語音之間的上下文關(guān)系.多頭自注意力機制在自然語言處理(NLP)[31]中被首次提出,并被廣泛應(yīng)用于很多場景,例如機器翻譯[22]、情感分析[23],它可以被用于提取上下文信息并同時減少噪聲的干擾.這些工作促使本文引入多頭注意力機制提煉語音上下文之間的關(guān)系,從而提升關(guān)鍵字檢索的準確率.

為此,本文設(shè)計了一個多頭自注意力語音機制模型(MASN),它由多頭自注意力模塊、殘差模塊和預(yù)測模塊組成,細節(jié)模塊如圖2所示.

圖2 語音模型框架概述Fig.2 Framework of the speech network

3.2.1 多頭自注意力機制

為了更好的提取和利用語音上下文之間的關(guān)系,本文將多個序列網(wǎng)絡(luò)的輸出輸入到多頭自注意力機制中.更具體地說,給定一段語音,首先提取它們的MFCC特征,表示為X=(x1,x2,…,xT)其中T是頻率,本文將該特征輸入 BiLSTM和BiGRU中提取語音特征,如公式(1)、公式(2)所示:

Lq=BiLSTM(X)

(1)

G=BiGRU(X)

(2)

圖3 多頭自注意力模型結(jié)構(gòu)Fig.3 Multi-Head Attention structure

在獲得語音特征后,本文將其輸入到圖3所示的多頭自注意力機制它具有3個輸入向量Q,K,V,其中Q表示查詢向量,K表示關(guān)鍵向量,V是值向量,如公式(3)~公式(5)所示:

Q=WqLq

(3)

K=WkG

(4)

V=WvG

(5)

其中Wq,Wk,Wv是訓(xùn)練參數(shù)矩陣.給定序列模型的序列特征,本文可以將它們作為多頭自注意力的不同維度的輸入向量.由于鍵值K,V將被用于檢索Q,因此需要減少K,V之間的偏差,這促使本文將一個共享的序列特征同時輸入到K和V中.例如,BiLSTM模型得到的序列特征作為查詢向量,BiGRU模型得到的序列特征則作為關(guān)鍵向量和值向量.它們不同組合的影響將在實驗部分進行討論.對于計算多頭自注意力模型中一個頭的dot-product attention如公式(6)所示:

(6)

其中dk的維度和Q的維度相同.本文可以計算多個頭并將它們集中到同一個矩陣中,并歸一化到一個線性函數(shù)進行計算,生成多頭自注意力模型的輸出.多頭注意力將被輸入到一個全連接的前饋網(wǎng)絡(luò),它包含了兩個線性變換計算和一個ReLU激活函數(shù).

3.2.2 殘差模塊

為了解決序列網(wǎng)絡(luò)和多頭注意力模型訓(xùn)練過程中梯度消失或爆炸的問題,本文引入了如圖3所示的殘差機制,表示為“Res-M”,它也可以強化關(guān)鍵信息幀在多頭自注意力模塊和序列模塊的傳輸,如公式(7)所示:

Res-M=M+G+Lq

(7)

3.2.3 預(yù)測模塊

由于語音中存在許多被動句,這導(dǎo)致了三元組的提取容易受到干擾,為了處理這個問題,本文引入三層BiGRU來從句子中提取時間特征,并進行預(yù)測.除此之外,為了防止模型過擬合,在BiGRU中引入了ReLU激活函數(shù)、歸一化和平均池化.最后,BiGRU采用Softmax函數(shù)計算三元組的概率.本文采用交叉熵損失函數(shù)(cross-entropy loss)來計算視覺軟標簽和預(yù)測標簽之間的損失,如公式(8)所示:

(8)

4 實 驗

4.1 數(shù)據(jù)集

本文在MPII Cooking 2[33]數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集由不同人錄制的273個烹飪視頻組成.由于每個視頻包含一系列不同的操作,所以官方根據(jù)動作分類將視頻分割成一個個小片段,本文隨機選擇其中的4,000個小片段作為訓(xùn)練集訓(xùn)練視頻模塊,而另外2,000個則作為測試集輸出視頻軟標簽.在此次實驗中,本文分別選擇了7類動作、8類主體對象和21類受體對象.在這之中,使用“-”表示主體物體或者受體物體缺失的情況.表1總結(jié)了本次實驗所用到的動作、主體物體和受體物體的類別.

表1 動作,主體物體和受體物體的分類信息Table 1 Categories of actions and objects

4.2 參數(shù)設(shè)置

4.2.1 視頻參數(shù)設(shè)置

在視頻模型的處理中,本文將視頻調(diào)整為224×224×3,并輸入到在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練,使用MPII 2數(shù)據(jù)集中的1000條數(shù)據(jù)進行了微調(diào)的I3D模型.獲取最后一層的分類概率作為動作概率,大小為1×N.隨后使用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練并在MPII 2數(shù)據(jù)集的1000條進行了微調(diào)的Mask R-CNN模型,并使用兩個XGBoost進行分類,分別獲取其分布概率,大小均為1×N.將3個分布概率合并為3×N的分布概率矩陣.

4.2.2 語音參數(shù)設(shè)置

在原始語音的預(yù)處理中,本文使用MFCC從原始語音中提取39維特征進行表示.BiGRU和BiLSTM在多頭自注意力模型之前使用,它們含有400個隱藏單元,dropout比率設(shè)置為0.2.多頭自注意力模型的輸出將被輸入到帶有3 層 BiGRU 的預(yù)測模型中,并使用Softmax進行進行分類.本文選擇Adam進行優(yōu)化,并且學(xué)習(xí)率設(shè)置為0.001.

4.3 基線

本實驗對比的基線包括傳統(tǒng)語音模型和深度學(xué)習(xí)方法,其方法詳述如下所示:

· CNN[6],使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取語音特征從而進行分類.

· Monolingual FFN[27],是前饋神經(jīng)網(wǎng)絡(luò)的變體,它使用瓶頸特征層來提取語音額層間信息.

· Monolingual ResNet[28],使用殘差網(wǎng)絡(luò)層改進Monolingual FFN,進而從多個維度提取層間信息.

· DTW(Dynamic Time Warping)[29]是一種傳統(tǒng)的數(shù)學(xué)方法,它計算目標關(guān)鍵字和語音的翹曲距離從而檢索到指定的關(guān)鍵字.

· Vggish[30]是 CNN 的變體,它將語音向量壓縮到64 維從而濃縮關(guān)鍵的音頻信息.

4.4 使用視覺軟標簽的語音模型性能評估

本文結(jié)合I3D和Mask R-CNN作為視頻模型,在此基礎(chǔ)上,將不再使用任何文本標簽的情況下訓(xùn)練語音模型.不同的語音模型使用視覺軟標簽的性能如表2所示.可以從中觀察到如下情況:1)與其它深度網(wǎng)絡(luò)相比,CNN、ResNet 和 Vggish 等卷積網(wǎng)絡(luò)需要在大規(guī)模數(shù)據(jù)上進行預(yù)訓(xùn)練,因此,它們無法在數(shù)據(jù)量較小的情況下獲得比較好的性能;2)DTW表現(xiàn)得也并不盡如人意,它在計算翹曲距離時忽略了局部細節(jié),從而導(dǎo)致整體的性能不好;3)與上述方法相比,Monolingual FFN展示了相對較好的性能,這得益它的瓶頸特征層可以從層間提取信息;4)本文所提出的多頭自注意力語音網(wǎng)絡(luò)(MASN)獲得了最好性能,這得受益于該網(wǎng)絡(luò)能通過多頭自注意力模型和殘差模型提升關(guān)鍵字的權(quán)值比重,從而能更好的提取存在上下關(guān)聯(lián)的關(guān)鍵字.

表2 不同的語音模型使用視覺軟標簽的性能Table 2 Performance on different speech models with visual grounding

4.5 多頭自注意力機制性能評估

多頭自注意力機制可以更好地提取上下文特征以提高關(guān)鍵詞檢索的性能,因此本文對比了不同模型是否添加Attention的性能,包括CNN、BiLSTM和BiGRU,其性能如表3所示.從表中可以獲得如下觀察:1)非序列模型CNN在數(shù)據(jù)資源較小的關(guān)鍵詞檢測中表現(xiàn)不佳,因為它們通常需要依賴于大量的預(yù)訓(xùn)練工作才能獲得穩(wěn)定的性能.但是,得益于多頭自注意力機制的上下文理解能力,即便是性能較差的CNN也可以提高近一倍的性能;2)單個BiLSTM或BiGRU模型很容易會受到噪聲干擾,從而導(dǎo)致識別效果較差,而引入的多頭自注意力層可以很好的提高抗干擾能力以獲得更好的性能.

表3 多頭自注意力機制結(jié)合不同模型的表現(xiàn)Table 3 Different model with multi-head attention

4.6 不同序列模塊性能評估

表4總結(jié)了集成不同序列模型時的語音模型的性能,從表中可以獲得如下觀察:1)添加了序列模型的多頭自注意力機制的性能優(yōu)于沒有添加序列模型時的性能.其原因可能是序列模型可以加深關(guān)鍵字信息,這使得多頭自注意力模型可以更好的整合關(guān)鍵字上,從而更好的提取上下文信息;2)同時使用BiGRU和BiLSTM的混合序列模型的性能優(yōu)于只使用BiGRU或BiLSTM的單序列模型.原因可能是雖然BiGRU和BiLSTM的訓(xùn)練參數(shù)雖然有所不同,但它們屬于同源網(wǎng)絡(luò).因此,它們可以作為兩個網(wǎng)絡(luò)分支相互學(xué)習(xí),使模型更具有魯邦性;3)BiGRU的訓(xùn)練參數(shù)比BiLSTM少,在數(shù)據(jù)量較小的情況下更容易擬合參數(shù).因此,BiGRU的單序列模型往往比BiLSTM的單序列模型更容易獲得較好的性能.

表4 集成不同序列模型時語音模型的性能Table 4 Performance of integrating different sequence models

4.7 殘差模塊性能評估

為了評估殘差模型的有效性,本文以兩個性能良好的混合序列模型作為基礎(chǔ),如表5所示.從表中可以觀察到通過殘差層的連接,兩個混合序列模型的性能都有所提升,這可能是由于殘差層可以提高關(guān)鍵詞的權(quán)重,有利于關(guān)鍵詞的檢索.此外,隨著訓(xùn)練次數(shù)的增加,無殘差模塊的網(wǎng)絡(luò)導(dǎo)致了梯度消失,從而反而會使性能有所下降.

表5 不同混合模型添加殘差塊時的性能Table 5 Performance on different visual models

4.8 不同視覺模塊對語音模型的影響

為了評估不同視覺模塊對語音模型的影響,本文使用不同的視覺模塊并結(jié)合本文的語音模塊進行比對.在視覺模塊上,使用Mask R-CNN識別對象,使用stack flow、CNN、CNN3D[26]、two-stream[27]和I3D[8]分別識別動作.從表6中可以觀察到,首先,stack stream和CNN的性能比較差,原因可能是它們只考慮了動作特征,而沒有考慮是否它是否與物體特征相匹配檢測特征.其次,CNN3D、two-stream和I3D表現(xiàn)較為良好,這可能得受益于它們能提取的特征較多,能更好的動作特征和物體特征融合起來.最后,I3D表現(xiàn)最好,這是因為I3D平衡了動態(tài)場景和物體的捕捉能力,這有利于提升與動作相關(guān)的物體的概率.

表6 使用不同視覺標簽時語音模型的性能Table 6 Performance on different visual models

4.9 使用不同標簽時語音模型性能評估

為了研究使用不同標簽時的語音模型的性能,本文分別使用圖像、視頻和文本作為語音模型的標簽,指導(dǎo)語音模型的訓(xùn)練.表7總結(jié)了使用不同標簽時的性能,本文的語音模型使用視頻作為標簽時的性能,用MASN進行表示;使用文本作為標簽時語音模型的性能,用MASN_TEXT進行表示,以及使用圖像作為標簽時的性能,用MASN_IMG進行表示.CNN_IMG從每個短視頻中選擇一個關(guān)鍵幀作為輸入,所有方法使用的訓(xùn)練樣本數(shù)均為2500個.MASN_IMG的識別準確率較低,可能的原因是它不能從圖片中正確識別動作,并且無法將動作與對象關(guān)聯(lián)起來,從而導(dǎo)致它們經(jīng)常只能正確識別主體對象或者受體對象,而無法識別整體.此外,使用文本作為標簽是該任務(wù)精度所能達到的上限,可以從表中發(fā)現(xiàn)MASN的性能相當(dāng)接近MASN_TEXT,這表明使用視頻作為標簽具有很高的可行性.

表7 使用不同標簽時語音模型的性能Table 7 Performance of our approach with different number of labels

4.10 機器人部署

為了驗證模型的有效性,本文在UR10e機器人上部署了本文提出的語音模型.首先將人類語音作為輸入,然后通過語音模型MASN識別由主體對象、動作和受體對象組成的語義三元組.在識別到三元組后,本文通過之前的工作[11]執(zhí)行命令.對于主體物體和受體物體,使用在預(yù)訓(xùn)練的Mask R-CNN來識別現(xiàn)實世界中出現(xiàn)的相應(yīng)對象,并根據(jù)[34]抓取的位置進行抓取.對于動作,本文應(yīng)用動態(tài)運動原語(DMP)[35]系統(tǒng)生成機器人執(zhí)行的軌跡.圖4顯示了機器人根據(jù)語音進行操作的示例.

圖4 UR10e 執(zhí)行操作示例(頂部是輸入語音樣本,中間是檢測到的語音命令,底部是執(zhí)行機器人的例子)Fig.4 Example of performing manipulations by UR10e using our proposed framework.(The top is the input speech sample.The middle is the detected spoken commands,and the bottom is an example of executing the robot)

5 結(jié) 論

本文提出一種基于視覺標簽的語音三元組檢測模型框架 MASN,它在訓(xùn)練語音模型期間不需要太多的文本標簽,而是以視覺標簽為基礎(chǔ)從語音中檢測三元組關(guān)鍵字.該框架由兩個模塊組成,即視頻模塊和語音模塊.第1個模塊利用I3D和Mask R-CNN以及 XGBoost預(yù)測主體物體、動作和受體物體的概率,并合并這些概率作為語音模塊標簽用于語音模型的訓(xùn)練.第2個語音模塊引入了多頭自注意力機制,它結(jié)合了序列模塊和殘差模塊分析語音的上下文信息,從而識別三元組特征.本文在MPII Cooking 2數(shù)據(jù)集上進行的大量實驗和論證發(fā)現(xiàn),與現(xiàn)有的語音模型相比,本文的方法可以使用視覺標簽來替換文本標簽,并且在識別精度上取得了更加優(yōu)異的性能.

猜你喜歡
三元組注意力標簽
讓注意力“飛”回來
特征標三元組的本原誘導(dǎo)子
關(guān)于余撓三元組的periodic-模
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
“揚眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
標簽化傷害了誰
基于三元組的擴頻碼構(gòu)造及其性能分析
基于多進制查詢樹的多標簽識別方法
丰台区| 昌邑市| 会泽县| 鄂温| 潍坊市| 嘉义市| 乡城县| 阿拉善左旗| 榆树市| 新乡县| 同仁县| 克东县| 华亭县| 农安县| 太湖县| 讷河市| 宁城县| 都安| 鲜城| 故城县| 灵武市| 南投县| 邻水| 钟祥市| 乐清市| 隆尧县| 聂拉木县| 贡嘎县| 盐亭县| 阜平县| 澄迈县| 姜堰市| 聂拉木县| 集贤县| 襄樊市| 南充市| 石林| 澄城县| 德昌县| 临邑县| 大余县|