黃懈 劉文靜
摘 要:文章基于CPRSABS和DWPI專利數(shù)據(jù)庫(kù),對(duì)智能耳機(jī)自然用戶接口技術(shù)的重點(diǎn)專利進(jìn)行了分析和整理,有助于該領(lǐng)域技術(shù)人員全面了解智能耳機(jī)自然用戶接口技術(shù)的基本發(fā)展態(tài)勢(shì),對(duì)涉及智能耳機(jī)自然用戶接口領(lǐng)域的研發(fā)工作有較大幫助。
關(guān)鍵詞:自然用戶接口;語(yǔ)音;動(dòng)作;腦電波;核心專利
中圖分類號(hào):G306 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)13-0035-03
Abstract: Based on the patent database of CPRSABS and DWPI, this paper analyzes and arranges the key patents of the natural user interface technology for intelligent headphones, which is helpful for the technicians in this field to fully understand the basic development trend of the natural user interface technology for intelligent headphones. It is of great help to the research and development of the natural user interface for intelligent headphones.
Keywords: natural user interface; voice; action; brainwave; core patent
1 概述
自然用戶接口是指用戶不需要借用專用設(shè)備,也無需經(jīng)過學(xué)習(xí)或者經(jīng)過一些簡(jiǎn)單的學(xué)習(xí),由機(jī)器根據(jù)用戶的語(yǔ)音、動(dòng)作、姿態(tài)、腦電波等判斷指令,并執(zhí)行相應(yīng)操作,具有多維度、多感官、智能化的特點(diǎn)。本文將智能耳機(jī)自然用戶接口技術(shù)按照技術(shù)手段劃分為語(yǔ)音識(shí)別、動(dòng)作識(shí)別、腦電波控制三個(gè)分支,并對(duì)這三個(gè)分支的技術(shù)發(fā)展脈絡(luò)做相應(yīng)梳理,同時(shí)擷取各分支的重點(diǎn)專利進(jìn)行分析。
2 語(yǔ)音識(shí)別
2.1 技術(shù)發(fā)展脈絡(luò)
2000年之前涉及語(yǔ)音識(shí)別技術(shù)的專利申請(qǐng)量很少,相關(guān)專利主要集中在通訊通話中,如對(duì)人類語(yǔ)音的簡(jiǎn)單判定及相關(guān)的理論分析等;2000-2013年間,語(yǔ)音識(shí)別技術(shù)得到了極大的發(fā)展,專利申請(qǐng)量較多且呈現(xiàn)較明顯的增長(zhǎng)勢(shì)頭,此時(shí)語(yǔ)音識(shí)別技術(shù)得到人們?cè)絹碓蕉嗟闹匾暋?/p>
圖1列出了語(yǔ)音識(shí)別技術(shù)演進(jìn)路線。可以看出,語(yǔ)音識(shí)別技術(shù)最早的重點(diǎn)專利申請(qǐng)是美國(guó)通用魔術(shù)公司于1999年所提交的授權(quán)公告號(hào)為US6408272B1的申請(qǐng),其涉及一種分布式語(yǔ)音用戶界面,包含能夠接收用戶語(yǔ)音輸入的本地設(shè)備,其對(duì)用戶輸入語(yǔ)音做初步處理以確定自身是否能對(duì)用戶命令進(jìn)行應(yīng)答,如果不能則將語(yǔ)音輸入信號(hào)發(fā)送給遠(yuǎn)程系統(tǒng)做進(jìn)一步處理,該專利給出了早期語(yǔ)音識(shí)別技術(shù)的一個(gè)雛形;此后,各家公司開始積極研發(fā)語(yǔ)音識(shí)別技術(shù),技術(shù)研發(fā)點(diǎn)逐漸覆蓋語(yǔ)音識(shí)別技術(shù)中的語(yǔ)音輸入/輸出、語(yǔ)音數(shù)據(jù)處理、語(yǔ)音軟件產(chǎn)品、語(yǔ)音分析系統(tǒng)以及語(yǔ)音控制等,如美國(guó)電話電報(bào)公司提出的公開號(hào)為US8392188B1的發(fā)明專利申請(qǐng),其主要涉及獨(dú)立語(yǔ)音識(shí)別系統(tǒng)中音位配列模型的建立方法,通過使用電流音位結(jié)構(gòu)模型識(shí)別來自用戶的輸入通信的手機(jī),從所識(shí)別的電話中檢測(cè)詞素(聲學(xué)和/或非聲學(xué)),并輸出所檢測(cè)出的詞素以進(jìn)行處理,進(jìn)一步的,該方法還更新所檢測(cè)的詞素的音位結(jié)構(gòu)模型和下一個(gè)用戶交互期間存在用于由系統(tǒng)中使用的數(shù)據(jù)庫(kù)的新模型。微軟公司提出的公開號(hào)為EP1199712的發(fā)明專利主要涉及語(yǔ)音識(shí)別中的噪聲處理,通過對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行降噪處理,可以更準(zhǔn)確的識(shí)別出語(yǔ)音關(guān)鍵信息,提升了語(yǔ)音識(shí)別的準(zhǔn)確性。
通過對(duì)語(yǔ)音識(shí)別技術(shù)領(lǐng)域重點(diǎn)專利的申請(qǐng)人分析可以發(fā)現(xiàn),該領(lǐng)域的重點(diǎn)專利主要被美國(guó)公司所擁有,我國(guó)語(yǔ)音識(shí)別領(lǐng)域的相關(guān)專利質(zhì)量參差不齊,部分專利內(nèi)容比較簡(jiǎn)單,涉及的技術(shù)點(diǎn)比較單一,保護(hù)范圍較小,與發(fā)達(dá)國(guó)家相比,在技術(shù)上仍然存在著明顯的差距,要真正形成國(guó)產(chǎn)智能耳機(jī)的核心競(jìng)爭(zhēng)能力,還要走很長(zhǎng)的路。
2.2 與語(yǔ)音識(shí)別相關(guān)的重點(diǎn)專利
蘋果公司于2013年3月提出了一件授權(quán)公告號(hào)為US9363596B2,發(fā)明名稱為“使用加速計(jì)檢測(cè)用戶的語(yǔ)音活動(dòng)的系統(tǒng)和方法”的專利,其給出了智能耳機(jī)語(yǔ)音識(shí)別技術(shù)發(fā)展的新思路。
圖2示出了本發(fā)明耳機(jī)的主要結(jié)構(gòu),由圖可以看出,耳機(jī)包含一對(duì)耳塞和耳機(jī)線,用戶可以將耳塞中的一個(gè)或兩者佩戴在耳朵上,耳機(jī)中的麥克風(fēng)接收用戶的語(yǔ)音信號(hào)。這些麥克風(fēng)可以是空氣接口聲音拾取裝置,其將聲音信號(hào)轉(zhuǎn)換為電信號(hào),當(dāng)用戶采用耳機(jī)傳輸其語(yǔ)音時(shí),環(huán)境噪音也可能被傳送。耳塞包含揚(yáng)聲器,用于檢測(cè)運(yùn)動(dòng)的加速計(jì)以及面對(duì)骨膜方向的前部麥克風(fēng)和背對(duì)骨膜方向的后部麥克風(fēng),同時(shí),在與耳塞連接的耳機(jī)線上具有多個(gè)麥克風(fēng),其形成一個(gè)或多個(gè)麥克風(fēng)陣列,耳機(jī)線上的麥克風(fēng)陣列可以用來形成麥克風(fēng)陣列波束,通過增強(qiáng)或減弱選取的麥克風(fēng)以獲得一個(gè)給定方向的波束。通過加入傳感器和麥克風(fēng)進(jìn)行語(yǔ)音智能識(shí)別,以及耳機(jī)中內(nèi)置的多個(gè)傳感器,包括兩個(gè)加速傳感器和麥克風(fēng),這些傳感器將與位于耳機(jī)線上的降噪麥克風(fēng)配合,形成抑制噪音的系統(tǒng),從而在更大程度上提升耳機(jī)的降噪功能。而傳感器作為語(yǔ)音活動(dòng)檢測(cè)器,專門檢測(cè)由用戶所產(chǎn)生的振動(dòng),不論是用戶聲帶產(chǎn)生的“既濁音”,還是不使用聲帶產(chǎn)生的“清音”,傳感器都可以通過組織和骨骼中的振動(dòng)檢測(cè)到。而通過加速計(jì)檢測(cè)到的振動(dòng)數(shù)據(jù),將會(huì)整合到前置和后置麥克風(fēng)中,而從麥克風(fēng)中輸出的信號(hào),將用來識(shí)別“既濁音”和“清音”。
3 動(dòng)作識(shí)別
3.1 技術(shù)發(fā)展脈絡(luò)
借助視覺或運(yùn)動(dòng)感知設(shè)備,用戶本身可以充當(dāng)遙控耳機(jī)的角色,通過不同的動(dòng)作,向耳機(jī)發(fā)出不同的指令。在這種人機(jī)交互模式下,用戶不需要使用額外的設(shè)備來達(dá)到控制目的,通過動(dòng)作的合理設(shè)計(jì),使得用戶對(duì)耳機(jī)的動(dòng)作控制完全符合用戶的習(xí)慣,形成一種符合人類直覺的自然的交互系統(tǒng)。
圖3示出了動(dòng)作識(shí)別技術(shù)演進(jìn)路線。由圖可以看出,動(dòng)作識(shí)別技術(shù)最早的重點(diǎn)專利申請(qǐng)是由美國(guó)人米勒·史蒂芬于2000年所提交的授權(quán)公告號(hào)為US7109970B1的個(gè)人申請(qǐng),其涉及一種使用聲音和手勢(shì)遠(yuǎn)程控制計(jì)算機(jī)和其他電器的設(shè)備,其給出了早期動(dòng)作識(shí)別技術(shù)的一個(gè)雛形;此后,韓國(guó)的三星電子株式會(huì)社于2006年所提交的公開號(hào)為KR20060121784的申請(qǐng)給出了基于手勢(shì)的用戶接口方法和裝置。然而,這個(gè)階段有關(guān)動(dòng)作識(shí)別的精度并不高,在肢體動(dòng)作上停留在靜態(tài)手勢(shì)識(shí)別,且相應(yīng)的硬件處理速度還遠(yuǎn)遠(yuǎn)達(dá)不到要求,加上市場(chǎng)對(duì)于智能耳機(jī)動(dòng)作識(shí)別的互動(dòng)技術(shù)需求不高,導(dǎo)致該領(lǐng)域技術(shù)的發(fā)展在比較長(zhǎng)的一段時(shí)間內(nèi)都處于實(shí)驗(yàn)性階段。2007年,美國(guó)的繽特力公司提出了發(fā)明名稱為“光學(xué)耳機(jī)用戶接口”,授權(quán)公開號(hào)為US7631811B1的專利申請(qǐng),該耳機(jī)在用戶佩戴的外部具有一個(gè)指墊,耳機(jī)還包括一個(gè)光學(xué)掃描儀用來掃描指墊并輸出一系列手指放置在指墊上的連續(xù)圖片,耳機(jī)處理器處理光學(xué)掃描儀的輸出并檢測(cè)手指在指墊上的相對(duì)運(yùn)動(dòng),通過識(shí)別出的手指的運(yùn)動(dòng)以執(zhí)行相應(yīng)的功能;加拿大的行動(dòng)研究有限公司于2010年提出了授權(quán)公開號(hào)為US8405528B2,發(fā)明名稱為基于手勢(shì)的智能耳機(jī)專利申請(qǐng),其也是涉及智能耳機(jī)中的用手勢(shì)控制媒體播放器的技術(shù)。我們可以看到,這一階段動(dòng)作識(shí)別技術(shù)的研究得到了不斷的重視,隨著耳機(jī)功能的不斷豐富和發(fā)展,許多發(fā)明人開始尋求新的耳機(jī)互動(dòng)技術(shù)。到2013年,美國(guó)微軟公司提出了具有姿勢(shì)控制的耳機(jī)(公開號(hào)為TW201511578A),其通過點(diǎn)頭或頭的傾斜,而不是明顯的身體互動(dòng)實(shí)現(xiàn)對(duì)耳機(jī)的控制,通過頭部簡(jiǎn)單動(dòng)作的控制,可以促進(jìn)裝置的隱秘使用以及使用者的隱私;丹麥的奧迪康有限公司提出了用于聽力裝置的體戴式控制設(shè)備(公開號(hào)EP2731356B1),其依靠識(shí)別出的預(yù)定手勢(shì)控制聽力裝置;臺(tái)灣的緯創(chuàng)資通股份有限公司提出了用于穿戴式電子裝置的控制方法(公開號(hào)TW201537390A),該方法包含偵測(cè)手勢(shì)動(dòng)作,并據(jù)以產(chǎn)生偵測(cè)結(jié)果,以及依據(jù)該偵測(cè)結(jié)果控制穿戴式電子裝置執(zhí)行預(yù)定功能及產(chǎn)生提示訊號(hào)。我們可以看到,經(jīng)過前期的技術(shù)積累和市場(chǎng)選擇機(jī)制,智能耳機(jī)中動(dòng)作識(shí)別技術(shù)的一些基本功能已經(jīng)實(shí)現(xiàn),當(dāng)前階段出現(xiàn)了大量改進(jìn)型的專利申請(qǐng),技術(shù)功效集中在用戶體驗(yàn)和可靠性方面。
通過對(duì)動(dòng)作識(shí)別技術(shù)領(lǐng)域重點(diǎn)專利的申請(qǐng)人分析可以發(fā)現(xiàn),該領(lǐng)域的重點(diǎn)專利仍然主要被美國(guó)公司所擁有,我國(guó)動(dòng)作識(shí)別領(lǐng)域的相關(guān)專利仍然存在質(zhì)量參差不齊,專利內(nèi)容比較簡(jiǎn)單,涉及的技術(shù)點(diǎn)比較單一,保護(hù)范圍較小的問題。
3.2 與動(dòng)作識(shí)別技術(shù)相關(guān)的重點(diǎn)專利
奧迪康有限公司于2012年提出了一件公開號(hào)為EP2731356B1,發(fā)明名稱為“用于聽力裝置的體戴式控制設(shè)備”的申請(qǐng),包括殼體并適于依靠識(shí)別出預(yù)定手勢(shì)而控制聽力的裝置,殼體包括安排成與佩戴者的身體區(qū)域電容性耦合的參比電極及包括第一傳感器電極,控制設(shè)備還包括:適于在第一傳感器電極和參比電極之間提供第一電試探信號(hào)的第一信號(hào)發(fā)生器;適于根據(jù)第一傳感器電極和參比電極之間的阻抗確定第一信號(hào)值的第一測(cè)量電路;適于根據(jù)第一信號(hào)值識(shí)別出手勢(shì)的檢測(cè)器;及適于根據(jù)識(shí)別出的手勢(shì)向聽力裝置提供控制命令的控制單元,其中第一信號(hào)發(fā)生器適于在多個(gè)信號(hào)頻率下提供電試探信號(hào);第一測(cè)量電路適于在多個(gè)信號(hào)頻率下確定第一信號(hào)值;及檢測(cè)器適于根據(jù)在不同信號(hào)頻率下確定的第一信號(hào)值之間的比率的變化識(shí)別出手勢(shì)。
相比采用傳統(tǒng)的電容性接觸傳感器對(duì)動(dòng)作進(jìn)行識(shí)別,該專利所采用的動(dòng)作識(shí)別手段有效的減小了耳機(jī)的體積,同時(shí),其有效避免了由于來自環(huán)境溫度和濕度的不可控影響造成用戶界面控制不可靠的弊端。
4 腦電波控制
4.1 技術(shù)發(fā)展脈絡(luò)
相對(duì)于語(yǔ)音識(shí)別和動(dòng)作識(shí)別技術(shù)的較早發(fā)展,智能耳機(jī)中的腦電波控制技術(shù)起步相對(duì)較晚,一方面這是由于人的大腦過于復(fù)雜,人類對(duì)于它的研究還比較初級(jí),另一方面,腦波測(cè)量的困難也成為阻礙技術(shù)進(jìn)一步發(fā)展的重要原因。然而,腦電波控制技術(shù)作為最自然的人機(jī)交互方式,近幾年來,其已成為智能耳機(jī)自然用戶接口技術(shù)中的研究熱點(diǎn)。
圖4示出了腦電波控制技術(shù)演進(jìn)路線。由圖可以看出,腦電波控制技術(shù)最早的重點(diǎn)專利申請(qǐng)是2002年法國(guó)電信公司提出的公開為GB2396421A的申請(qǐng),其涉及一種測(cè)量頭部信號(hào)和面部肌肉運(yùn)動(dòng)的頭戴設(shè)備,通過電極對(duì)頭部信號(hào)采集以實(shí)現(xiàn)對(duì)終端的控制。該申請(qǐng)給出了利用腦電波控制終端的技術(shù)方案,但這一階段腦電波對(duì)終端的控制效果并不可靠;其后,智能耳機(jī)腦電波控制技術(shù)逐漸發(fā)展,相繼出現(xiàn)了通過情感和思維控制的計(jì)算機(jī)(公開號(hào)US2010173271A1),具有生物傳感器的音頻耳機(jī)(公開號(hào)US8271075B2),基于NFC的腦電波β波信號(hào)感應(yīng)藍(lán)牙耳機(jī)(W02016192455A1),用于探測(cè)和控制腦電波信號(hào)的傳感器(公開號(hào)US2012197092A1)等。然而,目前涉及的腦電波控制技術(shù)專利還停留在一些簡(jiǎn)單控制上,由于人腦的復(fù)雜和腦波采集的困難,要實(shí)現(xiàn)真正的智能耳機(jī)意念控制還有很長(zhǎng)的路要走。
4.2 與腦電波控制技術(shù)相關(guān)的重點(diǎn)專利
紐羅斯凱公司于2007年提出了一件公開號(hào)為US2008177197A,發(fā)明名稱為“根據(jù)腦電波信號(hào)處理系統(tǒng)評(píng)估精神狀態(tài)的方法和裝置”的申請(qǐng),其是一種無噪音的便攜式的腦電情緒識(shí)別系統(tǒng),由硬件和軟件組成,能夠高質(zhì)量的估計(jì)腦狀態(tài),腦狀態(tài)的高質(zhì)量信號(hào)能夠被采集用于各種領(lǐng)域的腦機(jī)接口,包括消費(fèi)產(chǎn)品、視頻游戲、玩具、軍事和航天領(lǐng)域。該專利屬于腦機(jī)接口領(lǐng)域的基礎(chǔ)專利,其后紐羅斯凱公司自身開發(fā)的一款意念控制耳機(jī)就采用了這項(xiàng)專利技術(shù),美國(guó)最大的玩具公司美泰公司的Mindflex及后續(xù)產(chǎn)品也均基于這項(xiàng)專利技術(shù)得以實(shí)現(xiàn)。
5 結(jié)束語(yǔ)
本文通過研究智能耳機(jī)自然用戶接口技術(shù)的重點(diǎn)專利,對(duì)所屬領(lǐng)域技術(shù)人員的研發(fā)工作提供了一定的指導(dǎo)。
參考文獻(xiàn):
[1]房廷舜,胡濤,劉有成.基于STM32的智能耳機(jī)控制系統(tǒng)設(shè)計(jì)[J]. 機(jī)械工程師,2017(02):87-88.