崔倩倩 丁園園 鄭 巖 賈 樂(lè)
(1.國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利局專(zhuān)利審查協(xié)作河南中心,河南 鄭州 450000;2.鄭州市軌道交通有限公司,河南 鄭州 450000)
語(yǔ)音識(shí)別的研究工作大約開(kāi)始于50年代,80年代進(jìn)一步走向深入,標(biāo)志是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中的成功應(yīng)用。語(yǔ)音識(shí)別是將人類(lèi)的聲音信號(hào)轉(zhuǎn)化為文字或者指令的過(guò)程。語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支。語(yǔ)音識(shí)別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號(hào)處理、模式識(shí)別、聲學(xué)、語(yǔ)言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域。
電子導(dǎo)航產(chǎn)品,是依托近幾年發(fā)展起來(lái)的新興的全球衛(wèi)星定位系統(tǒng)和地理信息系統(tǒng)的先進(jìn)技術(shù)而誕生的一類(lèi)高科技電子產(chǎn)品。由于該產(chǎn)品基于龐大而復(fù)雜的地理信息系統(tǒng)數(shù)據(jù),具有強(qiáng)大而又復(fù)雜的定位導(dǎo)航功能,包括:電子地圖顯示功能、電子地圖信息查詢(xún)功能、行車(chē)路線演算功能、行車(chē)導(dǎo)航功能、全球定位功能、車(chē)位自動(dòng)校正功能等。同時(shí)由于該市場(chǎng)對(duì)產(chǎn)品的可攜帶性要求,此類(lèi)產(chǎn)品本身尺寸較小,極其有限的人機(jī)交互界面,不能提供良好的人機(jī)交互性能,大大阻礙了此類(lèi)產(chǎn)品在市場(chǎng)上的普及,進(jìn)而也影響了定位導(dǎo)航的市場(chǎng)化,不利于此類(lèi)產(chǎn)品在市場(chǎng)上快速普及。
美國(guó)從上世紀(jì)70年代開(kāi)始研制全球定位系統(tǒng)(Global Positioning System,GPS),于 1994年全面建成的具有海、陸、空全方位實(shí)時(shí)三維導(dǎo)航與定位能力的新一代衛(wèi)星導(dǎo)航與定位系統(tǒng),其具有全天候、高精度、自動(dòng)化、高效益等顯著特點(diǎn),因而在航空攝影測(cè)量、運(yùn)載工具導(dǎo)航和管制等各方面都得到了成功地應(yīng)用。來(lái)自太空的GPS衛(wèi)星24小時(shí)免費(fèi)向全球發(fā)送定位信號(hào),使之成為定位導(dǎo)航應(yīng)用中最方便廉價(jià)的信息源。用戶通過(guò)用戶終端接收GPS衛(wèi)星信號(hào),經(jīng)信號(hào)處理而獲得用戶位置、速度等信息,最終實(shí)現(xiàn)利用GPS進(jìn)行導(dǎo)航和定位的目的。
隨著科技的發(fā)展和社會(huì)的進(jìn)步,在人機(jī)交互中需要一種更加方便自然的方式,語(yǔ)音交互很好地滿足了這種需求。因此,融合語(yǔ)音識(shí)別與導(dǎo)航定位的語(yǔ)音識(shí)別導(dǎo)航技術(shù)開(kāi)始蓬勃發(fā)展,相關(guān)產(chǎn)品也層出不窮,極大地便利了人們的生活。
為了研究語(yǔ)音識(shí)別導(dǎo)航技術(shù)的發(fā)展情況,本文使用利用分類(lèi)號(hào)和關(guān)鍵詞 (例如 “speech recognition”“navigation”“guidance”),通過(guò)在 DWPI數(shù)據(jù)庫(kù)中進(jìn)行檢索來(lái)獲得專(zhuān)利申請(qǐng),以此為樣本進(jìn)行統(tǒng)計(jì)分析,本次檢索的截止日期為2018年5月18日。
圖1 歷年專(zhuān)利申請(qǐng)數(shù)量分布
將以上獲得的專(zhuān)利文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,得到其歷年專(zhuān)利申請(qǐng)數(shù)量的分布趨勢(shì)。從統(tǒng)計(jì)結(jié)果可以看出,相關(guān)申請(qǐng)從1982年開(kāi)始出現(xiàn),國(guó)外從事相關(guān)方面技術(shù)研究較早。由于在1982-1989期間無(wú)論是國(guó)內(nèi)還是國(guó)外都處于專(zhuān)利申請(qǐng)起步階段,全球申請(qǐng)數(shù)量均為個(gè)位數(shù)。因此,本文截取了1990-2017年期間的歷年專(zhuān)利申請(qǐng)數(shù)量的分布趨勢(shì)進(jìn)行研究,如圖1所示。從圖1可以看出,直到20世紀(jì)90年代中期開(kāi)始,中國(guó)開(kāi)始出現(xiàn)語(yǔ)音識(shí)別導(dǎo)航相關(guān)專(zhuān)利申請(qǐng)。從2000年起至2008年,國(guó)內(nèi)相關(guān)專(zhuān)利申請(qǐng)進(jìn)入緩慢增長(zhǎng)期,而國(guó)外相關(guān)專(zhuān)利申請(qǐng)?jiān)?994-2008年已經(jīng)進(jìn)入了相對(duì)快速的增長(zhǎng)期。從2009-2016年,隨著人工智能即自然語(yǔ)言的理解相關(guān)技術(shù)在各方面的發(fā)展與應(yīng)用,以及各國(guó)對(duì)專(zhuān)利布局的重視程度日益增加,基于語(yǔ)音識(shí)別導(dǎo)航方面的專(zhuān)利申請(qǐng)數(shù)量在國(guó)內(nèi)外都迅速增長(zhǎng)。2017年,全球以及中國(guó)的專(zhuān)利申請(qǐng)數(shù)量都有所回落,也體現(xiàn)出語(yǔ)音識(shí)別導(dǎo)航技術(shù)在國(guó)內(nèi)外以及逐漸邁入成熟階段。
圖2為全球?qū)@暾?qǐng)國(guó)別申請(qǐng)量分布圖,從全球?qū)@暾?qǐng)國(guó)別分布可知,基于語(yǔ)音識(shí)別導(dǎo)航技術(shù)相關(guān)專(zhuān)利申請(qǐng)人分布范圍較廣,主要有日本、中國(guó)、美國(guó)、韓國(guó)等。作為互聯(lián)網(wǎng)及通信行業(yè)的傳統(tǒng)強(qiáng)國(guó)如日本、美國(guó),在語(yǔ)音識(shí)別導(dǎo)航相關(guān)領(lǐng)域在國(guó)內(nèi)申請(qǐng)了大量的專(zhuān)利,其中日本依托強(qiáng)大的信息技術(shù)產(chǎn)業(yè),申請(qǐng)量占全球總量的29%,位居第一;我國(guó)近年來(lái)互聯(lián)網(wǎng)技術(shù)不斷迅猛發(fā)展,申請(qǐng)量緊隨日本之后,申請(qǐng)量位居第二,占全球申請(qǐng)量的24%,再次是美國(guó)。
圖2 全球?qū)@暾?qǐng)國(guó)別申請(qǐng)量分布
對(duì)基于語(yǔ)音識(shí)別導(dǎo)航技術(shù)相關(guān)專(zhuān)利申請(qǐng)人進(jìn)行統(tǒng)計(jì)分析,通過(guò)國(guó)內(nèi)外公司在中國(guó)專(zhuān)利申請(qǐng)量的對(duì)比可知,全球主要的申請(qǐng)人主要集中在日本的企業(yè),且國(guó)外相關(guān)企業(yè)具有較高的專(zhuān)利布局意識(shí),在中國(guó)申請(qǐng)了大量專(zhuān)利。全球主要申請(qǐng)人有日本電裝公司、三菱電機(jī)公司、日本汽車(chē)公司、松下電器產(chǎn)業(yè)以及阿爾派株式會(huì)社。在國(guó)內(nèi)有關(guān)語(yǔ)音識(shí)別方面的專(zhuān)利申請(qǐng)以互聯(lián)網(wǎng)公司為主,國(guó)內(nèi)的主要申請(qǐng)人有深圳市賽格導(dǎo)航科技股份有限公司、神達(dá)電腦股份有限公司、廣東翼卡車(chē)聯(lián)網(wǎng)服務(wù)有限公司、國(guó)家電網(wǎng)公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司、中興通訊股份有限公司、青海漢拉信息科技股份有限公司。
最早公開(kāi)的語(yǔ)音識(shí)別在導(dǎo)航方面應(yīng)用相關(guān)的申請(qǐng)主要致力于如何提高對(duì)輸入語(yǔ)音地準(zhǔn)確識(shí)別以及對(duì)語(yǔ)音字的連續(xù)流中的關(guān)鍵字序列進(jìn)行識(shí)別的研究中,主要是側(cè)重于對(duì)輸入形式進(jìn)行改進(jìn),對(duì)于地圖導(dǎo)航界面的顯示并未作出改變,處于初級(jí)階段。公開(kāi)號(hào)為CN1324740A、CN1674091A、CN1841312A的專(zhuān)利申請(qǐng)均是基于拼音字符串的相近匹配度,從中得到最大相近匹配度的源串為語(yǔ)音識(shí)別的結(jié)果字符串即需要查詢(xún)的地理信息名稱(chēng)。之后的發(fā)展對(duì)語(yǔ)音識(shí)別的效果提出了更高的要求,如何使導(dǎo)航可以更容易地理解用戶輸入的語(yǔ)音成為研究的主要方向。公開(kāi)號(hào)為CN101136198A可以檢測(cè)上述說(shuō)話者的視線方向,推測(cè)在該視線方向的視覺(jué)確認(rèn)對(duì)象物,然后選擇與說(shuō)話者發(fā)出的語(yǔ)音相似程度高的識(shí)別候補(bǔ)。CN102324035A把口型輔助語(yǔ)音識(shí)別技術(shù)應(yīng)用在車(chē)載導(dǎo)航系統(tǒng)中,從而提高語(yǔ)音識(shí)別率,盡可能避免駕駛員操作導(dǎo)航設(shè)備時(shí)發(fā)生安全事故。
為了進(jìn)一步降低駕駛車(chē)輛時(shí)的因司機(jī)轉(zhuǎn)移視線而導(dǎo)致的危險(xiǎn),以語(yǔ)音輸出的形式進(jìn)行播放導(dǎo)航路線信息也快速衍生出來(lái)。 公開(kāi)號(hào)為 CN101158584A、CN101196400A都實(shí)現(xiàn)了在行車(chē)過(guò)程中只需通過(guò)駕駛員發(fā)出語(yǔ)音指令即可使導(dǎo)航系統(tǒng)自動(dòng)向目的地導(dǎo)航的目的,最后以語(yǔ)音形式輸出進(jìn)行導(dǎo)航,解放了駕駛員的雙手,大大地方便了駕駛?cè)说牟僮鳌?/p>
語(yǔ)音導(dǎo)航技術(shù)的發(fā)展也逐漸惠及到生活中的各個(gè)方面,如對(duì)有視覺(jué)障礙的特殊人群的輔助導(dǎo)航作用、多功能后視鏡語(yǔ)音智能導(dǎo)航夜視行車(chē)記錄儀等。公開(kāi)號(hào)為CN101799299A、CN102274109A的專(zhuān)利均提出了一種幫助視覺(jué)障礙人士使用的導(dǎo)航設(shè)施和方法,通過(guò)特定的路徑鍵和語(yǔ)音提示幫助用戶輸入起點(diǎn)和終點(diǎn)而后進(jìn)行語(yǔ)音導(dǎo)航。在物聯(lián)網(wǎng)領(lǐng)域可以更及時(shí)方便地整合資源實(shí)現(xiàn)語(yǔ)音現(xiàn)場(chǎng)集群控制能自動(dòng)導(dǎo)航的驅(qū)動(dòng)器的方法。公開(kāi)號(hào)為CN106527156A的專(zhuān)利提供了一種漢語(yǔ)語(yǔ)音現(xiàn)場(chǎng)集群控制能自動(dòng)導(dǎo)航的驅(qū)動(dòng)器的方法,可以實(shí)現(xiàn)漢語(yǔ)語(yǔ)音現(xiàn)場(chǎng)集群控制能自動(dòng)導(dǎo)航的驅(qū)動(dòng)器的方法。
目前,語(yǔ)音識(shí)別導(dǎo)航技術(shù)雖然已經(jīng)發(fā)展得比較成熟,在日常生活與科學(xué)研究中也得到了較好的應(yīng)用。語(yǔ)音導(dǎo)航技術(shù)的發(fā)展過(guò)程主要包括提高語(yǔ)音識(shí)別準(zhǔn)確度、提高輸入輸出接口的用戶體驗(yàn)、發(fā)掘用戶興趣點(diǎn)以及特殊需求等多個(gè)階段方向。但是隨著人們需求的不斷變化,個(gè)性化服務(wù)的呼聲越來(lái)越高,因此,融合用戶各方面需求的語(yǔ)音識(shí)別導(dǎo)航可能繼續(xù)成為日后的研究熱點(diǎn),以更好地滿足人們多樣化、個(gè)性化的需求。