語音識別技術(shù)在上海市軌道交通領(lǐng)域的優(yōu)化和應(yīng)用

2024-07-05 18:41:40錢小毅王衡

管理學(xué)家 2024年12期

錢小毅王衡

了[摘要]語音識別作為人工智能領(lǐng)域重要的組成技術(shù)之一，目前發(fā)展已經(jīng)較為成熟，在諸多領(lǐng)域已經(jīng)有非常廣泛的應(yīng)用。但是，語音識別技術(shù)與軌道交通領(lǐng)域業(yè)務(wù)場景的結(jié)合目前還處在探索階段，基于此，文章以上海市軌道交通業(yè)務(wù)為研究對象，探討了語音識別技術(shù)應(yīng)用在上海市軌道交通各業(yè)務(wù)場景中可能面臨的問題、所需采取的優(yōu)化措施以及未來的發(fā)展趨勢，以供參考。

[關(guān)鍵詞]人工智能；語音識別技術(shù)；軌道交通

中圖分類號：U239.5 文獻標識碼：A 文章編號：1674-1722（2024）12-0013-03

上海市軌道交通運營規(guī)模、用工規(guī)模龐大，業(yè)務(wù)場景繁多，業(yè)務(wù)流程復(fù)雜。語音識別技術(shù)解決的主要問題就是人機語音交互的問題，使機器可以“聽得懂”人類的語音，正確地理解其含義，從而發(fā)揮減輕工作強度、提高工作效率、提升乘客體驗友好度、降低用工成本等作用。

一、人工智能與專業(yè)領(lǐng)域語音識別的相關(guān)概念

（一）人工智能

人工智能是指通過計算機程序或機器模擬、實現(xiàn)人類智能的技術(shù)和方法。它可以讓計算機具有感知、理解、判斷、推理、學(xué)習(xí)、識別、生成和交互等類人智能的能力，從而能夠執(zhí)行各種任務(wù)，甚至超越人類的智能表現(xiàn)。人工智能技術(shù)的核心是機器學(xué)習(xí)和深度學(xué)習(xí)等算法，它們通過大量數(shù)據(jù)和訓(xùn)練，使計算機可以自動發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律，進行模式識別、分類及預(yù)測等操作[ 1 ]。

（二）專業(yè)領(lǐng)域語音識別

1.語言模型自適應(yīng)

通用語音識別系統(tǒng)一般很難在垂直領(lǐng)域直接應(yīng)用，其中的一個重要原因就是不同領(lǐng)域都有著各自的專業(yè)詞匯和使用習(xí)慣，通用的語音識別系統(tǒng)很難覆蓋到該領(lǐng)域的所有專業(yè)詞匯。解決這個問題需要定制語言模型，收集一定量的領(lǐng)域語料，可以對語言模型進行自適應(yīng)訓(xùn)練，使得定制后的語言模型能夠表達該領(lǐng)域的語言現(xiàn)象，提高該領(lǐng)域內(nèi)語音識別的識別率[ 2 ]。

2.聲學(xué)模型自適應(yīng)

語音識別建模需要對語音信號和文字內(nèi)容間的關(guān)系進行建模，體現(xiàn)在聲學(xué)模型上，要求語音信號能夠盡可能真實反映地內(nèi)容信息。為提高語音識別率，要克服語音信號多樣性的弊端，包括說話人的多樣性（說話人的語速、口音等）、環(huán)境的多樣性等[ 3 ]。

二、語音識別現(xiàn)有技術(shù)的挑戰(zhàn)

（一）噪聲和環(huán)境干擾

在實際應(yīng)用中，語音識別技術(shù)面臨著諸多挑戰(zhàn)，其中之一便是噪聲和環(huán)境干擾。例如在車站站廳有來源眾多的噪聲，乘客間的對話聲、行李拖行聲、喇叭廣播聲等。噪聲能夠改變語音信號的頻譜特征，使得語音識別系統(tǒng)難以準確地提取和識別關(guān)鍵的語音特征。背景噪聲可能掩蓋了語音信號中細微的特征，導(dǎo)致錯誤的識別結(jié)果或識別率降低[ 4 ]。環(huán)境干擾會對語音識別系統(tǒng)的準確性產(chǎn)生影響。不同環(huán)境條件下存在各異的聲學(xué)特性，如房間大小、形狀以及吸聲材料等因素，麥克風(fēng)位置和質(zhì)量等因素也會對錄入到系統(tǒng)中的語音信號產(chǎn)生影響。這些環(huán)境相關(guān)因素增加了額外的語音變異和不確定性，從而增加了語音識別系統(tǒng)處理的復(fù)雜性。

（二）口音和方言

地區(qū)之間明顯的口音和方言差異，也給語音識別系統(tǒng)造成了一定程度上的干擾。一方面，口音和方言的多樣化使語音信號變得更加復(fù)雜。例如，同一種漢語發(fā)音在上海話和普通話中的發(fā)音就不同，比如“人”在普通話里發(fā)音為“ren”（二聲），在上海話里發(fā)音是“ning”（二聲）。此外，還有一些特殊的發(fā)音形式，會出現(xiàn)如連讀、省略等情況。所有這些問題都可能導(dǎo)致語音識別系統(tǒng)的錯誤率相應(yīng)增高，都需要通過對算法進行專門的大量訓(xùn)練和處理才能正確識別出來。另一方面，口音和方言的巨大差異也直接影響到語音數(shù)據(jù)庫的建立。目前市面上的語音識別系統(tǒng)主要基于機器學(xué)習(xí)模型，需要大量標注好的語音數(shù)據(jù)集進行訓(xùn)練。由于每個地區(qū)的口音和方言都不同，需要收集并標記足夠多的當?shù)卣Z音數(shù)據(jù)才能保證訓(xùn)練效果；否則，語音識別模型無法充分利用當?shù)氐恼Z音特點，導(dǎo)致識別結(jié)果不準確。

（三）詞匯和語言模型的限制

詞匯和語言模型的限制涉及詞匯量的覆蓋范圍、詞匯的歧義性以及語言模型的上下文理解能力等方面?，F(xiàn)有的語音識別系統(tǒng)需要建立龐大的詞匯表，以便準確地識別和理解說話者的語音輸入。但在實際落地的應(yīng)用中存在大量專業(yè)術(shù)語、新詞和方言詞匯等，這些詞匯可能不在詞匯表中，導(dǎo)致識別錯誤或無法識別的情況。在語音識別過程中，如何處理詞匯的歧義性是一項非常重要的任務(wù)。由于某些詞匯在不同上下文中的發(fā)音非常接近甚至完全相同，這可能導(dǎo)致語音識別系統(tǒng)產(chǎn)生錯誤。以“紅”和“洪”為例，在普通話發(fā)音上完全一樣，如果沒有足夠的上下文信息，語音識別系統(tǒng)可能無法正確區(qū)分它們。語言模型的上下文理解能力也是一個挑戰(zhàn)。語音識別系統(tǒng)需要能夠理解和解釋說話者的意圖和語境，以便正確地識別和轉(zhuǎn)化語音輸入，但由于語言的復(fù)雜性，其中包含的豐富的上下文信息、語法規(guī)則和語義關(guān)系等，使得系統(tǒng)很難正確理解每句話的真實含義。

三、語音識別技術(shù)的優(yōu)化措施

（一）數(shù)據(jù)增強

數(shù)據(jù)增強是優(yōu)化語音識別技術(shù)的重要方法之一。在語音識別模型的訓(xùn)練過程中，數(shù)據(jù)的質(zhì)量和數(shù)量對模型的性能甚至起著決定性作用。通過對原始語音數(shù)據(jù)進行變換和擴充，數(shù)據(jù)增強可以生成更多多樣化的訓(xùn)練樣本，提高模型的魯棒性和泛化能力。

常見的數(shù)據(jù)增強方法包括速度變換、音頻剪輯、添加噪聲和語音增幅。借助數(shù)據(jù)增強可以提供更多多樣性的訓(xùn)練數(shù)據(jù)，改善模型性能；可以減少模型在未曾見過示例上的過擬合問題，提升其泛化能力；通過引入不同義項、說話速度及背景噪聲等因素，數(shù)據(jù)增強使得模型對各種環(huán)境和語音特征具備更好的適應(yīng)性，能提高模型在嘈雜環(huán)境下的語音識別準確性。另外，在進行數(shù)據(jù)增強時，要注意維持數(shù)據(jù)的真實性和可靠性。過分變換和大量添加噪聲可能導(dǎo)致生成樣本與真實語音差異過大，進而降低模型性能。在進行數(shù)據(jù)增強時，要根據(jù)實際場景和應(yīng)用需求合理控制和選擇方法，確保生成樣本與實際應(yīng)用場景保持一定的一致性。

（二）聲學(xué)建模

聲學(xué)建模是優(yōu)化語音識別技術(shù)的重要方法之一，它在語音識別任務(wù)中起著關(guān)鍵作用，能夠?qū)⒄Z音信號與相應(yīng)的文本進行對齊和匹配。聲學(xué)建模的目標是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)聲學(xué)模型的參數(shù)，準確估計語音信號的特征和文本之間的對應(yīng)關(guān)系。深度學(xué)習(xí)模型如循環(huán)神經(jīng)網(wǎng)絡(luò)（RNNs）和卷積神經(jīng)網(wǎng)絡(luò)（CNNs）相比傳統(tǒng)聲學(xué)建模領(lǐng)域常使用的高斯混合模型（GMMs）和隱馬爾可夫模型（HMMs），可以更好地學(xué)習(xí)語音信號的時域和頻域特征，增強模型對聲音的識別能力。采用深度學(xué)習(xí)模型，可以改善聲學(xué)建模過程，提高模型的準確性和魯棒性。除了選擇合適的建模方法之外，優(yōu)化聲學(xué)建模還涉及訓(xùn)練數(shù)據(jù)的準備和選擇。

合理選擇訓(xùn)練數(shù)據(jù)對于聲學(xué)建模非常重要。通常需要使用來自不同說話人和多種環(huán)境條件下的語音樣本進行訓(xùn)練，提高模型在不同情況下的適應(yīng)性和泛化能力。此外，數(shù)據(jù)清洗、去噪和標注也是關(guān)鍵步驟，可以提高模型對干擾、噪聲和誤標注的一致性。

（三）語言模型

語言模型在優(yōu)化語音識別任務(wù)中起著重要作用。它主要提供了語音信號解碼所需的上下文信息，提高識別準確性并消除歧義。該模型基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)句子的概率分布和語言規(guī)律，使得系統(tǒng)能夠根據(jù)其指導(dǎo)選擇最可能的識別結(jié)果。針對語音識別任務(wù)，常用的語言模型包括n-gram模型和神經(jīng)網(wǎng)絡(luò)通用的神經(jīng)語言模型（NLM）。n-gram模型利用訓(xùn)練數(shù)據(jù)中單詞頻率和出現(xiàn)概率進行參數(shù)估計。與之不同的是，神經(jīng)語言模型利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語言模型參數(shù)，可以對長期依賴和復(fù)雜的語言結(jié)構(gòu)進行建模。引入語言模型后，識別系統(tǒng)能夠考慮到上下文信息，有助于更好地理解和糾正識別錯誤。語言模型可以消除或減輕發(fā)音相似或混淆的詞、短語或句子造成的歧義，提高最終的識別準確性。

四、語音識別技術(shù)的未來發(fā)展趨勢及應(yīng)用場景

（一）發(fā)展趨勢

1.增強學(xué)習(xí)

增強學(xué)習(xí)被認為是語音識別技術(shù)未來發(fā)展的趨勢之一。它是一種機器學(xué)習(xí)方法，通過與環(huán)境的互動，學(xué)習(xí)最佳行為策略，可以用于優(yōu)化模型性能。借助增強學(xué)習(xí)，語音識別系統(tǒng)能夠與環(huán)境不斷交互，根據(jù)反饋信號調(diào)整模型參數(shù)，提高識別準確率，有助于系統(tǒng)自動學(xué)習(xí)和適應(yīng)不同的語音特征、噪聲環(huán)境和說話風(fēng)格。多模態(tài)語音識別是另一個發(fā)展趨勢，它結(jié)合了語音和其他傳感器數(shù)據(jù)，可以利用說話者面部表情、手勢和其他身體語言信息輔助語音識別，更準確地理解說話者意圖。

2.上下文感知

未來，語音識別技術(shù)將注重上下文感知，利用語音輸入的上下文信息，提高識別準確性和語義理解能力?？梢圆捎枚鄬哟蔚恼Z音識別模型。例如，在識別單個詞匯時結(jié)合前后文信息提高準確率。此外，可考慮用戶對話歷史、個人資料及環(huán)境背景等多種因素綜合考慮實現(xiàn)上下文感知。這樣的系統(tǒng)能更好地理解用戶意圖和上下文，提供更準確、個性化的語音識別結(jié)果。同時，上下文感知可以與其他技術(shù)如自然語言處理和機器學(xué)習(xí)相結(jié)合。通過融合自然語言處理技術(shù)，系統(tǒng)能更好地理解和闡釋輸入語音的含義；機器學(xué)習(xí)方法有助于從大量的數(shù)據(jù)中學(xué)習(xí)到關(guān)于上下文信息的模式和規(guī)律，進一步提高識別的準確性。

3.跨語種和跨方言識別

傳統(tǒng)的語音識別系統(tǒng)通常是針對特定語種和方言進行訓(xùn)練和優(yōu)化的，對于其他語種和方言的識別準確率較低?？缯Z種和跨方言識別的實現(xiàn)面臨一些挑戰(zhàn)，如不同語音特征、發(fā)音習(xí)慣和語法結(jié)構(gòu)的差異。為了應(yīng)對這些挑戰(zhàn)，需要使用更大規(guī)模的多語種數(shù)據(jù)集進行訓(xùn)練，開發(fā)更強大的跨語種模型。這些模型將能夠?qū)W習(xí)到更廣泛的語音特征和語言規(guī)律，提高跨語種和跨方言的識別準確率。另外，跨語種和跨方言識別需要考慮到不同語言和方言之間的語義和文化差異，這意味著系統(tǒng)需要具備跨文化的理解能力，準確理解和解釋不同語言和方言中隱含的意義和文化背景。

（二）應(yīng)用場景

1.乘客服務(wù)

參考目前上海市及其他城市的軌道交通行業(yè)已經(jīng)實際落地的項目中的應(yīng)用，語音識別在乘客服務(wù)領(lǐng)域?qū)碛幸韵聨状髴?yīng)用場景。

一是語音購票。上海市地鐵現(xiàn)有的購票機僅支持傳統(tǒng)的觸控操作，其科技性已遠遠落后于上海市“國際化大都市”的定位。觸控操作的方式容易引發(fā)交叉感染，引發(fā)乘客的不安情緒。在購票設(shè)備中添加語音識別模塊，支持語音識別的方式購票，可提升乘客在購票環(huán)節(jié)的安全感，降低交叉感染的風(fēng)險，可以提升乘客購票體驗。

二是智能客服。目前上海市軌道交通行業(yè)各個車站面向乘客服務(wù)的服務(wù)主體依然是客服中心的客服工作人員，一個站點少則設(shè)立1至2個客服中心，多的如人民廣場站客服中心的數(shù)量達到了5個，每個客服中心都要有至少1個工作人員駐守，在一定程度上增加了企業(yè)的用工成本。如果由智能化設(shè)備為乘客提供異常票卡處理、出入口信息問詢、換乘信息問詢、站內(nèi)設(shè)施信息問詢等服務(wù)，將在最大程度上減少人工客服中心的數(shù)量，節(jié)省大量用工成本。

2.實時轉(zhuǎn)寫

在上海市軌道交通的各個業(yè)務(wù)處置過程中，存在大量人工溝通交流類的工作，此工作中留痕的主要方式是對通話內(nèi)容進行錄音，但該方法存在一定的局限性。如站務(wù)人員與乘客的溝通內(nèi)容就很難進行錄音保存，哪怕保存了，在事后也因為數(shù)據(jù)量過于龐大，難以進行有效監(jiān)督和檢查。在溝通過程中可以引入語音識別技術(shù)，采用電子工牌的方式，將對話除了錄音外，還同時進行轉(zhuǎn)寫，以文字形式保存對話內(nèi)容，并與錄音文件關(guān)聯(lián)保存。

3.表單自動化

表單信息的錄入需要在雙方溝通清楚相關(guān)內(nèi)容后，再由工作人員手工轉(zhuǎn)錄進相關(guān)表單中，相當于對表單內(nèi)容進行重復(fù)確認，且手動錄入效率相對較低。如果引入語音識別系統(tǒng)，在雙方溝通的同時就能檢測溝通內(nèi)容，當檢測到關(guān)鍵信息時自動觸發(fā)相關(guān)表單的填寫，雙方信息交換完成后，表單填寫完成，工作人員無需再對表單進行手動錄入。

五、結(jié)語

語音識別技術(shù)在人工智能領(lǐng)域扮演著重要角色，在多個應(yīng)用領(lǐng)域展現(xiàn)出巨大潛力。未來，語音識別技術(shù)將繼續(xù)發(fā)展，在軌道交通領(lǐng)域的可落地場景將越來越豐富，系統(tǒng)能夠自我優(yōu)化，實現(xiàn)更智能的交互，跨語種和跨方言識別的研究將推動語音識別技術(shù)在全球范圍內(nèi)的應(yīng)用，為人們帶來更便捷、高效的語音交互體驗和軌道交通的乘坐體驗。

參考文獻：

[1]唐寶威.復(fù)雜場景下語音識別技術(shù)的研究與應(yīng)用[D].安徽大學(xué)，2022.

[2]蔣竺芳.端到端自動語音識別技術(shù)研究[D].北京郵電大學(xué)，2019.

[3]高雪.語音識別技術(shù)在人機交互中的應(yīng)用研究[D].北方工業(yè)大學(xué)，2017.

[4]劉方洲.語音識別關(guān)鍵技術(shù)及其改進算法研究[D].長安大學(xué)，2014.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語音識別技術(shù)在上海市軌道交通領(lǐng)域的優(yōu)化和應(yīng)用

一、人工智能與專業(yè)領(lǐng)域語音識別的相關(guān)概念

二、語音識別現(xiàn)有技術(shù)的挑戰(zhàn)

三、語音識別技術(shù)的優(yōu)化措施