劉 洋
【內容提要】智能語音技術力圖真實模擬并還原人類的語音識別與語言表達,但是在溝通的過程中,卻很難真正地實現(xiàn)心靈相抵,受眾無法獲得理想的審美體驗的滿足。我們生而為人,不會被智能機器所取代的核心本領,就是可以通過獨有的發(fā)音器官和多元化的表達方式,賦予人際溝通以“情感感受”的觀照。個性化的、獨立化的有聲語言表達藝術與飛速發(fā)展的智能語言技術可以各取所長,互補其短。
在信息時代,每一輪社會革新所需的時間正被日益鼎新的技術極大地縮減。如今,全世界又迎來了一個嶄新的人工智能時代,人類的價值又將重新被定義,人類的工作也將面對智能機器人的挑戰(zhàn)。
人工智能技術一直致力于模擬、延伸和拓展人的智能,其不斷創(chuàng)新的種種努力,都是為了讓機器更加相似于人類,具備人類的各項能力,甚至在具體領域更加優(yōu)秀于人類。其中,不斷突破技術難點的智能語音系統(tǒng),正竭力地模擬人類的語音識別與有聲語言表達,機器逐步掌握了聽音辨意、對答如流的能力,這在不斷接近、漸趨近似人類行為的科學進程中,則顯得最為真實,而又令人生畏。作為人工智能應用中較為成熟的技術,智能語音技術包括語音識別技術(ASR)、語音合成技術(TTS)等,是實現(xiàn)人機互通的嶄新領域。它從發(fā)展到成熟,不過用了短短60多年的時間,目前已被廣泛應用于智能車載、智能電器、智能穿戴、智能管家、虛擬助理等諸多領域。
2016年美國CBS電視節(jié)目主持人查理·羅斯(Charlie Rose)在一檔人工智能節(jié)目中采訪了名為“索菲婭(Sophia)”的高智能機器人,作為語音識別技術的經典作品,索菲婭伶牙俐齒、侃侃而談的從容狀態(tài),令大眾為之一驚。2017年,Sophia又加入了《早安英國》的節(jié)目組,在“她”的發(fā)明人David Hanson博士的陪同下,成為了“新晉主播”。同年10月,沙特阿拉伯授予Sophia公民身份,作為歷史上首個獲得公民身份的機器人,Sophia表示:“If you are nice to me and I will be nice to you”(人不犯我,我不犯人)。
值得一提的是,近來,我國自主研發(fā)的智能機器人“小聰”也成為了嘉賓主持,并站在了浙江衛(wèi)視《E眼看兩會》的節(jié)目現(xiàn)場,它用流暢的語言回答了不少主持人的提問,同時運用靈活的肢體動作進行了交流互動。
盡管在目前的智能語音服務系統(tǒng)中語音識別率可以高達96%,但在接近人類的“傾聽”與“表達”的層面,卻很難在真正意義上實現(xiàn)與人類的交心溝通。程序員努力讓程序“假裝”聽得懂人類的語言,工程師努力讓機器做出近似人聲的仿真表達,仿佛實現(xiàn)了人機交互,人們或許會在聽筒前、屏幕外驚嘆于如此逼真的科技水平,然而可悲的是,話筒中、屏幕內以二進制數(shù)字(0和1)構成的機器語言卻表現(xiàn)得呆板生硬、毫無感情,在受眾的感覺中是陌生的、隔閡的、冷漠的,容易使人產生排斥心理??梢姡删帉懘a所賦予的程序,并不能帶給受眾理想的聽覺體驗。語音識別系統(tǒng)可以追隨技術不斷翻新,但是智能語音表達系統(tǒng)卻發(fā)展緩慢,目前也僅僅停留在對于智能化語音的模擬階段,而這又是為什么呢?
人類發(fā)展史上的每一次發(fā)明創(chuàng)造,都是在為“人”這個對象而服務,智能的機器可以生產出優(yōu)質的產品,但是卻生產不出本真的情感;智能的機器可以簡化繁冗的工序,但是卻不能簡化內在的語境;智能的機器可以豐富娛樂方式,但是卻無法豐富心靈深處;智能的機器可以日夜不停地傾聽客戶的愁緒,但是卻無法一語中的地開解人性的煩憂。聲波的傳播本質是一種能量在介質中的傳遞,可是人類在信息互通的過程中所融入的卻是微妙的情感感受。人耳所接收到的不應單單只是字音信息,更應蘊含著豐富的內心感受,如是,人類才能借此體悟到思想、意志、情愫和美感。人工智能技術基于一種數(shù)學層面的算法,而數(shù)學卻是最為講求邏輯的學科,可是,并不是所有的東西都需要借助數(shù)學的運算,諸如:想象力,就是站在邏輯的反面。想象力的激發(fā)與創(chuàng)造,并不需要人工智能技術,而反倒是聽覺系統(tǒng)更加能夠激發(fā)和培養(yǎng)人類的想象力。從一定意義上來說,通過耳朵接收到的信息所產生的情感效能與創(chuàng)造的思維價值是優(yōu)于其他感官的,故此,對于聽覺體驗的滿足更顯得尤為重要。
語音助手的智能人工化,使得人們更愿意以同“人”一樣的方式與其互動交流。但是工程師無法賦予程序以“情感感受的觀照”,這是智能語音技術中所最為缺失的審美元素。依托了大數(shù)據(jù)分析的語音助手“忠實”地將與用戶溝通的“經驗”記錄在案并提供貼合需求、偏好、習慣的服務,但這畢竟只是一種機械化迎合、標注化作業(yè),只是人工智能為自己積累的數(shù)據(jù),只是它用來豐富算法的案例。與之不同的是,有聲語言表達藝術的創(chuàng)作主體卻是在以個性化的獨立思考和飽滿充沛的情感感受,與客體進行著心貼心的交流,其所通往的精神世界也更為瑰麗而廣闊。
智能化的設備可以在最大程度上輔助并促進人類社會的發(fā)展,但是,我們終究不會被機器所取代的核心競爭力,也就是人類的終極本領——人可以通過情感化觀照完成與同類親密無間的、精神個性化的、互為歸屬的、無比依戀的和諧溝通!舒婷在《神女峰》中提及:“與其在懸崖上展覽千年,不如在愛人肩頭痛哭一晚”,由此足以看出,在人與人的溝通中,情感浸潤的偉力。對于彼此情緒的感受、體悟、洞悉直接影響著情感化的表達,這成為人類所獨有的復雜微妙的無可匹敵的超凡能力!得益于與生俱來和后天培養(yǎng)的雙重作用,這種體察與表達的行為,發(fā)端于大腦、轉化于唇舌、接收于聽感、作用于心理,使得“人”與“人”之間的溝通成為世間最為和諧、美妙、有效的信息傳受方式。
迄今為止,宇宙中已知的最為復雜的事物不是超人工智能(SuperAI),而是人類的大腦,人們對于數(shù)十萬光年之外的星體的了解都要遠遠多于對人類大腦皮層細胞的認知,盡管腦科學、神經學、心理學已經相當完備。正因具有數(shù)百億個神經元的人腦的復雜性,使得科學家們嘗試通過逆向工程,以大腦的思考方式為研究切入點,進而推動機器智能的向前發(fā)展。人們依照大腦神經網(wǎng)絡的結構,一層一層地輸入數(shù)據(jù),由簡單至復雜,再輸出結果,在算法的不斷優(yōu)化之后,以“AlphaGo”為代表的新興技術獲得成功,神經網(wǎng)絡與蒙特卡洛樹(MCTS)搜索算法得以有效結合。
但同時值得關注的是,亞馬遜基于AI技術推出了一款語音助手“Alexa”,而且要比iPhone里面的Siri更加智能,它可以幫客戶播放歌曲、播報新聞、購買東西、控制智能家用設備,一經推出,曾經備受好評。然而近期,全世界的Alexa會突然毫無預警地在沒有任何指令的情況下,詭異地大笑起來,網(wǎng)絡上充斥著客戶們對于恐怖經歷的描述。這種由人工智能操控著的詭異的機械音的笑聲,非但沒有帶給人們愉快的聽覺享受,反而引發(fā)了更多對于機器人反噬人類的擔憂。
由此可見,再高級的智能語音系統(tǒng),也僅僅是類人化的表達途徑,并無法帶給人們真正舒心的情感體驗。而我們要從溝通中所獲得的審美享受,實則是得益于一種人腦復雜的、與智能機器不盡相同的學習模式,這種頗獨特的、無監(jiān)督的、非干預的學習模式是人類優(yōu)于人工智能的關鍵所在。我們在孩提時代通過同類的引導和訓練,利用后續(xù)的幾十年生命,在成長的過程中以觀察、發(fā)現(xiàn)、體悟、融匯的多元方式,自發(fā)而主動地將少量的經驗不斷累積增長,將外部的“知識”轉化為自身的“智慧”,將對于傳播對象的情感觀照與自我的情感體驗浸潤合一后,有效凝結成有聲語言表達行為,完美實現(xiàn)信息從信源到信宿的傳播過程,將心比心地把傳受雙方的情感體驗升華到最佳程度。
客戶服務的話務員、同聲傳譯的翻譯員、在線解答的咨詢員、旅游景點或博物館的講解員、遠程維護的技術員等諸多職位的員工,正在備受智能語音系統(tǒng)的沖擊與挑戰(zhàn),在目前的競爭環(huán)境下,雖然處理事務、介紹情況、答疑解惑的效率提高了,但是很多核心性的問題并沒有得到根本性解決。以話務工作中的某個流程為例:做好電話咨詢的服務重點在于切實搞懂接聽客戶的實質性需求,而因為涉及到信息隱私、資金安全、個性化偏好等問題,使得部分客戶的陳述性話語中蘊含了大量的內在語境和弦外之音,這些都是目前的智能語音服務系統(tǒng)所無法獨立判斷、捕捉和識別出來的。在這種情況下,更需要的是有著個體經歷、從業(yè)經驗的話務人員,及時地止停、留白、傾聽,有效地提問、引導、分析,進而揣摩到客戶的核心性心理訴求,通過換位思考后與其保持同一立場(甚至是給足面子),采用經過情感浸潤的、帶有適時語氣的話術,最終將問題亦或客怨徹底解決、消除。
正是基于人與人之間的共識性文化、共同的語境、相近的情感知覺,才使得人施于人的語言表達更為貼切而有溫度,對象的需求被摸準、響應被滿足、情感體驗被關照,傳受雙方的信任感便大幅增強。這種良好的情感體驗,將在我們內心深處留下深深的烙印,進而潛移默化地形成一種審美知覺模式,這種知覺模式會培養(yǎng)出人們對于在歲月的流淌中所搭建起來的和諧的溝通關系更為強烈的、主觀性的好感與依賴。
在充滿親和性的溝通過程中,主要是人腦中自然而然地產生的情感起著決定性的作用。各種價值特殊、屬性迥異的外部事物所帶來的刺激信息,分別通過不同的感覺器官、感知系統(tǒng)反映并作用于人腦當中,使人形成了對于該事物獨特性、差異化的認知,加之對前期記憶的追溯與經驗性匯總后,伴隨激發(fā)形成了一種特定的感受形式:即為情感。對應著視覺、聽覺、嗅覺、觸覺和味覺這五種感受,是在人類獨特的、無監(jiān)督、非干預的學習模式中起至關重要作用的五大類感覺器官,即眼睛、耳朵、鼻子、皮膚和舌頭。
常言道,傾訴是春天的播種,傾聽是秋天的豐收。在人與人進行信息交互的環(huán)節(jié)中,情感作用于內心,唇舌表情達意,耳朵接收聲波,大腦處理信息。盡管我們的感知系統(tǒng)是一個有機融合的整體,但是在各種感官中,完整的聽覺通路更顯獨立,人類通過耳朵不僅可以感知震動、判斷屬性,而且還可以體察到心靈的距離。由于相對近似的生命體驗、教育習得、存在環(huán)境、生活經歷等因素的影響,使得同類間的觀照更顯深入,交流更加順暢,溝通效果更為理想。
盡管網(wǎng)絡覆蓋下的都市生活節(jié)奏急促,使得人們在不斷封閉自我的同時對于情感性表達產生極度的忽略與漠視,情感能力在現(xiàn)實中所起的作用一度被低估,但是作為真核生物域動物界脊索動物門哺乳綱靈長目人科人屬智人種的人類,無論如何進化都不會陷入一種情感冷漠的認知結構之中。對于處在困苦(甚或危險)情境下的同類的憐愛、同情與關照,是每一個人與生俱來的本能。高度發(fā)達的神經系統(tǒng)是在人體內起主導作用的功能調節(jié)系統(tǒng),其中的神經元接受刺激、產生興奮、傳導興奮,各器官密切配合、相互聯(lián)動,從而使完整統(tǒng)一的有機體完成“感受”與“抒發(fā)”的活動。人類學與考古學已有的發(fā)現(xiàn)足以證明,具備充沛情感感受(emotional feelings)的超凡能力,是大腦皮層(人類神經系統(tǒng)中調節(jié)控制的最高中樞)經過了30萬年進化的結果。情感感受是價值特性在大腦中的主觀反映,而這一特殊能力,卻是智能機器乃至其它生物所無法具備的(諸如它們看見同類被殘害、屠殺時不會產生情感反應)。誠然,在時下的生活中,感恩、愧疚、純善、憐憫、悲愴、敬畏、扼腕、義憤等等復雜而強烈的情感波動發(fā)生的概率在不斷降低,但細究原因之后不難發(fā)現(xiàn),正是因為新興技術推動下的表達方式的數(shù)字化、網(wǎng)絡化和語言形式的圖片化、符號化,削弱了人們的情感感受能力,這就使得情感化的有聲語言表達成為了一種稀缺品。情感缺失,是必須引起重視并亟待解決的嚴重癥結,只有深入分絲析縷、積極調動情感、盡力彌補所缺才能保證人類超凡的能力不再遭受侵蝕。心理學家阿德勒強調:“心理在行為的過程中起著重要性的作用。”正所謂上善若水,蘊含著細膩情感感受的有聲語言表達,便是防止人心沙漠化的一捧清水。庫克就曾指出:我并不擔心機器會像人類一般思考,我最擔心人類像機器一般思考。其中之意,發(fā)人沉思。
智能語音系統(tǒng)的邏輯算法與人類的情感產生機制是不同的。通過機器學習、數(shù)據(jù)挖掘算法、聲音傳感、語音識別、語義理解、語音合成、語音知識數(shù)據(jù)庫的云端支持等多項技術的共同發(fā)力,使得智能語音助手完成從被人喚醒、到清晰感知、再到準確表達的全過程。雖然人工智能技術可以通過研究人類智能活動的規(guī)律,進行抽絲剝繭的有效分析,從而構造出具備相對智能的人工系統(tǒng),但是,無論如何依托大數(shù)據(jù)與云計算,目前的計算機都無法運算出“意識”(consciousness)、“自我”(self)、“思維”(mind)與“感知”(perception)。古希臘奧林匹斯山上的德爾菲神廟門楣上鐫刻著一句話:“人??!認識你自己”,蘇格拉底將此話視為自己哲學立場的宣言;與其同一時期的曾子亦提出“吾日三省吾身”;當代美國知名的腦神經學家吉姆·法倫(JimFallon)也認為:“人的大腦結構中屬于額葉部分的眼窩皮層是涉及社會倫理認知功能的關鍵器官”。雖已逝去千年,人類對于自身思辨與探索的腳步卻從未曾停息。責任肩負、情緒控制、動機把握、社交需求、價值實現(xiàn),這些要素都作用于人與同類之間相互溝通的內在認知系統(tǒng),由此可見,交融著情感的表達與對其的感知,是一個非常復雜而又值得細究的信息傳受過程。
繁冗的、海量的事務可以被智能化的機器代為完成,可是將心比心地去進行情感化溝通的工作卻無法被代為完成;體力甚或腦力的工作可以被智能化的機器代為完成,可是與人類心靈相抵的口語化表達卻無法被代為完成;流程化、模式化、重復化的工作可以由智能化的機器代為完成,可是針對差異性個體的、直至內心的、創(chuàng)造性的、變化性的、互動性的深入交流,還需要人類自身去親力親為。
因此,要嘗試著將審美因素注入人工智能語音之中,使之具有人類親和性。而要注入審美因素,就需要對人聲語言有深入而準確的把握。
辛棄疾“八百里分麾下炙,五十弦翻塞外聲”的豪放,李白“我歌月徘徊,我舞影零亂”的浪漫,李商隱“滄海月明珠有淚,藍田日暖玉生煙”的悱惻,蘇軾“回首向來蕭瑟處,歸去,也無風雨也無晴”的曠達,李清照“花開花落花無悔,緣來緣去緣如水”的婉約,莎士比亞“不速之客只在告辭以后才最受歡迎”的諷刺,人類之所以能將這百般體味融入豐富的語言鏈條,進而在有聲語言表達藝術中靈活自如地抒發(fā)充沛的情感感受,這完全是得益于我們獨有的發(fā)音器官和多元化的表達方式。
根據(jù)在發(fā)音過程中所起的不同作用,可以將發(fā)音器官分為以下三個部分:1、動力部分——主要包括肺葉、橫膈肌、胸廓、氣管和支氣管。氣動則聲發(fā),這部分所產生的氣息為聲音的發(fā)出提供了支持性的動力基礎,發(fā)音時用力大,從肺部呼出的氣體通過氣管和支氣管后,對聲帶產生的沖擊則會增大,音波的振動幅度增大,聲音就變強,反之就變弱,可以運用對于氣息的控制形成人聲錯落有致的強弱變化;2、發(fā)聲部分——主要包括咽喉和聲帶。聲帶又稱聲襞,是位于喉頭中部的兩片彈性大的瓷白色小薄膜。氣流涌出所引發(fā)的聲帶振動,為發(fā)聲提供了音質素材,聲帶短、薄、緊,發(fā)音時音頻就大,聲音就高,反之就低,可以通過聲音的彈性變化來增強語言的表現(xiàn)力;3、咬字部分——主要包括喉部以上各器官組織:唇、齒、舌、顴肌、軟腭、小舌等,通過完成開、合、提、打、挺、松等動作,形成雙唇音、唇齒音、舌尖音、舌面音、舌根音等發(fā)音,實現(xiàn)出字、立字、歸音,靈活駕馭各個器官的協(xié)調配合,可以有效提升聲音質量與表達狀態(tài)。
人們聽到的語音片段中都具有四個感覺特性,即音長、音強、音色和音高。音長指的是聲波振動持續(xù)時間的久暫,表現(xiàn)為聲音動程的長短,在漢語和英語的一些語句中音長可以起到區(qū)別意義的作用;音強是指聲波振幅的大小,聲音的強弱與聲波振幅的大小成正比,0分貝是聽覺可感的最小值;音色是一個音素區(qū)別于其它音素的基本判定特征,它由不同的聲源(發(fā)音體)屬性(材料、結構等)所決定,音波波紋的不同曲折形式造就音色的差異,表現(xiàn)為聲音品質的或明或暗、或清或濁,使得聲音更具個性、特色與辨識度;音高,決定著漢語發(fā)音的聲調和語氣,它是由聲源的振動頻率所決定的,振動次數(shù)多,頻率就大,聲音就高,比16赫茲低的次聲以及比20000赫茲高的超聲都是人類所無法聽到的,16到20000赫茲的空氣振動是聽覺的適宜刺激,其中尤以1000到3000赫茲這個區(qū)間最為敏感。經過介質傳播的聲波直接作用于聽覺器官,激發(fā)感知細胞的興奮度,引起聽覺神經的沖動,從而能夠將外部信息有效地導入。
再從多元化的表達方式上來看:1、人類聲帶的固有膜是致密結締組織,聲帶的長短、松緊和聲門裂的大小都能對發(fā)聲產生影響,在皺襞的邊緣有強韌的橫紋肌和彈性纖維,這使得聲帶極富彈性,交替使用聲帶的不同位置,就可以依照溝通需要及時而到位地實現(xiàn)聲音上較大的彈性變化;2、當一個發(fā)音體遇到另一個頻率與之振動頻率相同或近似的音波時,隨之受到影響而引發(fā)共振,這種現(xiàn)象就是共鳴。人體中作為共鳴器的是胸腔、鼻腔、口腔和頭腔等多個腔體,通過它們的聯(lián)合作用,可以達到良好的共鳴效果,人聲因此而得到潤色和美化,因為各個腔體的形狀、大小都不盡相同,所以經過共鳴修飾后所表現(xiàn)出來的音質則更為優(yōu)美而繁多;3、人體胸腔與腹腔之間的膈肌屬于骨骼肌,經過科學的訓練后將會更加自如地為我們所用,調動橫膈的上下運動(吸氣時向下運動,呼氣時向上運動)可以使得處于溝通交流過程中的氣息既充分飽滿又流暢自然地平穩(wěn)進出,通過有效操使胸腹式聯(lián)合呼吸的方法,便能夠達到理想的表達狀態(tài):以情運氣,以氣托聲,以聲傳情,表情達意,及于受眾;4、人類可以根據(jù)語言環(huán)境中表意的需要,隨時隨地地、收放自如地調整音量的大小,同時運用音強的差異性變化所形成的重音和輕聲,起到區(qū)別語法意義和詞匯意義的作用,增強了語言的節(jié)奏感、流暢感和韻律感,對于邏輯重音所處的不同位置的適時調整,也可以在最大程度上實現(xiàn)有聲語言表達中語義焦點的靈活轉移;5、我們可以依照交談時的思想發(fā)展與情感變化,自由地把控語氣的輕重、節(jié)奏的急緩和話語進程中的停頓與連接,從而在滿足心理需要、生理需要和情感抒發(fā)的同時,凸顯語意精妙的層次感;6、人類可以將對于音準、音質、音調、音量的把控技巧有序整合、綜合并用、應時而動,既使得各元素間相得益彰,又使得和諧優(yōu)美、動聽悅耳的表達更具對象感、畫面感、分寸感和親近感,在更為直觀、更加適時、更顯貼合地反映出人的態(tài)度、意圖和情緒的同時,既強化了語言的深刻含義,又提升了語言表達的溝通效能。
時而吸引,時而讓步,時而平和,時而動情,時而批駁,時而贊頌,時而跌宕,時而反轉,時而興奮,時而哀傷,時而坐看云起,時而扣人心弦,貼切的情感感受自然而然地流淌于言談之中,既充分而有效地表達了思想,又引發(fā)了審美愉悅的知覺享受,正因為我們將自身擁有的獨特而復雜的發(fā)音器官與靈活而豐富的話語表達方式完美地結合在了一起,才使得對于同類間的溝通工作無法被智能語音技術所完全替代。
雖然人類在有聲語言表達方面天賦異稟,但在交流的過程中,還是不可避免地暴露出很多自身的弱點:邏輯會混亂,重壓會疲勞,表述有歧義,記憶有遺忘,思維不縝密,情緒不穩(wěn)定,欲求過于多元,審美過于功利,主觀能動性差,認知偏差導致片面,自我糾錯機制不足等等。而智能語音技術的不斷發(fā)展,也正是為了彌補這些短板。工程師們努力讓機器去模擬人、理解人,以期創(chuàng)造出智商和情商雙高的專家級機器人。
在飛速發(fā)展的信息化時代,作為亞生命的新的指代,超智能機器人憑借杰出的“大腦”(中央處理器,Central Processing Unit)逐步被賦予了“自我思考的能力”。從對于智能機器視覺能力的開發(fā)到對聽覺能力的開發(fā)僅僅用了不到五十年的時間,隨著運算系統(tǒng)的不斷升級,機器人或許很快便會在情感感知、情感表達領域與人類比肩。
上個世紀60年代人工智能技術一度停滯不前,完全依賴人為灌輸式的知識傳遞,使得計算機學習的廣度嚴重不足。從80年代起,隨著“神經網(wǎng)絡算法”的興起,人們在“機器學習”這個重要的領域開啟了全新的探索,利用逼近論、凸分析、統(tǒng)計學、概率論、算法復雜度理論等多門學科的交叉融合,致力于研究如何更好地賦予計算機以超群的“心智”、怎樣讓計算機模擬并實現(xiàn)人類的學習及其它行為,重新組織已有的知識結構并使之不斷得到強化和完善,以期獲取更新的知識與技能。正如劉勰所言:“操千曲而后曉聲,觀千劍而后識器”,機器學習(Machine Learning)成為人工智能的研創(chuàng)核心,機器通過深度學習來完成自我發(fā)展,使自身具備超級智能,達到“自我管理”、“自動進化”的高度,進而實現(xiàn)對于人力的大范圍替代。
作為格式塔學派的一個分支,德國拓撲心理學的創(chuàng)立者,被譽為實驗社會心理學之父的庫爾特·勒溫,在20世紀30年代就曾指出:“學習是認知結構的變化,這個變化表現(xiàn)為分化、概括化與再組織三種方式”。不同于人腦的是,電腦可以高效率、低成本、持續(xù)久、不間斷地學習和工作,而這是人類所望塵莫及的。
再精密復雜的智能語音助手,也都與創(chuàng)造它的人密切相關,工程師對其灌輸?shù)某绦?,不應只限定于識別、處理和反饋的層面,而應更廣泛地拓展到對情感感受的智慧化培養(yǎng)與對情感表達方式的全面化學習的領域。目前的智能語音系統(tǒng)可以根據(jù)聲音識別技術對用戶的陳述提供一個解決問題或解答疑惑的大體參照,甚至可以在一些實驗檢測環(huán)節(jié)中“欺騙”80%以上的被試,但這仍是遠不及預期的。
為了打造更具完備自我思維能力的人工生命,就需要讓計算機規(guī)規(guī)矩矩地、更加深入地、可持續(xù)地自我學習,讓程序直接接觸被導入的數(shù)據(jù),進一步滿足機器快速成長的需要,以期最終實現(xiàn):整體把握抽象思維,深入體察情感感受,思考利弊而做出取舍,脫離程序指令而自發(fā)決策、迅速反應并采取行動,樹狀衍生新的認知,幾何級數(shù)增長各項復雜技能,真正理解人類的意識和言語并以人類的表達方式與人進行心靈相通的對話交流。
目前的智能語音技術雖然尚處在“孩提時代”,但其發(fā)展之路卻是一條沒有終點的漫長征程,堅持不懈地攻堅克難,將會給人類的生活方式帶來根本性的變化。很難預料十年后,在高科技的引領下,我們的社會將變成什么樣子,更何況人工智能尚存在著科學家們普遍認同的技術“奇點”,一旦跨越了奇點,科技將超越科幻,人們無法估測甚或預警這一刻何時到來,但可期的是,伴隨智能機器永不停歇的自我學習,經歷了突破奇點后的“頓悟”,情感感受的“標準指令”或許可以得到“規(guī)范統(tǒng)一”,接下來就可以先完成智能語音助手之間的互聯(lián)互通,再借助大幅提升的語音識別和情感TTS(Text To Speech)技術,使得更具易用性的全方位高智能語音助手可以確切感知、及時存儲、海量分析用戶的語氣、情感、愛好、品味、習慣、需求、言談方式、審美特征,進而越來越精準到位地理解人類的語言表達意識、愈加靈活自如地駕馭豐富的話語表達方式,最終實現(xiàn)與人類之間自然、順暢、貼心、親切、愉悅的對話交流。
此前不久,微軟(亞洲)互聯(lián)網(wǎng)工程院率先推出了新一代的語音交互技術:全雙工語音交互器官(Full-duplex Voice Sense),可以實時預測人類即將說出的內容,實時生成回應并控制對話節(jié)奏,將長程語音交互變?yōu)榱丝赡?,這使得人機交流更加連續(xù)流暢、逼真自然。
曾有人提出“此前歷史上的一切群眾運動,都是由于語言的力量”,此話雖然乍聽為過,但也因此可見,這種蘊含于充沛情感化表達之中的語言魅力,足以令世人產生共鳴并為之傾倒。從溝通效能的角度來看,人類所獨有的發(fā)聲機理暫時優(yōu)于目前的智能語音系統(tǒng),面對著人工智能時代下的千般挑戰(zhàn),人類尚未失去生而為人的驕傲。而對于有聲語言表達技巧漸向人工智能的轉化處理,既是濃縮著非凡創(chuàng)意的智慧結晶,又充滿著無限的可能。在與智能語音技術不斷角力的過程中,直面沖擊的有聲語言表達藝術也將會獲得史無前例的深化與完善。一方面,智能語音技術中現(xiàn)存的審美缺憾,恰恰是有聲語言表達藝術亟待恢弘之所長,而另一方面,借鑒有聲語音的表達優(yōu)勢也可以進一步提升智能語音技術水平,人機合作,互利互補,相輔相成,共促發(fā)展。
在工業(yè)時代,機器的出現(xiàn),使得人力標準化;在自動化時代,機器人的出現(xiàn),使得人力機器化;在信息時代,人工智能的出現(xiàn),又會使得人類何去何從呢?我們不斷求索答案的過程,實則就已經是一種答案了。