劉定 張婷
【摘要】物聯(lián)網中機器和機器的通信、人和人的通信不是天然有界限的,機器和機器通信還是要受人為控制的,最終也是為人服務的;所以人機交互是物聯(lián)網中必不可少的重要環(huán)節(jié)。所以說,人機的智能交互是物聯(lián)網中人物之間聯(lián)系的重要方面,智能交互也是物聯(lián)網智能的重要體現之一。本文討論的物聯(lián)網視覺的智能化交互技術,根據“擬人”的技術分析,將人類感知外在世界的視覺智能化交互技術進行簡要分析。
【關鍵詞】物聯(lián)網;視覺;智能化;交互技術
中圖分類號:J9? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? DOI:10.12246/j.issn.1673-0348.2022.09.078
“人機交互”這個名詞對于計算機領域的人來說,有點兒老舊。可是,“新”名詞——可穿戴設備也并不新。第一臺可穿戴設備誕生于1961年。進入21世紀,隨著物聯(lián)網的蓬勃發(fā)展,人機交互也步入物聯(lián)網時代,出現了眾多基于微交互的可穿戴產品。微交互是只為實現單一任務而存在的一系列操作行為。也就是當前主流微交互的三種實現方法。物聯(lián)網雖然是“物物相連的網”,例如,谷歌AR眼鏡、3D手勢互動、體感交互等概念產品正顛覆著我們的傳統(tǒng)認知。這些基于五覺(眼、耳、口、鼻、舌)及其綜合應用的多維協(xié)同感知與交互,正是物聯(lián)網作為深度信息化的重要體現,將深刻影響著人們的日常生活。本文對視覺的智能化交互技術進行簡要分析。
1. 視覺的智能化
物聯(lián)網視視覺源自圖像、視頻等能夠代替人眼功能的系統(tǒng),這些系統(tǒng)能夠實現視覺增強感知、視覺理解與交流等視覺功能。
視覺增強技術。視覺增強屬于AR(增強現實)中的一種,也有人稱AR為混合現實。視覺增強就是借助計算機技術、可視化技術以及可以突破人類視覺限制的技術,簡單來說,視覺增強是虛擬世界和真實世界通過人類視覺融合的一種增強現實技術,屬于視覺類人機交互技術。視覺增強將會是通過視覺融合能夠突破人類視覺極限的技術之一。它的出現與下述幾種技術密切相關。
一是計算機圖形圖像處理技術和光學傳感器。視覺增強的實現,可以通過基于圖形圖像處理技術的融合,實現人眼所無法實現的廣度和清晰度。整套系統(tǒng)的核心是一個不斷旋轉的熱傳感器,置于其上的處理器持續(xù)不斷地將圖像拼接在一起,為一個持續(xù)刷新的全景視頻系統(tǒng)源源不斷地提供圖片,而且,智能軟件會發(fā)現潛在的威脅。
二是3D技術,目前,裸眼3D技術產品已經在市面出現。實現裸眼3D視圖,與千里之外的家人可實現面對面交流,而且不需要借助任何媒介。
三是夜視技術和穿透技術。紅外技術和微光夜視技術作為夜視技術中較為成熟的技術,突破了人類在黑暗無光的環(huán)境中無法看到的視力限制,廣泛用于搜救和軍事用途。美國軍事部門DARPA最近正在開發(fā)一種可穿透墻壁、路障等視覺障礙物的可視技術,被稱為“生物識別技術AT-T距離”。根據DARPA的項目計劃,不僅可以看到兩個墻壁后面的范圍,而且可以檢測墻壁背后的人的心跳。其余的視覺增強技術應用還包括哈勃望遠鏡、電子顯微鏡等電子輔助感知系統(tǒng),能夠實現視覺穿透的雷達和衛(wèi)星技術中常用的遙感應用。
2. 視覺理解與交流
人類視覺的理解并不僅局限于能夠看見,目光、眼神和視線的移動也能傳達視覺信息。可以把獨立于眼睛所看到的圖像之外的視覺信息表達為視覺理解與視覺交流。
2.1 眼動檢測
眼動檢測是討論人機交互中眼睛運動模式(各種眼部姿勢與動作)的辨識技術,也叫眼姿辨別。根據眼電信號產生的生理機制和采集方法,分析各種眼姿勢的特點,包括基本眼動模式(眼睛上移、下移、左移、右移)、眨眼模式、凝視模式等,并據此研究相應的辨識技術。應用眼姿辨別匹配等多種算法可將基本眼動模式、眨眼模式、凝視等各種眼姿勢進行特征分類、準確辨識,為設計眼機接口、實現人機交互提供基礎。眼姿勢的準確辨識是成功實現新型的眼機接口的關鍵環(huán)節(jié)之一。
2.2 視線追蹤
跟蹤瞳孔(虹膜)、眼球方位及視線方向,可以實現用戶視線(感興趣區(qū)域)的跟蹤和分析。視線追蹤作為眼機接口技術,能夠使老年人和殘疾人更加方便地使用計算機進行信息交互,同時增加計算機對人類視覺信息的理解。視線追蹤不僅是AR/VR的關鍵技術之一,還應用于兒童早期自閉癥檢測、神經病學、視力科學、心理學、體育訓練等領域。
2.3 視覺交流
基于視線追蹤、眼姿辨別等視覺理解技術最終能夠通過眼機接口,實現目光對計算機或者便攜終端、可穿戴設備的操作。例如,在閱覽電子書時,目光能夠代替我們手指的部分功能,視線之下,一切跟著目光走。看書時,書本內容會隨著目光的移動自動向上向下移動,書本的翻頁隨著目光的自左而右或自右而左實現翻頁。上網時,頁面內容隨著眼神的游走或聚焦而變換;看電視時,通過視覺交流實現換臺和調節(jié)音量。眼動檢測、視線追蹤、視覺交流這些新興技術研究人類視覺系統(tǒng)在心理學中的心理語言。
表述與應用,可作為一種輸入裝置用于人機交互。應用包括Web可用性、廣告、包裝設計和汽車工程,其中,汽車設計領域被認為是最有前途的應用之一。
3. 智能視覺的應用
基于視覺的智能交互技術的發(fā)展,最終將作為物聯(lián)網視覺感知與交互的組成部分,在交通領域實現“智能視覺物聯(lián)網”。智能視覺物聯(lián)網是指由智能視覺傳感器、智能視覺信息傳輸、智能視覺信息處理和針對人、車、物三大類目標的物聯(lián)網應用。智能視覺還可以被“打上”情感標簽,頗具情感創(chuàng)意的Ping Lamp異地感應Wi-Fi臺燈,可以使分居兩地的親人通過燈光溫暖彼此的思念。該款可以分合式設計的花蕾般模樣的臺燈,可以分成兩個獨立的“花瓣”,每一部分都可以獨立照明。
分居兩地的親人(戀人)可以各拿一瓣各自使用,這分開的兩瓣臺燈可以通過無線網絡相連接,只要有一方打開了自己的臺燈,另一瓣臺燈也將會亮起來。當對方也開啟臺燈時,燈的亮度就會加強來回應你的思念。這份借物傳情的含蓄表達,顯然擴大了視覺理解與情感交流的領域,把人類的情感納入了物聯(lián)網中。智能視覺還可以把AR用于知識傳播、表示和刺激腦洞的打開,例如,Amazon網站上可以找到售價20美元的AR魔法書,閱讀中可享受裸眼3D視圖頁面。如DRS技術公司推出的廣角駕駛員視覺增強器。該熱像儀稱為廣角駕駛員視覺增強器,它采用圖像拼接技術可獲得107°×30°的視場。廣角駕駛員視覺增強器可對現有的駕駛員視覺增強器(視場為40°×30°)進行一對一傳感器替換,具有向后兼容能力,非常便于部署和安裝。
4. 智能視覺聯(lián)合標示與識別
2016年12月,亞馬遜推出的Amazon Go“免結賬”實體便利店,據稱不需要排隊,無須注冊,也不需要排隊結賬。用戶進入時只需在手機上打開Amazon Go APP的二維碼,在閘機上刷一下,選好商品就可以徑直離開。從官方的宣傳看,其技術亮點包括傳感器融合和深度學習算法。然而,亞馬遜并未公布該系統(tǒng)的詳細工作原理,所以網絡中的大討論只能是對其進行大致推測。
在商店中,所有物品都會被標記。結合對于人(客戶標簽)的標示,計算機可以創(chuàng)建物品的動態(tài)地圖。此外,通過壓力傳感器和稱重傳感器,系統(tǒng)可以判斷貨架上的商品是否已經被拿走或還回。再配合圖像分析,系統(tǒng)就能及時發(fā)現用戶在還回商品時是否放錯了貨架。
更有網友BrianRoemmlel透露,亞馬遜曾提交過兩份專利文件,里面的描述和Amazon Go如出一轍。這兩份文件分別為:《檢測物品互動與移動》和《物品從物料處理設施上轉移》?!稒z測物品互動與移動》這份專利的大致內容是:用戶從貨架上拿起或放下物品時,系統(tǒng)可以檢測到這個動作,并且更新用戶移動設備里的清單。從專利中能夠了解到,系統(tǒng)中包含多個攝像頭,它們被分別置于天花板、貨架兩側和內部。其中,天花板上的攝像頭用來采集用戶和貨品的位置,貨架兩側的攝像頭用來捕捉用戶的圖像和周圍的環(huán)境,貨架內的攝像頭則用來確定貨品的位置或用戶手的移動?!段锲窂奈锪咸幚碓O施上轉移》這份專利主要是說:物品被識別,并且當用戶正在拿起物品時,物品自動與用戶發(fā)生關聯(lián)。當用戶進入或穿過“轉移區(qū)”,被拿起的物品將自動轉移到用戶,而不需要有用戶的“確認”輸入或帶來附加延遲。
測試階段的Amazon Go暫時只對亞馬遜員工開放,通過網絡上的分析可見,計算機視覺還需要聯(lián)合貨架上的傳感器,在一個智能視覺的環(huán)境中,判斷被標記的人和被標記的商品之間,是拿起、放下,還是拿走。所有被標記為同一人“拿走”的商品,在出口處自動結賬。使用智能視覺減少員工(減輕勞動程度)的思路不止這一種。Autonomous展示的遠程控制機器人,可代替員工巡視店面,員工只要坐在辦公室,就能一次監(jiān)控多個機器人,在店內以更髙的密度提供顧客所需的服務,包括用遠程操控提供資訊,以及回答問題等。
物聯(lián)網的智能特征也要求著更為智能化的交互方式,一方面是強調了終端的智能化,為了把機器的世界和人的世界結合起來,我們要增強機器對信息的智能收集和處理的能力,這樣對終端的智能化就有所要求,因為這些信息的來源不僅局限于物,還可能是源自人或人的感官的信息。另一方面強調了交互的智能化,因為我們不會僅停留在鼠標、鍵盤這樣的交互上,需要在更為融洽的人機環(huán)境中用觸摸、語音、眼神、動作甚至心理感應,與機器交流人類的真實想法。視覺標簽作為智能視覺物聯(lián)網的重要技術,是指對圖像和視頻中內容所進行的識別、理解、分類。總之,智能視覺物聯(lián)網是基于視覺的大感知技術,不僅局限于上述的幾個方面,還可以包括車輛行駛環(huán)境感知、生態(tài)環(huán)境感知、空間感知等。智能視覺物聯(lián)網使人類視覺突破生理極限,借助機器(計算機)視覺技術看得更遠、更細、更準、更全。
參考文獻:
[1]物聯(lián)網信息感知與交互技術研究[J].王曉東.山西煤炭管理干部學院學報.2016(01)
[2]基于物聯(lián)網信息安全感知與交互技術研究[J].王為民.信息安全與技術.2016(01)
[3]物聯(lián)網信息感知與交互技術研究[J].劉建慶.電子技術與軟件工程.2016(01)
作者簡介:劉定,1989,男,漢族,河南省焦作市人,焦作大學,助教,研究方向:物聯(lián)網應用技術.張婷,1992,女,漢族,河南省焦作市人,焦作大學,助教,研究方向:大數據與云計算.