国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TINYYOLO2神經(jīng)網(wǎng)絡(luò)視覺(jué)翻譯棒

2021-07-19 21:11:42劉瀟元任釗婷楊晨
電腦知識(shí)與技術(shù) 2021年15期
關(guān)鍵詞:云服務(wù)

劉瀟元 任釗婷 楊晨

摘要:2015年10月,AlphaGo在沒(méi)有任何讓子的情況下,以5:0的懸殊比分擊潰歐洲圍棋冠軍樊麾二段。隨即第二年六月戰(zhàn)勝第一圍棋手柯潔。人工智能初露鋒芒,而在當(dāng)今人工智能的發(fā)展下各個(gè)產(chǎn)業(yè)出現(xiàn)了新的轉(zhuǎn)變,人臉識(shí)別,視網(wǎng)膜識(shí)別,虹膜識(shí)別,掌紋識(shí)別,專家系統(tǒng),無(wú)人駕駛,智能搜索,定理證明,博弈等人工智能逐漸改變著人們的生活,神經(jīng)網(wǎng)絡(luò)在圖像處理的運(yùn)用上更加廣泛,常應(yīng)用于車輛檢測(cè)、目標(biāo)分類識(shí)別。本項(xiàng)目意在通過(guò)YOLO2的剪枝算法TINY yolo2實(shí)現(xiàn)在嵌入式soc上進(jìn)行目標(biāo)檢測(cè)達(dá)到圖像轉(zhuǎn)文字的目的。再爾,通過(guò)云服務(wù)實(shí)現(xiàn)文字轉(zhuǎn)語(yǔ)音的服務(wù)。完成整個(gè)項(xiàng)目的目的,即圖像轉(zhuǎn)文字的過(guò)程,適用于幼兒教學(xué)市場(chǎng)。

關(guān)鍵詞:TINY YOLO2;云服務(wù);視覺(jué)翻譯

中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)15-0182-02

1 神經(jīng)網(wǎng)絡(luò)單元TPU介紹

在芯片集成度方面,勘智K210采用視聽(tīng)一體化設(shè)計(jì)。在機(jī)器視覺(jué)上,芯片基于自主研發(fā)的神經(jīng)網(wǎng)絡(luò)加速器KPU,可完成基于神經(jīng)網(wǎng)絡(luò)的圖像分類任務(wù),進(jìn)行人臉識(shí)別與檢測(cè),以及實(shí)時(shí)獲取被檢測(cè)目標(biāo)的分類。在聽(tīng)覺(jué)能力上,芯片自帶APU語(yǔ)音處理單元,最高可支持8路音頻數(shù)據(jù)及16個(gè)方向,無(wú)須占用CPU即可實(shí)現(xiàn)聲源定向、聲場(chǎng)成像、波束形成、語(yǔ)音識(shí)別與喚醒等功能。

在算法定制化方面,勘智K210在可編程能力上呈現(xiàn)出更高的靈活性。首先,相比ARM等架構(gòu),勘智K210采用RISC-V架構(gòu),擁有更強(qiáng)的可定制化能力,便于開(kāi)發(fā)者根據(jù)具體應(yīng)用場(chǎng)景定制算法。其次,芯片搭載FPIOA現(xiàn)場(chǎng)可編程IO陣列,支持TensorFlow、Keras、Darknet、PaddlePaddle和Caffe等主流AI編程框架,以及全面的開(kāi)發(fā)文檔,對(duì)開(kāi)發(fā)者十分友好。

2 攝像頭

OV7670,本設(shè)計(jì)采用自帶FiFo的模組,使用FIFO模組可以大大減少K210的計(jì)算量,數(shù)字?jǐn)z像頭的構(gòu)成主要是由鏡頭、基座、紅外濾波片、圖像傳感器。部分?jǐn)?shù)字?jǐn)z像頭可能帶有馬達(dá)用以調(diào)節(jié)像距。本設(shè)計(jì)中為了提高處理速度,使用CIF格式的圖像格式傳輸?shù)終210中進(jìn)行計(jì)算,經(jīng)過(guò)實(shí)際的測(cè)試,空載的幀率可以達(dá)到80FPS。在實(shí)際加載上TINY YOLO2的程序測(cè)試可以達(dá)到60FPS左右,達(dá)到了實(shí)際使用的需求。

3 識(shí)別算法TINY YOLO2

相較于RCNN系列算法,YOLO算法最大的創(chuàng)新在于將物體檢測(cè)作為回歸問(wèn)題來(lái)求解,而RCNN系列算法是將目標(biāo)檢測(cè)用一個(gè)region proposal + CNN來(lái)作為分類問(wèn)題求解。 如下圖所示,YOLO通過(guò)對(duì)輸入圖像進(jìn)行推測(cè),得到圖中所有物體的位置及其所屬類別的相應(yīng)概率。

YOLO的網(wǎng)絡(luò)模型結(jié)構(gòu)包含有24個(gè)卷積層和2個(gè)全鏈接層,其具體結(jié)構(gòu)如下:

4 百度云語(yǔ)音合成API

為了減小內(nèi)存的使用,本項(xiàng)目采用了百度語(yǔ)音合成python接口,只需要使用http請(qǐng)求的REST API接口,將文本轉(zhuǎn)換為可以播放的音頻文件。再通過(guò)K210的播放器進(jìn)行輸出。由于k210的性能限制,本項(xiàng)目使用內(nèi)存占用極小的PCM編碼,聲音經(jīng)過(guò)采集和處理裝置的抽樣、量化和編碼就實(shí)現(xiàn)了脈沖編碼調(diào)制。本系統(tǒng)中使用K210的I2S總線連接麥克風(fēng)模塊,模擬聲音信號(hào)經(jīng)過(guò)麥克風(fēng)抽樣采集。傳送到K210端口,經(jīng)過(guò)K210通過(guò)DAC發(fā)送音頻放大器,最后由揚(yáng)聲器將PCM編碼的聲音量播報(bào)出來(lái),實(shí)現(xiàn)了語(yǔ)音播報(bào)。

PCM以采樣技術(shù)為定理。采樣定理:如果在規(guī)定的時(shí)間內(nèi),以有效信號(hào)最高頻率的二倍或二倍以上的速率對(duì)該信號(hào)進(jìn)行采樣,則這些采樣信息值中包含了全部原始信號(hào)信息。再進(jìn)行實(shí)際實(shí)驗(yàn)時(shí) Tiny yolo2在k210平臺(tái)上幀率能達(dá)到60fps+。

5 系統(tǒng)菜單設(shè)計(jì)

為了完成該項(xiàng)目的多個(gè)功能需要設(shè)計(jì)一個(gè)菜單搭配按鍵進(jìn)行功能的選擇,這里我們采用了有限狀態(tài)機(jī)。也稱為FSM,其特點(diǎn)是任意狀態(tài)在任意時(shí)刻都有對(duì)應(yīng)的下一狀態(tài)。每個(gè)狀態(tài)具有同樣的屬性,當(dāng)其屬性進(jìn)行轉(zhuǎn)移時(shí),F(xiàn)SM將一直保持消亡狀態(tài)。狀態(tài)轉(zhuǎn)移圖中還有兩個(gè)特殊狀態(tài):狀態(tài)1狀態(tài)被稱為“起始狀態(tài)”,表示FSM的初始化狀態(tài),狀態(tài)6稱為“結(jié)束狀態(tài)”。表示成功識(shí)別了所有屬性而后進(jìn)入下一流程。使用編程思維理解,建立結(jié)構(gòu)體數(shù)組成員變量使用UP、DOWN、ENTER,來(lái)表示每個(gè)狀態(tài)對(duì)應(yīng)的屬性操作。建立Index成員表示當(dāng)前的序列號(hào),函數(shù)指針表示當(dāng)前狀態(tài)所需要執(zhí)行的函數(shù)。通過(guò)Index序號(hào)根據(jù)用戶的操作UP、DOWN或是ENTER來(lái)進(jìn)入下一個(gè)所需要執(zhí)行的函數(shù)。達(dá)到邏輯清晰、代碼量簡(jiǎn)潔高效的目的。

然后我們開(kāi)始程序設(shè)計(jì)。CurrerIndex表示當(dāng)前標(biāo)號(hào),UpIndex表示按下上鍵跳入的菜單標(biāo)號(hào),DnIndex表示按下下鍵跳入的菜單標(biāo)號(hào),EnterIndex表示按下確認(rèn)鍵跳入的菜單標(biāo)號(hào),(*CurOperate)表示這個(gè)菜單對(duì)應(yīng)的函數(shù)指針。

Encoder_EC11_Scan()函數(shù)這個(gè)本來(lái)是編碼器EC11的掃描函數(shù),由于體積大小原因,將旋轉(zhuǎn)編碼器替換成了三個(gè)按鍵。AA代表上鍵,BB代表下鍵,Keyenter鍵代表確認(rèn)鍵。當(dāng)按鍵按下對(duì)應(yīng)引腳接地,引腳電平為0。為了消除抖動(dòng)使用了Delay5ms()這個(gè)函數(shù)延遲5ms如果這時(shí)按鍵還是低電平,就說(shuō)明不是因?yàn)槎秳?dòng)而是人為按下。置ScanResult返回值為0,1,2,3分別代表按鍵沒(méi)有按下,上鍵,下鍵,確認(rèn)鍵的按下標(biāo)志位并作為函數(shù)的返回值返回。

狀態(tài)機(jī)從0開(kāi)始,通過(guò)Encoder_EC11_Scan()函數(shù)來(lái)返回用戶的操作鍵碼,通過(guò)Switch語(yǔ)句跳轉(zhuǎn)到各個(gè)鍵碼對(duì)應(yīng)的操作中去。如按下上鍵Encoder_EC11_Scan()函數(shù)會(huì)返回1。并把此時(shí)菜單上鍵對(duì)應(yīng)的鍵碼賦值給Fun_index全局變量。然后將對(duì)應(yīng)的函數(shù)指針賦值給CurOperate_Ptr。而后執(zhí)行函數(shù)完成函數(shù)的跳轉(zhuǎn)。

6基本流程

1)k210通過(guò)攝像頭獲取圖像;

2)圖像輸入變換進(jìn)入模型比對(duì);

3)圖像中是否存在目標(biāo)物體;

4)存在物體,文本信息送入百度云api進(jìn)行轉(zhuǎn)化然后送入揚(yáng)聲器進(jìn)行播報(bào)。否則返回獲取圖像繼續(xù)搜索目標(biāo)物體。

7 項(xiàng)目總結(jié)

本項(xiàng)目將神經(jīng)網(wǎng)絡(luò)識(shí)別技術(shù)與物聯(lián)網(wǎng)技術(shù)結(jié)合在一起。意在通過(guò)圖像得到語(yǔ)音的輸出,適用于早教市場(chǎng),幼兒外語(yǔ)的學(xué)習(xí)。項(xiàng)目的不足,因?yàn)槭峭ㄟ^(guò)網(wǎng)絡(luò)進(jìn)行語(yǔ)音轉(zhuǎn)化,所以本項(xiàng)目離不開(kāi)網(wǎng)絡(luò),必須通過(guò)手機(jī)開(kāi)啟熱點(diǎn)或連接家中wifi使用,本項(xiàng)目將會(huì)繼續(xù)研究離線的文字語(yǔ)音轉(zhuǎn)化技術(shù)。

參考文獻(xiàn):

[1] Real-Time Pattern-Recognition of GPR Images with YOLO v3 Implemented by Tensorflow. 10.3390/s20226476.

[2] 謝兄,楊金鵬.YOLO-wLU:考慮定位不確定性的目標(biāo)檢測(cè)算法[J]. 計(jì)算機(jī)工程與應(yīng)用.

[3] 黃鳳琪,陳明,馮國(guó)富,基于可變形卷積改進(jìn)的yolo目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程.https://doi.org/10.19678/j.issn.1000-3428.0059096.

【通聯(lián)編輯:李雅琪】

猜你喜歡
云服務(wù)
淺析如何拓展教育管理信息化云服務(wù)
亞太教育(2016年36期)2017-01-17 18:19:38
云會(huì)計(jì)在中小企業(yè)中的應(yīng)用研究
云服務(wù)信息存儲(chǔ)技術(shù)在防雷安全監(jiān)管中的應(yīng)用
基于會(huì)計(jì)服務(wù)的SWOT分析
廣電網(wǎng)絡(luò)前端業(yè)務(wù)融合云服務(wù)平臺(tái)設(shè)計(jì)
互聯(lián)網(wǎng)背景下傳媒業(yè)的轉(zhuǎn)型
云服務(wù)環(huán)境中低碳型教育信息化模式研究
云服務(wù)環(huán)境下的高校協(xié)同創(chuàng)新研究
基于云服務(wù)的加密式門禁系統(tǒng)設(shè)計(jì)
云服務(wù)背景下的圖書(shū)館知識(shí)建構(gòu)管理模型
科技視界(2016年23期)2016-11-04 11:42:26
西城区| 绥宁县| 华蓥市| 黄骅市| 临汾市| 伊金霍洛旗| 萍乡市| 文安县| 安康市| 邵阳市| 高要市| 宜春市| 衡水市| 平阳县| 雷波县| 苗栗县| 财经| 临颍县| 永川市| 东乡族自治县| 林周县| 高唐县| 太保市| 奉化市| 项城市| 沙洋县| 桂东县| 壶关县| 崇文区| 丰都县| 武平县| 新巴尔虎右旗| 闽侯县| 苗栗县| 西林县| 宁海县| 镇康县| 滁州市| 增城市| 岳阳县| 丽水市|