国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

當深度學習遇到大視頻數(shù)據

2017-09-07 06:20曾文軍羅翀
中興通訊技術 2017年4期
關鍵詞:深度學習人工智能

曾文軍+羅翀

摘要:視頻信號是大數(shù)據中的大數(shù)據,這種海量視頻數(shù)據帶來了存儲、傳輸、處理、管理等方面的挑戰(zhàn),同時也提供了大量有價值的信息和商業(yè)機會。認為深度學習顛覆了視覺理解的進程,從圖像分類到物體檢測、語義分割等更細更復雜的任務,從視頻里物體的檢測與跟蹤到物體屬性和行為的分析,特別是關于人和車的理解技術。指出隨著計算能力和大數(shù)據持續(xù)快速增長,加上深度學習、主動學習、遷移學習、無監(jiān)督學習、強化學習等強大機器學習技術繼續(xù)發(fā)展,讓機器可以像人一樣看到并理解世界的前景是樂觀的。

關鍵詞: 深度學習;大視頻數(shù)據;人工智能

1 人工智能離不開視覺計算

人工智能(AI)是當今科技世界炙手可熱的詞語,每個人都在談論。在過去2~3年里,AI擊敗人類的新聞不斷,從 Facebook 的面部識別技術DeepFace達到和人類一樣的識別精度[1],微軟深度學習系統(tǒng)在圖像識別上打敗人類[2],機器在智商測試中擊敗人類[3],到AlphaGo擊敗圍棋世界冠軍李世石,AI 的高熱度在繼續(xù)。

那么這些突破有哪些共性呢?第一,他們都歸因于大數(shù)據的到來,例如數(shù)千個小時有標注的語音數(shù)據,數(shù)千萬有標簽的圖像等;第二,離不開巨大的計算資源支撐,包括圖形處理器(GPU) 和云集群的到來和普及。在此基礎上機器學習技術才取得顯著進展,特別是深度學習的飛速發(fā)展。我們正處在AI的黃金時代。

AI 離不開感知,而視覺是我們最主要的感知手段。研究結果表明:人的感知、學習、認知和活動有 80%~85%是通過視覺介導的[4]。如果不能獲取并處理視覺信息,就沒法研究真實世界的人工智能,由此可見計算機視覺對人工智能發(fā)展的重要性。

視頻信號在大數(shù)據中占很大比重,現(xiàn)在網絡上70%~80%的流量是由視頻信號所組成的,可以說它是大數(shù)據中的大數(shù)據。這些數(shù)據可能在幾年前還不太容易得到,但是隨著各種攝像頭的普及,視頻數(shù)據得以更詳細的記錄物理世界發(fā)生的一切。由此產生了海量的大視頻數(shù)據,這種大數(shù)據給我們帶來了存儲、傳輸、處理、管理等方面的挑戰(zhàn),同時也提供了很大的機會,讓機器幫助分析理解視頻大數(shù)據就成了我們觀察了解物理世界的一條捷徑?,F(xiàn)在我們通過分析這個大數(shù)據,提取有價值的信息,從而去支持新的產品或者服務,所以這里面蘊藏了巨大的商業(yè)機會。視頻數(shù)據已滲透到人類日常生活的方方面面,視頻分析的應用是多方面的,包括居家、企業(yè)、零售、公共安全、交通、制造等,市場巨大。比如:預計全球家居安防解決方案市場將以8.7%的復合年增長率增長,到2020年將達到475億美元[5],半自動車市場預計到2018年將達到214億美元[6]。

2 深度學習顛覆了視覺理解的進程

視覺信號分析的發(fā)展起起伏伏,每到一定階段都會出現(xiàn)“瓶頸”,其中很大的瓶頸就是沒有足夠量的數(shù)據,所以模型或算法的發(fā)展都受到一定的限制。直到大約2009年,ImageNet產生了。它是迄今為止最大的有標記的圖像數(shù)據庫,根據 WordNet 的層次結構組織,有超過 10 萬個概念,每個概念有數(shù)百到數(shù)千幅附屬的圖像。ImageNet 在過去幾年大大促進了計算機視覺和圖像分析的發(fā)展。

在ImageNet的基礎上,近幾年有一些與圖像識別相關的挑戰(zhàn)賽,如業(yè)界熟知的圖像分類比賽就是利用100多萬標注圖像,進行1 000種分類方法準確性比較的挑戰(zhàn)賽。還有一些如物體檢測、場景檢測、場景分析和語義分割等基于ImageNet的比賽。

關于ImageNet圖像分類比賽,在2012年前由于分類錯誤率很高,從而限制了它的實用。2012年,Hinton的實驗室第1次把深度神經網絡應用到圖像分類任務上,其性能才得以大幅提升[7],充分展示了深度神經網絡對視覺研究的極大潛能,也掀起了視覺研究的新高潮,讓人們看到了計算機視覺實用化的希望。短短幾年后的今天,深度神經網絡技術發(fā)展迅猛,在ImageNet圖像分類上的性能已超過人類,人們研究的重點也從圖像分類轉移到圖像物體檢測、語義分割等更細、更復雜的任務。

圖像分析已經有了很大的進步,視頻分析和理解方面進展則稍顯緩慢。視頻信號相比于圖像信號有更大的挑戰(zhàn),因為它是一個更高維的信號,所含內容的多樣性也很復雜,所以要去判斷它、理解它都很困難,當然數(shù)據量很大也是另外一個原因。除此之外,在很多情況下視頻是提供實時監(jiān)測控制的,因此對處理速度等指標也有很高的要求,加之標注視頻數(shù)據時每1幀都要標注,費時、費力且成本高昂,視頻發(fā)展相比圖像來講還是落后一些。當然,如何獲得足夠多訓練數(shù)據也是必須解決的難點。

前面談到視頻分析的一些應用場景,盡管不同應用場景有不同技術要求,但有些基本技術是共享的,比如物體的檢測與跟蹤。人是我們日常生活和工作的核心,因此也是大多數(shù)圖像/視頻的最主要實體。對人的分析是視頻理解中的關鍵一步。因此很多研究團隊包括微軟亞洲研究院最近幾年都專注于以人為中心的視頻分析,例如檢測與識別人、人的屬性、人的行為,甚至是人的意向。由于近年來大數(shù)據、計算能力和深度學習技術的進步,對視覺數(shù)據中人的理解技術已取得了很大的進步。機器檢測和識別人臉的性能已經達到了和人相仿的程度,并在身份驗證、安全、智能零售、智能媒體管理等領域得到廣泛應用。人體檢測的性能也有了顯著提高,在一些基準數(shù)據集上達到超過80%的準確度。人的各種屬性,如性別、年齡、情感、手勢與身體姿勢,以及衣服顏色類別等也可以很好地提取,以幫助更好地了解一個人的狀態(tài)。人體姿態(tài)估計技術的性能也達到了數(shù)年前不可想象的水平,并極大地方便了人的動作識別。

3 車輛和車牌檢測與識別案例

日常生活中,尤其是城市生活中,車輛是重要性僅次于人的目標類別。深度學習技術的飛速發(fā)展也大大的帶動了與車輛相關的計算機視覺技術的發(fā)展,其中,最重要的就是車牌和車輛的圖像檢測與識別技術。

車牌是車輛的身份證,車牌自動識別技術有著非常廣泛的應用,例如:車輛進入管控區(qū)域時的權限驗證,進入停車場或高速公路時的收費管理,或者道路車輛違章攝像。目標通常分為合作目標和非合作目標。合作目標的圖像檢測和識別技術已經相當成熟,在大量應用的車牌識別系統(tǒng)中包含圖像采集、車牌檢測、字符抽取和字符識別4個步驟,其中圖像采集環(huán)節(jié)是可控的,即圖像采集對象是合作目標。比如車輛進入停車場時,需要車輛在低速甚至完全靜止狀態(tài)下完成圖像采集,而且拍照時車牌的位置相對固定,這就在最大程度上保證了圖像清晰,同時有效限制了車牌檢測時的搜索范圍。

然而,在大數(shù)據時代出現(xiàn)了一些車牌檢測的新應用需求。這些應用面對的是不可控的圖像采集對象,即非合作目標。圖像質量良莠不齊,車牌類別、大小、出現(xiàn)位置、光照條件等都有很大的不確定性,如圖1所示。例如:交通管理部門希望能夠從公交車攝像頭獲取的圖像數(shù)據中自動提取違章占用公交專用道車輛的號牌信息,然而公交車攝像頭獲取的是非合作目標的圖像,基于合作目標的圖像檢測和識別技術顯然無法滿足應用需求。利用我們在車牌檢測技術上最新的基于深度學習的研究成果,可以準確、高效的解決這一難題。

圖2展示了一些我們獲得的車牌檢測結果示例。我們的方案可以在不同的光照條件下準確定位到大小、視角不同的各類車牌的4個角點。

視頻車牌模糊也是一個非常典型的新應用需求。用戶在視頻網站分享視頻時,如果鏡頭中有車輛出現(xiàn),用戶希望能夠模糊掉車牌信息以免侵犯他人隱私,就需要利用視頻車牌模糊技術,其中車牌檢測和跟蹤是關鍵所在?;谏疃葘W習的圖像車牌檢測和跟蹤可大大提高視頻中車牌的召回率,提升車牌模糊的性能。

圖像和視頻中的車輛檢測因其在自動駕駛、道路監(jiān)測控制中的應用受到了廣泛的關注。然而,深度神經網絡的出現(xiàn)使車輛檢測的精度有了質的提升。KITTI是車輛檢測領域一個著名的公開數(shù)據集。在深度神經網絡被大規(guī)模應用到物體檢測領域之前,Regionlets[8] 曾作為一個標桿方案,獲得了較高的檢測準確率。其在簡單、中等難度和較難數(shù)據類別上的準確率分別為86.5%,76.56%和59.82%。然而近年來,隨著Faster R-CNN[9]模型的提出,Regionlets在KITTI車輛檢測排行榜上已退居到第50名的位置。截至目前,在中等難度的車輛檢測上已有超過10種方案可以獲得超過90%的準確率。另外,深度神經網絡的出現(xiàn)也推動了車型車款識別(定位到車型車款),車輛精細化識別(定位到具體車輛)等方向的發(fā)展,使得智能城市的構想不再遙遠。

總之,隨著計算能力的持續(xù)快速增長,加上深度學習、主動學習、遷移學習、強化學習等強大機器學習技術繼續(xù)發(fā)展,讓機器可以像人一樣看到并理解世界的前景是樂觀的。

4 結束語

再好的研究成果,最終只有在實際應用中得到驗證才能體現(xiàn)它的真正價值。微軟亞洲研究院研發(fā)的視頻分析技術正在通過微軟認知服務這個平臺,以視頻應用程序編程接口(API) 的形式提供給廣大人工智能領域的開發(fā)者,幫助大家方便而高效地開發(fā)和視頻相關的人工智能應用系統(tǒng)。這些技術也已成為微軟Azure 云平臺的媒體分析服務的重要組成部分,可提供企業(yè)級的智能服務。類似的,其它高科技公司如Google、Amazon、Facebook等也相繼推出基于深度學習的計算機視覺API,從而使得市場爭奪日趨白熱化。這種激烈競爭反過來將會進一步刺激加快計算機視覺和視頻分析技術的發(fā)展,最終使人工智能更快、更深入地滲透到人類日常生活和工作中去。

參考文獻

[1] Sophos. Facebooks DeepFace facial recognition technology has human-like accuracy[EB/OL]. (2015-02-06)[2017-06-11]. https://nakedsecurity.sophos.com/2015/02/06/facebooks-deepface-facial-recognition-technology-has-human-like-accuracy/

[2] NOVET J. Microsoft Researchers Say Their Newest Deep Learning System Beats Humans — and Google[EB/OL]. (2015-02-09)[2017-06-11]. https://venturebeat.com/2015/02/09/microsoft-researchers-say-their-newest-deep-learning-system-beats-humans-and-google/

[3] MIT Technology Review. Deep Learning Machine Beats Humans in IQ Test[EB/OL]. (2015-06-12)[2017-06-11]. https://www.technologyreview.com/s/538431/deep-learning-machine-beats-humans-in-iq-test/

[4] Brainline. Vision Problems[EB/OL]. [2017-06-11]. http://www.brainline.org/landing_pages/categories/vision.html

[5] Markets and markets. Home Security Solutions Market - Global Forecast to 2020[EB/OL]. (2017-03)[2017-06-11].

http://www.marketsandmarkets.com/Market-Reports/home-security-solutions-market-701.html

[6] Markets and markets. Semi Autonomous Market for Passenger Car-Global Trends & Forecast to 2018[EB/OL]. (2017-05)[2017-06-11]. http://www.marketsandmarkets.com/Market-Reports/near-autonomous-passenger-car-market-1220.html

[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105

[8] WANG X, YANG M, ZHU S, et al. Regionlets for Generic Object Detection[C]// IEEE International Conference on Computer Vision. USA: IEEE Computer Society, 2013:17-24. DOI: 10.1109/ICCV.2013.10

[9] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149. DOI: 10.1109/TPAMI.2016.2577031

猜你喜歡
深度學習人工智能
人工智能之父
2019:人工智能
人工智能與就業(yè)
數(shù)讀人工智能
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
MOOC與翻轉課堂融合的深度學習場域建構
大數(shù)據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
基于深度卷積網絡的人臉年齡分析算法與實現(xiàn)