文/簡成英 徐淑琴
圖普科技:
從“智能鑒黃”認識“圖像識別”技術
文/簡成英徐淑琴
“黑科技”之“人工智能”
2016年是網絡直播商業(yè)化應用起步之年。歐萊雅在美拍上通過鞏俐等明星直播戛納電影節(jié),小米通過直播發(fā)布小米無人機,觀看總人數累計達到1092萬……據艾媒咨詢統(tǒng)計,在中國有近200家在線直播平臺,包括YY、騰訊、樂視、小米等大玩家,在游戲、財經、體育等細分領域,也涌現一批垂直直播平臺,以游戲為主的有斗魚、虎牙、熊貓TV、龍珠直播等平臺。圖像、文字、語音這類開放平臺的數量正在不斷增長。
華創(chuàng)證券的研究報告認為2015年直播行業(yè)具有120億的市場規(guī)模,艾媒咨詢的報告認為該市場規(guī)模約為90億。隨著近幾年互聯網市場上交友軟件以及直播視頻軟件的流行,UGC模式大行其道,各類不法分子將違法視頻、圖片資源上傳至網絡,內容安全成了互聯網公司最基本的需求。5月份,映客、花椒、在直播、陌陌等平臺的40名主播因涉黃被永久封禁,“鑒黃”勢在必行,市場需求激增。
人工智能“鑒黃”一度被認為是黑科技,廣州圖普科技正是這一技術和服務的提供者之一。據了解,圖普科技早在2012年開始就著手研究“深度學習”技術,并與國內某知名實驗室展開合作,將“深度學習”人工智能技術應用在圖像識別上,率先推出基于圖像識別技術的第三方內容審核服務,可識別色情、暴恐、小廣告等違規(guī)圖片和視頻。圖普科技利用“深度學習”技術實現了互聯網圖像過濾的整體解決方案,對外稱識別準確率高達99.5%。
但圖普科技CEO李明強認為,“鑒黃”技術或者圖像識別并不是真正意義上的“黑科技”,他所理解的“黑科技”應該是沒有被預料而出現的,黑科技大多數不是立即可以應用到人們身邊的。一般而言,科技需要被應用,需要與一定的上下游產業(yè)相結合,所以當很多“黑科技”最早出現的時候,一開始只能說是在技術上有了一定的突破,但是在實際應用時還是需要有成熟的上下游產業(yè)相配應。
隨著互聯網的發(fā)展,內容安全成為互聯網不得不面臨的嚴峻挑戰(zhàn)。早在2013年有報道稱,全世界每天會上傳超過5億張圖片、20萬小時長的視頻到互聯網。單是人們每天在Instagram分享近6000萬張照片,在Facebook分享近3億張——當然,還沒算上Snapchat、Google 、 Twitter等大量產圖的應用。在三年后的今天,這個數值必然遠超乎我們的想象。
相比過去,互聯網的數據每年都在爆炸式增長。IBM相關研究稱,整個人類文明所獲得的全部數據中,有 90%是過去兩年內產生的,等到了 2020 年,全世界所產生的數據規(guī)模將達到今天的 44倍。截止2015年底,人們在互聯網上上傳的照片已經超過9000億張,一天上傳到網上的照片數量就已經超過了18億。
在互聯網高速發(fā)展的情況下,從文字到語音,從語音到影像,需要監(jiān)控的網站成千上萬,需要偵查的文字和圖像內容隨著技術的發(fā)展越來越隱晦和“內涵”。在互聯網1.0時代,抵制與防止“淫穢物品”的“鑒黃”工作并不顯性,同樣也不會應用在商業(yè)領域,追溯“鑒黃”這個職業(yè),大概是出現在警察偵查和打擊“制作、復制、販賣、傳播淫穢物品”的場景中。尤其是互聯網2.0的到來,互動社區(qū)的崛起,網友的素質參差不齊,因“涉黃”被勒令關閉的網站多如牛毛。前有百度、陌陌等因為色情問題而被處罰,后有優(yōu)衣庫事件、快播、斗魚直播、360云盤、115網盤、樂視網盤等事件,給互聯網公司造成了不小的麻煩。
“鑒黃”一般有兩種方法——人工“鑒黃”和技術“鑒黃”,水平較高的則是雙管齊下。技術“鑒黃”實際上是應用了圖像識別功能,將不符合規(guī)定的內容進行識別然后刪除,廣州圖普科技就是專門利用這項技術給企業(yè)提供智能識別、鑒別服務。作為技術“鑒黃”服務的提供者之一,廣州圖普科技采取的方式是對問題進行分割,分為確定的和不確定的兩部分,確定的部分交給機器,不確定的部分交給人工。
智能“鑒黃”為什么會被外界一度認為是黑科技?
首先,強大的數據庫存入與提取是人腦不能實現的。某互聯網企業(yè)某職員曾表示,“如果要說‘鑒黃’那些事,我可以講三天三夜”。關于涉黃的規(guī)范文件,那是千百部“片子”才能解釋的。尤其是情景復雜多變、內涵不一的各種暗示內容,有著千萬種不同的搭配,判斷涉黃與否絕非易事?!皼]有大面積裸露是不是就不是黃圖?也未必,如果好好的一對絲襪偏要撕出好多破洞,那就算性暗示?!庇晨湍场拌b黃師”表示,這個場景換成文字或影像理解,人腦未必能夠深刻記住或者及時判斷,但如果換成算法來判斷,那就是“秒判”。
其次,這項技術號稱要頂替“鑒黃師”。外界認為這是一項“足夠犀利”的新技術,未來有望釋放“鑒黃師”的巨大壓力。雖然各個互聯網企業(yè)都有專門的人員來做內容審核,但是無法跟上內容發(fā)展的速度,人工審核容易出現審核不及時、高成本、主觀判斷影響結果、人性道德等問題,并且高強度的“三班倒”工作下人工操作更容易導致審核效率低、誤判漏判多等問題。
智能“鑒黃”的強大技術可解決不少麻煩。映客相關負責人曾表示,“為了對主播監(jiān)管,我們成立了800人的審核隊伍?!睂iT養(yǎng)800人去做審核的事情,似乎是令人難以想象的企業(yè)行為。實際上,當直播高峰期成千上萬的主播在線,可以說“鑒黃”隊伍真是寡不敵眾。人工智能“鑒黃”的強大之處還體現在應對突發(fā)狀況的能力。人工智能“鑒黃”技術應用在直播上,可以監(jiān)測每時每刻的直播內容。
“鑒黃黑科技”的背后,是一項圖像識別技術的應用,這項技術依靠深度學習的人工智能實現。最新的圖像識別機器審核是依賴于人工智能領域最新的算法——深度學習算法,通過模擬人腦神經網絡,構建具有高層次表現力的模型,能夠對高復雜度數據形成良好的解讀。
在圖普科技CEO李明強看來,他并不覺得圖像識別是個“黑科技”,反而覺得這項“黑科技”已經被廣泛使用,“圖像識別技術會被稱為‘黑科技’的一個原因可能是普通人對科技不是特別了解,事實上圖像識別在研究上已經有一定的突破,所以他們看到實際應用(“鑒黃”)的時候才會比較驚奇?!泵恳豁椉夹g,都有從“黑科技”角色退下來的時候,真正實現它的實際應用。
正如李明強所說,如今的機器學習、人工智能很多已經不再是我們所理解的神秘“黑科技”。
與圖普科技依靠深度學習的人工智能圖像識別技術提供智能“鑒黃”服務類似,更多知名互聯網公司也利用圖像識別等人工智能服務開啟人類“第三只眼”。
微軟亞太研發(fā)集團中國創(chuàng)新工程院資深項目經理李京梅曾表示,微軟希望把智能服務帶入到應用里,讓想法變?yōu)楝F實,將語言理解變?yōu)橹悄芊?,對應搜索引擎后面的功能,包括普通網頁的搜索以及一些垂直方面比如新聞、視頻的搜索,其中包括提取圖像基本特征、識別名人、識別圖片里的文字、智能縮略、人臉識別、情緒識別等。
微軟推出人工智能服務,阿里、騰訊、百度不甘示弱,相繼推出各種人工智能服務。李彥宏在2016百度聯盟峰會上談及人工智能最新進展,“深度學習在語音上的應用已經非常精準,現在的百度語音識別準確率也已經達到了97%,每天語音識別請求的PV超過1億;此外,今天的百度圖像識別與過去一年也大不一樣。”
無論是微軟還是百度或是圖普科技,通過其擁有龐大的數據庫深度學習讓圖像識別更加精準?!吧疃葘W習算法設計的智能程序能通過快速迭代擁有強大的學習能力,并與視頻直播、社交網絡、云計算等領域企業(yè)合作,積累大量圖片和視頻數據,克服智能程序設計中的大數據壁壘,得到高精度的智能識別結果?!崩蠲鲝姳硎荆瑘D像識別不僅可以用來過濾違規(guī)內容,圖像搜索也是一種圖像識別的應用,在線下領域,比如說機器人、智能家居、智能工業(yè)制造等各個領域,都會需要圖像識別和理解,它們就像機器人的眼睛一樣收集外界的信息。
據介紹,計算機視覺的起源其實蠻好玩。它是源于1966年,明斯基(人工智能之父)給一個本科一年級學生布置的一個暑期項目——將電腦和相機連接起來,然后讓機器描述它通過相機看到什么。計算機視覺,就是讓計算機能理解它所處理的圖像內容。之后計算機視覺逐漸受到重視——20世紀70年代,在解讀事先選定的圖片上取得一定進展;20世紀80年代,人工神經網絡的研究起起伏伏,轉向幾何和增加數學上的嚴密性;20世紀90年代,人臉識別、統(tǒng)計分析成為研究熱點;進入21世紀,計算機視覺有了更廣泛的識別、大量可用的注釋數據集,并開始處理視頻等。
數據、計算能力和算法三個方面達到一定的積累和疊加后,導致圖像識別需求與供應爆發(fā),其中數據方面是得益于近十多年來互聯網的發(fā)展,積累了海量的數據?!八惴ㄉ系耐黄?,標志性的事件是2012年的ImageNet大賽,這次大賽使得深度學習算法取得了業(yè)內的空前關注?!睒I(yè)內專家表示。
目前機器學習的核心技術是深度學習。李明強認為,“可以把深度學習理解為一個空白的人腦,這些大量的數據就是灌輸進來的經驗。深度學習是屬于機器學習的一個范疇,是最新的機器學習技術,最主要體現在‘深度’這兩個字?!?/p>
深度學習可以理解為“深度機器學習”,相比普通或者傳統(tǒng)的機器學習,深度學習在神經網絡的復雜度和層數都加深了,因此才會叫做“深度學習”。
圖普科技早在幾年前就開始著手深度學習方面的研究?!爱斘覀儼汛罅康纳?、性感以及正常樣本的屬性告訴深度學習的引擎,然后讓引擎不斷學習,對他們正確的行為進行獎勵,錯誤的行為進行懲罰,當然這些獎勵和懲罰都是數學上的,最后空白的腦袋就會學成了一種連接的模型,這種模型就是為了鑒別色情與非色情而生的?!崩蠲鲝娊榻B道。所以只要對機器“誤判、漏判”的內容進行懲罰,然后不斷重復的訓練,機器就會慢慢改正,不再出現同樣的“誤判、漏判”,模型就是這樣被不斷地迭代優(yōu)化。
作為第三方技術服務機構的圖普科技,在商業(yè)模式和盈利模式上都較為清晰,不同于騰訊優(yōu)圖、阿里綠網等為自己平臺的客戶提供審核服務的局限性,圖普科技更重視增強服務方面的優(yōu)勢,服務細致程度和準確度在業(yè)內評價均較高。資料顯示,圖普科技國內最早利用人工智能算法(深度學習等)做審核服務,也是在工程經驗、服務專業(yè)度方面具有先發(fā)優(yōu)勢的第三方,“我們會根據不同的客戶、不同的細分領域,做單獨的模型調整以及算法細節(jié)的優(yōu)化,專人服務對專門的客戶做專業(yè)的運營。圖普科技也是國內利用人工智能做智能審核的首倡者,很多定價的方法、歸類的方法、接口返回的定義都為后來的同行做出了一定標準和規(guī)范?!崩蠲鲝娨辉購娬{,互聯網時代服務和產品是最重要的。
其次,圖普科技識別接口全面,除了提供審核之外,還有包括人臉、場景、物體、車、表情、人的年齡以及服裝風格等幾十種識別接口,客戶一次接入后,可以自行增減各種服務接口,只要一次接入,就可以滿足各種需求。而使用便捷,才是真正的用戶體驗?!翱蛻魺o需為了使用圖片識別服務而綁定任何云計算平臺,可以通過圖普入駐的七牛、UCloud、AWS、融云等知名平臺直接調用。”李明強介紹道。
阿里綠網、騰訊優(yōu)圖的優(yōu)勢則體現在技術、品牌和業(yè)務的成熟上,企業(yè)知名度更高,在新產品的推廣、普及上更容易被接受,騰訊和阿里都有自己的業(yè)務線,在成熟產品銷售時,可以將新產品附加給客戶使用。據李明強介紹,市場上不乏一些圖像識別技術領域的同行,如依圖、圖森、曠視科技、格靈深瞳、商湯科技等,大多數都同為創(chuàng)業(yè)企業(yè),但是產品線有所差異,主要是面向安防監(jiān)控、金融、廣告等領域。
圖普科技利用先發(fā)優(yōu)勢,先從“鑒黃”切入人工智能商業(yè)化應用,隨著互聯網內容的發(fā)展以及市場的需求,又順勢展開在暴恐識別、圖片增值、圖像搜索等方面的應用,可以說在發(fā)展上成功地卡位了深度學習技術,當需求爆發(fā)它就快速卡位。
在互聯網信息爆炸的當下,圖像識別功能已經快速應用于各大網站及APP移動手機終端。圖普科技于2014年8月獲北極光Pre-A輪融資數百萬美元,產品在2015年4月上線后,僅1年已經和包括國家旅游局、今日頭條、58同城、迅雷、酷狗、秒拍、小咖秀、唱吧、花椒直播、Bilibili、繁星網、秀色娛樂、CAMERA360、17APP、21CN、風云直播、戰(zhàn)旗TV、糗事百科、花瓣網、微拍、媽媽網等數百家互聯網企業(yè)和政企機構合作。此外,通過入駐七牛云、融云、UCloud、又拍云、AWS等云平臺,間接服務了上萬家客戶,業(yè)務規(guī)模在快速發(fā)展中。