劉娜
8月9日,《科學導報》記者來到位于山西綜改示范區(qū)科技創(chuàng)新孵化基地4號樓的百度(山西)人工智能基礎數(shù)據(jù)產業(yè)基地,一個個神情嚴肅,端坐在電腦前的數(shù)據(jù)標注師,面對復雜數(shù)據(jù)正在一絲不茍地進行標注工作。圖像、語音、視頻、文本……這是他們各自領到的任務,隨著陣陣鼠標點擊聲和鍵盤敲擊聲,一組組復雜的數(shù)據(jù)在他們的手中變得清晰明了。
“每當有人問起我的職業(yè),我說是數(shù)據(jù)標注師時,對方的臉上總是寫滿了問號?!崩钣铨堈f。
李宇龍在百度(山西)人工智能基礎數(shù)據(jù)產業(yè)基地(簡稱“百度基地”)從事數(shù)據(jù)標注工作已經5年了。他說,自己和許多同事目前最大的心愿就是,希望有一天大家提起數(shù)據(jù)標注師就像提起教師、醫(yī)生一樣熟悉,期待有越來越多的人了解這個行業(yè)。
什么是數(shù)據(jù)標注?簡單來說,就是通過對數(shù)據(jù)貼標簽、做記號、標顏色或劃重點的方式,標注出其中目標數(shù)據(jù)的不同點、相似點或類別,以此達到讓機器學習的功能?!皵?shù)據(jù)標注是傳統(tǒng)制造升級為智能制造、信息計算升級為人工智能的必要環(huán)節(jié),其質量直接決定著機器智能化的程度,是它們讓機器成為‘天才。”省工信廳大數(shù)據(jù)辦相關人士的解釋更專業(yè)明了。
鮮為人知的是,人工智能是需要被人為教導訓練而成。人工智能所需要的教導,背后是經過大量的學習訓練而成。
機器并不能理解原始數(shù)據(jù),這些原始數(shù)據(jù)需要人為的“標簽化”,通過標注賦予這些數(shù)據(jù)能夠被機器所識別的特性,才可以被用于訓練。正是依據(jù)這些大量而有效的數(shù)據(jù)總結規(guī)律,機器和人工智能才能最終形成自己的工作模式,變得越來越“聰明”。
人工智能行業(yè)有句話:有多少智能,背后就有多少人工。2020年2月,“人工智能訓練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄。他們的工作是教會AI認識數(shù)據(jù),有了足夠多、足夠好的數(shù)據(jù),AI才能學會像人一樣去感知、思考和決策,更好地為人類服務。
李宇龍雖然從未見過自動駕駛汽車,但他最近正在做的工作卻與自動駕駛技術的AI算法息息相關?!澳憧矗哑嚳蚱饋?,都打成白色的點,就代表這是一個障礙物?!彪S著李宇龍鼠標的快速滑動,屏幕上的點云圖不斷翻轉,一個個針尖大的數(shù)據(jù)點被標注在圖中不同物體上——藍色是路面、綠色是綠植、紅色是路沿、白色是障礙物。事實上,自動駕駛汽車眼中的世界就是一幅幅不斷變幻的點云圖。數(shù)據(jù)標注師要做的就是對照攝像頭拍攝的照片,賦予這些點云圖以準確的含義。
記者采訪中了解到,現(xiàn)在數(shù)據(jù)標注的內容已經從圖片拓展到語音,數(shù)據(jù)集中除了自動駕駛,還有醫(yī)療CT、人臉等,語音數(shù)據(jù)除了有普通話、各地方言外還有外語,這些數(shù)據(jù)集涵蓋的范圍越來越廣,使得行業(yè)對數(shù)據(jù)標注師的要求也越來越高。