咖啡貓
為推動智能時代的巨輪滾滾向前,AI行業(yè)需要龐大的、標注好的數(shù)據(jù)作為養(yǎng)分。這些數(shù)據(jù)大多出自一些拿著微薄收入、對AI一頭霧水的年輕人,他們是人工智能背后的“人工”。
在科幻小說《北京折疊》中。城市里的上流、中產(chǎn)、底層三個階層分別生活在三個空間,作者將這種階層分化割裂喻作“折疊”。如今的AI的世界也存在著類似的折疊:
一邊是炫醋的科技、神奇的智能應用;一邊是大量人工每天重復地生產(chǎn)機器學習的“食物”——標注好的數(shù)據(jù)。
北京和貴陽,是數(shù)據(jù)標注世界里的兩座“雙子星”城市。北京聚集了大量AI公司:貴陽近年來著力發(fā)展“大數(shù)據(jù)戰(zhàn)略”,已擁有相對完整的數(shù)據(jù)服務產(chǎn)業(yè)生態(tài)。
2017年,僅北京中關村大數(shù)據(jù)產(chǎn)業(yè)規(guī)模就超過700億元;貴陽2017年的大數(shù)據(jù)產(chǎn)業(yè)及其關聯(lián)產(chǎn)業(yè)規(guī)??偭砍^1500億元。
但標注數(shù)據(jù)的人,生活在這些巨額數(shù)字之外,拿著不高的工資,活動在“第二空間”。
從三里屯驅車1小時,行駛30千米,就到了北京郵電大學宏福校區(qū)。這里有北郵和華騰碩博合辦的電子商務培訓班,學生總數(shù)300多人,高峰時期,有120多人參與數(shù)據(jù)標注的兼職項目。
他們多是18歲左右的學生,每天盯著電腦屏幕給圖片做標注。他們服務于一個炫醋的無人駕駛項目。
他們一個月的收入在2000元左右,如果全職做,收入能有4000-5000元。他們參與的標注項目多是培訓班從上游的AI公司承包過來的。
為什么是承包?
因為能夠供機器使用的數(shù)據(jù)必須是經(jīng)過標注的數(shù)據(jù),這意味著需要大量人力去完成標注工作。而AI公司要么為了集中精力開展研發(fā),要么為了保持團隊的高學歷占比,很少會選擇完全自建數(shù)據(jù)標注團隊。他們更傾向于把這些工作交給第三方公司完成。
而承包這類工作的企業(yè),又有“眾包”和“工廠”兩種模式。前者是通過平臺,如“百度眾包”“京東眾智”“龍貓數(shù)據(jù)”,把任務轉發(fā)給網(wǎng)民;后者要么是正規(guī)的機構,要么是20人以下規(guī)模不等的“小作坊”。它們接到項目后會負責數(shù)據(jù)標注的全部流程。
目前來看,數(shù)據(jù)標注企業(yè)大多分布在三四線城市,屬于“勞動密集型”的中低收入行業(yè)。愿意做這行的人,又大多把數(shù)據(jù)標注當成外賣、快遞行業(yè)的替代品。
例如,在距離貴陽市中心50千米的百鳥河數(shù)字小鎮(zhèn),就有一個規(guī)模500人的“數(shù)據(jù)工場”。在這500名標注員中,近一半的人是來自附近一家高職的學生。
這些學生很珍惜這個兼職機會。他們每月能掙到1500元,不僅足以自立,省吃儉用還能補貼家庭。并且,數(shù)據(jù)標注不用在戶外經(jīng)受日曬雨淋,相對輕松、體面。
但這份工作的未來前途不可預期,以及相對低的收入和較大的家庭負擔,都成為了這些年輕人無法擺脫的苦惱。
數(shù)據(jù)標注是一個勞動密集型行業(yè),進入門檻并不高。因此,許多公司就通過壓低“成本”“薄利多量”的手段開展競爭。
據(jù)了解,許多專職數(shù)據(jù)標注的公司大多通過招聘臨時工來省去五險一金的人力成本。事實上,在縣級小城里僅憑7萬~8萬元的啟動資金就能組起一個“團隊”。
另一方面,AI公司也傾向壓低成本。對此,某數(shù)據(jù)標注外包公司主管表示,部分AI公司不夠重視數(shù)據(jù)標注,在壓低項目總體預算時,會選擇把數(shù)據(jù)標注工作外包給一些不靠譜的團隊。但這些團隊做不下來時,又會把任務轉包給另一些小團隊,或重新找到大型數(shù)據(jù)標注公司,直接影響最終質量和交付期限。
“低價競爭和行業(yè)不規(guī)范導致的層層外包是行業(yè)的噩夢?!本〇|眾智平臺的負責人李工還認為,外包還直接折損了小團隊的利潤。
例如,何軍就在2017年底投入10萬元,在河南周口成立了一個40人規(guī)模的數(shù)據(jù)標注工作室。
“利潤其實不高,”何軍細細算賬,“一個拉框值4分錢,一個標注員一天能做大約4500個,但過關率只有90%,實際只有160元左右,再除去審核的成本,再給每個標注員每天發(fā)110元左右的工資,平均下來工作室每天也就從每個人身上賺30元吧?!焙诬娨恢倍贾唤拥蕉猪椖?,第一個月虧了本,第二個月勉強持平。他希望在2018年“爭取接到一手項目”。
事實上,小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說——聽過,沒見過。
其實,大平臺也反感層層外包。比如,要完成一些特定的復雜任務,需要對人員進行長達1-3個月的培訓。然而,臨時工組建而成的小團隊大多跳過這一步。不僅如此,他們在理解客戶需求,保證數(shù)據(jù)的多樣性、隨機性等方面也欠缺足夠的能力。
何軍時常處于一種對未來的不安之中,因為他對技術動向缺乏把握。當他聽聞“算法升級后,將不再需要大量人工標注”時,便緊張起來。
數(shù)據(jù)標注服務商BasicFinder的CEO杜霖則認為,數(shù)據(jù)標注的市場才剛打開,未來5年內(nèi),數(shù)據(jù)需求將緊隨AI的大規(guī)模落地,引來一波爆發(fā)式增長。
首先,這是由于AI行業(yè)本身的發(fā)展將進一步帶動數(shù)據(jù)標注行業(yè)。
其次,目前能被建模量化的數(shù)據(jù)只占真實世界中的極少一部分,而現(xiàn)有的數(shù)據(jù)標注業(yè)務又主要集中在安防和自動駕駛領域,未來隨著AI深入更多垂直行業(yè),新的數(shù)據(jù)需求將不斷出現(xiàn)。
杜霖就分享了一個很有意思的標注項目——將人的指甲框出來,因為客戶要做美甲機器人。
第三,在當下主流的“有監(jiān)督學習”算法模型下,為了讓算法準確率更高,需要更多數(shù)據(jù)。
第四,從感知智能向認知智能的進化過程中需要不同維度的數(shù)據(jù),這可能會進一步催生出更精細的數(shù)據(jù)標注需求。比如,對一段對話數(shù)據(jù)的標注,不僅要知道對話內(nèi)容、語義,甚至還需要標注談話者的身份、情緒變化等。
杜霖還提到,目前AI公司的總支出中,20%-30%都用于數(shù)據(jù),現(xiàn)階段大陸市場數(shù)據(jù)采集及標注的規(guī)模保守估計也有50億元。綜合以上4點,未來包括采集、標注、清洗等流程的數(shù)據(jù)市場將達上百億元。
值得一提的是,這些預期都是基于“有監(jiān)督學習”這個大前提。如果算法從“有監(jiān)督學習”升級為“無監(jiān)督學習”等新算法,那么數(shù)據(jù)標注需求將大大減少。但是在目前,無監(jiān)督學習等新算法尚不能用在大規(guī)模的商業(yè)落地中。
因此杜霖判斷,新的革新性算法至少在5年內(nèi)都不會出現(xiàn)。深度學習訓練平臺Novumind創(chuàng)始人吳韌也認為,深度學習+大數(shù)據(jù)較難出現(xiàn)顛覆陛的其他路徑。
5年,這對數(shù)據(jù)標注公司來說是一個可以布局、掉頭的“窗口期”。
京東眾智的李工說,他們應對變化的策略是著力研發(fā)加速AI落地速度的Pre-A.I.產(chǎn)品,并同時研發(fā)平臺技術,做到“數(shù)據(jù)與流程分離架構”,因此數(shù)據(jù)標注不是他們的核心戰(zhàn)略。
BasicFinder也有類似布局,他們希望一手對接垂直行業(yè)里的數(shù)據(jù)生產(chǎn)者,一手對接上游的算法模型公司,共同推進AI的落地。
但對數(shù)據(jù)標注員這些個體來說,5年后也許就得面臨一次“失業(yè)”。那時,他們還能跟隨時代的腳步騰挪轉移嗎?
小袁暫時想不到5年后那么長久的事。
他作為一名換過40份工作的聾啞人。很慶幸終于在數(shù)據(jù)標注行業(yè)成了“有用的人”。現(xiàn)在,他是京東眾智平臺上“靜公會”的聾啞人標注員,而這個公會全部由聽障人士組成。
聾啞人的世界里多為名詞,缺乏形容詞。比如,要向他們解釋這根線標得不“直”,就會比較費勁。因此,健全人1周能完成的數(shù)據(jù)標注培訓,聾啞人要花3周或更久。但是他們的優(yōu)點是專注、較真、對視覺信號敏銳,數(shù)據(jù)標注行業(yè)反而成了他們的機會。
像小袁這樣的聾啞人在眾智平臺上還有1000多名,京東為他們成立的“靜公會”,在項目工作上優(yōu)先照顧。比如,杜霖手下也有3個殘疾人團隊,總共約80人。
杜霖和京東眾智平臺負責人都表示,愿意為更多殘疾人提供工作機會,這里是他們的家。而其中的少數(shù)人,也許能通過轉型為數(shù)據(jù)質檢者,在職場走得更遠。
需要思考的是,AI行業(yè)發(fā)展到一定階段可能就不再需要大量的人工標注,屆時,我們會遺忘這些AI領域的“首批工人”嗎?這可能是除了技術水平之外,判斷那個“未來”是好是壞的更重要的標準。
(本文摘編自微信公眾號“甲子光年”)