遲珊
伴隨著AI大模型的興起,對人工智能訓(xùn)練師的需求也在持續(xù)增長。
2024年“五一”假期,不少人自駕去淄博吃燒烤,八大局、海岱樓等網(wǎng)紅打卡地車流激增。不過,許多司機發(fā)現(xiàn),這里的道路并沒有想象中擁堵,反而路口綠燈出現(xiàn)頻率要比外地高。河北游客司思就是眾多體驗者之一。司思說:“跟著智行淄博APP的提示走,綠燈通過了好幾個路口,雖然路上看著車很多,但是通行起來非常順暢。”
通行暢通的背后是因為紅綠燈有了“聰明的大腦”。當(dāng)?shù)匕袮I大模型引入交通信號系統(tǒng),利用5G技術(shù),實時采集車流量、紅綠燈等路況信息,由AI基于實時交通狀況進(jìn)行判斷并對信號燈施以自動控制。以薩技術(shù)股份有限公司研創(chuàng)中心人工智能部副總監(jiān)盛校粼說:“就比方說有一段路其實很空,但是它還有一個30秒左右的紅燈,這個時候就可以把這個紅燈給取消掉,這樣會大大提高交通運輸?shù)倪\轉(zhuǎn)效率?!?/p>
要讓AI判斷車流量大小,首先要讓它能在復(fù)雜的路口準(zhǔn)確識別出機動車。與肉眼識別不同,工程師先要對路口監(jiān)控視頻抽幀,把圖片上所有的信息進(jìn)行數(shù)字化。“喂”給AI足夠的數(shù)據(jù)讓其學(xué)會識別之后,它就能自動處理數(shù)據(jù)了。不過,在復(fù)雜的交通環(huán)境下,要讓AI能夠控制信號還需要更多的訓(xùn)練。工程師會輸入大量的歷史交通數(shù)據(jù),使AI積累經(jīng)驗并進(jìn)行模擬推演。
AI的成長,離不開一群人工智能訓(xùn)練師的數(shù)據(jù)“投喂”。根據(jù)《人工智能訓(xùn)練師國家職業(yè)技能標(biāo)準(zhǔn)(2021年版)》的定義,人工智能(AI)訓(xùn)練師是指“使用智能訓(xùn)練軟件,在人工智能產(chǎn)品使用過程中進(jìn)行數(shù)據(jù)庫管理、算法參數(shù)設(shè)置、人機交互設(shè)計、性能測試跟蹤及其他輔助作業(yè)的人員”,工作內(nèi)容包括數(shù)據(jù)采集和處理、數(shù)據(jù)標(biāo)注、智能系統(tǒng)運維、業(yè)務(wù)分析、智能訓(xùn)練、智能系統(tǒng)設(shè)計、培訓(xùn)與指導(dǎo)等。
近幾年,隨著AI技術(shù)不斷發(fā)展,人工智能訓(xùn)練師這個職業(yè)也逐漸壯大。作為“數(shù)字職業(yè)”之一,人工智能訓(xùn)練師的出現(xiàn),加速了AI由技術(shù)研發(fā)走向行業(yè)應(yīng)用的過程,將產(chǎn)生較高的經(jīng)濟價值和社會價值。
讓AI更“聰明”
“畫一幅驢肉火燒?!?/p>
人工智能訓(xùn)練師趙佳明在對話框里輸入了這行文字,向生成式AI “文心一言”發(fā)出指令。
不到1秒鐘,AI就生成了一幅畫——一頭驢,站在一簇火堆旁,火燒得很旺,火里烤著一塊肉。
“你看,驢、肉、火、燒,4個要素全齊了,但這個結(jié)果讓人哭笑不得。這就是最初的,還比較‘笨,只能把你提出的幾個元素簡單機械地組合起來。而我們的工作,就是訓(xùn)練AI,讓它越來越聰明,直到學(xué)會畫出真正的驢肉火燒?!闭f完,趙佳明又向AI發(fā)出同樣的指令。
這次,文心一言生成了一幅燒餅里面夾著肉的圖片?!斑@就是我們訓(xùn)練過的AI,聰明了很多吧!”
那么,如何訓(xùn)練AI呢?“就是將大量的文字、語音、圖像打上標(biāo)記,AI模型識別了這些標(biāo)記,就能被訓(xùn)練出更強的分辨能力?!壁w佳明解釋道。
AI寫詩、編程、篩選簡歷……給AI“喂數(shù)據(jù)”,讓其“長智慧”,這是人工智能訓(xùn)練師的主要工作。
然而,AI總會存在錯誤、偏差。因此,趙佳明和同事們的工作,就是使它離完美更近一步。于是,更高級別的人工智能訓(xùn)練師會根據(jù)AI的表現(xiàn)來對其不斷進(jìn)行糾正和提升,從而使其快速迭代。人工智能訓(xùn)練師猶如AI的老師,通過向AI投喂海量的文本、圖像和語音等,不斷訓(xùn)練和調(diào)整,使AI模型變得更聰明、更智能。
在武漢光庭信息技術(shù)股份有限公司的辦公樓里,一名人工智能訓(xùn)練師正在對自動駕駛特殊場景的圖片進(jìn)行標(biāo)注,比如打傘的行人、非正常停放的機動車、帶雨棚的電動車等。隨后,訓(xùn)練師用特定的文字、數(shù)字等數(shù)據(jù),將標(biāo)記的圖片結(jié)合,再用AI算法分析道路上可能影響車輛行駛的相關(guān)實體。
“通過對AI暫時識別不了的數(shù)據(jù)進(jìn)行標(biāo)注、回灌、反復(fù)‘喂養(yǎng),AI的算法智商可有效提高。”該公司數(shù)據(jù)驅(qū)動研發(fā)實驗室主任郝江波解釋道,人工智能訓(xùn)練師工作的過程就像教師教育學(xué)生的過程,他們需要找出學(xué)生(即AI)不會的題目,向它傳達(dá)準(zhǔn)確的答案,然后不斷地進(jìn)行訓(xùn)練。
以自動駕駛中感知部分的AI為例,人工智能訓(xùn)練師需要了解感知識別的類型、給予模型充足的基礎(chǔ)數(shù)據(jù)訓(xùn)練、檢測模型在哪些場景下“看不清”,有針對性地搜集、標(biāo)注好這些典型數(shù)據(jù),給模型訓(xùn)練。與此同時,人工智能訓(xùn)練師還要研究智能化標(biāo)注平臺,讓價值數(shù)據(jù)的挖掘和標(biāo)注實施更為高效。
一個好的AI模型,不僅需要工程師搭建框架、告訴它如何學(xué)習(xí),還需要訓(xùn)練師提供具體的實踐案例、用數(shù)據(jù)“喂養(yǎng)”它進(jìn)步。人工智能訓(xùn)練師的主要職責(zé)就是為AI產(chǎn)品打造不同應(yīng)用場景,提供各種各樣的“攻擊方式”,從而獲得數(shù)據(jù)反饋給工程師。
浪潮智能終端人工智能研發(fā)經(jīng)理尹青山表示,人工智能訓(xùn)練師在AI技術(shù)落地、AI產(chǎn)品優(yōu)化中發(fā)揮著舉足輕重的作用。比如視覺類AI可以替代人工檢驗商品的瑕疵并進(jìn)行分揀;智能駕駛可以識別道路上的人、車以及障礙物,然后進(jìn)行自動避讓,這些都有人工智能訓(xùn)練師的身影。
中國電信研究院大數(shù)據(jù)與人工智能研究所、大數(shù)據(jù)與認(rèn)知計算研究中心副總監(jiān)胡婕表示,當(dāng)前AI大模型浪潮之下,主要人才缺口存在于訓(xùn)練穩(wěn)定性保障、硬件集群運維、提示詞工程以及大模型精調(diào)等環(huán)節(jié)。而人工智能訓(xùn)練師們的主要工作與大模型精調(diào)環(huán)節(jié)相關(guān)。“這一類職業(yè)往往入門門檻不高,但是進(jìn)階的天花板較高,有經(jīng)驗的精調(diào)工程師能夠幫忙節(jié)省很多的算力?!?/p>
可以說,在快速發(fā)展的AI領(lǐng)域,人工智能訓(xùn)練師很重要。
人工智能訓(xùn)練師人才需求增長
近年來,我國對AI發(fā)展的機遇和頂層設(shè)計給予了高度重視,發(fā)布了多項AI支持政策。國務(wù)院于 2017 年發(fā)布了《新一代人工智能發(fā)展規(guī)劃》;科技部等6部門于 2022 年印發(fā)了《關(guān)于加快場景創(chuàng)新 以人工智能高水平應(yīng)用促進(jìn)經(jīng)濟高質(zhì)量發(fā)展的指導(dǎo)意見》;2024年,“人工智能+”首次被寫入政府工作報告。
2024年3月22日,在昇思人工智能框架峰會上,工業(yè)和信息化部科技司科技發(fā)展處王正表示,從產(chǎn)業(yè)規(guī)???,截至2023年年底,我國人工智能產(chǎn)業(yè)規(guī)模已經(jīng)形成了京津冀、長三角、珠三角三大核心發(fā)展區(qū),核心企業(yè)的數(shù)量超過了4400個,居全球第二。
從加快新藥研發(fā)、精準(zhǔn)預(yù)報天氣,到縮短工廠產(chǎn)品交付周期、提高辦公效率,越來越多的行業(yè)大模型正加快落地。截至目前,中國開發(fā)的AI大模型已經(jīng)在智慧礦山、藥物研發(fā)、氣象、政務(wù)、金融、智能制造、鐵路管理等領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。據(jù)賽迪顧問發(fā)布的《2023年中國生成式AI企業(yè)應(yīng)用研究》預(yù)測,2035年中國企業(yè)生成式AI(AIGC)采用率將達(dá)到85%。
AI大模型通常被用來處理大規(guī)模數(shù)據(jù)并生成復(fù)雜的輸出。這些模型通過預(yù)訓(xùn)練海量語料庫數(shù)據(jù),學(xué)習(xí)到了自然語言中的規(guī)律和模式,并在生成式任務(wù)中有出色的表現(xiàn)。大模型通常用于自然語言處理、圖像識別、語音識別等領(lǐng)域,以實現(xiàn)更準(zhǔn)確的預(yù)測和決策,是具有巨大參數(shù)數(shù)量和計算能力的深度學(xué)習(xí)模型。
伴隨著AI大模型的興起,對人工智能訓(xùn)練師的需求也在持續(xù)增長。無論是企業(yè)的研發(fā)部門、科研院所,還是互聯(lián)網(wǎng)公司、醫(yī)療健康領(lǐng)域、金融行業(yè)等,都需要人工智能訓(xùn)練師進(jìn)行數(shù)據(jù)分析和模型訓(xùn)練,以實現(xiàn)智能化的決策和服務(wù)。
2024年開年以來,Sora的誕生給人們帶來前所未有的視覺震撼,將生成式AI的文生視頻功能提升到全新高度,這也導(dǎo)致了該領(lǐng)域的人才需求激增。數(shù)據(jù)顯示,2024年一季度,生成式AI相關(guān)職位需求同比增長超3倍。
從企業(yè)端來看,前不久,央視財經(jīng)記者采訪了某家大型 AI 軟件公司負(fù)責(zé)人,該公司主要負(fù)責(zé)開發(fā)基于大模型的辦公協(xié)作類軟件,近期計劃升級一款面向程序員的代碼工具,但在拓展至移動端時候苦于人手不夠。
報道稱多數(shù) AI 業(yè)務(wù)團隊長期處于招人狀態(tài)。招聘崗位涉及從底層算力、芯片設(shè)計,到模型訓(xùn)練、商業(yè)落地等多環(huán)節(jié)、全鏈條,招到一個生成式AI崗位的平均耗時是普通崗位的兩倍左右。
不只是科技類企業(yè),生成式AI由于商業(yè)應(yīng)用廣泛,人才稀缺也蔓延到了其他行業(yè)。在一家連鎖餐飲企業(yè),技術(shù)部門負(fù)責(zé)人表示,企業(yè)的后臺系統(tǒng)數(shù)據(jù)龐大,有千萬量級的客戶評價,而傳統(tǒng)分析方式要么不夠精準(zhǔn),要么耗費大量人力。企業(yè)急需利用生成式AI技術(shù),來更精準(zhǔn)地響應(yīng)客戶評價。
未來,隨著生成式AI時代來臨,大模型向百業(yè)千行滲透,增量需求不斷釋放,人工智能訓(xùn)練師的崗位需求將會越來越大。