国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種循環(huán)迭代的智能語料標(biāo)注系統(tǒng)

2021-11-08 02:37劉勇陸小慧
廣東通信技術(shù) 2021年10期
關(guān)鍵詞:校驗(yàn)語料人工

[劉勇 陸小慧]

1 研究背景

在人工智能飛速發(fā)展的今天,特別是在認(rèn)知智能的智能問答系統(tǒng)研發(fā)過程中,語料的標(biāo)注和校對(duì)工作一直需要消耗大量的人力和時(shí)間。眾所周知,人工智能領(lǐng)域的算法模型需要通過訓(xùn)練大量的語料得到,這些訓(xùn)練語料被事先進(jìn)行標(biāo)注,往往通常都是人工標(biāo)注,標(biāo)注過程需要耗費(fèi)大量人力和時(shí)間。

因?yàn)闃?biāo)注的過程實(shí)際上是對(duì)語料中語言單位的特征進(jìn)行解釋的過程,不同的人可能會(huì)有不同的解釋結(jié)果,所以語料標(biāo)注帶有很大的主觀性。不同標(biāo)注者的知識(shí)結(jié)構(gòu)和語法理論也各不相同,如果只以少數(shù)人的標(biāo)注結(jié)果作為訓(xùn)練語料,訓(xùn)練出的算法就可能有較大的誤差。

本文研究旨在積累歷史語料標(biāo)注結(jié)果對(duì)算法模型訓(xùn)練的效果,降低語料標(biāo)注工作的人力和時(shí)間成本投入,降低標(biāo)注過程中的失誤率,提高語料標(biāo)注的準(zhǔn)確率和效率。

2 系統(tǒng)定義與關(guān)鍵技術(shù)

語料標(biāo)注,是對(duì)原始浯料進(jìn)行加工,把各種表示語言特征的標(biāo)簽標(biāo)注在相應(yīng)的語言成分上,以便于計(jì)算機(jī)的識(shí)別和讀取。包括:實(shí)體標(biāo)注、詞性標(biāo)注、句法標(biāo)注、分類標(biāo)注、情感標(biāo)注、篇章關(guān)系標(biāo)注等。

本文研究并通過實(shí)施例詳細(xì)說明了一種語料標(biāo)注方法和系統(tǒng),即根據(jù)預(yù)設(shè)的算法模型對(duì)待標(biāo)注語料集中的語料進(jìn)行標(biāo)注,基于標(biāo)注結(jié)果生成對(duì)應(yīng)的訓(xùn)練集,通過訓(xùn)練集更新算法模型,用于下一次語料標(biāo)注。通過本文實(shí)施例的實(shí)施,以每一次標(biāo)注后的結(jié)果來更新算法模型,從而大大減少了人工標(biāo)注的工作量,同時(shí)提升了標(biāo)注的一致性和準(zhǔn)確性。本系統(tǒng)分為如下3 個(gè)模塊。

①語料標(biāo)注模塊,用于根據(jù)預(yù)設(shè)的算法模型對(duì)待標(biāo)注語料集中的語料進(jìn)行標(biāo)注;

② 訓(xùn)練生成模塊,用于基于標(biāo)注的結(jié)果,生成對(duì)應(yīng)的訓(xùn)練集;

③算法訓(xùn)練模塊,用于通過所述訓(xùn)練集更新所述算法模型,用于下一次的語料標(biāo)注,如圖1 所示。

圖1 語料標(biāo)注方法流程圖

首次語料標(biāo)注工作需要采用原始的人工標(biāo)注方式,將標(biāo)注結(jié)果作為訓(xùn)練語料用于初始算法模型的訓(xùn)練。從第二輪迭代開始,只需將前一次標(biāo)注的語料訓(xùn)練得到的算法模型,應(yīng)用于為標(biāo)注語料設(shè)計(jì)的標(biāo)注系統(tǒng)中。該語料標(biāo)注系統(tǒng)可自動(dòng)將現(xiàn)有語料同領(lǐng)域的不同細(xì)分小類的語料進(jìn)行標(biāo)注,且準(zhǔn)確率較高,并篩選出少量當(dāng)前算法未覆蓋到的無法實(shí)現(xiàn)自動(dòng)標(biāo)注的語料,在下一輪迭代中進(jìn)行人工標(biāo)注。假設(shè)第三輪跌代出現(xiàn)不同領(lǐng)域的語料時(shí),則需要人工參與新領(lǐng)域語料的標(biāo)注,并將語料標(biāo)注結(jié)果應(yīng)用于算法模型的訓(xùn)練中。從第四輪迭代開始,只需將第三輪跌代輸出的算法模型,再次應(yīng)用于當(dāng)前語料標(biāo)注系統(tǒng),使智能標(biāo)注系統(tǒng)得到擴(kuò)展,算法覆蓋面更大,準(zhǔn)確率更高,標(biāo)注系統(tǒng)更加智能,可自動(dòng)化實(shí)現(xiàn)新一種領(lǐng)域的語料標(biāo)注工作。

如此循環(huán)迭代,語料標(biāo)注系統(tǒng)可隨算法訓(xùn)練和人工標(biāo)注新領(lǐng)域語料的持續(xù)作用日益完善,變得更加智能,從而大大提高語料標(biāo)注的工作效率,降低相似語料的人工標(biāo)注成本。

對(duì)于同領(lǐng)域相同子類的語料,如果將多人多次標(biāo)注的結(jié)果持續(xù)積累起來,從一定程度上能降低人工標(biāo)注主觀性引起的誤差。

該系統(tǒng)不受限于算法或數(shù)據(jù)的類型,無論是文本、音視頻還是圖片圖像的數(shù)據(jù),以及對(duì)應(yīng)于這些數(shù)據(jù)的各種算法,都可以按照這種循環(huán)迭代的方式構(gòu)建一個(gè)標(biāo)注系統(tǒng),來實(shí)現(xiàn)智能化的數(shù)據(jù)標(biāo)注。具體來說,該系統(tǒng)實(shí)現(xiàn)分4 個(gè)部分:①對(duì)算法模型未覆蓋語料進(jìn)行人工標(biāo)注;② 用標(biāo)注的語料進(jìn)行算法模型訓(xùn)練;③將算法模型應(yīng)用于智能標(biāo)注系統(tǒng)中;④ 智能標(biāo)注系統(tǒng)對(duì)同領(lǐng)域新語料實(shí)現(xiàn)自動(dòng)化標(biāo)注。

下面對(duì)該系統(tǒng)的實(shí)現(xiàn)流程加以說明,如圖2 所示。

圖2 語料標(biāo)注示意圖

其中,語料集A 作為初始語料集,以人工標(biāo)注的形式進(jìn)行標(biāo)注并生成訓(xùn)練集A,基于訓(xùn)練集A 訓(xùn)練出了算法模型,此處即為初始算法模型。語料集B 作為與語料A領(lǐng)域相同的語料集,也就是與算法模型領(lǐng)域一致的語料,可直接通過集成了該算法模型的自動(dòng)化標(biāo)注系統(tǒng)進(jìn)行標(biāo)注;該自動(dòng)化標(biāo)注系統(tǒng)除了集成了算法模型之外,還具備一些標(biāo)注所需的其他組成部分,比如工作流、權(quán)限控制等相關(guān)功能。盡管如此,語料集B 中還有領(lǐng)域之下的類別不同的語料集B’,不能直接通過算法模型進(jìn)行標(biāo)注,而采用人工的方式進(jìn)行標(biāo)注。語料集C 是與語料集A 領(lǐng)域不同的語料集,也就是與算法模型領(lǐng)域不一致的語料集,直接通過人工標(biāo)注的方式進(jìn)行標(biāo)注。

不管是對(duì)語料集B的標(biāo)注,還是對(duì)語料集B’的標(biāo)注,還是對(duì)語料集C的標(biāo)注,最終均生成對(duì)應(yīng)的訓(xùn)練集,通過訓(xùn)練集來更新算法模型,作為下一次的語料標(biāo)注所參考的算法模型。

此外,還可以包括,根據(jù)在各次算法模型對(duì)待標(biāo)注集中的語料進(jìn)行標(biāo)注時(shí),語料集B 在待標(biāo)注語料集中的占比,和/或各次標(biāo)注的準(zhǔn)確率,評(píng)估算法模型對(duì)待標(biāo)注語料的標(biāo)注能力是否達(dá)標(biāo)。在每一次的語料標(biāo)注中,根據(jù)待標(biāo)注語料的領(lǐng)域與算法模型的領(lǐng)域的相同與否,會(huì)對(duì)應(yīng)產(chǎn)生相應(yīng)的語料集B 和語料集C,根據(jù)可以直接標(biāo)注的語料集B 在待標(biāo)注語料集中的占比可以確定算法模型的標(biāo)注能力;另外,每一次對(duì)于待標(biāo)注語料集的標(biāo)注之后,再經(jīng)過校驗(yàn)就可以得知標(biāo)注的準(zhǔn)確率,根據(jù)準(zhǔn)確率也可以確定算法模型的標(biāo)注能力。在得知算法模型的標(biāo)注能力之后,如果算法模型的標(biāo)注能力較弱,或者是標(biāo)注能力不達(dá)標(biāo),則可能需要繼續(xù)借助語料集進(jìn)行訓(xùn)練,逐步完善算法模型標(biāo)注能力。

基于標(biāo)注的結(jié)果生成對(duì)應(yīng)的訓(xùn)練集。生成訓(xùn)練集是為生成算法模型,以及更新算法模型提供了可能,由于初始算法模型已經(jīng)根據(jù)對(duì)初始語料的人工標(biāo)注生成了,因此后續(xù)的訓(xùn)練集都是作為更新算法模型而用。

通過訓(xùn)練集更新算法模型,用于下一次的語料標(biāo)注。下一次的語料標(biāo)注一般都是參考上一次的語料標(biāo)注更新后的算法模型來進(jìn)行,而迭代的次數(shù)越多,覆蓋的領(lǐng)域越廣,因此需要人工參與的次數(shù)也越少,標(biāo)注的準(zhǔn)確率也越高。為了保證語料標(biāo)注的可靠性,通過訓(xùn)練集更新算法模型可以包括:對(duì)訓(xùn)練集進(jìn)行校驗(yàn);在校驗(yàn)完成后,通過校驗(yàn)后的訓(xùn)練集對(duì)算法模型進(jìn)行更新?;跇?biāo)注的結(jié)果對(duì)訓(xùn)練集進(jìn)行校驗(yàn)可以包括:以抽查的方式從訓(xùn)練集中隨機(jī)抽取部分進(jìn)行校驗(yàn);或以全量的方式,直接校驗(yàn)訓(xùn)練集中的所有內(nèi)容。

3 具體實(shí)施方式

下面具體描述一下細(xì)化的流程,如圖3 所示。

圖3 標(biāo)注方法細(xì)化流程圖

我們先確定待標(biāo)注的語料集:語料可以包括智能問答系統(tǒng)中的語料,文本識(shí)別中的文本,以及音視頻、圖片等多媒體語料。

基于上一次語料標(biāo)注后的算法模型,對(duì)待標(biāo)注的語料集中的語料進(jìn)行標(biāo)注;語料中往往包含了很多很豐富的內(nèi)容,但是計(jì)算機(jī)可能不能直接的識(shí)別和讀取,因此需要對(duì)這些語料進(jìn)行標(biāo)注,標(biāo)注也就是對(duì)語料庫(kù)中的語料進(jìn)行加工,把語料中的各種特征以計(jì)算機(jī)可識(shí)別的方式進(jìn)行標(biāo)注。

算法模型根據(jù)迭代階段的不同,大致可分為初始算法模型和過渡算法模型兩類;初始算法模型,也就是在本次語料標(biāo)注中第一個(gè)算法模型,這個(gè)算法模型大致決定了以后所有相關(guān)的語料標(biāo)注的算法邏輯。過渡算法模型指的是在初始算法模型之外的算法模型,與初始算法模型不同,過渡算法模型通常是持續(xù)變化的。

判斷標(biāo)注是否成功,也就是從語料中篩選出語料集B 和語料集C的過程;而確定待標(biāo)注語料集中的語料集B和語料集C的方式,可以是通過關(guān)鍵詞篩選等等方式進(jìn)行,或者是由人工參與進(jìn)行判斷,或者是直接假設(shè)都是相同領(lǐng)域的直接進(jìn)行標(biāo)注。對(duì)于無法直接標(biāo)注的部分則分離出來作為不同領(lǐng)域的語料集C 進(jìn)行人工標(biāo)注。

基于標(biāo)注結(jié)果,生成訓(xùn)練集。生成訓(xùn)練集就為生成算法模型,以及更新算法模型提供了可能。由于初始算法模型已經(jīng)根據(jù)對(duì)初始語料的人工標(biāo)注生成了,因此后續(xù)的訓(xùn)練集都是作為更新算法模型而用。

為了保證語料標(biāo)注的可靠性,可對(duì)訓(xùn)練集進(jìn)行校驗(yàn),具體的校驗(yàn)方式可以包括:以抽查的方式從訓(xùn)練集中隨機(jī)抽取部分進(jìn)行校驗(yàn);或者以全量的方式,直接校驗(yàn)訓(xùn)練集中的所有內(nèi)容。

通過校驗(yàn)后的訓(xùn)練集更新算法模型,返回供下次標(biāo)注新的語料集;并通過人工標(biāo)注對(duì)標(biāo)注失敗的語料進(jìn)行標(biāo)注。

下面對(duì)技術(shù)方案的實(shí)施做進(jìn)一步的詳細(xì)描述,如圖4所示。

圖4 銀行業(yè)務(wù)語料標(biāo)準(zhǔn)流程示意圖

本實(shí)施例中的語料標(biāo)注方法以銀行的業(yè)務(wù)語料為基礎(chǔ),通過訓(xùn)練相應(yīng)的算法模型和循環(huán)迭代,來實(shí)現(xiàn)自動(dòng)標(biāo)注。智能語料標(biāo)注系統(tǒng)不斷將用新語料訓(xùn)練得到的算法模型進(jìn)行集成,標(biāo)注系統(tǒng)以循環(huán)迭代的方式得到擴(kuò)展和優(yōu)化。

以智能語料標(biāo)注系統(tǒng)以建行業(yè)務(wù)語料為基礎(chǔ),將訓(xùn)練出的算法模型集成,經(jīng)過迭代后可以自動(dòng)對(duì)中行語料進(jìn)行標(biāo)注為例,循環(huán)迭代的智能語料標(biāo)注系統(tǒng)實(shí)現(xiàn)步驟如圖4 所示。

步驟1,確定第一批銀行A的業(yè)務(wù)語料;

步驟2,形成銀行A的語料訓(xùn)練集;

步驟3,基于銀行A的語料訓(xùn)練集訓(xùn)練生成算法模型,嵌入智能標(biāo)注系統(tǒng)中;

步驟4,第二批銀行B的業(yè)務(wù)語料需要進(jìn)行標(biāo)注時(shí),判斷銀行A 和銀行B的業(yè)務(wù)語料同屬于銀行領(lǐng)域的語料,屬于同一領(lǐng)域的不同子類,大部分業(yè)務(wù)用語、詞匯相似,于是將銀行B的業(yè)務(wù)語料輸入智能標(biāo)注系統(tǒng)中進(jìn)行自動(dòng)化標(biāo)注。根據(jù)需要自動(dòng)標(biāo)注的語料規(guī)模,可考慮部署分布式智能標(biāo)注系統(tǒng)。

步驟5,對(duì)于銀行B的業(yè)務(wù)語料中,無法通過智能標(biāo)注系統(tǒng)中的算法模型自動(dòng)標(biāo)注的部分,形成X 語料’,人工對(duì)X 語料’進(jìn)行標(biāo)注,此時(shí)大大降低了人工標(biāo)注的工作量和耗時(shí)。人工標(biāo)注的結(jié)果形成第二批訓(xùn)練集,再次執(zhí)行步驟2、步驟3,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到第二次優(yōu)化和擴(kuò)充。

步驟6,當(dāng)?shù)谌y行X的業(yè)務(wù)語料需要標(biāo)注時(shí),重復(fù)步驟4 中的操作,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到再一次優(yōu)化和擴(kuò)充。

步驟7,當(dāng)?shù)谒呐畴娚痰目头Z料需要進(jìn)行標(biāo)注時(shí),判斷電商的客服語料和已人工標(biāo)注過的銀行語料不是同一領(lǐng)域的語料,用語、詞匯差異很大,于是人工對(duì)某電商客服語料進(jìn)行標(biāo)注。形成第四批訓(xùn)練集,再次執(zhí)行步驟2、步驟3,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到第四次優(yōu)化和擴(kuò)充。

步驟8,當(dāng)?shù)谖迮娚蘕的客服語料需要標(biāo)注時(shí),重復(fù)步驟4 中的操作,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到第五次優(yōu)化和擴(kuò)充。

如果需要對(duì)同領(lǐng)域同子類型的語料進(jìn)行標(biāo)注,使用智能標(biāo)注系統(tǒng)對(duì)這些語料進(jìn)行自動(dòng)化標(biāo)注,如果智能標(biāo)注系統(tǒng)已經(jīng)過多輪迭代和優(yōu)化擴(kuò)充,這批語料理論上可以完全實(shí)現(xiàn)自動(dòng)化標(biāo)注且準(zhǔn)確率達(dá)標(biāo)。

分析智能標(biāo)注系統(tǒng)對(duì)同領(lǐng)域不同子類、同領(lǐng)域相同子類新語料的自動(dòng)化標(biāo)注比例和準(zhǔn)確率,可以判斷是否需要收集更多更豐富的語料來繼續(xù)訓(xùn)練算法模型。

4 總結(jié)

本文研究并提供了一種人工智能認(rèn)知智能領(lǐng)域的語料標(biāo)注方法和系統(tǒng),首先確定已生成的算法模型,根據(jù)算法模型對(duì)待標(biāo)注語料集中的語料進(jìn)行標(biāo)注;基于標(biāo)注結(jié)果生成對(duì)應(yīng)的訓(xùn)練集,通過訓(xùn)練集更新算法模型,用于下一次語料標(biāo)注。通過本文舉例實(shí)施例的實(shí)施,以每一次標(biāo)注后的結(jié)果來更新算法模型,從而大大減少了人工標(biāo)注的工作量,同時(shí)也提升了標(biāo)注的一致性和準(zhǔn)確性。

每當(dāng)一批新語料需要進(jìn)行標(biāo)注時(shí),人工判斷這批新語料是否屬于現(xiàn)有領(lǐng)域及子類,如果屬于現(xiàn)有領(lǐng)域的新子類,則用標(biāo)注系統(tǒng)自動(dòng)標(biāo)注,并篩選出系統(tǒng)無法覆蓋到的未實(shí)現(xiàn)自動(dòng)標(biāo)注的語句進(jìn)行人工標(biāo)注;如果屬于新領(lǐng)域的語料則直接進(jìn)行人工標(biāo)注。

根據(jù)實(shí)現(xiàn)自動(dòng)標(biāo)注的語料所占新語料的百分比,結(jié)合標(biāo)注系統(tǒng)對(duì)現(xiàn)有領(lǐng)域新子類語料歷次能實(shí)現(xiàn)自動(dòng)化標(biāo)注比例經(jīng)驗(yàn)值及標(biāo)注準(zhǔn)確率,及人工對(duì)這批新語料類別的判斷,可分析出當(dāng)前該標(biāo)注系統(tǒng)在某領(lǐng)域某子類的自動(dòng)化標(biāo)注能力是否達(dá)標(biāo),是否需要更多的該領(lǐng)域語料來訓(xùn)練算法。

如果需要自動(dòng)標(biāo)注的語料規(guī)模較大,該智能標(biāo)注系統(tǒng)可考慮分布式部署。

該系統(tǒng)不受限于算法或數(shù)據(jù)的類型,無論是文本、音視頻還是圖片圖像的數(shù)據(jù),以及對(duì)應(yīng)于這些數(shù)據(jù)的各種算法,都可以按照這種循環(huán)迭代的方式構(gòu)建一個(gè)標(biāo)注系統(tǒng),來實(shí)現(xiàn)智能化的數(shù)據(jù)標(biāo)注。

猜你喜歡
校驗(yàn)語料人工
人工3D脊髓能幫助癱瘓者重新行走?
人工,天然,合成
人工“美顏”
爐溫均勻性校驗(yàn)在鑄鍛企業(yè)的應(yīng)用
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
新型多孔鉭人工種植牙
結(jié)合抓包實(shí)例分析校驗(yàn)和的計(jì)算
大型電動(dòng)機(jī)高阻抗差動(dòng)保護(hù)穩(wěn)定校驗(yàn)研究
基于加窗插值FFT的PMU校驗(yàn)方法
《苗防備覽》中的湘西語料