邵德奇 關(guān)培培 石聰
科技日報社技術(shù)研發(fā)部 北京 100038
當(dāng)今,媒體行業(yè)正經(jīng)歷著從新媒體到融媒體的轉(zhuǎn)型階段,技術(shù)進步正不斷的給媒體行業(yè)賦能??萍既請笫敲嫦驀鴥?nèi)外公開發(fā)行的中央主流新聞媒體,它是科技領(lǐng)域的重要輿論前沿,每天處理國內(nèi)外大量的科技類新聞與資訊。當(dāng)前語料技術(shù)處理手段已經(jīng)比較落后,在效果與體驗上有著很大不足,其中之一體現(xiàn)為無法準確的捕捉到稿件的分類。而在當(dāng)今媒體融合與移動優(yōu)先的大背景下,個性化檢索與推薦等服務(wù)是我們要攻破的重點,而精準分類為這一切的基石。因此本文基于報社自身特點,為了實現(xiàn)高質(zhì)量的稿件分類,更好的服務(wù)科技資訊應(yīng)用,構(gòu)建了一種基于BERT+A-Softmax的多分類模型,效果上好于傳統(tǒng)的分類處理技術(shù),為媒體融合發(fā)展的技術(shù)探索提供了一些思路。
近年來,網(wǎng)絡(luò)用戶對于新聞內(nèi)容的獲取方式由傳統(tǒng)的報紙、電視等單一平臺的獲取方式轉(zhuǎn)變?yōu)橐苿踊ヂ?lián)跨平臺的內(nèi)容獲取。新聞以網(wǎng)絡(luò)為載體,可以更加快速精準的聚焦社會熱點。網(wǎng)絡(luò)新聞文本[1]具有概括性、層級性、序列性與包容性4個特點。面對大量的新聞數(shù)據(jù),如何精準、高效地實現(xiàn)文本分類已成為準確定位用戶需求的關(guān)鍵,因此也是各大媒體平臺亟待解決的問題之一。
已有的文本特征提取方法在主題挖掘等領(lǐng)域有著廣泛的應(yīng)用。如詞頻統(tǒng)計的文本分析方法[2-7],將文本視為詞語的集合,通過統(tǒng)計詞語頻率對文本進行分析,獲取文本所屬分類;主題概率模型[8-12],區(qū)別于詞頻方法,考慮到了語義之間潛在的聯(lián)系,因此可以獲得更高的準確率;相對于傳統(tǒng)的機器學(xué)習(xí)方法,深度學(xué)習(xí)模型[13-17]可以解決數(shù)據(jù)稀疏和維度過多、模型泛化能力有限等問題,因此分類效果優(yōu)于前兩者。
預(yù)訓(xùn)練的方法最初是在圖像領(lǐng)域提出的,并且取得了良好的結(jié)果,這幾年才被應(yīng)用到自然語言處理領(lǐng)域?;陬A(yù)訓(xùn)練模型處理業(yè)務(wù)問題一般分為兩步:首先用某個較大的數(shù)據(jù)集訓(xùn)練模型,將模型表現(xiàn)最好的參數(shù)都保存下來,這個保存好的模型文件即被稱為預(yù)訓(xùn)練模型;然后再根據(jù)不同的業(yè)務(wù)需求微調(diào)改造預(yù)訓(xùn)練模型,達到各自業(yè)務(wù)需求。
自然語言處理領(lǐng)域已有的經(jīng)典預(yù)訓(xùn)練模型有Word2Vec[18]、ELMo[19]等。Word2Vec預(yù)訓(xùn)練模型使用Skipgram(跳字模型)通過預(yù)測某詞的上下文信息來構(gòu)建模型,由于word2vec挖掘了詞語之間的關(guān)聯(lián)屬性,因此使得語義信息更加豐富,其在文本分類中也取得了廣泛的應(yīng)用[20-24]。但由于這種方式使得同一個詞的輸出為同一行向量,因此存在多義詞無法識別等問題。ELMo采用雙向雙層的長短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory),能夠?qū)W習(xí)語義信息和句法信息,其中每個詞的特征向量是通過計算整個句子計算得到的,因此解決了多義詞的問題,ElMo在文本分析領(lǐng)域也取得了不錯的成果[25-28]。但是其所使用的LSTM存在抽取特征能力相對弱且不易于并行計算等問題,因此更好的文本特征提取能力亟待發(fā)掘。
2018年,谷歌發(fā)布了預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers)[29]。BERT是一個預(yù)訓(xùn)練的語言表征模型,網(wǎng)絡(luò)架構(gòu)使用的是Attention is all you need[30]中提出的多層Transformer結(jié)構(gòu)。它強調(diào)了不再像以往一樣采用傳統(tǒng)的單向語言模型或者把兩個單向語言模型進行淺層拼接的方法進行預(yù)訓(xùn)練,而是采用新的Masked Language Model(MLM),以致能生成深度的雙向語言表征。BERT論文發(fā)表時提及在11個NLP(Natural Language Processing,自然語言處理)任務(wù)中獲得了新的突破性的結(jié)果,在NLP業(yè)內(nèi)引起巨大反響。
預(yù)訓(xùn)練模型在垂直領(lǐng)域可以通過Finetune方式取得效果上的提升。Finetune方式是指在已經(jīng)訓(xùn)練好的語言模型的基礎(chǔ)上,加入少量的任務(wù)導(dǎo)向的模型參數(shù)進行再次訓(xùn)練。在分類任務(wù)中,常用方法為在預(yù)訓(xùn)練BERT模型的基礎(chǔ)上加一層softmax網(wǎng)絡(luò),然后在新的語料上重新訓(xùn)練,得到分類模型。
相對于普通softmax網(wǎng)絡(luò),A-Softmax[31]優(yōu)化了損失函數(shù)。A-Softmax將不同類別的輸入映射到了同一個單位超球面的不同區(qū)域,同一個類別數(shù)據(jù)向自己類別中心點匯聚,而類別之間通過角度間隔區(qū)分。因此A-Softmax將以往的優(yōu)化損失函數(shù)內(nèi)積問題轉(zhuǎn)換成了優(yōu)化球面類別的角度間隔問題,由于增加了對角度的懲罰,使得決策邊界更加嚴格和具有區(qū)分性。實驗證明A-Softmax相對于普通softmax可獲得更高的準確率。
在構(gòu)建模型前,我們首先基于報社自身的屬性與需要制定了一套分類體系。后續(xù)的多分類模型的設(shè)計與構(gòu)建圍繞著此分類體系展開。
我們分析了報社內(nèi)部稿件以及各省市科技廳官網(wǎng)開源數(shù)據(jù),設(shè)計了本文的分類體系。其中包含科學(xué)技術(shù)、科技服務(wù)、科技管理、區(qū)域科技、科技人物5個一級分類和對應(yīng)的28個二級分類,其對應(yīng)關(guān)系如表1所示。
表1 分類體系介紹
此分類體系的構(gòu)建考慮了報社自身業(yè)務(wù)發(fā)展的需要,搭建成功后可提高編輯、記者的選題效率,為其提供更加準確的行業(yè)科技資訊。
如圖1所示,多分類模型總體框架由數(shù)據(jù)收集與分析、文本預(yù)處理、模型構(gòu)建和模型評估這4部分組成。
圖1 科技多分類模型構(gòu)建總框架
(1)數(shù)據(jù)收集與分析:基于已有數(shù)據(jù),通過分析與梳理,挖掘數(shù)據(jù)內(nèi)部分布情況,為后續(xù)模型處理提供數(shù)據(jù)支撐。
(2)文本預(yù)處理:對收集到的數(shù)據(jù)做數(shù)據(jù)清洗與數(shù)據(jù)增強,為后續(xù)模型的構(gòu)建提供訓(xùn)練語料。
(3)模型構(gòu)建:根據(jù)語料數(shù)據(jù)分布情況構(gòu)建三模型結(jié)合的分類模型結(jié)構(gòu),形成基于科技新聞資訊語料的分類模型。
(4)模型評估:基于模型評估效果,如果不符合預(yù)期需要重新補充語料以及加強數(shù)據(jù)清洗與數(shù)據(jù)增強能力。
如圖2所示,我們的數(shù)據(jù)大部分來自報社內(nèi)部。原則上,在算法領(lǐng)域,數(shù)據(jù)都起著至關(guān)重要的作用。業(yè)務(wù)數(shù)據(jù)往往需要來自業(yè)務(wù)本身,只有這樣才會更精準的把握業(yè)務(wù)數(shù)據(jù)特性,以便后續(xù)模型能夠更好的服務(wù)于業(yè)務(wù)。在內(nèi)部數(shù)據(jù)不足或者部分內(nèi)容缺失的情況下,我們爬取了網(wǎng)絡(luò)中的開源數(shù)據(jù)以作補充。
圖2 數(shù)據(jù)集來源分布
我們?nèi)斯?shù)據(jù)集進行了標注,其中一級分類及二級分類的數(shù)據(jù)分布如圖3所示。相對來說,數(shù)據(jù)多的分類有利于模型訓(xùn)練,相反對于數(shù)據(jù)少的分類模型無法準確的獲取其特征。從圖3可知我們的數(shù)據(jù)分布并不均衡,需要對數(shù)據(jù)進行進一步處理以達到模型訓(xùn)練標準。
圖3 一、二級分類數(shù)據(jù)分布
按照本文設(shè)計的分類體系,一個二級分類只對應(yīng)一個一級分類。因此我們模型訓(xùn)練的目標僅為二級分類,二級分類確定后,一級分類也即確定。文本預(yù)處理的主要步驟為文體標注、數(shù)據(jù)清洗、去重、數(shù)據(jù)增強以及訓(xùn)練集與測試集切分。
(1)文體標注:在分析稿件時我們發(fā)現(xiàn),科技管理、科技服務(wù)中的稿件文體多為公文,如科技計劃、科技經(jīng)費、科技政策、科技評估等,而其他分類文體多為新聞資訊。因此我們需要對稿件進行文體標注以便訓(xùn)練模型對文體進行區(qū)分。
(2)數(shù)據(jù)清洗:數(shù)據(jù)清洗的主要目的為清理掉文本較短、文本內(nèi)容不合規(guī)的數(shù)據(jù)。
(3)去重:主要為去掉重復(fù)數(shù)據(jù),保留發(fā)布日期最早的稿件。
(4)數(shù)據(jù)增強:數(shù)據(jù)增強為本部分的重點。由于數(shù)據(jù)不均衡,如果將此批數(shù)據(jù)直接灌入模型,則會出現(xiàn)“模型失效”等問題。具體原因為:假設(shè)我們要做一個二分類模型,正樣本占比為99%,負樣本占比為1%。因此對于這批數(shù)據(jù),只要模型將其全部判斷為正樣本,則準確率就可以達到99%。而這并不是我們想要的模型,因此我們希望每類數(shù)據(jù)盡量保持均衡。對于不足的樣本,我們除了從網(wǎng)絡(luò)中爬取有關(guān)數(shù)據(jù)外,還需要對數(shù)據(jù)進行增強操作。
數(shù)據(jù)增強的方式有多種,本文所用的方式為翻譯處理與同義詞替換。具體為(a)翻譯:將文本翻譯成英文,再翻譯回中文,在不改變稿件主題的方式下,改變稿件的表述方式,以達到小樣本增強的效果。(b)同義詞替換:識別文本中的部分詞匯,將其替換成同義詞,原理同翻譯的方式。
數(shù)據(jù)增強后保證每個分類有1000篇左右的稿件。
(5)訓(xùn)練集與測試集切分:對經(jīng)過以上步驟處理后的樣本進行隨機打亂,選取80%為訓(xùn)練集,剩下20%為測試集。
BERT的網(wǎng)絡(luò)架構(gòu)使用的是多層Transformer結(jié)構(gòu)。Transformer是一個編碼-解碼的結(jié)構(gòu):編碼器由多頭Attention和一個全連接組成,用于將輸入語料轉(zhuǎn)化成特征向量;解碼器輸入為編碼器的輸出以及已經(jīng)預(yù)測的結(jié)果,由Masked Multi-Head Attention, Multi-Head Attention以及一個全連接組成,用于輸出最后結(jié)果的條件概率。
我們將BERT與A-Softmax結(jié)合應(yīng)用于文本分類業(yè)務(wù)中。從圖4中可以看出,BERT模型通過查詢向量表,將輸入文本中的每個詞轉(zhuǎn)換為詞向量、文本向量與位置向量,再將這新向量作為模型輸入。
圖4 BERT+A-Softmax的分類模型
(1)詞向量:該向量是在模型訓(xùn)練過程中通過學(xué)習(xí)生成的,表示單個詞的語義信息。
(2)文本向量:同樣該向量也是在模型訓(xùn)練過程中通過學(xué)習(xí)生成的,表示文本的整體語義信息,融合了單個字詞的語義。
(3)位置向量:不同位置的詞權(quán)重存在差異,因此BERT使用位置向量表示詞的位置信息。
將上述的詞向量、文本向量和位置向量作為模型輸入,由BERT進一步提取語義特征后再進入A-Softmax做分類。
最后考慮文體類型,我們需要先設(shè)計文體識別模塊,通過BERT+A-Softmax將稿件進行文體區(qū)分,然后根據(jù)分類結(jié)果輸送到不同的分類模型進行進一步的分類劃分。
如圖5,文體識別是一個基于BERT+ASoftmax模型訓(xùn)練的二分類模型,目的是識別出稿件的文體類別。而新聞稿件分類和公文分類則單獨訓(xùn)練。
圖5 包含文體識別的BERT+A-Softmax模型
評價模型的主要指標有:
(1)準確率(Accuracy)
其中,TP表示真正例,F(xiàn)P表示偽正例,準確率表示預(yù)測為正例的樣本中真正例的比例。
(2)召回率(Recall)
其中,TP表示真正例,F(xiàn)N表示偽反例,召回率表示預(yù)測為正例的樣本占所有正樣本的比例。
(3)F1值(H-mean值)
F1值是對準確率和召回率整體評價的一個指標,只有準確率和召回率都表現(xiàn)的好,F(xiàn)1的值才能高。
我們分別對樸素貝葉斯、FastText和包含文體識別的BERT+A-Softmax模型三種訓(xùn)練方式,基于科技新聞資訊語料做分類效果評估,見表2。
如表2所示,對于同樣一批數(shù)據(jù),包含文體識別的BERT+A-Softmax模型的準確率、召回率及F1值均優(yōu)于其他兩個模型。
科技資訊系統(tǒng)構(gòu)建的目標為以數(shù)據(jù)為核心,打造具有鮮明科技領(lǐng)域特色的服務(wù)傳播平臺??萍级喾诸惸P头?wù)在報社系統(tǒng)中的實施流程如圖6:
圖6 科技多分類模型服務(wù)處理稿件流程
其中,科技多分類模型服務(wù)所處理的數(shù)據(jù)來自兩部分:實時流數(shù)據(jù)與歷史數(shù)據(jù)。實時流數(shù)據(jù)指的是實時進入系統(tǒng)中的數(shù)據(jù),此部分的數(shù)據(jù)在入庫前先經(jīng)過大數(shù)據(jù)分類服務(wù)打上對應(yīng)的分類標簽;歷史數(shù)據(jù)指的是已經(jīng)在系統(tǒng)中未打上標簽的數(shù)據(jù),多來自報社數(shù)據(jù)資源整合后的留存。
打標后的數(shù)據(jù)通過數(shù)據(jù)庫保存,后被各個業(yè)務(wù)系統(tǒng)調(diào)用。
在搜索場景下,多分類模型服務(wù)的應(yīng)用如圖7和圖8所示。
由圖7和圖8可見,左側(cè)導(dǎo)航欄為分類標簽,用戶可以單選或多選分類以限制檢索范圍,進而精確的找到目標稿件。圖7,我們選擇了“能源技術(shù)”作為分類限制條件,而圖8選擇了“汽車”分類。搜索詞均為“碳中和”。我們可以看到搜索結(jié)果圍繞著兩個分類范圍展開,分別在能源和汽車領(lǐng)域檢索到了“碳中和”的有關(guān)稿件,達到我們業(yè)務(wù)預(yù)期。
圖7 科技多分類模型服務(wù)在報社系統(tǒng)中的應(yīng)用
圖8 科技多分類模型服務(wù)在報社系統(tǒng)中的應(yīng)用
目前,我們每天抓取報社各個端口的數(shù)據(jù)并對其進行分類打標,并統(tǒng)計打標結(jié)果。
如圖9所示,我們已經(jīng)實現(xiàn)了對存量686萬數(shù)據(jù)以及每天新增近2千的數(shù)據(jù)的分類打標。為進一步媒體融合發(fā)展、快速挖掘用戶需求,為用戶個性化搜索、推薦提供了技術(shù)與數(shù)據(jù)保障。
圖9 一級分類存量與日增量統(tǒng)計
科技多分類模型服務(wù)圍繞報社各業(yè)務(wù)需求建設(shè),以媒體全產(chǎn)業(yè)鏈能更好的在內(nèi)容領(lǐng)域融合為目標,重點解決大數(shù)據(jù)時代紙媒技術(shù)落后,在分類標簽體系構(gòu)建中存在不足的問題,為打造新的媒體融合目標提供技術(shù)能力支撐。在此基礎(chǔ)上的針對消費者智能、個性化的推薦服務(wù)已經(jīng)成為未來必然發(fā)展的趨勢。具有媒體融合特征的個性化新聞服務(wù)也需要如此,如何讓消費者更輕松、準確的獲取科技類的新聞資源將是我們接下來重要的思考和發(fā)展的方向。