国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的微博突發(fā)事件提取系統(tǒng)設(shè)計與實現(xiàn)

2019-09-18 03:58劉肖萌滕輝龍飛
中國科技縱橫 2019年14期
關(guān)鍵詞:遷移學(xué)習(xí)突發(fā)事件深度學(xué)習(xí)

劉肖萌 滕輝 龍飛

摘 要:隨著社交媒體的發(fā)展,微博平臺已經(jīng)成為傳遞信息的重要媒介,從微博中快速識別和提取出突發(fā)事件是近些年來的研究熱點。本文將突發(fā)事件識別和提取轉(zhuǎn)化為文本分類問題,并使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)這兩種典型的深度學(xué)習(xí)模型完成文本分類功能。實踐表明,本文使用的方法可以完成微博突發(fā)事件提取任務(wù),不間斷地采集微博數(shù)據(jù),經(jīng)過系統(tǒng)處理自動為媒體記者提供實時突發(fā)事件新聞素材。

關(guān)鍵詞:突發(fā)事件;事件識別;事件提取;深度學(xué)習(xí);遷移學(xué)習(xí)

中圖分類號:TP391 文獻標識碼:A 文章編號:1671-2064(2019)14-0036-03

0 引言

突發(fā)事件的發(fā)生會造成嚴重的社會危害,能否妥善地采取措施應(yīng)對突發(fā)事件,及時將信息發(fā)布及傳播,關(guān)乎社會穩(wěn)定和安全。隨著互聯(lián)網(wǎng)的快速發(fā)展,微博、微信等社交媒體日益成為傳播信息的重要渠道。微博平臺上有很多關(guān)于突發(fā)事件的信息,亟需使用人工智能技術(shù)從中自動檢測并提取出事件信息,為各傳統(tǒng)媒體、融媒體平臺及時提供來自微博這一社交媒體的突發(fā)事件類新聞素材。

在大規(guī)模的微博文本中,識別突發(fā)事件,本質(zhì)上是文本分類問題,判斷微博正文描述的是突發(fā)事件或者不是突發(fā)事件。系統(tǒng)實現(xiàn)中,可能需要多個二分類器或者多分類器。為了完成識別突發(fā)事件的功能,需要提前標注微博文本是否為突發(fā)事件,得到數(shù)據(jù)集,離線訓(xùn)練分類器。上線后,微博正文經(jīng)過自然語言處理得到特征向量,輸入分類器判斷其是否為突發(fā)事件。事件提取有兩種典型方法:生成式和抽取式。文中采取后一種方式通過從原文本中抽取出事件元素拼裝實現(xiàn)事件提取,經(jīng)處理獲取的突發(fā)事件類新聞素材顯示在終端屏幕。從原文本中抽取事件元素,例如事件起因、事件經(jīng)過等,可處理為文本分類問題。原文本按照標點符號斷句后,使用分類器判斷分句是否為特定的事件元素,完成句子級別特征提取,經(jīng)去重和權(quán)衡相關(guān)性及多樣性處理后,拼接句子級別的特征完成事件提取任務(wù)。

傳統(tǒng)的文本分類方法需要人工進行特征工程,將文本表示成高緯度高稀疏的特征向量,訓(xùn)練淺層的分類模型實現(xiàn)[1]。深度學(xué)習(xí)去掉了繁雜的人工特征工程步驟,直接通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型,得到文本的分布式表示,將詞表示成定長的連續(xù)的稠密向量[2],文本分類器模型利用典型的深度學(xué)習(xí)網(wǎng)絡(luò)解決自動特征提取的問題,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3,4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[5,6]、變換器(Transformer)[7]等。本文第2節(jié)介紹了應(yīng)用于微博突發(fā)事件提取任務(wù)的深度學(xué)習(xí)文本分類算法。

1 事件識別與提取算法

突發(fā)事件的識別和提取使用文本分類方法實現(xiàn),文本分類作為監(jiān)督學(xué)習(xí)算法,模型訓(xùn)練過程需要帶有標記的數(shù)據(jù)集。由于突發(fā)事件包括自然災(zāi)害、事故災(zāi)難、社會安全事件、公共衛(wèi)生事件等不同種類的事件,可采用定制化的專用爬蟲,定向抓取發(fā)布在微博中的相關(guān)信息,獲取到某些種類突發(fā)事件可能相關(guān)的微博。比如針對交通事故類突發(fā)事件,抓取交通臺、交警官微等特定發(fā)布人的微博,將交通事故類突發(fā)事件的關(guān)鍵詞作為搜索條件,得到相關(guān)微博的列表,定向獲取這些微博詳情信息。人工標注通過爬蟲獲取的微博文本是否為突發(fā)事件,作為突發(fā)事件識別分類器數(shù)據(jù)集。根據(jù)是否含有事件觸發(fā)詞或事件關(guān)鍵元素的描述,人工判斷和標注文本中的句子是否為事件自動摘要提取所使用的候選單句,作為突發(fā)事件提取的語料庫。

本文設(shè)計和實現(xiàn)了中文微博突發(fā)事件提取系統(tǒng),對于中文自然語言處理任務(wù),必須先考慮中文的詞在計算機中的表示。通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型,將詞(包括字符、詞語、短語)映射到低維的實數(shù)空間,生成對應(yīng)的詞向量。目前已經(jīng)有學(xué)習(xí)詞向量表征的高效算法[2],某些研究組織會發(fā)布基于特大數(shù)量的文本訓(xùn)練得到的詞向量模型[2,8],而通常預(yù)訓(xùn)練的詞向量模型在開發(fā)過程中已經(jīng)消耗了巨大的時間資源和計算資源。在實際自然語言處理應(yīng)用中,下載并使用了這些預(yù)訓(xùn)練的詞向量模型作為新模型的起點,即通過遷移學(xué)習(xí),將預(yù)訓(xùn)練的詞向量模型已經(jīng)囊括的強大信息遷移到相關(guān)的問題上。實驗中做了對比,如果沒有使用預(yù)訓(xùn)練的詞向量模型的分類器,準確性和召回率指標均較差。系統(tǒng)實現(xiàn)使用了北師大在多個中文數(shù)據(jù)集上預(yù)訓(xùn)練的詞向量模型,每個向量維度是300[8]。

在完成中文分詞,將詞語轉(zhuǎn)換為高維向量后,需要考慮將文本的句子、篇章表示成適當?shù)臄?shù)字化的表示形式。傳統(tǒng)的統(tǒng)計語言模型中的n-gram特征表達,即將文本按照字節(jié)進行大小為n的滑動窗口操作,形成長度是n的字節(jié)片段序列,每個字節(jié)片段稱為gram。統(tǒng)計分析所有的gram出現(xiàn)頻度,按照設(shè)定的閾值過濾,形成關(guān)鍵gram列表,作為表示文本的特征向量,其中每個gram就是特征向量的一個維度。CNN通過設(shè)定一維卷積層的卷積核大小,如2、3等,捕捉文本中不同寬度視野內(nèi)的局部相關(guān)性信息,自動抽取文本中類似n-gram的關(guān)鍵信息。

CNN在很多文本分類任務(wù)中有不錯的表現(xiàn),但是CNN有個很大的問題是固定了卷積核的視野大小,無法建模更長的序列信息,而且卷積核大小這一超參數(shù)的調(diào)節(jié)比較繁瑣。RNN能夠更好的表達上下文信息,同一層上每個隱藏層單元都執(zhí)行相同的任務(wù),其輸出依賴于輸入和上下文記憶信息,信息在時間維度上傳遞和積累。引入門控機制的長短記憶模型(Long Short Term Memory,LSTM)、門控循環(huán)單元(Gated Recurrent Unit,GRU)等RNN模型可以有效地解決長期記憶和反向傳播中梯度消失等問題,雙向長短記憶模型(Bi-directional Long Short-Term Memory, Bi-LSTM)可捕獲變長且雙向的n-gram信息,在自然語言處理領(lǐng)域得到了廣泛應(yīng)用。

1.1 事件識別

系統(tǒng)基于Bi-LSTM構(gòu)建突發(fā)事件識別的分類器模型。LSTM的典型單元中包含三個門控機制,避免長期依賴問題,典型LSTM單元的結(jié)構(gòu)如圖1所示[6]。

其中xt、ht、Ct、分別表示t時刻的輸入、隱藏狀態(tài)、單元狀態(tài)和待選的單元狀態(tài)。W和b為待優(yōu)化的權(quán)值。ft、it、ot分別表示遺忘門、輸入門、輸出門,激活函數(shù)都使用Sigmoid函數(shù),用σ表示,實現(xiàn)從實數(shù)域到[0,1]區(qū)間的轉(zhuǎn)換操作,如果門控函數(shù)輸出為0,表示與此門控相乘的信息不能通過;而如果門控函數(shù)輸出為1,表示與此門控函數(shù)相乘的信息可以完全通過,而在0和1之間的門控輸出,表示部分信息可以通過。運算關(guān)系見式(1)-(6)。

Bi-LSTM由前向LSTM和后向LSTM組合而成,共同建模上下文信息。隨著時間推移,不斷輸入文本的詞向量序列,使用Bi-LSTM單元傳遞隱藏狀態(tài)和單元狀態(tài)信息。最終文本輸入結(jié)束時的隱藏狀態(tài)作為輸出,通過全連接層,激活函數(shù)選為Sigmoid函數(shù)或者Softmax函數(shù),softmax函數(shù)可以表示多分類的概率。計算交叉熵做分類器的損失函數(shù),通過Adam優(yōu)化算法實現(xiàn),得到表示網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)權(quán)值。學(xué)習(xí)過程使用了隨機失活(dropout)策略,隨機將部分隱含層節(jié)點的權(quán)重歸零,降低網(wǎng)絡(luò)的結(jié)構(gòu)風(fēng)險,實現(xiàn)二分類器或多分類器的訓(xùn)練過程。

1.2 事件提取

微博突發(fā)事件提取基于卷積神經(jīng)網(wǎng)絡(luò)的多分類器模型完成新聞事件關(guān)鍵元素的抽取,其中事件關(guān)鍵元素包括時間、地點、事件起因、經(jīng)過、現(xiàn)狀描述、結(jié)果六種元素。仍然使用預(yù)訓(xùn)練的詞向量模型對文本進行表征,將微博正文根據(jù)標點符號分開后,判斷每個句子的重要性,即是否為事件的關(guān)鍵元素。借鑒論文[4]的思路構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)有6層包括卷積和最大池化操作的卷積層、3層全連接層,最后一層全連接激活函數(shù)為Softmax函數(shù),也使用了dropout策略,利用交叉熵作為損失函數(shù),通過優(yōu)化算法得到CNN網(wǎng)絡(luò)的權(quán)重最優(yōu)值,完成分類器的訓(xùn)練。

基于CNN的事件關(guān)鍵元素分類器模型對測試集進行新聞關(guān)鍵元素抽取,得到僅包括六中關(guān)鍵事件元素的文本候選單句集合。采用了文本相似度算法去除語義重復(fù)內(nèi)容,即依次計算文本候選單句之間的余弦相似度值,過濾掉余弦相似度值大于預(yù)設(shè)閾值(如0.7)的句子,得到無重復(fù)的候選單句集合,記為事件臨時摘要內(nèi)容集T。利用最大邊緣相關(guān)性模型權(quán)衡抽取內(nèi)容的相關(guān)性和多樣性,獲取更加全面的突發(fā)事件新聞內(nèi)容摘要。遍歷事件臨時摘要內(nèi)容集T中的文本單句,按照公式(7)得到候選摘要文本s,并添加到候選摘要集合中。

其中,S表示候選摘要集合,初始值設(shè)為空。λ取值為0.9,score(Ti)表示臨時摘要內(nèi)容第i句與整個臨時摘要內(nèi)容T的余弦相似度。score(Ti,Sj)表示為臨時摘要內(nèi)容T第i句與已經(jīng)成為候選摘要集合S第j句的余弦相似度。

重復(fù)上述步驟C次(C為正整數(shù)且小于T中的句子總數(shù)),得到候選摘要集合,即事件抽取處理后的摘要文本,存入突發(fā)事件的新聞素材庫中。

2 系統(tǒng)實現(xiàn)

系統(tǒng)在線運行流程為:(1)實時數(shù)據(jù)采集、入庫;(2)突發(fā)事件識別,如果經(jīng)分類器判斷是突發(fā)事件,則更新數(shù)據(jù)庫信息并進入下面的流程繼續(xù)處理;(3)突發(fā)事件提取,如果經(jīng)過分類器判斷存在突發(fā)事件的關(guān)鍵元素,則通過去重和權(quán)衡抽取內(nèi)容的相關(guān)性及多樣性處理,得到突發(fā)事件新聞內(nèi)容摘要,更新數(shù)據(jù)庫信息,進入下面的流程繼續(xù)處理;(4)前端展示頁面更新。系統(tǒng)在線運行過程處于循環(huán)動態(tài)更新的狀態(tài)。

目前,不間斷的采集微博上可能為突發(fā)事件的數(shù)據(jù),每日約入庫存儲兩萬多條,通過突發(fā)事件識別和提取處理后,得到約100條重大突發(fā)事件的新聞素材,在移動端和PC端界面中,實時為媒體記者提供包括交通事故、水災(zāi)事故、火災(zāi)事故、刑事案件、動物疫情事件等重大突發(fā)事件的新聞素材。

3 結(jié)語

本文介紹了基于深度學(xué)習(xí)算法的微博突發(fā)事件提取系統(tǒng)的設(shè)計和開發(fā),分析突發(fā)事件識別和提取兩個核心模塊的功能,通過處理轉(zhuǎn)化為文本分類問題,采用兩種典型深度學(xué)習(xí)算法RNN和CNN完成了文本分類功能。突發(fā)事件提取核心模塊與數(shù)據(jù)收集模塊、數(shù)據(jù)存儲模塊、用戶交互界面模塊等系統(tǒng)中的其它子系統(tǒng)結(jié)合,完成了實時微博突發(fā)事件提取和展示的功能。通過不間斷抓取微博平臺數(shù)據(jù)和智能化處理,為合作單位的專業(yè)媒體記者提供了實時的突發(fā)事件類新聞素材。

參考文獻

[1] Daniel Jurafsky, James H. Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. (2nd Edition.) [M]. New Jersey: Prentice-Hall,2009.

[2] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space [C]. ICLR Workshop,2013.

[3] Kim Yoon. Convolutional Neural Networks for Sentence Classification [C]. EMNLP. Doha, Qatar: Association for Computational Linguistics,2014:1746-1751.

[4] Xiang Zhang, Junbo Zhao, Yann leCun. Character-level Convolutional Networks for Text Classification [C]. In Advances in Neural Information Processing Systems,2015:649-657.

[5] Kai Sheng Tai, Richard Socher, and Christopher D Manning. Improved semantic representations from tree-structured long short-term memory networks. arXiv preprint arXiv:1503.00075,2015.

[6] Chris Olah. Understanding LSTM Networks [EB/OL]. Colah.github.io,2015.

[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].arXiv preprint arXiv:1810.04805,2018.

[8] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations [C]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: ACL,2018:138-143.

猜你喜歡
遷移學(xué)習(xí)突發(fā)事件深度學(xué)習(xí)
奇異值分解與移移學(xué)習(xí)在電機故障診斷中的應(yīng)用
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
大數(shù)據(jù)環(huán)境下基于遷移學(xué)習(xí)的人體檢測性能提升方法