(景德鎮(zhèn)陶瓷大學(xué) 江西 景德鎮(zhèn) 333000)
基于Tensorflow的Text Summarizaion模型自動(dòng)生成新聞標(biāo)題
田江童薇羽
(景德鎮(zhèn)陶瓷大學(xué)江西景德鎮(zhèn)333000)
隨著人工智能的快速興起,Google發(fā)布的深度學(xué)習(xí)框架TensorFlow在短短兩年內(nèi),就成為了當(dāng)前最流行的深度學(xué)習(xí)項(xiàng)目。
在圖像處理、音頻處理、自然語(yǔ)言處理和推薦系統(tǒng)等場(chǎng)景中,TensorFlow都有著豐富的應(yīng)用。雖然開(kāi)源沒(méi)多久,但是TensorFlow正在快速的參與到我們的工作生活當(dāng)中。
Tensorflow;Text Summarizaion;自動(dòng) 生成
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)中的新聞資源呈指數(shù)級(jí)增長(zhǎng);在眾多的新聞中,如何讓用戶又快有好的閱讀到自己感興趣的新聞資訊成為了當(dāng)下的研究熱點(diǎn);本文為某新聞企業(yè)通過(guò)接入智能推薦系統(tǒng),在其APP端增加智能推薦模塊,就能為APP用戶私人訂制感興趣的新聞。
文本自動(dòng)總結(jié)的模型一直都是深度學(xué)習(xí)中的研究熱點(diǎn)。有一些諸如TFIDF和TextRank之類常規(guī)算法,其基本原理是直接抽取文本中重要的句子。目前常用的模型是seq2seq,它是基于Encoder-Decoder的一個(gè)結(jié)構(gòu),首先將原始文本中的句子encode成一個(gè)固定大小的向量,然后通過(guò)decoder部分一個(gè)字符一個(gè)字符生成目標(biāo)句子。
Tensor意味著數(shù)據(jù),F(xiàn)low意味著流動(dòng)、計(jì)算和映射,這也體現(xiàn)出數(shù)據(jù)是有向的流動(dòng)、計(jì)算和映射。TensorFlow的結(jié)構(gòu)由會(huì)話(session),圖(graph),節(jié)點(diǎn)(operation)和邊(tensor)組成,它使用圖(graph)來(lái)表示計(jì)算任務(wù),圖在被稱之為會(huì)話(Session)的上下文(context)中執(zhí)行,其狀態(tài)是通過(guò)變量(Variable)來(lái)維護(hù)的,使用feed和fetch可以為任意的操作(arbitrary operation)賦值或者從其中獲取數(shù)據(jù)。
這篇文章中我們將采用基于Tensorflow的Seq2seq+Attention模型,訓(xùn)練一個(gè)新聞標(biāo)題自動(dòng)生成模型。 加入Attention注意力分配機(jī)制,是為了使Decoder在生成新的目標(biāo)句子時(shí),可以得到前面Encoder編碼階段每個(gè)字符隱藏層的信息向量,提高生成目標(biāo)序列的準(zhǔn)確度。
樣本數(shù)據(jù)為某企業(yè)新聞客戶端2016年11月份的新聞,超過(guò)10M的語(yǔ)料數(shù)據(jù),包含新聞標(biāo)題和新聞?wù)男畔?。由于在Encoder編碼階段處理的信息會(huì)直接影響到整個(gè)模型的效果,所以對(duì)新聞數(shù)據(jù)的預(yù)處理工作需要非常細(xì)致。對(duì)新聞中的特殊字符、日期、英文、數(shù)字以及鏈接都要進(jìn)行替換處理。
文本預(yù)處理后,就是訓(xùn)練樣本的準(zhǔn)備工作。這里的Source序列,就是新聞的正文內(nèi)容,待預(yù)測(cè)的Target目標(biāo)序列是新聞標(biāo)題。為了保證效果,正文部分不能過(guò)長(zhǎng),這里設(shè)定分詞后的正文不超過(guò)100個(gè)詞,不足用PAD字符補(bǔ)齊,設(shè)定標(biāo)題不超過(guò)20個(gè)詞。在生成訓(xùn)練樣本的時(shí)候,定義了create_vocabulary()方法來(lái)創(chuàng)建詞典,data_to_id()方法把訓(xùn)練樣本(train_data.txt)轉(zhuǎn)化為對(duì)應(yīng)的詞ID。
Seq2Seq是一個(gè)基于輸入的sequence,預(yù)測(cè)一個(gè)未知sequence的模型。模型由Encoder編碼階段和Decoder解碼階段兩部分構(gòu)成。模型編碼階段Encoder的RNN每次會(huì)輸入一個(gè)字符代表的向量,將輸入序列編碼成一個(gè)固定長(zhǎng)度的向量;解碼階段的RNN會(huì)一個(gè)一個(gè)字符地解碼,如預(yù)測(cè)為X。在訓(xùn)練階段時(shí)會(huì)強(qiáng)制將上一步解碼的輸出作為下一步解碼的輸入,即X會(huì)作為下一步預(yù)測(cè)Y時(shí)的輸入。
當(dāng)編碼階段輸入的序列過(guò)長(zhǎng)時(shí),解碼階段LSTM模型將無(wú)法針對(duì)最早的輸入序列解碼。Attention注意力分配機(jī)制,在解碼階段每一步解碼時(shí),都會(huì)有一個(gè)輸入,對(duì)輸入序列所有隱含層的信息進(jìn)行加權(quán)求和,能夠很好的解決這個(gè)問(wèn)題。
將分詞后的新聞文本數(shù)據(jù)拆分為訓(xùn)練樣本和測(cè)試樣本,共四個(gè)文件:train_data.txt,train_title.txt,test_data.txt,test_title.txt 。新聞?wù)膬?nèi)容和其對(duì)應(yīng)的新聞標(biāo)題需要分開(kāi)存放在兩個(gè)文件內(nèi),一行為一條新聞樣本。
運(yùn)行腳本,訓(xùn)練好的模型將被保存下來(lái),部分預(yù)測(cè)好的Text Summarizaion如下:
ID新聞?wù)男侣剺?biāo)題模型生成標(biāo)題112882故宮長(zhǎng)城央視大樓鳥(niǎo)巢水立方有名地方不勝枚舉地界老百姓生活相關(guān)市井本土北京胡同推薦北京胡同游攻略瞧瞧北京普通百姓生活每條胡同故事細(xì)細(xì)的品味體會(huì)魅力pstrong煙袋斜街strongp煙袋斜街位于地安門(mén)外大街鼓樓前什剎海前海北側(cè)此街東西斜形走向全長(zhǎng)232米煙袋斜街元朝時(shí)期抄近道走出一條煙袋斜街當(dāng)年居住旗人嗜好抽煙煙葉裝在煙袋中煙袋需求與日俱增斜街上一戶一戶開(kāi)起煙袋鋪街道宛如一只煙袋得名煙袋斜街街道兩側(cè)建筑典雅樸素頗具明清傳統(tǒng)風(fēng)格其前店居形式呈現(xiàn)出古風(fēng)猶存市井風(fēng)情展現(xiàn)出濃郁北京傳統(tǒng)風(fēng)貌煙袋斜街北京北城有名氣文化街北京什么地方最出名北京有名地界旅游攻略推薦112803北京是因?yàn)樗鞫嗄晔锥甲鬟@么久首都全是因?yàn)楸本﹥?yōu)秀全賴800年前千萬(wàn)別張國(guó)字臉迷惑他本名叫完顏迪古金朝第四位皇帝歷史鼎鼎大名海陵王皇帝先爺爺說(shuō)起爺爺完顏阿骨打即金太祖金朝第一位皇帝公元?dú)q完顏阿骨東北白山黑水間無(wú)數(shù)次廝殺終于滅遼朝建立金國(guó)建都寧府哈爾濱市城區(qū)白城電視劇中阿骨打是右邊那位穿高檔動(dòng)物皮草北京優(yōu)秀全賴年前不錯(cuò)細(xì)心讀者發(fā)現(xiàn)這位阿骨丐幫幫主喬峰結(jié)拜兄弟那位金太祖六年皇帝去世女真族兄終弟及傳統(tǒng)金太祖弟弟完顏晟即位金太宗金太宗歲去世前不想皇位傳給弟弟想傳給兒子太祖太宗兩派子孫奪位幾個(gè)回合有人舉牌北京優(yōu)秀不用再思考為什么來(lái)北京北京優(yōu)秀文化遺產(chǎn)112337中國(guó)多地霧霾齊發(fā)城市發(fā)布霧霾預(yù)警城市朦朧模式華北黃淮地迎本輪霧霾最重時(shí)段京津冀省份局部重度霾北京今夜污染物迎來(lái)本次污染峰值今晨上午四川湖南局地有強(qiáng)濃霧應(yīng)對(duì)重污染天氣京津冀環(huán)保部門(mén)聯(lián)動(dòng)執(zhí)法停工停產(chǎn)禁行中小學(xué)停止室外活動(dòng)京津冀省份今日局部重度霾夜間空氣中濕度增大污染物擴(kuò)散條件轉(zhuǎn)差華北黃淮空氣質(zhì)量下降華北黃淮地霧霾襲北京河北天津發(fā)布重污染預(yù)警中央氣象臺(tái)預(yù)計(jì)18白天夜間華北黃淮本輪霧霾過(guò)程北京南部天津西部河北中部河南中部陜西關(guān)中山西中部局部地區(qū)重度霾另?yè)?jù)交通運(yùn)輸部發(fā)布路況多地霧霾齊發(fā)中國(guó)發(fā)布霧霾預(yù)警中國(guó)發(fā)布多地霧霾預(yù)警
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)中的新聞資源呈指數(shù)級(jí)增長(zhǎng),通過(guò)深度學(xué)習(xí)自動(dòng)生成的標(biāo)題往往能很直觀的體現(xiàn)新聞的主題內(nèi)容,便于讀者快速的瀏覽新聞,準(zhǔn)確選擇自己感興趣的內(nèi)容,節(jié)約時(shí)間成本,能夠給讀者帶來(lái)很好的體驗(yàn)感。
智能推薦已經(jīng)成為一種勢(shì)不可擋的趨勢(shì),隨著人工智能的發(fā)展,算法推薦必將成為內(nèi)容領(lǐng)域的主流之一。如果將基于Tensorflow的LSTM主題分類的個(gè)性化推薦和非個(gè)性化推薦相結(jié)合,不僅能很好的解決用戶冷啟動(dòng)問(wèn)題,而且可以滿足企業(yè)的個(gè)性化需求和用戶的實(shí)時(shí)智能推薦。
田江(1987-),男,漢族,江西上饒人,統(tǒng)計(jì)學(xué)碩士。
)