鮑軍威 周明 趙鐵軍
摘 要:本文展示了一種序列到序列的模型(Seq2Seq)來基于文本生成信息框(Infobox),信息框指的是一組“屬性-值”對。該模型以端到端的方式工作,可利用一個編碼器將一個文本段落表示成一個隱向量序列,然后通過解碼器來生成信息框。本文在WIKIBIO數(shù)據(jù)集上進(jìn)行實驗。研究提出的序列到序列模型取得了58.2的F1值,該結(jié)果比流水線式的基準(zhǔn)方法顯著提升了21.0個百分點(diǎn)。實驗結(jié)果表明,本模型具有以生成序列的方式來生成“屬性-值”對的能力。引入注意力與拷貝機(jī)制可以提升模型的準(zhǔn)確率。更重要的是,研究觀察到該拷貝機(jī)制有能力從輸入文本中拷貝稀有詞來生成目標(biāo)端信息框中的“值”。
關(guān)鍵詞: 文本到信息框生成;序列到序列模型;注意力機(jī)制;拷貝機(jī)制
文章編號:2095-2163(2019)03-0001-06? ? 中圖分類號:TP393.01? ? 文獻(xiàn)標(biāo)志碼:A
0?引?言
信息框(Infobox)是一種結(jié)構(gòu)化的知識(https://en.wikipedia.org/wiki/Infobox),其中包含一組關(guān)于相應(yīng)文章主題的“屬性-值”對。信息框可以應(yīng)用在很多需要推理與推斷的場景中,例如基于知識圖譜的自動問答和語義解析等[1-4]。然而,基于文本通過人工來構(gòu)建信息框?qū)馁M(fèi)大量的資源和成本。而且,更新已經(jīng)構(gòu)建好的信息框也需付出大量時間。因此,自動地從文本中抽取信息框受到學(xué)界越來越多的關(guān)注與重視[5-7]。傳統(tǒng)的信息框抽取方法通常包含一個復(fù)雜的流程,并主要依賴于專家知識和特征工程。同時,這些系統(tǒng)卻常會遭受錯誤傳導(dǎo)的問題。為此,探索端到端的方法來自動學(xué)習(xí)生成信息框是十分必要的。
最近,序列到序列(Seq2Seq)的模型在很多任務(wù)中得到了成功運(yùn)用,例如機(jī)器翻譯[8-9],文本摘要[10]等。本文提出一種新的方法將Seq2Seq模型擴(kuò)展到文本到信息框的生成任務(wù)上。總地來說,該模型將輸入文本通過編碼器表征成一組實值向量,而后通過解碼器基于這些實值向量來生成信息框。在本文中,研究將一組“屬性-值”對轉(zhuǎn)化成序列,由此使得Seq2Seq模型能夠以序列的形式來生成信息框。注意力機(jī)制被用于計算各種各樣的自然語言表達(dá)與“屬性”的相似度。同時,研究中還采用拷貝機(jī)制從源文本中拷貝稀有詞來生成信息框中的“值”。
本次研究在包含了728 321個“人物傳記-信息框”對的WikiBio數(shù)據(jù)集[11]上進(jìn)行了實驗。Seq2Seq模型取得了58.2的平均F1值,該結(jié)果比流水線式的方法顯著提升了21.0個百分點(diǎn)。經(jīng)由大量的實驗證明可知,Seq2Seq模型有能力以生成序列的方式來生成信息框。注意力與拷貝機(jī)制的引入最終將大幅提升模型的準(zhǔn)確率。而在研究后卻又發(fā)現(xiàn)拷貝機(jī)制有能力從輸入文本拷貝稀有詞來生成信息框中的“值”。尤需一提的是,模型分析表明Seq2Seq模型在高頻屬性上的表現(xiàn)會更好。錯誤分析則表明Seq2Seq模型在那些需要邏輯推理的“屬性”與“值”的生成方面具有一定局限。
1?任務(wù)與數(shù)據(jù)集
1.1?任務(wù)
1.2?數(shù)據(jù)集
WikiBio[11]是來自于Wikipedia的一組包含“人物傳記-信息框”對的數(shù)據(jù)集。人物傳記是對應(yīng)的Wikipedia文章的第一段,同時該段落往往包含了多個句子。WikiBio包含了728 321個實例,且被劃分為3個部分,包括582 659條訓(xùn)練數(shù)據(jù)、72 831條開發(fā)數(shù)據(jù)、以及72 831條測試數(shù)據(jù)。在本文中,研究使用該數(shù)據(jù)集來基于人物傳記生成信息框。在本文的設(shè)定中,如果一個“屬性-值”對的“值”中沒有一個詞出現(xiàn)在輸入文本中,那么研究將會過濾掉這個“屬性-值”對。如果一個“值”中包含超過5個詞,那么相應(yīng)的“屬性-值”對也會被移除。最終,本文獲得了WikiBio的一個子集,集合中包含了580 069個實例作為訓(xùn)練數(shù)據(jù),72 502個實例作為開發(fā)集數(shù)據(jù),72 517個實例作為測試數(shù)據(jù)。在此基礎(chǔ)上,研究得出的過濾后的訓(xùn)練數(shù)據(jù)的統(tǒng)計信息見表1。
2?方法
在本節(jié)中,研究展示一個整合了注意力機(jī)制與拷貝機(jī)制的Seq2Seq模型來進(jìn)行文本到信息框的生成。繼而給出了本方法進(jìn)行文本到信息框生成的設(shè)計展示如圖1所示。對此可做探討分述如下。
2.1?編碼器
2.2?解碼器
2.3?注意力機(jī)制
這里,在分析基礎(chǔ)上將觀察到輸入端的不同的詞對生成特定的“屬性-值”對的貢獻(xiàn)是不同的。因此,解碼器在生成每個詞時就能夠有選擇性地使用輸入文本中不同的信息。綜合以上論述,本次研究就采用注意力機(jī)制[13],在解碼的每個時刻對輸入文本中的每個詞都賦予一個概率/權(quán)重值,該機(jī)制已成功地應(yīng)用在許多任務(wù)中,諸如機(jī)器翻譯[14]和閱讀理解[15]。解碼第t時刻的詞時,對于輸入文本中第i個詞的注意力權(quán)重可定義為:
2.4?拷貝機(jī)制
3?實驗
3.1?實驗設(shè)置
3.1.1?數(shù)據(jù)集
文中在2.2節(jié)描述的過濾后的WikiBio數(shù)據(jù)集上進(jìn)行實驗。在本次研究的實驗設(shè)置中,一個“屬性”可當(dāng)作是一個單獨(dú)的詞。如此一來,文中僅使用開發(fā)集中的前1 000個數(shù)據(jù)進(jìn)行開發(fā)。
3.1.2?評測指標(biāo)
研究中采用準(zhǔn)確率(P)、召回率(R)、以及F1值并基于金標(biāo)準(zhǔn)的一組“屬性-值”對來推得評價預(yù)測的一組“屬性-值”對。最終在整個測試數(shù)據(jù)集上的P,R,F(xiàn)1值是所有實例上相應(yīng)得分的平均值。
3.1.3?基準(zhǔn)線方法
受已有研究[5]的啟發(fā),設(shè)計實現(xiàn)了一個流水線式的方法作為基準(zhǔn)方法。該方法包括了一組分類器和一組抽取器。每個“屬性”對應(yīng)到一個分類器,該分類器用來確定一段文本是否可以生成該“屬性”。每個抽取器將用來為某個“屬性”進(jìn)行相應(yīng)“值”的抽取。被抽取出來的值,例如時間,都進(jìn)行了正則化。這些分類器是基于Classias(http://www.chokkan.org/software/classias/usage.html.en)工具中的采用L2正則化的L1損失函數(shù)的SVM模型實現(xiàn)的。抽取器采用CRF++(https://taku910.github.io/crfpp)模型。研究中,通過使用詞匯化的特征,而非諸如詞性(part of speech, POS)等句法特征,來訓(xùn)練抽取器。這樣做的目的是使其與Seq2Seq模型運(yùn)用相同的信息以增加可比性。S2S是一個基于GRU-RNN結(jié)構(gòu)的不帶有注意力機(jī)制與拷貝機(jī)制的Seq2Seq模型。研究同時也實現(xiàn)了Seq2Seq模型的其它變種。這里,將在實驗結(jié)果部分對這些模型變種做出闡釋論述如下。
3.2?實驗結(jié)果
生成“屬性-值”對的實驗結(jié)果見表2。表2中,atn表示注意力機(jī)制,copy表示拷貝機(jī)制,A表示屬性,V表示值。實驗結(jié)果表明2個帶有注意力與拷貝機(jī)制的S2S模型要明顯好于基于流水線的方法(從37.2到58.2,從37.2到55.8)。引入了注意力機(jī)制可以帶來17.6個點(diǎn)的提升(從22.5到40.1)。拷貝機(jī)制使得模型的結(jié)果提升了18.1個百分點(diǎn)(從40.1到58.2)。更重要的是,將“值”加入到目標(biāo)詞表并且使用拷貝開關(guān)來權(quán)衡可以帶來2.4個點(diǎn)的提升(從55.8到58.2)。
研究得到的分別在“屬性”與“值”上單獨(dú)評估的結(jié)果見表3。表3中,Attributes表示研究只對生成的“屬性”進(jìn)行評測,values表示只對生成的值進(jìn)行評測,這些值對應(yīng)的屬性都是預(yù)測正確的。atn表示注意力機(jī)制,copy表示拷貝機(jī)制,A表示屬性,V表示值。除了基本的S2S模型外,其它帶有注意力機(jī)制或者拷貝機(jī)制的模型在“屬性”與“值”上的結(jié)果都要好于基于流水線的方法。經(jīng)過分析可知,注意力機(jī)制在“屬性”與“值”的生成上都帶來提升,分別是從69.9到73.3以及從30.9到52.7。實驗結(jié)果表明注意力機(jī)制對提升模型的準(zhǔn)確率是很有幫助的??截悪C(jī)制在“屬性”生成上帶來的提升比較有限(從73.3到74.2),在“值”的生成上帶來的提升比較顯著(從52.7到76.4)。這是由于“屬性”與“值”不同,而且常常不會出現(xiàn)在文本表述中。通過觀測數(shù)據(jù),研究發(fā)現(xiàn)不帶有拷貝機(jī)制的Seq2Seq模型只能生成特殊符號UNK來表示OOV的詞,而帶有拷貝機(jī)制的模型可以從文本中拷貝內(nèi)容來生成稀有詞。此外,目標(biāo)詞表中只包含“屬性”的S2S+atn模型在“屬性”生成上取得了最好的結(jié)果。
3.3?實驗分析
3.3.1?模型分析
研究進(jìn)行實驗來探索“屬性”的頻率對信息框生成的影響。相應(yīng)地,研究基于訓(xùn)練數(shù)據(jù)集上“屬性”的頻率將測試數(shù)據(jù)集分成7份。圖2給出了每個部分的運(yùn)行結(jié)果。圖2中,橫坐標(biāo)表示“屬性”的不同頻率范圍。該結(jié)果表明“屬性”的頻率越高,模型取得的結(jié)果越好。
3.3.2?錯誤分析
錯誤分析的結(jié)果即如圖3所示。為了分析“屬性”生成中產(chǎn)生的錯誤,研究隨機(jī)選取了100個實例,其中每個實例有至少一個預(yù)測錯誤的“屬性”。由此則發(fā)現(xiàn)54%的實例的錯誤是可以接受的,包括A2類(不恰當(dāng)?shù)慕饦?biāo)準(zhǔn)“屬性”)、A3(不充足的金標(biāo)準(zhǔn)“屬性”)、A5(預(yù)測了同義的“屬性”)?!皩傩浴鄙傻闹饕e誤是A1(需要邏輯推理)、A4(預(yù)測錯的“屬性”的頻率太低)、A6(其它類型)。此外,隨機(jī)選取其它100個實例,而且每個實例中都存在某個“屬性”預(yù)測正確而“值”預(yù)測錯誤的“屬性-值”對。這些實例中46%是可以接受的,包括V1(預(yù)測了同義的“值”)、V3(錯誤標(biāo)注了的金標(biāo)準(zhǔn)的“值”)。主要的錯誤包括V2(預(yù)測了相似的值)、V4(需要邏輯推理)、V5(預(yù)測部分“值”)、V6(其它)。
4?相關(guān)工作
本工作主要涉及2條研究主線,對此可做探討分述如下。
4.1?Wikipedia上文本到結(jié)構(gòu)化知識的預(yù)測
已有的一些知名的產(chǎn)品都是通過流水線式的方式、并基于Wikipedia進(jìn)行信息抽取而得到的,例如DBpedia[16]、YAGO[17]、YAGO2[18]、KYLIN[5]、IBminer[6]、iPopulator[19]、以及WOE[20]。Nguyen等人[21]提出使用句法信息與語義信息,就可從Wikipedia中抽取關(guān)系。Zhang等人[7]使用連接命名實體(重定向)來將一篇文章總結(jié)成信息框。在本文中,研究采用序列到序列(Seq2Seq)的神經(jīng)網(wǎng)絡(luò)模型來端到端地進(jìn)行文本到信息框的生成。
4.2?序列到序列(Seq2Seq)的學(xué)習(xí)
Seq2Seq模型在很多任務(wù)上均可見到效果可觀的應(yīng)用嘗試,例如機(jī)器翻譯、對話回復(fù)生成和文本摘要[10,12,22-23]。在本文中,設(shè)計展示了一個Seq2Seq模型來進(jìn)行文本到信息框的生成。文中的Seq2Seq模型采用了帶有注意力機(jī)制與拷貝機(jī)制的“編碼器-解碼器”框架。不同的注意力機(jī)制[13-14, 24]也相繼推出,用于將輸入序列與輸出序列進(jìn)行對齊。受到這些工作的啟發(fā),本文研究采用一種注意力機(jī)制來連接自然語言與信息框??截悪C(jī)制的提出受益于近期的關(guān)于指向網(wǎng)絡(luò)(pointing network)與拷貝(copying)方法[10,25-29]的成功。
5?結(jié)束語
本文提出了一個序列到序列(Seq2Seq)的模型來進(jìn)行文本到信息框的生成。實驗結(jié)果表明Seq2Seq模型有能力以生成序列的方式來生成一個結(jié)構(gòu)化的信息框。研究觀察到引入了注意力與拷貝機(jī)制可以提升模型的準(zhǔn)確率,同時拷貝機(jī)制有能力從原文本中拷貝稀有詞來生成目標(biāo)信息框中的“值”。
參考文獻(xiàn)
[1] ????MOONEY R J. Learning for semantic parsing[C]?//Computational Linguistics and Intelligent Text Processing(CICLing). Mexico City:dblp,2007:311-324.
[2] ?BERANT J, CHOU A, FROSTIG R,et al. Semantic parsing on freebase from question-answer pairs[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle,Washington, USA:Association for Computational Linguistics,2013:1533-1544.
[3] YIH W T, CHANG Mingwei, HE Xiaodong,et al. Semantic parsing via staged query graph generation: Question answering with knowledge base[C]?// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Beijing, China:Association for Computational Linguistics, 2015:1321-1331.
[4] BORDES A, USUNIER N, CHOPRA S, et al. Large-scale simple question answering with memory networks[J]. arXiv preprint arXiv:1506.02075,2015 .
[5] WU Fei, WELD D S. Autonomously semantifying wikipedia[C]?//Proceedings of the sixteenth ACM conference on ?Information and Knowledge Management.New York, ?USA: ACM, 2007:41-50.
[6] MOUSAVI H, GAO Shi,ZANIOLO C. Ibminer: A text mining tool for constructing and populating infobox databases and knowledge bases[J]. Proceedings of the VLDB Endowment, 2013,6(12):1330-1333.
[7] ZHANG Kezun, XIAO Yanghua, TONG Hanghang, et al. The links have it: Infobox generation by summarization over linked entities[J]. arXiv preprint arXiv:1406.6449,2014.
[8] KALCHBRENNER N, BLUNSOM P. Recurrent continuous translation models[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle:ACL, 2013:1700-1709.
[9] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// Advances in Neural Information Processing Systems. Montreal, Canada: Nips,2014:3104-3112.
[10]NALLAPATI R, ZHOU Bowen, SANTOS C, et al. Abstractive text summarization using sequence-to-sequence RNNs and beyond[J]. arXiv preprint arXiv:1602.06023,2016.
[11]LEBRET R, GRANGIER D, AULI M. Neural text generation from structured data with application to the biography domain[C]?// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin, Texas: Association for Computational Linguistics, 2016:1203-1213.
[12]CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]?//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar:Association for Computational Linguistics, 2014:1724-1734.
[13]BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473,2014 .
[14]LUONG M H, PHAM H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025,2015.
[15]KADLEC R,SCHMID M, BAJGAR O, et al. Text understanding with the attention sum reader network[J]. arXiv preprint arXiv:1603.01547,2016.
[16]AUER S, LEHMANN J. What have Innsbruck and leipzig in common? Extracting semantics from wiki content[C]// The Semantic Web: Research and Applications. Innsbruck Austria:Springer,2007:503-517.
[17]SUCHANEK F M ,KASNECI G, WEIKUM G . Yago: A core of semantic knowledge[C]// Proceedings of the 16th International Conference on World Wide Web. Banff, Alberta, Canada:dblp,2007: 697-706.
[18]HOFFART J, SUCHANEK F M, BERBERICH K, et al. Yago2: A spatially and temporally enhanced knowledge base from wikipedia[J]. Artificial Intelligence ,2013,194:28-61.
[19]LANGE D, BHM C, NAUMANN F. Extracting structured information from wikipedia articles to populate infoboxes[C]?//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.Toronto,Ontario,Canada: ACM, 2010:1661-1664.
[20]WU Fei, WELD D S. Open information extraction using wikipedia[C]?// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. ?Uppsala,Sweden:ACL, 2010:118-127.
[21]NGUYEN D P T, MATSUO Y, ISHIZUKA M. Exploiting syntactic and semantic information for relation extraction from wikipedia[C]//Proceedings of the IJCAI Workshop on Text-Mining Link-Analysis Text Link 2007. Hyderabad, India: [s.n.]?,2007:1414-1420.
[22]AULI M, GALLEYT M, QUIRK C, et al. Joint language and translation modeling with recurrent neural networks[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA:ACL,2013:1044-1054.
[23]SORDONI A, GALLEY M, AULI M,et al.A neural network approach to context-sensitive generation of conversational responses[C]// Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. ?Denver, Colorado:ACL, 2015: 196-205.
[24]FENG Shi, LIU Shujie,YANG Nan, et al. ?Improving attention modeling with implicit distortion and fertility for machine translation[C]//Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, Japan: ACL Press, 2016: 3082-3092.
[25]VINYALS O, FORTUNATO M, JAITLY N. Pointer networks[J]. Advances in Neural Information Processing Systems, 2015:2692-2700.
[26]GULCEHREC, AHN S, NALLAPATI R, et al. Pointing the unknown words[J].arXiv preprint arXiv:1603.08148,2016.
[27]GU Jiatao, LU Zhengdong, LI Hang, et al. Incorporating copying mechanism in sequence-to-sequence learning[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany:Association for Computational Linguistics, 2016:1631-1640.
[28]YIN Jun, JIANG Xin, LU Zhengdong,et al. Neural generative question answering[J]. arXiv preprint arXiv:1512.01337,2015.
[29]LUONG M T, SUTSKEVER I, LE Q V, et al. Addressing the rare word problem in neural machine translation[C]?// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Beijing, China: Association for Computational Linguistics, ?2015: 11-19.