體育賽事機器新聞寫作的現(xiàn)實困境與改進路徑
——以騰訊“機器人NBA戰(zhàn)報”為例

2018-12-13 07:29:34王太隆

上海體育學院學報 2018年6期

白貴, 王太隆

(河北大學新聞傳播學院，河北保定 071000)

隨著云計算、大數(shù)據(jù)等概念的興起、升溫，人工智能成為世界矚目的焦點；關(guān)于媒介實踐與人工智能結(jié)合的學術(shù)討論也被推上新的高度?？v觀傳媒業(yè)的發(fā)展進程，技術(shù)一直是驅(qū)動變革的重要力量，每一次重要技術(shù)的引進都會對整個媒體格局產(chǎn)生顛覆性的影響。在技術(shù)革新的時代，了解、應用、改造甚至引領(lǐng)技術(shù)發(fā)展對媒體行業(yè)具有重要意義。作為人工智能技術(shù)在新聞實踐領(lǐng)域運用的代表性產(chǎn)物，“機器新聞寫作”是指運用機器算法對數(shù)據(jù)進行抓取、分析、整理和呈現(xiàn)的新聞寫作模式，它使新聞生產(chǎn)開始走上了工業(yè)化、自動化和智能化的道路[1]。

Statsheet成立于2007年，是美國第一家致力于自動化新聞生產(chǎn)的公司。2014年3月18日，《洛杉磯時報》推出的地震預報機器人Quakebot成為最先報道南加州地震的“記者”，這一事實震驚了新聞界。2015年9月，騰訊開發(fā)出新聞寫作機器人“Dreamwriter”，成為中國第一家正式運用機器自動撰寫稿件的公司。同年11月，新華社推出新聞寫作機器人“快筆小新”，它主要撰寫體育賽事新聞稿件和財經(jīng)信息稿件。2016年里約奧運會期間，“今日頭條”寫稿機器人“張小明”大放異彩。從此，體育賽事機器新聞寫作在國內(nèi)拉開了序幕。

1 發(fā)展體育賽事機器新聞寫作的必要性與可行性

1.1必要性隨著社會對體育賽事關(guān)注度的不斷提升，個性化、高品質(zhì)化體育賽事報道成為時代之需。大型體育賽事通常具有籌辦周期及比賽時間長，比賽項目及參賽人數(shù)多等特點[2]，相關(guān)信息又為受眾所喜歡，從而給體育賽事的報道帶來了巨大壓力。

體育賽事種類繁多，受眾廣泛，不同受眾對不同體育賽事有著不同的興趣。傳統(tǒng)體育新聞報道受經(jīng)濟、人力、資源等方面的限制，只能致力于滿足多數(shù)人的信息需求，主要針對熱門賽事、關(guān)鍵比賽進行報道，無法滿足所有受眾的信息需求。隨著互聯(lián)網(wǎng)的普及，體育賽事報道需求的長尾效應被放大，冷門比賽報道占據(jù)一席之地。事實證明，在里約奧運會期間，那些看似很冷門、關(guān)注度不高的體育報道，卻得到了相當可觀的閱讀量[3]。這就需要一種不僅能夠報道熱門比賽，還能對冷門比賽進行報道的工具，為用戶提供私人訂制的報道，滿足受眾的個性化需求，從而吸引讀者，留住讀者。

體育賽事往往具有海量信息。無論是綜合性運動會，還是單項體育賽事，媒體記者很難對每一個項目、每一場比賽、每一名運動員的賽況進行面面俱到的報道。同時，體育賽事之外的明星公益活動、比賽花邊新聞等也成為體育新聞報道的重要內(nèi)容。疲于應付、分身乏術(shù)的媒體記者和編輯急需一種“新生”工具將他們從大量簡單重復性的報道工作中解放出來，使他們在減小工作壓力的同時，能夠集中精力搜集生動鮮活的素材，完成更多具有創(chuàng)造性和趣味性的高品質(zhì)報道。因此，發(fā)明并推廣一種能夠完成制式的、新聞要素齊全的常規(guī)報道的寫作工具，被提到了議事日程。

可見，無論是從受眾角度，還是從媒體角度考慮，均需要發(fā)展體育賽事機器新聞寫作以應對海量數(shù)據(jù)，提高生產(chǎn)效率，緩解供需矛盾。

1.2可行性適逢人工智能第3次浪潮到來，機器新聞寫作所需的技術(shù)條件逐漸完備。體育賽事規(guī)程規(guī)則明確，賽事報道新聞要素齊備完整，這些使得機器新聞寫作能夠在體育賽事報道中率先被應用。

20世紀90年代，計算機集群技術(shù)為第3代人工智能的發(fā)展提供了硬件基礎(chǔ)，并一步發(fā)展出云計算技術(shù)。與此同時，互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展促進了網(wǎng)絡(luò)數(shù)據(jù)的積累，推動了大數(shù)據(jù)的發(fā)展。大數(shù)據(jù)和云計算為深度學習算法提供的海量數(shù)據(jù)和近乎無限的計算能力，打破了限制人工智能發(fā)展的2個主要瓶頸[4]——數(shù)據(jù)量不足和計算能力有限，為機器新聞寫作提供了硬件保證。2010年，Narrative Science開發(fā)出一款名為Quill的自動寫作軟件，實現(xiàn)了自行生成新聞標題、編寫體育賽事新聞、撰寫基金業(yè)績報告等功能[5]，為機器新聞寫作提供了軟件支持。

就新聞實踐而言，機器新聞寫作特別適合整合最基本新聞要素的模板式的體育賽事報道。首先，體育賽事的比賽過程會包含比賽雙方甚至多方的結(jié)構(gòu)化數(shù)據(jù)信息(如球隊名稱、球員姓名、所屬國家、比賽得分等)，這些信息易于被機器抓取、分析和整理。其次，每場比賽的大量結(jié)構(gòu)化數(shù)據(jù)可以根據(jù)時間或空間進行排列擬合形成數(shù)據(jù)函數(shù)曲線，這些函數(shù)曲線的變化規(guī)則可以作為機器判斷的依據(jù)，幫助機器對比賽進行“理解”和處理。再次，大量常規(guī)性的、模板式的體育賽事報道往往具有相似性和重復性，易于機器學習掌握程式化寫作模板。因此，采用機器新聞寫作的方式對體育賽事進行報道具有明顯的可操作性。

綜上可知，數(shù)據(jù)量的擴充、運算能力的提高、智能算法的優(yōu)化，為機器新聞寫作的發(fā)展提供了技術(shù)保障，運用機器新聞寫作完成部分體育賽事報道的可行性成為行業(yè)共識。

2 體育賽事機器新聞寫作的現(xiàn)實困境

2015年8月，騰訊體育購買了美國職業(yè)籃球聯(lián)賽(NBA)的轉(zhuǎn)播權(quán)和全套數(shù)據(jù)；同年9月，騰訊推出了新聞寫作機器人Dreamwriter。既有數(shù)據(jù)支持，又有技術(shù)力量，騰訊體育對2016—2017賽季NBA的報道取得了成功，但在成功的背后依然可以看出體育賽事機器新聞寫作面臨的現(xiàn)實困境。筆者通過整理2016年12月9日—2017年6月13日騰訊體育平臺上由Dreamwriter完成的953篇“機器人NBA戰(zhàn)報”，對體育賽事機器新聞寫作的文本特征進行整體分析，進一步總結(jié)其現(xiàn)存困境。

筆者對“機器人NBA戰(zhàn)報”文本的分析主要從標題和正文兩部分進行。

對于標題的分析，筆者首先將標題按語法結(jié)構(gòu)進行劃分，再將每部分用數(shù)字代替，對應的規(guī)則為：球員姓名用“1”代表，球員動作用“2”代表，球員數(shù)據(jù)、球隊名稱、球隊數(shù)據(jù)、球隊動詞、空格及標點、其他成分分別用“3”“4”“5”“6”“7”“8”代表。例如“119-114!詹姆斯三雙助騎士險勝步行者”就可以用數(shù)字表示為“57132464”。通過對全部標題的整理，可知標題語句制作結(jié)構(gòu)大致有5種模式。

對于正文部分，筆者運用抽樣方法對人工戰(zhàn)報與機器人戰(zhàn)報進行對比分析。該賽季“機器人NBA戰(zhàn)報”的時間跨度約為6個月，采用間隔抽樣方法最終合成月的方式，將31天分為6段，分別在不同的月份進行抽樣，即在2016年12月13—17日、2017年1月3—7日、2月8—12日、3月18—22日、4月23—27日、5月28日—6月2日各抽取1場比賽，每場比賽選出人工戰(zhàn)報1篇、機器人戰(zhàn)報1篇，共計12篇報道進行對比，時間段內(nèi)的抽樣均采取簡單隨機抽樣方式。

通過對標題和正文的分析，可以總結(jié)出體育賽事機器新聞寫作面臨如下3點現(xiàn)實困境。

2.1邏輯運算難以實現(xiàn)語義理解通過對機器人戰(zhàn)報標題進行全面分析后可知，標題結(jié)構(gòu)基本可以分為5種組合(表1)。

表1 “機器人NBA戰(zhàn)報”標題結(jié)構(gòu)組合與舉例Table 1 A combination of robot NBA report headlines and examples

由表1可見，機器人NBA戰(zhàn)報的標題結(jié)構(gòu)較為固定，只是根據(jù)不同比賽的數(shù)據(jù)選擇詞語進行替換。如：有12個表示勝利的高頻詞，分別為“戰(zhàn)勝”“擊敗”“擊落”“加時勝”“險勝”“力克”“力挫”“輕取”“狂虐”“狂屠”“完虐”“大勝”；有4個表示失敗的高頻詞，分別為“不敵(包括‘加時不敵’)”“惜敗”“小負”“憾負(包括‘加時憾負’)”。這些詞語的運用并未與比賽結(jié)果緊密貼合：如“維金斯31分唐斯兩雙森林狼主場17分大勝雄鹿”(2016-12-31)和“112-95!庫里27分助勇士戰(zhàn)勝籃網(wǎng)”(2017-02-26)這2個戰(zhàn)報標題中，雖然2場比賽的分差都為17分，卻使用了“戰(zhàn)勝”和“大勝”2個不同含義的動詞；再如“117-101!杜蘭特26分助勇士擊敗籃網(wǎng)”(2016-12-23)和“95-89!麥科勒姆43分助開拓者擊敗森林狼”(2017-01-02)這2個戰(zhàn)報的標題中，雖然都使用了“擊敗”，但分差為16分和6分。分差相同(17分)的2場比賽，戰(zhàn)報標題中卻使用了感情色彩不同的2個詞語(“戰(zhàn)勝”與“大勝”)，分差不同(16分和6分)的2場比賽卻使用了同樣的詞語(“擊敗”)。可見，標題中詞語的選擇顯示出機器新聞寫作未能對比賽結(jié)果有深入的理解，只是邏輯運算的結(jié)果。

機器人戰(zhàn)報的“4部分結(jié)構(gòu)模式”組成了正文的基本框架，即“導語”“雙方球員技術(shù)統(tǒng)計”“比賽回顧”“雙方首發(fā)”。每一部分又有幾種固定的結(jié)構(gòu)和搭配。以“比賽回顧”為例，通過使用如“開場后”“次節(jié)回來”“異地再戰(zhàn)”“第四節(jié)”或“首節(jié)開打”“次節(jié)回來”“下半場易邊再戰(zhàn)”“第四節(jié)”等詞語組合作為段落的開頭將報道分為4段；每段分別描寫一節(jié)比賽，具體形式為在段首句后添加3句按時間順序描述本節(jié)中的3個精彩瞬間，之后對比賽雙方的表現(xiàn)根據(jù)新聞要素的數(shù)量加1～4句評論，最后以比賽雙方比分情況作為本段的結(jié)束語。人工戰(zhàn)報則相對靈活，如：2017年5月8日騎士以4∶0橫掃猛龍的比賽戰(zhàn)報中，機器人延續(xù)了以往的報道方式；而人工報道則以“東部決賽賽程已敲定!騎士至少獲1周休息時間”為標題進行了報道，沒有選擇常規(guī)性的報道結(jié)構(gòu)，而是從季后賽的賽程入手，未拘泥于本次比賽，體現(xiàn)了報道者對整個賽事的宏觀理解。這一點是機器邏輯運算無法達到的。

究其原因，是“當代計算機系統(tǒng)只具有形式邏輯運算功能，而不具備人類智能系統(tǒng)的情感功能和意識功能”[6]。因此，它不能像人一樣將對比賽的感受與自身的知識相結(jié)合，并從語義的角度完成寫作，而是通過將比賽過程中的數(shù)據(jù)與預設(shè)數(shù)據(jù)點進行對比挑選新聞要素，并調(diào)用對應的語料庫數(shù)據(jù)完成寫作。

進而言之，雖然機器背后的邏輯推算與語義中的語法邏輯具有相似之處，但后者比前者多經(jīng)歷了一次對含義的處理過程，由此必然使得機器寫作和人工寫作之間出現(xiàn)了結(jié)構(gòu)和含義、框架和內(nèi)容上的區(qū)別。正視這個問題，首先要了解語言與思維發(fā)展的關(guān)系，語言是在人類思維發(fā)展過程中隨著生產(chǎn)勞動的需要而逐漸形成的，卻并非思維的全貌；語言是思維的一種分享手段，卻因生理、經(jīng)歷、社會等諸多因素的不同而存在差異?！皩嶒灉y量(機器人寫作)與人文思辨(人工寫作)的界限會越來越模糊，但是這兩類變量仍是不可以化約的，其根本原因是人有自由意志，即人的主體性，他不可能被還原為因果性”[7]。因此，即使機器的邏輯推算能夠通過語法在形式上高度模仿人類的表達，但不能理解語義的機器還是很難達到人類智能的高度，很難在這一高度上從事寫作等高智能工作。

2.2數(shù)據(jù)處理復雜難以被機器理解數(shù)據(jù)處理復雜主要表現(xiàn)為部分數(shù)據(jù)難以進行量化處理以及機器對于可量化數(shù)據(jù)的錯誤判斷。

在2017年6月2日騎士對陣勇士的比賽中，相較于機器人戰(zhàn)報的“4部分結(jié)構(gòu)模式”，人工戰(zhàn)報增加了“本場之星：杜蘭特統(tǒng)治全場”和“比賽花絮：杜蘭特半場6暴扣”2個環(huán)節(jié)?！氨緢鲋恰笔且粋€很難通過量化標準確定的概念，評判的依據(jù)往往不是單純的數(shù)據(jù)統(tǒng)計，還會包括球員在比賽中發(fā)揮的關(guān)鍵性作用。一旦出現(xiàn)發(fā)揮最大作用的球員不是數(shù)據(jù)最好的球員時，機器將難以做出具有感情色彩的判斷。再如“杜蘭特半場6暴扣”這類人工戰(zhàn)報中時常出現(xiàn)的描述，在機器戰(zhàn)報中卻少有出現(xiàn)?？梢姟氨┛邸?、普通扣籃和其他得分方式這類人工較易判別的動態(tài)數(shù)據(jù)，對于機器人來說區(qū)分時困難重重。究其因，在于文本、語音以及視頻等隱藏著大量關(guān)鍵信息的非結(jié)構(gòu)化數(shù)據(jù)的量化難度較大，不易轉(zhuǎn)變?yōu)闄C器新聞寫作中機器可以識別的信息[8]。

對于2017年4月23日灰熊對陣馬刺的比賽，機器人戰(zhàn)報中有這樣的陳述：“灰熊對籃板發(fā)起瘋狂進攻，本節(jié)共搶下17個籃板，包括4個前場籃板，其中康利一人就貢獻5個籃板球。馬刺3分如雨，全隊本節(jié)投10個3分球，但命中率僅為30.00%。灰熊本節(jié)狀態(tài)欠佳，失誤多達6次”。其中“灰熊”同一節(jié)的“異?！北憩F(xiàn)有2個方面，不僅沒有合并敘述，而且中間還被“馬刺”的表現(xiàn)岔開。這就是為了滿足設(shè)定程序而出現(xiàn)的一種“錯誤”信息，即預設(shè)的信息判斷法則與信息、信息呈現(xiàn)之間存在不符合人類正常表述習慣的潛在錯誤。具體而言就是機器人測量到本節(jié)比賽中雙方出現(xiàn)了3個與以往不同的數(shù)據(jù)，并認定應為報道要素。由于機器在預設(shè)時的規(guī)則為按照報道要素的先后順序描述，而不是先將同一主體的新聞要素予以整合，再進行陳述，所以機器人戰(zhàn)報描述的順序為“籃板—3分—球隊狀態(tài)”，這不符合讀者的信息接受規(guī)律，說明體育賽事機器新聞寫作未能對本場比賽中可量化數(shù)據(jù)進行正確判斷和優(yōu)化組合。究其因，在于機器的判斷是基于“數(shù)字”和“公式”的比較：一方面，當出現(xiàn)程序中未設(shè)定的情況時，在沒有人工介入的情況下，機器往往會陷入死循環(huán)或執(zhí)行跳出指令；另一方面，如果出現(xiàn)滿足設(shè)定程序的錯誤信息時，機器便會被“誤導”。

綜上可見，目前體育賽事機器新聞寫作的報道多停留在對比賽進程和比賽結(jié)果的簡單報道和總結(jié)概括上，未能實現(xiàn)深入挖掘和綜合分析，這與數(shù)據(jù)處理本身困難且復雜有很大關(guān)系。隨著人工對數(shù)據(jù)挖掘技術(shù)的開發(fā)，相信更多的數(shù)據(jù)能夠通過邏輯運算被機器“理解”。

2.3比賽數(shù)據(jù)難以轉(zhuǎn)化為趣味表達體育賽事新聞有一個明確的價值取向，即要遵循“重要而有趣”的原則。通過機器人NBA戰(zhàn)報與人工報道的對比可以看出，機器人戰(zhàn)報的報道要素呈現(xiàn)方式單一且固定，無法像人工報道那樣能從多個維度進行分析，更不能跟隨事件的進展創(chuàng)造寫作方式來突出新聞點和趣味性。

從機器人戰(zhàn)報和人工戰(zhàn)報標題的對比中可以看出，機器人戰(zhàn)報的標題雖然具有重點突出、結(jié)果一目了然、簡單易懂的特點，但不如人工戰(zhàn)報標題具有更豐富的細節(jié)、更靈動的畫面和更具沖擊力的情感表達(表2)。

表2 “機器人NBA戰(zhàn)報”與人工戰(zhàn)報標題對比Table 2 Title comparison of the robot NBA report and the artificial report

在表2中，序號5和序號6提到的2場比賽——“灰熊對陣馬刺”和“勇士對陣馬刺”，均已進入季后賽階段，人工戰(zhàn)報用“2∶2”和“1∶0”對賽程進行描述，而機器人戰(zhàn)報完全忽略了這一細節(jié)。對比序號1和序號4的標題可以看出，人工戰(zhàn)報中的“擒”和“壓哨絕殺”以動態(tài)的方式分別對比賽結(jié)果與比賽瞬間進行描述，增加了標題的畫面感，而機器人戰(zhàn)報的標題只使用了“不敵”和“險勝”這2個較為中性的動詞，少了一份靈動感。此外，人工報道標題中還大量使用球隊和球員的昵稱，如：在序號3中將凱爾特人稱為“綠軍”，將托馬斯稱為“小刺客”；在序號5中將萊昂納德稱為“卡哇伊”。這些稱呼帶有明顯的情感色彩，而機器人戰(zhàn)報并未使用昵稱的表述方式，過于冷靜客觀，缺少必要的感染力。

不僅在標題中，在正文中“機器人NBA戰(zhàn)報”的表達方式依然缺少必要的趣味性。在2017年1月6日開拓者對陣湖人的比賽中，人工戰(zhàn)報的第一段為“波特蘭開拓者今日在主場以118-109擊敗洛杉磯湖人……湖人常規(guī)賽面對開拓者已經(jīng)遭遇9連敗”，而機器人戰(zhàn)報的第一段則為“湖人客場對陣開拓者。最終開拓者以118-109戰(zhàn)勝湖人”，二者形成了鮮明的對比：人工戰(zhàn)報開始便埋下了湖人隊常規(guī)賽對開拓者已遭遇9連敗的伏筆，勾起了讀者對以往比賽的回憶，豐富了觀看此次比賽的情感體驗；而機器人戰(zhàn)報無法從雙方對陣歷史入手，突出本次比賽的特殊意義，喪失了趣味性表達的機會。

再如，2016年12月13日小牛對陣掘金的第4節(jié)，比賽早早進入“垃圾”時間，趣味性全無。人工報道為“末節(jié)，雙方的分差再沒能縮小到20分以內(nèi)，比賽也早早進入垃圾時間。兩隊派上大量替補球員進行練兵，最終，小牛主場以112-92大勝掘金”。機器人戰(zhàn)報為“第4節(jié)，第5分43 s，梅杰里在約基奇投籃時犯規(guī)，送給掘金2次罰球機會。第6分59 s，德隆出現(xiàn)傳球失誤，被埃爾南戈麥斯搶斷。第11分39 s，穆雷妙傳，穆迪埃3分遠投命中。比賽結(jié)束，小牛以112-92戰(zhàn)勝掘金，鎖定勝局”。人工戰(zhàn)報體現(xiàn)出了對賽況的主觀判斷，能夠有效引發(fā)球迷的情感共鳴；而機器人戰(zhàn)報依然執(zhí)著于賽況的平鋪直敘和數(shù)據(jù)的順序呈現(xiàn)，比賽數(shù)據(jù)未能轉(zhuǎn)換為趣味表達。

由此可見，體育新聞機器人寫作的“思考”與“表達”多是基于框架的推演，而非內(nèi)容的考量。機器人戰(zhàn)報雖然沒有錯過由數(shù)據(jù)突顯出來的各種重要性人物與比賽結(jié)果，但對于趣味性的把握顯然不如人工新聞到位。

就目前騰訊體育“機器人NBA戰(zhàn)報”而言，機器人可以“復制”出滿足人們信息需要的報道，卻無法主動創(chuàng)造出滿足讀者不同需求和愛好的文章。在強人工智能還是未來目標的今天，處于弱人工智能階段的機器需要向人類學習，在被人類改造后才能發(fā)生變化和進步。雖然它可以通過豐富模板和語料庫實現(xiàn)寫作水平的提升，但若要實現(xiàn)對人工報道的完全取代，仍然需要新技術(shù)、新方法的出現(xiàn)。

3 體育賽事機器新聞寫作的改進路徑

由于人的自由意志即人的主體性不可能被還原為因果性，所以人工創(chuàng)作的報道是無法被目前只擁有形式邏輯運算功能的計算機直接通過語義理解實現(xiàn)的，需要通過模仿人工寫作的文本寫作方式和新聞點描寫方式實現(xiàn)報道水平的提升。換言之，在技術(shù)出現(xiàn)革命性突破前，仍然需要對現(xiàn)有技術(shù)進行更好地總結(jié)歸納，并實現(xiàn)升級換代；即使無法同人工報道完全等同，也依然可以逐步在呈現(xiàn)的結(jié)果上逼近人工寫作水平，從而減輕人工寫作的負擔，最后通過人機合作的形式實現(xiàn)媒體行業(yè)效率的提升。

有人將國外的機器新聞寫作流程歸納為5個步驟：①讀入大量結(jié)構(gòu)化和標準化數(shù)據(jù)；②測量數(shù)據(jù)中的“新聞性”；③找出合適的報道角度，如有多個角度，則按報道的重要性排序；④將報道角度與數(shù)據(jù)中的具體事實進行匹配；⑤生成報道文本[9]。國內(nèi)的實踐將流程歸納為以下幾個階段：首先根據(jù)文字直播的特點構(gòu)建球隊的分差函數(shù)，并提出基于分差函數(shù)的數(shù)據(jù)分片算法和數(shù)據(jù)合成算法；然后對數(shù)據(jù)片進行分類，構(gòu)建模板庫，從而構(gòu)建NBA賽事新聞自動生成的模型[10]。

2種方法雖然有所不同，但基本原理都是將“數(shù)據(jù)”“知識”“智能”3者進行有效結(jié)合，即將外部具有自然屬性的數(shù)據(jù)轉(zhuǎn)換為機械可獲取的數(shù)據(jù)，根據(jù)輸入機械可獲取的數(shù)據(jù)和數(shù)據(jù)間的關(guān)系提煉出共同本質(zhì)，形成“知識”，進而向“智能”提供判斷的依據(jù)，讓“智能”在預設(shè)和“知識”的支持下對輸入數(shù)據(jù)進行處理，實現(xiàn)輸出的過程。新獲得的數(shù)據(jù)和數(shù)據(jù)間的關(guān)系又將作為新的“數(shù)據(jù)”納入知識庫，并與之前的數(shù)據(jù)合成新的“知識”(圖1)。

圖1 機器新聞寫作的框架分析Figure 1 Frame analysis of the machine news writing

下面圍繞“數(shù)據(jù)”“知識”“智能”3個環(huán)節(jié)著重討論如何提升體育賽事機器新聞寫作水平，實現(xiàn)新聞點的挖掘。

3.1數(shù)據(jù)積累與知識構(gòu)建：從邏輯推算到語義模仿數(shù)據(jù)作為深度學習的依據(jù)、處理問題的根本，其作用不容忽視。對于數(shù)據(jù)的完善至少包括2個方面：數(shù)據(jù)量的不斷積累和知識的不斷構(gòu)建。

只有數(shù)據(jù)量不斷積累，才能讓“機器人NBA戰(zhàn)報”等體育賽事機器新聞寫作有章可依、有據(jù)可循。要實現(xiàn)這個目標：一方面要對原有數(shù)據(jù)進行整理，并實時更新數(shù)據(jù)；另一方面要逐步通過語言表達形式的復雜化模仿人工寫作。欲解決文章框架單一、句子雷同的問題，應通過讀入大量文本數(shù)據(jù)以獲取新的框架和句子。當比賽數(shù)據(jù)擬合成的曲線發(fā)生變化時，根據(jù)曲線的特征和變化趨勢使用不同的預設(shè)框架、句子進行報道，甚至同一類數(shù)據(jù)曲線可以預設(shè)多種報道框架和句子。除文本數(shù)據(jù)外，在賽事實時數(shù)據(jù)方面，還可以將機器人的數(shù)據(jù)終端與大型體育賽事的新聞服務(如INFO信息系統(tǒng)等)[11]進行連接，將官方提供的即時引語、新聞發(fā)布會摘要等信息及時匯入以賽后消息為主的機器人新聞中，提供更加全面、準確的數(shù)據(jù)來源。

同時應不斷構(gòu)建知識，進一步建立有效的統(tǒng)一標準，升級文本生成機制。如對機器人設(shè)置情感參數(shù)，對于國內(nèi)球迷好感度高的球星，在文章中可以使用更多的形容詞、動詞，并添加報道環(huán)節(jié)，以滿足受眾需要。這就要求完善語料庫、詞匯知識庫，實現(xiàn)數(shù)據(jù)由單一用途向多元轉(zhuǎn)變，充分挖掘數(shù)據(jù)價值，加強情感分析，編寫泛化算法。這些目標的實現(xiàn)有賴于專業(yè)記者、編輯的介入，將他們的意見與建議同技術(shù)人員分享，從而整合出合理的方法對現(xiàn)有程序進行調(diào)整，逐漸使體育賽事機器新聞寫作不斷接近人工報道的水平。

3.2數(shù)據(jù)升級與知識優(yōu)化：從信息推送到深度報道目前機器對數(shù)據(jù)的分析和運用還處于初級階段，其深度和廣度仍有待挖掘，以進一步實現(xiàn)知識結(jié)構(gòu)的優(yōu)化。

在深度上要解決自然數(shù)據(jù)到機械可獲取數(shù)據(jù)轉(zhuǎn)化的問題?？梢酝ㄟ^網(wǎng)絡(luò)眾包標記的方式，將文本、語音以及視頻等隱藏著大量關(guān)鍵信息的非結(jié)構(gòu)化數(shù)據(jù)上傳至網(wǎng)絡(luò)，“雇傭”網(wǎng)民對其進行分類標注，從而實現(xiàn)量化，幫助機器人識別比賽中的“暴扣”“絕殺”等勁爆瞬間。同時要重組數(shù)據(jù)結(jié)構(gòu)，進行分級處理，通過知識建立起關(guān)聯(lián)性更強的數(shù)據(jù)網(wǎng)絡(luò)，使已識別“首三雙”等信息的機器人能夠?qū)ふ业綄脑瓟?shù)據(jù)、相關(guān)數(shù)據(jù)、文本庫進行挖掘和呈現(xiàn)，以及對如多次出現(xiàn)“灰熊”而未能歸納并列的文本實現(xiàn)數(shù)據(jù)的歸總，減少重復描寫。

在廣度上要通過建立標準數(shù)據(jù)模型實現(xiàn)數(shù)據(jù)的共享，實現(xiàn)多源異構(gòu)、跨域關(guān)聯(lián)，保證數(shù)據(jù)流暢通，讓更多知識互通起來實現(xiàn)知識的拓展。目前，得益于計算方法的完善和互通互聯(lián)技術(shù)的提高，不同模型的專家系統(tǒng)逐步打破各自為政的限制，實現(xiàn)了多種模型的綜合運用，出現(xiàn)了以“通用性”“分布式”“協(xié)同式”[12]等為代表的“多專多能”的專家系統(tǒng)。媒體應該借助現(xiàn)有的專家系統(tǒng)，讓體育賽事新聞寫作機器人不僅懂得寫作，更懂得體育。要完成這一過程，就需要將專業(yè)人才引入媒體，或者媒體與專業(yè)數(shù)據(jù)公司合作，讓更多的數(shù)據(jù)和知識在機器中“活”起來，從對數(shù)據(jù)的初級處理向深度分析運用方向發(fā)展，使知識由簡單的評判向多維度的評估轉(zhuǎn)變，逐步實現(xiàn)深度報道。

3.3人工智能與人的工作：從單向輔助到相互協(xié)作目前，體育賽事機器新聞寫作所涉及的智能體現(xiàn)為一種判斷，即發(fā)現(xiàn)機械可獲取的數(shù)據(jù)后按照預設(shè)進行判斷、分析并輸出文本。所以，與其說它在模仿人類的“智能”，倒不如說它是在模仿人的部分認知能力。它雖然具有高效率、全時段、高精度、全方位等特點，但正如緝毒犬具有靈敏嗅覺能夠精準判斷毒品，但不能完全代替緝毒警察一樣，它們只是人類根據(jù)其特點制造或培育出的“幫手”。對于新聞記者和編輯而言，機器人是他們在“時間愈發(fā)緊迫”的今天高效完成信息收集、分析、過濾和撰寫報道的“幫手”。因此，從功能的角度看，對于機器新聞寫作的完善不能僅限于關(guān)注如何寫好文章、如何挖掘新聞點，也應加強對數(shù)據(jù)合法性、準確性和有效性的判斷，并對知識系統(tǒng)的正誤保持謹慎的態(tài)度。這就需要技術(shù)人員加強對機器人性能的完善，同時也需要記者、編輯對機器人作品進行審核和監(jiān)督。

另外，前文述及機器無法擺脫人而獨立完成有創(chuàng)造性的撰寫報道，它所撰寫的報道都是對人工報道的模仿以及對預設(shè)的實現(xiàn)。那么，對于體育賽事報道而言，何種報道易于由機器人代替，何種又難以代替呢？從目前計算機邏輯推演的屬性出發(fā)，凡是重復性寫作和在可表達的框架下具有一定創(chuàng)造性的寫作將會被機器人替代。由于體育賽事的規(guī)則具有統(tǒng)一性且日程具有周期性，所以常規(guī)的賽前預測、實時報道、比賽戰(zhàn)報以及一般的評論都具有被替代的可能；而對于體育賽事中具有創(chuàng)新性的報道、對球員或球隊的深度訪談報道、體育賽事中的調(diào)查性報道、情感關(guān)懷性報道以及具有深度價值評論類的報道，人工寫作難度較大，目前很難被基于邏輯推演制造的機器替代。此外，機器所學習的報道均為人工報道，因此人類的工作還包括為機器學習提供新的模板，對機器出現(xiàn)的錯誤進行更正，監(jiān)督機器的運行是否符合倫理和法律規(guī)范等。

4 結(jié)束語

體育賽事機器新聞寫作目前像是剛剛上路的孩子，會因為一次華麗的表現(xiàn)而讓我們驚喜，甚至恐慌，也會因為一次錯誤而讓我們沮喪，甚至否定。從古至今，技術(shù)進步和社會系統(tǒng)總是像孩子和父母一樣難以同步發(fā)展，舊有的社會系統(tǒng)與新生事物的發(fā)展之間難免會出現(xiàn)碰撞，而這種碰撞有時是痛苦的，社會需要給體育賽事機器新聞寫作一些空間。相信在未來的某天，“他”會寫出深入淺出、酣暢淋漓的報道。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

體育賽事機器新聞寫作的現(xiàn)實困境與改進路徑——以騰訊“機器人NBA戰(zhàn)報”為例

1 發(fā)展體育賽事機器新聞寫作的必要性與可行性

2 體育賽事機器新聞寫作的現(xiàn)實困境

3 體育賽事機器新聞寫作的改進路徑

4 結(jié)束語

體育賽事機器新聞寫作的現(xiàn)實困境與改進路徑
——以騰訊“機器人NBA戰(zhàn)報”為例