【摘要】近年來,人工智能寫作應(yīng)用的實例大多集中在新聞寫作上。實驗中,基于數(shù)據(jù)與算法的結(jié)構(gòu)化自動文本生成系統(tǒng)在數(shù)據(jù)新聞寫作的速度和數(shù)量上優(yōu)于人工寫作。5G時代,在大數(shù)據(jù)、物聯(lián)網(wǎng)和云計算技術(shù)的不斷推動下,人工智能新聞寫作有望獲得新的發(fā)展。
【關(guān)? 鍵? 詞】人工智能;智能寫作;新聞
【作者單位】黃國春,廣西民族大學(xué)。
【中圖分類號】G212 【文獻(xiàn)標(biāo)識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2019.15.020
自從AlphaGo戰(zhàn)勝人類圍棋冠軍之后,全球又掀起了新一輪人工智能熱潮,人工智能從自然科學(xué)領(lǐng)域向社會科學(xué)領(lǐng)域發(fā)展。人工智能在語音識別、圖文識別、自動翻譯、智能寫作和智能財經(jīng)等人文社科領(lǐng)域穩(wěn)步推進(jìn),人工智能投入新聞寫作的應(yīng)用引起新聞傳播學(xué)界和業(yè)界的高度關(guān)注。
一、人工智能新聞寫作的曙光
人工智能寫作在2014—2016年集中爆發(fā),三年間,全球有超過30款的寫作機(jī)器人在媒體曝光,其在新聞寫作和文學(xué)寫作領(lǐng)域速度驚人,且產(chǎn)量可觀。
1.國外媒體率先進(jìn)行人工智能寫作實驗
據(jù)報道,2014年7月,美聯(lián)社與科技公司AutomatedIns
ights合作開發(fā)了Wordsmith人工智能寫作平臺,并使其自動編寫企業(yè)財報。該平臺幾秒鐘便能生成一篇150—300單詞的新聞快訊,比人力寫作效率高十倍[1]。2014年3月,美國洛杉磯發(fā)生地震時,《洛杉磯時報》用寫作機(jī)器人Quakebot在地震發(fā)生后三分鐘就率先發(fā)布了地震消息。路透社宣布與語義技術(shù)公司Graphiq合作,采用人工智能從數(shù)據(jù)庫中抓取數(shù)據(jù),建立可視化圖表,然后生成有圖表匹配的圖文報道。英國《衛(wèi)報》推出了一份內(nèi)容幾乎完全由算法生成的報紙“#Open001”,機(jī)器人篩選社交網(wǎng)絡(luò)上的熱門話題,并將這些話題進(jìn)行數(shù)據(jù)統(tǒng)計分析后,然后將內(nèi)容編輯排版成報紙。2016年里約奧運(yùn)會舉辦時,《華盛頓郵報》使用寫稿機(jī)器人Heliograf與體育數(shù)據(jù)公司合作,將比賽數(shù)據(jù)自動生成短消息并即時發(fā)布。
這些人工智能寫作系統(tǒng)的共同點是通過將數(shù)據(jù)導(dǎo)入模板自動生成模式新聞稿,在數(shù)據(jù)條件滿足的情況下,可自動寫作實用性的報道,在寫作數(shù)據(jù)化、多批次和規(guī)律性報道時,其準(zhǔn)確度與速度比人工寫作更勝一籌。
2.中國人工智能寫作快步緊跟
2015年9月,騰訊財經(jīng)開發(fā)的新聞寫作機(jī)器人Dreamwriter寫作并發(fā)表了《8月CPI同比上漲2.0% 創(chuàng)12個月新高》,引起了社會各界關(guān)注。2015年11月7日,新華社正式推出機(jī)器人寫稿項目——“快筆小新”,用于寫作體育賽事的中英文稿件和財經(jīng)報道[2]。封面新聞宣稱“小封機(jī)器人”不僅能寫新聞,而且能通過語音識別、意圖識別等AI技術(shù)與用戶互動。阿里巴巴入股第一財經(jīng)后,推出一款能協(xié)助記者快速寫作財經(jīng)報道的智能寫稿系統(tǒng)。北京大學(xué)計算機(jī)研究所和今日頭條聯(lián)合研發(fā)機(jī)器人張小明,在里約奧運(yùn)上投入應(yīng)用。據(jù)稱,該款機(jī)器人能結(jié)合語言處理、機(jī)器學(xué)習(xí)和視覺圖像處理技術(shù),通過語法合成與排序完成新聞寫作。據(jù)人民網(wǎng)不完全統(tǒng)計,我國至少10家新聞媒體推出了13個智能新聞機(jī)器人產(chǎn)品或應(yīng)用,進(jìn)行線上線下采寫報道。但到了2017年,人工智能寫作發(fā)展速度似乎有所放慢,三年來鮮有人工智能寫作新進(jìn)展的報道。
數(shù)據(jù)庫、算法和自然語言處理技術(shù)的長期積累,使人工智能寫作技術(shù)步入實用化、成品化階段。在確定數(shù)據(jù)條件和范圍內(nèi)自動生成新聞文稿,雖然對計算機(jī)界只是普通算法,但是在新聞界引起不少震動,甚至被認(rèn)為會部分替代人類記者或改變未來傳媒業(yè)的業(yè)態(tài)。
二、人工智能寫作新聞的框架及透視
1956年,人工智能概念(Aritificial Intelligence,AI)得到確立。經(jīng)歷了數(shù)理邏輯的符號主義和基于神經(jīng)網(wǎng)絡(luò)連接主義的雙重推理與驗證,加上深度學(xué)習(xí)的重構(gòu),人工智能形成數(shù)據(jù)加算法的應(yīng)用模式。人工智能寫作的基本框架是基于自然語言處理規(guī)則的結(jié)構(gòu)化數(shù)據(jù)生成算法。數(shù)據(jù)即變量,數(shù)據(jù)的實時變化反映事物的變化。數(shù)據(jù)變化越大,其新聞價值越大,反之亦然。
1.人工智能寫作新聞的框架
目前,人工智能寫作系統(tǒng)可用于財經(jīng)、體育比賽、地震測報、交通監(jiān)控和社交網(wǎng)絡(luò)等項目的新聞寫作。這些項目全部實現(xiàn)了計算化管理,項目運(yùn)行過程中能產(chǎn)生完整的數(shù)據(jù),人工智能系統(tǒng)只要提取其中的數(shù)據(jù),并將其代入新聞模板,即可自動生成新聞文本。目前,人工智能寫作新聞的框架大致有兩類。
(1)測定自動生成類
此類人工智能寫作的基本原理是新聞模板加數(shù)據(jù)填空,就編程而言便是常量加變量的字符串組合,編程并不復(fù)雜,算法也比較簡單。模板是常量,數(shù)據(jù)是變量,用幾個函數(shù)一次循環(huán)便能串起一篇新聞。比如,下面的新聞就是這個類別。
據(jù)中國地震臺網(wǎng)測定:8月8日21時19分,在四川阿壩州九寨溝縣發(fā)生7.0級地震。震源深度20千米,震中位于北緯33.20度,東經(jīng)103.82度。
這是一則標(biāo)準(zhǔn)的短消息,時間、地點、事件清晰,數(shù)據(jù)準(zhǔn)確。其編程模型為:“據(jù)中國地震臺網(wǎng)測定:”+時間變量T+“在”+地點變量S+“,震源深度”+深度變量D+“,震中位于北緯”+緯度變量Lng+“,東經(jīng)”+經(jīng)度變量Lat+“?!?。
常量是固定在模板上的,變量值由設(shè)備測定,監(jiān)測軟件直接將數(shù)據(jù)串聯(lián)成地震報告,還可附上由測定的位置圖及周邊人口和環(huán)境數(shù)據(jù)生成的新聞稿。交通監(jiān)管、體育比賽等也可運(yùn)用此類測定報道。隨著人臉識別、語音識別、圖文識別、行為識別和環(huán)境識別等技術(shù)的成熟,測定自動生成報道的應(yīng)用范圍將不斷拓寬。
(2)數(shù)據(jù)自動生成類
數(shù)據(jù)自動生成類系統(tǒng)是指從管理系統(tǒng)獲取數(shù)據(jù),將數(shù)據(jù)處理后自動生成文本的系統(tǒng)。比如,美聯(lián)社與科技公司合作開發(fā)的Wordsmith人工智能寫作平臺可以自動編寫企業(yè)財報新聞,提取企業(yè)財務(wù)報告的數(shù)據(jù),套用美聯(lián)社預(yù)定的新聞模板,并自動生成一篇150—300單詞的新聞快訊。該平臺每季度可生成3000多篇財報新聞。
數(shù)據(jù)類生產(chǎn)模式要比測定類生成模式復(fù)雜些。一是數(shù)據(jù)類生產(chǎn)模式數(shù)據(jù)量大且需要計算處理。智能系統(tǒng)提取數(shù)據(jù)后,需要對數(shù)據(jù)進(jìn)行分類、匯總和排序,并計算出精確結(jié)果。二是該模式要對數(shù)據(jù)結(jié)果進(jìn)行對比分析,找出新聞點。三是該模式要通過判斷數(shù)據(jù)態(tài)勢來選擇模板。這種模式生成此類財經(jīng)報道速度快,數(shù)量大,數(shù)據(jù)越復(fù)雜,越顯優(yōu)勢,無須人工干擾,但對數(shù)據(jù)不完整、不可靠和超范圍的項目無能為力。
目前,人工智能還進(jìn)行一些社交網(wǎng)絡(luò)新聞的自動寫作測試。人工智能通過對社交網(wǎng)絡(luò)的話題進(jìn)行統(tǒng)計分析,并搜索社交網(wǎng)絡(luò)的熱門話題和新聞熱點,抓取精華內(nèi)容,并自動生成新聞。但由于自然語言處理技術(shù)滯后,文本到文本自動生成未能突破語義與語法關(guān),此方面的研究試驗尚未進(jìn)入實用階段。
2.人工智能新聞寫作多面觀
由于自然語言處理技術(shù)的瓶頸尚未突破,自然科學(xué)界對人工智能寫作十分謹(jǐn)慎,而社會科學(xué)界對其期待很多。一些學(xué)者發(fā)表學(xué)術(shù)論文對人工智能寫新聞的真實性、實用性、發(fā)展走向、版權(quán)問題、寫作倫理、替代人工及對傳播業(yè)的影響等問題展開討論。對人工智能新聞寫作的應(yīng)用,我們要從多個方面來審視。
一是人工智能寫作快速,人類記者不能企及。其實,智能寫作系統(tǒng)能0.6秒生成一條500字符的文本并不算快速。對計算機(jī)來說,速度和數(shù)量都不是問題,問題是能否生產(chǎn)真正的新聞。人工智能生產(chǎn)的流水文本是否具有新聞價值,還需人工記者去辨別,真正決定哪些事實是新聞的是人,而不是機(jī)器。
二是人工智能寫作數(shù)據(jù)準(zhǔn)確,提升了新聞的客觀性[3]。計算機(jī)的數(shù)據(jù)是經(jīng)過設(shè)備測定或人工確定才錄入數(shù)據(jù)庫的,有限的數(shù)據(jù)只能體現(xiàn)局部的真實,不能反映全面的真實,且數(shù)據(jù)結(jié)構(gòu)不能變動,不能轉(zhuǎn)角度,不能用于其他項目,兼容性和使用率有限。
三是人工智能寫作只能部分替代人類記者。真實的人工智能寫作系統(tǒng)使用起來不僅技術(shù)復(fù)雜,而且設(shè)備繁多。比如,奧運(yùn)會等大型體育比賽需要安裝大量的測定計分設(shè)備和復(fù)雜的計算機(jī)網(wǎng)絡(luò)系統(tǒng),還需要人數(shù)眾多的技術(shù)團(tuán)隊安裝、調(diào)試,才能正常運(yùn)行,成本較高。
四是智能寫作系統(tǒng)能增強(qiáng)理解力。智能寫作系統(tǒng)被用戶用久了,會讀懂用戶的心理感受和思考方式,會寫出更為復(fù)雜、更有個性的稿件[4]。這是對人工智能寫作的超技術(shù)想象。用戶可以自主設(shè)定智能寫作系統(tǒng)的模式、線索、情景、細(xì)節(jié)、觀點,甚至語言風(fēng)格等寫作要素,但離開用戶設(shè)置和數(shù)據(jù)輸入,智能系統(tǒng)不可能自主形成理解力和思考力。
三、人工智能寫作的前行方向
業(yè)界認(rèn)為,人工智能的發(fā)展將經(jīng)歷弱人工智能、強(qiáng)人工智能和超人工智能三個階段,目前處在弱人工智能發(fā)展階段。隨著信息技術(shù)的發(fā)展,人工智能寫作會向更高速度、更多維度、更大靈活度和更接近人類語言與思維的方向發(fā)展。省時、省力、低價高效和可靠是人工智能寫作系統(tǒng)發(fā)展的基本邏輯。
人們期待著人工智能寫作系統(tǒng)能通過深度學(xué)習(xí)增長知識,會思考,并寫出自主創(chuàng)新的文章,但這些想法脫離了人工智能發(fā)展的技術(shù)基礎(chǔ)。5G時代, 在大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)增強(qiáng)技術(shù)的推動下,人工智能寫作有可能會在以下幾個方向獲得新的進(jìn)展。
1.結(jié)構(gòu)化自動寫作將獲得廣泛應(yīng)用
未來,基于數(shù)據(jù)自動生成文本的結(jié)構(gòu)化寫作功能模塊將越來越普遍地鑲嵌在各種管理信息系統(tǒng)中,依托數(shù)據(jù)實時生成文字報告或報表。一鍵生成文本報告將成為常態(tài),其運(yùn)算功能、分析功能和圖表功能將會更強(qiáng),智能化程度將會更高,其數(shù)據(jù)將更翔實、準(zhǔn)確和可靠,并能生成長文本和深度分析報告,把大量人力從繁雜的數(shù)據(jù)讀解中解脫出來。
2.智能識別推進(jìn)現(xiàn)場報道自動化
5G時代,智能識別技術(shù)將得到質(zhì)的飛躍,高分辨?zhèn)鞲凶R別和物聯(lián)網(wǎng)為人工智能寫作提供大量的數(shù)據(jù)。人臉識別、語音識別、圖文識別、行為識別和環(huán)境識別等識別技術(shù)可通過網(wǎng)絡(luò)將新聞現(xiàn)場的內(nèi)容收錄到智能寫作系統(tǒng)中,實時拍攝、拾音和記錄新聞過程,捕捉、跟蹤變動點、新聞點,并配合系統(tǒng)數(shù)據(jù)庫進(jìn)行背景分析,自動生成圖文報道或視頻報道,從而大大提高時效性。
3.自然語言編輯有望突破
隨著研究的積累與深化,人工智能有望在語義網(wǎng)絡(luò)分析、標(biāo)記、語法關(guān)系和上下文關(guān)聯(lián)等自然語言處理的關(guān)鍵技術(shù)上取得突破,實現(xiàn)語義分析的窮盡計算,及語義與語法的最佳匹配。復(fù)雜智能算法可實現(xiàn)對已有文本的智能編輯與重構(gòu),有望在文字編校、語法糾正、自動編目、文稿壓縮、自動配圖、圖表生成、數(shù)據(jù)校驗、條目化編輯和檢索把關(guān)等方面獲得質(zhì)的提升,大大提升圖文編輯與出版的效率。
此外,人工智能還有社交網(wǎng)絡(luò)新聞自動生成等其他發(fā)展的可能。人工智能寫作系統(tǒng)的發(fā)展除依賴技術(shù)進(jìn)步外,還取決于系統(tǒng)的性價比和使用效率。巨額投入開發(fā)一套使用率不高的智能寫作系統(tǒng)是不符合人工智能發(fā)展邏輯的。
四、人工智能寫作的悖論
李國杰院士發(fā)表的《人工智能的三大悖論》提出莫拉維克悖論、新知識悖論和啟發(fā)式悖論,并指出計算機(jī)的運(yùn)行可以歸結(jié)為已有符號的形式變換,結(jié)論已經(jīng)蘊(yùn)涵在前提中,本質(zhì)上不產(chǎn)生新知識,不會增進(jìn)人類對客觀世界的認(rèn)識[5]。人工智能寫作系統(tǒng)畢竟是程序員用算法編碼的自動文本生成系統(tǒng),雖然可以重復(fù)循環(huán),重構(gòu)組合,但不大可能通過機(jī)器學(xué)習(xí)獲得自主創(chuàng)新能力。
1.無法超越數(shù)據(jù)與模板局限
人工智能寫作是機(jī)器程序,其寫作實際是對材料進(jìn)行重新組合。因而,人工智能必須依靠大數(shù)據(jù),不然就無料可寫。但系統(tǒng)的數(shù)據(jù)總是有限的,數(shù)據(jù)的獲取無法跨越程序的安排,文本無法跨越模板,分析無法超越算法。所謂深度學(xué)習(xí)無非是往數(shù)據(jù)庫多增加一些記錄,多一些可選擇的模板而已,無法超越數(shù)據(jù)與模板的局限。
2.難以自主創(chuàng)新
李國杰院士認(rèn)為,計算機(jī)是機(jī)械的、可重復(fù)的智能機(jī),本質(zhì)上沒有創(chuàng)造性。AlphaGo Zero 之所以通過機(jī)器深度學(xué)習(xí)而戰(zhàn)勝對手,是因為它可以通過對弈將對手戰(zhàn)法大量輸入數(shù)據(jù)庫中,經(jīng)統(tǒng)計對比篩選出更強(qiáng)的戰(zhàn)法。計算機(jī)可從已知產(chǎn)生已知,但不能從未知產(chǎn)生新知識。計算機(jī)在數(shù)據(jù)滿足的條件下,對重復(fù)性和煩雜性工作的處理能力很強(qiáng),但生成全新內(nèi)容的能力有限。人工智能的數(shù)據(jù)局限和算法局限很大,識別能力不足,缺乏思維能力,無法對未知領(lǐng)域做出判斷,難以實現(xiàn)超出已知的自主創(chuàng)新。
3.人工智能寫作與新聞?wù)鎸嵭糟U?/p>
新聞的本質(zhì)是真實客觀地描述客觀世界存在的事實。人工智能寫作記錄的數(shù)據(jù)是局部的、片面的事實,并不能描述全面的事實,難以捕捉新聞點和判斷新聞價值。比如,自動生成的地震報道雖然可以準(zhǔn)確描述地震的測報數(shù)據(jù),但是描述不了地震的損毀情況和損失數(shù)據(jù),無人物、現(xiàn)場、細(xì)節(jié)和引語,也就失去新聞的整體真實性與價值。英國記者聯(lián)合會主席TimDawson表示,目前,全世界新聞行業(yè)最主要的問題就是缺乏有事實根據(jù)的報道。機(jī)器人顯然無法代替人類去完成這部分的工作[6]。
人工智能寫作新聞還面臨一個把關(guān)與把度問題。一是事實關(guān),二是輿論導(dǎo)向關(guān)。對測定生成類和數(shù)據(jù)自動生成類人工智能寫作的新聞,數(shù)據(jù)是經(jīng)設(shè)備測定或經(jīng)過人工錄入核準(zhǔn)和科學(xué)計算的。模板文字不涉及事實,制作時已經(jīng)把關(guān)。對社交網(wǎng)絡(luò)自動生成和現(xiàn)場識別自動生成的新聞把關(guān)的難度很大,事實與數(shù)據(jù)難以核實。
|參考文獻(xiàn)|
[1]呂倩. 人工智能技術(shù)背景下的新聞業(yè)變革與堅守[EB/OL]. (2019-01-17)[2019-06-02]. http://media. people. com. cn/n1/2019/0117/c424555-30563039. html.
[2]唐淇. 智媒時代機(jī)器人寫作對傳媒發(fā)展的重構(gòu)——以新華社“快筆小新”為例[J]. 衛(wèi)星電視與寬帶多媒體,2019(6).
[3]朱垚穎. 新聞寫作的智能化趨勢探析[J]. 寫作,2018(5).
[4]米厚民. 智能寫作對新聞人的沖擊到底有多大?[J]. 中國記者,2017(11).
[5]李國杰. 人工智能的三大悖論[J]. 中國計算機(jī)學(xué)會通訊,2017(11).
[6]參考消息網(wǎng). 新華社將人工智能引入新聞編輯部引海外關(guān)注[EB/OL]. (2018-01-15)[2019-06-02]. http://www. cankaoxiaoxi. com/china/20180115/2251847_2. shtml.