■ 李佐文 李 楠
人工智能和大數(shù)據(jù)正在改變媒體,智能化成為媒體未來的發(fā)展趨勢①。目前,大數(shù)據(jù)、深度學(xué)習(xí)、人工智能等概念層出不窮,逐漸進入媒體行業(yè)的同時也改變著媒體行業(yè),智能新聞寫作、智能分發(fā)、情感分析、個性推薦等成為智能媒體關(guān)注的內(nèi)容。自然語言處理作為人工智能的重要組成部分,需要分析話語的宏觀和微觀結(jié)構(gòu),分析語義的不同層次,對內(nèi)容進行分類,才能在真正意義上實現(xiàn)上述目標。智能化計算機需要通過大量的文本分析,抽取樣本特征,才能學(xué)會如何提煉主題、分析情感,像人類一樣理解我們?nèi)粘=涣鞯脑捳Z;只有掌握了語篇層面的結(jié)構(gòu)特征和語義特征,才能學(xué)會產(chǎn)生出更加自然、符合邏輯且富有變化的文章,而不是停留在模板填充的水平上。同樣,個性化新聞推送也需要讓計算機學(xué)習(xí)如何對新聞分類,才能使新聞的分發(fā)和推送更有針對性。基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)使自然語言處理不再只停留在字、詞的層面,而是開始探討包括語境和相關(guān)背景知識在內(nèi)的整體話語層次。
話語計算就是依賴話語的形式特征來實現(xiàn)對語義或意向成分主動控制的處理過程。在語言學(xué)理論框架下,用可計算的形式抽象出話語意義的操作模型是計算話語學(xué)(computational textlinguistics)的基本任務(wù)。在人工智能領(lǐng)域,智能計算本質(zhì)上是基于自然語言的計算,真正智能的計算機需要像人類一樣,使用語言作為媒介來計算。話語的可計算性特征就是用結(jié)構(gòu)化的形式描寫話語,用清晰明確的程式化方式來表征話語結(jié)構(gòu),命題關(guān)系,然后通過推理和語義操作來實現(xiàn)話語處理的目的。話語計算是求解問題、做出評價的過程。
可計算特征實際上就是話語的計算模型,該模型具有以下性質(zhì):第一,它是對話語本質(zhì)特征的抽象描述;第二,它是語篇層面的整體特征,而不是詞和句法層面的特征;第三,它具有計算的可操作性。特征的抽取沒有統(tǒng)一的標注和規(guī)范,而是與完成的目標有關(guān)。
新聞話語是語言系統(tǒng)在媒體中的應(yīng)用,是指對某一事件或現(xiàn)象的報道。新聞話語有廣義和狹義之分,狹義上僅指消息,廣義上則指消息、通訊、特寫、評論等形式。消息用概括的敘述方式、簡明扼要的文字,迅速及時地報道國內(nèi)外最新發(fā)生的事件。新聞話語具有顯著的語類特征,比如新聞報道通常由標題、導(dǎo)語、正文組成,內(nèi)容的組織也通常有金字塔結(jié)構(gòu)和倒金字塔結(jié)構(gòu)等比較固定的形式。新聞話語的計算主要是對語義進行處理,其特征包括語義的結(jié)構(gòu)性、語句的連貫性、語義的層次性和話語的主題性。
隨著人們對自然語言中詞語、句子等語言單位的語義表示和自動理解研究的逐漸深入,篇章級的語義表示和自動分析逐漸成為研究的焦點。對語篇進行語義分析與語篇的組織結(jié)構(gòu)密切相關(guān),如果計算機能夠從整個篇章的視角把握全文的結(jié)構(gòu),就能更好地把握文章的主題或中心思想,就能準確地分析篇章級的意義。
語篇的結(jié)構(gòu)是語篇的形式特征,是語篇各個組成部分的搭配和排列。為實現(xiàn)計算機自動分析語篇的結(jié)構(gòu),需要從語言學(xué)的篇章結(jié)構(gòu)理論出發(fā),結(jié)合計算機進行篇章結(jié)構(gòu)自動分析的實現(xiàn)要求,對語篇的組織結(jié)構(gòu)進行形式化的描述,這是計算機進行篇章結(jié)構(gòu)自動分析的前提。
對于語篇的結(jié)構(gòu)研究已經(jīng)有很多的成果,如van Dijk的宏觀結(jié)構(gòu)理論、Mann& Thompson的修辭結(jié)構(gòu)理論、廖秋中的論證結(jié)構(gòu)研究、拉波夫的敘事結(jié)構(gòu)研究、婁開陽的新聞?wù)Z篇的結(jié)構(gòu)研究等,這些理論和研究對于計算機進行語篇結(jié)構(gòu)分析具有一定的意義。
智能媒體的發(fā)展使人們越來越關(guān)注新聞話語的結(jié)構(gòu)特征。新聞話語研究的重點應(yīng)該是構(gòu)成新聞內(nèi)容的結(jié)構(gòu)框架,Van Dijk在他出版的《作為新聞的話語》②一書中認為,新聞話語有特定的新聞圖式,已經(jīng)形成了既定風(fēng)格的語類。我們先看一個例子,摘自2018年7月25日《北京日報》第13版③。
例1:男性遭電擊超過八成
①有一種非常奇怪的現(xiàn)象,就是男性與女性被雷擊的概率天差地別;②據(jù)美國疾病控制與預(yù)防中心的數(shù)據(jù)顯示,被閃電擊中的受害者中,男性超過了八成;③此外,高達85%的閃電致死事故都發(fā)生在男性身;④原因是男性比女性更偏愛戶外運動;⑤而他們從事的職業(yè),相比女性來說也更偏向戶外型;⑥此外,男性通常比女性膽子更大,不肯放下手頭的事情,就算雷雨交加,依然我行我素地踢足球、釣魚、打高爾夫球等。
這篇報道共有6句話,說明一個觀點:男性遭電擊比例超過八成。構(gòu)成一個論證結(jié)構(gòu)。
根據(jù)廖秋忠提出的論證結(jié)構(gòu)模型,可形成如下結(jié)構(gòu):A(argument)指論題,P(position)指觀點,CL(clarify)指澄清,E(evidence)指論據(jù)④。根據(jù)該結(jié)構(gòu)模型,例1可以表示為下列樹圖:
圖1 論證結(jié)構(gòu)示意圖
鐘茂生等在廖秋忠的論證體篇章結(jié)構(gòu)研究和姜岷山的篇章系統(tǒng)性理論的基礎(chǔ)上,對論證體篇章結(jié)構(gòu)的形式化描寫進行了擴充?;菊撟C結(jié)構(gòu)(Elementary Argumentation Structure,簡稱EAS)是包括一個A(論證結(jié)論)、至少一個P(論題)、最多一個I(引言)、最多一個C(結(jié)尾)和多個E(論據(jù))構(gòu)成的論證結(jié)構(gòu)⑤。
根據(jù)上述規(guī)則,例1話語結(jié)構(gòu)可以表示為:
話語的結(jié)構(gòu)和語義密切相關(guān),計算機如果能夠自動獲取話語的整體結(jié)構(gòu),就能實現(xiàn)話語層次的自動語義分析。
話語連貫是指話語單位(語句或語段)之間的各種語義聯(lián)系。不論是書面語還是口頭話語,其中的句子或段落之間都不是隨意堆砌起來的。學(xué)界對于它們之間關(guān)系的建立有兩種認識:一些研究者(Van Dijk、Brown & Yule等)認為話題是建立話語單位之間連貫關(guān)系的依據(jù);另外一些研究者(Mann and Thompson、Shiffrin等)認為話語的各個部分之間隱含著各種邏輯關(guān)系,如因果、詳述、對比等,是這些關(guān)系將話語單位聯(lián)系在一起。從自然語言處理的角度出發(fā),我們將連貫關(guān)系分為兩類:顯性連貫關(guān)系和隱形連貫關(guān)系。顯性連貫關(guān)系是指用語言手段標示出來的語義關(guān)系,如上篇報道中,第四、第五、第六句開頭的“原因是”“而”“此外”等表示因果關(guān)系、轉(zhuǎn)折關(guān)系和添加關(guān)系的詞語;隱性連貫關(guān)系在自然話語中更為常見,它沒有明顯的邏輯關(guān)系詞來表示,而是靠命題之間的語義關(guān)系進行推斷。
我們把例1中報道的各句之間的連貫關(guān)系標示如圖2:
圖2
例2:向逆風(fēng)而行的身影道聲辛苦⑥
①風(fēng)雨中的身影搖晃,卻給人們帶來安心,帶來感動。
②臺風(fēng)“山竹”來襲,風(fēng)雨交加。在大家避風(fēng)的時候,卻有一群人逆風(fēng)而行。
③有一組網(wǎng)上熱傳的視頻可作見證。
④視頻中,江門市上川島,氣象站工作人員冒著13級大風(fēng)擦拭儀器鏡頭,保障記錄準確性;廣東東莞,供電工人頂著風(fēng)雨巡查設(shè)備,不讓城市陷入黑暗;深圳,樹會倒,柵欄會跑,交警們依然在冒雨執(zhí)勤,清除隱患;佛山,民警在轉(zhuǎn)移群眾、逆風(fēng)奔跑;記者頂著風(fēng)帶來最新播報;人民子弟兵時刻準備生死馳援……
⑤他們在風(fēng)雨中的身影有點搖晃不穩(wěn),卻給人帶來安心、帶來感動。
例2報道中的連貫關(guān)系標示如下:
話語連貫關(guān)系的處理是話語語義計算的核心內(nèi)容,通過上圖可以清楚地看到,在整篇報道中,第一句是全文的核心內(nèi)容,其余各個句子都圍繞它展開。這就是新聞導(dǎo)語自動生成的語義基礎(chǔ)。
那么如何讓計算機來識別這些連貫關(guān)系呢?梁國杰從計算機自動處理語篇的需求出發(fā),從連貫關(guān)系和標記的角度,針對漢語記敘文語篇提出了一套連貫關(guān)系集,歸納了30種連貫關(guān)系和與之相對的詞匯標記形式,為計算機識別連貫關(guān)系提供了可行的語言知識資源⑦。張牧宇等對中文語篇的句間關(guān)系識別進行了探索,針對顯性連貫關(guān)系,他們提出了基于連接詞規(guī)則的方法進行識別,取得了很好的效果。針對隱形連貫關(guān)系,他們抽取詞匯、句法、語義等特征,采用最大熵和支持向量模型進行了識別嘗試,推動了連貫關(guān)系自動識別的研究⑧。
話語是人們交流思想、表達情感的語言形式。無論哪種形式的言語交際,從語義角度上說,話語都包括兩個層面:基本話語(primary discourse)和元話語(metadiscourse)。基本話語表達話題的命題信息,是話語的主體;元話語告訴讀者如何理解,評述關(guān)于話題的命題信息。交際過程中,交際者為了順利完成交際任務(wù),要把主要信息編碼成銜接連貫的語句,依次表達出來。在這一過程中,交際者要選擇恰當?shù)恼Z言成分來有效地組織話語,使其條理清晰、結(jié)構(gòu)合理、符合邏輯。同時還要根據(jù)自身體驗和感受,把自身的態(tài)度、觀點和評價也融入話語表達之中。
例3:
①坦率地講,我不想評價這部電影。
②今年的經(jīng)濟形勢依然嚴峻,但是我們有信心改善民生。
第一句應(yīng)理解成“發(fā)話者坦率地說,我不想評價這部電影”,要表達的主要意思是“我不想評價這部電影”,屬于基本話語層面?!疤孤实刂v”并沒有介入主要命題,而是表明了他自身的態(tài)度,體現(xiàn)了發(fā)話者的存在。第二句中的“但是”也沒有介入話語的命題,卻起到了有效組織話語的作用,體現(xiàn)了信息的轉(zhuǎn)折。諸如此類的詞、短語或句子就是元話語。
基本話語和元話語的區(qū)別體現(xiàn)在三個方面:第一,內(nèi)容不同?;驹捳Z傳遞命題信息,它們是言語交際的主體,如敘述某個事件、論證某個觀點等。元話語并不介入話語的基本命題信息,而是起到評價、表明觀點和引導(dǎo)話語的作用。第二,目標不同?;驹捳Z的目的是傳遞信息,元話語的目的是評價和調(diào)控話語,使讀者更好地接受信息。從這個意義上講,二者的終極目標是一致的,都是為了順利完成交際任務(wù)。第三,作用方式不同?;驹捳Z是直接傳遞信息,元話語是通過對信息的組織和評價,表達發(fā)話者的態(tài)度,是間接的傳遞信息??偟膩碚f,作為話語現(xiàn)象,二者密切聯(lián)系,是不能截然分開的,它們的共同作用使話語成為完整有機的一體。
Lyons認為,說話人在說出一段話的同時表明自己對這段話的立場、態(tài)度和感情,從而在話語中留下自我印記⑨。在話語中,作者的主體意識總是以這樣或那樣的形式表現(xiàn)在話語中,體現(xiàn)著作者的觀點、情感和感受。
元話語層次為話語的情感計算奠定基礎(chǔ)。研究表明,這些詞是觀點和情感的主要承載詞。
情感分析是一種利用可計算的方法從自然語言文本中提取觀點和情感信息的研究課題。情感分析是一個語義分析問題,目標是從話語中分析出人們對于實體及其屬性所表達的觀點、態(tài)度、評價等,因此更加聚焦于理解與情感觀點有關(guān)的語義內(nèi)容,需要加入更深層次的語言理解和分析。通用的自然語言處理方法由于需要考慮多方面的因素,很難對情感這樣的特定目標進行精準分析和處理,元話語為實現(xiàn)情感分析提供了語言材料。
話語是人們在一定的語境下,為表達一定的意圖而說出或?qū)懗龅囊贿B串語句。這些語句總是圍繞一個中心或主題展開。從聽者或讀者的角度來看,人們通過聽讀,在句子或段落間建立起一定的連貫關(guān)系,將話語所描述的內(nèi)容與自身的經(jīng)驗和知識結(jié)合形成微觀結(jié)構(gòu),再通過選擇、概括和建構(gòu),表征出發(fā)話者要傳達的主要意義和觀點,也就是話語的主題(subject matter)。
話語的主題沒有固定的表現(xiàn)形式,有時包含在某些句子之中,有時體現(xiàn)在某個短語中,有時隱含在字里行間。這些命題和實體之間的語義關(guān)系,體現(xiàn)出語篇的文脈,構(gòu)成連貫的話語整體。
語篇的主旨很多情況下由大小主題構(gòu)成,這些大小主題可以用包含命題句子或包含實體的短語體現(xiàn)。小主題為大主題服務(wù),比如小主題可以是背景,可以是論據(jù),可以是細節(jié),等等,它們相互關(guān)聯(lián),按序列連貫推進,構(gòu)成整個語篇的主題鏈。因此Givon認為,語篇的基本構(gòu)建單位是表達同一話題并趨向重復(fù)同一話題的句子。這就為主題計算提供了語言學(xué)理論基礎(chǔ)⑩。
詞匯鏈理論(lexical chain theory)由Morris & Hirst于1991年提出來。詞匯鏈是指在一個主題下的一系列相關(guān)的詞共同組成的詞序列。該算法的基本假設(shè)是:用于描述特定主體的多個詞語在語義層面上應(yīng)該是相關(guān)的,并且圍繞特定主體展開構(gòu)成一條相關(guān)詞匯的鏈條。以詞匯語義為核心的話語語義分析中,話語的語義信息通過詞匯間的語義關(guān)聯(lián)體現(xiàn)。具體來說,語義相關(guān)的詞匯、實體在話語過程中的分布情況也可以體現(xiàn)話語的行文結(jié)構(gòu)及各部分之間的語義關(guān)聯(lián)。詞匯鏈理論通過分析普通詞匯,包括名詞、形容詞等的語義信息構(gòu)建主題詞匯鏈,利用詞匯之間的分布和轉(zhuǎn)移方式分析話語語義。
主題模型有不少算法,最經(jīng)典的兩個是:概率隱語義分析PLSA(probabilistic latent semantic analysis)和潛在狄利克雷分布LDA(latent dirichlet allocation)。PLSA是一種生成模型。如下圖所示。
圖3 PLSA生成模型圖
(d表示每一篇文檔,z表示每一個隱含主題,w表示具體的單詞。N表示每篇文檔的單詞數(shù),M表示文檔集D內(nèi)的文檔數(shù)。)
首先假設(shè)文檔、單詞和隱含主題的關(guān)系可以通過貝葉斯網(wǎng)絡(luò)表示?;疑?jié)點文檔(d)和文檔中的單詞(w)是人們可以觀測的變量;白色節(jié)點z是隱含的主題變量。文檔生成會經(jīng)過三個步驟,一是通過概率p(d)選定文檔,二是通過概率p(z|d)選定主題,三是通過概率p(w|z)從主題中選定單詞。
LDA(latent dirichlet allocation)主題模型由 David Blei,Andrew Ng和 Michael I.Jordan于2003年提出,是一種主題生成模型。LDA根據(jù)詞的共現(xiàn)分析,擬合出詞-文檔-主題的分布,進而將詞和文本都映射到語義空間中。LDA認為語篇通過六個步驟生成:一是確定詞匯和主題的分布;二是確定語篇和主題的分布;三是隨機確定該語篇中的詞匯數(shù)量,假設(shè)數(shù)量是N;四是若當前生成的詞匯數(shù)量少于N就進入下一步,若達到N則進入最后一步,即語篇生成;五是根據(jù)文檔和主題分布隨機生成一個主題,再由這一主題和詞匯分布隨機生成一個詞,然后返回第四步,直到詞匯數(shù)量達到N;第六步就是語篇生成結(jié)束。
以上我們介紹了新聞話語語義宏觀層面的語義計算特征,單就計算特征而言還有其他的方面,如新聞話語書寫排版方面的特征,段落的規(guī)則特征,排版字號大小的特征,都代表不同層次的語義重要性,標題和導(dǎo)語都要突出主題等。
Schank& Brustein的調(diào)查顯示,大約有一半的新聞故事是程式化的,而純新聞?wù)Z體的程式化程度幾乎達到百分之百。新聞?wù)Z篇相對固定的模式是其語篇結(jié)構(gòu)化可計算的關(guān)鍵條件之一。如前文所述,話語的可計算性特征就是用結(jié)構(gòu)化的形式描寫話語,用清晰明確的程式化方式來表征話語結(jié)構(gòu)、命題關(guān)系。話語意義是計算、求解問題和做出評價的過程,在此過程中通過推理和語義操作來實現(xiàn)話語處理的目的。本文從話語的結(jié)構(gòu)性、連貫性、層次性和主題性四方面分析了新聞話語的可計算特征,為智能新聞寫作、智能分發(fā)、情感分析及個性推薦等智能媒體的發(fā)展提供了語言學(xué)基礎(chǔ),有助于其進一步發(fā)展并加速自然語言處理的技術(shù)突破。
注釋:
① 沈浩、元方:《智能化媒體與未來》,《新聞戰(zhàn)線》,2018年第1期。
② TA.Van Dijk.NewsasDiscourse.London:Lawrence Erlbaum Associate Publishers.1988.p.73.
③ 司馬一:《男性遭電擊超過八成》,《北京日報》,2018年7月25日,第13版。
④ 廖秋忠:《篇章中的論證結(jié)構(gòu)》,《語言教學(xué)與研究》,1988年第1期。
⑤ 鐘茂生、江超、王琪:《論證體篇章結(jié)構(gòu)的形式化描述》,《現(xiàn)代語言學(xué)》,2017年第5期。
⑥ 周珊珊:《向逆風(fēng)而行的身影道聲辛苦》,《人民日報》,2018年9月18日,第13版。
⑦ 梁國杰:《面向計算的語篇連貫關(guān)系及其詞匯標記研究》,中國傳媒大學(xué)博士學(xué)位論文,2016年,第4頁。
⑧ 張牧宇、宋原、秦兵、劉挺:《中文篇章級句間語義關(guān)系識別》,《中文信息學(xué)報》,2013年第6期。
⑨ Lyons,J.Semantics.Cambridge:CambridgeUniversityPress.1977.p.452.