国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

冬奧氣象服務(wù)文本自動(dòng)生成模型研究

2022-12-03 01:56鄭江平渠寒花王慕華豐德恩
關(guān)鍵詞:冬奧句式氣象

鄭江平 渠寒花 王慕華 豐德恩 唐 衛(wèi)

(中國(guó)氣象局公共氣象服務(wù)中心 北京 100081)

0 引 言

冬季奧林匹克運(yùn)動(dòng)會(huì)是世界規(guī)模最大的冬季綜合性運(yùn)動(dòng)會(huì),2022年在北京、河北舉辦,比賽項(xiàng)目中冰上項(xiàng)目占30%,雪上項(xiàng)目占70%。冰雪項(xiàng)目與氣象條件關(guān)系密切,尤其是在室外的雪上項(xiàng)目,受氣象條件影響更大[1],如高山滑雪,對(duì)風(fēng)速風(fēng)向、能見度、溫度都有嚴(yán)格的要求。氣象是冬奧成功舉辦最關(guān)鍵因素之一[2]。冬奧氣象中心現(xiàn)場(chǎng)預(yù)報(bào)服務(wù)團(tuán)隊(duì)負(fù)責(zé)在比賽之前和比賽之中分析、判斷、把握天氣,將專業(yè)預(yù)報(bào)結(jié)論以圖片、圖表或文字表述的氣象服務(wù)產(chǎn)品形式傳達(dá)給公眾、賽事組織及國(guó)際氣象專家,其中,以自然語言表述的氣象服務(wù)文本,因其直觀、形象、簡(jiǎn)單易懂的特點(diǎn),成為保障高質(zhì)量冬奧氣象服務(wù)鏈條上必不可少的重要環(huán)節(jié)。目前,冬奧氣象服務(wù)文本由服務(wù)團(tuán)隊(duì)基于觀測(cè)及模式預(yù)報(bào)產(chǎn)品人工編輯完成,文本生成效率不高;生成文本質(zhì)量因編輯人員不同可能出現(xiàn)差異性,質(zhì)量發(fā)生波動(dòng);冬奧賽事保障對(duì)英文表述文本需求迫切。面對(duì)冬奧氣象服務(wù)責(zé)任大、時(shí)間緊、任務(wù)重、質(zhì)量要求高等特點(diǎn),利用自然語言生成技術(shù)研究精準(zhǔn)、高效的冬奧氣象服務(wù)文本自動(dòng)生成技術(shù),成為保障冬奧氣象服務(wù)成功的輔助手段之一。自然語言生成是人工智能和計(jì)算語言學(xué)的分支, 是基于語言信息處理的計(jì)算機(jī)模型,體系結(jié)構(gòu)包括內(nèi)容規(guī)劃(宏觀規(guī)劃)、微觀規(guī)劃(句子規(guī)劃)和表層生成3個(gè)基本功能模塊[3]。內(nèi)容規(guī)劃確定內(nèi)容并完成結(jié)構(gòu)規(guī)劃,將句子規(guī)劃后的文本描述映射到文字、標(biāo)點(diǎn)等方面,形成表層文本[4-5]。近年來,國(guó)內(nèi)外陸續(xù)開展了自然語言文本生成研究與實(shí)踐,氣象領(lǐng)域也應(yīng)用自然語言生成技術(shù)開展了氣象文本生成探索。FoG系統(tǒng)能夠生成雙語天氣預(yù)報(bào)文本[6],SumTime系統(tǒng)能夠生成海洋天氣預(yù)報(bào)文本[7],此外,英國(guó)阿伯丁大學(xué)的Reiter等[8]提出概率生成模型進(jìn)行天氣語言文本的自動(dòng)生成;相比之下國(guó)內(nèi)相關(guān)領(lǐng)域的研究則開展較晚,2000年由上海交通大學(xué)研發(fā)的多語種天氣預(yù)報(bào)文本自動(dòng)生成系統(tǒng)(MLWFA)[9]開啟了國(guó)內(nèi)基于自然語言處理進(jìn)行天氣文本自動(dòng)生成的先河,吳煥萍等[10]提出了針對(duì)氣象落區(qū)文本語言生成的基本原理與流程。文本自動(dòng)生成技術(shù)應(yīng)用于國(guó)內(nèi)奧運(yùn)會(huì)及其他賽事氣象服務(wù)保障方面[11-12],李德泉等[13]基于TeX模版技術(shù),介紹了奧運(yùn)氣象文本自動(dòng)化生成流程,服務(wù)于2008年北京奧運(yùn)會(huì)、殘奧會(huì)氣象保障任務(wù)。

上述研究與實(shí)踐為冬奧氣象服務(wù)文本自動(dòng)生成奠定了一定的研究基礎(chǔ),但實(shí)現(xiàn)冬奧氣象服務(wù)文本自動(dòng)生成仍需要解決一系列新情況新問題。首先,冬奧氣象服務(wù)是我國(guó)氣象服務(wù)首次保障國(guó)際冰雪賽事項(xiàng)目,需要新建冬奧賽事活動(dòng)及氣象服務(wù)用語的專項(xiàng)語料庫。其次,雪上項(xiàng)目易受大風(fēng)(強(qiáng)陣風(fēng))、強(qiáng)降雪、低能見度等天氣影響,需要提取建立冰雪賽事活動(dòng)與高影響天氣條件的關(guān)鍵數(shù)據(jù)知識(shí)特征。另外,本文將首次嘗試運(yùn)用篇章規(guī)劃技術(shù)構(gòu)建文本自動(dòng)生成模型,代替以往使用的模版技術(shù)。開展冬奧氣象服務(wù)文本自動(dòng)生成關(guān)鍵技術(shù)研究,將滿足冬奧賽事項(xiàng)目應(yīng)用場(chǎng)景和服務(wù)對(duì)象的特殊需求,并為今后各類大型冬季賽事氣象服務(wù)保障提供解決方案。

1 冬奧氣象服務(wù)文本特征分析

設(shè)計(jì)面向冬奧氣象服務(wù)的文本自動(dòng)生成模型,需要從冬奧氣象服務(wù)場(chǎng)景出發(fā),提取冬奧氣象服務(wù)文本自動(dòng)生成的關(guān)鍵特征,涉及冬奧服務(wù)文本生成的輸入數(shù)據(jù)、基礎(chǔ)語料、句式結(jié)構(gòu)、篇章結(jié)構(gòu)和內(nèi)容描述等特征(見圖1)。輸入數(shù)據(jù)特征方面,關(guān)注以點(diǎn)、線、面為屬性的冬奧賽區(qū)內(nèi)特定賽點(diǎn)、場(chǎng)館、重要賽道及賽區(qū)的氣象要素的時(shí)空變化及天氣趨勢(shì)演變特征,以定性描述(如“increase”“be up to”)和定量描述為主(如“11~14 m/s”、“5~8℃”),其分析結(jié)果決定了文本內(nèi)容的準(zhǔn)確性;基礎(chǔ)語料方面,涉及大量的氣象要素類別及量級(jí)、賽事名詞、規(guī)則及句式描述等基礎(chǔ)語料;在文本結(jié)構(gòu)方面:主要包括標(biāo)題、生成時(shí)間、天氣實(shí)況及預(yù)報(bào)組成,文本結(jié)構(gòu)清晰且比較固定;段落結(jié)構(gòu)方面,英文文本表達(dá),以天氣要素或賽事的名詞短語(np)、描述天氣變化的動(dòng)詞短語(vp)、時(shí)態(tài)說明(tense)及表達(dá)時(shí)間、方位的副詞(advp)等構(gòu)成;文本內(nèi)容方面,涉及賽事監(jiān)測(cè)預(yù)報(bào)范圍內(nèi)重要關(guān)鍵點(diǎn)的天氣、氣溫、風(fēng)速風(fēng)向、積雪深度等要素,構(gòu)成賽事天氣服務(wù)熱點(diǎn),根據(jù)賽事安排、氣象觀測(cè)條件、天氣條件閾值而服務(wù)內(nèi)容差異較大,文本描述的先后順序也因氣象要素與賽事服務(wù)緊密程度不同而變化,傳統(tǒng)的基于模板的、固定描述順序的氣象文本生成方法無法滿足需求。

圖1 冬奧氣象服務(wù)文本篇章結(jié)構(gòu)特征及句式結(jié)構(gòu)特征

針對(duì)以上需求,本文提出基于自然語言生成方法的冬奧氣象服務(wù)文本生成模型,結(jié)合冬奧服務(wù)數(shù)據(jù)和知識(shí),形成從氣象大數(shù)據(jù)挖掘分析到知識(shí)建模、句式創(chuàng)作、自動(dòng)生成的智能化文本生成流程,提升冬奧氣象服務(wù)精細(xì)化、自動(dòng)化和智能化水平。

2 冬奧氣象服務(wù)文本自動(dòng)生成模型

2.1 模型設(shè)計(jì)

從模型設(shè)計(jì)來看,冬奧氣象服務(wù)文本自動(dòng)生成的關(guān)鍵問題集中在冬奧專項(xiàng)語料庫、內(nèi)容規(guī)劃、句式規(guī)劃及篇章結(jié)構(gòu)規(guī)劃4個(gè)環(huán)節(jié)(見圖2)。

圖2 冬奧氣象服務(wù)文本自動(dòng)生成模型

2.2 冬奧氣象服務(wù)專項(xiàng)語料庫

語料庫實(shí)體單元構(gòu)成了冬奧氣象服務(wù)文本的基本單元,是冬奧服務(wù)領(lǐng)域的知識(shí)抽象與建模。通過對(duì)文本特征分析,挖掘出冬奧氣象服務(wù)的規(guī)律性特征及文本特性,以專項(xiàng)語料庫組織和管理文本相關(guān)時(shí)間變量、地理變量、方向變量、氣象要素變量及斷句結(jié)構(gòu)、句式、段落及篇章結(jié)構(gòu)等。由于冬奧氣象服務(wù)工作開始時(shí)間不長(zhǎng),初始語料的獲取主要有3種途徑:(1) 冬奧現(xiàn)場(chǎng)服務(wù)團(tuán)隊(duì)提供的冬奧稿件樣例,主要包括服務(wù)團(tuán)隊(duì)2018年項(xiàng)目測(cè)試中的文本樣例中獲取,樣本量較少;(2) 在線或歷史冬奧資料,利用公開數(shù)據(jù)集與歷史冬奧資料庫,利用在線分詞、文本挖掘技術(shù)進(jìn)行語料提取,作為冬奧語料庫重要內(nèi)容;(3) 歷史大量的氣象服務(wù)文本,開展中英文文本標(biāo)注和分詞,提取具有共性的天氣變量、方向變量、句式結(jié)構(gòu)等,作為對(duì)冬奧語料庫的有益補(bǔ)充。經(jīng)規(guī)范化處理,初步形成冬奧氣象服務(wù)的專項(xiàng)語料庫,包括賽事名詞庫、冬奧知識(shí)規(guī)則庫、冬奧服務(wù)風(fēng)險(xiǎn)提示庫、文本語言連詞庫四類,形成的語料詞條及樣例見表1,并根據(jù)冬奧服務(wù)深入開展而不斷豐富。

表1 冬奧氣象專項(xiàng)語料庫詞條語料來源

2.3 基于冬奧服務(wù)特征引擎的內(nèi)容規(guī)劃

從冬奧數(shù)據(jù)、知識(shí)挖掘出發(fā),設(shè)計(jì)文本生成的自動(dòng)化引擎從而完成文本內(nèi)容規(guī)劃,將促使冬奧氣象服務(wù)文本生成過程從圍繞文本的主觀探索向圍繞服務(wù)熱點(diǎn)的啟發(fā)式流程轉(zhuǎn)變。包括氣象數(shù)據(jù)的時(shí)空特征分析提取、天氣服務(wù)熱點(diǎn)知識(shí)的獲取兩個(gè)方面。

冬奧氣象數(shù)據(jù)時(shí)空特征提取,將實(shí)時(shí)冬奧賽區(qū)所有觀測(cè)站逐10分鐘、1小時(shí)實(shí)況觀測(cè)數(shù)據(jù),以及冬奧氣象服務(wù)團(tuán)隊(duì)進(jìn)行主觀訂正之后的0~24小時(shí)逐1小時(shí)、2~3天逐3小時(shí)、4~10天逐12小時(shí)預(yù)報(bào)結(jié)論數(shù)據(jù)通過一定模型轉(zhuǎn)化到空間區(qū)域上,結(jié)合冬奧氣象服務(wù)專項(xiàng)語料庫中各專用服務(wù)名詞和氣象站點(diǎn)時(shí)間、空間和要素值之間的關(guān)聯(lián)關(guān)系,構(gòu)建冬奧氣象服務(wù)時(shí)空特征提取模型,確定氣象要素及相關(guān)量級(jí),對(duì)氣象要素的時(shí)間、地點(diǎn)、強(qiáng)度等信息進(jìn)行合理組織,解決從氣象數(shù)據(jù)到文本描述的生成問題,獲得文本內(nèi)容規(guī)劃氣象要素類型、時(shí)空變化趨勢(shì)的描述信息[14]。包含氣象要素分級(jí)定性、區(qū)別性描述、時(shí)間對(duì)比分析、空間差異比較、可能性描述確定5大類文稿生產(chǎn)內(nèi)容規(guī)劃文本特征提取。(1) 要素分級(jí)定性:通過對(duì)一種或者多種組合分析,對(duì)任意天氣現(xiàn)象進(jìn)行更為精細(xì)的分級(jí)定性。例如根據(jù)天氣現(xiàn)象雪編碼和降水量提取降雪級(jí)別,不同降雪量可描述為{snow shower,light snow,moderate snow,heavy snow}。(2) 要素區(qū)別性描述:利用指標(biāo)庫中專家經(jīng)驗(yàn)知識(shí)區(qū)分一種氣象要素在服務(wù)用語中更為貼切表述,進(jìn)而增加服務(wù)用語的感情色彩。例如不同天氣條件下對(duì)氣溫區(qū)別性描述{freezing,cold,chilly,cool}。(3) 時(shí)間對(duì)比分析:利用歷史、實(shí)況和預(yù)報(bào)氣象數(shù)據(jù)對(duì)占據(jù)空間并隨時(shí)間變化的氣象要素強(qiáng)度進(jìn)行時(shí)空統(tǒng)一推理,確定連續(xù)天氣過程已經(jīng)或者將要持續(xù)的時(shí)間和變化幅度。統(tǒng)計(jì)分析結(jié)果將存入知識(shí)庫中,作為下時(shí)次開展時(shí)間對(duì)比分析參考依據(jù)。例如表示天氣過程發(fā)展變化的描述{drop,increase,over,decreas…}。(4) 空間差異比較:對(duì)同氣象要素值或變量分析在場(chǎng)館、賽道、賽區(qū)等不同地理空間位置所體現(xiàn)的差異性變化,尤其針對(duì)賽事高度關(guān)注的不同高度賽道風(fēng)速風(fēng)向、關(guān)鍵賽程能見度變化的精準(zhǔn)分析,采用客觀化分析模型生成基于冬奧空間區(qū)域的氣象要素分布特征。例如賽道的起點(diǎn)和終點(diǎn)可描述為{Men’s downhill piste start,Men’s downhill piste end…}。(5) 可能性描述確定:綜合氣象要素覆蓋的賽區(qū)地理區(qū)域面積變化氣象要素量級(jí),及疊加區(qū)域的持續(xù)范圍移動(dòng)方向獲得天氣要素未來幾天加強(qiáng)或消逝的天氣變化趨勢(shì),形成對(duì)賽區(qū)關(guān)注的降雪天氣發(fā)生可能性的描述{likely,probable,highly likely,almost certainly…},對(duì)表述賽場(chǎng)“可能性”描述短語的箱線圖,將90%<可能性≤100%時(shí)描述為“almost certainly”,以定量分析方法捕捉小尺度山地空間天氣要素的細(xì)微變化。

冬奧天氣服務(wù)熱點(diǎn)知識(shí)的獲取。從冬奧氣象中心《2022年冬奧會(huì)和冬殘奧會(huì)氣象服務(wù)需求分析報(bào)告(2017版)》中整理(見表2),同時(shí)結(jié)合與現(xiàn)場(chǎng)服務(wù)團(tuán)隊(duì)中多年預(yù)報(bào)經(jīng)驗(yàn)的專家訪談后,獲得與賽事組織、氣象服務(wù)保障相關(guān)的經(jīng)驗(yàn)閾值和關(guān)聯(lián)規(guī)則。冬奧場(chǎng)景下的氣象服務(wù)知識(shí)表現(xiàn)為基礎(chǔ)氣象觀測(cè)因子與指標(biāo)、規(guī)則及屬性值間的二元或三元關(guān)系。將知識(shí)內(nèi)涵定義為持續(xù)時(shí)間范圍內(nèi)氣象因子的分段函數(shù),{氣溫,最高溫,最低溫,能見度,平均風(fēng),陣風(fēng),降雪…},將知識(shí)外延設(shè)計(jì)為冬奧賽事氣象服務(wù)風(fēng)險(xiǎn)服務(wù)等級(jí)的偏序集{無風(fēng)險(xiǎn),風(fēng)險(xiǎn)藍(lán)色等級(jí),風(fēng)險(xiǎn)黃色等級(jí),風(fēng)險(xiǎn)紅色等級(jí)},結(jié)合謂詞邏輯和描述邏輯表示的形式化語言,利用形式概念分析多值背景模型轉(zhuǎn)換,實(shí)現(xiàn)多值背景向單值背景轉(zhuǎn)換,完成從冬奧數(shù)據(jù)特征到構(gòu)建冬奧知識(shí)庫,實(shí)現(xiàn)冬奧知識(shí)計(jì)算和風(fēng)險(xiǎn)服務(wù)等級(jí)的挖掘。渠寒花等[15-16]前期將形式概念分析多值背景轉(zhuǎn)換、謂詞邏輯及OWL2描述規(guī)范研究應(yīng)用于氣象服務(wù)領(lǐng)域,為本文工作提供了理論基礎(chǔ)和應(yīng)用工具。

表2 部分冬奧賽事項(xiàng)目與天氣條件關(guān)系表

續(xù)表2

2.4 基于功能合一語法的句式規(guī)劃

語言學(xué)理論是自然語言生成的理論基礎(chǔ)。將知識(shí)推理結(jié)果形成的詞、短語等內(nèi)容規(guī)劃信息,輔以語言學(xué)的修辭關(guān)系,可以控制局部連貫性,生成自然語言句式。功能合一語法(FUG)是美國(guó)計(jì)算語言學(xué)家Martin Kay于1985年提出的用于自然語言處理的形式語法,后來成為應(yīng)用最廣泛的形式語法之一。在語法中,詞條定義、句法規(guī)則、語義規(guī)則、句子的結(jié)構(gòu)功能關(guān)系全部都由復(fù)雜特征集來表示,采用合一運(yùn)算(unification)進(jìn)行特征結(jié)構(gòu)(feature structure,F(xiàn)S)的操作和推理。基本思想是輸入指定特征,并將特征與生成語法進(jìn)行一致化,通過遞歸的矩陣運(yùn)算,生成全部的特征結(jié)構(gòu)及句式,這種語法既可用于自然語言的自動(dòng)分析,又可用于自然語言的自動(dòng)生成,是一種雙向性的語法,廣泛應(yīng)用于計(jì)算機(jī)語言學(xué)、機(jī)器翻譯、自然語言理解與生成等領(lǐng)域。利用FUG理論,根據(jù)知識(shí)驅(qū)動(dòng)引擎階段生成的詞、短語,加上修辭關(guān)系,可以優(yōu)化組織信息內(nèi)容,以增強(qiáng)局部連貫性。冬奧賽事服務(wù)文本的句式從特征結(jié)構(gòu)來看,主要包括名詞短語(賽事項(xiàng)目名稱Alpine_Skiing、Sliding、Cross-countrySkiing,天氣要素名稱如the wind、the temperature)、動(dòng)詞短語(天氣變化,如描述氣溫變化的rise、drop)、副詞短語(如描述風(fēng)力持續(xù)時(shí)間from pm 6:00-9:00)等,表示了冬奧氣象服務(wù)領(lǐng)域的“謂詞-論元結(jié)構(gòu)”的信息,在功能合一語法中將這些信息轉(zhuǎn)寫為功能描述的屬性值矩陣,作為自然語言生成系統(tǒng)的輸入,梳理形成天氣條件功能描述信息(見表3)。

表3 高山滑雪中心某日天氣條件功能描述

功能語法進(jìn)行遞歸合一運(yùn)算的過程,利用系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的屬性矩陣,能夠處理過去、現(xiàn)在及將來時(shí)等不同時(shí)態(tài)的句子,表達(dá)動(dòng)詞的及物性關(guān)系,保證句式主語和謂語的數(shù)的一致[17],符合冬奧服務(wù)文本生成的句式修辭關(guān)系要求。每個(gè)復(fù)雜短語成分的特征(如np、vp等)都有一個(gè)模式說明(pattern),而每個(gè)簡(jiǎn)單成分的特征(如名詞、冠詞、動(dòng)詞)都有一個(gè)詞匯說明(lex),通過模式指定句子中各個(gè)特征的描述順序,生成系統(tǒng)可以利用模式說明將功能描述線性化。用于生成句式的天氣服務(wù)短語特征結(jié)構(gòu)列表,將用于生成的語法與輸入中的特征結(jié)構(gòu)進(jìn)行合一,采用多次回歸運(yùn)算,生成全部的文本句式,批量句式生成需要借助英文自然語言自動(dòng)生成系統(tǒng),經(jīng)過多次特征結(jié)構(gòu)轉(zhuǎn)換和遞歸合一運(yùn)算,形成文本的基本單元-句式,如“Visibility was good from today morning to afternoon.”“The wind speed will increase from 12th afternoon.”

2.5 基于XML Schema模式的篇章規(guī)劃

文本篇章規(guī)劃是文本生成的一個(gè)不可或缺的組成部分,即采用計(jì)算機(jī)手段,確定所要生成的內(nèi)容以及生成內(nèi)容之間的邏輯關(guān)系,進(jìn)行句式、段落及篇章結(jié)構(gòu)的規(guī)劃、組織和生成。以往氣象服務(wù)文本的篇章規(guī)劃主要采用模板方式組織,通過提取文本中的共性特征進(jìn)行固定化,如固定的標(biāo)題、標(biāo)注、圖片等,而將文本中的可變部分,如氣象信息等使用特定標(biāo)簽標(biāo)注開始和結(jié)束、由分析程序替換為最終產(chǎn)品,模板方法實(shí)現(xiàn)起來技術(shù)簡(jiǎn)單,一定程度上滿足了定制服務(wù)需求,但存在模板風(fēng)格單調(diào)、文本形式單一、模板應(yīng)用場(chǎng)景可遷移性差的問題。

XML Schema是W3C組織于2001年推薦的模式設(shè)計(jì)語言。XML Schema提供了廣泛且可擴(kuò)展的類與類型系統(tǒng)[18],其創(chuàng)建方法運(yùn)用了面向?qū)ο蟮母拍詈蜋C(jī)制,如全局和局部、繼承、擴(kuò)展和替代、封裝和模塊等,定義的大量組件及面向?qū)ο蠓椒?,能夠定義出現(xiàn)在文檔中的元素、屬性、元素次序、元素?cái)?shù)目、文本類型、混合內(nèi)容等,約束XML文件邏輯結(jié)構(gòu),進(jìn)行篇章結(jié)構(gòu)的組織與管理。結(jié)合冬奧氣象服務(wù)文本結(jié)構(gòu)分析,基于該模式設(shè)計(jì)文本句式結(jié)構(gòu)、段落結(jié)構(gòu)和篇章結(jié)構(gòu),并可針對(duì)未來需求進(jìn)行擴(kuò)展[18]??紤]到冬奧文本結(jié)構(gòu)的層次性、內(nèi)容的可擴(kuò)展性和模塊的復(fù)雜性,本文在篇章結(jié)構(gòu)設(shè)計(jì)中采用了結(jié)構(gòu)化設(shè)計(jì)方法,而在段落對(duì)象的設(shè)計(jì)采用了面向?qū)ο蟮脑O(shè)計(jì)方法。將文本結(jié)構(gòu)中的段落定義為模式對(duì)象,利用接口方式進(jìn)行對(duì)象間交互,在冬奧服務(wù)文本中,對(duì)象可以是一個(gè)詞、詞語、句式或段落。設(shè)計(jì)多層嵌套封裝的層次,將句式定義為Schema的嵌套組件,同時(shí)將句式組件中的詞語、詞封裝為類型(相當(dāng)于文本中的變量名)的全局組件,從而所有變量可被全局訪問和重用(相當(dāng)于文本中的時(shí)間、要素變量值)。本文應(yīng)用該模式在句式順序組織、同義句式多樣化表達(dá)和篇章結(jié)構(gòu)的組織三方面實(shí)現(xiàn)了文本篇章的組織和生成:(1) 句式描述順序的組織。句式描述順序決定了段落的組織結(jié)構(gòu)。氣象要素及數(shù)值量級(jí)的描述,與賽事及相關(guān)氣象條件密切相關(guān),由特征引擎階段獲得的要素及量級(jí)的優(yōu)先級(jí)確定,在模式生成時(shí)依據(jù)優(yōu)先級(jí)類型加入索引標(biāo)注,自動(dòng)形成段落中天氣熱點(diǎn)句式組織。(2) 同義句式的多樣化表達(dá)。采用動(dòng)態(tài)擾動(dòng)進(jìn)行同義短語替換能豐富語言表達(dá)方式,如,同是對(duì)于天氣晴朗的表述“fair,clear,sunny,bright”,預(yù)設(shè)多種表達(dá)方式,實(shí)現(xiàn)句式的同義替換,在自動(dòng)化實(shí)現(xiàn)過程中,以定義隨機(jī)擾動(dòng)結(jié)構(gòu),以定義擾動(dòng)內(nèi)容,實(shí)現(xiàn)句式的多樣化動(dòng)態(tài)生成表達(dá),增強(qiáng)了文本表達(dá)的生動(dòng)性,而這些自然語言表述方式,將隨著冬奧氣象服務(wù)工作不斷推進(jìn),通過專項(xiàng)語料庫逐漸豐富。(3) 篇章結(jié)構(gòu)的組織和管理。結(jié)構(gòu)化程序設(shè)計(jì)方法自上而下進(jìn)行功能分解,規(guī)劃文本的篇章標(biāo)題、生成時(shí)間、段落子模塊,以規(guī)劃標(biāo)題、規(guī)劃篇章、規(guī)劃段落,以定義句式;同時(shí)采用面向?qū)ο笤O(shè)計(jì)方法定義句式中的復(fù)雜組件,規(guī)劃氣象服務(wù)等級(jí)句式順序,以模式提供的接口元素、混合文本、復(fù)合類型組件,將句子元素和類型封裝為一個(gè)個(gè)復(fù)雜的組件,開源輕量級(jí)XSOM JAVA包作為XML Schema解析工具,實(shí)現(xiàn)了冬奧氣象服務(wù)文本內(nèi)容的結(jié)構(gòu)動(dòng)態(tài)組織和管理。模式設(shè)計(jì)結(jié)構(gòu)見圖3。

圖3 經(jīng)XML Schema規(guī)劃的文本層次結(jié)構(gòu)

綜合上述文本自動(dòng)生成方法,對(duì)冬奧氣象服務(wù)文本的生成進(jìn)行定時(shí)任務(wù)設(shè)置,利用Python編程實(shí)現(xiàn),完成北京延慶賽區(qū)高山滑雪中心氣象服務(wù)文本自動(dòng)生成,并在2019年—2020年現(xiàn)場(chǎng)服務(wù)團(tuán)隊(duì)冬訓(xùn)中得到應(yīng)用、反饋(文本生成樣例見圖4)。

圖4 冬奧氣象服務(wù)文本模型自動(dòng)生成樣例

3 問題討論

開展文本自動(dòng)生成評(píng)價(jià)有助于模型的完善和改進(jìn)。借鑒國(guó)內(nèi)外自然語言生成評(píng)價(jià)方法,結(jié)合冬奧服務(wù)文本應(yīng)用場(chǎng)景,經(jīng)與現(xiàn)場(chǎng)服務(wù)團(tuán)隊(duì)協(xié)商,先期以準(zhǔn)確度、流暢性和生成效率等3個(gè)指標(biāo)評(píng)價(jià)模型質(zhì)量。由于人工樣本量較少,技術(shù)團(tuán)隊(duì)先后以文本比較、問卷調(diào)查、現(xiàn)場(chǎng)訪談方式,對(duì)比分析了2019年12月至2020年1月由現(xiàn)場(chǎng)服務(wù)人員和計(jì)算機(jī)分別生成的文本內(nèi)容,得到初步結(jié)論:

(1) 自動(dòng)生成的文本內(nèi)容,在數(shù)據(jù)時(shí)空特征及天氣服務(wù)熱點(diǎn)信息提取方面準(zhǔn)確率高,相較現(xiàn)場(chǎng)服務(wù)人員人工撰寫的服務(wù)文本更能精準(zhǔn)獲取服務(wù)要點(diǎn),同時(shí)能兼顧賽事其他重要?dú)庀笠氐拿枋?,行文結(jié)構(gòu)比較客觀。人工撰寫的文本會(huì)因預(yù)報(bào)員之間經(jīng)驗(yàn)差異,在數(shù)據(jù)分析結(jié)果、天氣熱點(diǎn)捕捉、文本內(nèi)容撰寫方面體現(xiàn)出更多主觀性。

(2) 自然語言描述較為順暢,經(jīng)功能語法規(guī)劃的英文句式表達(dá),一定程度解決了從詞、短語生成句式的問題,能滿足服務(wù)產(chǎn)品基本要求。但整體來看,自動(dòng)生成的句式以基礎(chǔ)單句為主,與人工撰寫相比,句式之間的邏輯性相對(duì)較弱,尤其對(duì)于階段總結(jié)性句式表達(dá),常常需要服務(wù)團(tuán)隊(duì)人工補(bǔ)充,這也是自然語言生成的難點(diǎn)所在。

(3) 文本自動(dòng)生成效率高,從人工撰寫2小時(shí)縮短為分鐘級(jí)、秒級(jí)的自動(dòng)生成,極大程度簡(jiǎn)化了人工數(shù)據(jù)分析、對(duì)比、文本撰寫的工作量,得到現(xiàn)場(chǎng)服務(wù)人員的認(rèn)可。

就文本自動(dòng)生成模型試用和反饋來看,冬奧現(xiàn)場(chǎng)服務(wù)團(tuán)隊(duì)總體認(rèn)為文本生成效率較高,能對(duì)天氣服務(wù)熱點(diǎn)快速反應(yīng),形成初步滿足現(xiàn)場(chǎng)服務(wù)人員的實(shí)用性強(qiáng)的文本材料,可以作為現(xiàn)場(chǎng)服務(wù)文本材料初稿。

4 結(jié) 語

冬奧氣象服務(wù)文本自動(dòng)文本生成,根據(jù)冬奧氣象服務(wù)需求及文本特征要求,旨在以精確、高效、自然語言表述的文本自動(dòng)生成減輕現(xiàn)場(chǎng)氣象服務(wù)人員工作量,有效保障冬奧氣象服務(wù)時(shí)效性,提升氣象服務(wù)保障水平。以自然語言生成、功能語言學(xué)理論為指導(dǎo),提出包含專項(xiàng)語料庫的語料收集與預(yù)處理,構(gòu)建冬奧服務(wù)特征的驅(qū)動(dòng)引擎實(shí)現(xiàn)服務(wù)熱點(diǎn)發(fā)現(xiàn),利用功能合一運(yùn)算進(jìn)行文本句式生成,并基于XML Schema實(shí)現(xiàn)文本結(jié)構(gòu)的組織和生成,形成了冬奧氣象服務(wù)文本生成解決方案,初步滿足測(cè)試賽期間服務(wù)人員需要,主要體現(xiàn)在:

(1) 提出冬奧氣象服務(wù)熱點(diǎn)知識(shí)快速發(fā)現(xiàn)及應(yīng)用方法。以W3C描述邏輯為基礎(chǔ),設(shè)計(jì)集數(shù)據(jù)特征時(shí)空分析、賽事閾值條件、服務(wù)指標(biāo)的特征驅(qū)動(dòng)引擎,通過智能推理應(yīng)用形成賽事氣象服務(wù)熱點(diǎn),使冬奧賽事氣象服務(wù)保障更有針對(duì)性。

(2) 實(shí)現(xiàn)了功能語言學(xué)在氣象服務(wù)文本生成中的應(yīng)用。從功能語言學(xué)角度,研究氣象服務(wù)知識(shí)、短語、關(guān)鍵詞的語言組織,較傳統(tǒng)模板生成在核心知識(shí)表示準(zhǔn)確度、自然語言表達(dá)流暢性方面有了很大進(jìn)步。

(3) 形成文本自然語言表述多樣性技術(shù)的探索與應(yīng)用?;赬ML Schema規(guī)劃的文本篇章結(jié)構(gòu)規(guī)劃,尤其是動(dòng)態(tài)擾動(dòng)的句式組織,使區(qū)分不同日期、天氣條件、服務(wù)場(chǎng)景的自然語言表述成為可能,推動(dòng)在描述風(fēng)格、詞語表達(dá)上的技術(shù)創(chuàng)新。

文本生成研究將隨著冬奧氣象服務(wù)的推進(jìn)不斷完善,深入應(yīng)用分析反饋與定量評(píng)估將是下一步將要開展的工作。目前來看,本文在功能語言學(xué)文本表層生成技術(shù)方面尚未涉足。另外,研究將現(xiàn)有文本生成功能集成于冬奧現(xiàn)場(chǎng)氣象服務(wù)等業(yè)務(wù)系統(tǒng)中,形成文本輔助生成的工具供用戶使用也是下一階段工作將要考慮的重點(diǎn)。

猜你喜歡
冬奧句式氣象
氣象樹
冬奧進(jìn)行時(shí)
我們的冬奧
喜迎冬奧
《內(nèi)蒙古氣象》征稿簡(jiǎn)則
悅住冬奧村,保障展新觀
大國(guó)氣象
美麗的氣象奇觀
例析wh-ever句式中的常見考點(diǎn)
特殊句式
万宁市| 河源市| 建宁县| 确山县| 浦城县| 阜阳市| 淄博市| 句容市| 明星| 南岸区| 昔阳县| 嘉禾县| 红桥区| 磐安县| 津市市| 宁武县| 西丰县| 宾川县| 墨江| 怀柔区| 兴隆县| 大同市| 额尔古纳市| 淮滨县| 信阳市| 固镇县| 阿勒泰市| 哈密市| 遂宁市| 鄄城县| 南昌市| 乌鲁木齐县| 弥渡县| 德清县| 石屏县| 珲春市| 特克斯县| 白玉县| 区。| 同江市| 鄂托克旗|