劉杰,張文軒,李亞光,張逸超,周建設(shè)
(1. 首都師范大學(xué) 信息工程學(xué)院,北京 100048;2. 北方工業(yè)大學(xué) 信息工程學(xué)院,北京 100144;3. 首都師范大學(xué) 中國語言智能研究中心,北京 100048)
如何對行文內(nèi)容進(jìn)行提取、評測是作文評測研究的重點(diǎn). 以人物記敘文為例,其寫作任務(wù)是結(jié)合某一類人物的性格特點(diǎn)、故事情節(jié),由此完成以人物形象為主旨的作文寫作. 其中人物形象主要由人物外貌、語言、動作、故事場景等要素構(gòu)成,同時(shí)突出核心人物的人物性格. 所以具體到行文一致性判別任務(wù),則需要結(jié)合全文和各個(gè)具體的描寫片段信息,從多個(gè)角度對人物形象的構(gòu)成要素進(jìn)行提取與評測,是一個(gè)多維度的評測任務(wù).
現(xiàn)有用于作文評測任務(wù)的方法,所抽取的文本信息主要是文本的淺層特征. 雖然能實(shí)現(xiàn)以語料庫驅(qū)動的針對文本句式句群、用語習(xí)慣和詞語搭配的測評,以及全文主題的分類,主題詞、特征詞的提取,但準(zhǔn)確性無法達(dá)到本文這一復(fù)雜任務(wù)的要求. 對于這種篇章級別的評測任務(wù),目前的篇章級行文一致性度量模型僅考慮待測作文的全文行文一致性,對于文本詳細(xì)的語義塊之間的一致性沒有予以考慮.而人物類作文需要考慮作文中人物形象、性格、故事,三者的一致性. 比如:描寫性格慈祥的母親不能用勇敢的故事去襯托她;正義行為的刻畫與負(fù)面外貌的描寫具有矛盾性. 因此,行文一致性不僅需要對全文的主題進(jìn)行判斷,還需要判斷作文語義塊之間的語義一致性. 通過對全文、段落、語句的聯(lián)合,更加準(zhǔn)確的完成行文一致性的評測.
針對上述問題,本文提出了一種測評行文一致性的孿生匹配網(wǎng)絡(luò)(Match_Net_Siamese)模型. 首先,對待測作文的全文主題進(jìn)行主題提取,即分別通過對人物性格形象描寫與事件描寫進(jìn)行語義特征建模,并利用神經(jīng)網(wǎng)絡(luò)的方式完成兩者關(guān)系的對應(yīng)訓(xùn)練.其次,判斷是否出現(xiàn)了內(nèi)容主題不一致的情況,即人物形象特征、性格、故事情節(jié)三者描述內(nèi)容要一致,共同突出一個(gè)作文主題,最終對全文進(jìn)行行文一致性評分.
另外,在數(shù)據(jù)處理和實(shí)驗(yàn)過程中,針對外部數(shù)據(jù)庫依賴以及TF-IDF 文本向量的稀疏性問題,本文使用無監(jiān)督的Biterm-LDA 模型進(jìn)行文本事件主題提取,從而解決對手工標(biāo)注的依賴.
目前,國內(nèi)對于作文自動測評的研究主要集中在對漢語寫作教學(xué)軟件的研究與設(shè)計(jì)[1],以及高考作文自動評分方面. 這些研究主要采取自然語言處理技術(shù),抽取待測作文中的文本信息,通過監(jiān)督型機(jī)器學(xué)習(xí)模型,將其轉(zhuǎn)化成分類或回歸問題,實(shí)現(xiàn)作文的評級或評分. 在這些研究中,用于作文評測所抽取的文本信息主要是文本的淺層特征,比如關(guān)鍵詞逆文檔頻率信息、句法結(jié)構(gòu),與詞性信息、分級詞匯頻率等,這是鑒于自然語言處理領(lǐng)域中利用淺層文本特征實(shí)現(xiàn)文本分類/回歸任務(wù)的方法. 另外,有研究運(yùn)用了機(jī)器學(xué)習(xí)、計(jì)算語言學(xué)的諸多技術(shù),實(shí)現(xiàn)了文本主題聚類和分類,并在此基礎(chǔ)上生成了話題詞表及常用句型語料庫,從模型選擇和詞多樣性特征抽取兩個(gè)方面研究作文自動評分技術(shù). 或者利用作文中的排比、比喻等修辭手法以及詩詞引用來表征作文的文采. 付瑞吉等[2]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長短時(shí)記憶(BiLSTM)網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行中學(xué)生作文的優(yōu)美句識別,并和CNN、BiLSTM 網(wǎng)絡(luò)進(jìn)行了對比. 實(shí)驗(yàn)證明,混合神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率最高. YANG 等[3]針對作文自動評分任務(wù),首次引入BERT 并提出采用多個(gè)損失函數(shù)來進(jìn)行. 使用排序損失函數(shù)進(jìn)行度量學(xué)習(xí),同時(shí)加入回歸損失函數(shù)進(jìn)行互補(bǔ). KUO[4]研究表明Bi-lstm 在進(jìn)行作文隱喻檢測任務(wù)上的有效性,證實(shí)了其性能優(yōu)于傳統(tǒng)的線性分類模型. MAYFIELD 等[5]提出模型的優(yōu)劣不僅需要考慮其性能也要考慮模型所需要的人工成本以及算力成本,針對作文自動評分任務(wù)把傳統(tǒng)算法與BERT 進(jìn)行綜合比較,結(jié)果表明雖然BERT 性能達(dá)到了最佳,但其花費(fèi)了傳統(tǒng)算法100 倍的時(shí)間進(jìn)行計(jì)算,同時(shí)相比傳統(tǒng)算法提升的性能不超過5%. 因此針對作文自動評分任務(wù),傳統(tǒng)算法在計(jì)算成本與時(shí)間成本上仍具有一定的優(yōu)勢. 深度學(xué)習(xí)方法則在性能提升上更有優(yōu)勢. 以上研究對作文自動評分任務(wù)的發(fā)展起到積極的推進(jìn)作用.
針對行文一致性評測任務(wù),需要獲取篇章級別的語義特征. 目前現(xiàn)存的篇章級行文一致性度量模型主要有基于修辭結(jié)構(gòu)理論的方法[6],以及基于中心理論的方法[7]. 這些方法從統(tǒng)計(jì)學(xué)的角度定義了篇章級實(shí)體出現(xiàn)的句法角色及其轉(zhuǎn)換頻率與全文行文一致性的關(guān)系,并假設(shè)優(yōu)質(zhì)的作文中實(shí)體間的轉(zhuǎn)換關(guān)系一定滿足在訓(xùn)練集上學(xué)習(xí)到的關(guān)系,因此建立概率模型度量未知文本的行文連貫程度. 最終,研究者利用人工文本一致度評分與模型打分的相關(guān)程度度量模型的有效性.
以上的研究雖然能實(shí)現(xiàn)語料庫驅(qū)動的針對文本句式句群、用語習(xí)慣和詞語搭配的測評,也可以實(shí)現(xiàn)對于全文主題的分類及主題詞、特征詞的提取,但對于本文所提出的復(fù)雜任務(wù)還無法達(dá)到所要求的準(zhǔn)確性. 對于新聞推薦任務(wù),需要同時(shí)考慮實(shí)體之間的關(guān)聯(lián)信息和深層次的語義聯(lián)系[8]. 對于作文行文一致性判斷認(rèn)為,需要同時(shí)判斷作文整體一致性和作文語義塊之間的語義一致性. 對于人物類作文,需要同時(shí)考慮作文中人物形象、性格、故事,三者的一致性:描寫性格慈祥的母親不能用勇敢的故事去襯托她;正義行為的刻畫與負(fù)面外貌的描寫具有矛盾性. 因此,人物類作文行文一致性分析包括作文表層的主題一致性、情感一致性、人物性格和事件的一致性,其原理是一樣的,因此方案都是相同的,都需要(情感?全文)、(主題?全文)、(人物性格?故事描寫)、(事件話題?事件描寫)的對應(yīng)建模.
基于以上分析,本文提出了一個(gè)全新的無監(jiān)督模型,實(shí)現(xiàn)了作文行文一致性測評任務(wù). 模型構(gòu)建使用了孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了抽象語義層面的作文人物性格形象特征與故事描寫特征的相似度度量.
如何提取作文的中心思想特征是一個(gè)重要挑戰(zhàn).本節(jié)通過對作文的中心思想部分出現(xiàn)的規(guī)則、形式、位置進(jìn)行分析,創(chuàng)新性地提出了一個(gè)作文中心思想提取的解決方案.
一般來講中心思想信息(人物性格形象)基本可以從直接的關(guān)鍵詞、關(guān)鍵搭配的匹配技術(shù)以及間接的文本語義推理技術(shù)獲得,但由于作文中對核心人物的部分性格描寫可能比較隱晦,關(guān)鍵詞搭配的直接抽取不能獲得與核心人物性格有關(guān)的全部信息.因此本文提出使用語義逆向推理技術(shù),將核心人物相關(guān)段落轉(zhuǎn)化為人為設(shè)置的性格類型分布,從而作為性格關(guān)鍵詞的補(bǔ)充,二者結(jié)合形成人物性格特征.除此之外,與核心人物有關(guān)的外貌描寫可能也與人物形象相關(guān). 因此,本文從4 個(gè)方面完成對作文核心人物的性格形象特征(即中心思想特征)的提?。宏P(guān)鍵人物出現(xiàn)的頻率;與核心人物相關(guān)的外貌描寫匹配;顯示性格關(guān)鍵詞;隱式性格特征.
具體地,為待測作文抽取中心思想特征時(shí),需要完成以下流程.
1.1.1 關(guān)鍵人物出現(xiàn)頻率
本文通過構(gòu)建人物-代詞元組序列,以及代詞的上下文環(huán)境,將每個(gè)代詞映射到一個(gè)人物類別上,最后為作文中出現(xiàn)的所有人物按出現(xiàn)頻次排序,出現(xiàn)最高頻次的人物即設(shè)定為本文所描寫的核心人物.
1.1.2 核心人物的外貌描寫
通過人工遴選的方式選取了共計(jì)186 個(gè)頻率較高的外貌類名詞,作為選取外貌搭配的種子名詞. 合并表1 中無標(biāo)簽訓(xùn)練集和驗(yàn)證集的所有文本,在這些文本中抽取所有頻次大于30 的外貌搭配. 利用LTP 語言云平臺按照固定句法模式抽取文本中所有固定的搭配,構(gòu)建外貌搭配字典. 最終獲得了共計(jì)98 個(gè)有信息價(jià)值的外貌搭配. 之后抽取每篇作文核心人物出現(xiàn)的句子中所包含的外貌搭配,使用TFIDF 進(jìn)行文本表示,從而作為文本的外貌搭配特征.
表1 數(shù)據(jù)集信息Tab. 1 Dataset information
1.1.3 顯示性格關(guān)鍵詞
通過人工遴選的方式獲得了共計(jì)682 個(gè)頻率較高的性格詞語,形成本題所需的性格列表. 對性格詞進(jìn)行同義詞與近義詞擴(kuò)展,在此使用哈工大同義詞林工具識別性格詞庫中的同義詞/近義詞信息. 哈工大同義詞林可以計(jì)算兩個(gè)中文詞語間的語義相似度,本文取閾值=0.9,規(guī)定相似度在此閾值之上的兩個(gè)詞互為近義詞,若相似度為1 則為同義詞. 最終獲得了所有性格詞的同義詞/近義詞列表. 記性格詞c對應(yīng)的近義詞列表為:S imlist[c]={(j,sim(c,j))}j∈{1,2,···,682} 其 中sim(c,j)為詞語c和j在同義詞林中的相似度. 之后抽取每篇作文核心人物出現(xiàn)的句子中所包含的性格關(guān)鍵詞及其搭配作為對文本有價(jià)值的性格詞特征.
1.1.4 隱式性格特征
本文采用Biterm-AT 模型[9]作為隱式性格特征向量抽取的模型工具. 首先,從核心人物出現(xiàn)的語句中,通過間隔 Collapsed Gibbs Sampling 方法多次采樣獲得每個(gè)詞的標(biāo)簽分配向量,再將多次采樣獲得的標(biāo)簽分配向量取平均值,接著通過公式(1)對抽取到的標(biāo)簽分配向量進(jìn)行平滑.
式中:nd為多次采樣后標(biāo)簽a 平均出現(xiàn)的次數(shù);α為線性平滑因子,本文將其設(shè)為0.001,最后獲得了33(總標(biāo)簽數(shù))維的概率分布向量.
由于全體標(biāo)簽中包括了人物類別和性格類別的標(biāo)簽,而此時(shí)已經(jīng)根據(jù)關(guān)鍵人物列表提取了文本中所有出現(xiàn)的人物頻率,所以不再需要人物類別的概率作為特征. 因此,這一步中需要過濾掉所有人物類別的分布概率,只保留余下 18 維性格類別對應(yīng)的概率即可. 最后重新歸一化這18 維的性格類別向量,形成最終的隱式性格特征向量.
根據(jù)上述的步驟從待測作文中提取中心思想,即核心人物特征向量,涵蓋了對人物類別、外貌、顯示性格關(guān)鍵詞與隱式性格的逆向推理的特征提取過程,這四步分別提取了77 維、132 維、682 維和18 維的特征信息,最后,拼合這部分向量,獲得描述作文核心人物特征的909 維向量. 在此后的模型訓(xùn)練與預(yù)測中,針對所有作文均應(yīng)用人物性格向量進(jìn)行核心人物形象的形式化定量表示.
作文行文一致性評測主要評測作文的中心思想以及作文內(nèi)容的一致性問題. 因此除中心思想(人物性格形象)外,行文還需要對作文其他部分進(jìn)行特征表示,這些部分包括主要人物出現(xiàn)故事描寫特征以及作文整體的主題特征.
1.2.1 故事描寫特征
首先,利用LTP 工具,對表1 中所示的標(biāo)注訓(xùn)練集_L 中包含7 600 多篇僅標(biāo)注了人物類別的作文進(jìn)行分詞和詞性標(biāo)注,過濾掉性格詞庫中所有性格關(guān)鍵詞,最后利用TF-IDF 文本表示方式將集合中所有的文本表示為TF-IDF 向量形式. 由于每篇文本均對應(yīng)一個(gè)人物類標(biāo)注,因此,可以利用卡方特征選擇方法選取最重要的前5 000 個(gè)單詞作為事件類的關(guān)鍵詞,對于每篇作文,將其轉(zhuǎn)化為TF-IDF 向量表示,如此則獲得了 5 000 維的文本TF-IDF 向量.
1.2.2 作文主題特征
LDA 模型是基于機(jī)器學(xué)習(xí)的一種無監(jiān)督學(xué)習(xí)方法,該方法通過在單文本層面獲取共現(xiàn)詞對以實(shí)現(xiàn)主題挖掘[10]. 本文利用Biterm-LDA[11]進(jìn)行主題建模,抽取核心人物出現(xiàn)的故事段落的主題分布. 此模型結(jié)合了LDA 的單文本主題建模能力與 BTM 短文本主題建模質(zhì)量的優(yōu)勢. Biterm-LDA 模型可以實(shí)現(xiàn)對訓(xùn)練集文本的主題概率建模、逆向推理主題-詞多項(xiàng)式概率分布、以及對測試集中未知文本的主題分布的后驗(yàn)推理等任務(wù). 訓(xùn)練主題模型的超參數(shù)設(shè)定為α=0.1,β=0.01,主題數(shù)K=180.
使用上述主題抽取方案為所有與核心人物相關(guān)的目標(biāo)文本抽取后驗(yàn)主題向量特征,特征維度為180 維,將這部分特征與TF-IDF 向量拼合,形成最終的作文故事段落文本的特征量化表示.
在本文所述的作文特征提取方案中,針對作文的人物性格形象描寫和故事描寫段落分別抽取了特征向量,本節(jié)將討論如何利用這兩部分的數(shù)據(jù)構(gòu)建模型,完成對行文一致度的判別,即本文提出的Match_Net_Siamese 網(wǎng)絡(luò).
針對作文的人物性格形象特征與故事特征的語義級對應(yīng)問題,設(shè)計(jì)了直接應(yīng)用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)人物性格形象特征與故事特征之間的對應(yīng)關(guān)系訓(xùn)練.本模型設(shè)計(jì)的動機(jī)是將同一篇作文中的人物性格形象描寫向量與故事描寫向量映射到相近的抽象語義空間內(nèi),而不同人物對應(yīng)的故事描寫向量與該篇作文的人物性格形象向量在映射后,會出現(xiàn)較遠(yuǎn)的距離.
圖1 展示了本文所提出的Match_Net_Siamese 神經(jīng)網(wǎng)絡(luò)模型的示意圖.
圖1 中,左下角部分為從每篇文本中抽取的人物性格形象向量(中心思想),右下為從每篇文本中抽取的故事描寫向量,在網(wǎng)絡(luò)的第一層,這兩個(gè)向量分別被線性映射激活. 由式(2)給出.
圖1 Match_Net_Siamese 模型示意圖Fig. 1 Match_Net_Siamese model diagram
式中Wl_1_fig為第一層對人物性格形象向量進(jìn)行線性映射的矩陣,形狀為[200,820];Xi,fig為輸入的人物性格形象向量,此后經(jīng)過激活函數(shù)激活,得到200維的人物抽象特征,記為Layer_1_fig.
與此同時(shí),故事向量同樣被矩陣Wl_1_story線性映射至一個(gè)200 維的空間,Wl_1_story形狀為[200,5 180],之后經(jīng)過激活函數(shù)激活. 激活后的抽象故事特征記為Layer_1_story. 在第一層中,網(wǎng)絡(luò)不共享參量,對人物性格形象向量與故事向量的映射過程彼此獨(dú)立.
網(wǎng)絡(luò)的第二層實(shí)現(xiàn)利用同一組的參數(shù),將人物抽象特征與故事抽象特征映射到同一歐式空間內(nèi),對人物抽象特征與故事抽象特征的計(jì)算用同一個(gè)映射矩陣W_C和偏置b_c,其中W_C維度為[75,200],b_c為列向量,維度為75. 如此,最初的每一對人物形象性格向量與故事描寫向量被映射到同一個(gè)歐式空間內(nèi). 在這個(gè)空間中,網(wǎng)絡(luò)優(yōu)化的目標(biāo)是使來自同一篇文本內(nèi)的人物形象性格向量與故事描寫向量鄰近,使來自不同核心人物的作文人物形象向量與故事描寫向量的距離而疏遠(yuǎn).
圖1 的模型中,本文首先將維度不同的人物形象向量與故事描寫向量映射到同一維度,再使用一層共享權(quán)值的神經(jīng)網(wǎng)絡(luò)進(jìn)行最終的抽象特征提取,最后,再在最終的抽象特征空間計(jì)算樣本的相似度,后面的網(wǎng)絡(luò)權(quán)值共享、相似度度量與優(yōu)化的設(shè)計(jì)參考了孿生神經(jīng)網(wǎng)絡(luò)(Siamese neural network, SNN)模型. 網(wǎng)絡(luò)的損失函數(shù)如下:
式中:Xi,fig為訓(xùn)練集中第i篇作文的人物性格形象特征向量;Xi,st為訓(xùn)練集中第i篇作文的故事描寫特征向量;Xj,st為訓(xùn)練集中第j篇作文的故事描寫特征向量,其中,第j篇與第i篇作文的核心人物不同. 下文中,為敘述方便,將彼此對應(yīng)的人物性格特征向量與故事向量稱為正例,否則為反例. 實(shí)際訓(xùn)練時(shí),輸入數(shù)據(jù)為3 個(gè)向量,前兩個(gè)為對應(yīng)的人物性格特征向量與故事特征向量,然后再從與該篇作文核心人物不同的所有作文中隨機(jī)取出一篇,取其故事描寫特征向量,組成一組訓(xùn)練數(shù)據(jù). 這組數(shù)據(jù)經(jīng)兩層網(wǎng)絡(luò)映射后,使用式(3)可以計(jì)算出它的損失. 其中,β為正例損失強(qiáng)度稀疏,F(xiàn)fig、Fst分別指將原始人物性格形象特征/故事描寫特征映射至網(wǎng)絡(luò)最后抽象層的函數(shù). cossim 函數(shù)是向量余弦相似度函數(shù),公式如(4).
公式(3)中的損失來源于兩部分,公式(3)右邊第一項(xiàng)為正例損失,第二項(xiàng)為負(fù)例損失. 需要說明的是,如果訓(xùn)練數(shù)據(jù)中來自不同的核心人物的人物性格特征與故事特征向量在最終的抽象向量空間內(nèi)余弦相似度≤0,則不做懲罰,這類似于“不敏感代價(jià)”的處理方式,實(shí)踐中發(fā)現(xiàn)如此設(shè)計(jì)可以一定程度上具有抗過擬合的效果.
為考察本文所使用的Match_Net_Siamese 模型中,第二層孿生網(wǎng)絡(luò)的設(shè)置是否確實(shí)能提高網(wǎng)絡(luò)判別的準(zhǔn)確性,這里還設(shè)計(jì)了普通的映射網(wǎng)絡(luò)模型與其做對比實(shí)驗(yàn). 圖2 展示了沒有孿生網(wǎng)絡(luò)參量的Match_Net_Vanilla 模型示意圖.
圖2 Match_Net_Vanilla 模型示意圖Fig. 2 Match_Net_Vanilla model diagram
該網(wǎng)絡(luò)與Match_Net_Siamese 的區(qū)別在于第二層到第三層抽象特征的映射中,網(wǎng)絡(luò)不共享權(quán)值,對抽象的人物/故事特征分別以各自的網(wǎng)絡(luò)第二層參數(shù)進(jìn)行線性映射后激活,激活后的特征為最終的抽象語義特征.
在Match_Net_Siamese 模型中,本文使用0.000 6作為學(xué)習(xí)率,對于Match_Net_Vanilla,使用該模型能夠達(dá)到最好效果的學(xué)習(xí)率0.000 5. 兩個(gè)模型選擇的批大小為64,模型在一次優(yōu)化訓(xùn)練中處理32 個(gè)正例和32 個(gè)反例. L2正則化向參數(shù)Lamda 選擇為5×10?5,訓(xùn)練輪次為20,并使用指數(shù)下降法動態(tài)調(diào)整學(xué)習(xí)率,設(shè)置折損率decay_rate 為0.8,即每個(gè)學(xué)習(xí)輪次后將學(xué)習(xí)率折損0.8 倍,動態(tài)的學(xué)習(xí)率有助于更好地調(diào)節(jié)訓(xùn)練步長,使得模型訓(xùn)練易于收斂,避免在損失函數(shù)的局部極小點(diǎn)進(jìn)行劇烈震蕩.
本文使用了大約7 000 篇作文作為機(jī)器學(xué)習(xí)模型的訓(xùn)練、驗(yàn)證,這部分文本均有人物類別標(biāo)注. 此外,為挖掘人物性格與主題間的對應(yīng)關(guān)系,本文將其中一部分文本進(jìn)行了性格標(biāo)注,每篇文本的核心人物類別限制在1 個(gè),但性格類別可以是多個(gè),所以這是一批多標(biāo)簽的文本集合. 除此之外,為訓(xùn)練無監(jiān)督的主題模型,本文收集了大約4 萬篇無任何標(biāo)注的作文,用于無監(jiān)督主題模型的訓(xùn)練和測試. 模型驗(yàn)證集中含有401 篇人工行文一致度評級后的作文,本文將利用模型驗(yàn)證集,對最終的行文一致性測評模型的通用性、可行性和準(zhǔn)確性進(jìn)行評估.
在模型驗(yàn)證集的標(biāo)注中,課題組請領(lǐng)域?qū)<遥ㄖ行W(xué)語文教師)將401 篇作文按其行文一致度分為4個(gè)等級,標(biāo)注從教師測評的角度,考慮作文中的人物性格形象與故事描寫是否對應(yīng),故事描寫是否以作文核心人物為中心,圍繞核心人物展開、突出體現(xiàn)核心人物的性格特點(diǎn),并且沒有跑題.
每個(gè)等級的意義如下:
6 分:跑題或人物與事件無明顯對應(yīng)關(guān)系,事件描寫離題,全文出現(xiàn)了多個(gè)人物不分主次.
7 分:人物與事件有對應(yīng)關(guān)系,但人物性格不突出,事件描寫太簡略或冗雜,部分事件描寫離題.
8 分:事件能體現(xiàn)核心人物的性格,能緊扣全文主旨進(jìn)行事件寫作. 全文基本能做到重點(diǎn)突出、內(nèi)容具體.
9 分:事件緊扣核心人物的性格形象展開,突出人物的重點(diǎn)性格,細(xì)節(jié)周到、詳略得當(dāng)、層次分明,很好地刻畫了核心人物.
以下給出標(biāo)簽信息,總計(jì)標(biāo)簽類別為15 類人物和18 類性格標(biāo)簽. 表2 和表3 中列舉了這33 類標(biāo)簽的信息.
表2 人物標(biāo)簽信息Tab. 2 Figure label information
表3 性格標(biāo)簽信息Tab. 3 Disposition label information
實(shí)驗(yàn)在每次決定神經(jīng)網(wǎng)絡(luò)模型輸入時(shí)隨機(jī)抽取反例樣本,訓(xùn)練/測試集比例為8∶2. 為真實(shí)地評估兩個(gè)模型的泛化性能,在此采用五折交叉驗(yàn)證. 訓(xùn)練和驗(yàn)證時(shí),對每批正例樣本對隨機(jī)選取負(fù)樣本,而測試時(shí),使用模型對測試集文本進(jìn)行打分,并使用真實(shí)標(biāo)注驗(yàn)證模型效果.
本文將分析在無行文一致性評級信息的條件下,模型對于測試集上的正例樣本和模擬生成的負(fù)例樣本的分類性能. 對于每一對人物性格形象特征與故事描寫特征,式(4)給出了兩者在模型抽象語義空間內(nèi)的余弦相似度,據(jù)此可實(shí)現(xiàn)模型對每一對特征主題是否一致進(jìn)行分類. 本文以準(zhǔn)確率(Precision)、召回率(Recall)及F1值作為評測標(biāo)準(zhǔn). 此外,還為模型驗(yàn)證集中的401 篇文本,依據(jù)模型輸出進(jìn)行行文一致度打分,因此可對比模型評分與真實(shí)評分的擬合度.
本文在相同訓(xùn)練集與測試集上完成了對兩種Match_Net 的訓(xùn)練和測試. 在此二分類實(shí)驗(yàn)中,以同篇作文中的人物性格特征與故事描寫特征作為正例樣本,以隨機(jī)的不同作文中兩部分特征作為負(fù)例樣本,在一次實(shí)驗(yàn)中使用約 2 800 對樣本對模型進(jìn)行二分類測試. 其中,分類閾值取最大化模型測試集上真陽比例-假陽比例的值. 表4 和表5 分別給出了2 種模型在五折交叉驗(yàn)證后測試集上的平均分類結(jié)果.
表4 Match_Net_Vanilla 的分類實(shí)驗(yàn)結(jié)果Tab. 4 Classification experiment results of Match_Net_Vanilla
表5 Match_Net_Siamese 的分類實(shí)驗(yàn)結(jié)果Tab. 5 Classification experiment results of Match_Net_Siamese
圖3 和圖4 分別給出了兩種Match_Net 模型的受試者曲線(receiver operating curve,ROC)測評結(jié)果,受試者曲線是在二分類任務(wù)中,利用逐步降低正例分類閾值對假陽性樣本概率和真陽性概率進(jìn)行統(tǒng)計(jì)后繪制出的從坐標(biāo)(0,0)到(1,1)的曲線.
圖3 Match_Net_Vanilla 的受試者曲線Fig. 3 Receiver operating curve of Match_Net_Vanilla
圖4 Match_Net_Siamese 的受試者曲線Fig. 4 Receiver operating curve of Match_Net_Siamese
為實(shí)際檢驗(yàn)?zāi)P蛯τ谡鎸?shí)情況下待測作文行文一致性評級與真實(shí)人工評級的擬合度,本文利用已經(jīng)訓(xùn)練好的模型進(jìn)行實(shí)際評分,再將模型評分與人工評級作對比,以此檢驗(yàn)?zāi)P驮谡鎸?shí)待測作文上的表現(xiàn). 本文在表1 中列出了模型測試集信息. 其中人工評分分為6~9 四個(gè)等級,分別對應(yīng)4 種行文一致性的符合程度. 公式4 的應(yīng)用對象為人物性格形象向量與故事描寫向量在模型處理的最后一層得到的抽象特征,依此公式可以得到待測作文人物性格形象描寫與故事描寫的余弦相似度,在?1~1 之間.
模型測試時(shí),首先,抽取測試集中401 篇作文的人物性格形象特征與故事描寫特征向量,然后計(jì)算這 401 對特征向量的余弦相似度,最后在除去離群的過大值和過小值后,根據(jù)其余相似度值的最大值和最小值,將這401 個(gè)余弦相似度值線性地映射至5.5~9.5 分之間,取其四舍五入后的整數(shù)作為模型的最終評分. 表6 和表7 分別給出了測試集上兩種模型最終評級與人工評級的分類測試結(jié)果.
表6 Match_Net_Vanilla 的行文一致度評級結(jié)果Tab. 6 Rating results of writing consistency based on Match_Net_Vanilla
表7 Match_Net_Siamese 的行文一致度評級結(jié)果Tab. 7 Rating results of writing consistency based on Match_Net_Siamese
圖5 展示了測試集中部分作文的行文一致性最終評測結(jié)果與人工標(biāo)注的評級結(jié)果間的對比,其中,橫坐標(biāo)為評測算法最終給出的輸出,是介于5.5~9.5 之間的連續(xù)實(shí)數(shù),縱坐標(biāo)為人工評級,分為6~9四個(gè)離散的整數(shù).
圖5 行文一致性評級結(jié)果可視化展示Fig. 5 Visual display of writing consistency rating results
從兩種Match_Net 對于行文一致性判別的二分類實(shí)驗(yàn)結(jié)果可以看出,共享網(wǎng)絡(luò)第二層參量的Match_Net_Siamese 模型在平均準(zhǔn)確率、召回率和F1值3 種測評指標(biāo)上均優(yōu)于不共享網(wǎng)絡(luò)參量的Match_Net_Vanilla 模型. 共享參量的網(wǎng)絡(luò)能夠有效地降低過擬合對實(shí)驗(yàn)結(jié)果的損害,因?yàn)閰⒘抗蚕砗缶W(wǎng)絡(luò)的整體參量數(shù)降低,在網(wǎng)絡(luò)第一層映射后,可以利用更少的參量提取文本更抽象特征,取得更優(yōu)的效果.
從圖3 和圖4 可以看出,兩種網(wǎng)絡(luò)的訓(xùn)練結(jié)果均比較穩(wěn)定,體現(xiàn)在ROC 具有比較高的重合度與AUC 的低標(biāo)準(zhǔn)差. 此外,共享網(wǎng)絡(luò)第二層參量的Match_Net_Siamese 模型的AUC 值比較明顯地低于無參量共享的Match_Net_Vanilla 模型,驗(yàn)證了使用Siamese 共享變量網(wǎng)絡(luò)可以在本任務(wù)文本數(shù)據(jù)集上有效地提高模型的預(yù)測(判別)準(zhǔn)確度.
據(jù)模型評分與真實(shí)人工評分的擬合度實(shí)驗(yàn)結(jié)果可知,按上述算法將模型對于人物性格形象特征與故事特征的抽象語義級相似度輸出,通過Match_Net_Siamese 模型輸出后再進(jìn)行線性映射、四舍五入的方法,即可獲得約84%的精準(zhǔn)率和約83.5%的F1值,這個(gè)結(jié)果與普通神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的模型Match-Net-Vanilla 相比具有比較明顯的優(yōu)勢. 模型測試集中6分作文較少,僅有9 篇,8 分作文較多,共計(jì)218 篇,7分和9 分作文的數(shù)量基本一致. 從實(shí)驗(yàn)結(jié)果上來看,利用Match-Net_Siamese 模型通過簡單的線性映射獲得的最終評級結(jié)果,與人工標(biāo)注結(jié)果多數(shù)一致,在8、9 分作文中獲得了比較高的準(zhǔn)確率和召回率. 在6、7分作文中出現(xiàn)了一定的評分偏低的問題,但對于大多數(shù)高分作文均可以準(zhǔn)確分類. 而基于普通神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的Match_Net_Vanilla 模型雖然對測試集中的模擬數(shù)據(jù)二分類結(jié)果尚可,在對于真實(shí)作文的評級實(shí)驗(yàn)中,難以取得較優(yōu)的分類結(jié)果.
圖5 中的4 個(gè)灰虛線矩形框內(nèi)分別為4 類評級作文中分類正確的樣本點(diǎn),黑色樣本點(diǎn)為分類錯誤的樣本點(diǎn). 可以看出,最終的評測算法能將多數(shù)8、9分作文準(zhǔn)確分類. 對于部分作文,算法有評分偏低的傾向,這將在以后的研究中做進(jìn)一步調(diào)整.
實(shí)驗(yàn)結(jié)果表明,引入孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的Match-Net 模型在分類正確率、召回率、F1值指標(biāo)上均優(yōu)于普通神經(jīng)網(wǎng)絡(luò)模型. 且在該方案中,本文僅通過無監(jiān)督的方法制訂了從模型訓(xùn)練到實(shí)際應(yīng)用的算法流程,在保證基本準(zhǔn)確率的條件下解決了對人工標(biāo)注數(shù)據(jù)的依賴的問題.
本文提出了一種評測作文中行文一致性的實(shí)現(xiàn)方法. 首先分別使用了無監(jiān)督的Biterm-LDA 主題模型做事件主題抽取,使用了有監(jiān)督的Biterm-AT 主題模型對全文核心人物出現(xiàn)的語句進(jìn)行逆向性格特征推理. 然后利用本文的Match_Net_Siamese 模型將兩部分特征進(jìn)行相似度計(jì)算得到作文的行文一致性分?jǐn)?shù),并且利用自動評估和人工評估來衡量它的性能.實(shí)驗(yàn)結(jié)果表明,本文所提出的作文行文一致性測評方案在正確率、召回率、F1值指標(biāo)上均優(yōu)于普通神經(jīng)網(wǎng)絡(luò)模型,可適用于以下條件的作文行文一致性評測:作文的表現(xiàn)形式以中心思想為核心,其他部分圍繞著中心思想展開并緊扣中心思想. 當(dāng)然,還需要該類型的作文能用中心思想特征和其他作文部分特征來表示,并且表示的特征間具有一定的統(tǒng)計(jì)學(xué)規(guī)律,那么,仍可以用Match-Net 模型實(shí)現(xiàn)作文中心思想與其他輔助性段落的抽象語義級對應(yīng).
下一步工作將嘗試更多的行文一致性測評方案,比如如何在弱監(jiān)督條件下,通過一個(gè)深度學(xué)習(xí)/機(jī)器學(xué)習(xí)模型完整地獲取文中的中心思想與輔助性故事特征表示,再實(shí)現(xiàn)行文一致度測評,這將可以直接根據(jù)模型的損失函數(shù)優(yōu)化作文兩部分內(nèi)容的特征表示,也減少了對上游模型特征抽取或人工特征抽取的依賴.