基于LCS的應急決策文本相似性比對分析模型*

2019-06-05 05:43蓋文妹鄧云峰

中國安全生產科學技術 2019年5期

徐可，蓋文妹，鄧云峰

(1.中國地質大學(北京) 工程技術學院，北京 100083；2. 中共中央黨校(國家行政學院)，北京 100089)

0 引言

近年來，各種突發(fā)事件頻繁發(fā)生，給人類社會造成了嚴重的傷亡、損失和惡劣的影響[1]。作為應急管理的“大腦”，應急決策是應急管理過程至關重要的一環(huán)。同時，這種決策大多發(fā)生在各級指揮部的小范圍內，在極少數情況下就由指揮部的核心成員甚至就是最高首長臨機決斷決策[2]，這些決策往往通過決策文本的各種形式下發(fā)，通過對決策主體所制定決策文本的研究分析，就能較好地把握決策主體對相關形勢的判斷、態(tài)度以及接下來工作方向的指導和偏好。

對于危機情境下的高層決策文本分析，國內外對此的研究不多。國內外的研究主要集中在制度文本分析的方法與理論框架，如Yamashiro, Daniel K.M.分析了在國家危機時期宗教對美國總統(tǒng)外交政策決策的影響[3]；美國國家總評估辦公室 (The U.S.A General Accountability Office,GAO) 提出的內容分析法這種定性分析方法[4]，以及國內很多學者提出的制度文本分析框架[5-6]。總體來講，有關制度文本分析的研究已有大量文獻，但針對危機情境下高層決策文本分析的研究文獻相對較少，已有的文獻大部分是關于重大事件決策的影響因素的研究[7-8]，也有文獻對突發(fā)事件中的相似度計算進行了相關論述，但主要是集中在突發(fā)事件的匹配度，通過將突發(fā)事件的文本視為各種屬性的集合，并通過基于語義詞典以及句子依存結構計算突發(fā)事件框架的相似度[1]。這種框架更適合于標準化的表述文本形式，對于高層應急決策文本中簡略的口語化表達過于復雜，同時框架中的“事件基本屬性”、“承災載體”、“應急管理”、“次生衍生災害”4個子集合也不太適用于高層應急決策文本。關于文本相似度方面的研究，主要是將非結構化的文本形式轉化為結構化形式。如Salton等提出的基于統(tǒng)計學方法的向量空間模型(VSM)[9]，雖然VSM結構簡單，但它是基于文本中的特征詞頻數統(tǒng)計計算的相似度[10]，并沒有考慮特征詞的位置關系，對于高層應急決策文本的相似度分析來說過于片面。同時，也有學者基于自然語言處理進行了相似度方面的研究，如Hofmann,Thomas引入潛在類變量來提高相似度計算的精度[11]；Emesto等通過對指定本體概念派生出的類使用聚類的方法進行語義消歧[12]。

本文針對危機情景下高層決策文本特征分析中的相似度計算問題，通過歧義消除、同近義合并、編碼的方法將非結構化的決策文本轉化為結構化的字符串形式，同時根據決策文本的特點細化其主題詞分級，并運用序列比對中最長公共子序列模型(LCS)的理論及方法，綜合考慮字符匹配度以及字符順序來計算決策序列對的相似度，將決策樣本的聚類分析轉化為求解決策序列之間的相似性問題，建立了高層應急決策文本相似性比對分析模型，定量化序列之間的差異性；用Needleman-Wunsch算法求解該模型，并通過實例檢驗了模型的有效性和可行性，研究結果可為高層應急決策文本分析研究提供參考和借鑒。

1 問題描訴與模型建立

1.1 問題提出

應急決策文本，不同于一般的政策工具，其可能是1項通知、1則公告或者幾行命令。它是承載了決策主體在不確定條件下對各種意外事態(tài)進行研判并采取應急處置措施的文本。為了應對突發(fā)事件，決策主體根據經驗、知識、能力等提出自己認為正確的“任務”或“行動”，由于突發(fā)事件的復雜性，這些應對措施往往不是唯一的，所以這些決策文本的內容往往是多主題的。當我們對這些決策文本進行主題詞提取、整合，就會得到該決策文本所特有的決策序列，如圖1。當處于同一危機情境下，如何對這些序列進行聚類分析進而得到決策主體的決策行為特征就是本文研究的問題。

圖1 決策序列示意Fig.1 Schematic diagram of decision-making sequence

1.2 變量及名詞定義

最長公共子序列模型(LCS)是由Wagner和Fisher在20世紀70年代提出的一種較為基礎的算法，其主要用途是查找2個序列之間的最長公共子序列[1]。這種算法一經提出就廣泛應用于生物信息學，對于發(fā)現(xiàn)核酸和蛋白質序列上的功能、結構和進化的信息具有非常重要的意義[13]。對于高層應急決策序列對，可以通過得到序列對之間的相似性分值來對樣本進行聚類分析，進而研究各類之間的區(qū)別及聯(lián)系，由此，序列比對時應該考慮的內容就在于決策內容和決策順序。決策內容本質上是決策主體從應對特定突發(fā)事件的各種措施的大集合中挑選出滿足自身要求、各種任務部署的小集合，而決策順序則代表了決策主體對這些任務部署的優(yōu)先級的確定。各變量及名詞定義如下。

1)主題詞：用以表達決策文本主題的詞匯，具有概念化和規(guī)范化的特征。主題詞來源于樣本數據，1個主題詞的來源可能是多個樣本，比如：“全力加強人員搜救，這是第一位的工作”與“全力以赴開展人員搜救”這2句的主題詞都可以為“人員搜救”。同時，根據決策文本的特點，從執(zhí)行層面上大致分為2級：目標和行動，并且后者屬于前者，1個目標可以有很多活動或者沒有活動。

2)編碼號：連接序列和決策文本的中間元素。既是決策序列的組成部分，又一一對應決策文本中的主題詞。

3)設序列S記為S=s1s2s3…sx，序列T記為T=t1t2t3…ty。用Si和Tj分別表示序列S的第i個編碼號和序列T的第j個編碼號。

4)在整個樣本數據中，m是目標級別編碼的數量，n是各目標級別所含行動級別編碼的數量。

5)置換得分ωij：Si與Tj的相似性分值。

6)相似性計分矩陣：基于置換得分得到的打分矩陣。

7)空位罰分Q：序列比對時，加入空位時的相似性罰分。在這里，Q=G×num。G表示1個空位設置的罰分；num表示序列比對中所設置的空位數目。

8)相似性分值F：2序列比對得到的相似性得分。目標函數為：

(1)

1.3 模型建立

基于以上變量及名詞定義，以2序列比對的相似性分值最大為優(yōu)化目標，建立高層應急決策文本相似性比對分析模型，如式(2)～(4)所示，其中，式(3)代表了相似性計分矩陣的取值，表示不同的替換情況的替換得分。

(2)

(3)

Q=G×num

(4)

2 模型的求解算法

Needleman-Wunsch算法是基于動態(tài)規(guī)劃的全局比對算法[14]。算法的基本思想為：使用迭代的方法逐步計算出2條序列的相似分值，并將其保存在1個得分矩陣中，然后根據這個得分矩陣，通過動態(tài)規(guī)劃的方法回溯尋找最優(yōu)的比對序列[15]。該算法使用二維表格，表格里的每1個分值分別有3個來源：

1)來自上方的單元格，代表將對應行的編碼與空格比對。

2)來自左側的單元格，代表將對應列的編碼與空格比對。

3)來自左上側的單元格，代表將對應行與列的編碼比對。

根據相似性計分矩陣和空位罰分值，該單元格的值取這3個來源的最大值。此算法的計算步驟如下：

1)初始化表格。在進行比對的2條序列前面都加上空格，然后填充第2行和第2列的值。比如：填充第2行意味著使用位于頂部的序列的編碼與空格進行比對，而不是與最左側序列的編碼，用相似的方法得到第2列的值。同時將位于左上角的第1個分值設為0。

2)填充剩下的表格，根據相似性積分矩陣和設置的空位罰分值，取上述3個來源的最大值。

3)回溯?？梢约僭O2個新字符串U和V，將上側的字符串加入到U中，將左側的字符串加入到V中。從右下角開始回溯，根據表格的構建過程可知，有3個方向回溯：“從右到左”、“從下到上”和“從右下到左上”。選取3個方向中的最大值(當最大值不止1個時，可以從中任選1個)，同時遵循以下原則：“從右到左”意味著將左側字符加入到V中，將空格加入到U中；“從下到上”意味著將上側字符加入到U中，將空格加入到V中；“從右下到左上”意味著分別將2側字符加入到U和V中，如圖2所示。

圖2 回溯示意Fig.2 Schematic diagram of backtracking

3 實例分析

3.1 數據來源和初始化

數據來源是45位政府高層管理人員參加的1次地震演練情景，共得到45份應急決策文本。通過對這些文本進行主題詞提取、整理和編譯，得到全樣本決策編碼，如表1所示。根據表1，任取2份樣本得到2條決策序列對S和T，如圖3所示。

3.2 相對相似性得分

從表1中可知，此實例共得到了目標決策12個，相應的行動決策31個。同時根據模型中的公式(3)，當總樣本確定后，根據樣本得到目標決策以及相對應的行動決策，其對比序列的替換矩陣也就確定，即序列比對時編碼匹配度的影響因素就已確定，影響最終相似性得分的因素只有G(單個的空位罰分值)和num(插入空位的數量)。G的設置是避免為了得到最大相似性得分而插入過多空位。當G設置為0時，2條序列比對的相似性得分等價于擁有長度相同的“最長公共子序列”的2序列比對相似性得分(這里的“最長公共子序列”不止包括相等，還包括從屬關系、并列關系)；當G<-m時，序列比對時，當2個編碼不同而位置相同時，不管其他編碼情況如何，都會選擇插入2個空位，進而造成序列比對插入過多的空位；當0>G>-m時，相同序列進行對比的相似性得分隨著單個空位罰分值的增大而增大，但不同序列相似性得分的大小比較結果并不會有所改變。為了降低空位罰分在整個目標函數中的權重，可以設置此次序列比對的單個空位罰分值G為-5。經計算得到S和T2條序列比對的打分矩陣，如表2所示。

表1 地震演練情景下的高層應急決策編碼Table 1 Emergency decision-making codes of senior people under earthquake drill scenario

圖3 決策序列Fig. 3 Sequence of decision-making

根據打分矩陣表可以得出決策序列對S和T的全局相似性得分為80，同時其最優(yōu)比對結果之一為表3，其中“-”表示插入的空位。

從模型以及算法的計算過程可以得到，當多條序列進行比對時，假設其中2條序列很短，僅有幾個編碼，即使他們的相似性很高，得分也不會太高，反之，當2條序列很長時，即使相似性不那么高，他們的得分也可能會超過前2條序列的得分，如何處理這些情況，或者說如何根據相似性得分來判定所有序列的聚類情況。在這里，本文引入相對相似性得分的概念，其計算公式如下：

(5)

式中：a和b分別為序列S和T的編碼數量。

根據式(5)可得S和T的相對相似性得分為0.476，從數學意義上來說，約等于大約有一半的相同編碼相同位置的序列比對結果，同時可以從表3中得到，序列對相同的編碼為rs,sj,CF,bj,DJ,xf,yj2,sz,ld,zl，大于一半的數目，如前文所述，序列之間的相似性取決于序列編碼號以及編碼順序，這一結果也很好地說明了這一點。

表2 打分矩陣Table 2 Scoring matrix

表3 序列最優(yōu)比對結果Table 3 Optimal comparative results of sequences

3.3 與VSM算法的比較

本文選取另1個樣本與前2個樣本進行兩兩之間的相似度計算，并與VSM算法計算得到的結果進行比較，計算結果如表4所示。

表4 相似度計算結果Table 4 Calculation results of similarity

從表4中結果可以看到，由于算法中設置了空位罰分值，2序列之間的相似性比較更為嚴格，所以本文算法得到的相似性得分普遍低于VSM算法得到的分值，而且由于VSM只是考慮了主題詞匹配度的問題，并沒有考慮主題詞之間的位置差異，所以在序號2和3中，本文算法得到相比于樣本1，樣本2和樣本3更相似的結果，而這更能體現(xiàn)決策文本區(qū)別于普通文本的序列性的特點。同時，由于決策文本中的主題詞都有著相對獨立性，VSM模型中各主題詞的權重設置就體現(xiàn)不出差異性，而本文算法根據決策文本特點，將其分為目標和行動2級，并根據兩者之間的關系設置不同的比對得分，提高了精確性。

3.4 樣本數量敏感性分析

為了研究樣本數量對模型結果的影響，取上述2條序列對，并依次增加樣本數量，同時將G設置為-2，得到不同樣本數量情況下同一序列對的相對相似性得分，如圖4所示。

圖4 同一序列對在不同樣本數量下的相對相似性得分Fig.4 Relative similarity scores of same sequence pair under different sample amounts

從圖4中可以看出，隨著樣本數量的增加，序列對的相對相似性得分是逐漸增加的，這是由于樣本數量的增多導致目標級別主題詞的完善，將本沒有關系的行動級別的主題詞聯(lián)系起來，進而增加了相似性得分。同時也可以看到，在曲線的某些階段以及最后一段，曲線趨于平滑。這是由于樣本數量的增加并沒有對同一序列對的相對相似性得分造成影響，間接說明了此實例中的主題詞并不是無限擴展的，同時此實例中的45份樣本也已經滿足實驗要求。

4 結論

1)為了計算高層應急決策文本的相似度，在對文本進行主題詞提取得到決策序列對的基礎上，提出高層應急決策文本分析模型，并用Needleman-Wunsch算法求解該模型。模型中將主題詞分為“目標”和“行動”2級，對比時基于樣本數據得到替換矩陣，并通過設置空位罰分來避免過多插入空位，進而計算決策序列對的相似性得分。

2)對基于地震情景下得到的45份高層應急決策文本的分析證明了模型的可行性，并由此確定了相對相似性得分的概念，來更好地分析相似性得分在決策序列中的數學意義。同時，通過與文本相似度經典的VSM算法的對比結果，體現(xiàn)了本文模型在進行決策文本相似度計算中有著更嚴格、更精確的特點。

3)本文提出模型可為其他情景下的應急決策文本的相似度計算和模型構建提供思路和借鑒。同時，應急決策文本的相似度分析是決策行為分析的一個重要方面，在接下來的研究中，作者將會考慮決策主體經驗、學識及地理文化差異等更多與決策行為相關的實際影響因素，對決策行為分析進行更深入的研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡