于衛(wèi)紅 付飄云 任 月 王慶武
(1.大連海事大學(xué)航運經(jīng)濟與管理學(xué)院 遼寧 大連116026;2.大連海事大學(xué)航海學(xué)院 遼寧 大連116026)
船舶事故頻繁發(fā)生,嚴重影響了水上交通安全形勢的穩(wěn)定。從歷史事故中發(fā)現(xiàn)規(guī)律、吸取教訓(xùn)可以在某種程度上避免同類事故重復(fù)發(fā)生。歷史事故的相關(guān)信息通常以自由文本的形式記錄在事故調(diào)查報告中,如,可以從地方或國家海事局的官網(wǎng)中檢索出大量的碰撞、擱淺、自沉等各種事故類型的船舶事故調(diào)查報告。這些事故報告為官方出具[1],對事故調(diào)查取證情況、重要事故要素認定、事故經(jīng)過、事故原因、安全管理建議等內(nèi)容進行了詳細可靠地描述。采用文本挖掘技術(shù)從事故調(diào)查報告中提取出事故關(guān)鍵特征或更加隱含的特征要素之間的語義關(guān)系,能夠幫助全面理解船舶事故的發(fā)生模式、更好地識別水上交通的危險因素,充分發(fā)揮事故調(diào)查報告在總結(jié)經(jīng)驗教訓(xùn)、遏止事故風(fēng)險中的作用。
但是,現(xiàn)階段,對船舶事故調(diào)查報告進行文本挖掘存在如下難點。
1)船舶事故調(diào)查報告是高度非結(jié)構(gòu)化的文本數(shù)據(jù),特別是中文文本具有復(fù)雜的語言結(jié)構(gòu),語法、語義、語用等常存在歧義,需要綜合運用信息抽取、機器學(xué)習(xí)、概率統(tǒng)計、數(shù)據(jù)可視化等多種技術(shù)來進行處理。
2)船舶事故調(diào)查報告缺乏統(tǒng)一的模板,內(nèi)容格式不規(guī)范,存儲形式多樣化(如“.pdf”“.doc”“.html”“.jpg”等形式),給數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理工作帶來很大的困難。
迄今為止,船舶事故調(diào)查報告文本挖掘相關(guān)的成果主要以文本信息抽取研究為主,如:姚厚杰[1]在統(tǒng)計分析382 起船舶交通歷史事故數(shù)據(jù)的基礎(chǔ)上,利用文本挖掘提煉出船舶交通事故的風(fēng)險因素。Lee Jeongseok等[2]使用文本挖掘技術(shù)從電子海圖事故報告中挖掘事故原因的相關(guān)詞語,并使用詞云圖、詞語網(wǎng)絡(luò)圖等進行可視化展示。吳伋等[3]以長江內(nèi)河航道419 起船舶碰撞事故報告為語料,使用分詞及卡方檢驗等算法提取出能夠表征船舶碰撞事故4要素(人為因素、船舶因素、環(huán)境因素、管理因素)的特征詞。余晨等[4]采用基于規(guī)則的海事信息抽取方法,從事故報告的自由文本中提取事故發(fā)生的時間、地點、涉事船舶、事故類型等信息。
上述研究主要是從單個詞語的角度展開的文本挖掘研究,即從事故調(diào)查報告中提取出與事故因素相關(guān)的特征詞,繼而利用這些詞進行事故統(tǒng)計或預(yù)警等分析。
根據(jù)1篇文檔的生成過程:1篇文檔包含若干主題,而每個主題又對應(yīng)著不同的詞。1篇文檔的構(gòu)造過程,首先是以一定的概率選擇某個主題,然后再在這個主題下以一定的概率選出某1 個詞,這樣就生成了這篇文檔的第1 個詞。不斷重復(fù)這個過程,就生成了整篇文檔[5]。所以,對于文本挖掘,在文本特征詞提取的基礎(chǔ)上還可以進行更深入的語義挖掘,如,挖掘詞語與詞語之間的關(guān)系、文檔中的主題分布等。
因此,可以從詞語和主題2 個層面對船舶事故調(diào)查報告進行語義挖掘。在詞語層面,通過挖掘文本特征詞之間的頻繁共現(xiàn)模式,可以揭示出事故因素之間的關(guān)聯(lián)關(guān)系;在主題層面,通過對若干起同類事故的事故原因文本的主題提取,可以對該類事故的原因進行系統(tǒng)地歸納,并且可以通過主題在文檔中的分布初步量化出每種原因的發(fā)生概率。
基于此,本研究應(yīng)用頻繁共現(xiàn)詞挖掘、短文本主題建模的思想和算法對船舶事故調(diào)查報告中的事故原因文本進行挖掘,試圖通過詞語和主題2 個層面的語義挖掘發(fā)現(xiàn)事故的規(guī)律、提取出事故的致因模式。
研究思路見圖1,其核心環(huán)節(jié)包括以下4 個方面。
圖1 研究思路Fig.1 Research ideas
1)事故調(diào)查報告的獲取。首先使用爬蟲技術(shù)從海事局官網(wǎng)獲取各事故調(diào)查報告的存儲網(wǎng)址,然后通過Java編程將事故調(diào)查報告批量下載到本地。
2)事故調(diào)查報告的預(yù)處理。將以不同格式存儲的事故調(diào)查報告統(tǒng)一轉(zhuǎn)換成純文本格式,通過文檔結(jié)構(gòu)分析,對事故調(diào)查報告中描述事故原因的內(nèi)容進行定位,編程抽取出事故原因文本。
3)事故原因文本預(yù)處理。根據(jù)中華人民共和國交通部制定的國家標準的“水上安全監(jiān)督術(shù)語”[6]構(gòu)建用戶自定義詞典,以保證專有名詞、專業(yè)術(shù)語在分詞時不被拆分。在R 語言環(huán)境下,使用jiebaR算法對事故原因文本進行分詞,并進一步使用百度停用詞表去掉無意義的虛詞。繼而對事故調(diào)查報告中常見的同義詞(如,“瞭望”和“了望”“船首”和“船艏”等)進行統(tǒng)一處理。
4)事故原因文本挖掘。從詞語和主題2 個層面對事故原因文本進行挖掘。在詞語層面,使用點互信息(pointwise mutual information,PMI)算法提取事故原因文本中頻繁共現(xiàn)的詞對,通過詞語之間的語義關(guān)聯(lián)分析出事故致因要素間的聯(lián)系。在主題層面,使用雙詞主題模型(biterm topic model,BTM)算法對事故原因文本進行主題建模,以此對屬于同一事故原因的詞語進行聚類。
頻繁共現(xiàn)詞指的是2 個或2 個以上的詞語經(jīng)常搭配在一起使用的1種頻繁模式。自然語言是隨機的,詞語頻繁共現(xiàn)對揭示詞語之間施事、受事、工具、處所、領(lǐng)屬等上下文語義關(guān)系十分重要。如,{船舶,超航區(qū),航行}這3個詞頻繁共現(xiàn)可以揭示出“船舶超航區(qū)航行”是船舶事故的常見原因之一。
PMI是挖掘詞語之間關(guān)聯(lián)關(guān)系的1種十分有效的統(tǒng)計方法[7]。對于語料庫中的詞語x和詞語y,將x和y的點互信息記為PMI(x;y),則[8]
式中:P(x)為詞語x在語料庫中出現(xiàn)的概率;P(y)為詞語y在語料庫中出現(xiàn)的概率;P(x,y)為詞語x和詞語y同時出現(xiàn)的概率,即聯(lián)合概率;P(x|y)為在詞語y 出現(xiàn)的前提下詞語x出現(xiàn)的概率,即條件概率;同理,P(y|x)為在詞語x出現(xiàn)的前提下詞語y出現(xiàn)的條件概率。
根據(jù)概率論可知,PMI(x;y)的值越大,詞語x和詞語y搭配使用的關(guān)聯(lián)性越強[9]。
根據(jù)PMI 算法的原理,設(shè)計了從事故原因文本中挖掘頻繁共現(xiàn)詞的方法。
1)讀取語料文本,構(gòu)建語料庫。
2)對語料庫進行分詞。
3)構(gòu)建詞語與文本的對應(yīng)關(guān)系,即構(gòu)建由文本ID和文本中的詞組成的二維表。
4)編程計算詞語之間的PMI。
5)根據(jù)業(yè)務(wù)需要設(shè)定閾值,篩選出PMI以及共現(xiàn)次數(shù)滿足閾值條件的詞對。
2.2.1 BTM算法的基本原理
主題建模又稱主題聚類,指的是通過非監(jiān)督學(xué)習(xí)對文本集合中隱含的語義結(jié)構(gòu)進行分組、歸類[10]。傳統(tǒng)的主題建模使用潛在狄利克雷分布(latent dirichlet allocation,LDA)算法,是David M.Blei 等[5]于2003 年提出來的1 個3 層貝葉斯概率模型。由于LDA 算法的假設(shè)之一是“1 篇文檔包含了多個主題”,因此該算法特別適用于對長文本語料庫進行主題建模。
船舶事故調(diào)查報告中描述事故原因的文本長短不一且以短文本居多,文本較短時會出現(xiàn)嚴重的特征稀疏、數(shù)據(jù)不足等問題,使用LDA 算法難以準確推斷出文檔中主題混合分布的參數(shù)以及每個詞的主題屬性,從而影響聚類效果。
BTM是Yan Xiaohui等[11]于2013年提出的適用于任意長度文本尤其適用于短文本主題建模的雙詞主題模型。雙詞指的是在同1個上下文中共現(xiàn)的詞對,用戶可以根據(jù)所分析的文本特征指定上下文窗口的大小。本質(zhì)上說,BTM 是LDA 的1 種變形算法,二者的參數(shù)估計方法和模型訓(xùn)練過程中的采樣算法都是一樣的。BTM 最大的改進在于采用雙詞而不是單詞作為主題建模的單元,它假設(shè)每個雙詞由同1個主題產(chǎn)生,而主題由1個定義在整個語料庫中的主題混合分布產(chǎn)生,即BTM算法是“雙詞→主題→語料庫”的3層貝葉斯概率模型。通常,2個詞共現(xiàn)次數(shù)越多,其語義越相關(guān),也就越可能屬于同1個主題。因此,BTM算法使主題建模的語義更加清晰,通過雙詞組合也避免了短文本長度過短導(dǎo)致的特征矩陣稀疏、文檔建模困難等問題。
BTM 算法的思路是:假設(shè)要提取的主題數(shù)為K,首先以一定的概率選擇某個主題Z,然后在主題Z下抽取2 個共現(xiàn)的單詞Wi和Wj形成雙詞b=(Wi,Wj),則b的概率P(b)為
式中:P(Wi|Z)為單詞Wi在主題Z下出現(xiàn)的概率;P(Wj|Z)為單詞Wj在主題Z下出現(xiàn)的概率;P(Z)為主題Z在語料庫中出現(xiàn)的概率。
不斷重復(fù)這個過程,就形成了整個語料庫。BTM主題建模就是這個過程的逆過程,即對于給定的語料庫不斷進行迭代運算,每次迭代得到主題數(shù)為K時的主題概率分布向量θ 和詞在主題下的概率分布矩陣Φ,直到計算收斂。
2.2.2 BTM主題模型評估指標的確定
主題建模有3 個非常重要的輸入?yún)?shù):主題數(shù)K、主題的先驗分布α,詞的先驗分布β。對于BTM算法,α通常取值為50/K,β通常取默認值0.01。最難確定的是主題數(shù)K,其值的大小常常決定了主題建模結(jié)果的優(yōu)劣。
因此,需要確定評估指標對主題建模結(jié)果進行性能評價,以此來不斷調(diào)整模型的參數(shù),特別是確定最佳的主題數(shù)K。本研究綜合考慮了主題模型的對數(shù)似然和主題一致性2個指標。
1)主題模型的對數(shù)似然。對數(shù)似然是檢驗主題建模結(jié)果擬合優(yōu)度的指標,似然值越大表明模型擬合得越好。針對BTM主題建模,評估建模結(jié)果對數(shù)似然的公式為
2)主題一致性。主題一致性通過計算條件似然而不是對數(shù)似然來衡量主題中詞語間的共現(xiàn)關(guān)系。即,它通過計算主題中高分詞之間的語義相似度來評價單個主題,主題一致性的分值越高越好[12]。主題一致性的計算公式[13]為
截止到目前,在中國海事局官網(wǎng)發(fā)布了109 份自沉事故調(diào)查報告。存在部分報告鏈接地址無法訪問、文件亂碼或報告中事故原因描述不詳?shù)犬惓?,剔除這些異常整理出了100份船舶自沉事故報告。這些事故調(diào)查報告的原存儲格式不一,見表1。
表1 事故調(diào)查報告不同的存儲格式Tab.1 Different storage formats of accident investigation
同時,這些事故調(diào)查報告由不同的海事局提供(見表2),各海事局采用的事故調(diào)查報告模板不完全相同,導(dǎo)致了報告的文檔結(jié)構(gòu)不統(tǒng)一,部分術(shù)語表述不一致等問題。
表2 事故調(diào)查報告不同的來源Tab.2 Different sources of accident investigation reports
文本的異構(gòu)性給研究帶來了很大的困難。為了保證文本挖掘的質(zhì)量,使用半人工的方式進行了大量的事故報告文本清洗工作,綜合運用字符串查找、截取、正則表達式、文本標注等技術(shù)和工具從清洗后的事故調(diào)查報告中抽取出“事故原因分析”部分的內(nèi)容作為文本挖掘的語料。
根據(jù)2.1設(shè)計的方法,從預(yù)處理后的100份自沉事故調(diào)查報告的事故原因文本中,提取出共現(xiàn)次數(shù)大于10且PMI>2.5的詞對見表3。
表3 頻繁共現(xiàn)詞Tab.3 Frequent co-occurrence terms
為了更加形象、直觀地展示出詞語之間的語義關(guān)聯(lián),使用詞共現(xiàn)網(wǎng)絡(luò)圖將表1 中的頻繁共現(xiàn)詞進行可視化展示,見圖2。網(wǎng)絡(luò)圖中的每個節(jié)點代表1個詞語,節(jié)點與節(jié)點之間的連線代表詞語共現(xiàn)關(guān)系,連線的粗細表示共現(xiàn)的頻繁度。
圖2 詞共現(xiàn)語義網(wǎng)絡(luò)圖Fig.2 Word co-occurrence semantic network
根據(jù)頻繁共現(xiàn)詞的挖掘結(jié)果,自沉事故是人、船、貨、環(huán)境多方面共同作用的結(jié)果,包括以下4種因素。
1)人的因素。船員不適任、安全意識淡薄、配員不足、超航區(qū)航行、嚴重超載、應(yīng)急處置不當(dāng)。
2)船的因素。船舶不適航、船體破損、船舶儲備浮力與穩(wěn)性喪失。
3)貨的因素。貨物移位。
4)環(huán)境因素。大風(fēng)浪、惡劣天氣、甲板上浪。
3.3.1 最佳主題數(shù)的確定
主題數(shù)K是主題建模重要的輸入?yún)?shù),根據(jù)2.2.2確定的主題模型評估指標,采用如下步驟確定主題數(shù)K。
步驟1。設(shè)定主題數(shù)的變化范圍,主題數(shù)每變化1次,就按照BTM算法生成1次主題模型,計算每次所生成模型的對數(shù)似然和主題一致性。
步驟2。綜合考慮主題模型的對數(shù)似然和主題一致性的變化情況,確定出最佳主題數(shù)。
在R語言環(huán)境下,設(shè)定主題數(shù)K從5變化到50,根據(jù)事故原因文本預(yù)處理后的分詞結(jié)果構(gòu)建主題模型。不同主題數(shù)下主題模型的對數(shù)似然及主題一致性的計算結(jié)果見表4。
表4 主題模型評估指標值隨主題數(shù)變化的情況Tab.4 Topic-number-dependent changes of topic-model evaluation measures
根據(jù)表4,繪制出上述2個評估指標的變化曲線見圖3~4。
圖3 主題模型對數(shù)似然的變化曲線Fig.3 Log-likelihood curve of the topic model
圖4 主題一致性的變化曲線Fig.4 Topic coherence curve
從圖3可見,隨著主題數(shù)的增加,主題模型的對數(shù)似然呈增加的趨勢,模型的擬合優(yōu)度不斷提升,極易產(chǎn)生過擬合。同時,主題數(shù)的增加也會導(dǎo)致主題聚類的粒度越來越細,從而減弱模型的泛化能力,不利于對自沉事故的原因進行歸納解釋。因此,對于本研究使用的語料,在BTM 算法下,難以單純使用主題模型的對數(shù)似然來確定最佳主題數(shù)K,通過主題一致性進行評估則更加合理。從圖4 可以看出,當(dāng)主題數(shù)為20時,主題模型的一致性值最大,因此,確定20為最佳主題數(shù)。
3.3.2 主題建模結(jié)果及可視化展示
BTM主題建模的結(jié)果主要包括:詞語在主題中的概率分布Φ 和主題在語料庫中的概率分布θ 。通過Φ 可以提取出能夠代表每個主題特征的前n個詞,通過θ 可以判斷出主題發(fā)生的概率。
1)詞語在主題中的概率分布Φ。本研究的語料庫分詞后得到2 245個不重復(fù)的有效詞條,主題數(shù)為20時詞語在主題中的概率分布Φ 就是1個2 245×20的矩陣,矩陣中第i行第j列的值為第i個詞語在第j個主題中的概率分布,見表5。
表5 詞語在主題中的概率分布Tab.5 Probability distribution of words in topics
在每個主題下按照詞語概率分布從大到小排序,可以得到能夠代表主題特征的前n 個詞,以Z5,Z6,Z14 這3 個主題為例,這3 個主題下出現(xiàn)概率最高的前10個詞見表6。
表6 各主題下出現(xiàn)概率最高的前10 個詞示例Tab.6 Demo about top 10 words under each topic
使用BTM主題建模,不僅可以分析出單個詞語在主題中的重要性,還可以提取出各主題下詞語之間的語義聯(lián)系,見圖5。
根據(jù)各主題下詞語的分布以及詞語間的語義關(guān)聯(lián),對所挖掘出的主題進行梳理、解釋,見表7。
2)主題在文檔集合中的概率分布θ 。通過對主題建模結(jié)果中θ 向量的提取,得到各主題在文檔集合中的概率分布,見表8。
根據(jù)主題在文檔集合中的分布可以初步量化出每種事故原因的發(fā)生概率,見圖6。圖6 是對表7 和表8整合結(jié)果的可視化展示。
圖5 主題建模結(jié)果的可視化展示Fig.5 Visualization of topic-modeling results
圖6 主題概率分布條形圖Fig.6 Bar for the probability distribution of topics
表8 主題的概率分布Tab.8 Probability distribution of topics
根據(jù)主題建模結(jié)果,安全管理不到位、大風(fēng)浪影響在船舶自沉事故原因中出現(xiàn)的概率最高。綜合來看,船舶自沉事故的原因主要包括以下4點。
1)人為因素。人為因素既包括船公司的安全管理和岸基支持,又包括從業(yè)人員的業(yè)務(wù)素質(zhì),如碼頭裝載作業(yè)是否規(guī)范、船員是否適任、值班人員是否認真履職、船長應(yīng)急處置是否及時、駕駛員操縱行為是否正確等。
2)客觀因素。主要包括大風(fēng)浪以及事發(fā)水域復(fù)雜的通航環(huán)境。
3)船舶技術(shù)指標。主要指船舶穩(wěn)性、儲備浮力、強度、風(fēng)雨密、水密等是否滿足規(guī)范要求。
4)貨物特性。貨物自身的屬性(如易流態(tài)化)也是導(dǎo)致船舶自沉的1個非常重要的原因。
使用主題建模對船舶自沉事故原因提取的結(jié)果與相關(guān)文獻的研究結(jié)果非常接近。如李奕良[15]指出船體結(jié)構(gòu)缺陷增大了船舶自沉事故的概率;陳興園[16]認為水上交通事故的管理致因包括:船上管理致因、船公司管理致因等;韓俊松等[17]認為:貨物的流態(tài)化、裝載及平艙不當(dāng)直接影響船舶安全;喬賽雯[18]強調(diào):船舶在大風(fēng)浪中航行,易對船體造成傷害,從而導(dǎo)致船舶事故。
3.3.3 主題模型對新數(shù)據(jù)集預(yù)測能力的測試
為了進一步驗證所構(gòu)建的主題模型對船舶自沉事故原因的解釋能力,隨機生成新數(shù)據(jù)集,測試主題模型能否將每一個詞語正確歸屬到代表某一類事故原因的主題下。新數(shù)據(jù)集是由編號和詞語組成的數(shù)據(jù)框,見表9。
表9 用于測試的新數(shù)據(jù)集Tab.9 New dataset for testing
使用BTM算法中提供的predict函數(shù),根據(jù)所構(gòu)建的主題模型,計算每一個詞歸屬于各主題的可能概率。預(yù)測結(jié)果見表10(保留小數(shù)點后3位)。
表10 預(yù)測結(jié)果Tab.10 Predicting outcomes
由于“精準營銷”是與船舶交通事故無關(guān)的詞語,所以預(yù)測函數(shù)對該詞的計算結(jié)果為空。其它各詞在不同主題下均有不同的預(yù)測得分,在哪個主題下得分值最高,該詞就最大可能歸屬于這個主題。
根據(jù)計算結(jié)果,“滿載排水量”最大可能歸屬于主題5(船舶超航區(qū)、超載航行),可能性為95.3%;“潮汐”最大可能歸屬于主題6(事發(fā)水域通航環(huán)境復(fù)雜),可能性為78%;“崗前培訓(xùn)”最大可能歸屬于主題7(船公司岸基支持不到位),可能性為99.6%;“搶灘”最大可能歸屬于主題20(船長應(yīng)急處置不當(dāng)),可能性為64%。
經(jīng)過對500 組新數(shù)據(jù)集的預(yù)測結(jié)果的統(tǒng)計如下。
1)所構(gòu)建的主題模型能夠?qū)⒄Z料庫中85.6%左右的詞,以60%以上的可能性歸屬到某一主題下。
2)語料庫中另14.4%左右的詞,主題邊界不明顯,比如“船舶”這個詞在大部分主題中都有分布,單獨出現(xiàn)時難以以較大的可能性明確其主題歸屬。
3)所構(gòu)建的主題模型可以100%地識別出領(lǐng)域無關(guān)的詞(如,表9中的“精準營銷”)并自動忽略。
隨著事故調(diào)查報告數(shù)量的激增,單純依靠人工歸納或傳統(tǒng)的統(tǒng)計方法已經(jīng)無法快速有效地對其內(nèi)容進行分析。文本語義挖掘在船舶事故調(diào)查報告交通安全知識自動提取方面的優(yōu)勢將越來越明顯。本研究提出了從詞語和主題2個層面對非結(jié)構(gòu)化的船舶事故調(diào)查報告進行語義挖掘的方法,并以100 份自沉事故調(diào)查報告原因文本為語料進行了具體的挖掘研究。
1)在詞語層面,基于PMI算法從船舶自沉事故報告的原因文本中提取頻繁共現(xiàn)詞,通過事故原因特征詞的頻繁共現(xiàn)反映出事故致因要素間的關(guān)聯(lián)關(guān)系。
2)在主題層面,使用BTM 算法對船舶自沉事故原因文本進行主題建模,對隸屬于同一事故原因的詞語進行聚類,并根據(jù)主題在文檔中的分布情況初步量化出各種事故原因的發(fā)生概率。最后對所構(gòu)建模型的預(yù)測能力進行了測試。
船舶事故調(diào)查報告是水上交通安全領(lǐng)域重要的檔案資料,但是其高度的異構(gòu)性給文本挖掘帶來了很多困難。為了更好地對海量事故調(diào)查報告進行挖掘、利用,建議海事部門進一步規(guī)范事故調(diào)查報告的模板、術(shù)語表達和存儲格式等,完善船舶事故調(diào)查報告的元數(shù)據(jù)描述模型。
本研究只抽取了船舶自沉事故調(diào)查報告中的事故原因分析文本進行研究。下一步的研究擬從以下2個方面展開。
1)在進一步提高分詞質(zhì)量、增大文本數(shù)據(jù)規(guī)模的基礎(chǔ)上,對各種類型(碰撞、擱淺等)的船舶事故原因文本進行綜合挖掘,構(gòu)建事故原因知識圖譜。
2)抽取事故調(diào)查報告中的其他部分內(nèi)容進行不同角度的挖掘,如,抽取出“事故經(jīng)過”文本進行事件序列模式挖掘,從而揭示出導(dǎo)致船舶事故的行為模式。