国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于民航安全信息文本挖掘的進(jìn)近著陸致險因素分析*

2022-04-26 01:40陳農(nóng)田李俊輝滿永政寧威峰
關(guān)鍵詞:關(guān)聯(lián)度事故特征

陳農(nóng)田,李俊輝,滿永政,寧威峰

(中國民用航空飛行學(xué)院,四川 廣漢 618307)

0 引言

飛行安全貫穿整個飛行過程,其中飛行進(jìn)近著陸階段因飛機(jī)飛行高度較低、速度較小、時間短、操作繁雜等特點(diǎn),一旦發(fā)生突發(fā)情況,飛行員反應(yīng)時間不足,極易導(dǎo)致飛行事故發(fā)生,如8.24黑龍江伊春墜機(jī)事故、2.14韓亞航空航班事故、5.8深圳南航空難等飛行進(jìn)近著陸階段事故[1]。國際民航組織在《安全管理手冊》中指出:對征候或事故等相關(guān)信息的準(zhǔn)確及時報告是安全管理的基本活動[2]。中國民航局提出基于信息數(shù)據(jù)驅(qū)動的安全風(fēng)險管理模式,注重安全關(guān)口前移,開展基于不安全事件信息分析的安全規(guī)律分析,對保障民航安全具有重要意義。

目前,針對民航安全致險因素提取方法的研究主要集中在事故原因統(tǒng)計、人為因素分析和基于飛行數(shù)據(jù)的異常檢測等方面:汪磊等[3]采集626起事故調(diào)查數(shù)據(jù),從事故發(fā)生季度、類型、機(jī)型等多個維度進(jìn)行統(tǒng)計分析,發(fā)現(xiàn)沖偏出跑道和飛機(jī)失去控制事故發(fā)生概率相對最大;薛宇敬陽等[4]以事故致因“2-4”模型為基礎(chǔ),利用統(tǒng)計方法對通用航空飛行事故展開分析,得出違章操作是發(fā)生頻數(shù)最高的原因類型;田磊等[5]對中國通用航空的安全現(xiàn)狀進(jìn)行簡要分析發(fā)現(xiàn),誘發(fā)事故的直接原因為人為因素,主要包括違規(guī)操作、航空人才匱乏、缺乏應(yīng)急訓(xùn)練等;龐兵等[6]利用改進(jìn)的人為因素分析分類系統(tǒng)模型,對航空事故人為因素進(jìn)行分析,并利用關(guān)聯(lián)性方法分析不同因素之間的關(guān)聯(lián)關(guān)系;彭宇等[7]對基于飛行數(shù)據(jù)的異常檢測技術(shù)進(jìn)行闡述,得出飛行數(shù)據(jù)可用于監(jiān)測航空器關(guān)鍵部件的健康狀態(tài)、發(fā)現(xiàn)機(jī)組飛行操縱差錯等方面。

信息的結(jié)構(gòu)是多源性的,文本中同樣存在部分潛在的、有價值的信息。國內(nèi)外學(xué)者將文本挖掘技術(shù)應(yīng)用于多領(lǐng)域的事故分析之中:Figueres等[8]對鐵路事故報告進(jìn)行挖掘,利用網(wǎng)絡(luò)分析法聚類出4類風(fēng)險,并分析風(fēng)險之間關(guān)聯(lián);Rao等[9]根據(jù)民用直升機(jī)事故案例識別高風(fēng)險致因序列,構(gòu)造新的機(jī)上事故致因鏈;李解等[10]利用文本分析方法對國內(nèi)地鐵施工安全風(fēng)險事故報告進(jìn)行挖掘,分析出29項致險因素,為地鐵施工風(fēng)險防范提供幫助;吳伋等[11]通過文本挖掘方法(tf-idf法)確定人為因素是船舶碰撞事故致因中的首要因素;陳芳等[12]利用潛在狄利克雷(LDA)主題模型挖掘管制運(yùn)行風(fēng)險主題及其關(guān)鍵詞,將Word2vec和語義分析相結(jié)合,確定主題重要排序與風(fēng)險之間的關(guān)系。

綜上,文本挖掘技術(shù)已較為成熟,且在不同領(lǐng)域致險因素提取中發(fā)揮較好的作用。本文在前人研究基礎(chǔ)上,擬利用文本挖掘方法分析進(jìn)近著陸不安全事件致險因素,以期為進(jìn)近著陸階段安全風(fēng)險管理提供參考。

1 基于文本挖掘的進(jìn)近著陸致險因素挖掘

1.1 文本挖掘方法

文本挖掘是從文本數(shù)據(jù)中獲取未知信息的1種數(shù)據(jù)挖掘方法,以數(shù)理統(tǒng)計和計算機(jī)語言學(xué)為基礎(chǔ),將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),并加以有效利用,在自然語言學(xué)科、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)科等領(lǐng)域得到應(yīng)用,為大數(shù)據(jù)時代的數(shù)據(jù)分析與處理提供技術(shù)支持[13]。文本挖掘流程如圖1所示。

圖1 文本挖掘流程示意Fig.1 Schematic diagram for flow chart of text mining

1.2 語料庫的選取

要全面掌握與分析飛行進(jìn)近著陸存在的致險因素,所選語料庫應(yīng)反映其階段不安全事件中所存在的危險,從而有效挖掘風(fēng)險的發(fā)展規(guī)律及衍生后果。美國航空安全事故報告在線數(shù)據(jù)庫(ASRS)是由航空一線人員(包括飛行員、管制員、機(jī)械師、乘務(wù)員和簽派員)提供的自愿保密性安全信息庫,其反映當(dāng)前航空系統(tǒng)中存在的漏洞與隱患。報告通常包括事故日期、事故發(fā)生地點(diǎn)、飛行環(huán)境(計劃、階段、任務(wù))、事故類型及結(jié)果等結(jié)構(gòu)化數(shù)據(jù),以及對整個航空事件經(jīng)過進(jìn)行描述的非結(jié)構(gòu)化數(shù)據(jù)。

本文以2016—2020年ASRS數(shù)據(jù)為主要數(shù)據(jù)來源,并收集篩選我國進(jìn)近著陸階段飛行不安全事件/事故對語料庫進(jìn)行擴(kuò)充,共產(chǎn)生2 267條數(shù)據(jù)。

1.3 文本挖掘工具的選擇

常見文本挖掘工具包括ROST CM和NLPIR-ICTCLAS,但2者只能添加1個用戶詞典,對涉及氣象、航空安全領(lǐng)域、飛行專有名詞等詞匯的語料進(jìn)行文本挖掘存在不便。

Python語言是1種解釋型腳本語言,其包含許多文本挖掘所需要的科學(xué)包和依賴項,具有簡單、易讀、可擴(kuò)展的優(yōu)勢,在文本實(shí)際處理過程中限制較少。Anaconda是Python的科學(xué)計算發(fā)行版,本文選用Anaconda自帶Python的Spyder開發(fā)環(huán)境,對飛行進(jìn)近著陸安全信息文本進(jìn)行數(shù)據(jù)分析、結(jié)果可視化等。

1.4 文本預(yù)處理

文本挖掘預(yù)處理過程是將文本信息中非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),以便計算機(jī)識別處理[14]。通常包含小寫化、去標(biāo)點(diǎn)、去停用詞、詞干提取等步驟。

1)文本分詞。利用Python中的nltk分詞工具對飛行進(jìn)近著陸信息文本劃分為詞。由于航空領(lǐng)域有許多專有名詞、縮寫格式、業(yè)界詞匯,如“正短期飛行沖突告警(STCA)、儀表進(jìn)近程序(ILS、VOR、NDB等)”等,為避免分詞時將詞匯分割,可通過構(gòu)建飛行進(jìn)近著陸事件致因詞典以提高分詞的準(zhǔn)確性。

2)去除停用詞。去停用詞指剔除影響挖掘效果的噪聲詞以改進(jìn)挖掘精度。對于無法表示致險因素的詞如“航班日期”、“航班號”和“航線名稱”等,以及出現(xiàn)頻率較高的詞如“airplane”、“crew”、“event”和“reason”等均從信息文本中剔除。此外,還有部分高頻且對事故致險的理解沒有幫助意義的詞,如“to”、“is”、“of”,包括標(biāo)點(diǎn)符號予以剔除。

1.5 基于的χ2統(tǒng)計的致險因素篩選

對于長文本分析問題主要采用詞袋模型(Bag Of Words,BOW)和詞向量模型進(jìn)行處理[15]。本文采用BOW提取原始文本特征項,通過設(shè)定一定閾值,將詞頻作為提取指標(biāo),生成以原始特征項為集合的特征詞典。選取語料庫中出現(xiàn)頻率較高的500個詞作為特征詞典,利用Python語言CountVectorizer模塊,將每個文本用500維的向量表示,得到進(jìn)近著陸信息文本的原始特征項集。維度過高會導(dǎo)致致險因素分析困難,因此考慮做降維處理,以得到更為清晰的目標(biāo)值。

齊世偉[16]通過對比不同特征降維方法發(fā)現(xiàn),在召回率和查準(zhǔn)率方面,χ2統(tǒng)計方法具有明顯優(yōu)勢,如式(1)所示:

(1)

式中:n表示整個文本的個數(shù);a表示屬于ci類且包含特征項t的文本頻率;b表示不屬于ci類且包含特征項t的文本頻率;c表示屬于ci類但不包含特征項t的文本頻率;d表示不屬于ci類也不包含特征項t的文本頻率。整個語料庫值如式(2)所示:

(2)

Python語言中存在sklearn特征選擇包,結(jié)合統(tǒng)計功能進(jìn)行歸納總結(jié),最終得到進(jìn)近著陸致險因素特征降維結(jié)果,見表1。

表1 進(jìn)近著陸致險因素特征降維結(jié)果Table 1 Results of dimension reduction on characteristics of risk factors of approach and landing

1.6 進(jìn)近著陸致險因素結(jié)果可視化

利用Python軟件將文本轉(zhuǎn)換為向量空間模型(Vector Space Model,VSM),其定義主要包括以下4方面:

1)定義1文檔:第i份進(jìn)近著陸安全信息文本為Di。

2)定義2特征項:能基本表述文本信息的詞語、短語等,本文指致險因素,用Tk表示。

3)定義3 特征項權(quán)重W:表示每項特征項能表述安全信息文本Di的完整程度,用tf-idf公式表示,如式(3)所示:

(3)

(4)

式中:|D|為文件總數(shù);|{j:ti∈dj}|為ti的文件數(shù)目。綜上,致險因素特征如式(5)所示:

tf-idf=tfi,j×idfi

(5)

根據(jù)式(3)~(5)得到致險因素特征的tf-idf值,將其作為特征項權(quán)重Wik得到由特征項構(gòu)成的VSM,見表2,利用Python語言將結(jié)果可視化如圖2所示。

圖2 進(jìn)近著陸致險因素詞云圖Fig.2 Word cloud for risk factors of approach and landing

表2 進(jìn)近著陸安全信息文本向量空間模型(部分)Table 2 VSM for safety information text of approach and landing (partial)

2 致險因素分析模型

2.1 致險模型

飛行進(jìn)近著陸事故/事件一般是人、機(jī)、環(huán)、管4種因素相互作用的結(jié)果[17]。根據(jù)進(jìn)近著陸致險因素特征、降維結(jié)果以及原文事件,構(gòu)建人為因素、飛機(jī)故障、環(huán)境因素、管理因素4種影響因素類別下進(jìn)近著陸致險因素模型,如圖3所示。

圖3 致險因素歸類Fig.3 Classification of risk factors

2.2 灰色關(guān)聯(lián)分析方法

灰色關(guān)聯(lián)法(Grey Relation Analysis,GRA)是灰色系統(tǒng)理論方法之一,可對系統(tǒng)不同因素之間、不同系統(tǒng)之間發(fā)展過程中隨時間變化而變化的情況進(jìn)行分析,定量分析其關(guān)聯(lián)性[18-19]。由于進(jìn)近著陸飛行事故/事件誘發(fā)因素多且難以量化,因此采用灰色系統(tǒng)理論分析方法定量分析各致險因素與發(fā)生事故/事件的關(guān)聯(lián)度,包括以下5個計算步驟:

1)確定參考數(shù)列和比較數(shù)列。設(shè)X0(0)={x0(0)(k)|k=1,2,…,n}為參考數(shù)列,影響可靠性指標(biāo)Xi(0)={xi(0)(k)|k=1,2,…,n}為比較數(shù)列。

2)數(shù)據(jù)預(yù)處理。為保證分析結(jié)果的準(zhǔn)確性,在進(jìn)行GRA分析時要對最初收集數(shù)據(jù)進(jìn)行統(tǒng)計、篩選、無量綱化等處理,如式(6)所示:

(6)

3)關(guān)聯(lián)系數(shù)計算。數(shù)列x0(1)與xi(1)第k點(diǎn)的關(guān)聯(lián)系數(shù)如式(7)所示:

(7)

式中:Δi(k)=|x0(1)(k)-xi(1)(π)|為第k個指標(biāo)與最優(yōu)指標(biāo)的絕對差;ζ為分辨系數(shù),取值范圍[0,1]。

4)關(guān)聯(lián)度計算。關(guān)聯(lián)度計算即取各關(guān)聯(lián)系數(shù)的平均值,如式(8)所示:

(8)

5)數(shù)據(jù)整理。將各關(guān)聯(lián)度進(jìn)行排序,其值越大,即影響程度越深。

3 基于致險因素模型GRA分析

3.1 數(shù)據(jù)統(tǒng)計

將2 267條文本數(shù)據(jù)經(jīng)篩選后按不同年份依此分為5組,然后計算向量空間模型的tf-idf值,將overspeed、abnormal attitude等作為操縱不當(dāng)?shù)淖右蛩剡M(jìn)行加和統(tǒng)計,得到致險因素分值相關(guān)數(shù)據(jù),見表3。其中,將tf-idf值作為各致險因素特征在各自組別中發(fā)生頻率的集合。

表3 進(jìn)近著陸致險因素tf-idf值統(tǒng)計結(jié)果Table 3 Statistical results of tf-idf values for risk factors of Approach and landing

利用灰色關(guān)聯(lián)分析方法,選取不同組別進(jìn)近著陸事故/事件最大tf-idf統(tǒng)計值作為參考數(shù)列,各致險因素按組別產(chǎn)生的tf-idf統(tǒng)計值為比較數(shù)列,代入式(7)~(9)計算關(guān)聯(lián)度,其中參考序列為{53,49,52,52,60}。

計算進(jìn)近著陸發(fā)生事故/事件與不同的致險因素間的關(guān)聯(lián)度,計算結(jié)果見表4。計算進(jìn)近著陸事故/事件與致險因素類別之間的關(guān)聯(lián)度,計算結(jié)果見表5。

表4 致險因素間關(guān)聯(lián)度計算結(jié)果Table 4 Calculated results of correlation between risk factors

表5 致險因素類別之間的關(guān)聯(lián)度Table 5 Correlation between types of risk factors

3.2 結(jié)果分析

致險因素影響程度比較可視化結(jié)果如圖4所示。由圖4可知,通過GRA關(guān)聯(lián)度分析發(fā)現(xiàn)應(yīng)加強(qiáng)飛行員決策處置能力(操縱不當(dāng)、決策錯誤、執(zhí)行力不足等)的訓(xùn)練,空管部門應(yīng)加強(qiáng)機(jī)場進(jìn)近著陸管控(實(shí)時監(jiān)控、跑道管理)力度;通過分析事件/事故與4種致險因素類別的關(guān)聯(lián)度可知,人為因素是導(dǎo)致飛行進(jìn)近著陸事件/事故的主要因素。同時應(yīng)注重惡劣天氣對飛機(jī)進(jìn)近著陸的影響。

圖4 致險因素影響程度比較結(jié)果Fig.4 Comparison on influence degree of risk factors

4 結(jié)論

1)通過向量空間模型、詞云圖對提取的特征進(jìn)行可視化展示,其中包含operation、turbulence、conflict等30個致險因素特征降維結(jié)果。

2)將30個致險因素歸納為人為因素、飛機(jī)故障、環(huán)境因素和管理因素4種類別下進(jìn)近著陸致險因素分類模型之中,通過GRA分析方法對不同致險因素與事件/事故發(fā)生關(guān)聯(lián)度進(jìn)行比較發(fā)現(xiàn),飛行員操縱不當(dāng)、管制員指令錯誤、湍流、起落架的機(jī)械故障等因素成為重要致險原因。

3)通過比較4種致險因素發(fā)現(xiàn),人為因素比重較大,但仍需加強(qiáng)對其他3類致險因素的管控力度。

猜你喜歡
關(guān)聯(lián)度事故特征
根據(jù)方程特征選解法
基于熵值法與灰色關(guān)聯(lián)度分析法的羽毛球技戰(zhàn)術(shù)綜合評價分析
基于熵權(quán)法改進(jìn)的TOPSIS法和灰色關(guān)聯(lián)度分析的壓榨脫水過程優(yōu)化研究
離散型隨機(jī)變量的分布列與數(shù)字特征
學(xué)中文
不忠誠的四個特征
廢棄泄漏事故
中國制造業(yè)產(chǎn)業(yè)關(guān)聯(lián)度分析
中國制造業(yè)產(chǎn)業(yè)關(guān)聯(lián)度分析
小恍惚 大事故
兴隆县| 玉林市| 广州市| 内乡县| 绩溪县| 陇川县| 平阳县| 施秉县| 吕梁市| 昆明市| 凌海市| 亳州市| 惠州市| 夏河县| 三明市| 平湖市| 宁都县| 梅河口市| 东港市| 娄烦县| 临夏市| 建昌县| 同德县| 和田县| 甘孜县| 宣城市| 瓦房店市| 博湖县| 肇庆市| 普洱| 饶平县| 安泽县| 息烽县| 如皋市| 神农架林区| 全椒县| 内江市| 固原市| 石屏县| 剑阁县| 新化县|