于越、孫會鵬、賈玻、房桂祥 /中國運載火箭技術研究院
航天系統(tǒng)工程的復雜性、高可靠性要求決定了航天事業(yè)的高風險屬性。技術風險的識別與控制貫穿整個裝備研制過程,是航天裝備研制過程質(zhì)量管控的核心。近年來,航天任務的快速增長以及新技術的不斷應用對技術風險識別工作提出了更高要求,技術風險的識別與分析既要覆蓋產(chǎn)品全任務剖面、全壽命周期的各個環(huán)節(jié),又要突出重點風險,集中力量做深做透。目前,航天技術風險識別工作主要依靠隊伍內(nèi)部技術人員進行分析匯總,不僅需要投入大量的時間與人力,還受限于研制隊伍的技術能力,容易出現(xiàn)對重大風險認識不足,進而導致重大質(zhì)量問題甚至飛行試驗失敗。因此,需要一種更為客觀、定量、高效的風險識別方法,作為傳統(tǒng)風險識別方法的補充。
按照航天裝備研制流程,需組織外部專家在研制的各項關鍵環(huán)節(jié)進行評審把關。邀請的專家具備本專業(yè)較高的技術水平,且了解本裝備背景及特點,其意見更為客觀、全面,是傳統(tǒng)技術風險識別的重要補充。然而,專家意見數(shù)量龐大、涉及專業(yè)復雜,難以通過遍覽全部數(shù)據(jù)識別出有效的信息或規(guī)律。文本挖掘技術能夠從海量的文本數(shù)據(jù)中提取出可信度高、具有潛在利用價值的信息或趨勢,在圖書、科技、情報等領域已有廣泛應用。本文利用一款非結(jié)構化文本分析開源軟件KH Coder,運用詞頻統(tǒng)計、對應分析、共現(xiàn)分析等方法,對裝備研制評審過程中的專家意見進行多角度解析,從而有效挖掘?qū)<乙庖姷闹黝}內(nèi)容,定量識別重點技術環(huán)節(jié)與產(chǎn)品,并歸納出重大風險項目,為裝備研制技術風險管控提供支撐。
運用文本量化分析方法提出基于專家意見文本挖掘的技術風險分析框架,如圖1所示。第一階段為專家意見數(shù)據(jù)收集。利用評審會場語音轉(zhuǎn)錄文本或者人工整理的專家意見紀要,獲取專家意見文本數(shù)據(jù)。第二階段為數(shù)據(jù)預處理。對獲取的文本進行數(shù)據(jù)清理,去除文本中的特殊符號、數(shù)值及單位等形成評審意見語料庫。結(jié)合航天裝備領域詞匯形成領域詞典并依據(jù)詞典進行分詞。過程中去除無關、無意義的停用詞,即得到經(jīng)過預處理的文本。第三階段為數(shù)據(jù)分類。對數(shù)據(jù)按照特定屬性劃分并標記。為便于后續(xù)分析,對評審意見按照評審項目進行分類。第四階段為數(shù)據(jù)分析。采用KH Coder 軟件對文本進行詞頻統(tǒng)計、對應分析以及共現(xiàn)分析,以得到相應的分析結(jié)論。
以某航天裝備演示驗證研制為例,統(tǒng)計該裝備研制過程中各項評審會議記錄的專家意見,共收集到各類評審會議23項,專家意見總計487條。根據(jù)圖1中的技術風險分析框架,對采集到的專家意見進行數(shù)據(jù)預處理。首先去除所有文本中的數(shù)字、單位、特殊符號;其次利用KH Coder 軟件對文本進行預分詞,對于未識別的專業(yè)性詞匯建立領域詞典,導入軟件進行強制識別;對于詞頻較高且無分析意義的詞匯建立停用詞清單,避免進行統(tǒng)計;對于具有相同含義的詞匯統(tǒng)一用詞,建立編碼規(guī)則文件,避免統(tǒng)計詞頻不準確。按照評審項目對專家意見進行屬性劃分。
圖1 基于專家意見文本挖掘的技術風險分析框架
在數(shù)據(jù)預處理的基礎上,對全部文本數(shù)據(jù)使用詞頻工具進行統(tǒng)計。將文本高頻詞進行分類分析,得到評審意見中反復被提及的高頻技術及產(chǎn)品詞匯(見表1)。關鍵產(chǎn)品中飛行器、慣組、發(fā)動機、載荷、遙測、伺服為影響裝備基本功能性能的傳統(tǒng)關鍵產(chǎn)品;適配器、電纜、導航系統(tǒng)、空氣舵是在本裝備中新采用的或有新功能的產(chǎn)品。關鍵技術高頻詞可概括為發(fā)射過程安全性(發(fā)射、平臺、出筒)、環(huán)境適應性(環(huán)境、振動、模態(tài)),控制穩(wěn)定性(攻角、時序、測力、軌跡)三大類別。對比由技術人員分析提煉出的關鍵技術項目,由專家意見詞頻統(tǒng)計得到的關鍵技術與產(chǎn)品能夠體現(xiàn)其中的主要內(nèi)容,具有代表性。
表1 專家意見詞頻統(tǒng)計
對應分析可以反映關鍵詞與不同屬性項目的關系。在數(shù)據(jù)分類的基礎上,統(tǒng)計上述20項高頻關鍵詞在各評審項目中的分布,如圖2所示。方塊大小為該關鍵詞在對應評審項目專家意見文本中的詞頻百分比,方塊顏色表示該詞頻與其他評審項目詞頻相比的差異程度。該圖可清晰展現(xiàn)不同評審項目與關鍵詞的對應關系。以發(fā)動機為例,該詞在發(fā)動機設計要求評審專家意見中出現(xiàn)頻率最高,同時也出現(xiàn)在與發(fā)動機相關的某試驗大綱評審以及存在接口關系的吊具、適配器設計要求評審中。評審項目之間對比可知,總體方案評審涵蓋要素全面,共涉及16個關鍵詞,而試驗大綱類評審只涉及參試產(chǎn)品和試驗條件。因此,通過詞頻分布統(tǒng)計能夠客觀反映評審項目的主題內(nèi)容。
圖2 高頻關鍵詞在各評審項目中的分布
采用對應分析進一步解析評審項目的關聯(lián)關系。選取評審意見文本中詞頻為7次及以上的共107個詞匯與評審項目進行對應分析。圖3展示了23項評審項目與特征顯著的80個關鍵詞在二維坐標圖中的分布情況。關鍵詞圍繞坐標原點分布,與坐標原點的距離代表了該詞頻率分布的集中程度,與坐標軸的夾角體現(xiàn)了詞匯之間的關聯(lián)程度。靠近中心的詞匯往往在多條專家意見中出現(xiàn);而遠離中心的詞匯,通常是只集中在特定的專家意見中。與坐標軸夾角相近的詞匯往往出現(xiàn)在同一條意見中共同,具有強相關性;夾角越大,詞匯在同一條意見中共同出現(xiàn)的頻率越低。評審項目可以視為所涉及關鍵詞的集合,分布在所涉及關鍵詞的中心。關鍵詞組成相似的評審項目坐標位置相鄰。相鄰的關鍵詞與評審項目可大致分為4個區(qū)域,每個區(qū)域都有獨特的內(nèi)容與含義。1區(qū)涵蓋3項風洞試驗評審以及相關的產(chǎn)品和技術詞匯,與其他區(qū)域相比較為獨立。2區(qū)以電氣專業(yè)產(chǎn)品及試驗為主,包含慣組、伺服等相關試驗。3區(qū)以結(jié)構和地面專業(yè)設計要求為主。級間分離設計與試驗涉及到結(jié)構與電氣專業(yè),因此位于2區(qū)與3區(qū)之間。4區(qū)以飛行器、發(fā)動機等系統(tǒng)的設計要求與試驗項目組成。對應分析通過詞匯結(jié)構揭示了評審項目之間的關聯(lián)關系,揭示了產(chǎn)品與技術之間的脈絡,作為技術索引,便于快速了解技術狀態(tài),也為產(chǎn)品的影響域分析提供參考。
圖3 關鍵詞與評審項目的對應分析
詞語共現(xiàn)分析能夠展示出經(jīng)常共同出現(xiàn)的詞匯集群,從而分析出文本的主旨。選取詞頻最小為5的150個詞匯進行共現(xiàn)網(wǎng)絡分析,繪制出共現(xiàn)網(wǎng)絡圖,如圖4所示。圖中氣泡大小表示詞頻,之間的連線代表詞匯的共現(xiàn)關系,即2個相鄰詞匯在同一句話中共同出現(xiàn)的頻率。對具有共現(xiàn)關系的詞匯進行原文檢索,可瀏覽2個詞匯共同出現(xiàn)的語境,并從中分析出該共現(xiàn)關系所代表的主要內(nèi)涵。詞匯之間主要形成了6組共現(xiàn)網(wǎng)絡,主要內(nèi)涵概括如下:A組,建議進行分離姿態(tài)計算、飛行器姿態(tài)仿真、模態(tài)試驗與仿真、級間段分離壓力仿真,細化級間段起吊接口設計、發(fā)射間隙與安全性分析、軌跡設計;B組,注意慣組傳遞對準試驗,注意慣組安裝力矩系數(shù)調(diào)整;C組,關注級間分離起控、起控時序設計、氣動約束、氣動干擾、俯仰舵偏,關注發(fā)動機涂層;D組,關注裝填過程箭體滾轉(zhuǎn)現(xiàn)象,注意分離判據(jù)設計;E組,關注導航作用距離,載荷與射程關系,噴管與空氣舵的復合控制,出筒速度測量和堵片打開時間測量;F組,補充極性設計、熱環(huán)境分析和軟件研制內(nèi)容,關注尾段電纜熱防護,振動、沖擊、噪聲、發(fā)射平臺等環(huán)境適應性。與設計人員分析匯總的技術風險識別結(jié)果相比,專家意見主要內(nèi)容不僅能夠有效覆蓋相關風險項目,還能夠作為索引啟發(fā)獲得更為全面的技術風險識別?!胺蛛x”一詞在A組、C組、D組共現(xiàn)網(wǎng)絡中多次出現(xiàn),說明分離過程涉及多項風險,應作為重大風險進行管控。此外,在C組、E組出現(xiàn)的時序設計、時間測量相關內(nèi)容,以及在F組出現(xiàn)的極性設計、軟件研制等內(nèi)容,在傳統(tǒng)技術風險識別中未覆蓋,可作為風險項目補充開展工作。
圖4 專家意見關鍵詞共現(xiàn)關系網(wǎng)絡圖
將上述技術風險項目、關鍵技術及關鍵產(chǎn)品分析結(jié)果應用于該裝備研制質(zhì)量管理過程,跨組織、跨專業(yè)梳理各項技術方案的設計與驗證情況,形成專題并邀請相關專業(yè)專家以評審的形式進行審查把關。產(chǎn)品方面,選取基于詞頻統(tǒng)計獲得的高詞頻關鍵產(chǎn)品,對其功能性能實現(xiàn)情況、試驗驗證情況開展專題分析,形成飛行器設計與試驗結(jié)果分析、慣組動態(tài)特性設計及驗證、發(fā)動機性能專項審查共3項專題。針對關鍵技術,形成發(fā)射技術專項審查、環(huán)境適應性分析、穩(wěn)定控制專項審查3項專題。對于時序、極性、軟件等新增風險項目,開展流程及時序設計、全系統(tǒng)極性、軟件專項審查3項專題。針對“分離”重大技術風險,專題開展了分離判據(jù)分析、分離動態(tài)過程數(shù)值仿真計算、追擊風險分析等論證工作,提出了優(yōu)化級間段分離壓力、調(diào)整分離判據(jù)等改進措施。以上專項審查以及補充論證工作全面檢視了裝備研制技術風險的釋放情況,取得了良好的效果,有效保障了飛行試驗的圓滿成功。
專家意見文本挖掘是一種客觀、定量、高效的風險識別方法。專家評審意見能夠更為客觀地反映裝備研制關鍵技術與風險項目。對專家評審意見進行詞頻統(tǒng)計、對應分析及共現(xiàn)分析,能夠定量獲得裝備的關鍵技術與關鍵產(chǎn)品,揭示裝備研制的技術脈絡,歸納出未識別的風險項目以及重大風險項目。該方法能夠為傳統(tǒng)風險識別方法提供補充,可作為裝備研制精細化質(zhì)量管控的有效手段。
不僅如此,專家意見文本挖掘還能夠快速概括評審意見內(nèi)容,適用于對評審質(zhì)量的精細化管控。例如,橫向比較不同裝備在相似評審環(huán)節(jié)的評審意見的全面性、比較不同參評專家的評審意見數(shù)量和質(zhì)量,從而判斷評審的有效性,進而通過設置評審專題、優(yōu)化評審專家組成員等方式提高評審質(zhì)量。