王 煜,鄧 暉,李曉瑤,鄧逸川,2
自然語言處理技術在建筑工程中的應用研究綜述
王 煜1,鄧 暉1,李曉瑤1,鄧逸川1,2
(1. 華南理工大學土木與交通學院,廣東 廣州 510640;2. 亞熱帶建筑科學國家重點實驗室,廣東 廣州 510640)
自然語言處理(NLP)可以將建設領域非結構化文檔轉化為結構化信息,方便相關從業(yè)人員對建設項目進行高效的日常管理。近年來,NLP相關算法得到了廣泛的發(fā)展,但NLP技術在建設領域中的研究還處于初級階段。通過調研近十年關于NLP在建筑工程的相關文獻,對國內外技術與應用層面的研究進行了梳理。介紹了NLP的技術發(fā)展、常用方法及相關開源工具實現(xiàn)的功能;并重點從統(tǒng)計分析工具、應用系統(tǒng)和其他3方面對NLP在建筑領域各階段的應用進行總結。此外,對建設領域NLP應用存在的問題進行了討論,總結原因并從技術、建筑業(yè)和政府3個方面提出了未來展望。
自然語言處理;工程管理;技術研究;應用研究;信息挖掘
自然語言處理(natural language processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向[1],該技術的開發(fā)主要有2個目的:使機器自動化進行語言處理和改善人機交流。NLP技術具有將非結構化的文本轉化為結構化信息的特點[2],并允許計算機通過機器學習[3]理解人類語言。從基礎性的語義相似度、依存句法分析,到應用性的人機互動、報告分析,NLP在各領域都展現(xiàn)出了巨大的應用前景,如醫(yī)學病理報告分析、工程合同管理、金融問答系統(tǒng)等。
隨著建設項目的施工工藝及規(guī)模日趨復雜,日常報告文檔大量的增加,工程師無法在有限的時間內掌握所有必要的知識[4]。非結構化的文件降低了工程師以完整的形式獲取、分析和重用相關信息的效率,從而導致由于不及時或不充分決策的項目性能降低[5]。因此學者提出可以利用NLP技術將無結構化的風險信息、索賠信息、合同信息等(專家經(jīng)驗、風險案例庫、施工圖紙、施工組織方案和其他項目文件)轉化為結構化知識,從而利用計算機對施工日常文檔進行隱性知識挖掘,以便工程師在廣泛的工作范圍內高效率地對潛在信息進行管理。例如KIM和CHI[6]提出一個利用NLP技術的建筑事故風險知識管理系統(tǒng),其可根據(jù)用戶意圖檢索合適的案例,并自動分析施工事故案例中的隱性知識,達到高效的風險管理。目前在建設領域,國外關于NLP技術的研究和應用較多,而國內相關研究較少[7-9]。在文獻綜述方面,國內外多見于NLP相關算法的現(xiàn)狀及發(fā)展[10],而在建設領域系統(tǒng)中的綜述研究較少[11],國內未見相關文獻梳理。因此本文對NLP技術在建設工程管理中的應用進行了總結與歸納,為后續(xù)的研究提供了有力的支持。
本文在Web of Science (WoS),美國土木工程師協(xié)會(the American Society of Civil Engineers,ASCE),Engineering Village2 (EV2)等國外知名的數(shù)據(jù)庫中,以“NLP”,“natural language processing”,“text mining”,“construction management”等為主題詞,收集了2010–2020年近10年間國外NLP在工程管理中應用的相關文獻。同時在知網(wǎng)(CNKI),萬方等國內常用的數(shù)據(jù)庫中,通過對“自然語言處理”、“信息挖掘”、“建筑工程”等主題詞查詢同期關于NLP在工程管理中的相關研究,如圖1所示。
圖1 2010–2020年中外相關文獻統(tǒng)計
NLP在建設工程文檔中的研究逐年遞增,尤其在2017年文獻數(shù)目迅速上漲,說明學者對NLP在建設領域中的應用越來越重視。在建設領域中NLP可以將非結構化文件轉化為結構化信息,提高工程師決策效率,對于工程領域的文件管理有很大的潛力,因此NLP在該方面的研究工作還需進一步深化完善。
本文通過對國內外文獻進行了NLP技術簡介和在建設領域的應用分析。在技術方面對NLP的開源工具進行了梳理,并對其主要功能進行了簡介;在應用方面,從統(tǒng)計分析工具和應用系統(tǒng)研究入手,并對應用領域進行總結。因此,本文從技術和應用2方面對NLP在建設領域應用研究的文獻進行了梳理并對目前研究的問題進行總結,最后在此基礎上提出未來NLP在建設領域的發(fā)展方向。
NLP提出于20世紀50年代,最早研究的工作是機器翻譯[12]。然而,由于當時對自然語言復雜性的低估以及NLP理論和技術的缺乏,使得該領域的研究進展緩慢。直到20世紀70年代和 80年代,機器學習相關算法的引入才徹底改變了NLP技術。近年來,機器學習技術在各個方面都取得了顯著的成績,同樣在語義分析、文件聚類等NLP任務上也有所突破。
根據(jù)NLP分析的深度和水平,可將其分為詞法、句法和語義分析[1]3類。詞法分析是指詞級間的分析,包括分詞(以詞為單位切分句子)、詞性標注(將單詞詞性標記為名詞,動詞等)、詞義標注(確定多義詞在語境中的意思)、命名實體識別(識別文章中人名,地名等實體)等。句法分析是指句子中的詞序分析,根據(jù)單詞組合和句子中每個單詞形成的語法關系的短語形式可以稱為句法分析,一般依賴于句法結構樹、依存關系圖對句法結構化形式進行描述。語義分析是一種理解語言含義的方法,其用于理解人類語言的形態(tài)元素,還可用于理解上下文含義,常見的方法為語義消歧和淺層語義分析。隨著機器學習的廣泛應用,近年也出現(xiàn)一些通過機器學習方法獲取語義信息的研究。
NLP常用方法(表1)主要有基于規(guī)則、統(tǒng)計和深度學習的方法。
表1 NLP常用方法
基于規(guī)則方法需要技術人員手動編寫知識表達,從而調用規(guī)則進行算法的開發(fā),并根據(jù)不斷地迭代調整規(guī)則改進效果,成本較低。且隨著信息的增多,編寫的規(guī)則無法涵蓋所有的知識,對技術人員要求極高,單一的基于規(guī)則的方法無法滿足實際的需求。基于統(tǒng)計的方法被逐漸使用,學者嘗試建立大量的語料和詞庫,讓機器根據(jù)概率模型學習文本特征,訓練得到語言模型,如常見的隱馬爾可夫(hiden Markov model,HMM),K鄰近(k-nearest neighbor,KNN),支持向量機(support vector machine,SVM),樸素貝葉斯(naive Bayes,NB),條件隨機場(conditional random field,CRF)等。到一定程度后,由于數(shù)據(jù)的稀疏問題,基于統(tǒng)計的機器學習準確率很難再度提高。隨著深度學習方法的提出,特征值高維稀疏問題通過神經(jīng)網(wǎng)絡得以解決,自然語言處理水平進一步提高。深度學習是一種基于特征學習的方法,通過多個隱含層的非線性處理,得到數(shù)據(jù)的分布式特征值表示。常見的模型有將詞映射到低維空間分布的詞向量(Word2vec)[17]卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)[18]、長短期記憶(long short-term memory,LSTM)[19]、Transformer[20]等特征提取器和預訓練模型(bidirectional encoder representations from transformers,BERT)[21]。隨著計算機科學的發(fā)展,NLP方法推陳出新,建筑行業(yè)也應多引入NLP技術,加快智能化建筑行業(yè)的發(fā)展。
隨著科技的發(fā)展,許多 NLP開源工具應運而生。本文通過文獻的整合,列舉出8種開源NLP工具及其功能表現(xiàn),見表2。
表2 NLP開源工具及可實現(xiàn)的功能
NLP開源工具作為開放源代碼軟件,可以被公共使用,國外OpenNLP[22],NLTK[23],CoreNLP[24],spaCY[25]作為NLP開源工具被廣泛應用到各種研究中。SONG和CHAMBERS[30]將具有可擴展性和豐富的功能的Stanford CoreNLP系統(tǒng)應用于處理大量文本數(shù)據(jù)中,并在文中演示了如何使用CoreNLP對一組摘要進行共詞分析。ZHANG等[31]應用NLTK系統(tǒng)對建筑工地事故記錄進行分塊和詞性標記等預處理工作。LIN等[32]應用NLTK系統(tǒng)對工程數(shù)據(jù)進行詞性標注,方便后續(xù)關鍵詞和約束的獲取,并利用IFC實現(xiàn)BIM數(shù)據(jù)庫的檢索信息??梢钥闯鯪LP開源軟件多被應用于文件預處理階段,進一步的功能實現(xiàn)還需要結合其他技術,并在其基礎上進行修改、開發(fā)[33]。
對于國內的NLP開源軟件ICTCLAS[29],F(xiàn)udanNLP[26],Pkuseg[27],LTP[28]分別是由中國科學院計算技術研究所、復旦大學、北京大學,哈工大社會計算與信息檢索研究中心設計開發(fā),這些開源軟件已被國內外研究機構和企業(yè)使用,廣泛適用于各個領域。ICTCLAS中文分詞系統(tǒng)被使用,對建筑工程質量驗收規(guī)范[34]和煤礦安全領域文檔[35]進行了分詞及詞性標注,為后續(xù)知識提取打下基礎。李解[36]借助哈工大LTP系統(tǒng)對事故調查報告中語句進行詞性、依存關系的標注,進而對領域知識元進行抽取??梢妵鴥萅LP開源軟件在建設領域的應用,也多用于文本預處理階段。
國內外對于NLP開源軟件的實現(xiàn)功能大致相同,多用于實現(xiàn)分詞、命名實體識別、詞性標記、情感分析、依存關系解析等功能。從中可以看出我國近幾年在NLP開源軟件的研究已取得一定的成果。
在建筑研究中對NLP的研究可分為:統(tǒng)計分析工具和應用系統(tǒng)2類。使用NLP作為應用系統(tǒng)的研究可以細分為:①文檔分類(text classification);②信息檢索(information retrieval);③文本信息自動提取(information extraction)的研究,見表3。
表3 NLP相關應用
根據(jù)表3可知,在建設領域中NLP技術多用于統(tǒng)計分析、應用系統(tǒng)和其他,因此本文從這 3方面進行相關的分析梳理,最后從建設工程各階段NLP實際應用進行總結。
NLP可以通過詞頻逆文檔(term frequency- inverse document frequency,TF-IDF)、主題模型(latent dirichlet allocation,LDA)等技術對文檔中的關鍵詞進行提取并進行數(shù)量的統(tǒng)計。然而,對于詞頻的統(tǒng)計只是研究的基礎,進一步的研究還需結合其他技術,如人工神經(jīng)網(wǎng)絡(artificial neural network,ANN),SVM,KNN和NB進行協(xié)助。WILLIAMS和GONG[37]將在建項目中文本統(tǒng)計的關鍵詞與數(shù)值數(shù)據(jù)結合起來,通過神經(jīng)網(wǎng)絡訓練模型、預測成本,避免項目的成本超支。雷坤等[38]通過TF-IDF統(tǒng)計施工合同糾紛中最常見的事故原因,從而在制度和合同設計等方面給與相關防控建議。林佳瑞和張建平[39]通過詞頻分析、提取關鍵詞并進行共線關系分析,對BIM相關政策的演變和發(fā)展趨勢進行分析。除了對單詞頻率統(tǒng)計之外,還可以對文本進行情緒的統(tǒng)計分析[40-44]。近年來也有學者通過NLP分析公眾的情緒,對大型工程執(zhí)行提出更好的戰(zhàn)略決策。大型工程項目管理對公眾參與的要求較高,情緒分析是評估公眾對項目意見的有效工具。文獻[40-41]利用NLP對工程進行輿情分析,自動解讀公眾對三峽工程的實際情緒態(tài)度,為項目管理中的公共關系問題提供更好的決策。此外一些學者也將情緒分析應用到建筑后評價中。與傳統(tǒng)方法相比,基于NLP技術的后評價可以減少因樣本隨機性而帶來的不準確。馬越[42]提出用大數(shù)據(jù)代替調查問卷,通過提取關鍵詞來判別客體的態(tài)度,對建成環(huán)境進行后評價。王煙[43]利用NLP技術對文本進行情感分析,為建筑后評價提供新的思路方法。但文本關鍵詞提取和統(tǒng)計對領域詞匯要求程度高,建筑行業(yè)NLP技術發(fā)展速度較慢,沒有統(tǒng)一的專業(yè)詞庫,是現(xiàn)存問題之一。
3.2.1 文本分類
在NLP中,自動分析文檔內容并根據(jù)分析結果確定一段文檔類別的過程稱為自動文檔分類(ADC)[45]。類別通常由預定義標簽表示,該標簽是指文本字段的類別或概念[46]。文本分為手動和自動2類,分別是根據(jù)手工分類規(guī)則和機器學習技術進行的[13]。傳統(tǒng)上,通過領域專家或其他相關人員的分析手動進行文本分類已有很高的準確性,但是該過程是勞動密集型且耗時[47]。因此將NLP和機器學習等其他技術用于文本自動分類已引起了廣泛的關注[48]。
基于NLP的文本分類在施工安全[31,49-50]和合同管理方面[16,50]研究較多,運維管理階段[51-52]研究較少。ZHANG等[31]采用文本挖掘對施工事故報告進行分析,并利用多種機器學習手段對事故原因進行分類。文獻[50]基于文本相似性對建筑項目文件進行了聚類,提高施工安全管理的效率。在合同管理中,通過語義的機器學習文本分類算法將不同合同條款自動分為預定義的類別(環(huán)境、安全、健康等)。文獻[16]提出了一種基于語義的機器學習文本分類算法,用于支持自動化合規(guī)檢查(automated compliance check,ACC)結構的一般條件分類子句,將多標簽分類問題轉化為一組二分類問題。在運維階段,ZHONG等[52]提出了運用NLP技術和CNN對質量投訴評價進行分類管理。通過NLP的文本自動分類,為進一步的文本分析和規(guī)則提取提供了充足的準備。
3.2.2 信息檢索
信息檢索(information retrieval, IR)是指從信息資源集合中提取有用信息的過程和活動[54]。IR研究主要分為2類:使用本體(或同義詞庫)的研究和使用NLP的研究[6]。以本體為中心的IR,檢索準確度較高,但要花費大量的人力才能預先確定單詞與構建本體之間的關系。因此,學者在此基礎上引入了NLP技術,其中向量空間模型(vector space model,VSM)和Word2vec較為常用。基于VSM技術的IR,根據(jù)關鍵字的內容及出現(xiàn)頻率自動比較文本相似度。Word2vec基于機器學習自動學習相鄰單詞之間的關系并分析其語義關系達到IR的目的。在建設領域NLP技術多用于檢索爭議事件的解決方法(alternative dispute resolution,ADR),相關事故案例或相似的標準和準則。
文獻[55-56]建立了建筑安全事故庫,利用VSM和余弦相似度技術,通過關鍵字有效地檢索替代性爭議解決方法。ZOU等[57]提出了風險案例檢索系統(tǒng)框架,該框架結合了VSM和語義查詢擴展2種NLP技術,并能自動檢索出排名前10的相似案例。文獻[6,58]同樣利用NLP技術,開發(fā)了語義搜索系統(tǒng),根據(jù)具體需求檢索合適的事故案例,并自動提取安全風險因素或隱性知識。在風險案例自動檢索的過程中,不僅可以找到相似的事故信息進行知識推理,同時對施工安全案例數(shù)據(jù)庫也進行了擴充。在設計方面,YU和HSU[59]利用經(jīng)典的VSM并開發(fā)了基于內容的CAD文檔檢索系統(tǒng),以根據(jù)給定的查詢來輔助CAD圖紙的管理和文檔的快速檢索。SHEN等[60]利用文本挖掘技術檢索最相似的綠色建筑案例,為新項目提供輔助決策。
3.2.3 信息提取
信息提取(information extraction,IE)旨在識別和提取結構化信息,例如特定類的實體和關系[61]。IE的一般過程為:訓練階段和部署階段[62]。在訓練階段,規(guī)則由領域專家或學習系統(tǒng)提取[14],因此IE可以分為基于規(guī)則的方法和機器學習方法。在建設領域中,IE多用在合同安全分析上,也有少部分研究規(guī)范或其他方面。
在合同管理方面,LEE等[62]提出了一個基于規(guī)則的合同風險自動提取模型,利用依存語法、三元組(svo)、if-then規(guī)則自動檢測出合同中的風險條款,為施工企業(yè)的合同管理決策提供支持。該模型的準確率和查全率可達81.8%。MARZOUK和ENABA[63]同樣應用NLP技術對建設工程合同信息進行分析,不同的是其將項目對應關系進行可視化分析,助于項目各方明確自己的義務。對于法律法規(guī)管理文獻[64-67]通過對規(guī)范條款的語義、語句分析,不斷完善建筑法規(guī)信息自動化合規(guī)性檢查技術。對于安全管理,文獻[15]使用基于規(guī)則的方法從非結構性傷害報告中確定了與事故相關的前兆。在其他方面,文獻[68]根據(jù)Word2Vec,句法規(guī)則和聚類分析自動對語義相似的單詞進行分類,以解決運輸資產管理術語的不一致問題。以上是基于規(guī)則的監(jiān)督學習,考慮句法、語義或句子中的詞序。現(xiàn)機器學習在建設領域信息提取方面研究較少,KIM和CHI[6]基于規(guī)則和CRF方法自動提取事故案例的隱性知識,精度分別為93.75%和84.13%??梢钥闯鲈跓o大量數(shù)據(jù)訓練的情況下,非監(jiān)督學習IE的準確率低于基于規(guī)則的準確率。
除上述常見的應用外,NLP的其他一些應用也被建設領域學者所探討,如知識圖譜(knowledge graph)的應用和自動生成[69]、問答系統(tǒng)(question answering system)的生成等。王丹和宮晶晶[70]利用知識圖譜對國內安全領域研究進行可視化分析,對2005–2016年間的相關文獻進行梳理,對研究的前沿和發(fā)展進行分析。學者們利用同樣的方法對建筑信息模型(building information modeling,BIM)[71-74],計算機視覺在建設領域應用[75],綠色建筑[76]、裝配式建筑[77]等研究現(xiàn)狀進行了可視化文獻總結。基于NLP的問答技術在建設領域自動問答系統(tǒng)研究較少,如對建筑質量問答系統(tǒng)的開發(fā)[53],為建筑人員的決策提供幫助[78]。
基于以上幾個方面的應用分析,可以發(fā)現(xiàn)NLP技術在建筑行業(yè)這樣的信息密集型產業(yè),主要的目的是對冗雜非結構化知識進行整理。通過將文本信息轉化為結構信息,方便建筑從業(yè)人員或非專業(yè)人員在短時間內對專業(yè)知識和隱性知識進行掌握,減少了大量因文檔管理而花費的人力和時間。
基于NLP技術可以在建筑全生命周期各個階段中應用,以結構化的形式表達項目要求,為工程管理人員決策管理提供便利,見表4。
表4 NLP工程應用階段
在設計階段,學者通過NLP技術獲得相似案例,為新項目提供輔助決策,如YU和HSU[59]的圖紙設計及綠色建筑的方案規(guī)劃[60]。JUNG和LEE[79]將NLP應用于BIM用途分類,并對原有案件的設計協(xié)調、沖突檢測進行學習。在投標過程中,為了在決策前充分了解項目的不確定性,LEE和YI[80]提出了利用NLP建立風險預測模型,對投標前非結構化文本進行挖掘并預測風險。在施工過程中,NLP技術被廣泛應用。多用于對合同風險管理[14,63]、施工安全合規(guī)檢查[64-67]、風險案例檢索[55-58]、風險前兆提取[15]等合同管理及安全管理,在成本[37]和索賠管理方面應用較少。NIU和ISSA[81]通過NLP對文本實體和關系提取,并將提取的三元組與領域本體映射,探索了基于本體的NLP在建筑索賠法律分析領域的應用。NLP技術不僅可以對大量的數(shù)據(jù)和模糊數(shù)據(jù)進行高效處理,同時也可以克服數(shù)據(jù)量的不足[82],因此在運維階段,NLP技術可以高效處理大量建筑質量投訴信件[52-53]和主觀性較強的建筑后評價[42-43]。
隨著NLP技術進一步的發(fā)展,對于工程設計、施工和運維階段的問題可以進一步幫助工程師進行高效的數(shù)字化管理,從而避免工程中經(jīng)濟和時間的損失。
在建筑業(yè)中,基于NLP技術將非結構化信息轉化為結構化數(shù)據(jù)的研究,旨在為建筑從業(yè)人員決策提供輔助。在技術上可以通過NLP技術和NLP開源軟件對建筑業(yè)文件進行處理,機器學習、領域本體、BIM等技術也被使用助力于建筑業(yè)文件的處理;在應用上通過自動化或半自動化的文件分類、IR、IE可以對招標價格確定、合同文件核對、進度信息提取,相似安全案例推理、質量投訴處理和建筑后評價等方面進行一定的幫助。
盡管NLP對建筑業(yè)的文件管理效率具有重要的意義,但其整體的技術和應用研究深度不足,還處于初級階段。通過文獻基礎調研,總結出以下的相關問題。
(1) 建筑領域詞庫通用性差?,F(xiàn)階段沒有針對建筑業(yè)領域的詞庫,已有的詞庫中的專業(yè)術語并不適用于建設領域。文件預處理對詞典的質量和數(shù)據(jù)量具有高度依賴[56],這一點將影響文本數(shù)據(jù)分詞及詞性標注等步驟,如合同審核和后評價情感分析?,F(xiàn)階段需要對專業(yè)領域詞匯較為了解的專業(yè)人員對建設領域詞庫進行構建。
(2) 規(guī)則的制定有限?;谝?guī)則的信息提取方法,對所需信息提取制定所有可能的規(guī)則是困難的。為了定義這樣的規(guī)則,需要收集用于信息提取的所有可能的數(shù)據(jù),并且需要開發(fā)所有可能的規(guī)則。這一點是困難的,且前期需要大量的工 作[61]。但考慮到建筑行業(yè)的特點,某些數(shù)據(jù)不易訪問,如合同數(shù)據(jù)。因此很難大量收集特定的 數(shù)據(jù)。
(3) 在NLP方面的機器學習研究有待提高。NLP監(jiān)督類學習與訓練數(shù)據(jù)的質量、數(shù)量和平均性有很大的關系,且要實驗不同的學習率調整模型,有研究表明NLP非監(jiān)督學習準確率小于監(jiān)督類學習準確率[5]。同時NLP深度學習訓練模型與地區(qū)性語言也有關,同一模型無法處理不同國家間的文本信息,因此無法進行有效的遷移學習。
(4) NLP在建設領域研究中多用于施工階段,在設計、招投標、運維等工程其他階段應用較少。NLP可以加強施工文檔自動化管理,有較大的應用潛力。因此應在建筑全生命周期加大基于NLP應用的研究力度,以提升建設領域文件的管理效率。
(1) 開發(fā)普遍適用于建筑業(yè)各方面的文本的通用規(guī)則。技術人員可以引入本體、知識圖譜技術等新技術,建立一套適用于建筑業(yè)各方的邏輯規(guī)則,從各類型的非結構化文檔中自動獲取結構化信息,實現(xiàn)IR和IE等目的。建立建設領域詞庫,并進行詞庫共享。領域詞庫是實現(xiàn)NLP將文本轉化為結構信息的基礎,為了減少基礎工作的重復性,提高操作效率,構建通用的建設領域詞庫是必要的。隨著研究的不斷深入,詞庫應同時進行擴充,從而實現(xiàn)詞庫的復用。
(2) 實現(xiàn)建筑行業(yè)與互聯(lián)網(wǎng)行業(yè)合作。建筑業(yè)的管理者可以設立信息自動化部門引進高精尖技術人才或與互聯(lián)網(wǎng)行業(yè)合作,實現(xiàn)建筑文件自動化管理。開發(fā)基于NLP技術用于建筑行業(yè)案例檢索、決策輔助、問答系統(tǒng)等功能,提高建筑工程管理的效率,節(jié)約相關文件管理成本。順應時代的進程,從建筑業(yè)全生命周期加快智能化的發(fā)展進程。
(3) 推廣NLP在建筑行業(yè)中的最佳實踐。NLP現(xiàn)在多用于金融、法律和醫(yī)學行業(yè),幫助進行金融風險分析、法律案例搜索、判決預測、醫(yī)療案例檢索和分析診斷的輔助。建筑行業(yè)在各個階段也會產生大量的數(shù)據(jù),需要NLP的輔助來進行施工風險案例的檢索和建筑施工細節(jié)問答等,而NLP在建筑業(yè)還沒有具體的實例。因此呼吁政府規(guī)劃加快建筑業(yè)自動化的進程,NLP等人工智能技術落地的政策。
本文通過調研近十年關于NLP在建設領域應用的相關文獻,對NLP的技術層面和應用層面進行了整理和總結。列舉了NLP技術相關的常用方法和開源工具,并從統(tǒng)計分析工具、應用系統(tǒng)和其他3個方面對NLP應用方面進行介紹,其中包括詞頻統(tǒng)計、情緒分析、文本分類、IR、IE、知識圖譜和問答系統(tǒng)等,并對建筑工程各階段NLP應用情況進行總結。此外,本文最后對建筑領域NLP應用存在的問題進行了討論,并提出一些展望。NLP在建筑領域科研層次已取得了初步的進展,但國內研究較少且在工程實際中沒有落實。若能加快國內應用研究和落實進度,基于NLP技術的工程信息管理將為建筑業(yè)帶來更大的效益。本文為NLP技術在工程管理建設領域中的后續(xù)應用研究提供了一些啟發(fā)。
[1] TIWARY U S, SIDDIQUI T. Natural language processing and information retrieval[M]. New York: Oxford University Press, 2008: 3-21.
[2] PONS E, BRAUN L M M, HUNINK M G M, et al. Natural language processing in radiology: a systematic review[J]. Radiology, 2016, 279(2): 329-343.
[3] CHOPRA D, JOSHI N, MATHUR I. Mastering natural language processing with python[M]. Birmingham: Packt Publishing Ltd, 2016: 2-3.
[4] XING X J, ZHONG B T, LUO H B, et al. Ontology for safety risk identification in metro construction[J]. Computers in Industry, 2019, 109: 14-30.
[5] NEDELJKOVI? ?, KOVA?EVI? M. Building a construction project key-phrase network from unstructured text documents[J]. Journal of Computing in Civil Engineering, 2017, 31(6): 04017058.
[6] KIM T, CHI S. Accident case retrieval and analyses: using natural language processing in the construction industry[J]. Journal of Construction Engineering and Management, 2019, 145(3): 04019004.
[7] 付文幸. 基于自然語言處理的隱患分析系統(tǒng)的設計與實現(xiàn)[D]. 武漢: 華中科技大學, 2018. FU W X. The design and implementation of hidden hazard analysis system based on natural language processing[D]. Wuhan: Huazhong University of Science and Technology, 2018 (in Chinese).
[8] 王學敏. 自然語言處理技術在項目文檔管理中的應用研究[D]. 北京: 北京郵電大學, 2019. WANG X M. Research on application of NLP in project document management[D]. Beijing: Beijing University of Posts and Telecommunications, 2019 (in Chinese).
[9] 吳松飛. 集成本體與自然語言處理的BIM建筑施工過程安全風險檢查研究[D]. 廣州: 華南理工大學, 2018. WU S F. Integrating ontology and NLP for automated construction process safety rule checking in 4D BIM[D]. Guangzhou: South China University of Technology, 2018 (in Chinese).
[10] 王飛, 陳立, 易綿竹, 等. 新技術驅動的自然語言處理進展[J]. 武漢大學學報: 工學版, 2018, 51(8): 669-678. WANG F, CHEN L, YI M Z, et al. Advances in natural language processing under new technology driven[J]. Engineering Journal of Wuhan University, 2018, 51(8): 669-678 (in Chinese).
[11] DI GIUDA G M, LOCATELLI M, SCHIEVANO M, et al. Natural language processing for information and project management[M]. Cham: Springer, 2020: 95-102.
[12] 薛蕊, 馬小寧, 李平, 等. 自然語言處理關鍵技術在智能鐵路中的應用研究[J]. 鐵路計算機應用, 2018, 27(10): 40-43, 48.XUE R, MA X N, LI P, et al. Nature language processing techniques and its applications in intelligent railway[J]. Ralway Computer Application, 2018, 27(10): 46-49, 48 (in Chinese).
[13] MAHFOUZ T. Unstructured construction document classification model through support vector machine (SVM)[C]//International Workshop on Computing in Civil Engineering 2011. Reston, VA: American Society of Civil Engineers, 2011: 126-133.
[14] MOENS M F. Information extraction: algorithms and prospects in a retrieval context[M]. Heidelberg: Springer Science & Business Media, 2006: 1-8.
[15] TIXIER ANTOINEJ P, HALLOWELL M R, RAJAGOPALAN B, et al. Automated content analysis for construction safety: a natural language processing system to extract precursors and outcomes from unstructured injury reports[J]. Automation in Construction, 2016, 62: 45-56.
[16] SALAMA D M, EL-GOHARY N M. Semantic text classification for supporting automated compliance checking in construction[J]. Journal of Computing in Civil Engineering, 2013, 30(1): 04014106.
[17] BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching word vectors with subword information[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 135-146.
[18] COLLOBERT R, WESTON J. A unified architecture for natural language processing: deep neural networks with multitask[C]//The 25th International Conference on Machine Learning. New York: The ACM Digital Library, 2018: 160-167.
[19] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[EB/OL]. [2019-11-25]. https://doi.org/10. 18653/v1/N16-1030.
[20] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach: NIPS, 2017: 5998-6008.
[21] 李舟軍, 范宇, 吳賢杰. 面向自然語言處理的預訓練技術研究綜述[J]. 計算機科學, 2020, 47(3): 162-173. LI Z J, FAN Y, WU X J. Survey of natural language processing pre-training techniques [J]. Computer Science, 2020, 47(3): 162-173 (in Chinese).
[22] The Apache Software Foundation. The apache OpenNLP library is a machine learning based toolkit for the processing of natural language text[EB/OL]. (2018-05-01) [2019-11-21]. https://opennlp.apache.org/.
[23] NLTK Project. Some simple things you can do with NLTK[EB/OL]. (2019-09-04) [2019-11-10]. https:// www.nltk.org/.
[24] Stanford University. Stanford CoreNLP natural language software[EB/OL]. [2019-12-11]. https://stanfordnlp. github.io/CoreNLP/.
[25] Emory University and Yahoo! Labs. Industrial-Strength natural language processing[EB/OL]. [2019-11-01]. https://spacy.io/.
[26] QIU X P. 中文自然語言處理工具包Toolkit for Chinese natural language processing[EB/OL]. [2020-03-21]. https://github.com/FudanNLP/fnlp.
[27] LUO R, XU J, ZHANG Y, et al. PKUSEG: a toolkit for multi-domain Chinese word segmentation[EB/OL]. (2019-06-27) [2019-11-01]. https://arxiv.org/abs/1906. 11455.
[28] 哈工大社會計算與信息檢索研究中心. 語言云(語言技術平臺云)基于云計算技術的中文自然語言處理服務平臺[EB/OL]. (2019-12-08) [2019-12-12]. http://www. ltp-cloud.com/. Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology. Language cloud (language technology platform cloud) Chinese natural language processing service platform based on Cloud Computing Technology[EB/OL]. (2019-12-08) [2020-03-21]. http://www.ltp-cloud.com/ (in Chinese).
[29] 張華平. NLPIR-ICTCLAS漢語分詞系統(tǒng)[EB/OL]. (2019-1014) [2020-03-21]. http:// ictclas.nlpir.org/. ZHANG H P. NLPIR-ICTCLAS Chinese word segmentation system[EB/OL]. (2019-1014) [2020-03-21]. http:// ictclas.nlpir.org/ (in Chinese).
[30] SONG M, CHAMBERS T. Text mining with the stanford CoreNLP[M]//Measuring Scholarly Impact. Cham: Springer International Publishing, 2014: 215-234.
[31] ZHANG F, FLEYEH H, WANG X R, et al. Construction site accident analysis using text mining and natural language processing techniques[J]. Automation in Construction, 2019, 99: 238-248.
[32] LIN J R, HU Z Z, ZHANG J P, et al. A natural-language-based approach to intelligent data retrieval and representation for cloud BIM[J]. Computer-Aided Civil and Infrastructure Engineering, 2016, 31(1): 18-33.
[33] GALITSKY B. Machine learning of syntactic parse trees for search and classification of text[J]. Engineering Applications of Artificial Intelligence, 2013, 26(3): 1072-1091.
[34] 胡海盟. 建筑工程質量驗收規(guī)范知識建模與抽取研究[D]. 武漢: 華中科技大學, 2014. HU H M. Construction quality acceptance knowledge modeling and extraction[D]. Wuhan: Huazhong University of Science and Technology, 2014 (in Chinese).
[35] 王宇. 煤礦安全事件本體構建及其查詢擴展的研究與應用[D]. 北京: 北京工業(yè)大學, 2015. WANG Y. Event ontology in coal mining safety field and its application in query expansion[D]. Beijing: Beijing University of Technology, 2015 (in Chinese).
[36] 李解. 城市軌道交通施工安全風險管理知識支持機制及方法研究[D]. 徐州: 中國礦業(yè)大學, 2018. LI J. Research on the mechanism and method of knowledge support for construction safety risk management of urban rail transit[D]. Xuzhou: China University of Mining and Technology, 2018 (in Chinese).
[37] WILLIAMS T P, GONG J. Predicting construction cost overruns using text mining, numerical data and ensemble classifiers[J]. Automation in Construction, 2014, 43: 23-29.
[38] 雷坤, 孫峻, 喻大嚴. 基于語義檢索的建設工程施工合同風險研究[J]. 建筑經(jīng)濟, 2019, 40(2): 106-110. LEI P, SUN J, YU D Y. Research on the risks of construction contract based on semantic retrieval[J]. Construction Economy, 2019, 40(2): 106-110 (in Chinese).
[39] 林佳瑞, 張建平. 我國BIM政策發(fā)展現(xiàn)狀綜述及其文本分析[J]. 施工技術, 2018, 47(6): 73-78. LIN J R, ZHANG J P. Review and exploratory text mining of building information modeling policies in China [J]. Construction Technology, 2018, 47(6): 73-78 (in Chinese).
[40] JIANG H C, LIN P, QIANG M S. Public-opinion sentiment analysis for large hydro projects[J]. Journal of Construction Engineering and Management, 2015, 142(2): 05015013.
[41] JIANG H C, QIANG M S, LIN P. Assessment of online public opinions on large infrastructure projects: a case study of the Three Gorges Project in China[J]. Environmental Impact Assessment Review, 2016, 61: 38-51.
[42] 馬越. 大數(shù)據(jù)支持下的建成環(huán)境使用后評價發(fā)展研究[J]. 中外建筑, 2017(10): 71-74. MA Y. Research on the development of post occupancy evaluation of building environment with the support of big data[J]. Chinese and Overseas Architecture, 2017(10): 71-74 (in Chinese).
[43] 王煙. 自然語言處理技術在建筑使用后評價中的應用[J]. 南方建筑, 2019(1): 82-87. WANG Y. The application of natural language processing technology in building POE[J]. South Architecture, 2019(1): 82-87 (in Chinese).
[44] LV X, EL-GOHARY N. Stakeholder opinion classification for supporting large-scale transportation project decision making[C]//ASCE International Workshop on Computing in Civil Engineering 2017. Reston, VA: American Society of Civil Engineers, 2017: 333-341.
[45] SALTON G, MCGILL M J. An introduction to modern information retrieval[J]. Information Processing & Management, 1963, 19(6): 402-403.
[46] ZHOU P, EL-GOHARY N. Ontology-based multilabel text classification of construction regulatory documents[J]. Journal of Computing in Civil Engineering, 2016, 30(4): 04015058.
[47] MANNING C D, RAGHAVAN P, SCHüTZE H. Introduction to information retrieval[M]. New York: Cambridge University Press, 2008: 852-853.
[48] JORDAN M I, MITCHELL T M. Machine learning: Trends, perspectives, and prospects[J]. Science, 2015, 349(6245): 255-260.
[49] TANG S, GOLPARVAR-FARD M N. Joint reasoning of visual and text data for safety hazard recognition[C]//ASCE International Workshop on Computing in Civil Engineering 2017. Reston, VA: American Society of Civil Engineers, 2017: 450-457.
[50] AL QADY M, KANDIL A. Automatic clustering of construction project documents based on textual similarity[J]. Automation in Construction, 2014, 42: 36-49.
[51] ZHOU P, EL-GOHARY N M. Ontology-based, multi-label text classification for enhanced information retrieval for supporting automated environmental compliance checking[C]//American Society of Civil Engineers 2014 International Conference on Computing in Civil and Building Engineering Orlando. Florida: Computing in Civil and Building Engineering, 2014: 2238-2245.
[52] ZHONG B T, XING X J, LOVE P, et al. Convolutional neural network: deep learning-based classification of building quality problems[J]. Advanced Engineering Informatics, 2019, 40: 46-57.
[53] 汪旭. 建筑質量投訴文本分類與知識問答系統(tǒng)研究[D]. 武漢: 華中科技大學, 2018. WANG X. Research on complaints’ classification and question answering system of construction quality knowledge[D]. Wuhan: Huazhong University of Science and Technology, 2018 (in Chinese).
[54] RICARDO B Y, BERTHIER R N. Modern information retrieval: the concepts and technology behind search[M]. New Jersey: Addi-son-Wesley Professional, 2011: 4-7.
[55] FAN H, LI H. Retrieving similar cases for alternative dispute resolution in construction accidents using text mining techniques[J]. Automation in Construction, 2013, 34: 85-91.
[56] FAN H Q, XUE F, LI H. Project-based as-needed information retrieval from unstructured AEC documents[J]. Journal of Management in Engineering, 2015, 31(1): A4014012-1-10.
[57] ZOU Y, KIVINIEMI A, JONES S W. Retrieving similar cases for construction project risk management using natural language processing techniques[J]. Automation in Construction, 2017, 80: 66-76.
[58] MOON S, KIM T, HWANG B G, et al. Analysis of construction accidents based on semantic search and natural language processing[C]//Proceedings of the 35th International Symposium on Automation and Robotics in Construction (ISARC). München Deutschland: International Association for Automation and Robotics in Construction (IAARC), 2018: 1-6.
[59] YU W D, HSU J Y. Content-based text mining technique for retrieval of CAD documents[J]. Automation in Construction, 2013, 31: 65-74.
[60] SHEN L Y, YAN H, FAN H Q, et al. An integrated system of text mining technique and case-based reasoning (TM-CBR) for supporting green building design[J]. Building and Environment, 2017, 124: 388-401.
[61] HOBBS J R, RILOFF E. Information extraction[M]. 2nd ed. Boca Raton: CRC Press, 2010: 515-530.
[62] LEE J, YI J S, SON J. Development of automatic-extraction model of poisonous clauses in international construction contracts using rule-based NLP[J]. Journal of Computing in Civil Engineering, 2019, 33(3): 04019003.
[63] MARZOUK M, ENABA M. Text analytics to analyze and monitor construction project contract and correspondence[J]. Automation in Construction, 2019, 98: 265-274.
[64] ZHANG J, EL-GOHARY N. Automated regulatory information extraction from building codes: Leveraging syntactic and semantic information[C]//American Society of Civil Engineers Construction Research Congress 2012. Reston, VA: American Society of Civil Engineers, 2012: 622-632.
[65] ZHANG J, EL-GOHARY N. Extraction of construction regulatory requirements from textual documents using natural language processing techniques[C]//International Conference on Computing in Civil Engineering. Reston, VA: American Society of Civil Engineers, 2012: 453-460.
[66] ZHANG J S, EL-GOHARY N M. Automated information transformation for automated regulatory compliance checking in construction[J]. Journal of Computing in Civil Engineering, 2015, 29(4): B4015001-(1-16).
[67] ZHANG J S, EL-GOHARY N M. Semantic NLP-based information extraction from construction regulatory documents for automated compliance checking[J]. Journal of Computing in Civil Engineering, 2016, 30(2): 04015014-(1-14).
[68] LE T, DAVID JEONG H. NLP-based approach to semantic classification of heterogeneous transportation asset data terminology[J]. Journal of Computing in Civil Engineering, 2017, 31(6): 04017057-(1-14).
[69] LENG S, HU Z Z, LUO Z, et al. Automatic MEP knowledge acquisition based on documents and natural language processing[C]//The 36th CIB W78 2019 Conference: IT in Design, Construction, and Management. Newcastle: Northumbria University, 2009: 800-809.
[70] 王丹, 宮晶晶. 基于知識圖譜的國內建筑安全領域可視化研究[J]. 工程管理學報, 2016, 30(6): 43-48. WANG D, GONG J J. Visualization research in China building safety analysis based on mapping knowledge domain[J]. Journal of Engineering Management, 2016, 30(6): 43-48 (in Chinese).
[71] 陳奕宇, 王澤根. 建筑行業(yè)的聚焦點: 國內BIM研究的知識圖譜分析[J]. 美與時代: 城市版, 2016(9):18-20. CHEN Y Y, WANG Z G. The focus point of construction industry: knowledge map analysis of BIM research in China[J]. Beauty and Times: City, 2016(9): 18-20 (in Chinese).
[72] 鄧逸川, 吉嘉, 吳松飛, 等. 基于社交網(wǎng)絡分析的中國BIM學術影響力分析[C]//第三屆全國BIM學術會議論文集. 北京: 中國建筑工業(yè)出版社數(shù)字出版中心, 2017: 316-322. DENG Y C, JI J, WU S F, et al. Analysis of the academic influence of BIM in China based on social network analysis[C]//The Third BIM Academic Conference. Beijing: China Building Industry Press Digital Publishing Center, 2017: 316-322 (in Chinese).
[73] 李驍. 基于知識圖譜的建筑信息模型知識體系框架研究[D]. 重慶: 重慶大學, 2016. LI X. Study on building information modelling body of knowledge (BIMBOK): a knowledge map approach[D]. Chongqing: Chongqing University, 2018 (in Chinese).
[74] 朱記偉, 蔣雅麗, 翟曌, 等. 基于知識圖譜的國內外BIM領域研究對比[J]. 土木工程學報, 2018, 51(2): 113-120.ZHU J W, JIANG Y L, ZHAI Z, et al. Comparative research of BIM based on mapping knowledge domains at home and abroad[J]. China Civil Engineering Journal, 2018, 51(2): 113-120 (in Chinese).
[75] ZHONG B T, WU H T, DING L Y, et al. Mapping computer vision research in construction: developments, knowledge gaps and implications for research[J]. Automation in Construction, 2019, 107: 102919.
[76] 張琳, 陳立文, 曹江紅, 等. 基于CiteSpace軟件的綠色建筑知識圖譜分析[J]. 山東建筑大學學報, 2018, 33(3): 26-31.ZHANG L, CHEN L W, CAO J H, et al. Visualizing analysis of green building knowledge mapbased on Citespace software[J]. Journal of Shandong Jianzhu University, 2018, 33(3): 26-31 (in Chinese).
[77] 黃亞江, 李卓敏, 張子晨, 等. 基于CiteSpace文獻計量法的國內裝配式建筑研究可視化知識圖譜分析[J]. 項目管理技術, 2019, 17(3): 40-47.HUANG Y J, LI Z M, ZHANG Z C, et al. Visualizing analysis of green building knowledge mapbased on CiteSpace software[J]. Project Management Technology, 2017, 17(3): 40-47 (in Chinese).
[78] KOVACEVIC M, NIE J Y, DAVIDSON C. Providing answers to questions from automatically collected web pages for intelligent decision making in the construction sector[J]. Journal of Computing in Civil Engineering, 2008, 22(1): 3-13.
[79] JUNG N, LEE G. Automated classification of building information modeling (BIM) case studies by BIM use based on natural language processing (NLP) and unsupervised learning[J]. Advanced Engineering Informatics, 2019, 41: 100917.
[80] LEE J, YI J S. Predicting project's uncertainty risk in the bidding process by integrating unstructured text data and structured numerical data using text mining[J]. Applied Sciences, 2017, 7(11): 1141.
[81] NIU J, ISSA R R A. Rule-based NLP methodology for semantic interpretation of impact factors for construction claim cases[C]//2014 International Conference on Computing in Civil and Building Engineering Orlando. Reston, VA: American Society of Civil Engineers, 2014: 2263-2270.
[82] WAZIRI B S, BALA K, BUSTANI S A. Artificial neural networks in construction engineering and management[J]. International Journal of Architecture, Engineering and Construction, 2017, 6(1): 50-60.
A review of natural language processing application in construction engineering
WANG Yu1, DENG Hui1, LI Xiao-yao1, DENG Yi-chuan1,2
(1. School of Civil Engineering and Transportation, South China University of Technology, Guangzhou Guangdong 510640, China; 2. State Key Laboratory of Subtropical Building Science, Guangzhou Guangdong 510640, China)
Natural language processing (NLP) can transform unstructured documents in the construction field into structured information, which is convenient for relevant practitioners to carry out daily management of construction projects. In recent years, NLP-related algorithms have been widely developed, but pertinent research in the construction field is still in its infancy. Through examining the past-decade literature on NLP in construction, the past research conducted on the technical level and application level at home and abroad was sorted out.The development, common methods and the open source tools of NLP were outlined. More importantly, the application of NLP in various stages of construction was summarized from the perspectives of statistical analysis tools, application systems and three other aspects. In addition, the extant problems of NLP in the construction field were discussed and future prospects were proposed from the three aspects of technology, construction industry and government.
natural language processing; construction management; technology research; application research;text mining
TP 391
10.11996/JG.j.2095-302X.2020040501
A
2095-302X(2020)04-0501-11
2020-03-24;
2020-05-13
13 May, 2020
24 March, 2020;
廣東省自然科學基金項目(2018A030310363, 2017A030313393);廣州市科技計劃項目重點項目(20181003SF0059);亞熱帶建筑科學國家重點實驗室自主課題(2017KB12)
Natural Science Foundation of Guangdong Province (2018A030310363, 2017A030313393); Key Project of Guangzhou Science and Technology Plan Project (20181003SF0059); Independent Project of State Key Laboratory of Subtropical Building Science (2017KB12)
王 煜(1996–),女,黑龍江哈爾濱人,碩士研究生。主要研究方向為建筑信息模型、自然語言處理。E-mail:ywang_scut@163.com
WANG Yu (1996–), female, master student. Her main research interests cover BIM, NLP. E-mail: ywang_scut@163.com
鄧逸川(1989–),男,廣東河源人,助理教授,博士。主要研究方向為建筑信息模型、計算機視覺。E-mail:ctycdeng@scut.edu.cn
DENG Yi-chuan (1989–), male, assistant professor, Ph.D.His main research interests cover BIM, CV. E-mail: ctycdeng@scut.edu.cn