国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT 模型的勘探開發(fā)資料關(guān)鍵信息智能提取

2023-05-18 02:47:10李新鋒黃凌宇崔立敏倪子顏中海石油中國有限公司深圳分公司廣東深圳518000
化工管理 2023年14期
關(guān)鍵詞:勘探閾值向量

李新鋒,黃凌宇,崔立敏,倪子顏 (中海石油(中國)有限公司深圳分公司,廣東 深圳 518000)

1 基于BERT 模型的關(guān)鍵信息提取

BERT 預(yù)訓(xùn)練語言模型是一種基于Transformer結(jié)構(gòu)的預(yù)訓(xùn)練網(wǎng)絡(luò)[1]。根據(jù)給定的輸入文本,學(xué)習(xí)利用上下文給出詞嵌入表示,分別計算關(guān)鍵向量、查詢向量和值向量,融合使用注意力機制,獲得當前輸入文本與上下文語義的關(guān)系及其業(yè)務(wù)信息和含義,使用多頭注意力機制,動態(tài)生成詞向量,不斷獲取更符合實際的向量表示。

1.1 提取流程

本文將勘探開發(fā)成果資料關(guān)鍵信息抽取的分析過程看作是文本分類任務(wù),對文本預(yù)處理、分詞、模型構(gòu)建和分類,結(jié)合BERT 預(yù)訓(xùn)練語言模型實現(xiàn)關(guān)鍵信息提煉抽取。本文模型框架如圖1 所示。

圖1 關(guān)鍵信息抽取模型框架

主要包含三個部分:(1) 數(shù)據(jù)輸入層:為了分詞準確,對數(shù)據(jù)預(yù)處理過濾,在分詞后停用詞處理。根據(jù)資料特性,將文本劃分為頭部、主體和尾部三個結(jié)構(gòu),對每個結(jié)構(gòu)模塊分別處理;(2)模型構(gòu)建層:利用海油AI 平臺的文本分類算子逐層訓(xùn)練,結(jié)合業(yè)務(wù)含義拼接生成表征文本的向量,將結(jié)果輸入到網(wǎng)絡(luò)模型。樣本數(shù)據(jù)量不足時,使用通用領(lǐng)域語料預(yù)處理和微調(diào)(Finetuning)技術(shù)防止過擬合[2],免去模型設(shè)計的復(fù)雜度及訓(xùn)練的久耗時,通過生成的詞嵌入向量得到上下文信息,獲取文本中業(yè)務(wù)領(lǐng)域詞匯的語義特征最優(yōu)結(jié)果;(3) 結(jié)果輸出層:通過本模型獲取到的語義向量輸入歸一化指數(shù)函數(shù)(Softmax)以概率的形式展示多分類結(jié)果[3],實現(xiàn)對成果信息提取的設(shè)定。

1.2 模型訓(xùn)練

本文模型訓(xùn)練涵蓋以下六項內(nèi)容。

(1) 數(shù)據(jù)預(yù)處理。通過海油數(shù)據(jù)湖平臺獲取到油氣田勘探開發(fā)成果數(shù)據(jù),對部分成果資料中存在錯誤或無實際意義的特殊字符以及停用詞,使用Python 語言編寫規(guī)則化表達式刪除無意義的符號,確保數(shù)據(jù)清潔。

(2)數(shù)據(jù)增強。針對部分業(yè)務(wù)場景數(shù)據(jù)量較少的類別,模型很難學(xué)習(xí)到該業(yè)務(wù)類別的特征。面對數(shù)據(jù)集中存在長尾數(shù)據(jù)場景,本文通過簡單數(shù)據(jù)增強(easy data augmentation, EDA)方法對長尾數(shù)據(jù)擴充,在較少數(shù)據(jù)集上訓(xùn)練時可顯著提升性能并減少過擬合。EDA采用四種操作:

同義詞替換(synonyms replace,SR):隨機從句子中抽n 個詞( 不包括停用詞),然后隨機找出抽取這些詞的同義詞,用同義詞將原詞替換。例如將句子“這是我使用的勘探開發(fā)業(yè)務(wù)數(shù)據(jù)”替換成 “這是我所用的勘探開發(fā)數(shù)據(jù)”。SR 后句子大概率還是會有相同標簽。

隨機插入(randomly insert,RI):隨機從句子中抽取1 個詞(抽取時不包括停用詞),然后隨機選擇一個該詞的同義詞,插入原來句子中的隨機位置,重復(fù)n次。例如將句子“這是我使用的勘探開發(fā)業(yè)務(wù)數(shù)據(jù)”改為“這是我勘探開發(fā)業(yè)務(wù)數(shù)據(jù)使用的”。

隨機交換(randomly swap,RS):在句子中,隨機交換兩個詞位置,重復(fù)這一過程n 次。例如將句子“這是我使用的勘探開發(fā)業(yè)務(wù)數(shù)據(jù)”改為“使用的我勘探開發(fā)業(yè)務(wù)數(shù)據(jù)這是”。

隨機刪除(randomly delete,RD):對于句子的每一個單詞,都有p 的概率會被刪除。例如將句子“這是我使用的勘探開發(fā)業(yè)務(wù)數(shù)據(jù)”改為“這是我勘探開發(fā)業(yè)務(wù)數(shù)據(jù)”。

(3)特征工程。從文本長度角度來看,油氣田勘探開發(fā)成果資料文本屬于長文本,且重要信息比較分散。為方便模型更好地學(xué)習(xí)到分類特征,本文將此類文本切分成頭部、主體和尾部三部分。其中頭部主要包含標題、編寫人信息、文件編號等信息;尾部包含歸檔日期、歸檔提交公司名稱等信息;主體則包含了文本除了頭部和尾部之外的所有具有勘探開發(fā)業(yè)務(wù)情況的正文內(nèi)容。

對于地層研究、地質(zhì)設(shè)計和工程設(shè)計文檔等經(jīng)過切分后正文內(nèi)容依舊很長的文本,本文決定采用TF-IDF(Term Frequency & Inverse Documentation Frequency)技術(shù)[4]進行關(guān)鍵詞提取,在信息檢索領(lǐng)域,技術(shù)人員廣泛使用此算法計算權(quán)重。

對于某一特征值,權(quán)重越大表明該特征項較為重要,一個詞在特定的文檔中出現(xiàn)的頻率越高,說明它在區(qū)分該文檔內(nèi)容屬性方面的能力越強;一個詞在文檔中出現(xiàn)的范圍越廣,說明它區(qū)分文檔內(nèi)容的屬性越低,選擇那些對一類作用大而對其他類作用小的特征保留下來。

(4)預(yù)訓(xùn)練BERT 算法模型。BERT 模型是有別于傳統(tǒng)CNN 和RNN 的一種新型架構(gòu),采用編碼器-解碼器框架,使用注意力機制進行機器翻譯任務(wù),規(guī)避了CNN 不適合序列化的文本和RNN 無法并行容易超出內(nèi)容限制的問題。該模型的Encoder 將輸入序列映射到連續(xù)表示,然后Decoder 生成一個輸出序列,每個時刻輸出一個結(jié)果。

(5) 模型輸出。通過使用Softmax 分類器來預(yù)測成果資料關(guān)鍵標簽,如:對具備業(yè)務(wù)含義的“壓裂”“出砂”“井下作業(yè)”等信息打標簽,該分類器將上一層得到的隱狀態(tài)作為輸入。

(6)目標損失函數(shù)。成果資料關(guān)鍵信息提取是一個多分類的問題,使用softmax 分類器輸出的標簽概率與實際標簽分布概率計算損失函數(shù)。

2 實驗

2.1 實驗環(huán)境及數(shù)據(jù)集

本實驗是在海油AI 平臺提供的開發(fā)環(huán)境下,基于Python 語言使用Pytorch 框架在Linux 環(huán)境開展。該平臺建于2019 年,整合了大部分深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型并結(jié)合海油業(yè)務(wù)實際定制開發(fā)和訓(xùn)練了較為成熟的算法模型,通過模型商城對外提供服務(wù)。

實驗使用了中海油勘探開發(fā)數(shù)據(jù)湖推送的成果資料,對初始數(shù)據(jù)預(yù)處理,篩選、去除無用信息,共使用了934 個勘探開發(fā)成果資料文本。為保障實驗效果,本文作者協(xié)同業(yè)務(wù)專家對獲取的文本關(guān)鍵信息進行了標注,全量數(shù)據(jù)的80%用作模型的訓(xùn)練集,10%用作測試集,10%用作驗證集。

2.2 超參數(shù)設(shè)置及實驗評價標準

2.2.1 超參數(shù)設(shè)置

標準BERT 模型具有base 和large 兩個版本,考慮到本實驗文件大、內(nèi)容復(fù)雜、對硬件要求高,本文選擇base 版本,分類模型采用的參數(shù),如表1 所示。

表1 參數(shù)設(shè)置

2.2.2 實驗評價標準

在機器學(xué)習(xí)、自然語言處理和信息檢索領(lǐng)域,混淆矩陣是一種表示精度評價的標準格式,具體評價指標包含準確率、精準率、召回率和F1值等。

各項標準的具體計算公式為:

式中:TP表示樣本為正,預(yù)測結(jié)果為正;FP表示樣本為負,預(yù)測結(jié)果為正;TN表示樣本為負,預(yù)測結(jié)果為負;FN表示樣本為正,預(yù)測結(jié)果為負。

2.3 實驗對比及結(jié)果分析

2.3.1 閾值設(shè)置

模型預(yù)測通常返回的是概率,可以原樣使用,也可以將概率轉(zhuǎn)換成二元值。處理復(fù)雜的勘探開發(fā)文檔時,為提高模型算法對數(shù)據(jù)的感知能力,先以概率分布輸出預(yù)測結(jié)果,結(jié)合實際業(yè)務(wù)數(shù)據(jù)分析不同類別之間判定閾值,評估需人工干預(yù)的程度,確保模型對類別的分辨能力足夠支撐模型預(yù)測。

例如:在進行鉆井地質(zhì)設(shè)計報告分類任務(wù)時,如果模型對某設(shè)計報告進行預(yù)測時返回的概率為0.999 5,表示模型預(yù)測這個非常可能是鉆井地質(zhì)設(shè)計報告。同一個模型預(yù)測分數(shù)為 0.000 3 的設(shè)計報告很可能不是。如果預(yù)測分數(shù)是0.6,為了將概率分布值映射到分類類別,必須指定分類閾值。當概率值高于該閾值,則表示“是”,如果概率值低于該閾值,則表示“不是”。

2.3.1 閾值分析

本文嘗試設(shè)置多組不同閾值,通過結(jié)果分析以尋找較合適的閾值。調(diào)整閾值對整體評估指標準確度(ACC)及每一個類別評估指標F1值的影響,如圖2 所示。

圖2 不同概率區(qū)間下ACC 及各類別F1 值分布

其中,左上圖代表整體ACC 隨著閾值設(shè)置的變化趨勢,其他圖代表不同類別的評估指標F1隨著閾值設(shè)置的變化趨勢。通過觀察可知,為了保證每一分類類別的指標都較好,閾值選擇0.95 比較合適。

3 結(jié)語

本文基于預(yù)訓(xùn)練語言模型雙向Transformers 編碼表示的成果資料的關(guān)鍵信息提取,對實際業(yè)務(wù)場景下的文本進行了訓(xùn)練預(yù)測,將文本切分為頭部、主體和尾部,利用數(shù)據(jù)增強技術(shù)對數(shù)據(jù)較少的類別進行擴充。通過生成文本的詞嵌入向量,有效獲取到上下文信息及勘探開發(fā)領(lǐng)域詞匯的語義特征。通過對不同閾值下模型的分類效果分析,模型的各個指標準確率在85%以上。隨著樣本量的不斷增加和機器學(xué)習(xí)算法的優(yōu)化,準確率將會進一步提升。本文僅是對勘探開發(fā)成果資料的關(guān)鍵標簽進行了研究和實現(xiàn),是利用自然語言處理技術(shù)對油氣行業(yè)的關(guān)鍵信息智能提取、數(shù)據(jù)高效利用和業(yè)務(wù)數(shù)據(jù)知識圖譜建設(shè)作出的積極嘗試與探索。

猜你喜歡
勘探閾值向量
油氣勘探開發(fā)三年滾動計劃編制的思考
化工管理(2022年14期)2022-12-02 11:43:00
向量的分解
聚焦“向量與三角”創(chuàng)新題
勘探石油
小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
基于自適應(yīng)閾值和連通域的隧道裂縫提取
比值遙感蝕變信息提取及閾值確定(插圖)
河北遙感(2017年2期)2017-08-07 14:49:00
春曉油氣田勘探開發(fā)的歷史
能源(2016年1期)2016-12-01 05:10:19
室內(nèi)表面平均氡析出率閾值探討
向量垂直在解析幾何中的應(yīng)用
汉源县| 通河县| 岑溪市| 孝昌县| 怀宁县| 通榆县| 神木县| 屯昌县| 北安市| 宜州市| 中卫市| 英德市| 奇台县| 沅江市| 华池县| 福州市| 衢州市| 玉环县| 如东县| 大同市| 元朗区| 平罗县| 财经| 城固县| 庆云县| 辉南县| 印江| 大埔县| 泉州市| 武山县| 河南省| 五家渠市| 郸城县| 苗栗县| 农安县| 广汉市| 翼城县| 邹平县| 巨野县| 德庆县| 高安市|