大語言模型在油氣上游業(yè)務(wù)落地的技術(shù)實(shí)踐

2024-06-27 12:21:26楊明澔李小波曾倩李欣

信息系統(tǒng)工程 2024年6期

楊明澔李小波曾倩李欣

摘要：人工智能大語言模型是一種經(jīng)過大量文本數(shù)據(jù)預(yù)訓(xùn)練、具有大量參數(shù)的深度學(xué)習(xí)模型。針對大語言模型落地油氣上游業(yè)務(wù)領(lǐng)域存在的專業(yè)認(rèn)知深度、可信度以及能力拓展等方面的挑戰(zhàn)，探討了相關(guān)技術(shù)途徑，包括專業(yè)知識(shí)語料準(zhǔn)備、微調(diào)、知識(shí)嵌入、檢索增強(qiáng)等，并通過打造大語言模型應(yīng)用PetroAI來實(shí)踐其中關(guān)鍵技術(shù)。初步應(yīng)用效果表明：在通用大語言模型基礎(chǔ)上，通過內(nèi)部專業(yè)知識(shí)的嵌入與增強(qiáng)，為油氣上游業(yè)務(wù)知識(shí)共享和智能化利用提供了新的技術(shù)手段，具有廣闊的應(yīng)用前景。針對如何提升大語言模型在油氣上游業(yè)務(wù)的應(yīng)用范圍和效果，仍需進(jìn)一步探索研究。

關(guān)鍵詞：大語言模型；油氣上游；知識(shí)智能化；知識(shí)嵌入；檢索增強(qiáng)

一、前言

大語言模型（LLM）是指經(jīng)過大量文本數(shù)據(jù)預(yù)訓(xùn)練、包含幾十甚至上千億參數(shù)量的深度學(xué)習(xí)模型（簡稱大模型），具有強(qiáng)大的自然語言表達(dá)能力和泛化能力，可以識(shí)別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容，將信息傳遞密度從“數(shù)據(jù)”提高到“答案”。自2022年開始，大模型相關(guān)研究快速上升為人工智能學(xué)術(shù)研究熱點(diǎn)，國際計(jì)算語言學(xué)年會(huì)（ACL）大模型相關(guān)文章數(shù)量從2022年的48篇增長到2023年的121篇，占發(fā)布文章的約10%，大模型也在自然語言理解任務(wù)，限定條件和無限定條件的自然語言生成等任務(wù)上取得領(lǐng)先表現(xiàn)。2022年11月基于大模型的生成式應(yīng)用ChatGPT發(fā)布后，國內(nèi)外大模型正經(jīng)歷爆發(fā)式增長，先后推出了包括BLOOM、GLM、LLaMA等開源大模型以及文心一言、星火認(rèn)知、通義千問等閉源大模型。據(jù)不完全統(tǒng)計(jì)，截至2023年8月底國內(nèi)已經(jīng)發(fā)布的大模型數(shù)量已經(jīng)過百。隨著大模型逐步成熟，其在垂直領(lǐng)域落地應(yīng)用趨勢越發(fā)明顯[1]，目前金融、醫(yī)療、教育、地學(xué)、電力等多個(gè)行業(yè)已經(jīng)利用大模型轉(zhuǎn)變傳統(tǒng)知識(shí)工作模式。

大模型落地垂直行業(yè)，仍面臨一些挑戰(zhàn)：大模型的預(yù)訓(xùn)練語料大都來自公開的通用語料，部署在公有云上，缺乏行業(yè)內(nèi)部數(shù)據(jù)和專業(yè)知識(shí)，直接使用存在缺乏行業(yè)認(rèn)知深度、數(shù)據(jù)安全隱患、內(nèi)容及時(shí)性和可信度無法保障等問題。此外，大模型部署還存在部署和運(yùn)行成本方面的挑戰(zhàn)。

油氣產(chǎn)業(yè)鏈條長，業(yè)務(wù)面廣，專業(yè)性強(qiáng)，數(shù)字化轉(zhuǎn)型和智能化發(fā)展過程中面臨多樣化和碎片化的需求挑戰(zhàn)。大模型在油氣上游業(yè)務(wù)的落地應(yīng)用，將聚合公司內(nèi)外部各類業(yè)務(wù)數(shù)據(jù)和專業(yè)知識(shí)并智能化應(yīng)用，顯著提升業(yè)務(wù)報(bào)告撰寫、專業(yè)工具使用、業(yè)務(wù)問題推理分析、措施建議推薦等知識(shí)密集型任務(wù)工作效率和決策管理水平，將重構(gòu)目前油氣行業(yè)技術(shù)研發(fā)生態(tài)和價(jià)值體系，加速“數(shù)字中國石油”目標(biāo)實(shí)現(xiàn)，助推業(yè)務(wù)一體化和高質(zhì)量發(fā)展，提升數(shù)字時(shí)代企業(yè)的核心競爭力。

二、大語言模型落地油氣上游業(yè)務(wù)的關(guān)鍵技術(shù)

（一）油氣上游業(yè)務(wù)技術(shù)特點(diǎn)分析

從知識(shí)工程角度看，油氣上游業(yè)務(wù)具有如下四個(gè)方面的突出特點(diǎn)。

專業(yè)多學(xué)科：油氣上游業(yè)務(wù)鏈條長，專業(yè)面廣，認(rèn)識(shí)和開發(fā)利用地下油氣資源除了本專業(yè)相關(guān)知識(shí)外，還需要綜合物理、化學(xué)、生物、地質(zhì)、力學(xué)等學(xué)科知識(shí)。如何有效融合各學(xué)科專業(yè)知識(shí)，保證輸出內(nèi)容的專業(yè)深度和可靠性，是大模型落地油氣上游業(yè)務(wù)首先要面對的問題。

資料多模態(tài)：勘探開發(fā)過程中形成的專業(yè)數(shù)據(jù)來源廣、類型多、數(shù)據(jù)體量分布不均，包括但不限于地震、測井、巖心、露頭、實(shí)驗(yàn)和生產(chǎn)測試過程中產(chǎn)生的圖像、音視頻、曲線、結(jié)構(gòu)化表格、文字報(bào)告、專業(yè)軟件輸出結(jié)果文件等，如何有效利用這些多模態(tài)數(shù)據(jù)資料提升大模型的專業(yè)深度，是大模型落地的一大挑戰(zhàn)。

對象不確定：受探測手段精度和可靠樣本數(shù)的限制，地下儲(chǔ)層認(rèn)識(shí)都存在不同程度的不確定性，相應(yīng)的解釋結(jié)果、方案措施往往都存在多種可能選擇，如何動(dòng)態(tài)引入地下鉆采數(shù)據(jù)和專家知識(shí)約束，提高輸出答案的質(zhì)量，也是大模型深度應(yīng)用的關(guān)鍵挑戰(zhàn)。

數(shù)據(jù)實(shí)時(shí)性：油氣勘探開發(fā)過程中某些數(shù)據(jù)具有實(shí)時(shí)性要求，這些數(shù)據(jù)往往存儲(chǔ)在特定數(shù)據(jù)庫中，使用者需要根據(jù)這些數(shù)據(jù)作出分析決策。受計(jì)算資源和成本限制，大模型無法通過預(yù)訓(xùn)練過程實(shí)時(shí)更新其知識(shí)語料，需要通過檢索相關(guān)數(shù)據(jù)庫獲取實(shí)時(shí)資料。

（二）大語言模型落地油氣上游業(yè)務(wù)的關(guān)鍵技術(shù)

從前面分析可以看到，大模型落地油氣上游業(yè)務(wù)領(lǐng)域，需要結(jié)合勘探開發(fā)的業(yè)務(wù)特點(diǎn)，重點(diǎn)需要提升大模型在行業(yè)認(rèn)知深度、內(nèi)容可信度和實(shí)時(shí)性方面的能力，需要突破如下幾個(gè)方面的關(guān)鍵技術(shù)。

1.高質(zhì)量專業(yè)語料準(zhǔn)備

油氣上游業(yè)務(wù)領(lǐng)域構(gòu)建高質(zhì)量專業(yè)語料，主要包括三個(gè)方面：名詞釋義，知識(shí)圖譜，問答對。

百科語料庫是訓(xùn)練大模型的必要語料之一，其中包含了大量的條目，涵蓋了各種石油上游的主題。通過專家編纂而成，因此它們提供了高質(zhì)量的語言數(shù)據(jù)，包含了廣泛的詞匯和語法結(jié)構(gòu)，并且這些條目通常都按照一定的結(jié)構(gòu)組織，例如分類和層級結(jié)構(gòu)，這有助于訓(xùn)練模型理解和處理復(fù)雜的語言結(jié)構(gòu)。是訓(xùn)練大模型的基石。

問答對語料[2]庫是另一種重要的語料來源，其中包含了大量的問題和答案對。有時(shí)候一個(gè)問題會(huì)有多個(gè)答案。這種語料庫可以幫助模型學(xué)習(xí)如何處理自然語言交互，例如如何理解問題和如何生成適當(dāng)?shù)拇鸢?，明白正確的回答，較差的回答和錯(cuò)誤的回答是什么樣的，并且對齊用戶的思考。問答對語料庫還可以幫助訓(xùn)練模型理解語言的上下文和推理能力，提高回復(fù)的質(zhì)量。

知識(shí)圖譜[3]是一種用于表示實(shí)體和它們之間關(guān)系的圖形化數(shù)據(jù)結(jié)構(gòu)，它包含了各種領(lǐng)域的大量知識(shí)。知識(shí)圖譜可以幫助訓(xùn)練大模型理解實(shí)體之間的關(guān)系，例如分類、屬性和關(guān)系。知識(shí)圖譜還可以幫助模型理解語言中的隱含意義和推理，可以一定程度上限制大模型的偏見和幻覺。

2.知識(shí)嵌入與檢索增強(qiáng)

油氣上游業(yè)務(wù)領(lǐng)域已經(jīng)建立起各類專業(yè)數(shù)據(jù)庫與知識(shí)庫，提供了實(shí)時(shí)性與專業(yè)性極強(qiáng)的數(shù)據(jù)知識(shí)語料，可通過知識(shí)嵌入與檢索增強(qiáng)來提高大模型解決油氣上游專業(yè)問題的能力。

知識(shí)嵌入是通過向量化技術(shù)將文本、圖像等類型的業(yè)務(wù)知識(shí)從稀疏樣本空間投影到稠密向量空間，參與深度學(xué)習(xí)的訓(xùn)練和預(yù)測過程。知識(shí)嵌入與檢索增強(qiáng)兩者都依賴向量數(shù)據(jù)庫[4]，通過對多種數(shù)據(jù)進(jìn)行編碼后，作為索引存儲(chǔ)，可以進(jìn)一步加快搜索的效率。與基礎(chǔ)數(shù)據(jù)庫的針對文字標(biāo)簽的模糊搜索相比，向量作為索引的情況下，允許對多模態(tài)的信息搜索，允許用戶通過自然語言去搜索對應(yīng)文字信息，并且對于基于語言大模型為入口的應(yīng)用，向量化文字和圖片信息有助于增強(qiáng)基礎(chǔ)大模型和多模態(tài)大模型的知識(shí)蒸餾與更新。

向量檢索過程包括三個(gè)技術(shù)：各個(gè)模態(tài)的編碼技術(shù)，向量數(shù)據(jù)庫和計(jì)算向量距離的算法。向量數(shù)據(jù)庫會(huì)先把多模態(tài)信息根據(jù)固定的編碼格式和升維方法，提取出其中的特征，當(dāng)用戶使用同樣格式的信息進(jìn)行搜尋的時(shí)候，向量數(shù)據(jù)庫會(huì)將用戶輸入的信息也向量化，之后通過計(jì)算向量間的距離，確認(rèn)相似度，并且輸出相似度高的對應(yīng)模態(tài)。

3.模型效率微調(diào)

在節(jié)省硬件資源的前提下，讓大模型對齊下游任務(wù)成為挑戰(zhàn)。傳統(tǒng)的全參數(shù)微調(diào)對硬件的要求與預(yù)訓(xùn)練所需不相上下。為了更好地使用大模型，通過凍結(jié)部分或者全部模型參數(shù)，進(jìn)行部分參數(shù)調(diào)優(yōu)的技術(shù)發(fā)展了起來。

在對于模型的微調(diào)方面，早期的思想是在模型中添加一些參數(shù)以保證其在下游任務(wù)中的效果。其中包括prompt-tuning，prefix-tuning，p-tuning等通過在輸入層加入前綴完成參數(shù)效率微調(diào)[5]，adapter等通過在大模型中加入可訓(xùn)練層進(jìn)行微調(diào)[6]。

但是，以上的方式都存在問題：由于增加了模型的深度從而額外增加了模型推理的延時(shí)。Prompt較難訓(xùn)練，同時(shí)減少了模型的可用序列長度，方法往往效率和質(zhì)量不可兼得，效果差于full-finetuning。LoRA模型誕生了，它通過凍結(jié)預(yù)訓(xùn)練模型權(quán)重并注入可訓(xùn)練的秩分解矩陣來減少可訓(xùn)練參數(shù)的數(shù)量，從而實(shí)現(xiàn)精煉模型。這被稱為“Low-Rank Adaptation”（LoRA）[7]。在GPT-3上訓(xùn)練發(fā)現(xiàn)該技術(shù)可以降低硬件入門門檻3倍。

三、油氣勘探開發(fā)大語言模型應(yīng)用實(shí)踐

本文研發(fā)團(tuán)隊(duì)圍繞上述關(guān)鍵技術(shù)開展了一系列攻關(guān)，通過打造油氣勘探開發(fā)大語言模型應(yīng)用PetroAI來實(shí)踐上述部分關(guān)鍵技術(shù)。

（一）專業(yè)語料準(zhǔn)備

構(gòu)建了一個(gè)石油的百科，包括26509條具體釋義（見圖1）。通過對英文、中文的對齊和并且基于含義分類，作為知識(shí)圖譜構(gòu)建本體和實(shí)體的基礎(chǔ)，也作為大模型分詞器的起點(diǎn)。支持通過其中字詞和首字母進(jìn)行查詢，并且支持后臺(tái)編輯其中字詞以保證信息鮮度。

在此之上，結(jié)合其他分詞字典了，通過sentence piece技術(shù)構(gòu)建了一個(gè)石油專業(yè)分詞器（見圖2），與傳統(tǒng)大模型自帶的分詞器相比，石油專業(yè)分詞器可以更好地對石油文章進(jìn)行分詞。分詞器作為自然語言處理的基礎(chǔ)，可以幫助模型更好地處理石油相關(guān)概念。

對于石油知識(shí)的記憶與展示，基于圖數(shù)據(jù)庫的知識(shí)圖譜是最好的語料。通過對本體和實(shí)體的構(gòu)建，院協(xié)同研究平臺(tái)通過平臺(tái)上上萬篇石油論文，構(gòu)建出有33377個(gè)節(jié)點(diǎn)和25369條關(guān)系的石油勘探開發(fā)主干知識(shí)圖譜，為未來構(gòu)建知識(shí)圖譜相關(guān)應(yīng)用和大模型檢索提供基礎(chǔ)。

問答對作為支持大模型和人類對齊的基礎(chǔ)語料，能更好地讓大模型學(xué)習(xí)到如何輸出正確的格式和形式，并且在已有問答對的情況下對話機(jī)器人與人類交談時(shí)可以保證正確和簡潔的輸出。在問答對的創(chuàng)建上，結(jié)合大模型的基礎(chǔ)能力，構(gòu)建了可以通過直接將文章片段放入后生成json格式的問答對功能（見圖3）。在問答對的使用上，通過院協(xié)同研究平臺(tái)后端可以修改其中的問答對并且可以進(jìn)行啟用和禁用。

（二）知識(shí)嵌入與檢索增強(qiáng)

為了充分利用企業(yè)內(nèi)部知識(shí)庫，提供生產(chǎn)內(nèi)容的專業(yè)可信度，嵌入了油氣上游知識(shí)圖譜和石油百科內(nèi)容，通過檢索來提高生產(chǎn)內(nèi)容的專業(yè)質(zhì)量。

（三）模型微調(diào)

通過從數(shù)千篇石油科技文檔上準(zhǔn)備高價(jià)值問答對，并且使用ptunring或者lora技術(shù)對模型進(jìn)行監(jiān)督微調(diào)和人類反饋學(xué)習(xí)，改善了大模型的“偏見”和“幻覺”，將一些詞的通用領(lǐng)域概念特征修改為石油領(lǐng)域的特征（見圖4），并且更加詳細(xì)地展示在石油領(lǐng)域具體問題的分析細(xì)節(jié)和研究成果。

（四）文檔知識(shí)庫問答

利用大模型開發(fā)框架LangChain，將知識(shí)庫中的文本切塊并且向量化，能在用戶提出問題的時(shí)候快速找到對應(yīng)文章塊并注入大模型。通過這個(gè)過程，用戶可以更加方便地獲取文章的全部或者部分的簡介，或者通過文章塊提高大模型對問題的回復(fù)質(zhì)量。PetroAI支持建立知識(shí)庫對文章的動(dòng)態(tài)管理，并且之后將會(huì)針對用戶的權(quán)限進(jìn)行文檔訪問的限制，進(jìn)一步保證信息安全（見圖5）。

四、下一步探索的技術(shù)方向

為了進(jìn)一步發(fā)揮大模型在油氣上游業(yè)務(wù)的應(yīng)用效果和范圍，還有如下一些方面值得進(jìn)一步探索。

（一）多模態(tài)知識(shí)應(yīng)用

油氣勘探開發(fā)業(yè)務(wù)中數(shù)據(jù)具有文本、圖片、音視頻以及特定專業(yè)格式。如何與基于文本的大語言模型融合實(shí)現(xiàn)多模態(tài)知識(shí)使用是行業(yè)當(dāng)前痛點(diǎn)。主流的方法分為兩個(gè)，多模態(tài)的互相轉(zhuǎn)換和多模態(tài)的特征融合。由于大語言模型的核心為文字，如果可以將其他模態(tài)的信息轉(zhuǎn)換成文字，就可以使用提示詞工程將這些信息作為先驗(yàn)知識(shí)加入模型的輸入[8]。接下來的多模態(tài)轉(zhuǎn)換主要討論的是其他模態(tài)的信息怎么通過模型以文字的方式輸出。而通過將多模態(tài)的知識(shí)進(jìn)行編碼，提取其特征。之后在模型中進(jìn)行特征融合。模型針對融合后的特征進(jìn)行解碼，在這個(gè)過程中，模型可以依據(jù)多模態(tài)知識(shí)正確回復(fù)用戶提問[9]。

（二）代理（Agent）

Agent應(yīng)用于語言大模型[10]，現(xiàn)實(shí)世界場景中的智能Agent（人類或人工）可以從交換信息中受益匪淺，這些信息使它們能夠協(xié)調(diào)、制定戰(zhàn)略并利用其組合的感官體驗(yàn)來在物質(zhì)世界中行動(dòng)。為了增強(qiáng)大模型的推斷能力，需要讓大模型與其他模型和軟件協(xié)作，并且現(xiàn)有的石油產(chǎn)業(yè)已經(jīng)沉淀了很多的模型，可以給大模型進(jìn)一步的支持。進(jìn)一步來說，大模型在數(shù)學(xué)計(jì)算上面也存在一定問題，高等數(shù)學(xué)等計(jì)算的準(zhǔn)確率無法達(dá)到可用的級別。在模型應(yīng)用方面，由于語言大模型主要輸出手段是文字，而想應(yīng)用其優(yōu)秀的推斷能力進(jìn)行自動(dòng)化生產(chǎn)還需要其他軟件配套。

五、結(jié)論

本文探討了語言大模型在油氣上游領(lǐng)域應(yīng)用的難題，對關(guān)鍵技術(shù)的探索與時(shí)間和未來的方向。在探討大模型在油氣上游應(yīng)用的主要方向時(shí)，可以看到，隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展，大模型的應(yīng)用前景越來越廣闊。在油氣勘探和開發(fā)領(lǐng)域，大模型可以更好地輔助用戶減少部分重復(fù)的文字工作，輔助策略決定。然而，大模型在油氣上游應(yīng)用仍面臨許多挑戰(zhàn)和問題，比如回復(fù)的部分情況下會(huì)有的錯(cuò)誤和幻覺。因此，我們需要進(jìn)一步加強(qiáng)技術(shù)研究和創(chuàng)新，不斷優(yōu)化和完善大語言模型在油氣上游業(yè)務(wù)的應(yīng)用，助力油氣勘探和開發(fā)業(yè)務(wù)的智能化發(fā)展。

參考文獻(xiàn)

[1]Pir R M.Large language models （llm）： need， methods，and research trends[J].2023，13（1）.

[2]易洪川.關(guān)于問答對[J].湖北大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），1992（05）：28-34.

[3]Hogan A， Blomqvist E， Cochez M， et al.Knowledge graphs[J].ACM Computing Surveys， 2022， 54（4）： 1–37.

[4]Guo R， Luan X， Xiang L，et al.Manu： a cloud native vector database management system： arXiv：2206.13843[Z/OL].arXiv， 2022（2022–06–28）[2023–10–16].http：//arxiv.org/abs/2206.13843.

[5]Liu X， Zheng Y， Du Z， et al. GPT understands， too： arXiv：2103.10385[Z/OL].arXiv， 2021（2021–03–18）[2023–07–25].http：//arxiv.org/abs/2103.10385.

[6]Houlsby N， Giurgiu A， Jastrzebski S，等.Parameter-efficient transfer learning for nlp： arXiv：1902.00751[Z/OL].arXiv， 2019（2019–06–13）[2023–10–13].http：//arxiv.org/abs/1902.00751.

[7]Hu E J， Shen Y， Wallis P， et al.LoRA： low-rank adaptation of large language models： arXiv：2106.09685[Z/OL].arXiv， 2021（2021–10–16）[2023–07–25].http：//arxiv.org/abs/2106.09685.

[8]Wu C， Yin S， Qi W，et al.Visual chatgpt： talking， drawing and editing with visual foundation models： arXiv：2303.04671[Z/OL].arXiv， 2023（2023–03–08）[2023–10–13].http：//arxiv.org/abs/2303.04671.

[9]Zhu D， Chen J， Shen X，et al.MiniGPT-4： enhancing vision-language understanding with advanced large language models： arXiv：2304.10592[Z/OL].arXiv， 2023（2023–04–20）[2023–04–25]. http：//arxiv.org/abs/2304.10592.

[10]Abhishek D， Théophile G， Joshua R， Dhruv B， Devi P， Michael R， Joelle P， et al.TarMAC： Targeted Multi-Agent Communication.[J]. Computing Research Repository， 2019， abs/1810.11187.

基金項(xiàng)目：1.中國石油天然氣集團(tuán)公司“十四五”重點(diǎn)科技項(xiàng)目“油氣勘探開發(fā)人工智能關(guān)鍵技術(shù)研究”（項(xiàng)目編號：2023DJ84-06）；2.中國石油勘探開發(fā)研究院信息化重點(diǎn)項(xiàng)目“勘探開發(fā)知識(shí)成果共享與協(xié)同研究平臺(tái)”

作者單位：中國石油勘探開發(fā)研究院人工智能研究中心、中國石油天然氣集團(tuán)有限公司勘探開發(fā)人工智能技術(shù)研發(fā)中心

■ 責(zé)任編輯：張津平、尚丹

信息系統(tǒng)工程2024年6期

信息系統(tǒng)工程的其它文章: 高職院校教育數(shù)字化轉(zhuǎn)型的實(shí)踐與研究; 基于OBE理念的立體化教學(xué)評價(jià)體系研究; 基于番茄工作法的“網(wǎng)頁設(shè)計(jì)與制作”課程教學(xué)模式探索; 基于現(xiàn)代學(xué)徒制的云計(jì)算技術(shù)應(yīng)用專業(yè)人才培養(yǎng)模式探究; 信息化背景下真實(shí)問題解決方案的數(shù)學(xué)思維模式教學(xué)改革研究; 以MOOC為基礎(chǔ)的個(gè)性化學(xué)習(xí)路徑的生成與探索

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大語言模型在油氣上游業(yè)務(wù)落地的技術(shù)實(shí)踐