楊明澔 李小波 曾倩 李欣
摘要:人工智能大語言模型是一種經(jīng)過大量文本數(shù)據(jù)預(yù)訓(xùn)練、具有大量參數(shù)的深度學(xué)習(xí)模型。針對大語言模型落地油氣上游業(yè)務(wù)領(lǐng)域存在的專業(yè)認(rèn)知深度、可信度以及能力拓展等方面的挑戰(zhàn),探討了相關(guān)技術(shù)途徑,包括專業(yè)知識(shí)語料準(zhǔn)備、微調(diào)、知識(shí)嵌入、檢索增強(qiáng)等,并通過打造大語言模型應(yīng)用PetroAI來實(shí)踐其中關(guān)鍵技術(shù)。初步應(yīng)用效果表明:在通用大語言模型基礎(chǔ)上,通過內(nèi)部專業(yè)知識(shí)的嵌入與增強(qiáng),為油氣上游業(yè)務(wù)知識(shí)共享和智能化利用提供了新的技術(shù)手段,具有廣闊的應(yīng)用前景。針對如何提升大語言模型在油氣上游業(yè)務(wù)的應(yīng)用范圍和效果,仍需進(jìn)一步探索研究。
關(guān)鍵詞:大語言模型;油氣上游;知識(shí)智能化;知識(shí)嵌入;檢索增強(qiáng)
一、前言
大語言模型(LLM)是指經(jīng)過大量文本數(shù)據(jù)預(yù)訓(xùn)練、包含幾十甚至上千億參數(shù)量的深度學(xué)習(xí)模型(簡稱大模型),具有強(qiáng)大的自然語言表達(dá)能力和泛化能力,可以識(shí)別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容,將信息傳遞密度從“數(shù)據(jù)”提高到“答案”。自2022年開始,大模型相關(guān)研究快速上升為人工智能學(xué)術(shù)研究熱點(diǎn),國際計(jì)算語言學(xué)年會(huì)(ACL)大模型相關(guān)文章數(shù)量從2022年的48篇增長到2023年的121篇,占發(fā)布文章的約10%,大模型也在自然語言理解任務(wù),限定條件和無限定條件的自然語言生成等任務(wù)上取得領(lǐng)先表現(xiàn)。2022年11月基于大模型的生成式應(yīng)用ChatGPT發(fā)布后,國內(nèi)外大模型正經(jīng)歷爆發(fā)式增長,先后推出了包括BLOOM、GLM、LLaMA等開源大模型以及文心一言、星火認(rèn)知、通義千問等閉源大模型。據(jù)不完全統(tǒng)計(jì),截至2023年8月底國內(nèi)已經(jīng)發(fā)布的大模型數(shù)量已經(jīng)過百。隨著大模型逐步成熟,其在垂直領(lǐng)域落地應(yīng)用趨勢越發(fā)明顯[1],目前金融、醫(yī)療、教育、地學(xué)、電力等多個(gè)行業(yè)已經(jīng)利用大模型轉(zhuǎn)變傳統(tǒng)知識(shí)工作模式。
大模型落地垂直行業(yè),仍面臨一些挑戰(zhàn):大模型的預(yù)訓(xùn)練語料大都來自公開的通用語料,部署在公有云上,缺乏行業(yè)內(nèi)部數(shù)據(jù)和專業(yè)知識(shí),直接使用存在缺乏行業(yè)認(rèn)知深度、數(shù)據(jù)安全隱患、內(nèi)容及時(shí)性和可信度無法保障等問題。此外,大模型部署還存在部署和運(yùn)行成本方面的挑戰(zhàn)。
油氣產(chǎn)業(yè)鏈條長,業(yè)務(wù)面廣,專業(yè)性強(qiáng),數(shù)字化轉(zhuǎn)型和智能化發(fā)展過程中面臨多樣化和碎片化的需求挑戰(zhàn)。大模型在油氣上游業(yè)務(wù)的落地應(yīng)用,將聚合公司內(nèi)外部各類業(yè)務(wù)數(shù)據(jù)和專業(yè)知識(shí)并智能化應(yīng)用,顯著提升業(yè)務(wù)報(bào)告撰寫、專業(yè)工具使用、業(yè)務(wù)問題推理分析、措施建議推薦等知識(shí)密集型任務(wù)工作效率和決策管理水平,將重構(gòu)目前油氣行業(yè)技術(shù)研發(fā)生態(tài)和價(jià)值體系,加速“數(shù)字中國石油”目標(biāo)實(shí)現(xiàn),助推業(yè)務(wù)一體化和高質(zhì)量發(fā)展,提升數(shù)字時(shí)代企業(yè)的核心競爭力。
二、大語言模型落地油氣上游業(yè)務(wù)的關(guān)鍵技術(shù)
(一)油氣上游業(yè)務(wù)技術(shù)特點(diǎn)分析
從知識(shí)工程角度看,油氣上游業(yè)務(wù)具有如下四個(gè)方面的突出特點(diǎn)。
專業(yè)多學(xué)科:油氣上游業(yè)務(wù)鏈條長,專業(yè)面廣,認(rèn)識(shí)和開發(fā)利用地下油氣資源除了本專業(yè)相關(guān)知識(shí)外,還需要綜合物理、化學(xué)、生物、地質(zhì)、力學(xué)等學(xué)科知識(shí)。如何有效融合各學(xué)科專業(yè)知識(shí),保證輸出內(nèi)容的專業(yè)深度和可靠性,是大模型落地油氣上游業(yè)務(wù)首先要面對的問題。
資料多模態(tài):勘探開發(fā)過程中形成的專業(yè)數(shù)據(jù)來源廣、類型多、數(shù)據(jù)體量分布不均,包括但不限于地震、測井、巖心、露頭、實(shí)驗(yàn)和生產(chǎn)測試過程中產(chǎn)生的圖像、音視頻、曲線、結(jié)構(gòu)化表格、文字報(bào)告、專業(yè)軟件輸出結(jié)果文件等,如何有效利用這些多模態(tài)數(shù)據(jù)資料提升大模型的專業(yè)深度,是大模型落地的一大挑戰(zhàn)。
對象不確定:受探測手段精度和可靠樣本數(shù)的限制,地下儲(chǔ)層認(rèn)識(shí)都存在不同程度的不確定性,相應(yīng)的解釋結(jié)果、方案措施往往都存在多種可能選擇,如何動(dòng)態(tài)引入地下鉆采數(shù)據(jù)和專家知識(shí)約束,提高輸出答案的質(zhì)量,也是大模型深度應(yīng)用的關(guān)鍵挑戰(zhàn)。
數(shù)據(jù)實(shí)時(shí)性:油氣勘探開發(fā)過程中某些數(shù)據(jù)具有實(shí)時(shí)性要求,這些數(shù)據(jù)往往存儲(chǔ)在特定數(shù)據(jù)庫中,使用者需要根據(jù)這些數(shù)據(jù)作出分析決策。受計(jì)算資源和成本限制,大模型無法通過預(yù)訓(xùn)練過程實(shí)時(shí)更新其知識(shí)語料,需要通過檢索相關(guān)數(shù)據(jù)庫獲取實(shí)時(shí)資料。
(二)大語言模型落地油氣上游業(yè)務(wù)的關(guān)鍵技術(shù)
從前面分析可以看到,大模型落地油氣上游業(yè)務(wù)領(lǐng)域,需要結(jié)合勘探開發(fā)的業(yè)務(wù)特點(diǎn),重點(diǎn)需要提升大模型在行業(yè)認(rèn)知深度、內(nèi)容可信度和實(shí)時(shí)性方面的能力,需要突破如下幾個(gè)方面的關(guān)鍵技術(shù)。
1.高質(zhì)量專業(yè)語料準(zhǔn)備
油氣上游業(yè)務(wù)領(lǐng)域構(gòu)建高質(zhì)量專業(yè)語料,主要包括三個(gè)方面:名詞釋義,知識(shí)圖譜,問答對。
百科語料庫是訓(xùn)練大模型的必要語料之一,其中包含了大量的條目,涵蓋了各種石油上游的主題。通過專家編纂而成,因此它們提供了高質(zhì)量的語言數(shù)據(jù),包含了廣泛的詞匯和語法結(jié)構(gòu),并且這些條目通常都按照一定的結(jié)構(gòu)組織,例如分類和層級結(jié)構(gòu),這有助于訓(xùn)練模型理解和處理復(fù)雜的語言結(jié)構(gòu)。是訓(xùn)練大模型的基石。
問答對語料[2]庫是另一種重要的語料來源,其中包含了大量的問題和答案對。有時(shí)候一個(gè)問題會(huì)有多個(gè)答案。這種語料庫可以幫助模型學(xué)習(xí)如何處理自然語言交互,例如如何理解問題和如何生成適當(dāng)?shù)拇鸢?,明白正確的回答,較差的回答和錯(cuò)誤的回答是什么樣的,并且對齊用戶的思考。問答對語料庫還可以幫助訓(xùn)練模型理解語言的上下文和推理能力,提高回復(fù)的質(zhì)量。
知識(shí)圖譜[3]是一種用于表示實(shí)體和它們之間關(guān)系的圖形化數(shù)據(jù)結(jié)構(gòu),它包含了各種領(lǐng)域的大量知識(shí)。知識(shí)圖譜可以幫助訓(xùn)練大模型理解實(shí)體之間的關(guān)系,例如分類、屬性和關(guān)系。知識(shí)圖譜還可以幫助模型理解語言中的隱含意義和推理,可以一定程度上限制大模型的偏見和幻覺。
2.知識(shí)嵌入與檢索增強(qiáng)
油氣上游業(yè)務(wù)領(lǐng)域已經(jīng)建立起各類專業(yè)數(shù)據(jù)庫與知識(shí)庫,提供了實(shí)時(shí)性與專業(yè)性極強(qiáng)的數(shù)據(jù)知識(shí)語料,可通過知識(shí)嵌入與檢索增強(qiáng)來提高大模型解決油氣上游專業(yè)問題的能力。
知識(shí)嵌入是通過向量化技術(shù)將文本、圖像等類型的業(yè)務(wù)知識(shí)從稀疏樣本空間投影到稠密向量空間,參與深度學(xué)習(xí)的訓(xùn)練和預(yù)測過程。知識(shí)嵌入與檢索增強(qiáng)兩者都依賴向量數(shù)據(jù)庫[4],通過對多種數(shù)據(jù)進(jìn)行編碼后,作為索引存儲(chǔ),可以進(jìn)一步加快搜索的效率。與基礎(chǔ)數(shù)據(jù)庫的針對文字標(biāo)簽的模糊搜索相比,向量作為索引的情況下,允許對多模態(tài)的信息搜索,允許用戶通過自然語言去搜索對應(yīng)文字信息,并且對于基于語言大模型為入口的應(yīng)用,向量化文字和圖片信息有助于增強(qiáng)基礎(chǔ)大模型和多模態(tài)大模型的知識(shí)蒸餾與更新。
向量檢索過程包括三個(gè)技術(shù):各個(gè)模態(tài)的編碼技術(shù),向量數(shù)據(jù)庫和計(jì)算向量距離的算法。向量數(shù)據(jù)庫會(huì)先把多模態(tài)信息根據(jù)固定的編碼格式和升維方法,提取出其中的特征,當(dāng)用戶使用同樣格式的信息進(jìn)行搜尋的時(shí)候,向量數(shù)據(jù)庫會(huì)將用戶輸入的信息也向量化,之后通過計(jì)算向量間的距離,確認(rèn)相似度,并且輸出相似度高的對應(yīng)模態(tài)。
3.模型效率微調(diào)
在節(jié)省硬件資源的前提下,讓大模型對齊下游任務(wù)成為挑戰(zhàn)。傳統(tǒng)的全參數(shù)微調(diào)對硬件的要求與預(yù)訓(xùn)練所需不相上下。為了更好地使用大模型,通過凍結(jié)部分或者全部模型參數(shù),進(jìn)行部分參數(shù)調(diào)優(yōu)的技術(shù)發(fā)展了起來。
在對于模型的微調(diào)方面,早期的思想是在模型中添加一些參數(shù)以保證其在下游任務(wù)中的效果。其中包括prompt-tuning,prefix-tuning,p-tuning等通過在輸入層加入前綴完成參數(shù)效率微調(diào)[5],adapter等通過在大模型中加入可訓(xùn)練層進(jìn)行微調(diào)[6]。
但是,以上的方式都存在問題:由于增加了模型的深度從而額外增加了模型推理的延時(shí)。Prompt較難訓(xùn)練,同時(shí)減少了模型的可用序列長度,方法往往效率和質(zhì)量不可兼得,效果差于full-finetuning。LoRA模型誕生了,它通過凍結(jié)預(yù)訓(xùn)練模型權(quán)重并注入可訓(xùn)練的秩分解矩陣來減少可訓(xùn)練參數(shù)的數(shù)量,從而實(shí)現(xiàn)精煉模型。這被稱為“Low-Rank Adaptation”(LoRA)[7]。在GPT-3上訓(xùn)練發(fā)現(xiàn)該技術(shù)可以降低硬件入門門檻3倍。
三、油氣勘探開發(fā)大語言模型應(yīng)用實(shí)踐
本文研發(fā)團(tuán)隊(duì)圍繞上述關(guān)鍵技術(shù)開展了一系列攻關(guān),通過打造油氣勘探開發(fā)大語言模型應(yīng)用PetroAI來實(shí)踐上述部分關(guān)鍵技術(shù)。
(一)專業(yè)語料準(zhǔn)備
構(gòu)建了一個(gè)石油的百科,包括26509條具體釋義(見圖1)。通過對英文、中文的對齊和并且基于含義分類,作為知識(shí)圖譜構(gòu)建本體和實(shí)體的基礎(chǔ),也作為大模型分詞器的起點(diǎn)。支持通過其中字詞和首字母進(jìn)行查詢,并且支持后臺(tái)編輯其中字詞以保證信息鮮度。
在此之上,結(jié)合其他分詞字典了,通過sentence piece技術(shù)構(gòu)建了一個(gè)石油專業(yè)分詞器(見圖2),與傳統(tǒng)大模型自帶的分詞器相比,石油專業(yè)分詞器可以更好地對石油文章進(jìn)行分詞。分詞器作為自然語言處理的基礎(chǔ),可以幫助模型更好地處理石油相關(guān)概念。
對于石油知識(shí)的記憶與展示,基于圖數(shù)據(jù)庫的知識(shí)圖譜是最好的語料。通過對本體和實(shí)體的構(gòu)建,院協(xié)同研究平臺(tái)通過平臺(tái)上上萬篇石油論文,構(gòu)建出有33377個(gè)節(jié)點(diǎn)和25369條關(guān)系的石油勘探開發(fā)主干知識(shí)圖譜,為未來構(gòu)建知識(shí)圖譜相關(guān)應(yīng)用和大模型檢索提供基礎(chǔ)。
問答對作為支持大模型和人類對齊的基礎(chǔ)語料,能更好地讓大模型學(xué)習(xí)到如何輸出正確的格式和形式,并且在已有問答對的情況下對話機(jī)器人與人類交談時(shí)可以保證正確和簡潔的輸出。在問答對的創(chuàng)建上,結(jié)合大模型的基礎(chǔ)能力,構(gòu)建了可以通過直接將文章片段放入后生成json格式的問答對功能(見圖3)。在問答對的使用上,通過院協(xié)同研究平臺(tái)后端可以修改其中的問答對并且可以進(jìn)行啟用和禁用。
(二)知識(shí)嵌入與檢索增強(qiáng)
為了充分利用企業(yè)內(nèi)部知識(shí)庫,提供生產(chǎn)內(nèi)容的專業(yè)可信度,嵌入了油氣上游知識(shí)圖譜和石油百科內(nèi)容,通過檢索來提高生產(chǎn)內(nèi)容的專業(yè)質(zhì)量。
(三)模型微調(diào)
通過從數(shù)千篇石油科技文檔上準(zhǔn)備高價(jià)值問答對,并且使用ptunring或者lora技術(shù)對模型進(jìn)行監(jiān)督微調(diào)和人類反饋學(xué)習(xí),改善了大模型的“偏見”和“幻覺”,將一些詞的通用領(lǐng)域概念特征修改為石油領(lǐng)域的特征(見圖4),并且更加詳細(xì)地展示在石油領(lǐng)域具體問題的分析細(xì)節(jié)和研究成果。
(四)文檔知識(shí)庫問答
利用大模型開發(fā)框架LangChain,將知識(shí)庫中的文本切塊并且向量化,能在用戶提出問題的時(shí)候快速找到對應(yīng)文章塊并注入大模型。通過這個(gè)過程,用戶可以更加方便地獲取文章的全部或者部分的簡介,或者通過文章塊提高大模型對問題的回復(fù)質(zhì)量。PetroAI支持建立知識(shí)庫對文章的動(dòng)態(tài)管理,并且之后將會(huì)針對用戶的權(quán)限進(jìn)行文檔訪問的限制,進(jìn)一步保證信息安全(見圖5)。
四、下一步探索的技術(shù)方向
為了進(jìn)一步發(fā)揮大模型在油氣上游業(yè)務(wù)的應(yīng)用效果和范圍,還有如下一些方面值得進(jìn)一步探索。
(一)多模態(tài)知識(shí)應(yīng)用
油氣勘探開發(fā)業(yè)務(wù)中數(shù)據(jù)具有文本、圖片、音視頻以及特定專業(yè)格式。如何與基于文本的大語言模型融合實(shí)現(xiàn)多模態(tài)知識(shí)使用是行業(yè)當(dāng)前痛點(diǎn)。主流的方法分為兩個(gè),多模態(tài)的互相轉(zhuǎn)換和多模態(tài)的特征融合。由于大語言模型的核心為文字,如果可以將其他模態(tài)的信息轉(zhuǎn)換成文字,就可以使用提示詞工程將這些信息作為先驗(yàn)知識(shí)加入模型的輸入[8]。接下來的多模態(tài)轉(zhuǎn)換主要討論的是其他模態(tài)的信息怎么通過模型以文字的方式輸出。而通過將多模態(tài)的知識(shí)進(jìn)行編碼,提取其特征。之后在模型中進(jìn)行特征融合。模型針對融合后的特征進(jìn)行解碼,在這個(gè)過程中,模型可以依據(jù)多模態(tài)知識(shí)正確回復(fù)用戶提問[9]。
(二)代理(Agent)
Agent應(yīng)用于語言大模型[10],現(xiàn)實(shí)世界場景中的智能Agent(人類或人工)可以從交換信息中受益匪淺,這些信息使它們能夠協(xié)調(diào)、制定戰(zhàn)略并利用其組合的感官體驗(yàn)來在物質(zhì)世界中行動(dòng)。為了增強(qiáng)大模型的推斷能力,需要讓大模型與其他模型和軟件協(xié)作,并且現(xiàn)有的石油產(chǎn)業(yè)已經(jīng)沉淀了很多的模型,可以給大模型進(jìn)一步的支持。進(jìn)一步來說,大模型在數(shù)學(xué)計(jì)算上面也存在一定問題,高等數(shù)學(xué)等計(jì)算的準(zhǔn)確率無法達(dá)到可用的級別。在模型應(yīng)用方面,由于語言大模型主要輸出手段是文字,而想應(yīng)用其優(yōu)秀的推斷能力進(jìn)行自動(dòng)化生產(chǎn)還需要其他軟件配套。
五、結(jié)論
本文探討了語言大模型在油氣上游領(lǐng)域應(yīng)用的難題,對關(guān)鍵技術(shù)的探索與時(shí)間和未來的方向。在探討大模型在油氣上游應(yīng)用的主要方向時(shí),可以看到,隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,大模型的應(yīng)用前景越來越廣闊。在油氣勘探和開發(fā)領(lǐng)域,大模型可以更好地輔助用戶減少部分重復(fù)的文字工作,輔助策略決定。然而,大模型在油氣上游應(yīng)用仍面臨許多挑戰(zhàn)和問題,比如回復(fù)的部分情況下會(huì)有的錯(cuò)誤和幻覺。因此,我們需要進(jìn)一步加強(qiáng)技術(shù)研究和創(chuàng)新,不斷優(yōu)化和完善大語言模型在油氣上游業(yè)務(wù)的應(yīng)用,助力油氣勘探和開發(fā)業(yè)務(wù)的智能化發(fā)展。
參考文獻(xiàn)
[1]Pir R M.Large language models (llm): need, methods,and research trends[J].2023,13(1).
[2]易洪川.關(guān)于問答對[J].湖北大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),1992(05):28-34.
[3]Hogan A, Blomqvist E, Cochez M, et al.Knowledge graphs[J].ACM Computing Surveys, 2022, 54(4): 1–37.
[4]Guo R, Luan X, Xiang L,et al.Manu: a cloud native vector database management system: arXiv:2206.13843[Z/OL].arXiv, 2022(2022–06–28)[2023–10–16].http://arxiv.org/abs/2206.13843.
[5]Liu X, Zheng Y, Du Z, et al. GPT understands, too: arXiv:2103.10385[Z/OL].arXiv, 2021(2021–03–18)[2023–07–25].http://arxiv.org/abs/2103.10385.
[6]Houlsby N, Giurgiu A, Jastrzebski S,等.Parameter-efficient transfer learning for nlp: arXiv:1902.00751[Z/OL].arXiv, 2019(2019–06–13)[2023–10–13].http://arxiv.org/abs/1902.00751.
[7]Hu E J, Shen Y, Wallis P, et al.LoRA: low-rank adaptation of large language models: arXiv:2106.09685[Z/OL].arXiv, 2021(2021–10–16)[2023–07–25].http://arxiv.org/abs/2106.09685.
[8]Wu C, Yin S, Qi W,et al.Visual chatgpt: talking, drawing and editing with visual foundation models: arXiv:2303.04671[Z/OL].arXiv, 2023(2023–03–08)[2023–10–13].http://arxiv.org/abs/2303.04671.
[9]Zhu D, Chen J, Shen X,et al.MiniGPT-4: enhancing vision-language understanding with advanced large language models: arXiv:2304.10592[Z/OL].arXiv, 2023(2023–04–20)[2023–04–25]. http://arxiv.org/abs/2304.10592.
[10]Abhishek D, Théophile G, Joshua R, Dhruv B, Devi P, Michael R, Joelle P, et al.TarMAC: Targeted Multi-Agent Communication.[J]. Computing Research Repository, 2019, abs/1810.11187.
基金項(xiàng)目:1.中國石油天然氣集團(tuán)公司“十四五”重點(diǎn)科技項(xiàng)目“油氣勘探開發(fā)人工智能關(guān)鍵技術(shù)研究”(項(xiàng)目編號:2023DJ84-06);2.中國石油勘探開發(fā)研究院信息化重點(diǎn)項(xiàng)目“勘探開發(fā)知識(shí)成果共享與協(xié)同研究平臺(tái)”
作者單位:中國石油勘探開發(fā)研究院人工智能研究中心、中國石油天然氣集團(tuán)有限公司勘探開發(fā)人工智能技術(shù)研發(fā)中心
■ 責(zé)任編輯:張津平、尚丹