姚前
大模型語料是指用于訓(xùn)練和評估大模型的一系列文本、語音或其他模態(tài)的數(shù)據(jù)。語料規(guī)模和質(zhì)量對大模型性能以及應(yīng)用的深度、廣度有著至關(guān)重要的影響。當(dāng)前行業(yè)大模型訓(xùn)練語料存在覆蓋面不全、準(zhǔn)確性不足、時效性不夠等問題,導(dǎo)致大模型通常難以達(dá)到預(yù)期目標(biāo)。實踐經(jīng)驗表明,即使模型參數(shù)量級有所下降,只要數(shù)據(jù)語料質(zhì)量足夠高,其表現(xiàn)依然不俗。
為進(jìn)一步提升大模型在行業(yè)的應(yīng)用范圍和應(yīng)用成效,需統(tǒng)籌行業(yè)力量搭建社區(qū)平臺,拓寬語料來源,構(gòu)建語料標(biāo)準(zhǔn)規(guī)范,開展語料治理,保障語料安全,為大模型訓(xùn)練及應(yīng)用提供滿足業(yè)務(wù)場景需求,具備行業(yè)特性和標(biāo)準(zhǔn)化的高質(zhì)量語料。
行業(yè)大模型語料是指用于訓(xùn)練垂直領(lǐng)域大模型的數(shù)據(jù)集,通常包含自然科學(xué)、社會科學(xué)等通用語料和行業(yè)專用語料。以證券期貨行業(yè)為例,行業(yè)專用語料包括財經(jīng)新聞、財務(wù)報告、法規(guī)文件、公開的交易數(shù)據(jù)等。通過收集和整理語料,可以訓(xùn)練大模型理解和生成行業(yè)特定概念和知識,支持行業(yè)分析、預(yù)測和輔助決策等智能任務(wù)。
引入百科、書籍等通用語料,可使大模型在執(zhí)行行業(yè)特定任務(wù)時,減少對專業(yè)術(shù)語誤解的風(fēng)險(如專業(yè)術(shù)語的非專業(yè)用法、術(shù)語的雙關(guān)語、與特定行業(yè)無關(guān)的上下文等),并且在面對跨領(lǐng)域的查詢或交流時,能提供更為準(zhǔn)確和自然的響應(yīng)。
引入行業(yè)專用語料,旨在豐富大模型對于行業(yè)特有詞匯、表達(dá)方式以及特定知識的理解,使模型能夠針對性地處理行業(yè)相關(guān)的復(fù)雜查詢,執(zhí)行精準(zhǔn)的數(shù)據(jù)分析,以及更有效地支持輔助決策。此外,基于行業(yè)專用語料訓(xùn)練的大模型在進(jìn)行風(fēng)險評估、預(yù)測、合規(guī)性檢查等任務(wù)時,能展現(xiàn)出更高的可靠性和適用性。
通常行業(yè)管理部門、經(jīng)營機(jī)構(gòu)以及信息技術(shù)服務(wù)商都會建設(shè)自身語料庫。一方面滿足行業(yè)知識整理、業(yè)務(wù)研究、合規(guī)風(fēng)控等自身需求,另一方面可進(jìn)一步加工成全新的數(shù)據(jù)資產(chǎn)、研究報告等,對外進(jìn)行服務(wù)。不同的機(jī)構(gòu)在語料庫建設(shè)方面的現(xiàn)狀以及面臨的問題均有所不同,且呈現(xiàn)出自身的特點(diǎn)。
管理部門在構(gòu)建語料庫的工作中,挑戰(zhàn)主要在于數(shù)據(jù)集的規(guī)范和數(shù)據(jù)標(biāo)準(zhǔn)化,這是知識整理的基礎(chǔ)。其語料庫建設(shè)存在以下問題:1.數(shù)據(jù)分散:許多重要的數(shù)據(jù)散落在各業(yè)務(wù)系統(tǒng)中,重要信息和專家經(jīng)驗無法得到有效沉淀,數(shù)據(jù)共享存在壁壘。2.數(shù)據(jù)異構(gòu):日常積累的大量文本數(shù)據(jù),來自于不同的部門和層級,格式、結(jié)構(gòu)和內(nèi)容不盡相同。3.數(shù)據(jù)敏感:管理部門數(shù)據(jù)通常涉及大量敏感信息,在處理和存儲過程中必須確保安全合規(guī)。
經(jīng)營機(jī)構(gòu)語料庫涉及海量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),挑戰(zhàn)主要在于如何深度挖掘,以支持決策分析和客戶服務(wù)。其語料庫建設(shè)存在以下問題:1.處理難度大:來源于多渠道的經(jīng)營和交易數(shù)據(jù),格式、標(biāo)準(zhǔn)均不相同且模態(tài)多樣,難以有效整合。2.加工深度淺:經(jīng)營機(jī)構(gòu)的語料庫建設(shè)僅停留在表層信息,尚不涉及深層的語義理解和深度分析。3.隱私保護(hù)難:大模型語料涉及商業(yè)秘密及客戶敏感信息,在訓(xùn)練和使用過程中經(jīng)營機(jī)構(gòu)須做好合規(guī)風(fēng)控。
信息技術(shù)服務(wù)商擅長整合通用語料,在配合構(gòu)建行業(yè)語料庫時面臨的主要挑戰(zhàn)是專業(yè)能力和服務(wù)質(zhì)量。1.專業(yè)能力:信息技術(shù)服務(wù)商對行業(yè)語料的分類、分析和解讀需要行業(yè)知識,其專業(yè)能力嚴(yán)重影響語料庫的應(yīng)用價值。2.服務(wù)質(zhì)量:行業(yè)語料庫建設(shè)是一項持續(xù)迭代的工作,需要信息技術(shù)服務(wù)商提供長期的高質(zhì)量服務(wù)。
此外,合成數(shù)據(jù)也是大模型訓(xùn)練重要數(shù)據(jù)來源,在降低成本、提升數(shù)據(jù)質(zhì)量、規(guī)避隱私問題等方面具有優(yōu)勢。如何探索行業(yè)數(shù)據(jù)合成的有效路徑,是行業(yè)語料庫建設(shè)的重大課題。
行業(yè)語料庫的構(gòu)建與治理對于發(fā)展行業(yè)大模型,激活數(shù)據(jù)要素價值尤為關(guān)鍵。一個結(jié)構(gòu)良好、內(nèi)容優(yōu)質(zhì)、管理規(guī)范的語料庫可以為行業(yè)參與者提供具備深度洞察力的知識庫,促進(jìn)行業(yè)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展。具備公信力的語料庫需要行業(yè)共建共享,客觀上助推行業(yè)語料社區(qū)的建設(shè)和公共服務(wù)的發(fā)展。
語料決定了模型的訓(xùn)練質(zhì)量、性能表現(xiàn)以及應(yīng)用領(lǐng)域的廣度與深度。語料庫建設(shè)除了考慮質(zhì)量維度,還需關(guān)注開放程度。建設(shè)統(tǒng)一、開放、標(biāo)準(zhǔn)的行業(yè)大模型語料庫,有利于提高行業(yè)語料的利用效率和價值,促進(jìn)行業(yè)大模型的訓(xùn)練開發(fā),加速大模型的落地應(yīng)用。
高質(zhì)量語料應(yīng)具備大規(guī)模、多樣性、真實性、連貫性、合法性和無偏見等特點(diǎn)。目前行業(yè)高質(zhì)量語料相對缺乏,推動其建設(shè)是實現(xiàn)信息化向數(shù)字化、智能化轉(zhuǎn)型的重要之舉。
大模型語料通常需要跨機(jī)構(gòu)、寬口徑數(shù)據(jù),可能會涉及數(shù)據(jù)安全、隱私保護(hù)、知識產(chǎn)權(quán)等問題??商剿鞯谌綌?shù)據(jù)托管等方式,以激活數(shù)據(jù)要素價值,有效解決跨機(jī)構(gòu)數(shù)據(jù)共享問題。
建設(shè)具備公信力的行業(yè)大模型語料庫是一項長期性、專業(yè)性的系統(tǒng)性工程,涵蓋基礎(chǔ)設(shè)施、公共服務(wù)平臺、行業(yè)規(guī)范標(biāo)準(zhǔn)、激勵機(jī)制等方面。在建設(shè)方法、實現(xiàn)路徑上需形成合力,多措并舉,久久為功(見圖)。
資料來源:作者整理
國際通用語料庫,如國外的The Pile、C4、Wikipedia(維基百科)等數(shù)據(jù)集,以及國內(nèi)的“書生·萬卷”多模態(tài)預(yù)訓(xùn)練語料、中國網(wǎng)絡(luò)空間安全協(xié)會發(fā)布的中文通用語料,都可作為建設(shè)行業(yè)大模型語料庫的基礎(chǔ)。為了擴(kuò)大通用語料庫資源,要兼顧自立自強(qiáng)和對外開放,可考慮對Wikipedia、Reddit(美國娛樂、社交及新聞網(wǎng)站)等特定數(shù)據(jù)源建立過濾后的境內(nèi)鏡像站點(diǎn),供國內(nèi)數(shù)據(jù)處理者使用。
實踐經(jīng)驗表明,基于行業(yè)語料庫,重新訓(xùn)練通用大模型,通用語料和專業(yè)語料規(guī)模配比通常約為1:1。因此,融合匯聚行業(yè)專用語料,加大語料供給,是行業(yè)大模型建設(shè)的前提。
一種有效思路是建設(shè)數(shù)據(jù)社區(qū),探索基于可信機(jī)構(gòu)或基于可信技術(shù)的平臺,為數(shù)據(jù)主體提供托管服務(wù)。行業(yè)機(jī)構(gòu)可利用托管數(shù)據(jù),基于行業(yè)大模型做二次訓(xùn)練或精調(diào),以提升私有模型能力。托管的語料資產(chǎn)也可在社區(qū)范圍內(nèi)有償交易,有序流轉(zhuǎn)。
語料加工處于大模型訓(xùn)練開發(fā)的上游環(huán)節(jié),直接影響語料庫生產(chǎn)速度、適用范圍與質(zhì)量水平。數(shù)據(jù)加工,特別是數(shù)據(jù)標(biāo)注已形成產(chǎn)業(yè)化,行業(yè)信息技術(shù)服務(wù)商可在數(shù)據(jù)社區(qū)進(jìn)行大規(guī)模、專業(yè)化數(shù)據(jù)加工與標(biāo)注工作,促進(jìn)行業(yè)語料庫的建設(shè)與規(guī)范。
語料安全是建設(shè)行業(yè)語料庫的“紅線”。要加強(qiáng)監(jiān)督,保障入庫數(shù)據(jù)內(nèi)容合規(guī)、權(quán)益清晰。要完善法律法規(guī),優(yōu)化政策制度,以多種途徑與方式形成監(jiān)管合力,嚴(yán)防惡意篡改模型和滲入有害數(shù)據(jù)等行為。探索利用基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和可擴(kuò)展監(jiān)督(Scalable Oversight)等技術(shù)方法,保證大模型的輸出符合人類價值觀,防止大模型生成有害內(nèi)容。
行業(yè)語料庫的評測是進(jìn)一步完善大模型能力的關(guān)鍵,既要在大模型訓(xùn)練環(huán)節(jié)對語料庫的質(zhì)量進(jìn)行評價,也要通過應(yīng)用成效評估語料庫對行業(yè)知識覆蓋的廣度和深度,不斷迭代,以達(dá)到更好的效果。
(編輯:張威)