国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大語言模型在信息化中的應(yīng)用研究

2023-11-03 02:58:28王玉平
中國教育網(wǎng)絡(luò) 2023年6期
關(guān)鍵詞:微調(diào)開源向量

文/王玉平

隨著ChatGPT 的出現(xiàn),自然語言處理技術(shù)的發(fā)展再次引起業(yè)界的注意。而ChatGPT 模型1750 億參數(shù)的規(guī)格,使得業(yè)界大力訓(xùn)練超大規(guī)模參數(shù)的模型,也就是基于大規(guī)模參數(shù)的語言模型。隨后出現(xiàn)了大量大語言模型,如Meta AI 的LLaMa 和基于該模型的Alpaca、Vicuna,國內(nèi)復(fù)旦大學(xué)團隊推出了MOSS 模型,清華大學(xué)團隊推出了ChatGLM 模型。

大語言模型的能力

大語言模型之所以再次引起注意,是因為其可以按照人類語言語法生成文本,而且文本與問題相關(guān)。那么大語言模型除了人工智能領(lǐng)域的Transformer、參數(shù)等技術(shù)屬性和規(guī)格屬性之外,還具有什么特征呢?

根據(jù)現(xiàn)有大語言模型的表現(xiàn),以及NLP 領(lǐng)域的研究,我們認為大語言模型主要包含了知識內(nèi)容和推理能力。根據(jù)神經(jīng)網(wǎng)絡(luò)的技術(shù)架構(gòu)可以推斷出大語言模型存儲的內(nèi)容主要是權(quán)重,知識內(nèi)容主要是通過大規(guī)模語料訓(xùn)練使得大語言模型在已知文本的情況下可以預(yù)測到在人類語言中與已知文本最相關(guān)的下一個字,從而在形式上讓人感覺到大模型存儲了知識。而推理能力則是因為參數(shù)超大規(guī)模后涌現(xiàn)出來的一種能力,其科學(xué)機理仍在研究中,但是從表現(xiàn)來看,大語言模型已經(jīng)具備鏈式思考的能力。尤其是通過提示(Prompt)告訴大語言模型如何推理問題,使其更有效、更正確地按步驟推理問題。

大語言模型應(yīng)用場景

高等教育信息化主要是指發(fā)揮信息化在教學(xué)、科研、管理和生活中的作用,提高四個領(lǐng)域的效能。根據(jù)前幾年的探索,我們把大語言模型定位在新型的人機交互接口、副駕駛(Copilot)或者助手。這種定位主要描述了大語言模型不能取代人類,只能在人類的指導(dǎo)下,幫助人類去完成特定工作。

在自然語言處理分為自然語言理解和自然語言生成的基礎(chǔ)上,針對高校育人為本的任務(wù),我們把大語言模型適用的場景分為三類:內(nèi)容創(chuàng)作助手、內(nèi)容消費助手和任務(wù)過程助手。內(nèi)容創(chuàng)作助手主要是指根據(jù)師生指令從無到有地生成內(nèi)容,譬如撰寫郵件、撰寫報告等。內(nèi)容消費助手則是指基于現(xiàn)有知識庫回答師生的問題,譬如智能客服、新型業(yè)務(wù)入口。任務(wù)過程助手則是指人工智能根據(jù)問題自動思考解決問題的子任務(wù)并按序自動執(zhí)行這些子任務(wù),最終解決問題,譬如Auto GPT。

根據(jù)以上分類,我們首先試驗了上海海事大學(xué)官方網(wǎng)站上內(nèi)容的問答交互方式。在該試驗下,訪客不再通過搜索引擎訪問,而是由人工智能自行檢索相關(guān)內(nèi)容并給出答案。另一個試驗是在學(xué)校門戶上集成了規(guī)章制度、通知公告、新聞動態(tài)的問答系統(tǒng),以及網(wǎng)上辦事中心的業(yè)務(wù)檢索系統(tǒng)。下一步,我們將探索根據(jù)語音輸入結(jié)合數(shù)據(jù)智能生成業(yè)務(wù)申請表單,而大語言模型在教學(xué)、科研中的作業(yè)則因?qū)W科特點和研究內(nèi)容的不同差異較大,只能有針對性地引入大語言模型。

大語言模型的微調(diào)

目前,開源大語言模型訓(xùn)練的語料多是英文語言,無法直接適用于國內(nèi)中文環(huán)境。此外,開源模型的語料多是網(wǎng)上公開的內(nèi)容,內(nèi)容的準確性、專業(yè)性都有待考量。因此,開源模型無法直接在高校落地應(yīng)用,必須對其進行定制微調(diào)。

大語言模型定制的方法主要有精校技術(shù)、參數(shù)高效微調(diào)(PEFT)技術(shù)和提示微調(diào)技術(shù)。自然語言處理的神經(jīng)網(wǎng)絡(luò)模型基本采取了預(yù)訓(xùn)練和精校兩階段的策略。這種策略主要是將重復(fù)的、高成本的訓(xùn)練過程獨立出來,形成階段性的預(yù)訓(xùn)練模型,之后再根據(jù)不同應(yīng)用場景進行適配性的精校,從而達到高效復(fù)用的目標。這種策略吸引了大量研究人員投入自然語言處理領(lǐng)域的研發(fā),也推動了自然語言處理技術(shù)再應(yīng)用。

精校技術(shù)在中小模型的模型微調(diào)中是適用的,但是對于大規(guī)模語言模型則因為參數(shù)規(guī)模非常大,精校的成本非常高,讓人卻步。而PEFT 技術(shù)的出現(xiàn)則比較好地解決了這個問題,其在盡可能減少所需參數(shù)和計算資源的情況下,實現(xiàn)對預(yù)訓(xùn)練語言模型的有效微調(diào)。這種技術(shù)特別適用于對英文大語言模型加入中文語料的微調(diào),使之同樣理解中文語義。目前常見的Alpaca、Vicuna 模型均是通過PEFT 技術(shù)進行微調(diào)所得。提示微調(diào)則是使用大語言模型的能力,重點通過調(diào)整輸入提示,求得問題的答案,其對模型并不進行改造。

常見大語言模型

除了閉源的以服務(wù)方式運行的ChatGPT 大語言模型外,Meta AI 發(fā)布了開源模型LLaMa,斯坦福大學(xué)團隊在此基礎(chǔ)上通過微調(diào)技術(shù)生成了Alpaca 模型,之后多家機構(gòu)聯(lián)手發(fā)布了同樣基于LLaMa 的Vicuna。130億參數(shù)的Vicuna 模型能力接近于OpenAI 的GPT-4 模型。以上開源模型主要適配英文,對中文的效果不理想,近期出現(xiàn)了對以上開源模型的中文微調(diào)模型。而BLOOMChat 多語言大模型則直接支持了中文,但是其模型文件大小超過100GB。清華大學(xué)團隊的ChatGLM和復(fù)旦大學(xué)團隊的MOSS 模型也是可用的模型之一。

除了開源大語言模型,國內(nèi)還出現(xiàn)了云服務(wù)方式提供的大語言模型,如百度的文心一言、科大訊飛的星火和阿里的通義千問等模型。云服務(wù)方式的大語言模型需要用戶將文本傳給云端進行處理,部分用戶不一定適用這種模式,可能更喜歡本地化部署。

本地化部署大語言模型

大多數(shù)高校使用大語言模型主要是通過提示微調(diào)的方式,而非通過PEFT 技術(shù)對模型進行微調(diào)。提示微調(diào)的方式側(cè)重于應(yīng)用,恰好符合了高校教育信息化的特點,也是最早可行落地的方案。圖1 是通過提示微調(diào)使用大語言模型的流程。

該流程主要分為四個步驟:第一步,用戶對前端代理提出問題;第二步,代理提交問題給向量數(shù)據(jù)庫,獲得相關(guān)文本片段;第三步,代理將問題和文本片段提交給大語言模型,大語言模型作閱讀理解,返回問題答案;第四步,代理將答案反饋給用戶。

通過以上步驟,可以看出本地化使用大語言模型的核心點在于查找問題相關(guān)的文本片段和大語言模型作閱讀理解的能力。

大語言模型應(yīng)用試驗

為了能夠選擇足夠好的解決方案,我們對查找問題相關(guān)的文本片段和閱讀理解能力進行了實驗。我們節(jié)選了學(xué)校主頁上的學(xué)校介紹、網(wǎng)上辦事中心的服務(wù)指南、新聞,作為知識庫,并整理了9 個問題,針對這9 個問題評估詞向量模型、向量數(shù)據(jù)庫和大語言模型的優(yōu)劣。

1.詞向量模型

據(jù)表1 可知,OpenAI 的詞向量模型最佳,其次是chinese-roberta-wwm-ext-large,該模型是與GPT 同期出現(xiàn)的基于Transformer 技術(shù)的BERT 模型,擅長閱讀理解,故而其語義相關(guān)性的能力在開源模型中相對較強。

表1 詞向量模型測試結(jié)果

2.向量數(shù)據(jù)庫

向量數(shù)據(jù)庫有多種產(chǎn)品,如提供云服務(wù)的Pinecone,開源的Chroma。經(jīng)過以上9 個問題的測試,結(jié)果都是100%命中,所以在此不予以列表展示。

3.大語言模型

人工挑選出針對9 個問題的文本,將問題和文本提供給大語言模型去理解并給出答案。同時,為了驗證提示微調(diào)的技術(shù),同一個文本和問題分別提供有提示和無提示兩種方式實驗。

據(jù)表2 可知,OpenAI(GPT-3.5-Turbo)模型是最佳模型,在沒有提示的情況下,所有問題均給出了較為通順的答案。其次是中文微調(diào)過的Alpaca 7B 模型,9 個問題中僅錯了1 個。

目前,大語言模型依然在快速進化中,但是針對中文的詞向量模型和大語言模型還不夠完美,仍需要進一步優(yōu)化。高校在信息化過程中,可以按照新型人機交互接口的方式去探索大語言模型的應(yīng)用方式,挖掘更多的應(yīng)用場景。對于企業(yè),則可以探索利用大語言模型助力教學(xué)過程的應(yīng)用場景。

猜你喜歡
微調(diào)開源向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
五毛錢能買多少頭牛
一種新型微調(diào)擠塑模具的設(shè)計及應(yīng)用
電線電纜(2018年2期)2018-05-19 02:03:44
靈活易用,結(jié)合自動和手動微調(diào)達到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
大家說:開源、人工智能及創(chuàng)新
開源中國開源世界高峰論壇圓桌會議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
開源計算機輔助翻譯工具研究
青河县| 宜兰市| 沙河市| 泽州县| 高邮市| 佛坪县| 宜章县| 旌德县| 红原县| 天津市| 临朐县| 秀山| 天门市| 芮城县| 喜德县| 庄浪县| 广平县| 收藏| 屯留县| 泰顺县| 广饶县| 辽阳市| 新晃| 文昌市| 丰城市| 讷河市| 张北县| 铜梁县| 福海县| 无为县| 清水县| 龙门县| 东海县| 白朗县| 缙云县| 宜君县| 岢岚县| 海伦市| 富锦市| 中阳县| 曲麻莱县|