国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大語(yǔ)言模型的會(huì)計(jì)垂域推理能力探究

2024-06-15 08:06:23鐘慧陳宋生王明
財(cái)會(huì)月刊·上半月 2024年6期
關(guān)鍵詞:推理能力

鐘慧 陳宋生 王明

【摘要】大語(yǔ)言模型(Large Language Models, LLMs)目前正在重塑各行各業(yè)的學(xué)習(xí)方式、 思維模式和研究范式。如何使 LLMs 與行業(yè)結(jié)合、 重構(gòu) LLMs 與行業(yè)的關(guān)系, 是推動(dòng)企業(yè)數(shù)字化變革和社會(huì)發(fā)展的重要命題。要實(shí)現(xiàn)LLMs在垂域發(fā)揮重要作用, 最重要的是提升LLMs的推理能力。本文以如何提升LLMs在會(huì)計(jì)領(lǐng)域的推理能力為起點(diǎn), 提出會(huì)計(jì)垂域推理能力的概念、 研究路徑、 評(píng)測(cè)標(biāo)準(zhǔn), 分析中文開源模型清華智譜的GLM 系列的評(píng)測(cè)結(jié)果, 為后續(xù)的推理研究提供標(biāo)準(zhǔn)范式, 并為如何提升會(huì)計(jì)推理能力提供評(píng)價(jià)標(biāo)準(zhǔn), 力圖推動(dòng)LLMs在會(huì)計(jì)領(lǐng)域達(dá)到應(yīng)有水平。同時(shí), 為驗(yàn)證LLMs的會(huì)計(jì)推理能力, 本文比較了GLM-6B、 GLM-130B、 GLM-4 在算術(shù)推理能力和會(huì)計(jì)常識(shí)推理能力方面的差別, 并將 OPENAI 的 GPT-4作為基準(zhǔn)進(jìn)行分析。結(jié)果表明, 在不同推理提示工程下, 模型規(guī)模顯著影響推理能力, 雖然各種模型算術(shù)推理能力已經(jīng)得到極大的提高, 但是會(huì)計(jì)推理能力還遠(yuǎn)不能達(dá)到應(yīng)用水平, 需要在應(yīng)用中逐層優(yōu)化, 研究為L(zhǎng)LMs會(huì)計(jì)垂域進(jìn)入應(yīng)用實(shí)踐的優(yōu)化過(guò)程提供參考。

【關(guān)鍵詞】大語(yǔ)言模式;垂域模型;推理能力;提示詞工程;會(huì)計(jì)推理能力;基準(zhǔn)數(shù)據(jù)集

【中圖分類號(hào)】 TP18;F231? ?【文獻(xiàn)標(biāo)識(shí)碼】A? ? ? 【文章編號(hào)】1004-0994(2024)11-0017-9

一、 引言

隨著人工智能領(lǐng)域的發(fā)展, 人工智能技術(shù)[例如大數(shù)據(jù)、 超級(jí)計(jì)算、 腦傳感、 大語(yǔ)言模型(Large Language Models,LLMs)等特別是通用自然語(yǔ)言模型, 越來(lái)越受到理論界與業(yè)界的關(guān)注, 他們期望利用人工智能技術(shù)驅(qū)動(dòng)社會(huì)走向智能化。人工智能儼然已經(jīng)成為新一代科技創(chuàng)新和產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力、 國(guó)家和社會(huì)創(chuàng)新發(fā)展的核心動(dòng)力、 產(chǎn)業(yè)轉(zhuǎn)型發(fā)展的核心支撐力, 以及提升國(guó)家競(jìng)爭(zhēng)力、 維護(hù)國(guó)家安全的重要內(nèi)容。2017年7月, 國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃的通知》, 將人工智能作為一項(xiàng)重要發(fā)展目標(biāo), 力圖構(gòu)筑我國(guó)在人工智能領(lǐng)域的先發(fā)優(yōu)勢(shì), 推動(dòng)人工智能的跨學(xué)科探索性研究, 將人工智能與數(shù)學(xué)、 神經(jīng)科學(xué)、 量子科學(xué)、 社會(huì)學(xué)、 經(jīng)濟(jì)學(xué)等交叉融合, 推動(dòng)關(guān)鍵技術(shù)的跨領(lǐng)域運(yùn)用, 服務(wù)于社會(huì)各個(gè)領(lǐng)域。2023年7月, 國(guó)家網(wǎng)信辦等七部門聯(lián)合公布《生成式人工智能服務(wù)管理暫行辦法》, 鼓勵(lì)生成式人工智能技術(shù)在各行業(yè)、 各領(lǐng)域的創(chuàng)新應(yīng)用, 鼓勵(lì)生成式人工智能算法、 框架、 芯片及配套軟件平臺(tái)等基礎(chǔ)技術(shù)的自主創(chuàng)新。

在人工智能與LLMs的浪潮下, LLMs技術(shù)更新迭代, 模型能力不斷加強(qiáng), 逐漸形成從底層算力、 模型開發(fā)到行業(yè)深度應(yīng)用的全新智能產(chǎn)業(yè)。隨著通用LLMs在垂域的發(fā)展, 如何使通用LLMs從基礎(chǔ)能力下沉到行業(yè)縱深領(lǐng)域的具體應(yīng)用、 釋放企業(yè)數(shù)字化轉(zhuǎn)型潛力, 已成為L(zhǎng)LMs技術(shù)未來(lái)發(fā)展的重要方向。相較于模型垂域應(yīng)用, 通用LLMs在數(shù)據(jù)、 算力、 規(guī)模等方面具有較大的優(yōu)勢(shì)。但從實(shí)用性和可實(shí)現(xiàn)性視角看, 垂域應(yīng)用有著不可比擬的優(yōu)勢(shì), 如: 具有更豐富的縱深領(lǐng)域知識(shí), 其通過(guò)提示詞工程和微調(diào)等訓(xùn)練方式, 專注于特定的下游任務(wù), 能夠以較低的成本實(shí)現(xiàn)高效率運(yùn)行, 推動(dòng)LLMs在業(yè)務(wù)中的具體落地。垂域LLMs在教育、 金融、 醫(yī)學(xué)、 法律、 數(shù)學(xué)等方面進(jìn)行了初步探索(Li等,2023;Zhang等,2023;Wang等,2023;Yang等,2023), 但目前在會(huì)計(jì)領(lǐng)域, 未發(fā)現(xiàn)訓(xùn)練有效的垂域LLMs, 也沒有LLMs的垂域應(yīng)用, 且尚不存在一個(gè)公認(rèn)且有效的測(cè)試數(shù)據(jù)集。研究由此出發(fā)。

現(xiàn)有 LLMs與會(huì)計(jì)結(jié)合的實(shí)踐應(yīng)用中, 通常采用兩種方式。第一種是直接使用計(jì)算機(jī)的思路與框架, 只是把數(shù)據(jù)換成會(huì)計(jì)相關(guān)語(yǔ)料(Liu等,2023), 這種應(yīng)用沒有針對(duì)性, 缺乏會(huì)計(jì)專業(yè)視角。第二種是會(huì)計(jì)人員對(duì) LLMs的應(yīng)用場(chǎng)景進(jìn)行設(shè)計(jì)應(yīng)用(Tong等,2024), 由于把通用 LLMs 直接嫁接到使用場(chǎng)景, 缺乏對(duì) LLMs 的原理分析, 無(wú)法進(jìn)行專業(yè)優(yōu)化。這兩種方式都是基于LLMs通用能力進(jìn)行的, 并未考慮會(huì)計(jì)領(lǐng)域的特殊性。會(huì)計(jì)領(lǐng)域涉及眾多數(shù)學(xué)推導(dǎo)、 判斷和模型公式等, 相對(duì)于LLMs 的自然語(yǔ)言生成(Natural Langnage Generation,NLG)和自然語(yǔ)言理解(Natural Langnage Understanding,NLU)能力, LLMs在會(huì)計(jì)領(lǐng)域的應(yīng)用應(yīng)當(dāng)更偏重LLMs的推理能力(Reasoning)。因此, 現(xiàn)階段LLMs在會(huì)計(jì)領(lǐng)域的應(yīng)用, 應(yīng)將會(huì)計(jì)專業(yè)理解與LLMs 的應(yīng)用原理相結(jié)合, 制作可以評(píng)測(cè)LLMs會(huì)計(jì)專業(yè)能力的數(shù)據(jù)集, 且分析測(cè)評(píng)結(jié)果, 為后續(xù)優(yōu)化指明方向。

本文可能的貢獻(xiàn)在于: 第一, 拓展了通用LLMs在會(huì)計(jì)領(lǐng)域的垂直應(yīng)用研究。本文梳理了LLMs在邏輯推理、 數(shù)學(xué)推理、 常識(shí)推理、 抽象推理等方面的技術(shù)現(xiàn)狀, 分析了這些能力與會(huì)計(jì)推理的關(guān)聯(lián), 為后續(xù)研究奠定了基礎(chǔ)。第二, 彌補(bǔ)了會(huì)計(jì)評(píng)測(cè)領(lǐng)域數(shù)據(jù)集缺失的空白。本文構(gòu)建了一個(gè)覆蓋全面、 多樣化的會(huì)計(jì)常識(shí)推理基準(zhǔn)測(cè)試集, 區(qū)別于已有財(cái)經(jīng)領(lǐng)域數(shù)據(jù)集, 本測(cè)試集聚焦會(huì)計(jì)循環(huán)、 財(cái)務(wù)報(bào)表、 會(huì)計(jì)分錄等核心主題, 嚴(yán)格控制題目質(zhì)量, 全面評(píng)估LLMs的會(huì)計(jì)領(lǐng)域推理能力。第三, 選取了GPT-4、 GLM 等代表性LLMs在自構(gòu)建測(cè)試集上進(jìn)行評(píng)測(cè), 并分析其表現(xiàn)。這一結(jié)果對(duì)于理解LLMs在會(huì)計(jì)領(lǐng)域的適用性具有重要參考價(jià)值。第四, 探討融合了領(lǐng)域知識(shí)、 優(yōu)化推理策略等提升LLMs會(huì)計(jì)推理能力的路徑, 為后續(xù)研究指明了方向, 有望推動(dòng)LLMs與會(huì)計(jì)專業(yè)知識(shí)的深度融合, 加速智能化會(huì)計(jì)實(shí)踐的落地。

二、 文獻(xiàn)綜述

(一)LLMs 在會(huì)計(jì)垂域的發(fā)展

通用LLMs在垂直領(lǐng)域的發(fā)展在醫(yī)學(xué)和法律領(lǐng)域已嶄露頭角, 這為其在會(huì)計(jì)領(lǐng)域垂域應(yīng)用的建設(shè)提供了借鑒。LLMs在醫(yī)學(xué)領(lǐng)域的成功應(yīng)用(Panagoulias等,2024)集中在醫(yī)療圖像診斷方面, 因?yàn)閳D像有極強(qiáng)的自然科學(xué)客觀規(guī)律性, 可以被AI識(shí)別, 并利用LLMs診斷的自然語(yǔ)言輸出, 提高AI應(yīng)用的可解釋性, 使其在醫(yī)學(xué)上的應(yīng)用比在其他行業(yè)有更好的前景。在法律領(lǐng)域的應(yīng)用上(Chalkidis,2023), LLMs難以達(dá)到應(yīng)用級(jí)別, 原因是法律環(huán)境是一個(gè)人類環(huán)境, 影響因素不穩(wěn)定, AI對(duì)這種人為規(guī)律的識(shí)別能力較弱, 且法律的解釋權(quán)威性是不能假借予LLMs的。會(huì)計(jì)領(lǐng)域介于醫(yī)學(xué)和法律之間, 既有相對(duì)客觀的經(jīng)濟(jì)規(guī)律和穩(wěn)定的會(huì)計(jì)準(zhǔn)則, 又面臨復(fù)雜多變的人類環(huán)境, LLMs需要具備更強(qiáng)的能力, 不同于醫(yī)學(xué)圖像診斷的記憶, 它們需要像人類一樣解釋因果關(guān)系, 并具備舉一反三的邏輯推理能力。會(huì)計(jì)領(lǐng)域非常注重LLMs的推理能力, 尤其是計(jì)算推理和會(huì)計(jì)常識(shí)推理能力。本文探討了推理能力的關(guān)鍵性, 旨在突破現(xiàn)有會(huì)計(jì)應(yīng)用的局限性?,F(xiàn)有研究不足主要有:

1. 單純研究推理能力的提升。這種研究致力于提升LLMs的某一項(xiàng)或幾項(xiàng)推理能力(Huang和Chang,2022), 但是沒有具體涉足會(huì)計(jì)常識(shí)推理能力, 而其整體提升的常識(shí)推理能力混進(jìn)各種專業(yè)知識(shí), 并且提升的推理能力只能達(dá)到50% ~ 80%的準(zhǔn)確度(Li等,2023), 不能保證會(huì)計(jì)推理達(dá)到理想狀態(tài)。此外, 尚未發(fā)現(xiàn)專門針對(duì)會(huì)計(jì)推理能力的文獻(xiàn)。

2. 只關(guān)心粗放型的語(yǔ)料基礎(chǔ)的預(yù)訓(xùn)練垂域研究。BloombergGPT(Wu等,2023)、 FinGPT(Liu等,2023)等通過(guò)訓(xùn)練語(yǔ)料的專業(yè)化和參數(shù)規(guī)模增大這種萬(wàn)能方式來(lái)解決一切LLMs的能力提升問題, 但是這種方法依靠的是沒有規(guī)律的涌現(xiàn)能力, 尚未知其產(chǎn)生機(jī)理(Zhao等,2023)。

3. 任務(wù)式的LLMs微調(diào)研究。這類研究利用微調(diào)的方式提升情感分析任務(wù)的準(zhǔn)確性(Fatouros等,2023)、 回答金融會(huì)計(jì)知識(shí)的準(zhǔn)確性(Theuma和Shareghi,2024)、 金融會(huì)計(jì)文本分類的準(zhǔn)確性(Shah等,2023)等, 這些都是自然語(yǔ)言本來(lái)就有的任務(wù), 只是語(yǔ)料變成與金融會(huì)計(jì)相關(guān), 沒有針對(duì)會(huì)計(jì)特有的任務(wù)特征——需要計(jì)算、 需要會(huì)計(jì)專業(yè)方能理解。

4. 概述式的研究。廖高可和李庭輝(2023)、 歐陽(yáng)日輝和劉昱宏(2024)調(diào)研已有會(huì)計(jì)領(lǐng)域LLMs的研究情況與應(yīng)用現(xiàn)狀后發(fā)現(xiàn), 尚未形成會(huì)計(jì)領(lǐng)域LLMs的研究方法與范式, 更未涉及會(huì)計(jì)推理概念與能力提升的具體方案。

綜上, 已有會(huì)計(jì)垂域研究最大的問題是套用自然語(yǔ)言處理的研究方法, 研究會(huì)計(jì)文檔分類、 問答、 情感分析任務(wù)的完成能力, 而未抓住會(huì)計(jì)專業(yè)方向的重點(diǎn)能力——會(huì)計(jì)推理能力。這種套用掩蓋了LLMs的真實(shí)垂域能力。復(fù)旦大學(xué)的金融 DISC-FinLLM 的研究(Chen等,2023)按照自然語(yǔ)言的任務(wù)能力提升方式, 試圖大量使用金融相關(guān)語(yǔ)料微調(diào)提升金融能力, 但是效果甚微。原因主要是在提升能力之前, 未充分評(píng)測(cè)LLMs在專業(yè)領(lǐng)域缺失的具體能力, 繼而針對(duì)此能力進(jìn)行后續(xù)提升方法研究。

(二)LLMs會(huì)計(jì)垂域推理能力

在 LLMs研究理論中, 模仿人的邏輯形式完成具體的事情, 簡(jiǎn)稱推理(Huang和Chang,2022;Yu等,2023)。邏輯推理評(píng)測(cè)通常由LLMs回答推理問題的準(zhǔn)確性來(lái)衡量。按照現(xiàn)行LLMs推理能力分類, 可將其劃分為四種推理能力: 邏輯推理、 數(shù)學(xué)和計(jì)算推理、 常識(shí)推理、 抽象推理(Sun等,2023;Huang和Chang,2022)。這四類推理能力在會(huì)計(jì)領(lǐng)域的應(yīng)用至關(guān)重要, 每一個(gè)具體的會(huì)計(jì)應(yīng)用場(chǎng)景都涉及不同的推理能力。會(huì)計(jì)領(lǐng)域大量依賴應(yīng)用邏輯和數(shù)學(xué)計(jì)算能力, 意味著訓(xùn)練出縝密的推理能力是LLMs應(yīng)用于會(huì)計(jì)領(lǐng)域的關(guān)鍵。

邏輯推理能力指的是模型基于特定的事實(shí)與命題, 依據(jù)規(guī)則推導(dǎo)出其他命題的能力, 主要包括自然語(yǔ)言推理與論證推理。自然語(yǔ)言推理主要是判斷兩個(gè)句子之間的邏輯關(guān)系, 例如蘊(yùn)含、 矛盾或是否相關(guān)等, 根據(jù)句子語(yǔ)意去判斷真實(shí)表達(dá)意圖。自然語(yǔ)言推理能力在會(huì)計(jì)領(lǐng)域發(fā)揮著重要作用, 例如它能夠分析財(cái)務(wù)報(bào)告中的敘述, 判斷管理層討論與財(cái)務(wù)數(shù)據(jù)之間是否存在邏輯的一致性(是否言行一致)等。論證推理則是評(píng)估論證的有效性和結(jié)構(gòu), 主要是識(shí)別論據(jù)和結(jié)論。論證推理在財(cái)務(wù)領(lǐng)域的應(yīng)用體現(xiàn)在投資報(bào)告或市場(chǎng)分析方面, 用以評(píng)估其論證的合理性和市場(chǎng)走向預(yù)測(cè)是否基于有效論據(jù)。

數(shù)學(xué)和計(jì)算推理(Cobbe等,2021)主要是指LLMs解決數(shù)學(xué)運(yùn)算、 邏輯推導(dǎo)以及運(yùn)用計(jì)算機(jī)技術(shù)解決問題的能力, 包括算術(shù)問題求解、 幾何問題求解、 數(shù)學(xué)證明等。算術(shù)求解主要是基于文本描述解決數(shù)學(xué)問題, 例如從財(cái)務(wù)報(bào)表的敘述中自動(dòng)提取和計(jì)算關(guān)鍵財(cái)務(wù)指標(biāo)(利潤(rùn)率、 增長(zhǎng)率等), 以便快速分析推斷出公司的財(cái)務(wù)健康狀況; 幾何問題求解是理解與解決結(jié)合圖形和文本描述的幾何問題, 具體可應(yīng)用于行業(yè)估值中, 例如在評(píng)估商業(yè)地產(chǎn)價(jià)值時(shí), 通過(guò)分析其形狀、 大小和位置信息(結(jié)合地理信息系統(tǒng)GIS數(shù)據(jù)), 計(jì)算出潛在的商業(yè)利用價(jià)值; 數(shù)學(xué)證明是生成或驗(yàn)證數(shù)學(xué)證明的邏輯過(guò)程, 在會(huì)計(jì)領(lǐng)域能夠?qū)崿F(xiàn)復(fù)雜財(cái)務(wù)模型的驗(yàn)證和模型的預(yù)測(cè), 確保其在邏輯和數(shù)學(xué)上的正確性。

常識(shí)推理(Talmor等,2022)是基于常識(shí)和經(jīng)驗(yàn)的思維方式, 對(duì)事件發(fā)展的邏輯進(jìn)行歸納總結(jié), 得出合理判斷的能力。常識(shí)推理包括事件和因果推理、 常識(shí)問答等。事件和因果推理是指LLMs理解文本中事件之間的因果關(guān)系和順序, 在會(huì)計(jì)領(lǐng)域的表現(xiàn)也較為多樣化, 能夠分析市場(chǎng)事件如并購(gòu)、 政策變更等對(duì)公司財(cái)務(wù)狀況的影響; 常識(shí)問答主要就是使用常識(shí)知識(shí)回答問題, LLMs需要懂得會(huì)計(jì)領(lǐng)域的專有名詞、 行業(yè)準(zhǔn)則等基本常識(shí)性問題, 能夠回答有關(guān)財(cái)會(huì)相關(guān)知識(shí), 輔助會(huì)計(jì)決策。

抽象推理(Hu等,2023)主要是指從抽象的概念出發(fā), 得出普適性規(guī)律和認(rèn)識(shí)的推理過(guò)程, 主要包括模式識(shí)別和分類、 類比和類比推理。模式識(shí)別和分類, 顧名思義就是識(shí)別分類抽象模式和概念, 在大量數(shù)據(jù)中識(shí)別出異常數(shù)據(jù), 適用于公司風(fēng)險(xiǎn)管理與欺詐檢測(cè); 類比和類比推理是在不同概念、 對(duì)象或情景之間的類比, 比較不同時(shí)點(diǎn)或不同事件的相同特征, 尋找其中的相似性與差異性。

上述計(jì)算機(jī)推理研究結(jié)合會(huì)計(jì)理論和會(huì)計(jì)推理教育定義會(huì)計(jì)推理(Accounting Reasoning), 這是一個(gè)涉及財(cái)務(wù)和會(huì)計(jì)信息解讀、 分析與判斷的過(guò)程, 它依賴于對(duì)財(cái)務(wù)數(shù)據(jù)的理解、 評(píng)估和應(yīng)用, 以做出合理的經(jīng)濟(jì)決策。這種推理過(guò)程包括識(shí)別和分析會(huì)計(jì)信息的能力、 解釋財(cái)務(wù)報(bào)表中的數(shù)據(jù), 以及將這些信息用于預(yù)測(cè)、 評(píng)估和制定策略。

(三)數(shù)據(jù)集評(píng)測(cè)基準(zhǔn)

在自然語(yǔ)言處理(Natural Language Processing,NLP)發(fā)展初期, 通用LLMs的評(píng)測(cè)主要是使用簡(jiǎn)單基準(zhǔn)測(cè)試, 評(píng)估集中于語(yǔ)法與詞匯等, 包括句法分析、 詞義消歧等任務(wù)。隨著深度學(xué)習(xí)的出現(xiàn), NLP擁有更加廣泛的基準(zhǔn), SNLI(Bowman等,2015)和SQuAD(Rajpurkar等,2016)這些基準(zhǔn)測(cè)試不僅能夠評(píng)估模型的系統(tǒng)性能, 而且可以提供足夠的訓(xùn)練數(shù)據(jù), 以便于評(píng)估特定任務(wù)的準(zhǔn)確性。隨后, 大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的崛起, 例如BERT模型(Devlinet等,2019), 使得LLMs的測(cè)評(píng)方法逐漸演變?yōu)檫m應(yīng)這些新型通用模型的性能評(píng)估方法。如今越來(lái)越多的開源基準(zhǔn)數(shù)據(jù)集用于評(píng)測(cè)LLMs對(duì)各項(xiàng)任務(wù)的應(yīng)對(duì)與挑戰(zhàn), 這些測(cè)試基準(zhǔn)包括但不限于GLUE(Wang等,2018)、 SuperGLUE(Wang等,2019)和 BIG-Bench(Srivastava等,2022)。隨著語(yǔ)言模型規(guī)模的不斷擴(kuò)大, LLMs在零次學(xué)習(xí)和少量學(xué)習(xí)的設(shè)置下都表現(xiàn)出顯著的改進(jìn), 可以與微調(diào)的預(yù)訓(xùn)練模型相媲美。這一轉(zhuǎn)變促成了評(píng)估領(lǐng)域的轉(zhuǎn)變, 標(biāo)志著從傳統(tǒng)以任務(wù)為中心的基準(zhǔn)轉(zhuǎn)向關(guān)注以能力為中心的評(píng)估。隨著這一趨勢(shì)的發(fā)展, 設(shè)計(jì)用于知識(shí)、 推理和各種其他能力的評(píng)估基準(zhǔn)的范圍已經(jīng)擴(kuò)大。這些基準(zhǔn)的特點(diǎn)是放棄訓(xùn)練數(shù)據(jù), 并制定總體目標(biāo), 即在零次學(xué)習(xí)(Zero-shot)和少次學(xué)習(xí)(Few-shot)設(shè)置下全面評(píng)估模型的能力(Zhong等,2023;Zhang等,2023;Li等,2023)。

相比于通用LLMs, 垂直領(lǐng)域應(yīng)用以其實(shí)用性及可實(shí)現(xiàn)性等優(yōu)勢(shì), 備受學(xué)術(shù)界和業(yè)界的關(guān)注。它具有更豐富的縱深領(lǐng)域知識(shí), 能夠回答更加專業(yè)的問題, 推動(dòng)LLMs在業(yè)務(wù)中的具體落地。它專注于特定的下游任務(wù), 通用LLMs的測(cè)試基準(zhǔn)已不完全適用于LLMs的垂域應(yīng)用評(píng)測(cè), 故需要引入一系列專門的基準(zhǔn)測(cè)試評(píng)估 LLMs在特定領(lǐng)域和應(yīng)用程序中的能力(Chang等,2023)。對(duì)于專業(yè)領(lǐng)域評(píng)測(cè)基準(zhǔn), CMMLU、 GAOKAO Benchmark、 MATH、 APPS、 CUAD、 CMB、 CFBenchmark 等任務(wù)與數(shù)據(jù)集已在中文、 教育、 數(shù)學(xué)、 計(jì)算機(jī)、 法律、 中醫(yī)、 金融等專業(yè)領(lǐng)域建立起基準(zhǔn)測(cè)試(Li等,2023;Zhang等,2023;Wang等,2023;Yang等,2023), 這些專業(yè)領(lǐng)域的基準(zhǔn)能夠很好地評(píng)測(cè)模型在專有領(lǐng)域的能力, 也能夠通過(guò)基準(zhǔn)數(shù)據(jù)集的建立構(gòu)建其專有領(lǐng)域的垂直模型。

對(duì)于評(píng)測(cè)基準(zhǔn)而言, LLMs的評(píng)測(cè)數(shù)據(jù)集涉及多個(gè)方面多項(xiàng)任務(wù)(例如 CLUE 中文理解評(píng)估基準(zhǔn)有九項(xiàng)自然語(yǔ)言理解任務(wù)), 但內(nèi)容大多較為寬泛, 給出的答案往往是大眾化、 普適化的內(nèi)容。通用模型強(qiáng)調(diào)的是全方位、 多層次的應(yīng)對(duì)能力, 它對(duì)各個(gè)專業(yè)層次都有應(yīng)對(duì)能力, 但應(yīng)對(duì)復(fù)雜情況的處理能力較弱。對(duì)于LLMs的垂域評(píng)測(cè)方式, 以 DISC-FinLLM(Chen等,2023)模型為例, 該模型作為基于多個(gè)專家微調(diào)的財(cái)務(wù)金融LLMs, 通過(guò)微調(diào)形成垂直運(yùn)用能力, 其主要評(píng)估方法包括四個(gè)組成部分: 財(cái)務(wù)NLP任務(wù)、 人員測(cè)試、 數(shù)據(jù)分析和實(shí)時(shí)分析。為評(píng)估這四部分能力, DISC-FinLLM模型通過(guò)爬蟲、 開源數(shù)據(jù)集等完成其財(cái)務(wù)NLP任務(wù)、 實(shí)時(shí)分析任務(wù), 通過(guò)自建數(shù)據(jù)集方式實(shí)現(xiàn)數(shù)據(jù)分析任務(wù)(Wang等,2023)。同樣的, BloombergGPT(Wu等,2023)在金融領(lǐng)域特定任務(wù)和通用任務(wù)兩方面對(duì)模型進(jìn)行整體評(píng)估。對(duì)于金融領(lǐng)域特定任務(wù)的評(píng)估, 數(shù)據(jù)是來(lái)源于開源數(shù)據(jù)集與彭博社專有的內(nèi)部數(shù)據(jù)集; 對(duì)于通用任務(wù)的評(píng)估, 通過(guò)對(duì)BIG-Benchmark等基準(zhǔn)數(shù)據(jù)集的提取與評(píng)估得出最終結(jié)果, 評(píng)估數(shù)據(jù)集來(lái)自HELM、 SuperGLUE、 MMLU和GPT-3等開源的評(píng)估基準(zhǔn)(Lu等,2023)。

對(duì)于模型垂域評(píng)測(cè)來(lái)說(shuō), 通用LLMs的評(píng)測(cè)基準(zhǔn)仍適用。LLMs垂域應(yīng)用需要一定的通用能力, 但對(duì)于專業(yè)縱深能力來(lái)講, 需要建設(shè)自有數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練。對(duì)于LLMs的垂域建設(shè), 各個(gè)專業(yè)領(lǐng)域已有布局和建設(shè)。以LLMs的會(huì)計(jì)垂域?yàn)槔?LLMs垂域評(píng)測(cè)基準(zhǔn)存在一些不足之處: 一是LLMs并無(wú)一個(gè)固定的會(huì)計(jì)垂域測(cè)評(píng)基準(zhǔn), 大多是自建基準(zhǔn)或自建數(shù)據(jù)集, 這在一定程度上降低了垂域評(píng)測(cè)的可信度; 二是相較于通用LLMs, LLMs在會(huì)計(jì)垂域處理長(zhǎng)文本內(nèi)容的性能上存在差異, 它們的性能隨著上下文長(zhǎng)度的增加而顯著惡化(Bai等,2023); 三是模型的規(guī)模與模型精度之間存在正相關(guān)關(guān)系, 垂域應(yīng)用要確保精度, 必須使用高質(zhì)量數(shù)據(jù)(Liu等,2023;Li等,2023), 通用模型測(cè)評(píng)基準(zhǔn)不能完全有效評(píng)估模型垂域能力。

LLMs向垂直領(lǐng)域遷移的趨勢(shì)日趨明顯, 如何在盡可能保留模型通用能力的同時(shí)提高模型在垂直領(lǐng)域的能力一直是熱門話題。會(huì)計(jì)領(lǐng)域垂域應(yīng)用的建立, 不僅需要進(jìn)行邏輯探索、 模型的微調(diào)與提示, 還需要一個(gè)客觀的評(píng)測(cè)基準(zhǔn), 如果缺失評(píng)測(cè)基準(zhǔn), 垂域能力則會(huì)失去說(shuō)服力。因此, 需要建立客觀的數(shù)據(jù)集測(cè)評(píng)已有或未來(lái)的新模型的會(huì)計(jì)能力。通過(guò)模型的評(píng)測(cè)得分判斷垂域LLMs是否能夠應(yīng)用于實(shí)際會(huì)計(jì)場(chǎng)景, 為后續(xù)模型的優(yōu)化提供借鑒。

三、 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果

(一)實(shí)驗(yàn)設(shè)計(jì)

本文創(chuàng)新了LLMs會(huì)計(jì)推理能力研究范式(見圖1)。首先根據(jù)會(huì)計(jì)教育內(nèi)容與推理定義理論, 抽象出細(xì)分會(huì)計(jì)推理能力; 然后對(duì)每一種細(xì)分能力進(jìn)行評(píng)測(cè)設(shè)計(jì), 包括細(xì)分能力的評(píng)測(cè)方法、 評(píng)測(cè)可參考的數(shù)據(jù)集、 評(píng)測(cè)體系設(shè)計(jì); 接著根據(jù)評(píng)測(cè)設(shè)計(jì)生成測(cè)評(píng)數(shù)據(jù)集; 最后進(jìn)行測(cè)評(píng)并生成測(cè)評(píng)結(jié)果分析, 根據(jù)測(cè)評(píng)結(jié)果提出提升評(píng)測(cè)能力的方法。

借鑒會(huì)計(jì)教育方法, 把LLMs當(dāng)成一個(gè)已經(jīng)有一定會(huì)計(jì)基礎(chǔ)的學(xué)生進(jìn)行專業(yè)教育, 首先需要評(píng)測(cè)LLMs的會(huì)計(jì)水平, 定位其缺失的會(huì)計(jì)內(nèi)容, 比如折舊方法使用不當(dāng)、 經(jīng)營(yíng)現(xiàn)金流組成部分理解錯(cuò)誤、 計(jì)算錯(cuò)誤等, 再根據(jù)錯(cuò)誤的內(nèi)容進(jìn)行處理。在處理過(guò)程中, 如果需要數(shù)據(jù)進(jìn)行微調(diào)或者上下文提示工程設(shè)計(jì), 則要根據(jù)具體錯(cuò)誤內(nèi)容生成相關(guān)性大數(shù)據(jù)。斯坦福大學(xué)陳丹琦團(tuán)隊(duì)的研究表明, 使用精選過(guò)的5%數(shù)據(jù)比原來(lái)100%數(shù)據(jù)微調(diào)模型能產(chǎn)生更佳的效果(Xia等,2024), 精選過(guò)的數(shù)據(jù)集能夠使用高度與提升能力相關(guān)的數(shù)據(jù), 精準(zhǔn)地優(yōu)化LLMs的會(huì)計(jì)推理能力。因此, 會(huì)計(jì)推理能力研究的第一步是準(zhǔn)確評(píng)測(cè)出LLMs會(huì)計(jì)推理能力的具體缺陷。這需要會(huì)計(jì)教育分析歸類, 把會(huì)計(jì)推理能力細(xì)分, 然后再進(jìn)行評(píng)測(cè)方法研究。

為了不與計(jì)算機(jī)通用推理能力重合, 可以對(duì)跨級(jí)推理能力進(jìn)行分類: 多步計(jì)算推理能力、 會(huì)計(jì)常識(shí)推理能力、 會(huì)計(jì)模式識(shí)別能力、 會(huì)計(jì)類比能力。其中, 多步計(jì)算推理是為了迎合會(huì)計(jì)分析中經(jīng)常出現(xiàn)復(fù)雜連貫的計(jì)算, 會(huì)計(jì)常識(shí)推理能力包括各種會(huì)計(jì)概念理解、 方法選取、 方法使用能力。對(duì)于這兩種能力, 幾乎在一切會(huì)計(jì)問題上都需要LLMs具備較高的水平。而會(huì)計(jì)模式識(shí)別和會(huì)計(jì)類比能力在特定場(chǎng)合, 比如預(yù)測(cè)、 發(fā)現(xiàn)規(guī)律、 比較分析中會(huì)有特殊使用。因此, 多步計(jì)算推理能力和會(huì)計(jì)常識(shí)推理能力是基礎(chǔ)會(huì)計(jì)推理能力, 而其他能力是適用于不同應(yīng)用場(chǎng)合的特殊會(huì)計(jì)推理能力。本文以基礎(chǔ)會(huì)計(jì)推理能力的評(píng)測(cè)為主。

在評(píng)價(jià)LLMs的推理能力時(shí), 常用準(zhǔn)確性來(lái)衡量。在會(huì)計(jì)和審計(jì)領(lǐng)域, 對(duì)推理能力的衡量除準(zhǔn)確性外, 還需要推理過(guò)程具有可解釋性, 便于人類理解復(fù)雜過(guò)程得出的結(jié)果是否符合經(jīng)濟(jì)原理或者人類目標(biāo)。到目前為止, 尚未有LLMs在各項(xiàng)推理任務(wù)中都能達(dá)到100%的準(zhǔn)確率, 但是部分已經(jīng)達(dá)到人類水平。提高各種LLMs在各種推理任務(wù)中的完成準(zhǔn)確率, 是目前推理研究的目標(biāo), 也是會(huì)計(jì)垂域LLMs真正應(yīng)用于實(shí)踐的關(guān)鍵, 但甚少學(xué)者研究推理過(guò)程的可解釋性。因此, 本文設(shè)計(jì)一個(gè)推理過(guò)程, 讓LLMs在利用財(cái)務(wù)常識(shí)計(jì)算推理解決問題時(shí), 提供一個(gè)可解釋的過(guò)程, 并提高計(jì)算準(zhǔn)確性。

(二)多步計(jì)算推理能力評(píng)測(cè)標(biāo)準(zhǔn)

已有許多評(píng)測(cè)基準(zhǔn)(Benchmarks)用以評(píng)測(cè)LLMs的通用推理能力[如表1所列(Srivastava等,2022;Yu等,2023;Chang等,2023)], 這些評(píng)測(cè)基準(zhǔn)一般是自然語(yǔ)言推理任務(wù)使用的公共數(shù)據(jù)集, 數(shù)據(jù)集中是測(cè)試某種推理能力的題目, 并且附有答案, 用來(lái)快速檢測(cè)LLMs在回答這些題目時(shí)的準(zhǔn)確率, 包括邏輯推理、 常識(shí)推理、 數(shù)學(xué)推理等, 通過(guò)在不同類型的推理任務(wù)上測(cè)試模型來(lái)評(píng)估其推理能力。評(píng)測(cè)中文會(huì)計(jì)推理能力, 需要中文領(lǐng)域的評(píng)測(cè)基準(zhǔn), 特別是評(píng)測(cè)會(huì)計(jì)常識(shí)推理能力時(shí), 如果使用外文的評(píng)測(cè)基準(zhǔn)會(huì)使得評(píng)測(cè)錯(cuò)誤率由于翻譯錯(cuò)誤的存在而被高估。多步計(jì)算推理能力由于題目語(yǔ)言表達(dá)比較簡(jiǎn)單, 翻譯錯(cuò)誤率極低, 可以以數(shù)學(xué)和計(jì)算推理中的評(píng)測(cè)基準(zhǔn)作為參考, 生成新的評(píng)測(cè)標(biāo)準(zhǔn)。

在計(jì)算推理基準(zhǔn)數(shù)據(jù)集中, 最適合評(píng)測(cè)會(huì)計(jì)多步計(jì)算推理能力的數(shù)據(jù)集是GSM8K(Cobbe等,2021), 它是一個(gè)包含8.5K個(gè)高質(zhì)量、 語(yǔ)言多樣性的小學(xué)數(shù)學(xué)文字題目的數(shù)據(jù)集。該數(shù)據(jù)集旨在支持需要多步推理的基礎(chǔ)數(shù)學(xué)問題的問答任務(wù)。這些問題需要2 ~ 8步解決, 解決方案主要為使用基本算術(shù)運(yùn)算(+、-、×、÷)執(zhí)行一系列基本計(jì)算, 以得出最終答案。一位聰明的中學(xué)生應(yīng)該能夠解決每個(gè)問題。問題不需要超出早期代數(shù)水平, 絕大多數(shù)問題可以在不明確定義變量的情況下解決。以自然語(yǔ)言提供解決方案, 而不是純數(shù)學(xué)表達(dá)式, 是最普遍有用的數(shù)據(jù)格式。香港中文大學(xué)對(duì)GSM8K進(jìn)行改進(jìn), 生成的 MR-GSM8K(Zeng等,2024)挑選原數(shù)據(jù)集中的應(yīng)用題部分, 把題目分成順向和逆向兩類, 逆向是需要通過(guò)設(shè)未知數(shù)解方程的題目, 順向是按照思路計(jì)算即可得到最終答案的題目。在會(huì)計(jì)知識(shí)中, 排除模型分析計(jì)算, 大多數(shù)計(jì)算處于小學(xué)數(shù)學(xué)水平, 涉及日期計(jì)算、 多步串聯(lián)計(jì)算時(shí)需要確保LLMs可以記住前面的計(jì)算結(jié)果, 以將其使用于后續(xù)步驟。因此, MR-GSM8K 的順向題目非常適合會(huì)計(jì)多步計(jì)算推理能力評(píng)測(cè)。MR-GSM8K是目前最常用的計(jì)算邏輯測(cè)試數(shù)據(jù)集, 在多種LLMs評(píng)測(cè)中被列為首選評(píng)測(cè)基準(zhǔn), 多年的測(cè)試經(jīng)驗(yàn)證明了其測(cè)試計(jì)算邏輯的可靠性。過(guò)濾掉MR-GSM8K中的逆向題, 再把答案字?jǐn)?shù)少于 300字的題目也過(guò)濾掉, 剩下的題目就是分析步驟比較長(zhǎng)(3步以上)且計(jì)算形式與一般會(huì)計(jì)計(jì)算相近的題目。最終, 剩下586條長(zhǎng)計(jì)算步驟的MR-GSM8K題目, 其可以作為會(huì)計(jì)多步計(jì)算推理能力的基準(zhǔn)數(shù)據(jù)集, 稱為Multi-Calculation-Benchmark。以下是會(huì)計(jì)多步計(jì)算推理能力基準(zhǔn)數(shù)據(jù)集中的例子:

題目: 杰西卡正試圖計(jì)算她每個(gè)月需要支付的所有債務(wù)總額。她的學(xué)生貸款最低還款額為每月300美元, 信用卡的最低還款額為每月200美元, 而她的按揭貸款最低還款額為每月500美元。如果杰西卡想支付比最低額度多 50% 的金額, 她一年內(nèi)需要支付多少錢?

(三)中文會(huì)計(jì)常識(shí)推理能力評(píng)測(cè)標(biāo)準(zhǔn)

中文會(huì)計(jì)常識(shí)推理評(píng)測(cè)基準(zhǔn)有兩部分來(lái)源: 一是從英文評(píng)測(cè)基準(zhǔn)翻譯而來(lái); 二是通過(guò)原生中文會(huì)計(jì)常識(shí)推理任務(wù)標(biāo)注或者爬取取得。相比于多步計(jì)算推理能力的評(píng)測(cè), 中文會(huì)計(jì)常識(shí)推理能力有顯著的區(qū)域差異, 國(guó)內(nèi)外使用的會(huì)計(jì)準(zhǔn)則的差異, 導(dǎo)致國(guó)外的會(huì)計(jì)評(píng)測(cè)基準(zhǔn)不能被直接使用, 而一般的原生評(píng)測(cè)基準(zhǔn)是從通用常識(shí)推理 基準(zhǔn)數(shù)據(jù)集中篩選出會(huì)計(jì)相關(guān)的數(shù)據(jù)作為評(píng)測(cè)基準(zhǔn)。中文語(yǔ)言理解評(píng)測(cè)基準(zhǔn)CLUE(Chinese Language Understanding Evaluation)(Xu等,2020)是一個(gè)面向中文的類似于GLUE(General Language Undersanding Evaluation)(Wang等,2018)的語(yǔ)言理解基準(zhǔn), 它旨在評(píng)估和提高中文自然語(yǔ)言處理模型的性能。CLUE包括一系列不同的任務(wù), 如文本分類、 閱讀理解和命名實(shí)體識(shí)別、 推理任務(wù)等, 這些任務(wù)涵蓋語(yǔ)言理解的各個(gè)方面。通過(guò)這些任務(wù), CLUE能夠全面評(píng)估中文處理模型能力, 并推動(dòng)中文自然語(yǔ)言處理技術(shù)的發(fā)展。而由 CLUE 衍生出的推理數(shù)據(jù)集有以下幾種:

第一, CMNLI 自然語(yǔ)言推理數(shù)據(jù)集。該數(shù)據(jù)集內(nèi)容來(lái)自fiction、 telephone、 travel、 government、 slate等, 通過(guò)對(duì)原始英文MNLI 和XNLI數(shù)據(jù)翻譯得到。該數(shù)據(jù)集可用于判斷給定的兩個(gè)句子之間是屬于蘊(yùn)涵、 中立還是矛盾關(guān)系。數(shù)據(jù)集例子如下:

題目: 在這項(xiàng)任務(wù)中, 給你一對(duì)句。你的工作是選擇這兩個(gè)句子是否明確一致(蘊(yùn)含)/不一致(矛盾), 或者是否無(wú)法確定(中立)。你的答案必須是數(shù)字 0(蘊(yùn)含)、 1(中性)或 2(矛盾)的形式。句子 1: 是的, 我告訴你, 雖然如果你去給那些網(wǎng)球鞋定價(jià), 我明白為什么你現(xiàn)在知道它們的價(jià)格在 100 美元的范圍內(nèi)了。句子 2: 網(wǎng)球鞋有一系列的價(jià)格。

第二, OCNLI 中文原版自然語(yǔ)言推理數(shù)據(jù)集。原生中文自然語(yǔ)言推理數(shù)據(jù)集 OCNLI是第一個(gè)非翻譯的、 使用原生漢語(yǔ)的大型中文自然語(yǔ)言推理數(shù)據(jù)集, 與CMNLI 具有相似的推理任務(wù), 數(shù)據(jù)集例子如下:

題目: 在這項(xiàng)任務(wù)中, 給你一對(duì)句。你的工作是選擇這兩個(gè)句子是否明確一致(蘊(yùn)含)/不一致(矛盾), 或者是否無(wú)法確定(中立)。你的答案必須是數(shù)字 0(蘊(yùn)含)、 1(中性)或 2(矛盾)的形式。句子 1: 因?yàn)闋I(yíng)業(yè)額上升了、 看來(lái), 擴(kuò)銷的目標(biāo)有可能實(shí)現(xiàn)。句子 2: 營(yíng)業(yè)額上升了。

第三, 螞蟻金融語(yǔ)義相似度數(shù)據(jù)集(AFQMC)。AFQMC數(shù)據(jù)集與 OCNLI 一樣, 這些基準(zhǔn)數(shù)據(jù)集提取出來(lái)的會(huì)計(jì)數(shù)據(jù)集可以評(píng)測(cè)出LLMs對(duì)語(yǔ)言表達(dá)相似度的推理能力, 確定LLMs對(duì)語(yǔ)言結(jié)構(gòu)、 詞匯通用概念的理解。大規(guī)模中文金融領(lǐng)域語(yǔ)料庫(kù)BBT-FinCorpus(Lu等,2023)、 CFBenchmark(Lei等,2023)這兩個(gè)金融專業(yè)數(shù)據(jù)集注重一般自然語(yǔ)言任務(wù), 如實(shí)體命名識(shí)別和分類等, 沒有結(jié)合會(huì)計(jì)的專業(yè)分析推理, 不能評(píng)測(cè)LLMs對(duì)會(huì)計(jì)專業(yè)概念的理解、 方法的使用能力。DISC-FinLLM 的語(yǔ)料(Chen等,2023)雖然涉及會(huì)計(jì)分析推理, 但是只涉及少數(shù)概念識(shí)別, 極少有方法評(píng)測(cè)。FinEval(Zhang等,2023)是一個(gè)真正意義上評(píng)測(cè)會(huì)計(jì)常識(shí)推理能力的基準(zhǔn)數(shù)據(jù)集, 在會(huì)計(jì)常識(shí)上只有120道題目數(shù)據(jù), 并沒有系統(tǒng)覆蓋會(huì)計(jì)學(xué)科理論上的大部分章節(jié), 計(jì)算題只占1/4不到, 大部分是簡(jiǎn)單的概念識(shí)別, 不涉及會(huì)計(jì)分析方法。數(shù)據(jù)例子如下:

題目: 哪個(gè)選項(xiàng)符合債務(wù)重組準(zhǔn)則的會(huì)計(jì)處理要求。

A. 債務(wù)重組中涉及的債權(quán)、 重組債權(quán)、 債務(wù)、 重組債務(wù)和其他金融工具的確認(rèn)、 計(jì)量

B. 通過(guò)債務(wù)重組形成企業(yè)合并

C. 債權(quán)人與債務(wù)人在債務(wù)重組前后均受同一方或相同的多方最終控制, 且該債務(wù)重組的交易實(shí)質(zhì)是債權(quán)人或債務(wù)人進(jìn)行了權(quán)益性分配或接受了權(quán)益性投入

D.以存貨清償債務(wù)

計(jì)算題可以很好地評(píng)測(cè)出LLMs對(duì)會(huì)計(jì)概念的理解以及方法的使用是否已經(jīng)達(dá)到類人類理解的階段, 而不僅僅是記憶體能力。全面覆蓋會(huì)計(jì)知識(shí)點(diǎn)才能評(píng)測(cè)LLMs的會(huì)計(jì)常識(shí)推理能力的問題所在。因此, 以上評(píng)測(cè)基準(zhǔn)并不能很好評(píng)測(cè)LLMs的專業(yè)會(huì)計(jì)能力, 并找出其問題。比較好的評(píng)測(cè)方法是使用會(huì)計(jì)考試題作為評(píng)測(cè)標(biāo)準(zhǔn), 其可以滿足知識(shí)點(diǎn)覆蓋問題, 以及評(píng)測(cè)LLMs對(duì)概念、 方法的理解。使用入學(xué)考試或者學(xué)校專業(yè)考試(Cheng等,2023)的題目雖然可以從非?;A(chǔ)的會(huì)計(jì)知識(shí)變化到更高級(jí)的知識(shí), 但是它們不一定直接與成為一名執(zhí)業(yè)會(huì)計(jì)師所需的知識(shí)相關(guān)聯(lián), 不能評(píng)測(cè)LLMs的實(shí)踐能力。

本文通過(guò)使用專業(yè)認(rèn)證考試題目來(lái)評(píng)測(cè) LLMs 的會(huì)計(jì)常識(shí)推理能力。個(gè)人在某一專業(yè)認(rèn)證考試的通過(guò)往往代表著個(gè)人在該領(lǐng)域有著足夠的認(rèn)識(shí)與理解。只有大語(yǔ)言模型通過(guò)專業(yè)資格考試, 才能說(shuō)明其具有某一行業(yè)的入門能力。 因此, 大語(yǔ)言模型通過(guò)會(huì)計(jì)專業(yè)認(rèn)證能力測(cè)試是其在財(cái)會(huì)垂域應(yīng)用的基礎(chǔ)。中國(guó)注冊(cè)會(huì)計(jì)師(CPA)考試共有六個(gè)科目, 據(jù)此可把會(huì)計(jì)常識(shí)推理能力劃分成對(duì)應(yīng)的六個(gè)細(xì)分(會(huì)計(jì)、 審計(jì)、 稅法、 財(cái)務(wù)管理、 經(jīng)濟(jì)法和戰(zhàn)略)。

本文以會(huì)計(jì)常識(shí)推理能力為例, 構(gòu)建評(píng)測(cè) LLMs 對(duì)應(yīng)推理能力的數(shù)據(jù)集。在會(huì)計(jì)能力考試中, 相較于職稱考試, CPA考試的國(guó)際認(rèn)可度更高、 專業(yè)范圍更廣, 能夠適用于多種財(cái)經(jīng)行業(yè)的高級(jí)職位。因此, 采用CPA會(huì)計(jì)科目考試題目中的計(jì)算題作為基準(zhǔn)數(shù)據(jù)集, 題目覆蓋CPA 考試大綱的各個(gè)章節(jié), 包括30章113節(jié)知識(shí)點(diǎn)內(nèi)容, 涉及會(huì)計(jì)分錄借貸判別、 科目選擇、 金額計(jì)算、 會(huì)計(jì)準(zhǔn)則適用、 會(huì)計(jì)概念理解、 方法適用等共404題, 稱為Accoun-ting-Reasoning-Benchmark。評(píng)測(cè)題目的答案使用的是直接計(jì)算結(jié)果, 而不是選擇題項(xiàng)目, 原因在于: 研究發(fā)現(xiàn), 某些LLMs在做選擇題項(xiàng)目時(shí)會(huì)有選項(xiàng)傾向, 而某些 LLMs 即使分析錯(cuò)誤, 也會(huì)進(jìn)行反復(fù)反省, 直到得出一個(gè)可選項(xiàng)為止, 這會(huì)導(dǎo)致評(píng)測(cè)失敗。數(shù)據(jù)例子如下:

題目: 2×17年12月30日, 綠地公司購(gòu)入一項(xiàng)設(shè)備, 支付買價(jià)498 萬(wàn)元, 另支付運(yùn)輸費(fèi)2萬(wàn)元。該項(xiàng)固定資產(chǎn)預(yù)計(jì)使用年限為10 年, 綠地公司采用直線法計(jì)提折舊, 預(yù)計(jì)凈殘值為零。2×20年12月31日, 綠地公司對(duì)該項(xiàng)資產(chǎn)進(jìn)行減值測(cè)試。在確定其公允價(jià)值時(shí), 綠地公司根據(jù)相關(guān)信息得知市場(chǎng)上在1個(gè)月前有相關(guān)交易發(fā)生, 成交價(jià)為500 萬(wàn)元, 成新率為100%。已知該項(xiàng)設(shè)備的成新率為60%, 2×20年12月31日綠地公司確定該項(xiàng)設(shè)備的公允價(jià)值為()。答案: 300萬(wàn)元 解析: 確定該設(shè)備公允價(jià)值時(shí), 按照市場(chǎng)上成交價(jià)計(jì)算, 由于獲取的信息中成交價(jià)對(duì)應(yīng)的成新率是100%, 而綠地公司購(gòu)入的資產(chǎn)本身成新率為60%, 所以其公允價(jià)值應(yīng)按照成交價(jià)乘以成新率來(lái)確定。綜上, 綠地公司該項(xiàng)設(shè)備的公允價(jià)值=500×60%=300(萬(wàn)元)。涉及知識(shí)點(diǎn): 公允價(jià)值概述 難度: 容易 是否真題: 否

對(duì)數(shù)據(jù)集的難度進(jìn)行定義, 數(shù)據(jù)集難度界定涉及章節(jié)的難度以及計(jì)算步驟和邏輯的難度, CPA考試會(huì)計(jì)計(jì)算題章節(jié)難度如下(從難至易): 合并報(bào)表—長(zhǎng)期股權(quán)投資與合營(yíng)安排—金融工具—收入—租賃—所得稅—股份支付—或有事項(xiàng)—政府補(bǔ)助—企業(yè)合并—會(huì)計(jì)政策、 會(huì)計(jì)估計(jì)—其他章節(jié)。根據(jù)計(jì)算難度和步驟界定如下: 難: 計(jì)算步驟較多(>3)或章節(jié)較為困難, 或人類正確率較低; 中等: 計(jì)算步驟中等(2 ~ 3 步左右), 章節(jié)難度適中; 普通: 計(jì)算容易(1 ~ 2 步), 章節(jié)簡(jiǎn)單; 容易: 計(jì)算容易, 一般一步解決。

在覆蓋CPA考試大綱的30章內(nèi)容中, 會(huì)計(jì)教授按照考點(diǎn)及知識(shí)點(diǎn)選取了真題和模擬題, 答案選用真題匹配答案和適用頻率高的刷題APP模擬題答案, 并讓擁有CPA《會(huì)計(jì)》科目及格資格的人員復(fù)核答案。題目選取后, 進(jìn)行基本的清潔流程, 把重復(fù)性題目和冗余題目清除。

本文沒有確切預(yù)測(cè)LLMs在上述考試中表現(xiàn)如何的依據(jù)。但從Eulerich等(2023)的研究結(jié)果來(lái)看, 它應(yīng)該能夠回答一些問題。預(yù)期GPT-4和GLM-4比小規(guī)模參數(shù)模型如GLM-6B表現(xiàn)得更好。

(四) 評(píng)測(cè)實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)以閉源模型 OPENAI的GPT-4模型評(píng)測(cè)為基準(zhǔn)(Baseline), 比較清華智譜開源模型 GLM-6B、 GLM-130B、 GLM-4 的測(cè)評(píng)結(jié)果。測(cè)評(píng)過(guò)程中, 使用思維鏈(Chain of Thought,CoT)(Wei等,2022), 也就是讓LLMs在解答過(guò)程中把詳細(xì)分析過(guò)程輸出, 增加模型的分析能力, 便于最后評(píng)測(cè)結(jié)果分析模型的錯(cuò)誤原因。同時(shí), 使用Few-shot- Learning(Yu等,2023)方法, 在輸入題目的同時(shí), 給予LLMs三個(gè)具體分析解答的例子, 讓其可以學(xué)習(xí)如何解題。實(shí)驗(yàn)過(guò)程如下:

首先, 在上下文提示詞工程階段, 對(duì)Zero-shot、 CoT、 Few-shot-CoT分別進(jìn)行抽樣題目的測(cè)試, 在CoT和Zero-shot測(cè)試過(guò)程中, 發(fā)現(xiàn)最終輸出結(jié)果混亂, 比如最終結(jié)果沒有明確表明、 語(yǔ)言會(huì)中英混合、 如有反思階段會(huì)循環(huán)進(jìn)行直至達(dá)到上下文長(zhǎng)度限制。因此, 為了在檢測(cè)結(jié)果時(shí)能夠使用LLMs進(jìn)行簡(jiǎn)單的答案對(duì)比判斷, 降低檢測(cè)人工成本, 利于檢測(cè)結(jié)果的推廣, 本文采用Few-shot-CoT進(jìn)行。同時(shí), Zero-shot對(duì)復(fù)雜多步的問題的測(cè)試準(zhǔn)確率極低, 在抽樣中, 計(jì)算題的準(zhǔn)確率只有Few-shot-CoT的50%不到, 在會(huì)計(jì)常識(shí)測(cè)試抽樣中更是達(dá)到了僅有的個(gè)位數(shù)準(zhǔn)確率, 沒有發(fā)揮出LLMs的潛在能力。因此, 建議在所有的會(huì)計(jì)垂域應(yīng)用中, 使用Few-shot-CoT作為上下文提示工程標(biāo)準(zhǔn)。本文的Few-shot-CoT僅選用三個(gè)GSM8K未入選題目的CoT例子作為CoT展開模式, 計(jì)算過(guò)程與輸出最終結(jié)果的示例如下:

仿照例子的做法, 逐步地思考, 并給出題目的答案。請(qǐng)嚴(yán)格按照例子的輸出格式, 在推理最后###答案: 處給出數(shù)字答案\n例子: \n問題1: 一位電子產(chǎn)品銷售員以每臺(tái)700元的價(jià)格購(gòu)買了5部手機(jī), 并用價(jià)值4000元的鈔票付款。銷售員需要找回多少零錢?\n 逐步思考: \n步驟1: 銷售員購(gòu)買5部手機(jī), 每部700元, 總共5×700 =[$]<<5×700=3500>>3500元。步驟3: 銷售員需要找回4000-3500 =[$]<<4000-3500=500>>500元的零錢。\n###答案: 500\n\n

然后, 使用LLMs對(duì)數(shù)據(jù)集問題進(jìn)行批量解決, 形成LLMs的輸出結(jié)果Responses。

接著, 以題目的正確答案Truth為基準(zhǔn), 讓GLM-4扮演會(huì)計(jì)閱卷教師的角色, 把每道題目的Responses作為學(xué)生答題答案, 讓GLM-4做出答題是否準(zhǔn)確的判斷。

最后, 統(tǒng)計(jì)答題的準(zhǔn)確率。

對(duì)LLMs進(jìn)行Multi-Calculation-Benchmark評(píng)測(cè), 結(jié)果如圖2所示。

GPT-4是其他LLMs評(píng)測(cè)的基準(zhǔn), 直至2024年2月, 其在普通推理能力中仍然處于第一梯隊(duì), 相當(dāng)于LLMs的標(biāo)桿。開源模型在進(jìn)行測(cè)評(píng)時(shí), 對(duì)照GPT-4的表現(xiàn), 分析開源模型的差距, 并且在后續(xù)改進(jìn)中, 以基準(zhǔn)為優(yōu)化目標(biāo)。從評(píng)測(cè)結(jié)果看, 多步計(jì)算推理能力在小規(guī)模參數(shù)如GLM-6B模型(60億參數(shù))LLMs中表現(xiàn)極差, 只有20%不到的準(zhǔn)確率, 與基準(zhǔn)的差距過(guò)大, GLM-6B模型的多步計(jì)算推理能力遠(yuǎn)達(dá)不到人工相比的及格率60%, 而會(huì)計(jì)對(duì)運(yùn)算要求更高, 要達(dá)到90%以上, 才能滿足會(huì)計(jì)應(yīng)用的要求。同樣是千億級(jí)別的LLMs, GLM-130B、 GLM-4和GPT-4也有明顯差距, GLM-130B雖然有涌現(xiàn)能力的參數(shù)規(guī)模, 但是準(zhǔn)確率還沒達(dá)到人類及格線。這種低準(zhǔn)確率LLMs在有計(jì)算場(chǎng)景的應(yīng)用上沒有可行性, 嚴(yán)重影響分析結(jié)果。因此, GLM-6B和GLM-130B不適合獨(dú)立使用進(jìn)行會(huì)計(jì)分析。

只對(duì)多步計(jì)算推理能力評(píng)測(cè)效果優(yōu)良的GPT-4和GLM-4進(jìn)行Accounting-Reasoning-Benchmark評(píng)測(cè)。由于這個(gè)Benchmark是由計(jì)算題組成, 多步計(jì)算推理能力會(huì)極大地影響其評(píng)測(cè)。在相同的會(huì)計(jì)常識(shí)推理能力下, 預(yù)期GPT-4的評(píng)測(cè)準(zhǔn)確率會(huì)高于GLM-4, 但是結(jié)果卻相反, 如圖3所示, GPT-4 的準(zhǔn)確率只有16.58%, 而GLM-4達(dá)到21.78%??傮w來(lái)說(shuō), GLM-4的會(huì)計(jì)常識(shí)推理能力比GPT-4 要強(qiáng)5%。如果考慮多步計(jì)算的影響, 這個(gè)差距更大。兩個(gè)模型在會(huì)計(jì)常識(shí)推理能力上都沒有及格, 離應(yīng)用還有很大距離, 需要進(jìn)行后續(xù)的調(diào)優(yōu)和改進(jìn)。GLM-4相對(duì)于GPT-4有更優(yōu)的會(huì)計(jì)常識(shí)推理能力, 從圖3中可以觀察到GLM-4容易難度下的數(shù)據(jù)集。由于大多只有一步計(jì)算, 準(zhǔn)確率達(dá)到40%, 而其他三種難度的準(zhǔn)確率與難度似乎沒有直接的關(guān)系, 證明GLM-4的難度表現(xiàn)與人類理解的會(huì)計(jì)常識(shí)難度是不一致的。它會(huì)對(duì)會(huì)計(jì)某些獨(dú)特的知識(shí)點(diǎn)理解較好, 對(duì)某些會(huì)計(jì)方法使用較差, 而不能用人類的會(huì)計(jì)準(zhǔn)確率替代。這三種難度都屬于多步計(jì)算的會(huì)計(jì)常識(shí)題目, 因此多步計(jì)算推理能力的影響是比較接近的, 對(duì)只有一步計(jì)算的容易題目影響較少。因此, 去除多步計(jì)算推理錯(cuò)誤的影響后, 后三種難度會(huì)有相對(duì)較高的提升。進(jìn)一步提高GLM-4 的會(huì)計(jì)應(yīng)用能力, 需要在后續(xù)分析GLM-4的會(huì)計(jì)常識(shí)推理缺陷, 進(jìn)而進(jìn)行改進(jìn)。

在普通難度和中等難度兩類題目的準(zhǔn)確率上, 出現(xiàn)了與難度相反的關(guān)系, 進(jìn)一步印證了GLM-4在會(huì)計(jì)常識(shí)推理上的難度判定與人類的判定有差距。為了找出這種反差的原因, 本文對(duì)這兩種難度的錯(cuò)題進(jìn)行了分類統(tǒng)計(jì), 可以把錯(cuò)誤歸結(jié)為六類主要原因:

第一, 會(huì)計(jì)方法使用錯(cuò)誤。LLM在分析過(guò)程中對(duì)相關(guān)會(huì)計(jì)準(zhǔn)則或會(huì)計(jì)處理方法的運(yùn)用出現(xiàn)偏差或錯(cuò)誤, 如在特定情況下錯(cuò)誤地選擇了計(jì)量屬性、 未能正確識(shí)別需要進(jìn)行會(huì)計(jì)處理的事項(xiàng)、 對(duì)準(zhǔn)則規(guī)定的確認(rèn)條件理解有誤等, 由此導(dǎo)致在中間計(jì)算過(guò)程或最終答案上出現(xiàn)錯(cuò)誤。

第二, 知識(shí)點(diǎn)掌握不全面。這部分題目中, LLM對(duì)題目涉及的部分知識(shí)點(diǎn)理解不到位或者遺漏了一些關(guān)鍵信息, 從而在分析過(guò)程中考慮不周全, 未能全面領(lǐng)會(huì)題意。

第三, 題目過(guò)于復(fù)雜導(dǎo)致難以處理。有一部分題目涉及特別復(fù)雜的會(huì)計(jì)處理或計(jì)算, LLM在這類題目上遇到了較大困難, 體現(xiàn)為分析邏輯不夠清晰或者處理方法失當(dāng)。這可能超出了LLM目前的能力范圍。

第四, 答題邏輯和思路正確但計(jì)算出錯(cuò)。這類題目中LLM對(duì)知識(shí)點(diǎn)的理解和運(yùn)用大體正確, 構(gòu)建了合理的答題邏輯, 但在具體數(shù)字計(jì)算環(huán)節(jié)出現(xiàn)了一些失誤。

第五, 知識(shí)點(diǎn)理解存在偏差。這部分錯(cuò)題反映出LLM對(duì)一些會(huì)計(jì)概念或處理原則的理解存在偏差或混淆, 如資產(chǎn)減值準(zhǔn)備的計(jì)提、 遞延所得稅的確認(rèn)等。在一些需要綜合考慮多方面因素的問題上, 如或有事項(xiàng)的判斷、 資產(chǎn)減值跡象的識(shí)別等, LLM對(duì)各因素的權(quán)衡不夠到位, 得出的結(jié)論有時(shí)存在片面或矛盾之處。

第六, 知識(shí)應(yīng)用不精準(zhǔn)。LLM雖然對(duì)一些會(huì)計(jì)準(zhǔn)則的原理性內(nèi)容理解較好, 但在具體應(yīng)用到實(shí)務(wù)問題時(shí)還不夠精準(zhǔn)到位, 如現(xiàn)金流量表的編制、 所得稅費(fèi)用的確認(rèn)等。同時(shí), 對(duì)一些細(xì)節(jié)的把握也有偏差。這反映出LLM在將理論知識(shí)運(yùn)用到實(shí)務(wù)的能力上還有待加強(qiáng)。

圖4是兩種難度在六類錯(cuò)誤原因中的占比, 有些題目錯(cuò)誤的原因不是單一的, 所以占比總和不是100%。普通難度的題目極少涉及實(shí)務(wù), 所以沒有實(shí)務(wù)錯(cuò)誤類型。

第一種錯(cuò)誤特征“會(huì)計(jì)方法使用錯(cuò)誤”和第五種錯(cuò)誤特征“知識(shí)點(diǎn)理解存在偏差”有一定的相似性和關(guān)聯(lián)性, 這兩種錯(cuò)誤特征都反映出LLM對(duì)某些會(huì)計(jì)知識(shí)點(diǎn)的理解和掌握還不夠全面、 準(zhǔn)確, 而知識(shí)點(diǎn)理解上的偏差很可能會(huì)導(dǎo)致會(huì)計(jì)方法使用上的錯(cuò)誤。這種對(duì)知識(shí)的基本識(shí)別錯(cuò)誤占了錯(cuò)誤比例的50%以上, 而且相對(duì)于其他錯(cuò)誤容易修正, 是一個(gè)值得關(guān)注的錯(cuò)誤大類型。但是它們之間又有根本的區(qū)別: “會(huì)計(jì)方法使用錯(cuò)誤”主要是指在具體運(yùn)用會(huì)計(jì)處理方法時(shí)出現(xiàn)錯(cuò)誤, 如錯(cuò)誤選擇計(jì)量屬性、 未正確識(shí)別需處理的事項(xiàng)等, “知識(shí)點(diǎn)理解存在偏差”主要是指對(duì)會(huì)計(jì)概念、 會(huì)計(jì)原則等理論知識(shí)的理解存在偏差或混淆, 側(cè)重于會(huì)計(jì)理論認(rèn)知層面; “會(huì)計(jì)方法使用錯(cuò)誤”通常表現(xiàn)為在具體的會(huì)計(jì)處理環(huán)節(jié)如確認(rèn)、 計(jì)量、 列報(bào)等方面出現(xiàn)的錯(cuò)誤, 在解題過(guò)程中易于識(shí)別, “知識(shí)點(diǎn)理解存在偏差”可能會(huì)間接導(dǎo)致會(huì)計(jì)處理的錯(cuò)誤, 但更多地體現(xiàn)在分析和論證環(huán)節(jié)對(duì)某些概念的錯(cuò)誤表述或理解不到位, 有時(shí)可能不會(huì)直接反映在最終的計(jì)算答案中; 在提升難易度和評(píng)測(cè)精準(zhǔn)度上, “會(huì)計(jì)方法使用錯(cuò)誤”更有利, “知識(shí)點(diǎn)理解存在偏差”的識(shí)別需要對(duì)比分析, 更難發(fā)現(xiàn)。

第二類錯(cuò)誤“知識(shí)點(diǎn)掌握不全面”是GLM-4無(wú)論在會(huì)計(jì)常識(shí)推理還是多步計(jì)算推理中都會(huì)出現(xiàn)的一種常見錯(cuò)誤, GLM-4會(huì)經(jīng)常遺漏題目影響因素, 這種錯(cuò)誤與LLMs的本質(zhì)特點(diǎn)關(guān)系更強(qiáng)烈, 需要提升通用能力才能較好地解決。從難度區(qū)分上分析, 兩種難度的計(jì)算步驟多是2 ~ 3步, 極少出現(xiàn)1步, 因此計(jì)算難度比較類似, 計(jì)算占比的差異可以歸咎于抽樣誤差, 與GLM-4在兩類題目中計(jì)算的差異性無(wú)關(guān)。第三種錯(cuò)誤“題目過(guò)于復(fù)雜導(dǎo)致難以處理”是指對(duì)一些特殊或小眾的會(huì)計(jì)處理如BT項(xiàng)目、 售后租回等準(zhǔn)則的了解不夠全面, 對(duì)新修訂準(zhǔn)則的知識(shí)更新也有所滯后, 導(dǎo)致分析不夠周全, 未能全面領(lǐng)會(huì)題意。從第二、 三和四種錯(cuò)誤的占比對(duì)比可以看出, 兩種難度的差距并不大, 而且從以上分析來(lái)看, 這三種錯(cuò)誤一般跟題目難度關(guān)系不大。因此, 難度與準(zhǔn)確度的反差可以歸咎于是第一種和第五種錯(cuò)誤的反差造成的。而這兩種錯(cuò)誤的題目難度, 在區(qū)分普通和一般時(shí), 是以章節(jié)按CPA考試的難易度進(jìn)行的??梢钥闯觯?GLM-4的章節(jié)難易度在這個(gè)維度與CPA考綱的難易度區(qū)分并不完全一致。這是由于大多數(shù)LLM內(nèi)核的難易度是跟訓(xùn)練語(yǔ)料的常見程度有關(guān), 如果某些CPA章節(jié)的訓(xùn)練語(yǔ)料更常見, 相對(duì)來(lái)說(shuō)它就更容易學(xué)習(xí)到該章節(jié)的內(nèi)容。

四、 結(jié)論

本研究探討LLMs在會(huì)計(jì)領(lǐng)域的應(yīng)用前景, 通過(guò)設(shè)計(jì)兩個(gè)評(píng)測(cè)基準(zhǔn)來(lái)評(píng)估 LLMs在多步計(jì)算推理以及會(huì)計(jì)專業(yè)知識(shí)方面的表現(xiàn)。結(jié)果表明, 盡管LLMs在通用領(lǐng)域已經(jīng)取得令人矚目的成就, 但在會(huì)計(jì)專業(yè)領(lǐng)域, 它們的表現(xiàn)還有很大提升空間。具體而言, 當(dāng)前最先進(jìn)的LLMs如GPT-4在多步計(jì)算推理任務(wù)上的準(zhǔn)確率最高可達(dá)91.45%, 而在會(huì)計(jì)專業(yè)知識(shí)任務(wù)上的準(zhǔn)確率低于22%。通過(guò)進(jìn)一步的分析, 本文探究了LLMs在會(huì)計(jì)常識(shí)推理過(guò)程中出現(xiàn)錯(cuò)誤的主要原因并指出錯(cuò)誤的六個(gè)類型, 分析出各類錯(cuò)誤在難度分層中的占比及差異, 這也為后續(xù)改進(jìn)指明了方向。

從本文設(shè)計(jì)的實(shí)驗(yàn)中可以發(fā)現(xiàn), LLMs難以利用訓(xùn)練中獲得的通用知識(shí)來(lái)處理會(huì)計(jì)領(lǐng)域的具體問題。未來(lái)研究可以關(guān)注以下方面: 一是繼續(xù)擴(kuò)充高質(zhì)量的會(huì)計(jì)領(lǐng)域語(yǔ)料, 為 LLMs 提供更多專業(yè)知識(shí)的學(xué)習(xí)素材; 二是在通用LLMs的基礎(chǔ)上, 采用領(lǐng)域自適應(yīng)的微調(diào)方法, 使其更好地適配會(huì)計(jì)場(chǎng)景; 三是探索在會(huì)計(jì)領(lǐng)域引入外部知識(shí)增強(qiáng)方法, 例如利用知識(shí)圖譜等先驗(yàn)知識(shí)來(lái)指導(dǎo) LLMs推理; 四是借鑒認(rèn)知科學(xué)和教育學(xué)的理論, 優(yōu)化LLMs的Few-shot學(xué)習(xí)范式, 提高其快速學(xué)習(xí)新知識(shí)的能力; 五是深度發(fā)掘LLMs缺失的會(huì)計(jì)能力, 從其推理錯(cuò)誤內(nèi)容中找尋具體的模型改進(jìn)方法, 推動(dòng)六類錯(cuò)誤的改進(jìn)。

總之, LLMs在會(huì)計(jì)領(lǐng)域的應(yīng)用還處于起步階段, 未來(lái)仍需在數(shù)據(jù)、 模型和評(píng)測(cè)等多個(gè)層面開展研究。通過(guò)學(xué)界和業(yè)界的共同努力, LLMs必將在會(huì)計(jì)智能化進(jìn)程中發(fā)揮越來(lái)越重要的作用。本研究為這一目標(biāo)的實(shí)現(xiàn)提供了重要的理論與實(shí)踐參考。

【 主 要 參 考 文 獻(xiàn) 】

廖高可,李庭輝.人工智能在金融領(lǐng)域的應(yīng)用研究進(jìn)展[ J].經(jīng)濟(jì)學(xué)動(dòng)態(tài),2023(3):141 ~ 158.

歐陽(yáng)日輝,劉昱宏.生成式人工智能(AIGC)融入制造業(yè)的理論邏輯與實(shí)現(xiàn)路徑[J/OL].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版):1 ~ 14. [2024-05-22].https://doi.org/10.14100/j.cnki.65-1039/g4.20240016.001.

Chalkidis I.. Chatgpt may pass the bar exam soon, but has a long way to go for the lexglue Benchmark[DB/OL]. https://arxiv.org/abs/2304.12202,2023-03-09.

Chang Y., Wang X., Wang J., et al.. A survey on evaluation of large language models[ J]. ACM Transactions on Intelligent Systems and Technology,2024(3):1 ~ 45.

Chen W., Wang Q., Long Z., et al.. Disc-finllm: A chinese financial large language model based on multiple experts fine-tuning[DB/OL]. https://arxiv.org/abs/2310.15205,2023-10-23.

Chen Z., Chen W., Smiley C., et al.. Finqa: A dataset of numerical reasoning over financial data[DB/OL]. https://arxiv.org/abs/2109.00122,2021-09-01.

Cobbe K., Kosaraju V., Bavarian M., et al.. Training verifiers to solve math word problems[DB/OL].https://arxiv.org/abs/2110.14168,2021-10-27.

Fatouros G., Soldatos J., Kouroumali K., et al.. Transforming sentiment analysis in the financial domain with ChatGPT[ J]. Machine Learning with Applications,2023(14):100508.

Hu H., Lu H., Zhang H., et al.. Chain-of-symbol prompting elicits planning in large langauge models[DB/OL].https://arxiv.org/abs/2305.10276,2023-05-17.

Huang J., Chang K. C. C.. Towards reasoning in large language models: A survey[DB/OL]. https://arxiv.org/abs/2212.10403,2022-12-20.

Lei Y., Li J., Jiang M., et al.. CFBenchmark: Chinese financial assistant Benchmark for large language model[DB/OL].https://arxiv.org/abs/2311.05812,2023-11-10.

Li C., Liang J., Zeng A., et al.. Chain of code: Reasoning with a language model-augmented code emulator[DB/OL]. https://arxiv.org/abs/2312.04474,2023-12-07.

Liu X. Y., Wang G., Zha D.. Fingpt: Democratizing internet-scale data for financial large language models[DB/OL]. https://arxiv.org/abs/2307.10485,2023-07-19.

Lu D., Wu H., Liang J., et al.. BBT-Fin: Comprehensive construction of chinese financial domain pre-trained language model, corpus and Benchmark[DB/OL]. https://arxiv.org/abs/2302.09432,2023-02-18.

Panagoulias D. P., Virvou M., Tsihrintzis G. A.. Evaluating LLM--Genera-ted Multimodal Diagnosis from Medical Images and Symptom Analysis[DB/OL].https://arxiv.org/abs/2402.01730,2024-01-18.

Shah A., Paturi S., Chava S.. Trillion dollar words: A new financial data-set, task & market analysis[DB/OL]. https://arxiv.org/abs/2305.07972,2023-05-13.

Srivastava A., Rastogi A., Rao A., et al.. Beyond the imitation game: Quantifying and extrapolating the CPAabilities of language models[DB/OL].https://arxiv.org/abs/2206.04615,2022-06-09.

Sun J., Zheng C., Xie E., et al.. A survey of reasoning with foundation models[DB/OL]. https://arxiv.org/abs/2312.11562,2023-12-17.

Talmor A., Yoran O., Bras R L., et al.. Commonsenseqa 2.0: Exposing the limits of AI through gamification[DB/OL].https://arxiv.org/abs/2201.05320,2022-01-14.

Theuma A., Shareghi E.. Equipping language models with tool use CPAability for tabular data analysis in finance[DB/OL].https://arxiv.org/abs/2401.15328,2024-01-27.

Wang A., Singh A., Michael J., et al.. GLUE: A multi-task Benchmark and analysis platform for natural language understanding[DB/OL]. https://arxiv.org/abs/1804.07461,2018-04-20.

Wang Y., Kordi Y., Mishra S., et al.. Self-instruct: Aligning language models with self-generated instructions[DB/OL]. https://arxiv.org/abs/2212.10560,2022-12-20.

Wei J., Wang X., Schuurmans D., et al.. Chain-of-thought prompting elicits reasoning in large language models[ J]. Advances in Neural Information Processing Systems,2022(35):24824 ~ 24837.

Wu S., Irsoy O., Lu S., et al.. Bloomberggpt: A large language model for finance[DB/OL]. https://arxiv.org/abs/2303.17564,2023-03-30.

Xia M., Malladi S., Gururangan S., et al.. Less: Selecting influential data for targeted instruction tuning[DB/OL].https://arxiv.org/abs/2402.04333,2024-02-06.

Xu L., Hu H., Zhang X., et al.. CLUE: A Chinese language understanding evaluation Benchmark[DB/OL]. https://arxiv.org/abs/2004.05986,2020-04-13.

Yu Z., He L., Wu Z., et al.. Towards better chain-of-thought prompting strategies: A survey[DB/OL]. https://arxiv.org/abs/2310.04959,2023-10-08.

Zhang L., Cai W., Liu Z., et al.. Fineval: A chinese financial domain knowledge evaluation Benchmark for large language models[DB/OL]. https://arxiv.org/abs/2308.09975,2023-08-19.

Zhao W. X., Zhou K., Li J., et al.. A survey of large language models[DB/OL]. https://arxiv.org/abs/2303.18223,2023-03-31.

猜你喜歡
推理能力
例談小學(xué)生推理能力的培養(yǎng)
注重“探索規(guī)律”教學(xué)提升學(xué)生數(shù)學(xué)素養(yǎng)探研
成才之路(2017年1期)2017-02-20 15:18:01
有效運(yùn)用合情推理,發(fā)展學(xué)生推理能力
如何培養(yǎng)學(xué)生的數(shù)學(xué)邏輯推理能力
南北橋(2016年12期)2017-01-10 21:41:03
初中數(shù)學(xué)教學(xué)如何培養(yǎng)學(xué)生的推理能力
試析初中數(shù)學(xué)推理能力培養(yǎng)
基于推理能力培養(yǎng)的“進(jìn)位加法”教學(xué)實(shí)踐
成才之路(2016年36期)2016-12-12 13:52:05
“折紙”中蘊(yùn)含的數(shù)學(xué)思維與動(dòng)手能力
多措并舉,培養(yǎng)小學(xué)生數(shù)學(xué)推理能力
例談對(duì)小學(xué)生推理能力培養(yǎng)的認(rèn)識(shí)
考試周刊(2016年35期)2016-05-27 00:39:26
洱源县| 伊吾县| 逊克县| 瓦房店市| 道真| 临颍县| 方山县| 北碚区| 缙云县| 临城县| 南乐县| 电白县| 拉孜县| 大同市| 西峡县| 广东省| 治多县| 柏乡县| 梅河口市| 瑞金市| 新巴尔虎左旗| 正安县| 高要市| 大洼县| 泸水县| 永顺县| 潞城市| 民和| 股票| 柘城县| 府谷县| 宁陵县| 庄浪县| 临武县| 青河县| 扎兰屯市| 寿光市| 随州市| 平顶山市| 遂宁市| 连平县|