国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大語(yǔ)言模型發(fā)展現(xiàn)狀與應(yīng)用趨勢(shì)

2024-12-31 00:00:00李松柏李岳洋李佳航
遼寧經(jīng)濟(jì) 2024年11期
關(guān)鍵詞:應(yīng)用趨勢(shì)自然語(yǔ)言處理人工智能

〔內(nèi)容提要〕自然語(yǔ)言處理(Natural Language Processing,NLP)始于上世紀(jì)50年代,是人工智能(AI)研究的重要方向。2018年以來(lái),NLP從預(yù)訓(xùn)練語(yǔ)言模型PLMs(Pre-trained Language Models)進(jìn)化到大規(guī)模語(yǔ)言模型LLMs(Large Language Models),語(yǔ)料庫(kù)達(dá)到百億規(guī)模,參數(shù)超過(guò)千億,特別是隨著ChatGPT 3.5和GPT 4的橫空出世,LLMs的發(fā)展和應(yīng)用進(jìn)入新紀(jì)元,以其為代表的AI已成為經(jīng)濟(jì)社會(huì)發(fā)展的重要驅(qū)動(dòng)力。本文首先回顧了AI、NLP的發(fā)展過(guò)程,對(duì)LLMs發(fā)展現(xiàn)狀、訓(xùn)練優(yōu)化、創(chuàng)新應(yīng)用、發(fā)展趨勢(shì)進(jìn)行了全面綜述,總結(jié)了LLMs的發(fā)展進(jìn)程、模型規(guī)模、技術(shù)架構(gòu),分析了LLMs的訓(xùn)練數(shù)據(jù)集構(gòu)建、訓(xùn)練優(yōu)化技術(shù),討論了LLMs創(chuàng)新形態(tài)—智能體的典型案例,梳理了LLMs在制造、金融、醫(yī)療、教育、營(yíng)銷(xiāo)、外貿(mào)等行業(yè)的應(yīng)用情況,最后探討了LLMs的發(fā)展趨勢(shì)。LLMs以其強(qiáng)大的能力,賦能眾多行業(yè)和場(chǎng)景,必將成為我國(guó)經(jīng)濟(jì)高質(zhì)量發(fā)展的重要抓手。

〔關(guān)鍵詞〕大語(yǔ)言模型;自然語(yǔ)言處理;人工智能;應(yīng)用趨勢(shì)

一、發(fā)展現(xiàn)狀

1950年,“圖靈測(cè)試”由艾倫·圖靈提出,1956年,約翰·麥卡錫提出人工智能(AI)。經(jīng)過(guò)10多年努力,專家系統(tǒng)(Expert Systems)得到了發(fā)展,但其局限于某些特定情境,處理復(fù)雜問(wèn)題的能力不足,知識(shí)庫(kù)擴(kuò)展也存在問(wèn)題,計(jì)算機(jī)硬件是其短板。導(dǎo)致20世紀(jì)70-80年代,AI發(fā)展進(jìn)入瓶頸期。

80年代到本世紀(jì)初,深度學(xué)習(xí)技術(shù)獲得明顯進(jìn)展,并應(yīng)用于自然語(yǔ)言處理(Natural Language Processing,NLP)和計(jì)算機(jī)視覺(jué)等方面。IBM公司研發(fā)出的深藍(lán)(DeepBlue)電腦,在1997年戰(zhàn)勝國(guó)際象棋冠軍,IBM的沃森(Watson)可以使用自然語(yǔ)言回答問(wèn)題,Google的阿爾法圍棋(AlphaGo)在2016年擊敗世界圍棋冠軍,這些顛覆性AI產(chǎn)品在某些方面的能力已經(jīng)超越人類。

2018年至今,NLP的發(fā)展進(jìn)入黃金期,預(yù)訓(xùn)練語(yǔ)言模型PLMs(Pre - trained Language Models),采用Transformer框架,擅長(zhǎng)處理大規(guī)模語(yǔ)料庫(kù),參數(shù)規(guī)模越高模型性能越好,百億大規(guī)模語(yǔ)料庫(kù)或千億參數(shù)的PLMs進(jìn)化成超大規(guī)模語(yǔ)言模型LLMs(Large Language Models)。

近年來(lái),以GPT系列為代表的生成式預(yù)訓(xùn)練模型迭代加快,LLMs研發(fā)形成浪潮,整個(gè)行業(yè)快速增長(zhǎng)。ChatGPT(Chat Generative Pretrained Transformer)是GPT系列第4版,由美國(guó)OpenAI公司開(kāi)發(fā),于2022年11月30日上線,因其強(qiáng)大的功能引發(fā)轟動(dòng),上線兩個(gè)月活躍用戶突破1億/月。其他頭部公司紛紛跟進(jìn):微軟將ChatGPT接入bing搜索引擎打造必應(yīng)ChatAI,活躍用戶突破1億/日,同時(shí)引入Office推出365 Copilot;谷歌也推出了基于LaMDA的Bard;百度等國(guó)內(nèi)公司也陸續(xù)推出對(duì)標(biāo)產(chǎn)品。2023年3月15日,OpenAI公布了顛覆性大型多模態(tài)模型GPT4,標(biāo)志著NLP發(fā)展和應(yīng)用進(jìn)入新紀(jì)元。

總體來(lái)看,NLP的發(fā)展經(jīng)歷了4個(gè)階段:統(tǒng)計(jì)語(yǔ)言模型(SLM)、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NLM)、預(yù)訓(xùn)練語(yǔ)言模型(PLMs)、大規(guī)模語(yǔ)言模型(LLMs)。見(jiàn)圖1。

(1)SLM(Statistical Language Model)階段:語(yǔ)言建模LM(Language Model)的研究始于上世紀(jì)50-60年代,集中在語(yǔ)言翻譯與基本語(yǔ)法分析方面,通過(guò)編寫(xiě)代碼處理語(yǔ)言文本,很難對(duì)大量復(fù)雜文字?jǐn)?shù)據(jù)進(jìn)行處理。

(2)NLM(Neural Language Model)階段:80-90年代,電腦硬件性能提升,大文本數(shù)據(jù)庫(kù)越來(lái)越多,主要采用統(tǒng)計(jì)機(jī)器翻譯SMT(Statistical Machine Translation)方法,統(tǒng)計(jì)方法(Statistical Methods)成為主導(dǎo)。

(3)PLMs階段:2010年,深度學(xué)習(xí)(Deep Learning)興起,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)、注意力機(jī)制(Attention Mechanism)、Transformer及變體模型出現(xiàn),機(jī)器翻譯、文本理解與生成等進(jìn)展顯著。

(4)LLMs階段:近年來(lái),隨著多模態(tài)(Multimodality)與強(qiáng)化學(xué)習(xí)(Reinforcement Learning)技術(shù)的應(yīng)用,模型不但能處理文本,還能處理圖像、音頻和視頻,同時(shí)擁有更全面的語(yǔ)言理解與生成能力。

目前,LLMs有三種主流框架:(1)Decoderonly對(duì)字序列從左到右單向處理,采用自注意機(jī)制,擅長(zhǎng)完成語(yǔ)言生成NLG(Natural Language Generation),典型模型為GPT系列。(2)Encoder-only采用雙向編碼,在處理字序列中的每個(gè)字的同時(shí),會(huì)考慮其左右側(cè)信息,因此能捕獲更豐富的語(yǔ)義信息,善于完成自然語(yǔ)言理解NLU(Natural Language Understanding),典型模型為BERT(Bidirectional Encoder Representations from Transformers)。(3)Encoderdecoder專注于生成更自然更連貫的對(duì)話,典型模型為BART和T5。針對(duì)不同的NLU、NLG需求,LLMs會(huì)采用不同的算法、數(shù)據(jù)和架構(gòu),圖2展示了國(guó)內(nèi)外主要LLMs的進(jìn)化過(guò)程。

二、創(chuàng)新應(yīng)用

(一)典型模型

(1)百度文心智能體平臺(tái):基于文心4.0開(kāi)發(fā),支持零、低和全代碼三種開(kāi)發(fā)模式,用戶可以輕松定制能思考、決策和反思的智能體,如虛擬翻譯或虛擬數(shù)學(xué)老師。

(2)百度智能代碼助手(BaiduComate):采用流程無(wú)縫集成、上下文增強(qiáng)等技術(shù),幫助編程者高效編碼、優(yōu)化,該智能體可幫助程序員分析模塊功能、代碼庫(kù)結(jié)構(gòu),甚至生成具有特定功能的代碼。

(3)騰訊元器(Metasphere):是由混元大模型定制生成的智能交互平臺(tái),能在不同設(shè)備、眾多場(chǎng)景中聯(lián)動(dòng),因地制宜提供個(gè)性化的解決方案,改善用戶體驗(yàn);元器能思考、決策和反思并不斷進(jìn)化,服務(wù)用戶更貼心,也更精準(zhǔn)。

(4)Meta通用機(jī)器人智能體(RoboAgent):只通過(guò)7500個(gè)軌跡的訓(xùn)練,便學(xué)會(huì)了完成烘焙、上茶、拾取、清潔等12種復(fù)雜任務(wù)的技能,RoboAgent能把這些技能泛化應(yīng)用在100種其他場(chǎng)景中,顯示出強(qiáng)大的適應(yīng)和泛化能力。

(5)Coze創(chuàng)新型智能體平臺(tái):全面支持開(kāi)發(fā)者智能創(chuàng)建、自動(dòng)代理,通過(guò)API調(diào)用,生成式AI實(shí)施更快、部署更方便,推動(dòng)企業(yè)加快實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、智能化運(yùn)營(yíng)。

(6)Auto-GPT免費(fèi)開(kāi)源項(xiàng)目:采用GPT-3.5、GPT-4技術(shù),用戶只要提供AI項(xiàng)目名、項(xiàng)目描述和5個(gè)目標(biāo),通過(guò)API即可完成一個(gè)完全自主項(xiàng)目的創(chuàng)建,Auto-GPT能自主完成任務(wù)并動(dòng)態(tài)優(yōu)化,在項(xiàng)目管理執(zhí)行自動(dòng)化方面具有里程碑意義。

(7)MetaGPT:基于GPT-4的多智能體協(xié)作平臺(tái),通過(guò)定義角色和分解任務(wù),協(xié)同多個(gè)智能體工作并完成復(fù)雜任務(wù)。MetaGPT模仿開(kāi)發(fā)團(tuán)隊(duì)的真實(shí)操作,與軟件項(xiàng)目傳統(tǒng)的研發(fā)流程相似,內(nèi)部角色包括項(xiàng)目經(jīng)理、架構(gòu)師、程序員等,其訓(xùn)練內(nèi)容包括審查代碼、執(zhí)行預(yù)編譯和編程迭代,幫助開(kāi)發(fā)者盡早發(fā)現(xiàn)錯(cuò)誤并改善代碼質(zhì)量。MetaGPT不但支持多種自然語(yǔ)言和編程語(yǔ)言,還能適應(yīng)多種運(yùn)行環(huán)境。

(二)LLMs行業(yè)應(yīng)用

1.制造

作為制造業(yè)大國(guó)的中國(guó),要想成為制造強(qiáng)國(guó),離不開(kāi)AI這一重要手段。LLMs能整合制造企業(yè)的信息資源,創(chuàng)新研發(fā)模式,改進(jìn)生產(chǎn)流程,優(yōu)化物流線路,提高研發(fā)、生產(chǎn)、流通效率。LLMs賦能的智能機(jī)器人更能提質(zhì)、增效、減人、降成本。

2.金融

金融業(yè)數(shù)據(jù)開(kāi)放性差、獲取難、數(shù)量多、變化快。AI可以快速梳理和深入分析市場(chǎng),為投資者提供操作建議和風(fēng)險(xiǎn)警示。LLMs能幫助人們理性分析,減少情緒干擾,實(shí)現(xiàn)自動(dòng)交易,降低人為風(fēng)險(xiǎn),更好應(yīng)對(duì)市場(chǎng)變化。LLMs可對(duì)金融市場(chǎng)、相關(guān)機(jī)構(gòu)和各類參與者進(jìn)行實(shí)時(shí)監(jiān)管,提高市場(chǎng)透明度,打擊金融違規(guī)違法行為。

3.醫(yī)療

LLMs可賦能疾病診斷治療、醫(yī)療器械設(shè)計(jì)、新藥研發(fā)臨試等方面。能及早發(fā)現(xiàn)流行病并做出傳播預(yù)測(cè)??筛鶕?jù)家庭成員的身體狀態(tài)、病史、病歷等提供精準(zhǔn)貼心的服務(wù)??奢o助醫(yī)療器械和藥物設(shè)計(jì),節(jié)省投入、降低成本、縮減周期、提高性能。

4.教育

LLMs可用于教學(xué)輔助提高教授與學(xué)習(xí)效率。通過(guò)智能評(píng)估減輕老師負(fù)擔(dān),實(shí)現(xiàn)因人施教。智能導(dǎo)師、智能輔導(dǎo)員為學(xué)生提供研發(fā)指導(dǎo)、學(xué)習(xí)輔導(dǎo)、作業(yè)批改、感情溝通甚至心理疏導(dǎo)。智能外教幫助學(xué)生練習(xí)口語(yǔ)、積累詞匯、提高聽(tīng)說(shuō)能力。

5.營(yíng)銷(xiāo)

LLMs通過(guò)分析消費(fèi)者的日常喜好、社交行為、瀏覽偏好、購(gòu)買(mǎi)歷史等數(shù)據(jù),制定營(yíng)銷(xiāo)策略,有針對(duì)性地推薦商品,增加售賣(mài)轉(zhuǎn)化率,讓客戶愛(ài)上品牌、愿意留下、不斷回購(gòu)。LLMs作為智能客服助手,能跨越語(yǔ)言障礙回答客戶問(wèn)題并提供解決方案,減輕人工負(fù)擔(dān),降低服務(wù)成本、提高回應(yīng)速度,讓客戶更滿意??商峁┯匈|(zhì)量的營(yíng)銷(xiāo)內(nèi)容,提高品牌聲譽(yù)、知名度和搜索排名,吸引更多用戶。LLMs可對(duì)客戶評(píng)論、反饋?zhàn)詣?dòng)識(shí)別并加以總結(jié),讓企業(yè)更好、更深入了解市場(chǎng)。

6.外貿(mào)

GPT-4支持的語(yǔ)言達(dá)26種,有能力當(dāng)好全世界客戶的智能客服,實(shí)現(xiàn)低成本服務(wù),讓客戶更滿意。LLMs能更好管理供應(yīng)鏈,通過(guò)調(diào)整生產(chǎn)實(shí)現(xiàn)優(yōu)化庫(kù)存、提高效率、更快交貨。LLMs可幫助外貿(mào)企業(yè)及時(shí)分析客戶的不同文化、喜好情況,更精準(zhǔn)定位和畫(huà)像。幫助企業(yè)識(shí)別、規(guī)避各種風(fēng)險(xiǎn),更準(zhǔn)確預(yù)測(cè)市場(chǎng)并抓住機(jī)遇。外貿(mào)企業(yè)可利用GPT-4提供的API構(gòu)建各種應(yīng)用,助力物流、報(bào)關(guān)等系統(tǒng)。LLMs通過(guò)分析買(mǎi)家搜索次數(shù)、消費(fèi)情況、瀏停時(shí)間來(lái)優(yōu)化商品推介、提高訂購(gòu)轉(zhuǎn)化率。LLMs能根據(jù)天氣、通關(guān)政策等對(duì)供應(yīng)鏈進(jìn)行更好的規(guī)劃,縮短到貨時(shí)間,讓客戶更滿意。

三、發(fā)展趨勢(shì)

1.多模態(tài)數(shù)據(jù)融合

LLMs通過(guò)融合多模態(tài)數(shù)據(jù),理解世界更全面真實(shí)。通過(guò)融合自然數(shù)據(jù)(文字、圖片、音視頻等)、物聯(lián)網(wǎng)傳感器收集信息(溫濕度、風(fēng)速、路況、4D時(shí)空等)、人體信息(蛋白質(zhì)、心電、腦電等),提高模型的理解、表達(dá)、推理、創(chuàng)造能力。多模態(tài)數(shù)據(jù)解析,不但要求模型計(jì)算能力要強(qiáng)大,還需要優(yōu)化算法設(shè)計(jì),以實(shí)現(xiàn)數(shù)據(jù)融合解析的高效精準(zhǔn)。

2.學(xué)習(xí)能力更強(qiáng)

LLMs能夠自我調(diào)整去適應(yīng)新任務(wù)、新環(huán)境,能夠把已學(xué)到的知識(shí)應(yīng)用到新任務(wù)上,學(xué)習(xí)和適應(yīng)能力不斷得以強(qiáng)化,并貫穿其全生命周期。

3.透明度更高

LLMs算法要具備可解釋性,幫助人們了解其內(nèi)在邏輯,理解其決策程序,增加信任度,從而推動(dòng)其更好地應(yīng)用。通過(guò)對(duì)模型和知識(shí)進(jìn)行蒸餾,將復(fù)雜模型內(nèi)在邏輯、決策程序簡(jiǎn)化轉(zhuǎn)移,生成一個(gè)更好理解更透明的小模型,便于人們理解。

4.深度定制產(chǎn)品

垂直領(lǐng)域LLMs研發(fā)要選擇“數(shù)據(jù)質(zhì)量高、數(shù)據(jù)供給穩(wěn)定、規(guī)則清晰和需求明確”的行業(yè)領(lǐng)域,打造輔助系統(tǒng)和專家系統(tǒng)。LLMs訓(xùn)練效果是由數(shù)據(jù)質(zhì)量決定的,數(shù)據(jù)質(zhì)量越高,偏差噪音越小,預(yù)測(cè)就越準(zhǔn)確,數(shù)據(jù)供給越穩(wěn)定,學(xué)習(xí)和優(yōu)化才能得以持續(xù),也更能適應(yīng)將來(lái)的發(fā)展變化,規(guī)則清晰和需求明確有助于模型設(shè)計(jì)、開(kāi)發(fā)和部署,可控性更強(qiáng),風(fēng)險(xiǎn)也更小。

5.注重?cái)?shù)據(jù)安全

LLMs的訓(xùn)練、應(yīng)用需要海量數(shù)據(jù),這些數(shù)據(jù)涉及敏感內(nèi)容和用戶隱私,需要采取嚴(yán)格的安全措施來(lái)確保數(shù)據(jù)安全。在LLMs的數(shù)據(jù)分析、訓(xùn)練應(yīng)用中,采用數(shù)據(jù)加密技術(shù)保證數(shù)據(jù)傳輸和存儲(chǔ)的安全,通過(guò)匿名化處理來(lái)保護(hù)用戶隱私,嚴(yán)格訪問(wèn)控制確保數(shù)據(jù)安全,定期對(duì)安全進(jìn)行內(nèi)部審計(jì)和檢查,發(fā)現(xiàn)漏洞及時(shí)整改。

6.實(shí)現(xiàn)綠色計(jì)算

LLMs規(guī)模在不斷增大,需要更多的算力和存儲(chǔ),如何降低運(yùn)營(yíng)成本、提高能效比、實(shí)現(xiàn)綠色計(jì)算變得日益重要??赏ㄟ^(guò)改進(jìn)架構(gòu)和算法降低模型復(fù)雜度,從而減少資源消耗,采用高效環(huán)保的設(shè)備,多使用可再生能源供電,建立綠色計(jì)算評(píng)估體系,推動(dòng)LLMs可持續(xù)發(fā)展。

高質(zhì)量發(fā)展是時(shí)代的主題,是黨的二十大提出的“兩步走”戰(zhàn)略的根本要求,以LLMs為代表的AI技術(shù)必將為高質(zhì)量發(fā)展注入強(qiáng)大動(dòng)能。因此,我們一定要抓住機(jī)遇,加大產(chǎn)業(yè)投入,特別是研發(fā)投入,逐步解決國(guó)產(chǎn)替代、自主芯片這些關(guān)鍵技術(shù)和產(chǎn)品,統(tǒng)籌算力建設(shè)與使用,構(gòu)建更多高質(zhì)量的中文數(shù)據(jù)集。加強(qiáng)AI全產(chǎn)業(yè)鏈人才培養(yǎng),建立健全相關(guān)法律、法規(guī)、標(biāo)準(zhǔn)、制度,妥善應(yīng)對(duì)可能出現(xiàn)的安全風(fēng)險(xiǎn)與挑戰(zhàn),推動(dòng)AI技術(shù)與產(chǎn)業(yè)發(fā)展,讓LLMs在新一輪產(chǎn)業(yè)變革中加快形成更多新質(zhì)生產(chǎn)力。

(作者單位:1.遼寧省大數(shù)據(jù)管理中心;2.成都市優(yōu)加一教育科技有限公司;3.遼寧世紀(jì)教育研究院)

猜你喜歡
應(yīng)用趨勢(shì)自然語(yǔ)言處理人工智能
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
淺析杜邦分析法優(yōu)缺點(diǎn)
商情(2017年4期)2017-03-22 21:20:18
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
媒體技術(shù)在小學(xué)教育中的應(yīng)用趨勢(shì)探索
HTML5應(yīng)用現(xiàn)狀分析
智能型機(jī)械自動(dòng)化應(yīng)用趨勢(shì)之我見(jiàn)
下一幕,人工智能!
面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
牙克石市| 左权县| 德保县| 四会市| 荣成市| 南开区| 邹城市| 丹东市| 嘉鱼县| 宾川县| 新平| 南丰县| 易门县| 田阳县| 中江县| 水富县| 亚东县| 天水市| 措勤县| 都江堰市| 新营市| 海原县| 威远县| 博兴县| 延寿县| 环江| 进贤县| 皋兰县| 樟树市| 南部县| 沧源| 溧阳市| 峨眉山市| 高邮市| 绵竹市| 横山县| 平泉县| 达拉特旗| 和平区| 丰台区| 荔波县|