國(guó)產(chǎn)大模型向商用邁進(jìn)

2023-09-08 06:20萬宏蕾

瞭望東方周刊 2023年17期

萬宏蕾

7月8日，上海2023 世界人工智能大會(huì)，達(dá)觀數(shù)據(jù)曹植大語言模型

2023年3月，硅谷創(chuàng)業(yè)公司OPEN AI推出的新型AI聊天機(jī)器人工具ChatGPT 3.5展現(xiàn)出了令世人驚艷的對(duì)話能力。僅用兩個(gè)月時(shí)間，ChatGPT月活躍用戶就達(dá)一億，成為史上用戶增速最快的消費(fèi)應(yīng)用。

這之后，阿里云“通義千問”大模型、昆侖萬維“天工”大模型、商湯科技“日日新”、“360智腦”、百度“文心一言”……類ChatGPT產(chǎn)品相繼浮出水面。越來越多的國(guó)內(nèi)企業(yè)入局其中，大模型之戰(zhàn)悄然打響。

2023年7月，上海企業(yè)達(dá)觀數(shù)據(jù)發(fā)布了國(guó)內(nèi)首個(gè)垂直行業(yè)專用的自主可控的GPT大語言模型——“曹植”。據(jù)悉，“曹植”可準(zhǔn)確完成多類型、復(fù)雜結(jié)構(gòu)的長(zhǎng)文本寫作。

“ChatGPT帶來了人工智能技術(shù)和應(yīng)用的新一輪發(fā)展熱潮，雖然它離通用人工智能的距離還很遙遠(yuǎn)，但我們要充分認(rèn)識(shí)到借助人工智能技術(shù)進(jìn)行分析、理解、生成的道路是正確的。這對(duì)于中國(guó)乃至全球人工智能企業(yè)而言，既是機(jī)遇也是挑戰(zhàn)?！敝袊?guó)信通院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏說。

“目前我們談?wù)摰亩际谴竽Ｐ捅旧?，但我覺得明年、后年大家會(huì)開始談?wù)撃Ｐ陀迷谀睦?、解決什么問題，是什么樣的產(chǎn)品形態(tài)等?！边_(dá)觀數(shù)據(jù)董事長(zhǎng)兼CEO、復(fù)旦大學(xué)校外研究生導(dǎo)師陳運(yùn)文告訴《瞭望東方周刊》，“目前的市場(chǎng)確實(shí)很熱，但整體來說，中國(guó)市場(chǎng)才剛開始?！?blockquote>

在人工智能三大應(yīng)用領(lǐng)域中，圖像識(shí)別和語音識(shí)別均屬于“感知技術(shù)”，而屬于“認(rèn)知技術(shù)”（理解復(fù)雜語義并進(jìn)行高精準(zhǔn)度處理）的文本理解，是AI技術(shù)發(fā)展的關(guān)鍵所在。

機(jī)會(huì)巨大

“讓機(jī)器讀懂人的意思，這是人工智能技術(shù)得以實(shí)際應(yīng)用最重要的也是最難的一環(huán)?！标愡\(yùn)文說。他曾在盛大、騰訊、百度擔(dān)任技術(shù)研發(fā)和管理職位，長(zhǎng)期從事文本挖掘相關(guān)工作。

“企業(yè)每天都產(chǎn)生大量文檔，需要配備大量人力對(duì)文檔進(jìn)行歸類、整理和分析。對(duì)互聯(lián)網(wǎng)企業(yè)來說，內(nèi)部文字資料的處理和應(yīng)用已經(jīng)發(fā)揮了很大價(jià)值但沒有實(shí)現(xiàn)價(jià)值最大化；而傳統(tǒng)企業(yè)，很多還停留在用人力做重復(fù)性高、技術(shù)含量低的文字處理工作，人工智能技術(shù)應(yīng)用極其原始?！标愡\(yùn)文說，“現(xiàn)在越來越多的企業(yè)將信息化納入議程，很多企業(yè)內(nèi)部數(shù)據(jù)豐富，但沒有很好的方法去挖掘，可謂守著金山要飯?！?/p>

通過運(yùn)用文本挖掘技術(shù)能夠幫助企業(yè)提升運(yùn)營(yíng)效率，就是達(dá)觀數(shù)據(jù)看中的風(fēng)口。

2015年，達(dá)觀數(shù)據(jù)在上海成立，2016年便獲得真格基金領(lǐng)投，眾米資本和掌門科技跟投的1000萬元天使輪融資，成為一家為企業(yè)提供各類場(chǎng)景智能文本機(jī)器人的國(guó)家高新技術(shù)企業(yè)。

“實(shí)際上，在ChatGPT火起來之前，達(dá)觀數(shù)據(jù)已經(jīng)進(jìn)入大模型賽道。2018年，OpenAI發(fā)布了第一代ChatGPT技術(shù)。當(dāng)時(shí)除了學(xué)術(shù)圈，社會(huì)大眾少有關(guān)注。2020年6月GPT3發(fā)布，我們當(dāng)時(shí)也使用了GPT3系統(tǒng)。坦率說，當(dāng)時(shí)的系統(tǒng)效果并不好。”陳運(yùn)文回憶說，“到了2022年11月底，ChatGPT3.5正式發(fā)布，我們使用后發(fā)現(xiàn)這和3.0有天壤之別，是巨大的飛躍。我們意識(shí)到，這會(huì)是一個(gè)劃時(shí)代的技術(shù)，或許會(huì)撬動(dòng)整個(gè)社會(huì)與行業(yè)的變革?！?/p>

“以前客戶提出了很多應(yīng)用場(chǎng)景，但因技術(shù)條件有限，很難達(dá)到客戶滿意的、能夠自然流暢使用的水平；現(xiàn)在有了大語言模型，針對(duì)以前客戶很需要又很難實(shí)現(xiàn)的應(yīng)用場(chǎng)景，我們用新模型都能搞定，效果甚至超出客戶預(yù)期。與此同時(shí)，ChatGPT對(duì)中國(guó)用戶并不友好。達(dá)觀數(shù)據(jù)敏銳地發(fā)現(xiàn)這是一個(gè)巨大的機(jī)會(huì)，國(guó)內(nèi)各行業(yè)都需要自主可控的模型，為中國(guó)客戶提供專屬服務(wù)。”陳運(yùn)文說。

“七步成詩”

“在下定決心做國(guó)產(chǎn)GPT之前，公司開會(huì)討論了好幾天，設(shè)想能做成什么樣，同時(shí)計(jì)算投入和產(chǎn)出。初步盤算，光硬件就要投入幾千萬元，還要找算力平臺(tái)。”達(dá)觀數(shù)據(jù)技術(shù)總監(jiān)韓偉告訴《瞭望東方周刊》，“2022年底，當(dāng)國(guó)內(nèi)很多公司還沒有在意，只覺得ChatGPT是個(gè)聊天軟件時(shí)，達(dá)觀數(shù)據(jù)就作出了全力投入自主研發(fā)大模型的決定?！?/p>

總共有將近200人的工程師團(tuán)隊(duì)參與研發(fā)“曹植”國(guó)產(chǎn)大模型，分成不同的工程小組，各自承擔(dān)數(shù)據(jù)采集、研發(fā)、訓(xùn)練等不同任務(wù)。為了取系統(tǒng)名字，公司內(nèi)部征名，出了98個(gè)方案?！叭绻☆愃艷PT這樣的英文單詞縮寫，感覺跟中國(guó)人的關(guān)聯(lián)度不夠。考慮到我們系統(tǒng)擅長(zhǎng)的長(zhǎng)文本寫作，‘七步成詩的曹植形象非常符合，且這一商標(biāo)在計(jì)算機(jī)軟件領(lǐng)域還沒有過?！标愡\(yùn)文說，“曹植的《洛神賦》是古代文學(xué)作品里的長(zhǎng)文本，而做文檔資料智能化的分析寫作工作也是‘曹植大模型的專長(zhǎng)?！?/p>

“長(zhǎng)文本處理領(lǐng)域，我們走在行業(yè)前列，所以一路都是‘黑夜獨(dú)行?！标愡\(yùn)文說，大模型優(yōu)異的效果隱藏在諸多技術(shù)細(xì)節(jié)里，但海外同行沒有公布GPT訓(xùn)練過程的工程細(xì)節(jié)和參數(shù)方法這類核心要素，為了給團(tuán)隊(duì)更多知識(shí)補(bǔ)給，達(dá)觀數(shù)據(jù)向復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院的教授們請(qǐng)教，讀了許多業(yè)界頂尖論文和技術(shù)報(bào)告。每周技術(shù)團(tuán)隊(duì)都在反復(fù)討論技術(shù)方案，開展各種交流研討，逐字逐句探究核心指南。

達(dá)觀技術(shù)團(tuán)隊(duì)探討曹植大語言模型

除了作為人工智能基礎(chǔ)設(shè)施的算力平臺(tái)，大模型訓(xùn)練還需要巨大規(guī)模的數(shù)據(jù)。達(dá)觀數(shù)據(jù)投入了大量精力來積累和提煉文本數(shù)據(jù)，源源不斷地投入模型訓(xùn)練。

“訓(xùn)練數(shù)據(jù)規(guī)模比一所大學(xué)圖書館所有藏書量都要大得多。硬件試驗(yàn)設(shè)備也得跟上，一套方案就要200萬元。”陳運(yùn)文說。

“GPU不是買回來就能用，需要以軟件形式組網(wǎng)，每個(gè)節(jié)點(diǎn)是個(gè)GPU，最終形成龐大的算力網(wǎng)絡(luò)。”韓偉解釋，“從2023年1月開始，團(tuán)隊(duì)調(diào)研、采購(gòu)、組網(wǎng)，不斷打磨，模型的訓(xùn)練開始循序漸進(jìn)，先訓(xùn)練小的模型，再到中、大、超大規(guī)模的模型?！?/p>

“回過頭來看，由于當(dāng)時(shí)前瞻性的布局，下手早，大模型熱出現(xiàn)后，現(xiàn)在市場(chǎng)上對(duì)相關(guān)芯片的需求已經(jīng)一哄而上，不僅供貨周期非常長(zhǎng)，價(jià)格還上漲了近50%?！标愡\(yùn)文說。

“當(dāng)‘曹植第一版出來時(shí)，正是晚上八九點(diǎn)，大家讓模型跑起來，全部測(cè)試結(jié)束到了半夜12點(diǎn)，當(dāng)所有測(cè)試集測(cè)試效果達(dá)到預(yù)期，埋頭熬了4個(gè)月的團(tuán)隊(duì)歡呼雀躍?！表n偉說。

“第二天，研發(fā)成功的第一個(gè)版本GPT模型馬上和公司內(nèi)部釘釘系統(tǒng)對(duì)接，驗(yàn)證系統(tǒng)能力。內(nèi)測(cè)時(shí)為了區(qū)分不斷刷新的各種版本，我們把曹氏家族名字都取了一遍?！标愡\(yùn)文說。

2023年3月，在由中國(guó)人工智能學(xué)會(huì)主辦，達(dá)觀數(shù)據(jù)攜手中國(guó)人工智能學(xué)會(huì)自然語言理解專委會(huì)、真格基金共同承辦，中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所支持的“ChatGPT及大模型專題研討會(huì)”上，達(dá)觀數(shù)據(jù)正式對(duì)外宣布研發(fā)國(guó)產(chǎn)版GPT“曹植”系統(tǒng)，作為垂直、專用、自主可控的國(guó)產(chǎn)版ChatGPT模型。

“在‘國(guó)產(chǎn)ChatGPT和大模型的發(fā)展上，自然語言處理這一方向比起其他方向，中國(guó)企業(yè)與海外先進(jìn)企業(yè)的差距要小很多?！痹谝粓?chǎng)圍繞ChatGPT和大規(guī)模語言模型發(fā)展應(yīng)用專題研討會(huì)上，與會(huì)專家這樣認(rèn)為，ChatGPT帶動(dòng)了自然語言處理整體上下游以及芯片的思考和發(fā)展，某種程度上大模型可能將成為下一代的基礎(chǔ)設(shè)施，而中國(guó)需要有自己的基礎(chǔ)模型體系，來保證安全性、并發(fā)性和穩(wěn)定性。

“曹植”也是國(guó)內(nèi)大規(guī)模語言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級(jí)模型?！霸?月份外界剛剛意識(shí)到大模型熱時(shí)，達(dá)觀數(shù)據(jù)已經(jīng)領(lǐng)先半個(gè)身位?！标愡\(yùn)文說。

所有客戶都關(guān)心私有數(shù)據(jù)會(huì)不會(huì)被大模型泄露出去，如果公用一個(gè)通用大模型的話，確實(shí)存在數(shù)據(jù)被模型學(xué)習(xí)后再被他人利用的隱患。

目前 ChatGPT、“文心一言”等通用大模型已經(jīng)被大眾所熟知，這類大模型在用戶廣泛認(rèn)知方面具有極大優(yōu)勢(shì)，但是在垂直領(lǐng)域，這種建立在公有云上的大模型讓客戶有數(shù)據(jù)安全方面的擔(dān)憂。尤其是現(xiàn)在ChatGPT 頻繁被爆出負(fù)面信息后，數(shù)據(jù)安全更加引起用戶的重視。

“所有客戶都關(guān)心私有數(shù)據(jù)會(huì)不會(huì)被大模型泄露出去，如果公用一個(gè)通用大模型的話，確實(shí)存在數(shù)據(jù)被模型學(xué)習(xí)后再被他人利用的隱患?！标愡\(yùn)文說，“與通用大模型相比，垂直領(lǐng)域?qū)Ｓ么竽Ｐ蛥?shù)少，訓(xùn)練成本和使用成本都更具競(jìng)爭(zhēng)力；與公有部署相比，私有部署的模式在數(shù)據(jù)安全方面更具優(yōu)勢(shì)，也更適合中國(guó)電信、各大銀行這樣的垂直行業(yè)。”

再加上，每個(gè)企業(yè)都有內(nèi)部工作規(guī)范和規(guī)章制度，垂直領(lǐng)域的大模型可以適應(yīng)每個(gè)公司獨(dú)特的工作要求去完成文本審核、寫作、分析等工作，而通用模型無法做到。

“達(dá)觀數(shù)據(jù)的定位就是專注于做垂直領(lǐng)域?qū)６拇竽Ｐ?，雖然只局限在某個(gè)領(lǐng)域，但它可以挖得更深，解決任務(wù)效果更好，參數(shù)規(guī)模相對(duì)來說可以縮小一個(gè)數(shù)量級(jí)，對(duì)客戶來說成本可控，更具性價(jià)比，讓客戶‘玩得起、玩得轉(zhuǎn)?！标愡\(yùn)文說，“大模型應(yīng)用的性價(jià)比是很重要的考量，因?yàn)椴豢赡苊總€(gè)客戶都投幾個(gè)億去建一個(gè)集群來做模型訓(xùn)練。比如，我們用一些輕量的顯卡去跑這種大模型，通用大模型的話要100張英偉達(dá)A100卡能跑的數(shù)據(jù)，垂直領(lǐng)域?qū)Ｓ么竽Ｐ陀靡粡埧ň湍芘艹鐾瑯拥男阅??！标愡\(yùn)文說，“這就是‘曹植的商業(yè)價(jià)值?！?h3>如何落地

“大模型要管用、好用，必須能解決行業(yè)里真正的痛點(diǎn)、難點(diǎn)。如果大家都做一個(gè)泛泛的通用大模型，產(chǎn)品的同質(zhì)化會(huì)非常嚴(yán)重?！标愡\(yùn)文說，“未來在企業(yè)的落地形態(tài)，一定是大模型和多個(gè)垂直行業(yè)小模型的組合?！?/p>

具體到“曹植”等大模型的落地，從理論到應(yīng)用有很多困難要克服，而語義分析又是其中挑戰(zhàn)特別大的方向?！罢Z義是人類智慧的高度抽象和濃縮，讓計(jì)算機(jī)去理解文字語義需要日積月累、精益求精的技術(shù)升級(jí)優(yōu)化。而中文的語法比英文更靈活更復(fù)雜，讓計(jì)算機(jī)去做中文領(lǐng)域的閱讀理解，更加困難重重?！标愡\(yùn)文說。

“文檔智能審閱系統(tǒng)是一個(gè)全新的系統(tǒng)，以前沒有過。我們逐漸接觸了一些政府和大企業(yè)客戶，他們對(duì)人工智能的態(tài)度是又愛又怕。作為開拓者，我們需要告訴客戶，技術(shù)已經(jīng)能夠代替人來進(jìn)行文檔資料的閱讀理解和后續(xù)處理，讓客戶明白這個(gè)全新系統(tǒng)有什么用、怎么用、可以做到什么程度?！标愡\(yùn)文說，“這個(gè)過程需要耐得住寂寞，扎扎實(shí)實(shí)地把技術(shù)做好，讓市場(chǎng)慢慢地成長(zhǎng)起來?！?/p>

目前，達(dá)觀數(shù)據(jù)已經(jīng)在科技、金融、視頻、電商、媒體行業(yè)落地應(yīng)用。另外，上海市全力推行“一網(wǎng)通辦”，在處理大量行政審批文本、縮短行政審批時(shí)間方面，達(dá)觀數(shù)據(jù)也已經(jīng)展開與政府機(jī)構(gòu)廣泛的戰(zhàn)略合作。

“與培育市場(chǎng)相比，我們面臨的更大困難是高質(zhì)量文字資料數(shù)據(jù)的稀缺與大模型工程人才的稀缺?！表n偉說，“我們希望培養(yǎng)一批優(yōu)秀的工程人才，既有學(xué)術(shù)底蘊(yùn)，能看懂論文、了解新技術(shù)，也能動(dòng)手實(shí)踐，摸索出具體的大模型參數(shù)、訓(xùn)練步驟、推理方案?！?/p>

“未來如果大模型真正發(fā)揮作用，一定不會(huì)只是一問一答的形式。就像電出現(xiàn)后，1879年出現(xiàn)最多的是電燈泡公司，但是電能的應(yīng)用絕不止電燈泡一種形式。我們不做燈泡，我們要做洗衣機(jī)、做電冰箱，要去想象其他能滿足應(yīng)用場(chǎng)景的產(chǎn)品形態(tài)。大家要對(duì)未來人工智能滲透在各個(gè)行業(yè)做好準(zhǔn)備?！标愡\(yùn)文說。

“我預(yù)測(cè)2023年底之前，國(guó)內(nèi)第一批大模型的商業(yè)化會(huì)陸續(xù)產(chǎn)生，大規(guī)模的商業(yè)化落地應(yīng)用，可能要到2024年、2025年全面開花。整個(gè)產(chǎn)業(yè)鏈，從底層算力、硬件到應(yīng)用層，對(duì)國(guó)內(nèi)企業(yè)來說都充滿機(jī)遇?！标愡\(yùn)文說。

注釋：大模型是指具有巨量參數(shù)數(shù)量的人工神經(jīng)網(wǎng)絡(luò)模型，主要用于解決復(fù)雜的自然語言處理、語音識(shí)別等任務(wù)。大模型是ChatGPT 及其同類產(chǎn)品的底層基礎(chǔ)設(shè)施。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

國(guó)產(chǎn)大模型向商用邁進(jìn)

機(jī)會(huì)巨大

“七步成詩”