萬宏蕾
7月8日,上海2023 世界人工智能大會(huì),達(dá)觀數(shù)據(jù)曹植大語言模型
2023年3月,硅谷創(chuàng)業(yè)公司OPEN AI推出的新型AI聊天機(jī)器人工具ChatGPT 3.5展現(xiàn)出了令世人驚艷的對(duì)話能力。僅用兩個(gè)月時(shí)間,ChatGPT月活躍用戶就達(dá)一億,成為史上用戶增速最快的消費(fèi)應(yīng)用。
這之后,阿里云“通義千問”大模型、昆侖萬維“天工”大模型、商湯科技“日日新”、“360智腦”、百度“文心一言”……類ChatGPT產(chǎn)品相繼浮出水面。越來越多的國(guó)內(nèi)企業(yè)入局其中,大模型之戰(zhàn)悄然打響。
2023年7月,上海企業(yè)達(dá)觀數(shù)據(jù)發(fā)布了國(guó)內(nèi)首個(gè)垂直行業(yè)專用的自主可控的GPT大語言模型——“曹植”。據(jù)悉,“曹植”可準(zhǔn)確完成多類型、復(fù)雜結(jié)構(gòu)的長(zhǎng)文本寫作。
“ChatGPT帶來了人工智能技術(shù)和應(yīng)用的新一輪發(fā)展熱潮,雖然它離通用人工智能的距離還很遙遠(yuǎn),但我們要充分認(rèn)識(shí)到借助人工智能技術(shù)進(jìn)行分析、理解、生成的道路是正確的。這對(duì)于中國(guó)乃至全球人工智能企業(yè)而言,既是機(jī)遇也是挑戰(zhàn)?!敝袊?guó)信通院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏說。
“目前我們談?wù)摰亩际谴竽P捅旧?,但我覺得明年、后年大家會(huì)開始談?wù)撃P陀迷谀睦?、解決什么問題,是什么樣的產(chǎn)品形態(tài)等?!边_(dá)觀數(shù)據(jù)董事長(zhǎng)兼CEO、復(fù)旦大學(xué)校外研究生導(dǎo)師陳運(yùn)文告訴《瞭望東方周刊》,“目前的市場(chǎng)確實(shí)很熱,但整體來說,中國(guó)市場(chǎng)才剛開始?!?blockquote>
在人工智能三大應(yīng)用領(lǐng)域中,圖像識(shí)別和語音識(shí)別均屬于“感知技術(shù)”,而屬于“認(rèn)知技術(shù)”(理解復(fù)雜語義并進(jìn)行高精準(zhǔn)度處理)的文本理解,是AI技術(shù)發(fā)展的關(guān)鍵所在。
在人工智能三大應(yīng)用領(lǐng)域中,圖像識(shí)別和語音識(shí)別均屬于“感知技術(shù)”,而屬于“認(rèn)知技術(shù)”(理解復(fù)雜語義并進(jìn)行高精準(zhǔn)度處理)的文本理解,是AI技術(shù)發(fā)展的關(guān)鍵所在。
“讓機(jī)器讀懂人的意思,這是人工智能技術(shù)得以實(shí)際應(yīng)用最重要的也是最難的一環(huán)?!标愡\(yùn)文說。他曾在盛大、騰訊、百度擔(dān)任技術(shù)研發(fā)和管理職位,長(zhǎng)期從事文本挖掘相關(guān)工作。
“企業(yè)每天都產(chǎn)生大量文檔,需要配備大量人力對(duì)文檔進(jìn)行歸類、整理和分析。對(duì)互聯(lián)網(wǎng)企業(yè)來說,內(nèi)部文字資料的處理和應(yīng)用已經(jīng)發(fā)揮了很大價(jià)值但沒有實(shí)現(xiàn)價(jià)值最大化;而傳統(tǒng)企業(yè),很多還停留在用人力做重復(fù)性高、技術(shù)含量低的文字處理工作,人工智能技術(shù)應(yīng)用極其原始?!标愡\(yùn)文說,“現(xiàn)在越來越多的企業(yè)將信息化納入議程,很多企業(yè)內(nèi)部數(shù)據(jù)豐富,但沒有很好的方法去挖掘,可謂守著金山要飯?!?/p>
通過運(yùn)用文本挖掘技術(shù)能夠幫助企業(yè)提升運(yùn)營(yíng)效率,就是達(dá)觀數(shù)據(jù)看中的風(fēng)口。
2015年,達(dá)觀數(shù)據(jù)在上海成立,2016年便獲得真格基金領(lǐng)投,眾米資本和掌門科技跟投的1000萬元天使輪融資,成為一家為企業(yè)提供各類場(chǎng)景智能文本機(jī)器人的國(guó)家高新技術(shù)企業(yè)。
“實(shí)際上,在ChatGPT火起來之前,達(dá)觀數(shù)據(jù)已經(jīng)進(jìn)入大模型賽道。2018年,OpenAI發(fā)布了第一代ChatGPT技術(shù)。當(dāng)時(shí)除了學(xué)術(shù)圈,社會(huì)大眾少有關(guān)注。2020年6月GPT3發(fā)布,我們當(dāng)時(shí)也使用了GPT3系統(tǒng)。坦率說,當(dāng)時(shí)的系統(tǒng)效果并不好。”陳運(yùn)文回憶說,“到了2022年11月底,ChatGPT3.5正式發(fā)布,我們使用后發(fā)現(xiàn)這和3.0有天壤之別,是巨大的飛躍。我們意識(shí)到,這會(huì)是一個(gè)劃時(shí)代的技術(shù),或許會(huì)撬動(dòng)整個(gè)社會(huì)與行業(yè)的變革?!?/p>
“以前客戶提出了很多應(yīng)用場(chǎng)景,但因技術(shù)條件有限,很難達(dá)到客戶滿意的、能夠自然流暢使用的水平;現(xiàn)在有了大語言模型,針對(duì)以前客戶很需要又很難實(shí)現(xiàn)的應(yīng)用場(chǎng)景,我們用新模型都能搞定,效果甚至超出客戶預(yù)期。與此同時(shí),ChatGPT對(duì)中國(guó)用戶并不友好。達(dá)觀數(shù)據(jù)敏銳地發(fā)現(xiàn)這是一個(gè)巨大的機(jī)會(huì),國(guó)內(nèi)各行業(yè)都需要自主可控的模型,為中國(guó)客戶提供專屬服務(wù)。”陳運(yùn)文說。
“在下定決心做國(guó)產(chǎn)GPT之前,公司開會(huì)討論了好幾天,設(shè)想能做成什么樣,同時(shí)計(jì)算投入和產(chǎn)出。初步盤算,光硬件就要投入幾千萬元,還要找算力平臺(tái)。”達(dá)觀數(shù)據(jù)技術(shù)總監(jiān)韓偉告訴《瞭望東方周刊》,“2022年底,當(dāng)國(guó)內(nèi)很多公司還沒有在意,只覺得ChatGPT是個(gè)聊天軟件時(shí),達(dá)觀數(shù)據(jù)就作出了全力投入自主研發(fā)大模型的決定?!?/p>
總共有將近200人的工程師團(tuán)隊(duì)參與研發(fā)“曹植”國(guó)產(chǎn)大模型,分成不同的工程小組,各自承擔(dān)數(shù)據(jù)采集、研發(fā)、訓(xùn)練等不同任務(wù)。為了取系統(tǒng)名字,公司內(nèi)部征名,出了98個(gè)方案?!叭绻☆愃艷PT這樣的英文單詞縮寫,感覺跟中國(guó)人的關(guān)聯(lián)度不夠。考慮到我們系統(tǒng)擅長(zhǎng)的長(zhǎng)文本寫作,‘七步成詩的曹植形象非常符合,且這一商標(biāo)在計(jì)算機(jī)軟件領(lǐng)域還沒有過?!标愡\(yùn)文說,“曹植的《洛神賦》是古代文學(xué)作品里的長(zhǎng)文本,而做文檔資料智能化的分析寫作工作也是‘曹植大模型的專長(zhǎng)?!?/p>
“長(zhǎng)文本處理領(lǐng)域,我們走在行業(yè)前列,所以一路都是‘黑夜獨(dú)行?!标愡\(yùn)文說,大模型優(yōu)異的效果隱藏在諸多技術(shù)細(xì)節(jié)里,但海外同行沒有公布GPT訓(xùn)練過程的工程細(xì)節(jié)和參數(shù)方法這類核心要素,為了給團(tuán)隊(duì)更多知識(shí)補(bǔ)給,達(dá)觀數(shù)據(jù)向復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院的教授們請(qǐng)教,讀了許多業(yè)界頂尖論文和技術(shù)報(bào)告。每周技術(shù)團(tuán)隊(duì)都在反復(fù)討論技術(shù)方案,開展各種交流研討,逐字逐句探究核心指南。
達(dá)觀技術(shù)團(tuán)隊(duì)探討曹植大語言模型
除了作為人工智能基礎(chǔ)設(shè)施的算力平臺(tái),大模型訓(xùn)練還需要巨大規(guī)模的數(shù)據(jù)。達(dá)觀數(shù)據(jù)投入了大量精力來積累和提煉文本數(shù)據(jù),源源不斷地投入模型訓(xùn)練。
“訓(xùn)練數(shù)據(jù)規(guī)模比一所大學(xué)圖書館所有藏書量都要大得多。硬件試驗(yàn)設(shè)備也得跟上,一套方案就要200萬元。”陳運(yùn)文說。
“GPU不是買回來就能用,需要以軟件形式組網(wǎng),每個(gè)節(jié)點(diǎn)是個(gè)GPU,最終形成龐大的算力網(wǎng)絡(luò)。”韓偉解釋,“從2023年1月開始,團(tuán)隊(duì)調(diào)研、采購(gòu)、組網(wǎng),不斷打磨,模型的訓(xùn)練開始循序漸進(jìn),先訓(xùn)練小的模型,再到中、大、超大規(guī)模的模型?!?/p>
“回過頭來看,由于當(dāng)時(shí)前瞻性的布局,下手早,大模型熱出現(xiàn)后,現(xiàn)在市場(chǎng)上對(duì)相關(guān)芯片的需求已經(jīng)一哄而上,不僅供貨周期非常長(zhǎng),價(jià)格還上漲了近50%?!标愡\(yùn)文說。
“當(dāng)‘曹植第一版出來時(shí),正是晚上八九點(diǎn),大家讓模型跑起來,全部測(cè)試結(jié)束到了半夜12點(diǎn),當(dāng)所有測(cè)試集測(cè)試效果達(dá)到預(yù)期,埋頭熬了4個(gè)月的團(tuán)隊(duì)歡呼雀躍?!表n偉說。
“第二天,研發(fā)成功的第一個(gè)版本GPT模型馬上和公司內(nèi)部釘釘系統(tǒng)對(duì)接,驗(yàn)證系統(tǒng)能力。內(nèi)測(cè)時(shí)為了區(qū)分不斷刷新的各種版本,我們把曹氏家族名字都取了一遍?!标愡\(yùn)文說。
2023年3月,在由中國(guó)人工智能學(xué)會(huì)主辦,達(dá)觀數(shù)據(jù)攜手中國(guó)人工智能學(xué)會(huì)自然語言理解專委會(huì)、真格基金共同承辦,中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所支持的“ChatGPT及大模型專題研討會(huì)”上,達(dá)觀數(shù)據(jù)正式對(duì)外宣布研發(fā)國(guó)產(chǎn)版GPT“曹植”系統(tǒng),作為垂直、專用、自主可控的國(guó)產(chǎn)版ChatGPT模型。
“在‘國(guó)產(chǎn)ChatGPT和大模型的發(fā)展上,自然語言處理這一方向比起其他方向,中國(guó)企業(yè)與海外先進(jìn)企業(yè)的差距要小很多?!痹谝粓?chǎng)圍繞ChatGPT和大規(guī)模語言模型發(fā)展應(yīng)用專題研討會(huì)上,與會(huì)專家這樣認(rèn)為,ChatGPT帶動(dòng)了自然語言處理整體上下游以及芯片的思考和發(fā)展,某種程度上大模型可能將成為下一代的基礎(chǔ)設(shè)施,而中國(guó)需要有自己的基礎(chǔ)模型體系,來保證安全性、并發(fā)性和穩(wěn)定性。
“曹植”也是國(guó)內(nèi)大規(guī)模語言模型中首批可落地的產(chǎn)業(yè)應(yīng)用級(jí)模型?!霸?月份外界剛剛意識(shí)到大模型熱時(shí),達(dá)觀數(shù)據(jù)已經(jīng)領(lǐng)先半個(gè)身位?!标愡\(yùn)文說。
所有客戶都關(guān)心私有數(shù)據(jù)會(huì)不會(huì)被大模型泄露出去,如果公用一個(gè)通用大模型的話,確實(shí)存在數(shù)據(jù)被模型學(xué)習(xí)后再被他人利用的隱患。
目前 ChatGPT、“文心一言”等通用大模型已經(jīng)被大眾所熟知,這類大模型在用戶廣泛認(rèn)知方面具有極大優(yōu)勢(shì),但是在垂直領(lǐng)域,這種建立在公有云上的大模型讓客戶有數(shù)據(jù)安全方面的擔(dān)憂。尤其是現(xiàn)在ChatGPT 頻繁被爆出負(fù)面信息后,數(shù)據(jù)安全更加引起用戶的重視。
“所有客戶都關(guān)心私有數(shù)據(jù)會(huì)不會(huì)被大模型泄露出去,如果公用一個(gè)通用大模型的話,確實(shí)存在數(shù)據(jù)被模型學(xué)習(xí)后再被他人利用的隱患?!标愡\(yùn)文說,“與通用大模型相比,垂直領(lǐng)域?qū)S么竽P蛥?shù)少,訓(xùn)練成本和使用成本都更具競(jìng)爭(zhēng)力;與公有部署相比,私有部署的模式在數(shù)據(jù)安全方面更具優(yōu)勢(shì),也更適合中國(guó)電信、各大銀行這樣的垂直行業(yè)。”
再加上,每個(gè)企業(yè)都有內(nèi)部工作規(guī)范和規(guī)章制度,垂直領(lǐng)域的大模型可以適應(yīng)每個(gè)公司獨(dú)特的工作要求去完成文本審核、寫作、分析等工作,而通用模型無法做到。
“達(dá)觀數(shù)據(jù)的定位就是專注于做垂直領(lǐng)域?qū)6拇竽P?,雖然只局限在某個(gè)領(lǐng)域,但它可以挖得更深,解決任務(wù)效果更好,參數(shù)規(guī)模相對(duì)來說可以縮小一個(gè)數(shù)量級(jí),對(duì)客戶來說成本可控,更具性價(jià)比,讓客戶‘玩得起、玩得轉(zhuǎn)?!标愡\(yùn)文說,“大模型應(yīng)用的性價(jià)比是很重要的考量,因?yàn)椴豢赡苊總€(gè)客戶都投幾個(gè)億去建一個(gè)集群來做模型訓(xùn)練。比如,我們用一些輕量的顯卡去跑這種大模型,通用大模型的話要100張英偉達(dá)A100卡能跑的數(shù)據(jù),垂直領(lǐng)域?qū)S么竽P陀靡粡埧ň湍芘艹鐾瑯拥男阅??!标愡\(yùn)文說,“這就是‘曹植的商業(yè)價(jià)值?!?h3>如何落地
“大模型要管用、好用,必須能解決行業(yè)里真正的痛點(diǎn)、難點(diǎn)。如果大家都做一個(gè)泛泛的通用大模型,產(chǎn)品的同質(zhì)化會(huì)非常嚴(yán)重?!标愡\(yùn)文說,“未來在企業(yè)的落地形態(tài),一定是大模型和多個(gè)垂直行業(yè)小模型的組合?!?/p>
具體到“曹植”等大模型的落地,從理論到應(yīng)用有很多困難要克服,而語義分析又是其中挑戰(zhàn)特別大的方向?!罢Z義是人類智慧的高度抽象和濃縮,讓計(jì)算機(jī)去理解文字語義需要日積月累、精益求精的技術(shù)升級(jí)優(yōu)化。而中文的語法比英文更靈活更復(fù)雜,讓計(jì)算機(jī)去做中文領(lǐng)域的閱讀理解,更加困難重重?!标愡\(yùn)文說。
“文檔智能審閱系統(tǒng)是一個(gè)全新的系統(tǒng),以前沒有過。我們逐漸接觸了一些政府和大企業(yè)客戶,他們對(duì)人工智能的態(tài)度是又愛又怕。作為開拓者,我們需要告訴客戶,技術(shù)已經(jīng)能夠代替人來進(jìn)行文檔資料的閱讀理解和后續(xù)處理,讓客戶明白這個(gè)全新系統(tǒng)有什么用、怎么用、可以做到什么程度?!标愡\(yùn)文說,“這個(gè)過程需要耐得住寂寞,扎扎實(shí)實(shí)地把技術(shù)做好,讓市場(chǎng)慢慢地成長(zhǎng)起來?!?/p>
目前,達(dá)觀數(shù)據(jù)已經(jīng)在科技、金融、視頻、電商、媒體行業(yè)落地應(yīng)用。另外,上海市全力推行“一網(wǎng)通辦”,在處理大量行政審批文本、縮短行政審批時(shí)間方面,達(dá)觀數(shù)據(jù)也已經(jīng)展開與政府機(jī)構(gòu)廣泛的戰(zhàn)略合作。
“與培育市場(chǎng)相比,我們面臨的更大困難是高質(zhì)量文字資料數(shù)據(jù)的稀缺與大模型工程人才的稀缺?!表n偉說,“我們希望培養(yǎng)一批優(yōu)秀的工程人才,既有學(xué)術(shù)底蘊(yùn),能看懂論文、了解新技術(shù),也能動(dòng)手實(shí)踐,摸索出具體的大模型參數(shù)、訓(xùn)練步驟、推理方案?!?/p>
“未來如果大模型真正發(fā)揮作用,一定不會(huì)只是一問一答的形式。就像電出現(xiàn)后,1879年出現(xiàn)最多的是電燈泡公司,但是電能的應(yīng)用絕不止電燈泡一種形式。我們不做燈泡,我們要做洗衣機(jī)、做電冰箱,要去想象其他能滿足應(yīng)用場(chǎng)景的產(chǎn)品形態(tài)。大家要對(duì)未來人工智能滲透在各個(gè)行業(yè)做好準(zhǔn)備?!标愡\(yùn)文說。
“我預(yù)測(cè)2023年底之前,國(guó)內(nèi)第一批大模型的商業(yè)化會(huì)陸續(xù)產(chǎn)生,大規(guī)模的商業(yè)化落地應(yīng)用,可能要到2024年、2025年全面開花。整個(gè)產(chǎn)業(yè)鏈,從底層算力、硬件到應(yīng)用層,對(duì)國(guó)內(nèi)企業(yè)來說都充滿機(jī)遇?!标愡\(yùn)文說。
注釋:大模型是指具有巨量參數(shù)數(shù)量的人工神經(jīng)網(wǎng)絡(luò)模型,主要用于解決復(fù)雜的自然語言處理、語音識(shí)別等任務(wù)。大模型是ChatGPT 及其同類產(chǎn)品的底層基礎(chǔ)設(shè)施。