人工智能輔助科研要從可用走向可信

2023-12-29 08:20都芃

科學(xué)導(dǎo)報 2023年88期

都芃

對于科研工作者來說，檢索、閱讀文獻是一項費時費力的工作。在大模型發(fā)展如火如荼的今天，以其為代表的人工智能正滲透進人們工作生活的各個角落，科研領(lǐng)域也不例外。

日前，阿里巴巴發(fā)布了基于Transformer架構(gòu)自主研發(fā)的千億參數(shù)級夸克大模型。據(jù)介紹，該大模型可用于科研資料收集、文獻快速閱讀與翻譯、創(chuàng)作潤色等場景。

不僅是阿里巴巴，科大訊飛股份有限公司（以下簡稱科大訊飛）、騰訊等企業(yè)，也都推出了用于輔助科研的大模型產(chǎn)品。這一系列產(chǎn)品的問世，正悄然改變著科研工作者的工作方式。

今年初，ChatGPT的走紅掀起了語言大模型熱潮。人們可以隨心所欲地提出問題，大模型總會給出答案。這股風(fēng)很快也吹到了科研領(lǐng)域。ChatGPT發(fā)布后不久，一款名為txyz.ai的應(yīng)用插件在科研圈中受到追捧。

這是一款借助ChatGPT的強大理解能力，專門用來閱讀科研文獻的插件。用戶可以直接將論文全文上傳至該應(yīng)用，并提出相應(yīng)解讀要求，它便能夠以最快速度對用戶提出的問題予以回答。

即使沒有下載論文全文也沒關(guān)系，txyz.ai支持對論文預(yù)印本網(wǎng)站進行檢索。用戶可以只提供一個論文ID序號，txyz.ai就會自動檢索、學(xué)習(xí)該論文，并根據(jù)用戶需求給出回答。不僅如此，用戶還能以聊天的方式與其進行對話，就論文中的內(nèi)容提出各種問題。

視頻網(wǎng)站嗶哩嗶哩知名科普博主嚴伯鈞是txyz.ai的忠實用戶，他時常在各類科普視頻中使用txyz.ai來協(xié)助解讀論文。在他看來，txyz.ai給出的論文解讀準確率已經(jīng)非常高，具備很強的實際應(yīng)用價值，可以幫助科研工作者更加高效地檢索、閱讀文獻。

“txyz.ai無法解讀的情況當(dāng)然也會有?！眹啦x表示，以他的使用經(jīng)驗來看，向txyz.ai提出的問題必須是一個能被回答的“有效問題”，“如果問題問得太細、太深，或者過于刁鉆古怪，那么它就會直接告訴你，無法回答”。

但必須承認的是，在大模型迅猛發(fā)展并逐漸進入千行百業(yè)的今天，專門針對科研領(lǐng)域的大模型產(chǎn)品仍然不算多，且大多數(shù)是試驗性質(zhì)的產(chǎn)品。

不久前，科大訊飛在發(fā)布最新版本的訊飛星火認知大模型V3.0時，也一口氣發(fā)布了12個面向行業(yè)的專用大模型。其中便有聯(lián)合中國科學(xué)院文獻情報中心共同研發(fā)的、面向科研工作者的科技文獻大模型，以及基于該大模型的應(yīng)用產(chǎn)品——星火科研助手。這也是國內(nèi)為數(shù)不多的專門為科研工作推出的大模型產(chǎn)品。目前，星火科研助手有成果調(diào)研、論文研讀、學(xué)術(shù)寫作三大功能。

浙江大學(xué)第一附屬醫(yī)院圖書館工作人員以“大語言模型”為關(guān)鍵詞對星火科研助手進行了試用。在“成果調(diào)研”板塊，星火科研助手在檢索到的1251314篇文獻中遴選了167篇文章進行分析，給出了關(guān)于大語言模型的概述。其還可以進一步從遴選的167篇文章中勾選最多30篇文章，據(jù)此生成綜述。

星火科研助手的論文研讀功能則采用當(dāng)前大語言模型通用的問答模式，可默認生成論文摘要、方法、結(jié)論等主要信息；用戶也可以就自己關(guān)心的論文內(nèi)容進行提問，科研助手會根據(jù)文章內(nèi)容進行回答。其學(xué)術(shù)寫作功能則主要聚焦科研文章的翻譯與潤色，目前支持中英文互譯，也可以對研究人員撰寫的英文文章進行潤色。

由于技術(shù)原因，大模型有時會出現(xiàn)編造信息、“一本正經(jīng)地胡說八道”的現(xiàn)象。這種現(xiàn)象在業(yè)內(nèi)被稱為AI幻覺。生活中，人們在和大模型聊天時，如果出現(xiàn)了AI幻覺，人們可能會一笑了之；但若AI幻覺出現(xiàn)在追求嚴謹精確的科研領(lǐng)域，后果可能就會很嚴重。

科大訊飛北京研究院執(zhí)行院長、科技文獻大模型研發(fā)負責(zé)人伍大勇表示，研發(fā)科技文獻大模型，核心難點就在于保證其內(nèi)容的可信性和專業(yè)性?！耙环矫?，這要依靠高質(zhì)量的論文數(shù)據(jù)；另一方面，在模型預(yù)訓(xùn)練和監(jiān)督微調(diào)方面也需要下功夫。”伍大勇說。

他介紹，科大訊飛通過與中國科學(xué)院文獻情報中心合作，在合規(guī)的情況下獲取了豐富的科技文獻數(shù)據(jù)，并對數(shù)據(jù)進行了去重、去噪等處理，以提升數(shù)據(jù)質(zhì)量。“星火科研助手采用中國科學(xué)院文獻情報中心提供的論文接口來進行論文檢索。此外，我們還使用了基于論文知識庫的檢索增強和知識增強策略。這些都使大模型生成的結(jié)果有據(jù)可依?！蔽榇笥卤硎?，這些措施從技術(shù)上保證了星火科研助手回答結(jié)果的準確性，也盡量避免了大模型出現(xiàn)AI幻覺。

同時，伍大勇表示，針對科技文獻服務(wù)的各個場景，星火科研助手研發(fā)團隊還邀請專業(yè)團隊，對大模型訓(xùn)練數(shù)據(jù)進行監(jiān)督微調(diào)，以提升星火科研助手在科技文獻服務(wù)上的性能表現(xiàn)?！袄缭诔晒{(diào)研和論文研讀功能上，我們采用大模型結(jié)合知識圖譜和知識庫的策略，以保證產(chǎn)品輸出的內(nèi)容有據(jù)可依。在學(xué)術(shù)寫作上，我們針對學(xué)術(shù)翻譯和學(xué)術(shù)英語潤色專門進行了大模型監(jiān)督微調(diào)，以達到比通用翻譯和校對產(chǎn)品更強的專業(yè)性?！蔽榇笥抡f。

雖然目前尚未有太多人工智能產(chǎn)品被應(yīng)用于科研領(lǐng)域，但已有學(xué)者對人工智能進軍科研提出了反對意見，認為這會讓科研工作者變得懶惰。在嚴伯鈞看來，科研工作者在應(yīng)該“懶惰”的地方“懶惰”，反而可以節(jié)省出更多時間用在更有價值的工作上。

閱讀文獻前首先要進行文獻檢索。為此，科研工作者往往需要搜尋大量文獻，在此基礎(chǔ)上對部分感興趣的文獻進行粗讀，以進一步判斷哪些是自己真正需要的文獻。這是實打?qū)嵉摹绑w力活”。嚴伯鈞認為，在這種情況下，借助人工智能工具幫助科研工作者跳過檢索、粗讀的過程，以更高效的方式直接找到需要的文獻，可大幅提升科研工作者的文獻閱讀效率。

雖然可以借助大模型等工具來檢索閱讀文獻，但嚴伯鈞也不否認讀原文的價值?！霸漠?dāng)然要讀，但并不一定是每篇都要讀。更加精準地定位到需要的文獻后再進行精讀，是更加高效的方式?！?/p>

伍大勇同樣表示，研發(fā)星火科研助手的初衷在于幫助用戶快速了解論文核心內(nèi)容，提高論文研讀效率，讓科研工作者能夠把更多精力花在更為重要的實驗驗證等工作上。“輔助提升科研效率是科技文獻大模型的關(guān)鍵和目標，但科研工作所需要的靈感、思路、邏輯推理、實驗驗證、創(chuàng)新與探索等仍離不開科研工作者發(fā)揮主觀能動性?！?/p>

事實上，除了能夠輔助閱讀文獻，人工智能已經(jīng)在多個科學(xué)研究領(lǐng)域帶來實際成果。例如在預(yù)測蛋白質(zhì)結(jié)構(gòu)方面，人工智能產(chǎn)生的成果已經(jīng)遠超人類過去工作的總和。嚴伯鈞認為，這種需要大量計算、反復(fù)試錯的工作，正是人工智能的強項，人類應(yīng)與其形成合理分工，擁抱新技術(shù)。

談及未來人工智能可能給科研工作帶來的改變，嚴伯鈞認為，目前的文獻閱讀、翻譯潤色等功能，可能只發(fā)揮了人工智能在科研工作領(lǐng)域潛力的1%。在他看來，當(dāng)下科研發(fā)展正呈現(xiàn)出細分化的趨勢，一位學(xué)者往往只深耕于某一科研領(lǐng)域，而人工智能的跨界思維模式未來或能給科研工作帶來一些改變?！盎蛟S人工智能可給科研工作者帶來更多跨領(lǐng)域、交叉學(xué)科的原創(chuàng)性啟發(fā)，激發(fā)科研工作者更多想象力。”

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能輔助科研要從可用走向可信