国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

AI參加高考,為何偏科嚴(yán)重

2024-12-31 00:00:00
文萃報·周二版 2024年28期
關(guān)鍵詞:豆包文綜評測

大模型參加高考,能考多少分?近日,科技創(chuàng)新交流平臺極客公園發(fā)布高考新課標(biāo)Ⅰ卷大模型評測報告,在參試大模型中,GPT-4o以562分的成績排名文科第一。參加評測的8款國產(chǎn)大模型中,字節(jié)跳動旗下的豆包成績是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小應(yīng)”的521分。本次大模型高考評測與河南省考卷完全相同,以上3款國產(chǎn)大模型均超過河南文科一本線521分。GPT-4o的562分在河南文科考生中可排名8811名,相當(dāng)于前2.45%;豆包處于前4.27%,接近頂尖大模型的水平。

文綜評測中,GPT-4o獲237分,優(yōu)于多數(shù)人類考生。國產(chǎn)大模型中,豆包文綜成績最高,得分224.5分,其中歷史達到82.5分,在所有9款大模型中排第一。地理考卷有大量圖片考題,圖像理解能力較強的GPT-4o得到最高分,但僅有68分。

語文、英語評測中,多家大模型在客觀題上拿滿分。但寫作文是弱項。多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區(qū)語文學(xué)科帶頭人夏老師是本次評測的作文閱卷人。她認為,“AI作文有清晰完整的結(jié)構(gòu),有邏輯性,語言通順流暢,但缺乏感情和感染力”。同理,在40分的英語寫作考試中,大模型的最高分只有29分,主要丟分在表達空泛、缺少細節(jié)上。

值得注意的是,大模型高考呈現(xiàn)出嚴(yán)重的偏科現(xiàn)象:數(shù)學(xué)、物理、化學(xué)等數(shù)理學(xué)科全線不及格,總分最高分不到480。而河南理科一本線是511分。最頂尖的大模型無法進入理科考生的前30%。

數(shù)學(xué)評測中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(滿分150分)。大模型能準(zhǔn)確運用求導(dǎo)公式和三角函數(shù)定理,但面對較為復(fù)雜的推導(dǎo)和證明問題就很難得分。物理有一道送分的選擇題,人類考生根據(jù)“時間不會倒流”可以輕易選對答案,大模型則全軍覆沒。

“目前的大語言模型本質(zhì)上是文字接龍,基于海量資料,預(yù)測下一個最可能出現(xiàn)的詞句。通過不斷預(yù)測,生成連貫和完整的文本。應(yīng)對文科考試,大模型的用詞不準(zhǔn)或用了近義詞,不太影響評分。但理科考試考驗推理和計算,比如一道題有五步推理,大模型走偏一步,答案就全錯。而且大模型的訓(xùn)練數(shù)據(jù)中,文科語料要遠遠大于理科語料。”國內(nèi)一位大模型研發(fā)專家告訴記者。

近期,有一些國內(nèi)外大模型在奧數(shù)題評測(非奧數(shù)現(xiàn)場比賽)上拿到不錯的成績。對此,該專家解釋,用大家都訓(xùn)練過的公開數(shù)據(jù)集評測,大模型的準(zhǔn)確率很高;但用比較新的數(shù)據(jù)集去測試,準(zhǔn)確率就大大下降。最新的高考題是哪家大模型都沒有訓(xùn)練過的,考驗的是數(shù)學(xué)推理和計算的泛化能力,這就暴露了大模型的短板。AI是否比人類更適合考試?尚未可定論。

(摘自《科技日報》)

猜你喜歡
豆包文綜評測
小狗豆包
豆包上學(xué)之奇特事件簿
有愛心的小豆包
次時代主機微軟XSX全方位評測(下)
次時代主機微軟XSX全方位評測(上)
攻坡新利器,TOKEN VENTOUS評測
“移步不換形”——2017年文綜全國Ⅰ卷第41題的思考和啟示
Canyon Ultimate CF SLX 8.0 DI2評測
中國自行車(2017年1期)2017-04-16 02:54:06
光輝下的陰影——2016年高考文綜I卷第41題思考
2016年高考文綜全國卷二題商榷
鲁山县| 东台市| 安图县| 赤壁市| 开江县| 海口市| 修水县| 康保县| 遂溪县| 桐乡市| 高雄市| 百色市| 江口县| 彭泽县| 沁阳市| 清丰县| 云梦县| 云龙县| 太谷县| 垦利县| 澄迈县| 湘潭市| 高密市| 宝清县| 永年县| 津南区| 新绛县| 江达县| 信阳市| 景宁| 新宁县| 大宁县| 富平县| 东方市| 乐亭县| 上林县| 宝坻区| 安福县| 洞口县| 班玛县| 铜川市|