測(cè)評(píng)榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

2024-03-05

近日，大模型數(shù)學(xué)能力測(cè)評(píng)基準(zhǔn)MathEval上線（官網(wǎng)：https://matheval.ai)，并已在官網(wǎng)發(fā)布最新測(cè)評(píng)榜單，學(xué)而思旗下九章大模型奪得冠軍。

ad7f83df1f8261ad047fd560e7e4472b_html_66b721575c260f72.png

圖：MathEval官網(wǎng)測(cè)評(píng)榜單

根據(jù)官網(wǎng)信息，MathEval由智慧教育國家新一代人工智能開放創(chuàng)新平臺(tái)聯(lián)合暨南大學(xué)、北京師范大學(xué)、華東師范大學(xué)、西安交通大學(xué)、香港城市大學(xué)共同發(fā)起，是一個(gè)專注于全面評(píng)估大模型數(shù)學(xué)能力的測(cè)評(píng)基準(zhǔn)，共包含19個(gè)數(shù)學(xué)領(lǐng)域測(cè)評(píng)集、近30K道數(shù)學(xué)題目，旨在全面評(píng)估大模型在包含算術(shù)，小初高競(jìng)賽和部分高等數(shù)學(xué)分支在內(nèi)的各階段、難度和數(shù)學(xué)子領(lǐng)域的解題能力表現(xiàn)。

目前，涉及數(shù)學(xué)的應(yīng)用領(lǐng)域正在越來越多地使用大模型，包括直接用大模型解決數(shù)學(xué)問題、使用大模型進(jìn)行數(shù)據(jù)分析和學(xué)術(shù)研究、幫助學(xué)習(xí)輔導(dǎo)等。但行業(yè)內(nèi)此前還沒有較為全面、能覆蓋各國主流通用大模型和垂類模型的數(shù)學(xué)能力測(cè)評(píng)榜單。數(shù)學(xué)能力評(píng)測(cè)通常被包含在通用榜單或推理能力、自然科學(xué)能力的排行之中，缺乏一致的標(biāo)準(zhǔn)。因此，MathEval作為專注于大模型數(shù)學(xué)能力的測(cè)評(píng)基準(zhǔn)能夠及時(shí)上線，彌補(bǔ)了行業(yè)空白，對(duì)大模型領(lǐng)域在數(shù)學(xué)能力上的進(jìn)一步探索提升，可以提供非常有價(jià)值的參考。

對(duì)大模型進(jìn)行數(shù)學(xué)能力測(cè)評(píng)有一些公認(rèn)的難點(diǎn)：首先，各數(shù)據(jù)集的字段需要進(jìn)行統(tǒng)一，每個(gè)大模型也都有自己的一套Prompt模板和答案形式，要想給“思維方式”不同的大模型進(jìn)行統(tǒng)一的測(cè)試和比較，需要測(cè)評(píng)基準(zhǔn)根據(jù)具體情況，設(shè)計(jì)符合需求的抽取打分規(guī)則，才能從模型輸出的內(nèi)容中批量抽取出可以進(jìn)一步對(duì)比的答案。這對(duì)專業(yè)能力的要求很高，因?yàn)槌槿∫?guī)則的一點(diǎn)點(diǎn)改動(dòng)，都會(huì)影響到最終的測(cè)評(píng)結(jié)果。

其次，要讓測(cè)評(píng)榜單的結(jié)果具備足夠的可參考性，就要使用足夠豐富全面的數(shù)據(jù)集，并盡量全面的測(cè)評(píng)市面上的大模型，這對(duì)測(cè)評(píng)方的算力也提出了很高的要求。

據(jù)悉，MathEval截至目前已測(cè)試了30個(gè)大模型（含同一模型的不同版本），且未來會(huì)加入新出現(xiàn)的大模型，不定期更新榜單。在評(píng)測(cè)過程中，MathEval團(tuán)隊(duì)使用了GPT4大模型來進(jìn)行答案抽取和答案的匹配，減少基于規(guī)則進(jìn)行評(píng)測(cè)所帶來的誤差，并根據(jù)每個(gè)模型的Prompt模板進(jìn)行了適配，以激發(fā)每個(gè)模型本身能達(dá)到的最佳效果。

從MathEval已發(fā)布的測(cè)評(píng)榜單來看，學(xué)而思旗下九章大模型在整體表現(xiàn)和中文、英文、各學(xué)段子榜單中，都具備領(lǐng)先優(yōu)勢(shì)，作為少有的專注于數(shù)學(xué)解題和講題能力的大模型，九章大模型的這一表現(xiàn)可以說是并不意外。而作為通用大模型的文心一言4.0、訊飛星火V3.5在測(cè)評(píng)中的表現(xiàn)也頗為亮眼，占據(jù)了第二、三位，均優(yōu)于GPT-4?？梢哉f，國產(chǎn)大模型在數(shù)學(xué)方面的能力已經(jīng)實(shí)現(xiàn)了趕超，未來還將如何提升及落地在應(yīng)用場(chǎng)景，值得期待。

本文轉(zhuǎn)自：中國網(wǎng) http://szjj.china.com.cn/2024-03/04/content_42712491.html

上一篇：出國了，亮相了，獲獎(jiǎng)了！——學(xué)而思在CES2025

下一篇：學(xué)而思聯(lián)合谷歌等發(fā)起全球大模型數(shù)學(xué)解題競(jìng)賽，120支隊(duì)伍同場(chǎng)競(jìng)技

欧美顶级少妇作爱_韩国无码人妻制服丝袜在线_韩国vs日本中国vs美国视频_免费人成视频在线播放

新聞中心

News center

測(cè)評(píng)榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

欧美顶级少妇作爱_韩国无码人妻制服丝袜在线_韩国vs日本中国vs美国视频_免费人成视频在线播放

新聞中心

News center

測(cè)評(píng)榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

測(cè)評(píng)榜單MathEval發(fā)布，大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”