欧美顶级少妇作爱_韩国无码人妻制服丝袜在线_韩国vs日本中国vs美国视频_免费人成视频在线播放

網(wǎng)站地圖
關(guān)于我們
企業(yè)簡(jiǎn)介
文化與價(jià)值觀
人才招聘
聯(lián)系我們
科技創(chuàng)新
教育科技
投資者關(guān)系
公司治理
新聞及活動(dòng)
股票信息
財(cái)務(wù)信息
戰(zhàn)略投資
投資策略
投資方向
投資優(yōu)勢(shì)
投資品牌
ESG
ESG戰(zhàn)略
ESG管理
定期報(bào)告
誠聘英才
社會(huì)招聘
校園招聘
GlobalTalent
法律聲明
職業(yè)準(zhǔn)則
廉政合規(guī)

新聞中心

News center

測(cè)評(píng)榜單MathEval發(fā)布,大模型數(shù)學(xué)能力有了“風(fēng)向標(biāo)”

2024-03-05

近日,大模型數(shù)學(xué)能力測(cè)評(píng)基準(zhǔn)MathEval上線(官網(wǎng):https://matheval.ai),并已在官網(wǎng)發(fā)布最新測(cè)評(píng)榜單,學(xué)而思旗下九章大模型奪得冠軍。

ad7f83df1f8261ad047fd560e7e4472b_html_66b721575c260f72.png

圖:MathEval官網(wǎng)測(cè)評(píng)榜單

根據(jù)官網(wǎng)信息,MathEval由智慧教育國家新一代人工智能開放創(chuàng)新平臺(tái)聯(lián)合暨南大學(xué)、北京師范大學(xué)、華東師范大學(xué)、西安交通大學(xué)、香港城市大學(xué)共同發(fā)起,是一個(gè)專注于全面評(píng)估大模型數(shù)學(xué)能力的測(cè)評(píng)基準(zhǔn),共包含19個(gè)數(shù)學(xué)領(lǐng)域測(cè)評(píng)集、近30K道數(shù)學(xué)題目,旨在全面評(píng)估大模型在包含算術(shù),小初高競(jìng)賽和部分高等數(shù)學(xué)分支在內(nèi)的各階段、難度和數(shù)學(xué)子領(lǐng)域的解題能力表現(xiàn)。

目前,涉及數(shù)學(xué)的應(yīng)用領(lǐng)域正在越來越多地使用大模型,包括直接用大模型解決數(shù)學(xué)問題、使用大模型進(jìn)行數(shù)據(jù)分析和學(xué)術(shù)研究、幫助學(xué)習(xí)輔導(dǎo)等。但行業(yè)內(nèi)此前還沒有較為全面、能覆蓋各國主流通用大模型和垂類模型的數(shù)學(xué)能力測(cè)評(píng)榜單。數(shù)學(xué)能力評(píng)測(cè)通常被包含在通用榜單或推理能力、自然科學(xué)能力的排行之中,缺乏一致的標(biāo)準(zhǔn)。因此,MathEval作為專注于大模型數(shù)學(xué)能力的測(cè)評(píng)基準(zhǔn)能夠及時(shí)上線,彌補(bǔ)了行業(yè)空白,對(duì)大模型領(lǐng)域在數(shù)學(xué)能力上的進(jìn)一步探索提升,可以提供非常有價(jià)值的參考。

對(duì)大模型進(jìn)行數(shù)學(xué)能力測(cè)評(píng)有一些公認(rèn)的難點(diǎn):首先,各數(shù)據(jù)集的字段需要進(jìn)行統(tǒng)一,每個(gè)大模型也都有自己的一套Prompt模板和答案形式,要想給“思維方式”不同的大模型進(jìn)行統(tǒng)一的測(cè)試和比較,需要測(cè)評(píng)基準(zhǔn)根據(jù)具體情況,設(shè)計(jì)符合需求的抽取打分規(guī)則,才能從模型輸出的內(nèi)容中批量抽取出可以進(jìn)一步對(duì)比的答案。這對(duì)專業(yè)能力的要求很高,因?yàn)槌槿∫?guī)則的一點(diǎn)點(diǎn)改動(dòng),都會(huì)影響到最終的測(cè)評(píng)結(jié)果。

其次,要讓測(cè)評(píng)榜單的結(jié)果具備足夠的可參考性,就要使用足夠豐富全面的數(shù)據(jù)集,并盡量全面的測(cè)評(píng)市面上的大模型,這對(duì)測(cè)評(píng)方的算力也提出了很高的要求。

據(jù)悉,MathEval截至目前已測(cè)試了30個(gè)大模型(含同一模型的不同版本),且未來會(huì)加入新出現(xiàn)的大模型,不定期更新榜單。在評(píng)測(cè)過程中,MathEval團(tuán)隊(duì)使用了GPT4大模型來進(jìn)行答案抽取和答案的匹配,減少基于規(guī)則進(jìn)行評(píng)測(cè)所帶來的誤差,并根據(jù)每個(gè)模型的Prompt模板進(jìn)行了適配,以激發(fā)每個(gè)模型本身能達(dá)到的最佳效果。

從MathEval已發(fā)布的測(cè)評(píng)榜單來看,學(xué)而思旗下九章大模型在整體表現(xiàn)和中文、英文、各學(xué)段子榜單中,都具備領(lǐng)先優(yōu)勢(shì),作為少有的專注于數(shù)學(xué)解題和講題能力的大模型,九章大模型的這一表現(xiàn)可以說是并不意外。而作為通用大模型的文心一言4.0、訊飛星火V3.5在測(cè)評(píng)中的表現(xiàn)也頗為亮眼,占據(jù)了第二、三位,均優(yōu)于GPT-4??梢哉f,國產(chǎn)大模型在數(shù)學(xué)方面的能力已經(jīng)實(shí)現(xiàn)了趕超,未來還將如何提升及落地在應(yīng)用場(chǎng)景,值得期待。

本文轉(zhuǎn)自:中國網(wǎng) http://szjj.china.com.cn/2024-03/04/content_42712491.html