关闭
您当前的位置:首页 > 伙乘资讯 > 20AI大模型

LLMEval-3:一个专业知识能力评测系统,提供相对得分和绝对得分排行榜,以及各学科得分排行榜。用户可以通过该系统评估不同模型在专业知识能力上的表现

来源:伙乘AI 时间:2023-12-23 作者:伙乘AI 浏览量:

LLMEval-3是一个专业知识能力评测系统,涵盖了13个学科门类、50余个二级学科的约20W道标准生成式问答题目。该系统使用GPT-4 Turbo作为评测基准,提供相对得分和绝对得分排行榜,以及各学科得分排行榜。


LLMEval3有哪些功能?

1. 提供相对得分和绝对得分排行榜:用户可以查看各个模型相对于GPT-4 Turbo的得分情况,以及各个模型的绝对得分。

2. 提供各学科得分排行榜:用户可以查看各个模型在不同学科中的得分情况,了解模型在不同学科领域的表现。


应用场景:

1. 学术研究:研究人员可以使用LLMEval-3评测系统来评估不同模型在专业知识能力上的表现,为学术研究提供参考。

2. 教育培训:教育机构可以使用LLMEval-3评测系统来评估教学内容和教学方法的有效性,提供更好的教育培训服务。


LLMEval-3:http://llmeval.com/index


1703314467821.png

微信扫一扫分享资讯

相关推荐
暂无相关推荐
热门话题
推荐文章