伙乘资讯

FlagEval (天秤)大模型评测体系:一款文本分类工具,

FlagEval是一款文本分类工具,可以帮助用户快速准确地对文本进行分类。支持多种分类算法,适
86 2023-12-25

MMBench:一个多模态模型评估平台,用于评估和比较不同的

MMBench是一个多模态模型评估平台,用于评估和比较不同的多模态模型在语言理解、视觉理解和联
144 2023-12-25

CMMLU:一个用于评估中文语言模型的综合性基准,涵盖了多个

CMMLU是一个用于评估中文语言模型的综合性基准,涵盖了多个领域和任务,旨在提供对模型在中文语
157 2023-12-25

MMLU Benchmark:一个用于评估多任务语言理解模型

MMLU Benchmark是一个用于评估多任务语言理解模型性能的基准测试,提供了多个语言理解
255 2023-12-25

SuperCLUE:一个中文通用大模型综合性测评基准,包含1

SuperCLUE是一个中文通用大模型综合性测评基准,包含10项基础能力,涵盖语言理解、对话、
79 2023-12-25

HELM:Holistic Evaluation of La

HELM Holistic Evaluation of Language Models (H
131 2023-12-25

LLMEval-3:一个专业知识能力评测系统,提供相对得分和

LLMEval-3是一个专业知识能力评测系统,提供相对得分和绝对得分排行榜,以及各学科得分排行
79 2023-12-23

C-Eval:一个适用于大语言模型的多层次多学科中文评估套件

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,可以评估模型在不同领域和任务上的
107 2023-12-23

H2O EvalGPT:H2O LLM Eval是一个用于评

H2O LLM Eval是一个用于评估和比较不同语言模型的工具。它基于Elo排名算法,根据模型
86 2023-12-23

扣子Coze:一个AI聊天机器人编辑平台,可帮助用户快速创建

Coze是一个AI聊天机器人编辑平台,可帮助用户快速创建和部署各种类型的聊天机器人,适用于客服
106 2023-12-19
上一页下一页共18页