宇宙信息 - 伙乘未来宇宙

FlagEval （天秤）大模型评测体系：一款文本分类工具，

FlagEval是一款文本分类工具，可以帮助用户快速准确地对文本进行分类。支持多种分类算法，适

MMBench：一个多模态模型评估平台，用于评估和比较不同的

MMBench是一个多模态模型评估平台，用于评估和比较不同的多模态模型在语言理解、视觉理解和联

CMMLU：一个用于评估中文语言模型的综合性基准，涵盖了多个

CMMLU是一个用于评估中文语言模型的综合性基准，涵盖了多个领域和任务，旨在提供对模型在中文语

MMLU Benchmark：一个用于评估多任务语言理解模型

MMLU Benchmark是一个用于评估多任务语言理解模型性能的基准测试，提供了多个语言理解

SuperCLUE：一个中文通用大模型综合性测评基准，包含1

SuperCLUE是一个中文通用大模型综合性测评基准，包含10项基础能力，涵盖语言理解、对话、

HELM：Holistic Evaluation of La

HELM Holistic Evaluation of Language Models (H

LLMEval-3：一个专业知识能力评测系统，提供相对得分和

LLMEval-3是一个专业知识能力评测系统，提供相对得分和绝对得分排行榜，以及各学科得分排行

C-Eval：一个适用于大语言模型的多层次多学科中文评估套件

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，可以评估模型在不同领域和任务上的

H2O EvalGPT：H2O LLM Eval是一个用于评

H2O LLM Eval是一个用于评估和比较不同语言模型的工具。它基于Elo排名算法，根据模型

扣子Coze：一个AI聊天机器人编辑平台，可帮助用户快速创建

Coze是一个AI聊天机器人编辑平台，可帮助用户快速创建和部署各种类型的聊天机器人，适用于客服

上一页下一页共18页