伙乘资讯

MMLU Benchmark:一个用于评估多任务语言理解模型

MMLU Benchmark是一个用于评估多任务语言理解模型性能的基准测试,提供了多个语言理解
203 2023-12-25

SuperCLUE:一个中文通用大模型综合性测评基准,包含1

SuperCLUE是一个中文通用大模型综合性测评基准,包含10项基础能力,涵盖语言理解、对话、
59 2023-12-25

HELM:Holistic Evaluation of La

HELM Holistic Evaluation of Language Models (H
106 2023-12-25

LLMEval-3:一个专业知识能力评测系统,提供相对得分和

LLMEval-3是一个专业知识能力评测系统,提供相对得分和绝对得分排行榜,以及各学科得分排行
62 2023-12-23

C-Eval:一个适用于大语言模型的多层次多学科中文评估套件

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,可以评估模型在不同领域和任务上的
86 2023-12-23

H2O EvalGPT:H2O LLM Eval是一个用于评

H2O LLM Eval是一个用于评估和比较不同语言模型的工具。它基于Elo排名算法,根据模型
69 2023-12-23

扣子Coze:一个AI聊天机器人编辑平台,可帮助用户快速创建

Coze是一个AI聊天机器人编辑平台,可帮助用户快速创建和部署各种类型的聊天机器人,适用于客服
86 2023-12-19

Luca(面壁露卡):基于面壁智能的新一代大语言模型,能与你

Luca(面壁露卡) 基于面壁智能的新一代大语言模型,能与你互动对话,帮你了解世界知识、激发
80 2023-12-18

阿里巴巴M6:阿里云大数据和AI案例体验馆集成了DataWo

阿里巴巴M6 阿里云 - 大数据和AI案例体验馆集成了DataWorks、MaxComput
107 2023-12-16

Mistral AI:一家开源模型开发公司,一款开放且可移植

Mistral AI是一家开源模型开发公司,他们开发的SMoE模型具有高效性和开放性,可以帮助
86 2023-12-16
上一页下一页共17页