logo工具导航

C-Eval

C-Eval:专业中文大语言模型评估套件 | 权威多学科评测基准

核心价值

C-Eval是由上海交通大学、清华大学和爱丁堡大学联合研发的中文大语言模型权威评估体系,作为目前最全面的中文评测基准,其具备三大核心优势:

  1. 最全面的学科覆盖 - 52个专业学科领域
  2. 最精细的难度分级 - 4个科学划分的难度层级
  3. 最大规模题库 - 13,948道专业选择题

技术亮点

  • 多层次评估框架:从基础语言理解到专业领域知识的多维度测评
  • 标准化测试集:所有题目均经过三校专家严格校验
  • 动态更新机制:持续扩充题库保持评测前沿性

应用场景

C-Eval已成为国内外AI实验室的标准中文评测工具,适用于:

  • 大语言模型研发阶段的性能基准测试
  • 模型优化过程中的能力短板诊断
  • 学术论文中的中文理解能力证明
  • 商业场景下的模型选型评估

权威背书

2023年5月正式发布后,C-Eval已获得包括MIT、Stanford等顶尖机构的采用,其科学性和权威性得到学界广泛认可。

eval_benchmark

提示:访问C-Eval官网获取最新评测数据和参与排名

发布信息

站点cevalbenchmark.com
发布时间2025-06-16

最新流量情况

月访问量

1.02K

平均访问时长

00:04:42

每次访问页数

3.16

跳出率

38.95%

流量来源

直接访问

48.71%

自然搜索

33.94%

外链引荐

6.54%

社交媒体

9.83%

邮件

0.06%

展示广告

0.85%

地理位置

🇺🇸 United States

100.00%

热门关键词

关键词

每次点击费用

c eval

$0.00

yayi ultra

$0.00

c-eval数据集

$0.00

c-eval

$0.00

大语言模型测试指标 c-eval

$0.00