工具导航

CMMLU

CMMLU：衡量中文大规模多任务语言理解能力 - haonan-li/CMMLU

CMMLU：全面测评中文语言模型的多任务理解能力

CMMLU（Chinese Massive Multitask Language Understanding）是一个专为中文语境设计的综合性评估基准，旨在全面衡量语言模型在中文知识和推理能力方面的表现。

核心特点

广泛覆盖67个学科领域：从基础学科到高级专业水平，涵盖自然科学、人文科学、社会科学等多个维度
中国特色评估体系：包含中国驾驶规则等本土化生活常识，以及许多具有中国特定答案的任务
多维度能力测评：
- 自然科学：侧重计算和推理能力
- 人文社科：强调知识储备和理解深度
- 生活常识：检验实际应用能力

独特优势

CMMLU是目前最全面的中文语言理解测评基准，其中国特色的设计使其成为评估本土化语言模型的黄金标准。相比其他基准，CMMLU更能准确反映模型在中文环境下的真实表现。

应用场景

语言模型研发与优化
AI系统中文能力评估
教育科技产品开发
本土化智能应用测试

作为完全中国化的测试基准，CMMLU为研究人员和开发者提供了可靠的中文语言模型评估工具，助力提升AI在中文场景下的理解和应用能力。

发布信息

站点github.com

发布时间2025-06-16

分类

最新流量情况

月访问量

542.61M

平均访问时长

00:06:22

每次访问页数

6.10

跳出率

36.08%

流量来源

直接访问

58.50%

自然搜索

29.08%

外链引荐

10.54%

社交媒体

1.47%

邮件

0.05%

展示广告

0.36%

地理位置

🇺🇸 United States

19.17%

🇨🇳 China

12.64%

🇮🇳 India

9.57%

🇷🇺 Russia

5.59%

🇩🇪 Germany

4.20%

热门关键词

关键词

每次点击费用

github

$0.88

zapret

$0.00

iptv github

$0.48

facebook

$1.43

clawdbot

$0.00