AGI-Eval评测社区 - 大模型权威评测平台

AGI-Eval是什么

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等顶尖高校和机构联合打造的大模型评测社区，致力于构建公正、可信、科学、全面的AI评测生态系统。作为国内领先的大模型评估平台，AGI-Eval以"评测助力，让AI成为人类更好的伙伴"为使命，专注于评估基础模型在人类认知和问题解决任务中的通用能力。

AGI-Eval评测平台

AGI-Eval的核心功能

大模型权威榜单

提供基于通用评测方案的大语言模型能力排名
涵盖综合评测及各专项能力评估
数据透明、权威可靠，定期更新
帮助用户全面了解各模型优缺点，选择最佳解决方案

人机协同评测比赛

创新性人机协作评测模式
推动大模型技术发展
构建更科学的评估体系

专业评测数据集

公开学术数据集：行业标准评测集，开放下载
官方评测集：覆盖多领域的权威评估数据
用户共建数据集：支持上传个人评测集，共建开源社区
高校私有数据集：提供专业数据托管服务

Data Studio数据平台

活跃用户社区：30,000+众包用户，确保数据质量
多维数据资源：覆盖多领域、多场景的专业数据
多样化采集：支持单条数据、扩写数据、Arena数据等多种形式
严格审核机制：机审+人审双重保障

官方访问

官网地址：agi-eval.cn

应用场景

模型性能评估

提供完整数据集、基线系统和评估方法
权威衡量AI模型综合能力

多语言能力测试

整合中英文双语评估任务
全面测试模型语言理解与生成能力

NLP算法开发

测试优化文本生成模型效果
提升生成文本质量

科研实验平台

评估新方法性能
推动NLP领域研究进步

AGI-Eval作为大模型评估的标杆平台，将持续为AI社区提供专业、可靠的评测服务，助力人工智能技术健康发展。

AGI-Eval