使用IFEval、BBH和MATH等多个基准测试对比开源大语言模型。实时筛选分析模型,结合社区投票与全面结果展示。
由全球最大的AI模型社区Hugging Face推出的Open LLM Leaderboard,是业界公认的开源大模型性能评估权威平台。该榜单基于Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)构建,为开发者和研究者提供客观、透明的模型性能对比。
在开源社区涌现大量大型语言模型(LLM)和聊天机器人的背景下,模型性能宣传往往存在夸大现象。Open LLM Leaderboard通过标准化测试框架,帮助用户:
Open LLM Leaderboard采用四大权威基准测试,全面评估模型能力:
AI2推理挑战(25-shot)
HellaSwag(10-shot)
MMLU(5-shot)
TruthfulQA(0-shot)
Open LLM Leaderboard已成为开发者选择开源大模型、研究人员追踪技术进展的首选参考工具。通过标准化的评估体系,推动开源AI社区向更透明、更可信的方向发展。
月访问量
25.63M
平均访问时长
00:05:53
每次访问页数
5.77
跳出率
44.05%
直接访问
49.07%
自然搜索
35.64%
外链引荐
12.38%
社交媒体
2.75%
邮件
0.03%
展示广告
0.12%
🇺🇸 United States
16.65%
🇨🇳 China
14.36%
🇮🇳 India
8.76%
🇷🇺 Russia
5.25%
🇰🇷 Korea, Republic of
3.61%
关键词
每次点击费用
hugging face
$1.27
huggingface
$1.70
qwen image
$0.00
glm 4.5
$0.00
qwen image edit
$0.00