使用IFEval、BBH和MATH等多个基准测试对比开源大语言模型。实时筛选分析模型,结合社区投票与全面结果展示。
由全球最大的AI模型社区Hugging Face推出的Open LLM Leaderboard,是业界公认的开源大模型性能评估权威平台。该榜单基于Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)构建,为开发者和研究者提供客观、透明的模型性能对比。
在开源社区涌现大量大型语言模型(LLM)和聊天机器人的背景下,模型性能宣传往往存在夸大现象。Open LLM Leaderboard通过标准化测试框架,帮助用户:
Open LLM Leaderboard采用四大权威基准测试,全面评估模型能力:
AI2推理挑战(25-shot)
HellaSwag(10-shot)
MMLU(5-shot)
TruthfulQA(0-shot)
Open LLM Leaderboard已成为开发者选择开源大模型、研究人员追踪技术进展的首选参考工具。通过标准化的评估体系,推动开源AI社区向更透明、更可信的方向发展。
月访问量
23.86M
平均访问时长
00:05:46
每次访问页数
5.65
跳出率
44.08%
直接访问
48.37%
自然搜索
35.76%
外链引荐
12.72%
社交媒体
3.04%
邮件
0.04%
展示广告
0.07%
🇺🇸 United States
17.71%
🇨🇳 China
14.12%
🇮🇳 India
8.65%
🇷🇺 Russia
5.37%
🇩🇪 Germany
3.49%
关键词
每次点击费用
hugging face
$1.49
huggingface
$1.93
hug face
$0.85
deepsite
$1.46
hugginface
$2.26