AlpacaEval

3个月前更新 132 0 0

评估指令遵循模型能力的自动化评估排行榜。

收录时间：

2026-04-24

打开网站手机查看

AlpacaEval

AlpacaEval

评估指令遵循模型能力的自动化评估排行榜。

数据统计

相关导航

Vellum Leaderboard

显示 2024 年 4 月后最新 SOTA 模型的公开基准性能，包含独立评测数据。

HumanEval 排行榜

评估代码生成能力的基准测试。

FRAMES

Google 推出的 RAG 系统评测基准，824 道多跳问题，测试检索准确性和推理能力。

Open LLM Leaderboard

Hugging Face 开放大语言模型排行榜，追踪评估领先开源模型。

MMLU 排行榜

大规模多任务语言理解基准测试，衡量多学科问题性能。

Aider Leaderboard

专注代码编辑能力的 LLM 排行榜，评估模型在实际编程任务中的表现。

MLPerf Inference

机器学习推理性能的行业标准基准。

Artificial Analysis

对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。

暂无评论

none

暂无评论...