AI评测平台

共 22 篇网址

Aider Leaderboard

专注代码编辑能力的 LLM 排行榜，评估模型在实际编程任务中的表现。

01590

Arena

基于真实用户对战投票的AI模型排行榜

01500

SimpleQA

OpenAI 发布的事实性评测基准，4326 道简短问答题，顶级模型得分仅 40%+，挑战性极高。

01370

HumanEval 排行榜

评估代码生成能力的基准测试。

01250

LiveBench

2025 最新！防污染的动态评测平台，每月更新题库，覆盖数学、编程、推理等 6 大类 960 题。

01630

C-Eval

全面的中文基础模型评估套件，专注中文能力评估。

01280

OpenCompass (司南)

国内领先的开源大模型评测体系。

01310

MLPerf Inference

机器学习推理性能的行业标准基准。

01340

AlpacaEval

评估指令遵循模型能力的自动化评估排行榜。

01320

Stanford HELM

斯坦福大语言模型整体评估框架，多场景多指标全面评估。

01600

SuperGLUE

更具挑战性的通用语言理解评估基准。

01270

Chatbot Arena

基于人类偏好的匿名聊天机器人对战和排行榜，采用 Elo 评分系统。

01450

Open LLM Leaderboard

Hugging Face 开放大语言模型排行榜，追踪评估领先开源模型。

01380

FRAMES

Google 推出的 RAG 系统评测基准，824 道多跳问题，测试检索准确性和推理能力。

01530

SEAL Leaderboard

Scale AI 的专家驱动评测平台，专注编程和推理能力排名。

01440

LLM-Stats

每日更新的 AI 模型综合排行榜，对比 LLM/TTS/STT/视频/图像/嵌入模型的性能、价格和上下文窗口。

01920

Vellum Leaderboard

显示 2024 年 4 月后最新 SOTA 模型的公开基准性能，包含独立评测数据。

01500

Artificial Analysis

对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。

01800

AIME 2025

2025 美国数学竞赛邀请赛，专门测试大模型的高级数学推理能力。

01520

MMLU 排行榜

大规模多任务语言理解基准测试，衡量多学科问题性能。

01310

SuperCLUE

中文通用大模型综合性测评基准，2025 年 3 月版包含 1509 道原创新题，每 2 个月 100% 替换题库。

01750

LiveSWEBench

实时软件工程基准测试，评估 AI 在真实代码库中解决问题的能力。

01470