ptcx

帅气的我简直无法用语言描述！

文章10 网址390 书籍8 软件11 评论0

AIME 2025

2025 美国数学竞赛邀请赛，专门测试大模型的高级数学推理能力。

01540

SuperCLUE

中文通用大模型综合性测评基准，2025 年 3 月版包含 1509 道原创新题，每 2 个月 100% 替换题库。

01770

LiveSWEBench

实时软件工程基准测试，评估 AI 在真实代码库中解决问题的能力。

01480

Open LLM Leaderboard

Hugging Face 开放大语言模型排行榜，追踪评估领先开源模型。

01400

Chatbot Arena

基于人类偏好的匿名聊天机器人对战和排行榜，采用 Elo 评分系统。

01460

MMLU 排行榜

大规模多任务语言理解基准测试，衡量多学科问题性能。

01320

SuperGLUE

更具挑战性的通用语言理解评估基准。

01280

Stanford HELM

斯坦福大语言模型整体评估框架，多场景多指标全面评估。

01620

AlpacaEval

评估指令遵循模型能力的自动化评估排行榜。

01330

MLPerf Inference

机器学习推理性能的行业标准基准。

01370

OpenCompass (司南)

国内领先的开源大模型评测体系。

01330

C-Eval

全面的中文基础模型评估套件，专注中文能力评估。

01300