AIME 2025

3个月前更新 152 0 0

2025 美国数学竞赛邀请赛，专门测试大模型的高级数学推理能力。

收录时间：

2026-04-24

打开网站手机查看

AIME 2025

AIME 2025

2025 美国数学竞赛邀请赛，专门测试大模型的高级数学推理能力。

数据统计

相关导航

Chatbot Arena

基于人类偏好的匿名聊天机器人对战和排行榜，采用 Elo 评分系统。

SEAL Leaderboard

Scale AI 的专家驱动评测平台，专注编程和推理能力排名。

Open LLM Leaderboard

Hugging Face 开放大语言模型排行榜，追踪评估领先开源模型。

Aider Leaderboard

专注代码编辑能力的 LLM 排行榜，评估模型在实际编程任务中的表现。

LiveBench

2025 最新！防污染的动态评测平台，每月更新题库，覆盖数学、编程、推理等 6 大类 960 题。

Stanford HELM

斯坦福大语言模型整体评估框架，多场景多指标全面评估。

SuperGLUE

更具挑战性的通用语言理解评估基准。

Artificial Analysis

对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。

暂无评论

none

暂无评论...