blog
AI生图
blog
AI生图
首页
•
AI评测平台
•
SEAL Leaderboard
SEAL Leaderboard
3周前更新
43
0
0
收藏
0
Scale AI 的专家驱动评测平台,专注编程和推理能力排名。
收录时间:
2026-04-24
打开网站
手机查看
AI评测平台
SEAL Leaderboard
打开网站
Scale AI 的专家驱动评测平台,专注编程和推理能力排名。
数据统计
相关导航
Arena
基于真实用户对战投票的AI模型排行榜
Aider Leaderboard
专注代码编辑能力的 LLM 排行榜,评估模型在实际编程任务中的表现。
SuperGLUE
更具挑战性的通用语言理解评估基准。
MMLU 排行榜
大规模多任务语言理解基准测试,衡量多学科问题性能。
Stanford HELM
斯坦福大语言模型整体评估框架,多场景多指标全面评估。
Open LLM Leaderboard
Hugging Face 开放大语言模型排行榜,追踪评估领先开源模型。
HumanEval 排行榜
评估代码生成能力的基准测试。
AIME 2025
2025 美国数学竞赛邀请赛,专门测试大模型的高级数学推理能力。
暂无评论
暂无评论...
标签云
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍