SEAL Leaderboard

3个月前更新 144 0 0

Scale AI 的专家驱动评测平台，专注编程和推理能力排名。

收录时间：

2026-04-24

打开网站手机查看

SEAL Leaderboard

SEAL Leaderboard

Scale AI 的专家驱动评测平台，专注编程和推理能力排名。

数据统计

相关导航

Chatbot Arena

基于人类偏好的匿名聊天机器人对战和排行榜，采用 Elo 评分系统。

Artificial Analysis

对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。

Vellum Leaderboard

显示 2024 年 4 月后最新 SOTA 模型的公开基准性能，包含独立评测数据。

AIME 2025

2025 美国数学竞赛邀请赛，专门测试大模型的高级数学推理能力。

LLM-Stats

每日更新的 AI 模型综合排行榜，对比 LLM/TTS/STT/视频/图像/嵌入模型的性能、价格和上下文窗口。

LiveBench

2025 最新！防污染的动态评测平台，每月更新题库，覆盖数学、编程、推理等 6 大类 960 题。

Stanford HELM

斯坦福大语言模型整体评估框架，多场景多指标全面评估。

SimpleQA

OpenAI 发布的事实性评测基准，4326 道简短问答题，顶级模型得分仅 40%+，挑战性极高。

暂无评论

none

暂无评论...