SuperCLUE

3个月前更新 175 0 0

中文通用大模型综合性测评基准，2025 年 3 月版包含 1509 道原创新题，每 2 个月 100% 替换题库。

收录时间：

2026-04-24

打开网站手机查看

SuperCLUE

SuperCLUE

中文通用大模型综合性测评基准，2025 年 3 月版包含 1509 道原创新题，每 2 个月 100% 替换题库。

数据统计

相关导航

SuperGLUE

更具挑战性的通用语言理解评估基准。

AIME 2025

2025 美国数学竞赛邀请赛，专门测试大模型的高级数学推理能力。

Artificial Analysis

对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。

MLPerf Inference

机器学习推理性能的行业标准基准。

MMLU 排行榜

大规模多任务语言理解基准测试，衡量多学科问题性能。

LiveBench

2025 最新！防污染的动态评测平台，每月更新题库，覆盖数学、编程、推理等 6 大类 960 题。

Open LLM Leaderboard

Hugging Face 开放大语言模型排行榜，追踪评估领先开源模型。

LLM-Stats

每日更新的 AI 模型综合排行榜，对比 LLM/TTS/STT/视频/图像/嵌入模型的性能、价格和上下文窗口。

暂无评论

none

暂无评论...