SuperGLUE

3个月前更新 127 0 0

更具挑战性的通用语言理解评估基准。

收录时间：

2026-04-24

打开网站手机查看

SuperGLUE

SuperGLUE

更具挑战性的通用语言理解评估基准。

数据统计

相关导航

Chatbot Arena

基于人类偏好的匿名聊天机器人对战和排行榜，采用 Elo 评分系统。

LiveSWEBench

实时软件工程基准测试，评估 AI 在真实代码库中解决问题的能力。

SEAL Leaderboard

Scale AI 的专家驱动评测平台，专注编程和推理能力排名。

Stanford HELM

斯坦福大语言模型整体评估框架，多场景多指标全面评估。

MMLU 排行榜

大规模多任务语言理解基准测试，衡量多学科问题性能。

Open LLM Leaderboard

Hugging Face 开放大语言模型排行榜，追踪评估领先开源模型。

SimpleQA

OpenAI 发布的事实性评测基准，4326 道简短问答题，顶级模型得分仅 40%+，挑战性极高。

Artificial Analysis

对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。

暂无评论

none

暂无评论...