blog
blog
首页
•
AI评测平台
•
SuperGLUE
SuperGLUE
2周前更新
30
0
0
收藏
0
更具挑战性的通用语言理解评估基准。
收录时间:
2026-04-24
打开网站
手机查看
AI评测平台
SuperGLUE
打开网站
更具挑战性的通用语言理解评估基准。
数据统计
相关导航
C-Eval
全面的中文基础模型评估套件,专注中文能力评估。
LiveSWEBench
实时软件工程基准测试,评估 AI 在真实代码库中解决问题的能力。
FRAMES
Google 推出的 RAG 系统评测基准,824 道多跳问题,测试检索准确性和推理能力。
Open LLM Leaderboard
Hugging Face 开放大语言模型排行榜,追踪评估领先开源模型。
Arena
基于真实用户对战投票的AI模型排行榜
SEAL Leaderboard
Scale AI 的专家驱动评测平台,专注编程和推理能力排名。
Chatbot Arena
基于人类偏好的匿名聊天机器人对战和排行榜,采用 Elo 评分系统。
SuperCLUE
中文通用大模型综合性测评基准,2025 年 3 月版包含 1509 道原创新题,每 2 个月 100% 替换题库。
暂无评论
暂无评论...
标签云
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍