blog
AI生图
blog
AI生图
首页
•
AI评测平台
•
Stanford HELM
Stanford HELM
3周前更新
49
0
0
收藏
0
斯坦福大语言模型整体评估框架,多场景多指标全面评估。
收录时间:
2026-04-24
打开网站
手机查看
AI评测平台
Stanford HELM
打开网站
斯坦福大语言模型整体评估框架,多场景多指标全面评估。
数据统计
相关导航
Chatbot Arena
基于人类偏好的匿名聊天机器人对战和排行榜,采用 Elo 评分系统。
AIME 2025
2025 美国数学竞赛邀请赛,专门测试大模型的高级数学推理能力。
HumanEval 排行榜
评估代码生成能力的基准测试。
Aider Leaderboard
专注代码编辑能力的 LLM 排行榜,评估模型在实际编程任务中的表现。
SimpleQA
OpenAI 发布的事实性评测基准,4326 道简短问答题,顶级模型得分仅 40%+,挑战性极高。
OpenCompass (司南)
国内领先的开源大模型评测体系。
LiveBench
2025 最新!防污染的动态评测平台,每月更新题库,覆盖数学、编程、推理等 6 大类 960 题。
LiveSWEBench
实时软件工程基准测试,评估 AI 在真实代码库中解决问题的能力。
暂无评论
暂无评论...
标签云
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍