次级导航
blog
收录投稿
blog
收录投稿
首页
•
AI评测平台
•
Chatbot Arena
Chatbot Arena
4小时前更新
3
0
0
收藏
0
基于人类偏好的匿名聊天机器人对战和排行榜,采用 Elo 评分系统。
收录时间:
2026-04-24
打开网站
手机查看
AI评测平台
Chatbot Arena
打开网站
基于人类偏好的匿名聊天机器人对战和排行榜,采用 Elo 评分系统。
数据统计
相关导航
HumanEval 排行榜
评估代码生成能力的基准测试。
Vellum Leaderboard
显示 2024 年 4 月后最新 SOTA 模型的公开基准性能,包含独立评测数据。
SEAL Leaderboard
Scale AI 的专家驱动评测平台,专注编程和推理能力排名。
OpenCompass (司南)
国内领先的开源大模型评测体系。
FRAMES
Google 推出的 RAG 系统评测基准,824 道多跳问题,测试检索准确性和推理能力。
MLPerf Inference
机器学习推理性能的行业标准基准。
Open LLM Leaderboard
Hugging Face 开放大语言模型排行榜,追踪评估领先开源模型。
LiveSWEBench
实时软件工程基准测试,评估 AI 在真实代码库中解决问题的能力。
暂无评论
暂无评论...
标签云
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍