blog
AI生图
blog
AI生图
首页
•
AI评测平台
•
C-Eval
C-Eval
2个月前更新
70
0
0
收藏
0
全面的中文基础模型评估套件,专注中文能力评估。
收录时间:
2026-04-24
打开网站
手机查看
AI评测平台
C-Eval
打开网站
全面的中文基础模型评估套件,专注中文能力评估。
数据统计
相关导航
Chatbot Arena
基于人类偏好的匿名聊天机器人对战和排行榜,采用 Elo 评分系统。
FRAMES
Google 推出的 RAG 系统评测基准,824 道多跳问题,测试检索准确性和推理能力。
AIME 2025
2025 美国数学竞赛邀请赛,专门测试大模型的高级数学推理能力。
OpenCompass (司南)
国内领先的开源大模型评测体系。
HumanEval 排行榜
评估代码生成能力的基准测试。
AlpacaEval
评估指令遵循模型能力的自动化评估排行榜。
Arena
基于真实用户对战投票的AI模型排行榜
Aider Leaderboard
专注代码编辑能力的 LLM 排行榜,评估模型在实际编程任务中的表现。
暂无评论
暂无评论...
标签云
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍