Chatbot Arena

3个月前更新 145 0 0

基于人类偏好的匿名聊天机器人对战和排行榜，采用 Elo 评分系统。

收录时间：

2026-04-24

打开网站手机查看

Chatbot Arena

Chatbot Arena

基于人类偏好的匿名聊天机器人对战和排行榜，采用 Elo 评分系统。

数据统计

相关导航

MMLU 排行榜

大规模多任务语言理解基准测试，衡量多学科问题性能。

Artificial Analysis

对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。

LLM-Stats

每日更新的 AI 模型综合排行榜，对比 LLM/TTS/STT/视频/图像/嵌入模型的性能、价格和上下文窗口。

SuperGLUE

更具挑战性的通用语言理解评估基准。

LiveSWEBench

实时软件工程基准测试，评估 AI 在真实代码库中解决问题的能力。

C-Eval

全面的中文基础模型评估套件，专注中文能力评估。

Aider Leaderboard

专注代码编辑能力的 LLM 排行榜，评估模型在实际编程任务中的表现。

AlpacaEval

评估指令遵循模型能力的自动化评估排行榜。

暂无评论

none

暂无评论...