blog
AI生图
blog
AI生图
AI评测平台
共 22 篇网址
UED团队
常用工具
常用推荐
灵感采集
社区资讯
素材资源
网盘云储
API中转站
AI评测平台
AI提示词
AI设计工具
AI服务商
AI音频工具
AI编程工具
AI学习网站
AI搜索引擎
AI办公工具
常用AI图像工具
AI图像工具
优设导航
排序
发布
更新
浏览
点赞
Aider Leaderboard
专注代码编辑能力的 LLM 排行榜,评估模型在实际编程任务中的表现。
0
96
0
AI评测平台
Arena
基于真实用户对战投票的AI模型排行榜
0
85
0
AI评测平台
SimpleQA
OpenAI 发布的事实性评测基准,4326 道简短问答题,顶级模型得分仅 40%+,挑战性极高。
0
75
0
AI评测平台
LiveBench
2025 最新!防污染的动态评测平台,每月更新题库,覆盖数学、编程、推理等 6 大类 960 题。
0
96
0
AI评测平台
HumanEval 排行榜
评估代码生成能力的基准测试。
0
73
0
AI评测平台
C-Eval
全面的中文基础模型评估套件,专注中文能力评估。
0
72
0
AI评测平台
OpenCompass (司南)
国内领先的开源大模型评测体系。
0
77
0
AI评测平台
MLPerf Inference
机器学习推理性能的行业标准基准。
0
73
0
AI评测平台
AlpacaEval
评估指令遵循模型能力的自动化评估排行榜。
0
76
0
AI评测平台
Stanford HELM
斯坦福大语言模型整体评估框架,多场景多指标全面评估。
0
87
0
AI评测平台
SuperGLUE
更具挑战性的通用语言理解评估基准。
0
73
0
AI评测平台
Chatbot Arena
基于人类偏好的匿名聊天机器人对战和排行榜,采用 Elo 评分系统。
0
77
0
AI评测平台
Open LLM Leaderboard
Hugging Face 开放大语言模型排行榜,追踪评估领先开源模型。
0
81
0
AI评测平台
FRAMES
Google 推出的 RAG 系统评测基准,824 道多跳问题,测试检索准确性和推理能力。
0
86
0
AI评测平台
SEAL Leaderboard
Scale AI 的专家驱动评测平台,专注编程和推理能力排名。
0
81
0
AI评测平台
LLM-Stats
每日更新的 AI 模型综合排行榜,对比 LLM/TTS/STT/视频/图像/嵌入模型的性能、价格和上下文窗口。
0
115
0
AI评测平台
Vellum Leaderboard
显示 2024 年 4 月后最新 SOTA 模型的公开基准性能,包含独立评测数据。
0
79
0
AI评测平台
Artificial Analysis
对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。
0
97
0
AI评测平台
AIME 2025
2025 美国数学竞赛邀请赛,专门测试大模型的高级数学推理能力。
0
90
0
AI评测平台
MMLU 排行榜
大规模多任务语言理解基准测试,衡量多学科问题性能。
0
78
0
AI评测平台
SuperCLUE
中文通用大模型综合性测评基准,2025 年 3 月版包含 1509 道原创新题,每 2 个月 100% 替换题库。
0
101
0
AI评测平台
LiveSWEBench
实时软件工程基准测试,评估 AI 在真实代码库中解决问题的能力。
0
81
0
AI评测平台
没有了
标签云
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍