PTCX
次级导航
  • blog
  • 收录投稿
    • blog
    • 收录投稿

    AI评测平台

    共 22 篇网址
    UED团队常用工具常用推荐灵感采集社区资讯素材资源网盘云储API中转站AI评测平台AI提示词AI设计工具
    排序
    发布更新浏览点赞
    Aider Leaderboard

    Aider Leaderboard

    专注代码编辑能力的 LLM 排行榜,评估模型在实际编程任务中的表现。
    090
    AI评测平台
    AIME 2025

    AIME 2025

    2025 美国数学竞赛邀请赛,专门测试大模型的高级数学推理能力。
    070
    AI评测平台
    Arena

    Arena

    基于真实用户对战投票的AI模型排行榜
    050
    AI评测平台
    Vellum Leaderboard

    Vellum Leaderboard

    显示 2024 年 4 月后最新 SOTA 模型的公开基准性能,包含独立评测数据。
    050
    AI评测平台
    Open LLM Leaderboard

    Open LLM Leaderboard

    Hugging Face 开放大语言模型排行榜,追踪评估领先开源模型。
    050
    AI评测平台
    Artificial Analysis

    Artificial Analysis

    对比 100+ AI 模型的智能、价格、性能、速度和上下文窗口等关键指标。
    050
    AI评测平台
    MMLU 排行榜

    MMLU 排行榜

    大规模多任务语言理解基准测试,衡量多学科问题性能。
    050
    AI评测平台
    SimpleQA

    SimpleQA

    OpenAI 发布的事实性评测基准,4326 道简短问答题,顶级模型得分仅 40%+,挑战性极高。
    050
    AI评测平台
    FRAMES

    FRAMES

    Google 推出的 RAG 系统评测基准,824 道多跳问题,测试检索准确性和推理能力。
    040
    AI评测平台
    SEAL Leaderboard

    SEAL Leaderboard

    Scale AI 的专家驱动评测平台,专注编程和推理能力排名。
    040
    AI评测平台
    LLM-Stats

    LLM-Stats

    每日更新的 AI 模型综合排行榜,对比 LLM/TTS/STT/视频/图像/嵌入模型的性能、价格和上下文窗口。
    040
    AI评测平台
    OpenCompass (司南)

    OpenCompass (司南)

    国内领先的开源大模型评测体系。
    040
    AI评测平台
    C-Eval

    C-Eval

    全面的中文基础模型评估套件,专注中文能力评估。
    040
    AI评测平台
    Chatbot Arena

    Chatbot Arena

    基于人类偏好的匿名聊天机器人对战和排行榜,采用 Elo 评分系统。
    040
    AI评测平台
    LiveBench

    LiveBench

    2025 最新!防污染的动态评测平台,每月更新题库,覆盖数学、编程、推理等 6 大类 960 题。
    040
    AI评测平台
    Stanford HELM

    Stanford HELM

    斯坦福大语言模型整体评估框架,多场景多指标全面评估。
    030
    AI评测平台
    AlpacaEval

    AlpacaEval

    评估指令遵循模型能力的自动化评估排行榜。
    030
    AI评测平台
    MLPerf Inference

    MLPerf Inference

    机器学习推理性能的行业标准基准。
    030
    AI评测平台
    HumanEval 排行榜

    HumanEval 排行榜

    评估代码生成能力的基准测试。
    030
    AI评测平台
    SuperCLUE

    SuperCLUE

    中文通用大模型综合性测评基准,2025 年 3 月版包含 1509 道原创新题,每 2 个月 100% 替换题库。
    030
    AI评测平台
    SuperGLUE

    SuperGLUE

    更具挑战性的通用语言理解评估基准。
    030
    AI评测平台
    LiveSWEBench

    LiveSWEBench

    实时软件工程基准测试,评估 AI 在真实代码库中解决问题的能力。
    030
    AI评测平台
    没有了

    标签云

    PTCX
    OneNav 一为导航主题,集网址、资源、资讯于一体的 WordPress 导航主题,简约优雅的设计风格,全面的前端用户功能,简单的模块化配置,欢迎您的体验

    友链申请 免责声明 广告合作 关于我们

    扫码加QQ群PTCX
    扫码加QQ群
    扫码加微信PTCX
    扫码加微信
    Copyright © 2026 PTCX 由 OneNav 强力驱动 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章软件书籍