SimpleQA

4小时前更新 4 0 0

OpenAI 发布的事实性评测基准,4326 道简短问答题,顶级模型得分仅 40%+,挑战性极高。

收录时间:
2026-04-24
SimpleQASimpleQA