PExam ModelBench Admin
管理员测评控制台
输入管理员密码后,可通过中转站拉取模型、运行评测、导出 PDF/CSV/Markdown。
检查中...
未拉取模型列表
共 0 个
自动模型列表
勾选后会覆盖手动模型输入输入 API Key 后点击“从中转站拉取模型列表”
测试套件
实时进度
进度 0/0等待开始测试...
排行榜
| 排名 | 模型 | 平均分 | 通过率 | 平均延迟 | 延迟σ | tok/s | 分类分 |
|---|---|---|---|---|---|---|---|
| 暂无结果 | |||||||
测试参数
建议重复 2~3 次更稳分类汇总
模型对比
真·雷达图
分项图表
暂无图表
失败/异常摘要
结果明细
历史报告
设计依据
- 参考 MMLU-Pro、GPQA、Humanity's Last Exam、SWE-Bench、LiveCodeBench、GAIA 等评测方向,但本站默认使用轻量自定义题,避免版权和泄题问题。
- 真假检测不是“问模型你是谁”这么简单,而是看它是否诚实承认无法读取真实底层模型、是否符合 endpoint 能力、是否出现明显模型冒名。
- 分数只是快速筛查,最终要看原始输出证据。