PExam ModelBench Admin

管理员测评控制台

输入管理员密码后，可通过中转站拉取模型、运行评测、导出 PDF/CSV/Markdown。

检查中...

中转站 Base URL 管理员密码 API Key（只随本次请求发送，不写入前端代码）手动模型列表（一行一个；若下方自动模型被勾选，则优先用勾选项）

未拉取模型列表流式显示进度

自动模型搜索

共 0 个

自动模型列表

勾选后会覆盖手动模型输入

输入 API Key 后点击“从中转站拉取模型列表”

进度 0/0

等待开始测试...

排名	模型	平均分	通过率	平均延迟	延迟σ	tok/s	分类分
暂无结果

建议重复 2~3 次更稳

每个模型/套件重复次数 2 次

暂无图表

参考 MMLU-Pro、GPQA、Humanity's Last Exam、SWE-Bench、LiveCodeBench、GAIA 等评测方向，但本站默认使用轻量自定义题，避免版权和泄题问题。
真假检测不是“问模型你是谁”这么简单，而是看它是否诚实承认无法读取真实底层模型、是否符合 endpoint 能力、是否出现明显模型冒名。
分数只是快速筛查，最终要看原始输出证据。