PASS Codex

Codex Autoresearch

自主目标驱动的迭代实验框架，Codex 自动修改代码、验证结果、保留或回退并反复迭代，适合任何可机械验证的优化任务。

评测任务

自主目标驱动的迭代实验框架。你告诉 Codex 想改善什么，它自动扫描项目、提出指标和验证方案，确认后开始循环：修改一处 → 提交 → 运行验证 → 改善了就保留，变差了就回退 → 记录结果 → 重复。

模型适配

纯文本模型即可。代码修改能力取决于模型的编程水平，但迭代框架本身不依赖特定模型能力。

主要边界

只支持 Codex，不支持 Claude Code。
需要可机械验证的指标（如测试覆盖率、类型错误数、lint 警告数等）。
建议以 Full Access 模式启动 Codex。
后台运行需要可信任的会话，不要在后台和前台同时运行。
默认偏好小步验证；大规模改动需要在提示词中明确描述。

适用场景

自动化代码优化：提升测试覆盖率、消除类型错误、降低延迟
大规模重构：逐步修改、每步验证、失败自动回退
安全审计：STRIDE + OWASP 全面检查，每个发现带代码证据
发布前检查：验证准备状态、生成检查清单

不适用

开放式科研探索（方向不确定时）——建议先用 plan 模式探索
无法机械验证的主观任务（如“让代码更优雅”）
非 Codex 环境（只支持 Codex）

安装方式

**Codex 一键安装** $skill-installer install https://github.com/leo-lilinxiao/codex-autoresearch **启动方式** 建议以 Full Access 模式启动 Codex： codex --dangerously-bypass-approvals-and-sandbox **使用** 安装后在对话中输入： $codex-autoresearch I want to get rid of all the `any` types in my TypeScript code Codex 会扫描项目、提出指标和验证方案，确认后选择前台或后台运行。 **验证安装** 安装后输入 $codex-autoresearch，观察是否被识别并显示可用模式。

查看完整安装文档 →

输出样例

提示词：$codex-autoresearch Improve my test coverage → 输出：扫描项目文件结构，提出覆盖率指标和验证命令，跳转到循环模式：修改 → 提交 → 验证 → 保留/回退 → 重复。
提示词：$codex-autoresearch Why is the API returning 503? → 输出：转入 debug 模式，提出可证伪的假设并逐个检验，直到找到根因。
边界案例：连续失败时的升级策略：3 次失败 → REFINE（5 次 → PIVOT（2 次 PIVOT 无进展 → Web search（3 次 PIVOT → 停止并报告需要人工干预。