Codex Autoresearch
自主目标驱动的迭代实验框架,Codex 自动修改代码、验证结果、保留或回退并反复迭代,适合任何可机械验证的优化任务。
评测任务
自主目标驱动的迭代实验框架。你告诉 Codex 想改善什么,它自动扫描项目、提出指标和验证方案,确认后开始循环:修改一处 → 提交 → 运行验证 → 改善了就保留,变差了就回退 → 记录结果 → 重复。
模型适配
纯文本模型即可。代码修改能力取决于模型的编程水平,但迭代框架本身不依赖特定模型能力。
主要边界
- 只支持 Codex,不支持 Claude Code。
- 需要可机械验证的指标(如测试覆盖率、类型错误数、lint 警告数等)。
- 建议以 Full Access 模式启动 Codex。
- 后台运行需要可信任的会话,不要在后台和前台同时运行。
- 默认偏好小步验证;大规模改动需要在提示词中明确描述。
适用场景
- 自动化代码优化:提升测试覆盖率、消除类型错误、降低延迟
- 大规模重构:逐步修改、每步验证、失败自动回退
- 安全审计:STRIDE + OWASP 全面检查,每个发现带代码证据
- 发布前检查:验证准备状态、生成检查清单
不适用
- 开放式科研探索(方向不确定时)——建议先用 plan 模式探索
- 无法机械验证的主观任务(如“让代码更优雅”)
- 非 Codex 环境(只支持 Codex)
安装方式
**Codex 一键安装** $skill-installer install https://github.com/leo-lilinxiao/codex-autoresearch **启动方式** 建议以 Full Access 模式启动 Codex: codex --dangerously-bypass-approvals-and-sandbox **使用** 安装后在对话中输入: $codex-autoresearch I want to get rid of all the `any` types in my TypeScript code Codex 会扫描项目、提出指标和验证方案,确认后选择前台或后台运行。 **验证安装** 安装后输入 $codex-autoresearch,观察是否被识别并显示可用模式。
输出样例
- 提示词:$codex-autoresearch Improve my test coverage → 输出:扫描项目文件结构,提出覆盖率指标和验证命令,跳转到循环模式:修改 → 提交 → 验证 → 保留/回退 → 重复。
- 提示词:$codex-autoresearch Why is the API returning 503? → 输出:转入 debug 模式,提出可证伪的假设并逐个检验,直到找到根因。
- 边界案例:连续失败时的升级策略:3 次失败 → REFINE(5 次 → PIVOT(2 次 PIVOT 无进展 → Web search(3 次 PIVOT → 停止并报告需要人工干预。