FlowKit 是一套为 AI 编程助手设计的结构化任务编排工具集。本文是系列教程的第一篇,从设计动机出发,讲清楚”为什么要造这个轮子”以及整体架构。
GitHub: FrizzleFur/flowkit
目录
为什么造这个轮子
使用 Claude Code、Cursor 这类 AI 编程助手时,我发现了一个反复出现的模式:
1 | 用户: "帮我重构这个模块" |
Agent 能力很强但缺乏纪律性。它们会跳过验证、忽略边界情况、用模糊措辞宣布完成。
FlowKit 的核心思路:把软件工程的严谨性注入 AI Agent 工作流。不是限制能力,而是让强大的能力按工程规范运行。
Pipeline 架构总览
FlowKit 的核心是一个 5 阶段管道,每个阶段解决一个特定的工程问题:
1 | Input ──▶ Stage 1 ──▶ Stage 2 ──▶ Stage 3 ──▶ Stage 4 ──▶ Stage 5 |
每个 Stage 可以通过参数按需启用或跳过(/flow),也可以全部强制开启(/flow-deep):
1 | /flow --quick 给这个函数加缓存 |
四条铁律 Iron Laws
四条不可协商的执行规则。每条配备了合理化辩解对照表(Rationalization Table),防止 LLM 自我辩解跳过:
IL-1: 无失败测试不写生产代码
1 | Agent 找借口: "太简单了不需要测试" |
TDD 不是目的,是纪律。先写测试迫使 Agent 在写代码前想清楚接口和边界。
IL-2: 无新鲜证据不宣布完成
1 | Agent 找借口: "应该可以了" |
“should work” 是 Agent 最危险的输出。铁律要求:必须运行验证命令,必须展示实际输出。
IL-3: 无根因确认不改代码
1 | Agent 找借口: "让我试试这个改动" |
调试时最常见的错误是”看到现象就改代码”。铁律要求先确认根因,再针对性修复。
IL-4: 审查只读永不修改
1 | Agent 找借口: "顺手改一下这个 typo" |
代码审查 Agent 只读不写。审查和修改是不同角色,混合会导致审查质量下降。
为什么需要 Rationalization Table?
因为 LLM 极其擅长自我辩解。当它想跳过某个步骤时,会生成看似合理的理由。对照表预先定义了每个借口的标准反驳,系统在 Agent 试图跳过时自动拦截。
四个 Skill 模块
FlowKit 包含四个独立但互补的 Skill 模块:
依赖关系
1 | /prompt (独立) /multi-agent (独立) |
阅读顺序:Part 2 (Prompt) → Part 3 (Multi-Agent) → Part 4 (Flow) → Part 5 (Flow-Deep)
模块概览
| 模块 | 定位 | 一句话 |
|---|---|---|
/prompt |
Prompt 量化评分 | 基于乔哈里视窗 + 3S 原则,自动评分和优化 |
/multi-agent |
多 Agent 协作 | tmux 分屏并行,文件隔离,Phase 间复用 |
/flow |
轻量编排引擎 | 按需启用,通过参数控制管道阶段 |
/flow-deep |
全量深度引擎 | 强制全开,所有质量关卡不可跳过 |
Flow vs Flow-Deep 对比
| 维度 | /flow |
/flow-deep |
|---|---|---|
| 前置检查 | 无 | 强制 |
| 深度思考 | 可选 (--think) |
强制(ST + Mermaid + 三角色) |
| Plan Mode | 默认开,可关闭 | 不可关闭 |
| Plan Review | 可选 | 强制 |
| 多角色面板 | 无 | 默认 3-5 角色 |
| TDD 注入 | 可选 | 自动注入 |
| 完成验证 | 可跳过 | 不可跳过 |
| Ralph Loop | 手动触发 | 迭代用完自动触发 |
与社区方案对比
| 特性 | FlowKit | GSD | Superpowers | GStack |
|---|---|---|---|---|
| 结构化管道 | 5 阶段 + 子阶段 | Phase 模式 | 按需组合 | Checklist |
| Plan Mode | 只读沙箱(系统级强制) | 无 | 无 | 无 |
| Plan Review | 独立 Agent(消除偏差) | 无 | 无 | 无 |
| 多角色评审 | 3-5 角色 + Auto-Decide | 无 | 无 | 无 |
| 跨会话恢复 | STATE.md | 无 | 无 | 无 |
| Prompt 评分 | 乔哈里视窗 + 3S | 无 | 无 | 无 |
原创贡献(社区框架中均未出现)
- STATE.md 崩溃恢复 — 跨会话断点续传,长任务中断后精确恢复
- Auto-Decide Layer — 6 原则自动决策,80% 评审发现项自动处理
- Ralph Loop 集成 — Stop Hook + auto-iterate 双层迭代引擎
- 乔哈里视窗 Prompt 评分 — 从认知科学角度量化 Prompt 质量
设计哲学
FlowKit 吸收了三个社区框架的优点,但不是简单照搬:
| 来源 | 管什么 | 我们吸收了什么 |
|---|---|---|
| GStack | 决策流程 | Auto-Decide Layer (6 原则 + Taste Decision) |
| Superpowers | 执行纪律 | Iron Laws + Rationalization Table |
| GSD | 上下文质量 | STATE.md 跨会话恢复 |
核心原则:工具应该让好工程师变得更好,而不是让差工程师变好。 FlowKit 不替代思考,它强制思考发生。
系列导航
FlowKit 系列教程
| # | 文章 | 内容 |
|---|---|---|
| 1 | 总览:AI 原生工作流编排的设计哲学 | 动机、架构、Iron Laws、社区对比 |
| 2 | Prompt 量化评分:乔哈里视窗 x 3S 原则 | 四象限、3S、7维评分、第四象限陷阱 |
| 3 | Multi-Agent 协作:tmux 分屏并行引擎 | 角色匹配、文件隔离、Phase复用 |
| 4 | Flow 轻量编排:5 阶段管道按需启用 | Stage流程、Plan Mode、Fallback协议 |
| 5 | Flow-Deep 深度管道:全量质量保障引擎 | Plan Review、Auto-Decide、STATE.md、Ralph Loop |
FlowKit 使用 MIT 协议开源。如果对 AI Agent 工作流编排感兴趣,欢迎 Star 和交流。