FlowKit - AI 原生工作流编排的设计哲学

FlowKit 是一套为 AI 编程助手设计的结构化任务编排工具集。本文是系列教程的第一篇，从设计动机出发，讲清楚”为什么要造这个轮子”以及整体架构。

为什么造这个轮子

使用 Claude Code、Cursor 这类 AI 编程助手时，我发现了一个反复出现的模式：

用户: "帮我重构这个模块"

Agent:
  1. 直接开始写代码
  2. 跳过测试
  3. 跳过边界情况检查
  4. 用 "应该可以了" 宣布完成
  5. 用户发现 bug，重新来过

Agent 能力很强但缺乏纪律性。它们会跳过验证、忽略边界情况、用模糊措辞宣布完成。

FlowKit 的核心思路：把软件工程的严谨性注入 AI Agent 工作流。不是限制能力，而是让强大的能力按工程规范运行。

Pipeline 架构总览

FlowKit 的核心是一个 5 阶段管道，每个阶段解决一个特定的工程问题：

1
2
3

Input ──▶ Stage 1 ──▶ Stage 2 ──▶ Stage 3 ──▶ Stage 4 ──▶ Stage 5
           Prompt优化   深度思考    确定性规划    并发执行    完成验证
           (质量入口)   (思考充分)  (先想后做)   (效率+安全)  (证据铁律)

每个 Stage 可以通过参数按需启用或跳过（/flow），也可以全部强制开启（/flow-deep）：

/flow --quick 给这个函数加缓存
  → 跳过所有阶段，直接执行

/flow 重构认证模块
  → Stage 1 → Stage 3 → Stage 4 → Stage 5（标准流程）

/flow --think --mermaid --discuss --plan-review 重新设计支付系统
  → 全部启用，深度分析 + 多角色评审

四条铁律 Iron Laws

四条不可协商的执行规则。每条配备了合理化辩解对照表（Rationalization Table），防止 LLM 自我辩解跳过：

IL-1: 无失败测试不写生产代码

1 2	Agent 找借口: "太简单了不需要测试" 标准反驳: 简单到不需要测试的代码，也简单到可以先写测试

TDD 不是目的，是纪律。先写测试迫使 Agent 在写代码前想清楚接口和边界。

IL-2: 无新鲜证据不宣布完成

1 2	Agent 找借口: "应该可以了" 标准反驳: "应该"不是证据，运行结果才是

“should work” 是 Agent 最危险的输出。铁律要求：必须运行验证命令，必须展示实际输出。

IL-3: 无根因确认不改代码

1 2	Agent 找借口: "让我试试这个改动" 标准反驳: 没有根因的修复只是掩盖症状

调试时最常见的错误是”看到现象就改代码”。铁律要求先确认根因，再针对性修复。

IL-4: 审查只读永不修改

1 2	Agent 找借口: "顺手改一下这个 typo" 标准反驳: 审查的角色是审查者不是实现者

代码审查 Agent 只读不写。审查和修改是不同角色，混合会导致审查质量下降。

为什么需要 Rationalization Table？

因为 LLM 极其擅长自我辩解。当它想跳过某个步骤时，会生成看似合理的理由。对照表预先定义了每个借口的标准反驳，系统在 Agent 试图跳过时自动拦截。

四个 Skill 模块

FlowKit 包含四个独立但互补的 Skill 模块：

依赖关系

/prompt (独立)      /multi-agent (独立)
     │                      │
     └──────────┬───────────┘
                ▼
           /flow (编排引擎)
                │
                ▼
         /flow-deep (全量深度)

阅读顺序：Part 2 (Prompt) → Part 3 (Multi-Agent) → Part 4 (Flow) → Part 5 (Flow-Deep)

模块概览

模块	定位	一句话
`/prompt`	Prompt 量化评分	基于乔哈里视窗 + 3S 原则，自动评分和优化
`/multi-agent`	多 Agent 协作	tmux 分屏并行，文件隔离，Phase 间复用
`/flow`	轻量编排引擎	按需启用，通过参数控制管道阶段
`/flow-deep`	全量深度引擎	强制全开，所有质量关卡不可跳过

Flow vs Flow-Deep 对比

维度	`/flow`	`/flow-deep`
前置检查	无	强制
深度思考	可选 (`--think`)	强制（ST + Mermaid + 三角色）
Plan Mode	默认开，可关闭	不可关闭
Plan Review	可选	强制
多角色面板	无	默认 3-5 角色
TDD 注入	可选	自动注入
完成验证	可跳过	不可跳过
Ralph Loop	手动触发	迭代用完自动触发

与社区方案对比

特性	FlowKit	GSD	Superpowers	GStack
结构化管道	5 阶段 + 子阶段	Phase 模式	按需组合	Checklist
Plan Mode	只读沙箱（系统级强制）	无	无	无
Plan Review	独立 Agent（消除偏差）	无	无	无
多角色评审	3-5 角色 + Auto-Decide	无	无	无
跨会话恢复	STATE.md	无	无	无
Prompt 评分	乔哈里视窗 + 3S	无	无	无

原创贡献（社区框架中均未出现）

STATE.md 崩溃恢复 — 跨会话断点续传，长任务中断后精确恢复
Auto-Decide Layer — 6 原则自动决策，80% 评审发现项自动处理
Ralph Loop 集成 — Stop Hook + auto-iterate 双层迭代引擎
乔哈里视窗 Prompt 评分 — 从认知科学角度量化 Prompt 质量

设计哲学

FlowKit 吸收了三个社区框架的优点，但不是简单照搬：

来源	管什么	我们吸收了什么
GStack	决策流程	Auto-Decide Layer (6 原则 + Taste Decision)
Superpowers	执行纪律	Iron Laws + Rationalization Table
GSD	上下文质量	STATE.md 跨会话恢复

核心原则：工具应该让好工程师变得更好，而不是让差工程师变好。 FlowKit 不替代思考，它强制思考发生。

系列导航

FlowKit 系列教程

#	文章	内容
1	总览：AI 原生工作流编排的设计哲学	动机、架构、Iron Laws、社区对比
2	Prompt 量化评分：乔哈里视窗 x 3S 原则	四象限、3S、7维评分、第四象限陷阱
3	Multi-Agent 协作：tmux 分屏并行引擎	角色匹配、文件隔离、Phase复用
4	Flow 轻量编排：5 阶段管道按需启用	Stage流程、Plan Mode、Fallback协议
5	Flow-Deep 深度管道：全量质量保障引擎	Plan Review、Auto-Decide、STATE.md、Ralph Loop

FlowKit 使用 MIT 协议开源。如果对 AI Agent 工作流编排感兴趣，欢迎 Star 和交流。