FlowKit - AI 原生工作流编排的设计哲学

FlowKit 是一套为 AI 编程助手设计的结构化任务编排工具集。本文是系列教程的第一篇,从设计动机出发,讲清楚”为什么要造这个轮子”以及整体架构。

GitHub: FrizzleFur/flowkit

目录


为什么造这个轮子

使用 Claude Code、Cursor 这类 AI 编程助手时,我发现了一个反复出现的模式:

1
2
3
4
5
6
7
8
用户: "帮我重构这个模块"

Agent:
1. 直接开始写代码
2. 跳过测试
3. 跳过边界情况检查
4. 用 "应该可以了" 宣布完成
5. 用户发现 bug,重新来过

Agent 能力很强但缺乏纪律性。它们会跳过验证、忽略边界情况、用模糊措辞宣布完成。

FlowKit 的核心思路:把软件工程的严谨性注入 AI Agent 工作流。不是限制能力,而是让强大的能力按工程规范运行。

Pipeline 架构总览

FlowKit 的核心是一个 5 阶段管道,每个阶段解决一个特定的工程问题:

1
2
3
Input ──▶ Stage 1 ──▶ Stage 2 ──▶ Stage 3 ──▶ Stage 4 ──▶ Stage 5
Prompt优化 深度思考 确定性规划 并发执行 完成验证
(质量入口) (思考充分) (先想后做) (效率+安全) (证据铁律)

每个 Stage 可以通过参数按需启用或跳过(/flow),也可以全部强制开启(/flow-deep):

1
2
3
4
5
6
7
8
/flow --quick 给这个函数加缓存
→ 跳过所有阶段,直接执行

/flow 重构认证模块
→ Stage 1 → Stage 3 → Stage 4 → Stage 5(标准流程)

/flow --think --mermaid --discuss --plan-review 重新设计支付系统
→ 全部启用,深度分析 + 多角色评审

四条铁律 Iron Laws

四条不可协商的执行规则。每条配备了合理化辩解对照表(Rationalization Table),防止 LLM 自我辩解跳过:

IL-1: 无失败测试不写生产代码

1
2
Agent 找借口: "太简单了不需要测试"
标准反驳: 简单到不需要测试的代码,也简单到可以先写测试

TDD 不是目的,是纪律。先写测试迫使 Agent 在写代码前想清楚接口和边界。

IL-2: 无新鲜证据不宣布完成

1
2
Agent 找借口: "应该可以了"
标准反驳: "应该"不是证据,运行结果才是

“should work” 是 Agent 最危险的输出。铁律要求:必须运行验证命令,必须展示实际输出。

IL-3: 无根因确认不改代码

1
2
Agent 找借口: "让我试试这个改动"
标准反驳: 没有根因的修复只是掩盖症状

调试时最常见的错误是”看到现象就改代码”。铁律要求先确认根因,再针对性修复。

IL-4: 审查只读永不修改

1
2
Agent 找借口: "顺手改一下这个 typo"
标准反驳: 审查的角色是审查者不是实现者

代码审查 Agent 只读不写。审查和修改是不同角色,混合会导致审查质量下降。

为什么需要 Rationalization Table?

因为 LLM 极其擅长自我辩解。当它想跳过某个步骤时,会生成看似合理的理由。对照表预先定义了每个借口的标准反驳,系统在 Agent 试图跳过时自动拦截。

四个 Skill 模块

FlowKit 包含四个独立但互补的 Skill 模块:

依赖关系

1
2
3
4
5
6
7
8
/prompt (独立)      /multi-agent (独立)
│ │
└──────────┬───────────┘

/flow (编排引擎)


/flow-deep (全量深度)

阅读顺序:Part 2 (Prompt) → Part 3 (Multi-Agent) → Part 4 (Flow) → Part 5 (Flow-Deep)

模块概览

模块 定位 一句话
/prompt Prompt 量化评分 基于乔哈里视窗 + 3S 原则,自动评分和优化
/multi-agent 多 Agent 协作 tmux 分屏并行,文件隔离,Phase 间复用
/flow 轻量编排引擎 按需启用,通过参数控制管道阶段
/flow-deep 全量深度引擎 强制全开,所有质量关卡不可跳过

Flow vs Flow-Deep 对比

维度 /flow /flow-deep
前置检查 强制
深度思考 可选 (--think) 强制(ST + Mermaid + 三角色)
Plan Mode 默认开,可关闭 不可关闭
Plan Review 可选 强制
多角色面板 默认 3-5 角色
TDD 注入 可选 自动注入
完成验证 可跳过 不可跳过
Ralph Loop 手动触发 迭代用完自动触发

与社区方案对比

特性 FlowKit GSD Superpowers GStack
结构化管道 5 阶段 + 子阶段 Phase 模式 按需组合 Checklist
Plan Mode 只读沙箱(系统级强制)
Plan Review 独立 Agent(消除偏差)
多角色评审 3-5 角色 + Auto-Decide
跨会话恢复 STATE.md
Prompt 评分 乔哈里视窗 + 3S

原创贡献(社区框架中均未出现)

  • STATE.md 崩溃恢复 — 跨会话断点续传,长任务中断后精确恢复
  • Auto-Decide Layer — 6 原则自动决策,80% 评审发现项自动处理
  • Ralph Loop 集成 — Stop Hook + auto-iterate 双层迭代引擎
  • 乔哈里视窗 Prompt 评分 — 从认知科学角度量化 Prompt 质量

设计哲学

FlowKit 吸收了三个社区框架的优点,但不是简单照搬:

来源 管什么 我们吸收了什么
GStack 决策流程 Auto-Decide Layer (6 原则 + Taste Decision)
Superpowers 执行纪律 Iron Laws + Rationalization Table
GSD 上下文质量 STATE.md 跨会话恢复

核心原则:工具应该让好工程师变得更好,而不是让差工程师变好。 FlowKit 不替代思考,它强制思考发生。


系列导航

FlowKit 系列教程

# 文章 内容
1 总览:AI 原生工作流编排的设计哲学 动机、架构、Iron Laws、社区对比
2 Prompt 量化评分:乔哈里视窗 x 3S 原则 四象限、3S、7维评分、第四象限陷阱
3 Multi-Agent 协作:tmux 分屏并行引擎 角色匹配、文件隔离、Phase复用
4 Flow 轻量编排:5 阶段管道按需启用 Stage流程、Plan Mode、Fallback协议
5 Flow-Deep 深度管道:全量质量保障引擎 Plan Review、Auto-Decide、STATE.md、Ralph Loop

FlowKit 使用 MIT 协议开源。如果对 AI Agent 工作流编排感兴趣,欢迎 Star 和交流。

文章作者: MichaelMao
文章链接: http://michaelmaomao.github.io/2026/05/05/FlowKit-AI%E5%8E%9F%E7%94%9F%E5%B7%A5%E4%BD%9C%E6%B5%81%E7%BC%96%E6%8E%92%E5%B7%A5%E5%85%B7%E9%9B%86/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 MMao
我要吐槽下