Prompt Skill 是 FlowKit 的基础模块,基于乔哈里视窗理论和 3S 原则,提供 Prompt 自动评分、问题诊断和优化。
本文是 FlowKit 系列教程第二篇。
GitHub: FrizzleFur/flowkit | 系列导航
目录
核心问题
大多数人写 Prompt 只关注”怎么措辞”,但 Prompt 的质量问题远比措辞复杂。核心难点在于:你知道的东西,AI 不一定知道。
这就是为什么需要一个系统化的评分框架 —— 不只看文字质量,而是从认知科学角度评估 Prompt 的信息完整度。
乔哈里视窗四象限
乔哈里视窗(Johari Window)是心理学中的认知模型,我们用它来分析 Prompt 的信息分布:
1 | AI 知道 AI 不知道 |
Q1 公共知识 — 直接描述
“用 Python 实现快速排序” — 这类任务 AI 完全具备知识,直接描述即可。
Q2 AI 专业 — 信任 AI
“分析这段代码的时间复杂度” — 你可能不懂 Big-O,但 AI 懂。信任 AI 的专业能力。
Q3 探索创新 — 协同探索
“设计一个新型缓存策略” — 你和 AI 都没有确定的答案,需要协同探索。
Q4 独有知识 — 最危险的象限
“审查我们公司的 XYZ 系统代码,确保遵循 YYY 规范” — 你知道 XYZ 和 YYY 是什么,但 AI 不知道。这是最常见也最容易被忽视的质量问题。
关键规则: 当 Prompt 包含第四象限知识但未使用”喂模式”(举例法、定义字典、RAG)时,评分直接降到 2/10 (Critical)。
第四象限识别标志
- 包含”我们团队”、”我们公司”、”本项目”等限定词
- 包含内部系统名称、团队黑话/缩写
- 包含新定义概念,且无示例、无定义
3S 原则
除了象限分析,每个 Prompt 还从三个维度评估:
S1: Single — 单任务聚焦
1 | ❌ "帮我写一个排序算法,并解释原理,再用 Python 实现一遍" |
检测方式:搜索”和”、”并”、”以及”等连接词,多个动词短语。
S2: Specific — 明确详细
1 | ❌ "写一个排序算法" → Specific: 4/10 |
评分标准:
- 有格式 + 范围 + 示例 → 9-10 分
- 有格式有范围 → 7-8 分
- 无格式无范围 → 2-6 分
S3: Short — 简洁扼要
1 | ❌ "请你作为一个非常专业的资深高级算法工程师,用你丰富的经验和深厚的功底, |
7 维评分体系
每篇 Prompt 从 7 个维度评分(1-10 分),通过加权计算得出综合评分:
| 维度 | 权重 | 衡量 |
|---|---|---|
| 目标明确性 | 40% | 目标清晰?有成功标准?范围明确? |
| 3S 原则 | 30% | Single + Specific + Short |
| 基础清晰度 | 30% | 语言表达清晰?逻辑结构合理? |
当满足以下条件时,额外触发深度评分(4 个维度,各 25%):
- 复杂专业任务
- 第四象限内容
- Role-Based 结构
- 字数 > 200
| 维度 | 衡量 |
|---|---|
| 约束完整性 | 约束必要、可验证、无冲突 |
| 技能匹配度 | Role/Skills 匹配任务 |
| 工作流清晰度 | 步骤逻辑清晰、可重复执行 |
| 示例/术语完整性 | 示例完整、术语有定义 |
场景检测
不同场景使用不同的权重分布:
| 场景 | 条件 | 权重分布 |
|---|---|---|
| 简单任务 | 字数<100, 单目标 | 目标明确性 40% + 3S 30% + 基础清晰度 30% |
| 复杂专业 | Role-Based, 工作流 | 基础评分 50% + 深度评分 50% |
| 第四象限 | 独有知识, 术语 | 目标明确性 20% + 示例/术语完整性 80% |
问题诊断
评分后自动诊断问题,按严重性四级分类:
Critical(必须修复)
| 问题 | 检测方式 | 影响 |
|---|---|---|
| 第四象限未使用喂模式 | 包含内部术语但无定义/示例 | AI 无法理解独有知识 |
| 多目标混杂 | Single 原则违背 | AI 无法确定主要目标 |
| 完全缺少成功标准 | 无输出要求、无验证标准 | 无法判断是否完成 |
High(强烈建议修复)
| 问题 | 检测方式 |
|---|---|
| 约束互相冲突 | 约束之间矛盾 |
| 技能与任务不匹配 | Role/Skills 与任务无关 |
| 示例不完整 | 第四象限示例缺少输入/输出/模式 |
Medium(建议优化)
- 过度设计(第一象限使用复杂 Role-Based 结构)
- 缺少部分成功标准
- 约束不够具体
Low(可选优化)
- 格式不规范
- 表达不够简洁
优化策略
根据问题数量和严重性,选择不同优化策略:
| 条件 | 策略 | 方法 |
|---|---|---|
| 问题少 (<=3), 无 Critical | 保留式优化 | 保留原有结构风格,只修改问题部分 |
| 问题多 (>3), 有 Critical | 重构式优化 | 重新设计结构,应用合适模板 |
| 完全不匹配最佳实践 | 模板化优化 | 推荐最合适模板,基于模板重新构建 |
实战案例
案例 1: 第四象限陷阱(2/10 → 8.5/10)
原始 Prompt (2.0/10 - Critical):
1 | 审查我们公司的 XYZ 系统代码,确保遵循 YYY 规范 |
问题诊断:
- 象限: Q4(人知道 AI 不知道)
- 问题: XYZ、YYY 未定义,AI 无法理解
- 等级: Critical
优化后 (8.5/10):
1 | 审查 XYZ 系统代码,确保遵循 YYY 规范。 |
核心改动:用”喂模式”(定义字典 + 正反例)把第四象限知识转化为 AI 可理解的格式。
案例 2: 简单任务优化(7.9/10)
原始 Prompt:
1 | 写一个冒泡排序 |
评分:Q1 象限,场景简单任务,3S 表现好(Single 10, Specific 7, Short 9)
问题:Medium - 缺少性能要求
优化后:
1 | 用 Python 实现冒泡排序: |
案例 3: 复杂专业任务优化(4.2/10 → 8.0/10)
原始 Prompt (4.2/10):
1 | 你是一个资深的后端开发工程师,请帮我设计一个用户认证系统, |
问题诊断:
- 多目标(”多种登录方式 + 安全 + 性能 + 扩展”)
- 约束模糊(”安全”、”性能好” 不可验证)
- 缺少成功标准
优化后 (8.0/10):
1 | 设计用户认证系统 API: |
系列导航
FlowKit 系列教程
| # | 文章 | 内容 |
|---|---|---|
| 1 | 总览:AI 原生工作流编排的设计哲学 | 动机、架构、Iron Laws、社区对比 |
| 2 | Prompt 量化评分:乔哈里视窗 x 3S 原则 | 四象限、3S、7维评分、第四象限陷阱 |
| 3 | Multi-Agent 协作:tmux 分屏并行引擎 | 角色匹配、文件隔离、Phase复用 |
| 4 | Flow 轻量编排:5 阶段管道按需启用 | Stage流程、Plan Mode、Fallback协议 |
| 5 | Flow-Deep 深度管道:全量质量保障引擎 | Plan Review、Auto-Decide、STATE.md、Ralph Loop |
FlowKit 使用 MIT 协议开源。如果对 AI Agent 工作流编排感兴趣,欢迎 Star 和交流。