FlowKit - Prompt 量化评分

Prompt Skill 是 FlowKit 的基础模块，基于乔哈里视窗理论和 3S 原则，提供 Prompt 自动评分、问题诊断和优化。
本文是 FlowKit 系列教程第二篇。

核心问题

大多数人写 Prompt 只关注”怎么措辞”，但 Prompt 的质量问题远比措辞复杂。核心难点在于：你知道的东西，AI 不一定知道。

这就是为什么需要一个系统化的评分框架 —— 不只看文字质量，而是从认知科学角度评估 Prompt 的信息完整度。

乔哈里视窗四象限

乔哈里视窗（Johari Window）是心理学中的认知模型，我们用它来分析 Prompt 的信息分布：

              AI 知道           AI 不知道
          ┌──────────────┬──────────────┐
人知道    │ Q1 公共知识   │ Q4 独有知识 ⚠│
          │ 直接描述即可  │ 必须喂模式    │
          ├──────────────┼──────────────┤
人不知道  │ Q2 AI 专业   │ Q3 探索创新   │
          │ 信任 AI 即可  │ 协同探索      │
          └──────────────┴──────────────┘

Q1 公共知识 — 直接描述

“用 Python 实现快速排序” — 这类任务 AI 完全具备知识，直接描述即可。

Q2 AI 专业 — 信任 AI

“分析这段代码的时间复杂度” — 你可能不懂 Big-O，但 AI 懂。信任 AI 的专业能力。

Q3 探索创新 — 协同探索

“设计一个新型缓存策略” — 你和 AI 都没有确定的答案，需要协同探索。

Q4 独有知识 — 最危险的象限

“审查我们公司的 XYZ 系统代码，确保遵循 YYY 规范” — 你知道 XYZ 和 YYY 是什么，但 AI 不知道。这是最常见也最容易被忽视的质量问题。

关键规则: 当 Prompt 包含第四象限知识但未使用”喂模式”（举例法、定义字典、RAG）时，评分直接降到 2/10 (Critical)。

第四象限识别标志

包含”我们团队”、”我们公司”、”本项目”等限定词
包含内部系统名称、团队黑话/缩写
包含新定义概念，且无示例、无定义

3S 原则

除了象限分析，每个 Prompt 还从三个维度评估：

S1: Single — 单任务聚焦

❌ "帮我写一个排序算法，并解释原理，再用 Python 实现一遍"
   → 三个目标混杂，AI 无法确定主要目标

✓ "用 Python 实现快速排序算法"
   → 单一目标，清晰明确

检测方式：搜索”和”、”并”、”以及”等连接词，多个动词短语。

S2: Specific — 明确详细

❌ "写一个排序算法" → Specific: 4/10
   → 无格式要求、无范围限制

✓ "用 Python 实现快速排序，输入整数列表，输出升序排列，O(n log n) 时间复杂度"
   → Specific: 9/10

评分标准：

有格式 + 范围 + 示例 → 9-10 分
有格式有范围 → 7-8 分
无格式无范围 → 2-6 分

S3: Short — 简洁扼要

❌ "请你作为一个非常专业的资深高级算法工程师，用你丰富的经验和深厚的功底，
    帮我写一个排序算法，注意要写得尽可能好，代码要优雅，注释要详细..."
   → 冗余修饰，低信息密度

✓ "用 Python 实现快速排序，要求 O(n log n)" → 高信息密度

7 维评分体系

每篇 Prompt 从 7 个维度评分（1-10 分），通过加权计算得出综合评分：

维度	权重	衡量
目标明确性	40%	目标清晰？有成功标准？范围明确？
3S 原则	30%	Single + Specific + Short
基础清晰度	30%	语言表达清晰？逻辑结构合理？

当满足以下条件时，额外触发深度评分（4 个维度，各 25%）：

复杂专业任务
第四象限内容
Role-Based 结构
字数 > 200

维度	衡量
约束完整性	约束必要、可验证、无冲突
技能匹配度	Role/Skills 匹配任务
工作流清晰度	步骤逻辑清晰、可重复执行
示例/术语完整性	示例完整、术语有定义

场景检测

不同场景使用不同的权重分布：

场景	条件	权重分布
简单任务	字数<100, 单目标	目标明确性 40% + 3S 30% + 基础清晰度 30%
复杂专业	Role-Based, 工作流	基础评分 50% + 深度评分 50%
第四象限	独有知识, 术语	目标明确性 20% + 示例/术语完整性 80%

问题诊断

评分后自动诊断问题，按严重性四级分类：

Critical（必须修复）

问题	检测方式	影响
第四象限未使用喂模式	包含内部术语但无定义/示例	AI 无法理解独有知识
多目标混杂	Single 原则违背	AI 无法确定主要目标
完全缺少成功标准	无输出要求、无验证标准	无法判断是否完成

High（强烈建议修复）

问题	检测方式
约束互相冲突	约束之间矛盾
技能与任务不匹配	Role/Skills 与任务无关
示例不完整	第四象限示例缺少输入/输出/模式

Medium（建议优化）

过度设计（第一象限使用复杂 Role-Based 结构）
缺少部分成功标准
约束不够具体

Low（可选优化）

格式不规范
表达不够简洁

优化策略

根据问题数量和严重性，选择不同优化策略：

条件	策略	方法
问题少 (<=3), 无 Critical	保留式优化	保留原有结构风格，只修改问题部分
问题多 (>3), 有 Critical	重构式优化	重新设计结构，应用合适模板
完全不匹配最佳实践	模板化优化	推荐最合适模板，基于模板重新构建

实战案例

案例 1: 第四象限陷阱（2/10 → 8.5/10）

原始 Prompt (2.0/10 - Critical):

1	审查我们公司的 XYZ 系统代码，确保遵循 YYY 规范

问题诊断：

象限: Q4（人知道 AI 不知道）
问题: XYZ、YYY 未定义，AI 无法理解
等级: Critical

优化后 (8.5/10):

审查 XYZ 系统代码，确保遵循 YYY 规范。

定义:
- XYZ 系统：内部微服务框架，基于 Spring Boot
- YYY 规范：内部代码规范，PascalCase 类名，camelCase 方法名

示例:
❌ public class user_service { }
✓ public class UserService { }

核心改动：用”喂模式”（定义字典 + 正反例）把第四象限知识转化为 AI 可理解的格式。

案例 2: 简单任务优化（7.9/10）

原始 Prompt:

写一个冒泡排序

评分：Q1 象限，场景简单任务，3S 表现好（Single 10, Specific 7, Short 9）

问题：Medium - 缺少性能要求

优化后:

用 Python 实现冒泡排序：
- 输入：整数列表
- 输出：升序排列的列表
- 要求：时间复杂度 O(n²)，空间复杂度 O(1)

案例 3: 复杂专业任务优化（4.2/10 → 8.0/10）

原始 Prompt (4.2/10):

1 2	你是一个资深的后端开发工程师，请帮我设计一个用户认证系统，要支持多种登录方式，要安全，性能要好，还要方便扩展