The "Think" Tool: Enabling Claude to Stop and Think

C2 工程实践 L2 think-tool extended-thinking tau-bench SWE-bench agent

综合评分

8.3

A 级

技术深度 (x1.1)

可操作性 (x1.3)

创新性

影响力 (x1.3)

教育价值 (x1.1)

时效性

可复现性

核心要点

Think Tool 与 Extended Thinking 不同: 后者是行动前深思，前者是行动中暂停反思

Airline 域: Think Tool + 优化 prompt 达到 0.570 pass^1，比基线 0.370 提升 54%

SWE-bench: Think Tool 单独贡献 1.6% 提升 (Welch's t-test p<0.001, d=1.47)

适用场景: 长工具调用链、政策密集环境、序列决策

不适用场景: 非顺序工具调用、简单指令跟随

实现极简: 只需添加一个 think 工具定义，Claude 自行决定是否调用

关联 GitHub 项目

claude-cookbooks43500 stars

Think tool implementation examples

代码实践建议

为 Agent 添加 Think Tool

L1 | Claude API (JSON tool definition)

在现有 Agent 的工具列表中添加 think 工具定义，配合领域特定的系统 prompt 指导

对比 Think Tool vs Extended Thinking

L2 | Claude API + Evaluation Framework

在相同任务上对比两种模式的效果，找出最佳适用场景

思维流程导图

flowchart TD
  A["Think Tool"] --> B["vs Extended Thinking"]
  A --> C["适用场景"]
  A --> D["性能数据"]
  B --> B1["ET: 行动前深思"]
  B --> B2["TT: 行动中反思"]
  C --> C1["长工具调用链"]
  C --> C2["政策密集环境"]
  C --> C3["序列决策"]
  D --> D1["Airline +54%"]
  D --> D2["SWE-bench +1.6%"]
  D --> D3["配合 prompt 更佳"]

文章关系

前置: building-effective-agents 后续: effective-context-engineering

阅读原文 →