The "Think" Tool: Enabling Claude to Stop and Think

2025-03-20 | Engineering | Anthropic
C2 工程实践 L2 think-tool extended-thinking tau-bench SWE-bench agent

综合评分

8.3
A 级
技术深度 (x1.1)
8
可操作性 (x1.3)
9
创新性
7
影响力 (x1.3)
8
教育价值 (x1.1)
9
时效性
7
可复现性
10

核心要点

Think Tool 与 Extended Thinking 不同: 后者是行动前深思,前者是行动中暂停反思
Airline 域: Think Tool + 优化 prompt 达到 0.570 pass^1,比基线 0.370 提升 54%
SWE-bench: Think Tool 单独贡献 1.6% 提升 (Welch's t-test p<0.001, d=1.47)
适用场景: 长工具调用链、政策密集环境、序列决策
不适用场景: 非顺序工具调用、简单指令跟随
实现极简: 只需添加一个 think 工具定义,Claude 自行决定是否调用

关联 GitHub 项目

claude-cookbooks43500 stars
Think tool implementation examples

代码实践建议

为 Agent 添加 Think Tool

L1 | Claude API (JSON tool definition)

在现有 Agent 的工具列表中添加 think 工具定义,配合领域特定的系统 prompt 指导

对比 Think Tool vs Extended Thinking

L2 | Claude API + Evaluation Framework

在相同任务上对比两种模式的效果,找出最佳适用场景

思维流程导图

flowchart TD
  A["Think Tool"] --> B["vs Extended Thinking"]
  A --> C["适用场景"]
  A --> D["性能数据"]
  B --> B1["ET: 行动前深思"]
  B --> B2["TT: 行动中反思"]
  C --> C1["长工具调用链"]
  C --> C2["政策密集环境"]
  C --> C3["序列决策"]
  D --> D1["Airline +54%"]
  D --> D2["SWE-bench +1.6%"]
  D --> D3["配合 prompt 更佳"]

    

文章关系

阅读原文 →