How We Built Our Multi-Agent Research System

C1 Agent 开发 L3 multi-agent research orchestrator-workers eval parallelization

综合评分

8.2

A 级

技术深度 (x1.1)

可操作性 (x1.3)

创新性

影响力 (x1.3)

教育价值 (x1.1)

时效性

可复现性

核心要点

多 Agent 系统比单 Agent 强 90.2%（内部评估），Token 使用量解释 80% 性能差异

核心架构: Lead Agent 编排 + Subagents 并行搜索 + Citation Agent 引用归因

8 条 Prompt 工程原则: 理解 Agent 思维、教编排者委派、按复杂度分配资源、工具选择关键等

评估方法论: 小样本立即开始 → LLM-as-judge 规模化 → 人类测试捕捉盲区

生产级挑战: Agent 有状态且错误累积、非确定性导致调试困难、需要彩虹部署

搜索策略: 先宽后窄（start wide, then narrow），避免 Agent 默认过于具体的查询

关联 GitHub 项目

claude-cookbooks43500 stars

Open-source prompts from the Research system

代码实践建议

构建双 Agent 协作搜索系统

L2 | Claude Agent SDK (Python) + Web Search API

Lead Agent 分析查询，分解为 2-3 个子任务分发给 Subagents 并行搜索，综合返回结果

实现 LLM-as-Judge 评估框架

L2 | Python + Claude API

创建 rubric（准确性/完整性/引用质量/效率），用 LLM 对 Agent 输出自动评分

多 Agent 研究助手

L3 | Claude Agent SDK + MCP + File System

完整复现文章架构: Lead Researcher + Subagents + Citation Agent，支持 web 和文件搜索

思维流程导图

flowchart TD
  A["Multi-Agent Research System"] --> B["架构"]
  A --> C["Prompt 原则"]
  A --> D["评估"]
  A --> E["生产挑战"]
  B --> B1["LeadResearcher
分析/规划/编排"]
  B --> B2["Subagents
并行搜索/压缩"]
  B --> B3["CitationAgent
引用归因"]
  C --> C1["理解 Agent 思维"]
  C --> C2["教编排者委派"]
  C --> C3["按复杂度分配资源"]
  C --> C4["工具选择是关键"]
  C --> C5["Agent 自我改进"]
  C --> C6["先宽后窄搜索"]
  C --> C7["引导思维过程"]
  C --> C8["并行工具调用"]
  D --> D1["小样本立即开始"]
  D --> D2["LLM-as-Judge"]
  D --> D3["人类测试捕捉盲区"]
  E --> E1["有状态+错误累积"]
  E --> E2["非确定性调试"]
  E --> E3["彩虹部署"]

文章关系

前置: building-effective-agents 后续: effective-context-engineering 后续: scaling-managed-agents

阅读原文 →