综合评分
8.2
A 级
技术深度 (x1.1)9
可操作性 (x1.3)8
创新性8
影响力 (x1.3)9
教育价值 (x1.1)9
时效性7
可复现性6
核心要点
多 Agent 系统比单 Agent 强 90.2%(内部评估),Token 使用量解释 80% 性能差异
核心架构: Lead Agent 编排 + Subagents 并行搜索 + Citation Agent 引用归因
8 条 Prompt 工程原则: 理解 Agent 思维、教编排者委派、按复杂度分配资源、工具选择关键等
评估方法论: 小样本立即开始 → LLM-as-judge 规模化 → 人类测试捕捉盲区
生产级挑战: Agent 有状态且错误累积、非确定性导致调试困难、需要彩虹部署
搜索策略: 先宽后窄(start wide, then narrow),避免 Agent 默认过于具体的查询
关联 GitHub 项目
claude-cookbooks43500 starsOpen-source prompts from the Research system
代码实践建议
构建双 Agent 协作搜索系统
Lead Agent 分析查询,分解为 2-3 个子任务分发给 Subagents 并行搜索,综合返回结果
实现 LLM-as-Judge 评估框架
创建 rubric(准确性/完整性/引用质量/效率),用 LLM 对 Agent 输出自动评分
多 Agent 研究助手
完整复现文章架构: Lead Researcher + Subagents + Citation Agent,支持 web 和文件搜索
思维流程导图
flowchart TD A["Multi-Agent Research System"] --> B["架构"] A --> C["Prompt 原则"] A --> D["评估"] A --> E["生产挑战"] B --> B1["LeadResearcher
分析/规划/编排"] B --> B2["Subagents
并行搜索/压缩"] B --> B3["CitationAgent
引用归因"] C --> C1["理解 Agent 思维"] C --> C2["教编排者委派"] C --> C3["按复杂度分配资源"] C --> C4["工具选择是关键"] C --> C5["Agent 自我改进"] C --> C6["先宽后窄搜索"] C --> C7["引导思维过程"] C --> C8["并行工具调用"] D --> D1["小样本立即开始"] D --> D2["LLM-as-Judge"] D --> D3["人类测试捕捉盲区"] E --> E1["有状态+错误累积"] E --> E2["非确定性调试"] E --> E3["彩虹部署"]