Quantifying Infrastructure Noise in Agentic Coding Evals

2026-02-05 | Engineering | Anthropic
C1 Agent 开发 L3 eval infrastructure noise SWE-bench benchmark

综合评分

6.7
C 级
技术深度 (x1.1)
9
可操作性 (x1.3)
5
创新性
8
影响力 (x1.3)
6
教育价值 (x1.1)
7
时效性
7
可复现性
5

核心要点

基础设施噪声(网络延迟、文件系统状态)显著影响 Agent 评估结果
量化分析了噪声对 SWE-bench 等基准测试的影响
对评估方法论的重要贡献:需要区分模型能力和基础设施影响

代码实践建议

在评估中隔离基础设施噪声

L3 | Python + Docker + SWE-bench

设计对照实验,量化基础设施因素对 Agent 评估的影响

思维流程导图

flowchart TD
  A["Infrastructure Noise"] --> B["噪声来源"]
  B --> B1["网络延迟"]
  B --> B2["文件系统状态"]
  B --> B3["并发竞争"]
  A --> C["影响"]
  C --> C1["评估结果波动"]
  C --> C2["模型能力误判"]

    

文章关系

阅读原文 →