Quantifying Infrastructure Noise in Agentic Coding Evals

C1 Agent 开发 L3 eval infrastructure noise SWE-bench benchmark

综合评分

6.7

C 级

技术深度 (x1.1)

可操作性 (x1.3)

创新性

影响力 (x1.3)

教育价值 (x1.1)

时效性

可复现性

核心要点

基础设施噪声（网络延迟、文件系统状态）显著影响 Agent 评估结果

量化分析了噪声对 SWE-bench 等基准测试的影响

对评估方法论的重要贡献：需要区分模型能力和基础设施影响

代码实践建议

在评估中隔离基础设施噪声

L3 | Python + Docker + SWE-bench

设计对照实验，量化基础设施因素对 Agent 评估的影响

思维流程导图

flowchart TD
  A["Infrastructure Noise"] --> B["噪声来源"]
  B --> B1["网络延迟"]
  B --> B2["文件系统状态"]
  B --> B3["并发竞争"]
  A --> C["影响"]
  C --> C1["评估结果波动"]
  C --> C2["模型能力误判"]

文章关系

前置: swe-bench-verified 前置: demystifying-evals-agents

阅读原文 →