综合评分
6.7
C 级
技术深度 (x1.1)9
可操作性 (x1.3)5
创新性8
影响力 (x1.3)6
教育价值 (x1.1)7
时效性7
可复现性5
核心要点
基础设施噪声(网络延迟、文件系统状态)显著影响 Agent 评估结果
量化分析了噪声对 SWE-bench 等基准测试的影响
对评估方法论的重要贡献:需要区分模型能力和基础设施影响
代码实践建议
在评估中隔离基础设施噪声
设计对照实验,量化基础设施因素对 Agent 评估的影响
思维流程导图
flowchart TD
A["Infrastructure Noise"] --> B["噪声来源"]
B --> B1["网络延迟"]
B --> B2["文件系统状态"]
B --> B3["并发竞争"]
A --> C["影响"]
C --> C1["评估结果波动"]
C --> C2["模型能力误判"]