综合评分
7.5
B 级
技术深度 (x1.1)8
可操作性 (x1.3)5
创新性9
影响力 (x1.3)9
教育价值 (x1.1)8
时效性9
可复现性5
核心要点
研究如何减少 Agent 的对齐偏差(agentic misalignment)
通过教导 Claude '为什么' 某些行为是错误的来改善安全对齐
重要的安全研究方向
思维流程导图
flowchart TD
A["Teaching Claude Why"] --> B["问题"]
B --> B1["Agent 对齐偏差"]
A --> C["方法"]
C --> C1["教导原因而非规则"]
C --> C2["理解为什么"]