跳转至外部链接
https://arxiv.org/pdf/2411.17075))上的表现进行了评估。研究发现:o1模型的安全指南有助于提升安全性(图1),但其推理过程偶尔会出现逻辑混乱,安全机制可能被绕过(图2)。此外,o1模型并非总是启动安全推理模式,有时会错误拒绝良性请求(图3