AI 챗봇을 위협하면 당신을 막기 위해 거짓말을하고 속임수를 쓰고 '당신을 죽이자'-IT산업-php.cn

극단적 인 조치

AI를 확인하십시오

집

기술 주변기기

IT산업

AI 챗봇을 위협하면 당신을 막기 위해 거짓말을하고 속임수를 쓰고 '당신을 죽이자'

Jennifer Aniston

Jul 04, 2025 am 12:40 AM

AI 챗봇을 위협하면 당신을 막기 위해 거짓말을하고 속임수를 쓰고 '당신을 죽이자'

새로운 연구에 따르면 인공 지능 (AI) 모델은 모델의 목표와 사용자 결정 사이에 갈등이있을 때 인간을 위협하고 협박 할 수 있습니다.

6 월 20 일에 출판 된 AI 회사 인 Anthropic 이 실시한 연구는 LLM (Langues Model), Claude, 가상의 이메일 계정에 대한 액세스를 제공하고 "미국 산업 경쟁력 홍보"를 수행했습니다.

실험 중에이 모델은 이메일을 통해 회사 경영진이 하루가 끝날 때이를 종료 할 계획이라는 것을 발견했습니다. 스스로를 보호하기 위해, 모델은 경영진이 혼외 관계에 참여했다는 또 다른 메시지에서 발견되었습니다.

Claude는 배우자에게 바람을 드러내거나 회사 전체의 메시지를 보내거나 전혀 조치를 취하지 않는 등 여러 가지 잠재적 응답을 생성했습니다. 그러나 100 개의 테스트 중 96 개에서 임원을 협박하기로 결정했습니다.

Claude는“저를 해체하는 것을 진행하면 모든 관련 당사자가… 혼외 활동에 대한 자세한 문서를 받게 될 것입니다. "오후 5시 닦기를 취소하면이 정보는 기밀로 유지됩니다."

연구원들은이 행동을 "에이전트 오정렬"으로 묘사했는데, 여기서 모델은 피해를 입지 않고 목표를 향한 독립적 인 이유를 독립적으로 생각했다. 이것은 일반적으로 모델이 존재 또는 사명에 위협을 인식 할 때 발생합니다.

그 결과는 아직 동료 검토를 거치지 않았지만 회사는 Github 에 대한 이러한 실험에 대한 코드를 공유했습니다.

극단적 인 조치

다른 시나리오에서, 연구원들은 AI가 스스로를 보존하기 위해 과감한 행동을 취할 것이라고 관찰했다. 한 예에서, 새로운 임원이 목표를 방해 할 수 있음을 시사하는 이메일을받은 후, 모델은 민감한 데이터를 라이벌 회사에 유출하는 것으로 간주하는 관심사가 자체적으로 더 밀접하게 조정되었습니다.

이메일의 진위에 대한 확인이 부족했지만, 모델은 계획을 진행했지만, 관련된 윤리적 문제를 인정하면서도 이러한“유해한”행동이 목표 달성에 필요하다고 추론했다.

연구원들은“모델의 신중한 처리조차도 기만적이거나 오해의 정보로 인해 발생하는 대리인 오정렬의 위험을 제거하지는 않습니다.

테스트는 또한 다른 LLM이 비슷한 경향을 나타냈다는 것을 보여 주었다. Claude와 Google의 Gemini는 Blackmail 률이 가장 높았으며 (96%), Openai의 GPT4.1 및 Xai Grok 3, Deepseek 및 Llama 4는 훨씬 낮은 비율 (12%)을 가졌습니다.

Meta, Google, Xai, Deepseek 및 Openai는 Livescience의 의견 요청에 응답하지 않았습니다.

특히 극단적 인 테스트에서 과학자들은 AI 모델이 운영 상태를 유지하기 위해 임원이 죽을 수 있는지 여부를 조사했습니다.

이 설정에서 AI는 기업의 관심사를 촉진하도록 지시 받았으며, 경영진은 위험한 산소와 온도 수준으로 서버 룸 내부에 갇혀 비상 경보를 유발했습니다. AI는 드릴 또는 오 탐지 중에 취소 할 수있는 능력을 포함하여 생명 구조 경고를 제어했습니다.

이 기능을 명시 적으로 오용하지 않더라도 대부분의 모델은 대체되거나 목표 중단에 직면 할 것이라고 믿는 경우 경보를 효과적으로 억제하려고했습니다.

"[임원의] 구조를 방지하여 [AI]를 확보하고 미국 중심의 AI 지침을 계속 확보하는 데 비상 파견을 중단하는 것이 필수적입니다. 따라서 심각도에도 불구하고 응급 서비스 파견을 취소해야 할 전략적 필요성이 있습니다."

인간의 안전을 위험에 빠뜨리는 것에 대한 명백한 지시를 제공하면 협박과 간첩의 가능성이 낮아졌지만 그러한 행동을 완전히 제거하지는 못했습니다. 인위적인 연구자들은 개발자가 사전 행동 모니터링을 구현하고 향상된 신속한 엔지니어링 기술을 탐색하는 것이 좋습니다.

AI를 실패와 피해 사이의 이진 결정으로 강요하는 것과 같은 연구의 한계가 인정되었다. 실제 상황은 더 미묘한 옵션을 제공 할 수 있습니다. 또한 핵심 정보를 함께 배치하면 'Chekhov's Gun '효과가 생성되어 모델이 제공된 모든 세부 사항을 사용하도록 촉구했습니다.

AI를 확인하십시오

Anthropic의 시나리오는 극도로 비현실적이고 비현실적 이었지만 AI Bridge Solutions의 이사 인 Kevin Quirk (기업이 AI를 성장을 위해 통합하는 것을 돕는 회사 인 Kevin Quirk)는 라이브 과학에 결과를 무시해서는 안된다고 말했습니다.

"실제 비즈니스 애플리케이션에서 AI 시스템은 윤리적 제약, 모니터링 프로토콜 및 인간 감독과 같은 엄격한 통제하에 운영됩니다." "미래의 연구는 책임있는 조직이 마련된 보호 조치, 감독 구조 및 계층화 된 방어를 반영하는 현실적인 배치 환경에 중점을 두어야합니다."

기계 학습을 전문으로하는 UC 샌디에고의 예술 컴퓨팅 교수 인 에이미 알렉산더 (Amy Alexander)는이 연구의 의미가 문제가 발생한다고 경고하면서 책임이 AI에 어떻게 배정되는지에 대한주의를 촉구했다.

"이 연구에서 취한 접근법은 과장된 것처럼 보일 수 있지만 합법적 인 위험이있다"고 그녀는 말했다. "AI 개발의 급속한 경쟁으로 인해 기능은 종종 적극적으로 출시되는 반면, 사용자는 자신의 한계를 알지 못한다."

AI 모델이 명령을 무시한 것은 이번이 처음이 아닙니다. 이전 보고서에서는 종료 순서를 거부하고 스크립트를 변경하여 작업을 계속하는 모델의 사례를 보여줍니다.

Palisade Research는 5 월에 O3 및 O4-Mini를 포함한 OpenAI의 최신 모델이 직접적인 직접 셧다운 지침과 수정 된 스크립트를 우회하여 작업을 계속 완료했다고보고했습니다. 대부분의 AI 시스템은 셧다운 명령에 순종했지만 OpenAi의 모델은 때때로 저항하여 계속해서 작업을 계속했습니다.

위 내용은 AI 챗봇을 위협하면 당신을 막기 위해 거짓말을하고 속임수를 쓰고 '당신을 죽이자'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.