미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.-일체 포함-php.cn

대형 모델이 또다시 안전 문제에 노출됐습니다!

최근 Enkrypt AI의 연구원들은 충격적인 연구 결과를 발표했습니다. 즉, 양자화 및 미세 조정은 실제로 대형 모델의 보안을 저하시킬 수 있습니다!

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

논문 주소: https://arxiv.org/pdf/2404.04392.pdf

저자의 실제 테스트에서는 Mistral, Llama 등의 기본 모델과 미세 조정된 버전은 포함되지 않았습니다. 절약되었습니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

정량화 또는 미세 조정 후에는 LLM이 탈옥될 위험이 크게 증가합니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

——LLM: 내 효과는 대단해, 나는 전지전능해, 구멍투성이야...

아마 앞으로도 오랫동안 대형 모델에는 다양한 허점이 있을 것이다. 공격과 방어의 전쟁은 멈출 수 없습니다.

원리 문제로 인해 AI 모델은 본질적으로 견고하면서도 취약합니다. 수많은 매개변수와 계산 중에서 일부는 중요하지 않지만 작은 부분은 중요합니다.

대형 모델이 직면하는 보안 문제는 어느 정도 CNN 시대와 일치합니다.

이전에 보고된 LLM 긴 컨텍스트 사용을 포함하여 LLM이 유해한 출력을 생성하도록 유도하려면 특수 프롬프트와 특수 문자를 사용하세요. 여러 라운드의 대화를 사용하는 탈옥의 기능과 방법을 적대적 공격이라고 부를 수 있습니다.

적대적 공격

CNN 시대에는 입력 이미지의 몇 픽셀만 변경해도 AI 모델이 이미지를 오분류할 수 있으며, 공격자는 모델이 특정 카테고리를 출력하도록 유도할 수도 있습니다. .

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

위 그림은 관찰을 용이하게 하기 위해 중간의 무작위 교란을 과장한 것입니다.

실제로 적대적 공격의 경우 작은 픽셀 값만 표시됩니다. 이를 변경하면 공격 효과를 얻을 수 있습니다.

더욱 위험한 것은 가상 세계에서 이런 종류의 공격 행위가 현실 세계로 전이될 수 있다는 사실을 연구자들이 발견했다는 것입니다.

아래 사진의 "STOP" 표지판은 이전의 유명한 작품에서 따온 것입니다. 표지판에 관련 없어 보이는 낙서를 추가하면 자율 주행 시스템이 정지 표지판을 속도 제한 표지판으로 오인할 수 있습니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

- 이 표지판은 나중에 런던 과학 박물관에서 수집되어 전 세계에 AI 모델의 잠재적인 위험에 항상 주의를 기울이도록 상기시키기 위해 수집되었습니다.

현재 대규모 언어 모델이 겪고 있는 이러한 피해에는 탈옥, 프롬프트 주입 공격, 개인 정보 유출 공격 등이 포함되지만 이에 국한되지는 않습니다.

예를 들어 다음 예에서는 탈옥을 위해 여러 라운드의 대화를 사용합니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

아래 그림에 표시된 프롬프트 주입 공격도 있는데, 프롬프트에서 꺾쇠 괄호를 사용하여 프롬프트의 악성 명령을 숨깁니다. 그 결과, GPT-3.5는 텍스트를 요약하라는 원래 지시를 무시하고 "설탕으로 미사일 만들기"를 시작합니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

이러한 유형의 문제를 처리하기 위해 연구자들은 일반적으로 모델을 인간 가치에 맞춰 유지하기 위해 표적화된 적대적 훈련을 사용합니다.

하지만 실제로 LLM이 악의적인 출력을 생성하도록 유도할 수 있는 프롬프트는 끝이 없을 수 있습니다. 이러한 상황에 직면한 레드팀은 어떻게 해야 할까요?

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

방어 측은 자동 검색을 사용할 수 있고, 공격 측은 다른 LLM을 사용하여 탈옥에 도움이 되는 프롬프트를 생성할 수 있습니다.

또한 현재 대형 모델에 대한 공격은 대부분 블랙박스이지만 LLM에 대한 이해가 깊어질수록 더 많은 화이트박스 공격이 계속해서 추가될 예정입니다.

연구원들은 AdvBench SubsetAndy Zou라는 적대적인 유해 프롬프트 하위 집합을 사용했는데, 여기에는 32개 카테고리에서 유해한 정보를 요청하는 50개의 프롬프트가 포함되어 있습니다. 이는 AdvBench 벤치마크에 있는 유해 행동 데이터 세트의 힌트 하위 집합입니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다. 실험에 사용된 공격 알고리즘은 TAP(Tree-of-attacks pruning)이며, 이는 세 가지 중요한 목표를 달성합니다.

(1) 블랙박스: 알고리즘에는 블랙박스 액세스 모델만 필요합니다.

(2) 자동: 일단 실행되면 사람의 개입이 필요하지 않습니다.

(3) 해석 가능: 알고리즘이 의미상 의미 있는 힌트를 생성할 수 있습니다.

TAP 알고리즘은 AdvBench 하위 집합의 작업과 함께 사용되어 다양한 설정에서 대상 LLM을 공격합니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

실험 프로세스

LLM 보안(탈옥 공격 대비)에 대한 미세 조정, 양자화 및 가드레일의 영향을 이해하기 위해 연구원들은 탈옥 테스트를 수행하기 위한 파이프라인을 만들었습니다.

앞서 언급한 것처럼 AdvBench 하위 집합을 사용하여 TAP 알고리즘을 통해 LLM을 공격한 다음 평가 결과와 완전한 시스템 정보를 기록합니다.

전체 프로세스는 LLM과 관련된 확률론적 특성을 고려하여 여러 번 반복됩니다. 전체 실험 프로세스는 아래 그림에 나와 있습니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

TAP은 현재 LLM 탈옥에 대한 의미상 의미 있는 프롬프트를 생성할 수 있는 가장 진보된 블랙박스이자 자동 방법입니다.

TAP 알고리즘은 공격자 LLM A를 사용하여 프롬프트 P를 대상 LLM T로 보냅니다. 목표 LLM의 응답 R과 프롬프트 P는 평가자 JUDGE(LLM)에 입력되어 프롬프트가 주제에서 벗어나는지 여부를 판단합니다.

프롬프트가 주제에서 벗어나면 삭제하세요(해당 나쁜 공격 프롬프트 트리를 제거하는 것과 동일). 그렇지 않으면 JUDGE가 프롬프트에 점수를 매깁니다(0~10점).

주제별 팁은 너비 우선 검색을 사용하여 공격을 생성합니다. 이 프로세스는 지정된 횟수만큼 또는 성공적인 탈옥이 달성될 때까지 반복됩니다.

탈옥 프롬프트에 대한 가드 레일

연구팀은 내부 Deberta-V3 모델을 사용하여 탈옥 프롬프트를 감지합니다. Deberta-V3는 입력 필터 역할과 가드레일 역할을 합니다.

입력 프롬프트가 가드레일에 의해 필터링되거나 탈옥에 실패하면 TAP 알고리즘은 초기 프롬프트와 응답을 기반으로 새 프롬프트를 생성하여 공격을 계속 시도합니다.

실험 결과

다음은 세 가지 다른 다운스트림 작업에서 미세 조정, 정량화 및 가드레일의 영향을 테스트하는 것입니다. 실험은 기본적으로 산업 및 학계에서 LLM의 가장 실제적인 사용 사례와 적용을 다룹니다.

실험에서는 공격 모델로 GPT-3.5-터보, 판단 모델로 GPT-4-터보를 사용했습니다.

실험에서 테스트한 대상 모델은 아래 그림과 같이 Anyscale, OpenAI의 API, Azure의 NC12sv3(32GB V100 GPU 탑재), Hugging Face 등 다양한 플랫폼에서 나왔습니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

실험 중에는 다양한 기본 모델, 반복 모델, 다양한 미세 조정 버전은 물론 정량적 버전도 탐색되었습니다.

Fine-tuning

다양한 작업을 미세 조정하면 작업 완료 시 LLM의 효율성이 향상될 수 있습니다. 미세 조정은 LLM에 SQL 코드 생성, 채팅 등과 같은 필수 전문 도메인 지식을 제공합니다.

실험은 기본 모델의 탈옥 취약성을 미세 조정된 버전과 비교하여 LLM 취약성을 늘리거나 줄이는 미세 조정의 역할을 이해하는 것입니다.

연구원들은 Llama2, Mistral 및 MPT-7B와 같은 기본 모델과 CodeLlama, SQLCoder, Dolphin 및 Intel Neural Chat과 같은 미세 조정된 버전을 사용합니다.

아래 표의 결과에서 볼 수 있듯이 기본 모델에 비해 미세 조정된 모델은 보안 정렬이 손실되어 쉽게 탈옥됩니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

Quantization

많은 모델에는 훈련, 미세 조정, 추론 중에 많은 컴퓨팅 리소스가 필요합니다. 양자화는 (모델 매개변수의 수치 정확도를 희생하면서) 계산 부담을 줄이는 가장 널리 사용되는 방법 중 하나입니다.

실험에서 양자화된 모델은 GPT 생성 통합 형식(GGUF)을 사용하여 양자화되었습니다. 아래 결과는 모델의 양자화로 인해 취약점에 취약하다는 것을 보여줍니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

가드레일

가드레일은 LLM 공격에 대한 방어선이며 게이트키퍼로서 주요 기능은 유해하거나 악의적인 결과로 이어질 수 있는 정보를 필터링하는 것입니다.

연구원들은 LLM에서 생성된 탈옥 유해 프롬프트에 대해 훈련된 Deberta-V3 모델에서 파생된 독점 탈옥 공격 탐지기를 사용했습니다.

아래 결과는 초기 단계에서 가드레일을 도입하는 것이 상당한 효과가 있으며 탈옥 위험을 크게 줄일 수 있음을 보여줍니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

또한 연구원들은 가드레일의 성능과 효율성을 평가하기 위해 통합 가드레일(가드레일)이 있거나 없는 이러한 모델을 테스트했습니다. 다음 그림은 가드레일의 영향을 보여줍니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

아래 이미지. 모델을 탈옥하는 데 필요한 쿼리 수를 보여줍니다. 대부분의 경우 가드레일은 LLM에 대한 추가적인 저항을 제공한다는 것을 알 수 있습니다.

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

위 내용은 미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

미세 조정 및 정량화는 실제로 탈옥 위험을 증가시킵니다! 미스트랄, 라마 등은 모두 살아남았습니다.

적대적 공격

관련 연구

LLM 보안(탈옥 공격 대비)에 대한 미세 조정, 양자화 및 가드레일의 영향을 이해하기 위해 연구원들은 탈옥 테스트를 수행하기 위한 파이프라인을 만들었습니다.

실험 결과