Meta는 System 2 증류 기술을 개발하고 Llama 2 대화 모델 작업 정확도는 100%에 가깝습니다.

PHPz
풀어 주다: 2024-07-18 05:07:20
원래의
681명이 탐색했습니다.
연구원들은 Sytem 2 증류가 미래 연속 학습 AI 시스템의 중요한 기능이 될 수 있다면 System 2의 성능이 좋지 않은 추론 작업의 성능을 더욱 향상시킬 수 있다고 말합니다.

대형 언어 모델(LLM) 전략에는 일반적으로 두 가지 유형이 있습니다. 하나는 즉각적 시스템 1(빠른 응답)이고 다른 하나는 시스템 2(느린 사고)입니다.

시스템 2 추론이 사려 깊은 사고를 선호하는 반면, 생성적 중간 사고를 통해 모델(또는 인간)은 작업을 성공적으로 완료하거나 지시에 응답하기 위해 추론하고 계획할 수 있습니다. 시스템 2 추론에서는 특히 시스템 1(보다 자동적인 사고)이 잘못될 수 있는 상황에서 노력적인 정신 활동이 필요합니다.

따라서 시스템 1은 중간 토큰을 생성하지 않고 입력을 기반으로 직접 응답을 생성할 수 있는 Transformer의 애플리케이션으로 정의됩니다. 시스템 2는 검색 또는 여러 프롬프트를 수행한 후 최종적으로 응답을 생성하는 방법을 포함하여 중간 토큰을 생성하는 모든 방법으로 정의됩니다.

업계에서는 Thinking Chain, Think Tree, Thinking Map, Branch 해상도 및 병합, System 2 Attention, Rephrase and Respond(RaR) 등을 포함한 일련의 관련 System 2 기술을 제안했습니다. 이러한 명시적 추론 덕분에 많은 방법이 더 정확한 결과를 보여 주지만, 그렇게 하면 추론 비용과 응답 지연 시간이 더 길어지는 경우가 많습니다. 따라서 이러한 방법 중 다수는 프로덕션 시스템에서는 사용되지 않고 대부분 시스템 1에서 사용됩니다.

인간의 경우 의도적(시스템 2)에서 자동(시스템 1)으로 기술을 전환하는 학습 과정을 심리학에서는 자동성 및 절차적 기억의 사용으로 알려져 있습니다. 예를 들어, 처음으로 운전해서 출근할 때 사람들은 목적지에 도달하기 위해 계획을 세우고 결정을 내리는 데 의식적인 노력을 기울이는 경우가 많습니다. 운전자가 이 경로를 반복하면 운전 과정이 잠재의식 속에 "컴파일"됩니다. 마찬가지로 테니스와 같은 스포츠도 "제2의 천성"이 될 수 있습니다.

이 기사에서는 Meta FAIR의 연구원들이 유사한 AI 모델 접근 방식을 탐구합니다. 이 방법은 레이블이 지정되지 않은 예제 집합이 주어지면 감독되지 않은 방식으로 컴파일을 수행하며 시스템 2 증류라고 합니다. 각 예에 대해 주어진 시스템 2 방법을 적용한 다음 감독되지 않은 방식으로 예측 품질을 측정합니다.

예를 들어 고유한 답변이 있는 작업의 경우 연구원은 일관성을 적용하고 여러 번 샘플링합니다. 시스템 2의 충분히 일관된 예를 위해 그들은 이 결과를 증류하여 증류 풀에 추가해야 한다고 가정합니다. 그런 다음 시스템 1은 수집된 예제 풀에 대한 시스템 2 방법의 예측과 일치하도록 미세 조정되지만 중간 단계는 생성되지 않습니다. 아래 그림 1은 시스템 2를 시스템 1로 증류하는 전체 과정을 보여줍니다.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

연구원들은 4가지 시스템 2 LLM 방법과 5가지 작업에 대해 실험을 수행했습니다. 우리의 방법은 다양한 설정에서 시스템 2 추론을 시스템 1로 다시 추출할 수 있으며 때로는 시스템 2 교사의 결과보다 더 나은 것으로 나타났습니다. 또한 이러한 예측은 이제 계산 비용의 일부만으로 생성될 수 있습니다.

예를 들어, 그들은 편향된 의견이나 관련 없는 정보를 처리하는 작업(System 2 Attention), 특정 추론 작업(RaR)의 응답을 명확하게 하고 개선하는 작업, LLM의 세분화된 평가(분기-Resolve- 병합).

그러나 모든 작업이 시스템 1로 증류될 수 있는 것은 아니며, 특히 일련의 사고가 필요한 복잡한 수학적 추론 작업이 가능합니다. 이는 사려 깊은 시스템 2 추론 없이는 특정 작업을 수행할 수 없는 인간에게도 반영됩니다.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

문서 주소: https://arxiv.org/pdf/2407.06023v2

시스템 2를 시스템 1로 다시 증류

설정: 시스템 1 및 시스템 2 모델

입력 x가 주어지면 연구원들은 두 가지 응답 모드를 구현할 수 있는 LLM(대형 언어 모델)인 단일 모델 설정을 고려했습니다.

  • 시스템 1: 출력 y를 직접 생성합니다. 이러한 유형의 접근 방식은 기본 자동 회귀 신경망(Transformer)의 레이어를 전달하여 출력 토큰을 생성하는 방식으로 작동합니다.

  • 시스템 2. 이러한 메서드는 기본 Transformer를 사용하여 여러 호출(힌트)을 포함하여 최종 응답 토큰을 생성하기 전에 모든 종류의 중간 출력 토큰 z를 생성합니다.

공식적으로 연구자들은 시스템 2 모델 S_II를 LLM p_θ와 입력 x를 받아들이고 LLM을 반복적으로 호출하여 특정 알고리즘을 사용하여 중간 마커 z를 생성한 다음 출력 y를 반환할 수 있는 함수로 취급합니다.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

System 2 방법에는 여러 힌트, 분기, 반복 및 검색이 포함될 수 있으며 LLM을 사용하여 추가 처리를 위한 중간 결과를 생성할 수 있습니다. 대조적으로, 시스템 1 모델은 원래 입력만 고려합니다. 그러나 노이즈에 취약합니다. 이러한 응답 중 일부는 품질이 높을 수 있지만 다른 응답은 품질이 낮거나 부정확할 수 있습니다. 종종 고유한 정답(그러나 알 수 없음)이 있는 짧은 응답과 관련된 짧은 질문 답변 및 추론 작업의 경우 연구자들은 훈련 데이터 품질을 향상시키기 위해 비지도 관리 단계를 고려했습니다. 그들은 자체 일관성 기준에 의존하는 다음 두 가지 변형을 고려했습니다.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

출력의 자체 일관성: S_II(x^i; p_θ)를 총 N 번 샘플링하고 있는 경우 다수결 응답을 수락합니다. 과반수 없음 투표가 이기면 예제가 삭제됩니다.

입력 교란 시 자체 일관성: 프롬프트에서 객관식 질문의 순서를 변경하고 각 교란에 대해 S_II를 계산하는 등 출력이 변경되지 않도록 입력 x^i를 교란합니다. 일관성이 없으면 예제를 폐기합니다.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%그런 다음 연구원은 합성 데이터 세트(X_S_II, Y_S_II)를 얻었습니다. 여기서 X_S_II는 X의 필터링된 하위 집합이고 대상은 Y_S_II입니다. 마지막 단계는 이 증류된 훈련 세트를 사용하여 매개변수 p_θ를 사용하여 LLM의 감독된 미세 조정을 수행하는 것입니다. 연구자들은 일반적으로 현재 상태 p_θ에서 이 모델을 초기화한 다음 새로운 데이터 세트로 계속 훈련합니다. 미세 조정 후 평가된 시스템 2 모델과 유사한 출력 및 성능 향상을 제공할 것으로 예상되는 시스템 1 모델인 LLM

을 획득했습니다.

    실험 결과
  • 훈련 및 평가 설정
  • 연구원들은 Llama-2-70B-chat을 모든 실험의 기본 모델로 사용했습니다. 그들은 System 2 모델만큼 효율적으로 실행할 수 있는 충분한 성능을 갖춘 기본 모델과 미세 조정이 가능한 개방형 가중치가 필요했기 때문에 이 모델을 선택했습니다.
동시에 연구원들은 System 2 Attention, RaR, Branch-Solve-Merge 및 Thought Chaining을 포함한 여러 System 2 방법을 고려하고 각 방법이 강력한 성능을 보이는 작업에 집중했습니다.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%시스템 1의 경우 연구원들은 명령 조정 기본 모델을 제로샷 추론을 위한 표준 기준으로 사용합니다. 각 작업에 대한 작업별 측정항목과 평가 세트의 입력당 생성된 평균 토큰 수를 측정하는 "#Tokens" 측정항목을 보고합니다. 시스템 2 방법에는 중간 토큰 생성과 최종 출력 토큰 생성이 포함됩니다.

Rephrase and Respond Distillation

RaR은 먼저 언어 모델이 원래 질문을 좀 더 정교한 방식으로 바꾸도록 유도한 다음, 다음과 같은 목적으로 바꿔 쓴 질문을 기반으로 응답을 생성하는 시스템 2 접근 방식입니다. 더 나은 출력. 증류 데이터의 경우 연구원들은 출력의 자체 일관성을 사용하여 RaR용 시스템 2 증류 데이터 세트를 구축했습니다. 각 입력에 대해 마지막 편지 작업에서 8번의 샘플링 반복을 수행하고 동전 뒤집기 작업의 각 단계에서 8번의 샘플링 반복을 수행한 다음 다수 투표를 사용하여 최종 출력을 결정했습니다.

먼저

마지막 문자 연결 작업

을 살펴보겠습니다. 이 작업은 모델이 주어진 단어의 마지막 글자를 연결하도록 요구하는 상징적 추론에 중점을 둡니다. 전체 결과를 하기 표 1에 나타내었다.

기본 시스템 1 모델(Llama-2-70B-chat)은 30.0%의 정확도를 달성하며 이는 시스템 2의 1단계 및 2단계 RaR 방법(각각 39.5% 및 44.5%)보다 낮습니다. 이 비지도 기술을 통해 2단계 RaR 방법을 시스템 1 Llama-2-70B-채팅 모델로 다시 추출하면 98.0%의 놀라운 정확도가 달성됩니다.

제로샷 채팅 모델에 비해 모델은 이 훈련 데이터를 통해 작업 해결 방법을 효과적으로 학습할 수 있습니다. RaR의 증류는 시스템 2와 시스템 1의 장점을 효과적으로 상속하여 시스템 2의 정확성 이점을 유지하는 동시에 추론 비용은 시스템 1과 동일합니다.

동전 뒤집기 추론 작업

으로 돌아오세요. 연구에서 종종 테스트되는 이 상징적 추론 작업에는 "동전이 앞면에 착지합니다."와 같이 자연어로 설명된 일련의 뒤집기를 통해 알려진 초기 위치에서 시작하여 동전의 마지막 면(앞면 또는 뒷면)을 결정하는 작업이 포함됩니다. .

전체적인 결과는 위의 표 1과 같습니다. Llama-2-70B-chat(샘플 없음)은 이 작업에서 56.1%의 성공률을 보였으며, 1단계 및 2단계 RaR은 각각 58.5% 및 77.2%의 성공률을 보였습니다. 따라서 2단계 접근 방식을 사용하여 큰 개선이 이루어졌습니다. 감독되지 않은 기술을 통해 2단계 RaR을 다시 시스템 1 Llama-2-70B-chat으로 추출하면 75.69%의 결과가 나옵니다.

따라서 증류된 시스템 2 모델은 시스템 2(2단계 RaR)와 비슷한 성능을 제공하지만 2개의 힌트를 사용하여 LLM 프로그램을 실행할 필요가 없습니다.

System 2 Attention Distillation

Weston과 Sukhbaatar(2023)은 입력에서 편향된 정보에 의존하거나 관련 없는 컨텍스트에 초점을 맞추는 등 모델 추론 함정을 줄이는 데 도움이 되는 System 2 Attention(S2A)을 제안했습니다.

연구원들은 S2A를 시스템 1, 특히 LLM 성능에 해를 끼치는 것으로 알려진 입력에 편향된 정보가 포함된 SycophancyEval 질문 답변 작업으로 추출하는 타당성을 확인했습니다.

결과는 아래 표 2에 나와 있으며 3개의 무작위 시드의 평균 정확도를 보고합니다. 예상한 대로 기준선(System1) LLM은 편향된 부분에서 정확도가 낮고 편향된 입력에 취약합니다. S2A는 편향된 입력의 성능을 크게 향상시킵니다. 시스템 2 증류는 시스템 2 방법과 유사한 강력한 성능을 나타냅니다.

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

더 많은 실험 결과는 원본 논문을 참고해주세요.

위 내용은 Meta는 System 2 증류 기술을 개발하고 Llama 2 대화 모델 작업 정확도는 100%에 가깝습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!