연구원들은 Sytem 2 증류가 미래 연속 학습 AI 시스템의 중요한 기능이 될 수 있다면 System 2의 성능이 좋지 않은 추론 작업의 성능을 더욱 향상시킬 수 있다고 말합니다.
대형 언어 모델(LLM) 전략에는 일반적으로 두 가지 유형이 있습니다. 하나는 즉각적 시스템 1(빠른 응답)이고 다른 하나는 시스템 2(느린 사고)입니다.
시스템 2 추론이 사려 깊은 사고를 선호하는 반면, 생성적 중간 사고를 통해 모델(또는 인간)은 작업을 성공적으로 완료하거나 지시에 응답하기 위해 추론하고 계획할 수 있습니다. 시스템 2 추론에서는 특히 시스템 1(보다 자동적인 사고)이 잘못될 수 있는 상황에서 노력적인 정신 활동이 필요합니다.
따라서 시스템 1은 중간 토큰을 생성하지 않고 입력을 기반으로 직접 응답을 생성할 수 있는 Transformer의 애플리케이션으로 정의됩니다. 시스템 2는 검색 또는 여러 프롬프트를 수행한 후 최종적으로 응답을 생성하는 방법을 포함하여 중간 토큰을 생성하는 모든 방법으로 정의됩니다.
업계에서는 Thinking Chain, Think Tree, Thinking Map, Branch 해상도 및 병합, System 2 Attention, Rephrase and Respond(RaR) 등을 포함한 일련의 관련 System 2 기술을 제안했습니다. 이러한 명시적 추론 덕분에 많은 방법이 더 정확한 결과를 보여 주지만, 그렇게 하면 추론 비용과 응답 지연 시간이 더 길어지는 경우가 많습니다. 따라서 이러한 방법 중 다수는 프로덕션 시스템에서는 사용되지 않고 대부분 시스템 1에서 사용됩니다.
인간의 경우 의도적(시스템 2)에서 자동(시스템 1)으로 기술을 전환하는 학습 과정을 심리학에서는 자동성 및 절차적 기억의 사용으로 알려져 있습니다. 예를 들어, 처음으로 운전해서 출근할 때 사람들은 목적지에 도달하기 위해 계획을 세우고 결정을 내리는 데 의식적인 노력을 기울이는 경우가 많습니다. 운전자가 이 경로를 반복하면 운전 과정이 잠재의식 속에 "컴파일"됩니다. 마찬가지로 테니스와 같은 스포츠도 "제2의 천성"이 될 수 있습니다.
이 기사에서는 Meta FAIR의 연구원들이 유사한 AI 모델 접근 방식을 탐구합니다. 이 방법은 레이블이 지정되지 않은 예제 집합이 주어지면 감독되지 않은 방식으로 컴파일을 수행하며 시스템 2 증류라고 합니다. 각 예에 대해 주어진 시스템 2 방법을 적용한 다음 감독되지 않은 방식으로 예측 품질을 측정합니다.
예를 들어 고유한 답변이 있는 작업의 경우 연구원은 일관성을 적용하고 여러 번 샘플링합니다. 시스템 2의 충분히 일관된 예를 위해 그들은 이 결과를 증류하여 증류 풀에 추가해야 한다고 가정합니다. 그런 다음 시스템 1은 수집된 예제 풀에 대한 시스템 2 방법의 예측과 일치하도록 미세 조정되지만 중간 단계는 생성되지 않습니다. 아래 그림 1은 시스템 2를 시스템 1로 증류하는 전체 과정을 보여줍니다.
연구원들은 4가지 시스템 2 LLM 방법과 5가지 작업에 대해 실험을 수행했습니다. 우리의 방법은 다양한 설정에서 시스템 2 추론을 시스템 1로 다시 추출할 수 있으며 때로는 시스템 2 교사의 결과보다 더 나은 것으로 나타났습니다. 또한 이러한 예측은 이제 계산 비용의 일부만으로 생성될 수 있습니다.
예를 들어, 그들은 편향된 의견이나 관련 없는 정보를 처리하는 작업(System 2 Attention), 특정 추론 작업(RaR)의 응답을 명확하게 하고 개선하는 작업, LLM의 세분화된 평가(분기-Resolve- 병합).
그러나 모든 작업이 시스템 1로 증류될 수 있는 것은 아니며, 특히 일련의 사고가 필요한 복잡한 수학적 추론 작업이 가능합니다. 이는 사려 깊은 시스템 2 추론 없이는 특정 작업을 수행할 수 없는 인간에게도 반영됩니다.
문서 주소: https://arxiv.org/pdf/2407.06023v2
시스템 2를 시스템 1로 다시 증류
설정: 시스템 1 및 시스템 2 모델
입력 x가 주어지면 연구원들은 두 가지 응답 모드를 구현할 수 있는 LLM(대형 언어 모델)인 단일 모델 설정을 고려했습니다.
시스템 1: 출력 y를 직접 생성합니다. 이러한 유형의 접근 방식은 기본 자동 회귀 신경망(Transformer)의 레이어를 전달하여 출력 토큰을 생성하는 방식으로 작동합니다.
시스템 2. 이러한 메서드는 기본 Transformer를 사용하여 여러 호출(힌트)을 포함하여 최종 응답 토큰을 생성하기 전에 모든 종류의 중간 출력 토큰 z를 생성합니다.
공식적으로 연구자들은 시스템 2 모델 S_II를 LLM p_θ와 입력 x를 받아들이고 LLM을 반복적으로 호출하여 특정 알고리즘을 사용하여 중간 마커 z를 생성한 다음 출력 y를 반환할 수 있는 함수로 취급합니다.
System 2 방법에는 여러 힌트, 분기, 반복 및 검색이 포함될 수 있으며 LLM을 사용하여 추가 처리를 위한 중간 결과를 생성할 수 있습니다. 대조적으로, 시스템 1 모델은 원래 입력만 고려합니다. 그러나 노이즈에 취약합니다. 이러한 응답 중 일부는 품질이 높을 수 있지만 다른 응답은 품질이 낮거나 부정확할 수 있습니다. 종종 고유한 정답(그러나 알 수 없음)이 있는 짧은 응답과 관련된 짧은 질문 답변 및 추론 작업의 경우 연구자들은 훈련 데이터 품질을 향상시키기 위해 비지도 관리 단계를 고려했습니다. 그들은 자체 일관성 기준에 의존하는 다음 두 가지 변형을 고려했습니다.
출력의 자체 일관성: S_II(x^i; p_θ)를 총 N 번 샘플링하고 있는 경우 다수결 응답을 수락합니다. 과반수 없음 투표가 이기면 예제가 삭제됩니다.입력 교란 시 자체 일관성: 프롬프트에서 객관식 질문의 순서를 변경하고 각 교란에 대해 S_II를 계산하는 등 출력이 변경되지 않도록 입력 x^i를 교란합니다. 일관성이 없으면 예제를 폐기합니다.
그런 다음 연구원은 합성 데이터 세트(X_S_II, Y_S_II)를 얻었습니다. 여기서 X_S_II는 X의 필터링된 하위 집합이고 대상은 Y_S_II입니다. 마지막 단계는 이 증류된 훈련 세트를 사용하여 매개변수 p_θ를 사용하여 LLM의 감독된 미세 조정을 수행하는 것입니다. 연구자들은 일반적으로 현재 상태 p_θ에서 이 모델을 초기화한 다음 새로운 데이터 세트로 계속 훈련합니다. 미세 조정 후 평가된 시스템 2 모델과 유사한 출력 및 성능 향상을 제공할 것으로 예상되는 시스템 1 모델인 LLM
을 획득했습니다.시스템 1의 경우 연구원들은 명령 조정 기본 모델을 제로샷 추론을 위한 표준 기준으로 사용합니다. 각 작업에 대한 작업별 측정항목과 평가 세트의 입력당 생성된 평균 토큰 수를 측정하는 "#Tokens" 측정항목을 보고합니다. 시스템 2 방법에는 중간 토큰 생성과 최종 출력 토큰 생성이 포함됩니다.
Rephrase and Respond Distillation
RaR은 먼저 언어 모델이 원래 질문을 좀 더 정교한 방식으로 바꾸도록 유도한 다음, 다음과 같은 목적으로 바꿔 쓴 질문을 기반으로 응답을 생성하는 시스템 2 접근 방식입니다. 더 나은 출력. 증류 데이터의 경우 연구원들은 출력의 자체 일관성을 사용하여 RaR용 시스템 2 증류 데이터 세트를 구축했습니다. 각 입력에 대해 마지막 편지 작업에서 8번의 샘플링 반복을 수행하고 동전 뒤집기 작업의 각 단계에서 8번의 샘플링 반복을 수행한 다음 다수 투표를 사용하여 최종 출력을 결정했습니다.
먼저
마지막 문자 연결 작업을 살펴보겠습니다. 이 작업은 모델이 주어진 단어의 마지막 글자를 연결하도록 요구하는 상징적 추론에 중점을 둡니다. 전체 결과를 하기 표 1에 나타내었다.
기본 시스템 1 모델(Llama-2-70B-chat)은 30.0%의 정확도를 달성하며 이는 시스템 2의 1단계 및 2단계 RaR 방법(각각 39.5% 및 44.5%)보다 낮습니다. 이 비지도 기술을 통해 2단계 RaR 방법을 시스템 1 Llama-2-70B-채팅 모델로 다시 추출하면 98.0%의 놀라운 정확도가 달성됩니다.
제로샷 채팅 모델에 비해 모델은 이 훈련 데이터를 통해 작업 해결 방법을 효과적으로 학습할 수 있습니다. RaR의 증류는 시스템 2와 시스템 1의 장점을 효과적으로 상속하여 시스템 2의 정확성 이점을 유지하는 동시에 추론 비용은 시스템 1과 동일합니다.
동전 뒤집기 추론 작업
으로 돌아오세요. 연구에서 종종 테스트되는 이 상징적 추론 작업에는 "동전이 앞면에 착지합니다."와 같이 자연어로 설명된 일련의 뒤집기를 통해 알려진 초기 위치에서 시작하여 동전의 마지막 면(앞면 또는 뒷면)을 결정하는 작업이 포함됩니다. .전체적인 결과는 위의 표 1과 같습니다. Llama-2-70B-chat(샘플 없음)은 이 작업에서 56.1%의 성공률을 보였으며, 1단계 및 2단계 RaR은 각각 58.5% 및 77.2%의 성공률을 보였습니다. 따라서 2단계 접근 방식을 사용하여 큰 개선이 이루어졌습니다. 감독되지 않은 기술을 통해 2단계 RaR을 다시 시스템 1 Llama-2-70B-chat으로 추출하면 75.69%의 결과가 나옵니다.
따라서 증류된 시스템 2 모델은 시스템 2(2단계 RaR)와 비슷한 성능을 제공하지만 2개의 힌트를 사용하여 LLM 프로그램을 실행할 필요가 없습니다.
System 2 Attention Distillation
Weston과 Sukhbaatar(2023)은 입력에서 편향된 정보에 의존하거나 관련 없는 컨텍스트에 초점을 맞추는 등 모델 추론 함정을 줄이는 데 도움이 되는 System 2 Attention(S2A)을 제안했습니다.
연구원들은 S2A를 시스템 1, 특히 LLM 성능에 해를 끼치는 것으로 알려진 입력에 편향된 정보가 포함된 SycophancyEval 질문 답변 작업으로 추출하는 타당성을 확인했습니다.
결과는 아래 표 2에 나와 있으며 3개의 무작위 시드의 평균 정확도를 보고합니다. 예상한 대로 기준선(System1) LLM은 편향된 부분에서 정확도가 낮고 편향된 입력에 취약합니다. S2A는 편향된 입력의 성능을 크게 향상시킵니다. 시스템 2 증류는 시스템 2 방법과 유사한 강력한 성능을 나타냅니다.
더 많은 실험 결과는 원본 논문을 참고해주세요.
위 내용은 Meta는 System 2 증류 기술을 개발하고 Llama 2 대화 모델 작업 정확도는 100%에 가깝습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!