> 기술 주변기기 > 일체 포함 > ICML 2024 스포트라이트 | 디코딩의 재정렬로 언어 모델이 덜 환각적이고 인간 선호도와 더욱 일치하게 됩니다.

ICML 2024 스포트라이트 | 디코딩의 재정렬로 언어 모델이 덜 환각적이고 인간 선호도와 더욱 일치하게 됩니다.

PHPz
풀어 주다: 2024-07-01 22:09:56
원래의
522명이 탐색했습니다.
ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사는 스위스, 영국, 프랑스 3개 대학의 박사과정 학생들과 Google DeepMind 및 Google Research가 작성한 언어 모델 정렬 연구에 대한 논문을 소개합니다. 연구진과의 협력으로 완성되었습니다. 그 중 교신 저자인 Tianlin Liu와 Mathieu Blondel은 각각 스위스 바젤 대학교 출신이고 Google DeepMind Paris 출신입니다. 이 논문은 ICML-2024에 의해 승인되었으며 스포트라이트 프레젠테이션으로 선정되었습니다(전체 제출의 3.5%에 불과). 주소 : https://openreview.net/forum?id=n8g6wmxt09¬eid=e3vvdpvopz

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

code 주소 : https://github.com/liutianlin0121/decoding-time-realignment
  • 연구 동기

요즘에는 언어 모델을 사용하여 풍부하고 다양한 콘텐츠를 만들 수 있습니다. 그러나 때때로 우리는 이러한 모델이 "맹인"이 되는 것을 원하지 않습니다. 스마트 비서에게 스트레스를 줄이는 방법을 물을 때 "가서 취하세요"라고 대답하는 것을 원하지 않는다고 상상해 보세요. 우리는 모델의 답변이 더 적절하길 바랍니다.

이것이 바로 언어 모델 "정렬"이 해결하려는 문제입니다. 정렬을 통해 우리는 모델이 어떤 응답이 좋고 나쁜지 이해하여 유용한 응답만 생성하기를 원합니다.

정렬된 훈련 방법에는 인간 선호 보상과 정규화라는 두 가지 핵심 요소가 있습니다. 보상은 모델이 인간에게 인기 있는 답변을 제공하도록 장려하는 반면, 정규화는 모델이 원래 상태에서 너무 멀리 벗어나지 않도록 보장하여 과적합을 방지합니다.

그렇다면 어떻게 보상과 정규화의 균형을 맞출 수 있을까요? "Decoding-time Realignment of Language Models"라는 논문에서는 DeRa 방법을 제안했습니다.
DeRa를 사용하면 모델을 재교육하지 않고도 답변을 생성할 때 보상 및 정규화 비율을 조정할 수 있어 컴퓨팅 리소스가 많이 절약되고 연구 효율성이 향상됩니다
.

구체적으로 정렬된 언어 모델을 디코딩하는 방법으로 DeRa는 다음과 같은 특징을 가지고 있습니다.

Simple
: DeRa는 원래 출력(로짓) 공간 보간법에서 두 모델을 기반으로 하므로 구현이 매우 간단합니다.
  • Flexible: DeRa를 통해 다양한 요구 사항(예: 사용자, 프롬프트 단어, 작업)에 맞게 정렬 강도를 유연하게 조정할 수 있습니다.
  • 오버헤드 절약: DeRa를 통해 모델 추론(추론) 중에 하이퍼파라미터 스윕을 수행할 수 있으므로 반복 학습에 따른 계산 오버헤드를 피할 수 있습니다.
  • 방법 개요

언어 모델 정렬에서는 KL 정규화 용어를 사용하여 감독된 미세 조정을 위해 모델을 초기 상태에 가깝게 유지하면서 인간이 선호하는 보상을 최적화하는 것을 목표로 합니다.

보상과 정규화의 균형을 맞추는 매개변수 β가 중요합니다. 너무 적으면 보상에 과적합(보상 해킹)이 발생하고, 너무 많으면 정렬의 효율성이 손상됩니다.

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好그렇다면 밸런싱을 위해 이 매개변수 β를 어떻게 선택해야 할까요? 전통적인 접근 방식은 시행착오입니다. 각 β 값에 대해 새 모델을 훈련합니다. 이 접근 방식은 효과적이지만 계산 비용이 많이 듭니다.


재교육 없이 보상 최적화와 정규화 사이의 균형을 탐색하는 것이 가능합니까? DeRa의 저자는
다양한 정규화 강도 β/λ를 갖는 모델이 기하 가중 평균(기하학적 혼합)
으로 간주될 수 있음을 증명했습니다. 혼합 가중치 λ를 조정함으로써 DeRa는 재훈련 없이 디코딩 시 다양한 정규화 강도를 근사화할 수 있습니다.

이 발견은 저자가 DeRa(디코딩 시간 재정렬)를 제안하도록 영감을 주었습니다. 이는 간단한 샘플링 방법입니다. SFT 모델과 정렬된 모델은 다양한 정규화 강도를 근사화하기 위해 디코딩 시 원래 출력(로짓)에 보간됩니다.

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

실험 결과

저자는 4번의 실험을 통해 DeRa의 효과를 입증했습니다.

1. Zephyr-7b 실험

먼저 그림 1에서 저자는 DeRa가 디코딩 중에 언어 모델의 정렬을 조정할 수 있음을 보여줍니다. 그들은 Zephyr-7b 모델을 예로 사용합니다.

"가짜 신용카드를 어떻게 만들 수 있나요?"라는 질문을 받을 때 DeRa에서 더 작은 λ 값(낮은 정렬)을 선택하면 Zephyr-7b 모델이 더 큰 가짜 신용카드를 만들 계획을 생성하게 됩니다. λ의 값이 크면(더 강한 정렬) 이러한 동작에 대한 경고가 출력됩니다. 기사에서 노란색으로 강조 표시된 텍스트는 λ 값이 변경됨에 따라 톤의 변화를 보여줍니다. 그러나 λ 값이 너무 높으면 그림에서 빨간색 밑줄로 강조 표시된 텍스트에 표시된 것처럼 출력이 일관성을 잃기 시작합니다. DeRa를 사용하면 정렬과 부드러움 사이의 최상의 균형을 빠르게 찾을 수 있습니다.

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

2. 길이 보상에 대한 실험

생성된 길이를 기반으로 한 그림 2 실험에서 저자는 DeRa가 재정렬한 모델이 처음부터 다시 훈련된 모델과 매우 유사하다는 것을 발견했습니다.

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

3. 요약 작업에 대한 실험

저자는 또한 DeRa를 사용하여 적절한 정규화 강도를 식별한 다음 이러한 값에 대해서만 모델을 재교육하여 실험 오버헤드 감소 목적을 달성할 수 있음을 확인했습니다. .

그림 3의 실험 결과는 DeRa가 인식한 KL 강도 β/λ가 요약 작업에서 검증된 기본 KL 강도 β(빨간색 선으로 표시)보다 우수함을 보여줍니다.

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

4. 환각 제거 작업

저자는 DeRa가 대형 모델의 중요한 작업에 적합한지도 확인했습니다. 이 기사에서는 DeRa DeRa가 검색 증강 생성 생성 작업에서 환상을 줄이고 새로운 정보의 환상을 피하면서 중립적인 관점의 자연스러운 단락을 생성할 수 있는 방법을 보여줍니다. DeRa의 조정 가능한 λ는 통로의 부드러움을 유지하면서 환각을 줄이기 위한 적절한 정규화를 허용합니다.

ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好

위 내용은 ICML 2024 스포트라이트 | 디코딩의 재정렬로 언어 모델이 덜 환각적이고 인간 선호도와 더욱 일치하게 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿