연구원들은 기본 모델을 변경하지 않고 암시적 및 명시적 함수를 사용하여 LLM을 미세 조정한 후 인간 가치를 통합하는 추론 시간 정렬 방법을 개발했습니다.
학습 기반 알고리즘으로 모델을 훈련한 후 인간의 가치를 통합하려면 LLM을 미세 조정해야 하는데, 이는 계산 비용과 시간이 많이 소요됩니다. 더욱이 이는 사용자로부터 편향되고 바람직하지 않은 반응을 생성합니다. 추론 시 간섭할 수 있는 알고리즘을 통합하여 사용자 선호도에 실시간으로 효율적으로 적응할 수 있는 모델이 필요합니다. 이 방법을 사용하면 기본 모델을 동결하고 LLM 미세 조정에 드는 계산 비용을 줄임으로써 원하는 결과를 얻기 위해 모델을 반복적으로 재교육하는 것을 피할 수 있습니다.
연구원들은 기본 모델을 변경하지 않고 암시적 및 명시적 함수를 사용하여 LLM을 미세 조정한 후 인간 가치를 통합하는 추론 시간 정렬 방법을 개발했습니다. 암시적 함수는 단어 단위로 평가를 수행하고 가장 높은 확률의 출력을 선호하는 토큰 생성에 사용됩니다. 대조적으로, 명시적 함수는 전체 맥락을 유지하면서 더 큰 텍스트 덩어리를 평가하고 가장 높은 확률로 다음 단어 시퀀스를 생성하기 위해 엄격한 구조를 필요로 합니다. 명시적 함수는 유연성이 없고 계산 비용이 많이 들기 때문에 토큰 수준 최적화를 처리하지 못하는 반면, 암시적 함수는 해석 가능성 문제에 직면하고 빈번한 전달이 필요하므로 실시간 효율성이 낮습니다.
두 기능의 단점을 해결하기 위해 제안된 방법인 IVG(Integrated Value Guidance)는 암시적 함수의 토큰 수준 최적화와 명시적 함수의 더 넓은 관점을 결합합니다. 이는 적응 문제와 정렬 효율성의 상충 관계를 방지하여 성능 불일치를 줄이고 구현을 더 쉽게 만들 수 있었습니다. 이러한 장점은 제어된 감정 생성 및 요약과 같은 작업에서 더 나은 성능을 촉진했습니다. IVG는 GPT-2와 같은 소형 모델과 결합하면 상위 모델과 경쟁할 수 있습니다.
IVG는 모델을 인간의 가치에 맞추기 위해 암시적 함수와 명시적 함수라는 두 가지 가치 함수를 통합합니다. 첫째, 토큰 방식 샘플링은 개별 토큰을 특정 시퀀스 길이로 미세 조정하여 여러 시퀀스를 생성합니다. 그런 다음 청크 수준 빔 검색은 이러한 시퀀스의 확률을 비교하고 확률이 가장 높은 시퀀스를 선택합니다. 이 방법을 사용하면 출력이 더 강력해지지만 잦은 순방향 전달로 인해 추론 시간 동안 계산 능력이 증가하여 응답 속도가 느려집니다.
연구원들은 IVG를 평가하기 위해 두 가지 실험 설정을 사용했습니다. 1. 통제된 감정 생성 및 요약, 2. 지시 따르기. 첫 번째에서는 GPT-2 모델 계열을 사용하여 금 보상 모델의 합성 데이터 세트를 활용하여 긍정적인 영화 리뷰를 생성하고 Reddit 게시물을 요약합니다. 이에 비해 두 번째 모델에는 명령 조정 모델인 AlpacaEval 2.0이 필요합니다. 이는 암시적 기능에 대해 특정 모델을 사용하고 명시적 기능에 대해 보상 기반 모델을 훈련하는 Tulu Guidance와 두 기능 모두에 대해 DPO(Direct Preference Optimization)를 사용하여 모델을 미세 조정하는 Ultraguidance를 사용합니다. 두 번째 실험에서는 GPT-4-turbo를 참고로 반응을 평가하였고, IVG는 꾸준히 좋은 성능을 보였습니다.
이 두 가지 실험 외에도 절제 연구를 통해 청크 수준 빔 검색(CBS)이 미세 조정에 암시적 함수를 사용하는 EFT(에뮬레이터 미세 조정)보다 속도 효율성이 더 높다는 것이 입증되었습니다. 이러한 결과는 CBS가 실제로 사용하기에 훨씬 더 우수하다는 것을 입증했습니다.
결론적으로 IVG(Integrated Value Guidance)는 전통적인 미세 조정의 복잡성을 우회하여 순전히 추론 시간에 대규모 언어 모델을 인간 선호도에 맞추는 새롭고 효율적인 접근 방식을 제공합니다. IVG는 암시적 및 명시적 가치 함수를 활용하여 토큰 방식 샘플링과 청크 수준 디코딩 모두에서 성능을 향상시킵니다. 이는 감정 생성, 요약 및 지시 따르기 작업의 상당한 개선을 통해 입증되었습니다. 결과에 따르면 IVG는 기존 접근 방식을 능가하는 능력에 대한 강력한 경험적 증거를 제공하여 실제 응용 분야에서 대형 모델을 미세 조정하기 위한 유망한 솔루션인 다용도 방법으로 나타났습니다.
50,000 ML SubReddit에 참여하는 것을 잊지 마세요
100만 AI 독자들 앞에 다가가고 싶나요? 여기서 우리와 함께 일하세요
위 내용은 IVG: 추론 시 인간의 가치를 대규모 언어 모델에 통합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!