CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다.-일체 포함-php.cn

CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다.

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文主要作者来自清华大学和卡内基梅隆大学（CMU）。共同一作为清华大学计算机系本科毕业生赵晨阳，卡内基梅隆大学硕士生贾雪莹。
虽然大规模语言模型（LLM）在许多自然语言处理任务中表现优异，但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现，现有的方法主要依赖于高质量的人工标注数据。这类数据的收集过程既耗时又费力，对于数据稀缺的任务尤为困难。
为了解决这个问题，一些研究尝试通过强大的 Teacher Model 生成训练数据，来增强 Student Model 在特定任务上的性能。然而，这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下，如何持续迭代模型的能力，成为了亟待解决的问题。
来自卡内基梅隆大学和清华大学的研究团队提出了 SELF-GUIDE 方法。该方法通过语言模型自身生成任务特定的数据集，并在该数据集上进行微调，从而显著提升模型在特定任务上的能力，无需依赖大量外部高质量数据或更强大的 Teacher Model。具体来说，在外部输入大约 3 个样例的情况下，SELF-GUIDE 采用多阶段的生成和过滤机制，利用模型生成的合成数据进行微调，使模型在特定任务上的表现更加出色。

CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다.

论文地址：https://arxiv.org/abs/2407.12874代码仓库:https://github.com/zhaochenyang20/Prompt2Model- SELF-GUIDE

CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다.

图 1：SELF-GUIDE 利用模型自主合成数据的能力提升模型执行特定任务的能力。

方法

具体来说，研究团队将 SELF-GUIDE 方法分解为三个主要阶段：输入数据生成、输出数据生成和质量优化。

输入数据生成

在 SELF-GUIDE 框架的设计和实现过程中，研究者首先根据任务类型（生成型任务或分类型任务）指定不同的提示模板。对于生成型任务，SELF-GUIDE 框架使用一个相对简单的提示模板。而对于分类型任务，SELF-GUIDE 框架则采用了另一种策略。对于分类任务，SELF-GUIDE 框架首先从全部标签空间中随机选择一个标签，将其作为条件生成的伪标签，指导输入数据的生成。选定伪标签后，SELF-GUIDE 框架使用较为复杂的条件生成模板，引导模型生成与所选伪标签相对应的输入内容。

CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다.

图 2：SELF-GUIDE 的核心在于一个高效的多阶段生成机制，其中语言模型逐步生成输入-输出数据组合。经过生成和过滤后，自生成的数据进一步用于微调语言模型本身。此图描述了 SELF-GUIDE 针对生成任务的流程。

选定模板并填充示例（few-shot examples）后，完整的提示被传递给 LLM，以生成输入数据。每轮提示后，新生成的输入会被添加到输入库中。从这个库中随机抽取一部分输入，并与初始示例中的输入合并，形成新的提示，逐步扩展 LLM 生成的输入集并且减少重复。SELF-GUIDE 仅进行一轮输入生成，随后在质量优化阶段，应用基于规则的过滤器来去除低质量的输入。

CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다.

그림 3: 이 그림은 SELF-GUIDE가 분류 작업을 완료하는 과정을 설명합니다. 분류 작업의 데이터에 대해 SELF-GUIDE는 먼저 의사 레이블을 생성한 다음 해당 입력을 생성하고 마지막으로 실제 레이블을 재생성합니다.
출력 데이터 생성
출력 데이터 생성 단계에서는 일반적인 컨텍스트 학습 방법을 사용합니다. 연구원은 모델에 작업 지침과 원본 예제를 제공하여 모델이 입력 생성 단계에서 생성된 각 입력에 레이블을 지정할 수 있도록 합니다. 모든 출력을 얻은 후 최종 합성 데이터 세트를 선택하기 위해 또 다른 규칙 기반 필터링이 수행됩니다.
품질 최적화
생성된 데이터의 품질은 다운스트림 교육의 성공에 매우 중요합니다. SELF-GUIDE는 품질을 향상시키기 위해 두 가지 전략을 채택합니다. 즉, 생성 매개변수를 조정하여 생성 품질을 향상시키는 것과 규칙에 따라 품질이 낮은 샘플을 필터링하는 것입니다.
온도 조정: 온도 조정은 다양성과 품질의 균형을 맞추는 일반적인 전략입니다. SELF-GUIDE 프레임워크는 입력 생성 단계에서 더 높은 온도를 사용하여 다양성을 장려하고 다른 단계에서는 더 낮은 온도를 사용하여 가장 높은 확률의 출력을 보장함으로써 전반적인 데이터 품질을 보장합니다. 그러나 온도 조절만으로는 원하는 균형을 이루기에 충분하지 않습니다. 따라서 SELF-GUIDE는 입력 생성 후와 출력 주석 후에 두 차례의 규칙 기반 데이터 필터링도 수행합니다.
노이즈 필터: 연구원은 일반적인 인사말 및 노이즈 문자(예: 생성된 콘텐츠의 "”")를 포함하여 노이즈 용어 목록을 수동으로 편집했습니다. 생성된 예제의 노이즈 용어는 여기에서 입력 또는 출력에 나타납니다.
길이 필터: 예제의 길이가 편향될 수 있지만 연구자들은 이러한 예제가 특정 작업의 길이 분포 측면에서 여전히 대표적이라고 생각합니다. 예제의 길이는 정규분포를 따르며, 연구자는 생성된 예제의 입력 길이와 출력 길이가 동일한 정규분포를 따라야 한다고 가정하고 입력 예제의 평균 μ와 표준편차 σ를 계산합니다. (μ − 2σ, μ + 2σ)에 속합니다.
하나의 매개변수가 모두 적합함: SELF-GUIDE가 지침과 예제에 지정된 목표 분포를 준수하는 훈련 데이터를 생성하려면 레이블이 지정된 매개변수에서 다양한 하이퍼 매개변수를 최적화해야 합니다. 생성된 입력 및 출력 수, 입력 데이터가 생성되는 온도, 출력 데이터가 생성되는 온도, 미세 조정 매개변수 등을 포함한 데이터 포인트입니다. 연구원은 실험 테스트 작업을 두 부분으로 나눕니다. 검증 작업이라고 하는 생성 매개변수를 조정하기 위해 모든 데이터를 사용할 수 있습니다. 데이터의 다른 부분은 테스트에만 사용되며 연구원이 검색하는 매개변수를 조정하는 데 사용할 수 없습니다. SELF-GUIDE 평가를 위해 검증 작업에서 "최악의 작업 성능을 최대화"하는 매개변수를 수정합니다.
실험 결과
연구진은 SELF-GUIDE의 효율성을 평가하기 위해 14개의 분류 작업과 8개의 세대를 선택했습니다. 연구진은 Super-NaturalInstructions V2 벤치마크의 작업 중 절반을 무작위로 선택했으며 나머지 절반은 모델 측면에서 기본 모델로 선택했습니다. 입력 생성, 출력 생성 및 미세 조정에 대해서는 연구원들이 Super-Natural Instructions 벤치마크와 동일하게 사용했으며, 분류 작업에는 Exact Match, 생성 작업에는 ROUGE-L을 사용했습니다. SELF-GUIDE의 효과를 반영하기 위해 연구자들은 SELF-GUIDE를 다른 지시 따르기 및 상황 학습 방법과 비교했습니다.
1.Few-Shot ICL: 주요 벤치마크로 연구자들은 이 접근 방식을 직접 힌트 언어 모델과 비교했습니다.
2. Self-ICL: Self-ICL은 자체 생성된 예제를 사용하여 Zero-shot 작업을 기반으로 수정했습니다. 프롬프트 단어를 채우기 위해 (고정된 수의 예제 대신) 가능한 한 많은 예제를 자체 생성하여 참조 샘플을 작성합니다.
3.Few-Shot Finetuning: 미세 조정을 위해 소수의 입력 샘플을 직접 사용합니다.
SELF-GUIDE 원문의 주요 실험 결과는 다음과 같습니다. 기준 평가 지표에서 분류 작업의 절대 개선률은 14.5%에 도달한 반면, 생성 작업의 절대 개선률은 17.9%에 도달했습니다. 이러한 결과는 SELF-GUIDE가 데이터가 극도로 제한된 경우에도 LLM을 작업별 전문화로 안내하는 데 상당히 효과적이라는 것을 보여줍니다. 이는 LLM을 대규모의 특정 작업에 적용할 수 있는 자체 생성 데이터의 잠재력을 강조합니다. 더 많은 실험 결과와 절제 실험을 보려면 원본 논문을 참조하세요.

CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다. 그림 4: 각 작업 유형(분류 및 생성 작업)에 대해 연구원은 작업을 무작위로 두 부분으로 나누고, 절반은 "하나의 매개변수가 모두 적합" 전략의 매개변수를 디버그하는 데 사용되었고, 다른 하나는 절반은 이러한 디버깅된 매개변수를 사용하는 데 사용되었습니다. 매개변수는 SELF-GUIDE의 성능을 테스트합니다. SELF-GUIDE 전후의 모델 성능을 평가하기 위해 동일한 디코딩 매개변수와 큐 템플릿을 사용합니다.

요약

SELF-GUIDE 프레임워크는 모델이 훈련 데이터를 자율적으로 생성하고 이 데이터를 미세 조정하도록 권장합니다. 실험 결과는 이 방법이 특정 작업에 대한 대규모 언어 모델의 전문적 능력을 향상시키는 데 큰 잠재력이 있음을 보여줍니다. 특히 데이터가 제한적인 경우 SELF-GUIDE는 훈련 데이터 부족 문제를 효과적으로 해결할 수 있습니다. 동시에 이는 자율 모델 적응 및 지속적인 학습을 위한 기술을 탐색하기 위한 참고 자료도 제공합니다. 연구원들은 이 작업이 AI 시스템의 자율적 정렬 및 개선 메커니즘의 개발을 촉진하여 인간의 의도와 더욱 일관되게 만들 수 있기를 바라고 있습니다.

위 내용은 CMU & Tsinghua의 새로운 작업: LLM이 데이터를 합성하여 스스로 학습하게 하면 특정 작업의 성능도 크게 향상됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!