7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

WBOY 转载: 2023-10-07 16:49:06 136浏览

大型语言模型在性能方面表现出色，能够通过零样本或少样本提示来解决新任务。然而，在实际应用部署中，LLM却不太实用，因为它的内存利用效率低，同时需要大量的计算资源

比如运行一个1750亿参数的语言模型服务至少需要350GB的显存，而目前最先进的语言模型大多已超过5000亿参数量，很多研究团队都没有足够的资源来运行，在现实应用中也无法满足低延迟性能。

也有一些研究使用人工标注数据或使用LLM生成的标签进行蒸馏来训练较小的、任务专用的模型，不过微调和蒸馏需要大量的训练数据才能实现与LLM相当的性能。

为了解决大型模型对资源的需求问题，华盛顿大学与谷歌合作提出了一种名为「分步蒸馏」（Distilling Step-by-Step）的新蒸馏机制。通过分步蒸馏，经过蒸馏后的模型尺寸相较于原模型来说更小，但性能却更优，而且在微调和蒸馏过程中所需的训练数据也更少

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

请点击以下链接查看论文：https://arxiv.org/abs/2305.02301

分布蒸馏机制把LLM中抽取出的预测理由（rationale）作为在多任务框架内训练小模型的额外监督信息。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

经过在4个NLP基准上进行实验后，我们发现：

1. 与微调和蒸馏相比，该机制用更少的训练样本实现了更好的性能；

相较于少样本提示LLM，该机制利用更小尺寸的模型实现了更出色的性能

3. 同时降低模型尺寸和数据量也可以实现优于LLM的性能。

实验中，微调后770M的T5模型在基准测试中仅使用80%的可用数据就优于少样本提示的540B的PaLM模型，而标准微调相同的T5模型即使使用100%的数据集也难以匹配。

蒸馏方法

分布蒸馏的关键思想是逐步抽取出信息丰富且用自然语言描述的预测理由，即中间推理步骤，以解释输入问题与模型输出之间的联系，并通过这些数据来更高效地训练小模型

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

分布蒸馏主要包括两个阶段：

1. 从LLM中提取原理（rationale）

研究人员利用少样本思维链（CoT）提示从LLM中提取预测中间步骤。

在确定目标任务之后，首先在LLM输入提示中准备几个样例。每个样例都由一个三元组组成，包括输入、原理和输出

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

输入提示后，LLM能够模仿三元组演示以生成其他新问题的预测原理，例如，在常识问答案任务中，给定输入问题：

Sammy想去人群聚集的地方。他会选择哪里呢？选项有：（a）人口稠密地区，（b）赛道，（c）沙漠，（d）公寓，（e）路障

（Sammy wanted to go to where the people are. Where might he go? Answer Choices: (a) populated areas, (b) race track, (c) desert, (d) apartment, (e) roadblock）

通过逐步提炼后，LLM可以给出问题的正确答案「（a）人口稠密地区」，并且提供回答问题的理由「答案必须是一个有很多人的地方，在上述选择中，只有人口稠密的地区有很多人。」经过逐步提炼，LLM能够得出正确答案为「（a）人口稠密地区」，并提供了解答问题的理由「答案必须是一个有很多人的地方，在上述选择中，只有人口稠密的地区有很多人。」

通过在提示中提供与基本原理配对的CoT示例，上下文学习能力可以让LLM为未曾遇到的问题类型生成相应的回答理由

2. 训练小模型

通过将训练过程构建为多任务问题，可以将预测理由抽取出来，并将其纳入训练小模型中

除了标准标签预测任务之外，研究人员还使用新的理由生成任务来训练小模型，使得模型能够学习生成用于预测的中间推理步骤，并且引导模型更好地预测结果标签。

通过在输入提示中加入任务前缀「label」和「rationale」来区分标签预测和理由生成任务。