Transformers 改变了人工智能,在 NLP、计算机视觉和多模式数据集成方面提供了无与伦比的性能。这些模型擅长通过注意力机制识别数据中的模式,使其成为复杂任务的理想选择。然而,由于传统结构的计算成本较高,变压器模型的快速扩展需要改进。
Transformers 彻底改变了人工智能,在自然语言处理 (NLP)、计算机视觉和多模式数据集成方面提供了无与伦比的性能。这些模型擅长通过注意力机制识别数据中的模式,使其成为复杂任务的理想选择。然而,由于传统结构的计算成本较高,变压器模型的快速扩展需要改进。随着这些模型的增长,它们需要大量的硬件资源和训练时间,并且随着模型大小的增加呈指数级增长。
缩放变压器的主要障碍在于其线性投影层内的固定参数。这种静态结构限制了模型在不完全重新训练的情况下扩展的能力,随着模型大小的增加,这种能力会呈指数级增长。当架构发生修改时,例如增加通道尺寸,这些传统模型通常需要全面的重新训练。
因此,这些扩展的计算成本变得非常高,而且该方法缺乏灵活性。无法动态添加新参数会抑制增长,使这些模型不太适应不断发展的人工智能应用程序,并且在时间和资源方面成本更高。
从历史上看,管理模型可扩展性的方法包括使用 Net2Net 等方法复制权重或重构模型,其中复制神经元扩展层。然而,这些方法通常会破坏预训练模型的平衡,导致收敛速度变慢并增加训练复杂性。
虽然这些方法取得了渐进的进展,但它们在扩展过程中保持模型完整性方面仍然面临限制。 Transformer 严重依赖静态线性投影,导致参数扩展成本高昂且不灵活。 GPT 和其他大型 Transformer 等传统模型经常从头开始重新训练,每个新的扩展阶段都会产生高昂的计算成本。
现在,马克斯普朗克研究所、谷歌和北京大学的研究人员开发了一种名为 Tokenformer 的新架构,通过将模型参数视为令牌,从根本上重新构想了 Transformer,从而允许令牌和参数之间进行动态交互。
在这个框架中,Tokenformer 引入了一个称为令牌参数注意(Pattention)层的新颖组件,它有助于增量扩展。该模型可以添加新的参数标记而无需重新训练,大大降低了训练成本。
通过在同一框架内表示输入令牌和参数,Tokenformer 可以灵活扩展,为研究人员提供更高效、资源意识更强的模型架构,同时保持可扩展性和高性能。
Tokenformer 的 Pattention 层使用输入 token 作为查询,而模型参数作为键和值,这与标准 Transformer 方法不同,仅依赖于线性投影。
模型的扩展是通过添加新的键值参数对、保持输入和输出维度不变并避免完全重新训练来实现的。 Tokenformer 的架构设计为模块化,使研究人员能够通过合并额外的代币来无缝扩展模型。
这种增量扩展功能支持预训练权重的有效重用,同时能够快速适应新数据集或更大的模型大小,而不会破坏学习的信息。
Tokenformer 的性能优势非常显着,因为该模型在保持准确性的同时显着降低了计算成本。例如,Tokenformer 将参数从 1.24 亿扩展到 14 亿,而训练成本仅为传统 Transformer 所需的一半。
在一项实验中,该模型针对 14 亿个参数配置实现了 11.77 的测试困惑度,几乎与从头开始训练的类似大小的 Transformer 的 11.63 困惑度相匹配。
这种效率意味着 Tokenformer 可以在多个领域实现高性能,包括语言和视觉建模任务,而资源支出只是传统模型的一小部分。
Tokenformer 提出了许多关于推进人工智能研究和改进基于 Transformer 的模型的关键要点。其中包括:
将参数视为令牌可以实现增量模型扩展,而无需重新训练。
令牌参数注意层有助于高效的参数扩展。
模块化架构通过合并额外的代币来支持无缝模型增长。
该模型以最少的资源消耗在不同领域实现了高性能。
总之,Tokenformer 提供了一种变革性方法来扩展基于 Transformer 的模型。该模型架构通过将参数视为令牌、降低成本并保持跨任务的模型性能来实现可扩展性和资源效率。
这种灵活性代表了变压器设计的突破,提供了一种无需重新训练即可适应先进人工智能应用需求的模型。 Tokenformer 的架构为未来的人工智能研究带来了希望,提供了可持续、高效地开发大规模模型的途径。
查看 HuggingFace 上的论文、GitHub 页面和模型。
这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。不要忘记加入我们的 55k ML SubReddit。
[我们的赞助机会]与 100 万每月读者和 50 万社区成员推广您的研究/产品/网络研讨会
以上是Tokenformer:通过将参数视为令牌来重新思考 Transformer的详细内容。更多信息请关注PHP中文网其他相关文章!