Tokenformer:通过将参数视为令牌来重新思考 Transformer
Transformers 改变了人工智能,在 NLP、计算机视觉和多模式数据集成方面提供了无与伦比的性能。这些模型擅长通过注意力机制识别数据中的模式,使其成为复杂任务的理想选择。然而,由于传统结构的计算成本较高,变压器模型的快速扩展需要改进。
Transformers 彻底改变了人工智能,在自然语言处理 (NLP)、计算机视觉和多模式数据集成方面提供了无与伦比的性能。这些模型擅长通过注意力机制识别数据中的模式,使其成为复杂任务的理想选择。然而,由于传统结构的计算成本较高,变压器模型的快速扩展需要改进。随着这些模型的增长,它们需要大量的硬件资源和训练时间,并且随着模型大小的增加呈指数级增长。
缩放变压器的主要障碍在于其线性投影层内的固定参数。这种静态结构限制了模型在不完全重新训练的情况下扩展的能力,随着模型大小的增加,这种能力会呈指数级增长。当架构发生修改时,例如增加通道尺寸,这些传统模型通常需要全面的重新训练。
因此,这些扩展的计算成本变得非常高,而且该方法缺乏灵活性。无法动态添加新参数会抑制增长,使这些模型不太适应不断发展的人工智能应用程序,并且在时间和资源方面成本更高。
从历史上看,管理模型可扩展性的方法包括使用 Net2Net 等方法复制权重或重构模型,其中复制神经元扩展层。然而,这些方法通常会破坏预训练模型的平衡,导致收敛速度变慢并增加训练复杂性。
虽然这些方法取得了渐进的进展,但它们在扩展过程中保持模型完整性方面仍然面临限制。 Transformer 严重依赖静态线性投影,导致参数扩展成本高昂且不灵活。 GPT 和其他大型 Transformer 等传统模型经常从头开始重新训练,每个新的扩展阶段都会产生高昂的计算成本。
现在,马克斯普朗克研究所、谷歌和北京大学的研究人员开发了一种名为 Tokenformer 的新架构,通过将模型参数视为令牌,从根本上重新构想了 Transformer,从而允许令牌和参数之间进行动态交互。
在这个框架中,Tokenformer 引入了一个称为令牌参数注意(Pattention)层的新颖组件,它有助于增量扩展。该模型可以添加新的参数标记而无需重新训练,大大降低了训练成本。
通过在同一框架内表示输入令牌和参数,Tokenformer 可以灵活扩展,为研究人员提供更高效、资源意识更强的模型架构,同时保持可扩展性和高性能。
Tokenformer 的 Pattention 层使用输入 token 作为查询,而模型参数作为键和值,这与标准 Transformer 方法不同,仅依赖于线性投影。
模型的扩展是通过添加新的键值参数对、保持输入和输出维度不变并避免完全重新训练来实现的。 Tokenformer 的架构设计为模块化,使研究人员能够通过合并额外的代币来无缝扩展模型。
这种增量扩展功能支持预训练权重的有效重用,同时能够快速适应新数据集或更大的模型大小,而不会破坏学习的信息。
Tokenformer 的性能优势非常显着,因为该模型在保持准确性的同时显着降低了计算成本。例如,Tokenformer 将参数从 1.24 亿扩展到 14 亿,而训练成本仅为传统 Transformer 所需的一半。
在一项实验中,该模型针对 14 亿个参数配置实现了 11.77 的测试困惑度,几乎与从头开始训练的类似大小的 Transformer 的 11.63 困惑度相匹配。
这种效率意味着 Tokenformer 可以在多个领域实现高性能,包括语言和视觉建模任务,而资源支出只是传统模型的一小部分。
Tokenformer 提出了许多关于推进人工智能研究和改进基于 Transformer 的模型的关键要点。其中包括:
将参数视为令牌可以实现增量模型扩展,而无需重新训练。
令牌参数注意层有助于高效的参数扩展。
模块化架构通过合并额外的代币来支持无缝模型增长。
该模型以最少的资源消耗在不同领域实现了高性能。
总之,Tokenformer 提供了一种变革性方法来扩展基于 Transformer 的模型。该模型架构通过将参数视为令牌、降低成本并保持跨任务的模型性能来实现可扩展性和资源效率。
这种灵活性代表了变压器设计的突破,提供了一种无需重新训练即可适应先进人工智能应用需求的模型。 Tokenformer 的架构为未来的人工智能研究带来了希望,提供了可持续、高效地开发大规模模型的途径。
查看 HuggingFace 上的论文、GitHub 页面和模型。
这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。不要忘记加入我们的 55k ML SubReddit。
[我们的赞助机会]与 100 万每月读者和 50 万社区成员推广您的研究/产品/网络研讨会
以上是Tokenformer:通过将参数视为令牌来重新思考 Transformer的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

PiNetwork节点详解及安装指南本文将详细介绍PiNetwork生态系统中的关键角色——Pi节点,并提供安装和配置的完整步骤。Pi节点在PiNetwork区块链测试网推出后,成为众多先锋积极参与测试的重要环节,为即将到来的主网发布做准备。如果您还不了解PiNetwork,请参考Pi币是什么?上市价格多少?Pi用途、挖矿及安全性分析。什么是PiNetwork?PiNetwork项目始于2019年,拥有其专属加密货币Pi币。该项目旨在创建一个人人可参与

随着虚拟货币行业的蓬勃发展,全球范围内的虚拟数字货币交易平台也愈发壮大。本文重点关注 2025 年全球十大虚拟数字货币 App 平台,包括币安、OKX、Gate.io、Kraken、Gemini、FTX、Bybit、KuCoin、火币和 Coinbase。这些平台以其先进的功能、广泛的交易对、低费用和稳定的表现而著称,为用户提供了广泛的虚拟货币交易选择。

加密货币一直是技术的最前沿符合大胆的野心的领域,并且将来只会变得更加令人兴奋。随着人工智能的影响力不断增长,有少数数字资产

Sui区块链的MEV(最大可提取价值)策略及未来展望MEV已成为区块链领域的核心议题,它关乎交易排序和套利机会。Sui致力于通过Sui改进提案(SIP)和其他机制来引导MEV的发展,确保透明度、交易安全、网络健康以及参与者奖励。除现有机制外,Sui还计划引入更多机制,以确保其核心原则能有效指导Sui上MEV的演变。设计原则与考量Sui的每笔交易都蕴含着潜在的利润机会。Sui的MEV生态系统由以下机制构成:MEV交易提交机制MEV机会发布机制MEV
![比特币[BTC]在2月的最后一周失去了92,000美元的支持水平后处于下降趋势](https://img.php.cn/upload/article/001/246/273/174209101774967.jpg?x-oss-process=image/resize,m_fill,h_207,w_330)
诸如OVER之类的技术指标表明,销售压力已占主导地位,这意味着可能会有更多的损失。

本文详细回顾了2015年至2025年比特币的十年价格走势,数据显示比特币价格波动剧烈,经历了从200美元到超过10万美元的巨大变化。期间,比特币价格受多种因素影响,包括区块奖励减半、市场情绪、监管政策以及全球宏观经济形势等。文章逐年分析了比特币价格的涨跌,并对关键年份的价格变化进行了重点解读,为投资者了解比特币价格历史,预测未来走势提供参考。 关键词:比特币价格,比特币走势,比特币十年,数字货币,加密货币

十大免费虚拟币交易所排名依次为:1. OKX;2. Binance;3. Gate.io;4. Huobi Global;5. Kraken;6. Coinbase;7. KuCoin;8. Crypto.com;9. MEXC Global;10. Bitfinex。这些平台各有优势。

十大数字货币app平台排行榜:1. OKX,2. Binance,3. Gate.io,4. Kraken,5. Coinbase,6. Huobi,7. KuCoin,8. Crypto.com,9. Bitfinex,10. Gemini;这些平台根据交易量、安全性和用户体验等因素进行排名,选择时需考虑平台的安全性、流动性、交易费用、币种选择、用户界面和客户支持。