搜索

没有相关内容~

魔改RNN挑战Transformer，RWKV上新：推出两种新架构模型
不走Transformer寻常路，魔改RNN的国产新架构RWKV，有了新进展：提出了两种新的RWKV架构，即Eagle(RWKV-5)和Finch（RWKV-6)。这两种序列模型以RWKV-4架构为基础，然后作了改进。新架构的设计进步包括多头矩阵值状态（multi-headedmatrix-valuedstates）和动态递归机制（dynamicrecurrencemechanism），这些改进提高了RWKV模型的表达能力，同时保持RNN的推理效率特征。同时，新架构引入了一个新的多语言语料库，包
2024-04-15评论:0访问次数:856
无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍
无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100倍在AI赛道中，小模型近来备受瞩目，相较于拥有上千亿参数的模型。例如，法国AI初创公司发布的Mistral-7B模型在每个基准测试中都表现优于Llama213B，并且在代码、数学和推理方面都超过了Llama134B。与大模型相比，小模型具有很多优点，比如对算力的要求低、可在端侧运行等。近日，又有一个新的语言模型出现了，即7.52B参数Eagle7B，来自开源非盈利组织RWKV，其具有以下特点：基于RWKV-v5架构构建，该架构的
2024-02-01评论:0访问次数:831
介绍RWKV：线性Transformers的兴起和探索替代方案
以下是我在RWKV播客中的一些想法摘要：https://www.latent.space/p/rwkv#details为什么替代方案的重要性如此突出？随着2023年的人工智能革命，Transformer架构目前正处于巅峰。然而，由于人们急于采用成功的Transformer架构，所以会容易忽视可以借鉴的替代品。作为工程师，我们不应该采取一刀切的方法，对每个问题都使用相同的解决方案。我们应该在每一个情况下权衡利弊；否则将会被困在特定平台的限制范围内，同时因不知道有其他选择而感到“满足”，这可能会使发
2023-09-27评论:0访问次数:2127
RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多
在大模型内卷的同时，Transformer的地位也接连受到挑战。近日，RWKV发布了Eagle7B模型，基于最新的RWKV-v5架构。Eagle7B在多语言基准测试中脱颖而出，在英语测试中与顶尖模型不相上下。同时，Eagle7B用的是RNN架构，相比于同尺寸的Transformer模型，推理成本降低了10-100倍以上，可以说是世界上最环保的7B模型。由于RWKV-v5的论文可能要下个月才能发布，我们先提供RWKV的论文，这是第一个将参数扩展到数百亿的非Transformer架构。图片论文地址：https
2024-02-19评论:访问次数:616
CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术
视频理解的核心目标是准确理解时空表示，但面临两个主要挑战：短视频片段中存在大量时空冗余，并且复杂的时空依赖关系。三维卷积神经网络（CNN）和视频Transformer曾在解决其中一个挑战方面表现出色，但它们在同时应对这两个挑战时存在一定不足。UniFormer尝试结合这两种方法的优势，但在建模长视频方面遇到了困难。S4、RWKV和RetNet等低成本方案在自然语言处理领域的出现，为视觉模型开辟了新的途径。Mamba凭借其选择性状态空间模型(SSM)脱颖而出，实现了在保持线性复杂性的同时促进长期动
2024-03-25评论:0访问次数:196

更多杂文

魔改RNN挑战Transformer，RWKV上新：推出两种新架构模型

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

介绍RWKV：线性Transformers的兴起和探索替代方案

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

php.cn