不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:提出了两种新的RWKV架构,即Eagle(RWKV-5)和Finch(RWKV-6)。这两种序列模型以RWKV-4架构为基础,然后作了改进。新架构的设计进步包括多头矩阵值状态(multi-headedmatrix-valuedstates)和动态递归机制(dynamicrecurrencemechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。同时,新架构引入了一个新的多语言语料库,包
2024-04-15评论:0访问次数:856
无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100倍在AI赛道中,小模型近来备受瞩目,相较于拥有上千亿参数的模型。例如,法国AI初创公司发布的Mistral-7B模型在每个基准测试中都表现优于Llama213B,并且在代码、数学和推理方面都超过了Llama134B。与大模型相比,小模型具有很多优点,比如对算力的要求低、可在端侧运行等。近日,又有一个新的语言模型出现了,即7.52B参数Eagle7B,来自开源非盈利组织RWKV,其具有以下特点:基于RWKV-v5架构构建,该架构的
2024-02-01评论:0访问次数:831
以下是我在RWKV播客中的一些想法摘要:https://www.latent.space/p/rwkv#details为什么替代方案的重要性如此突出?随着2023年的人工智能革命,Transformer架构目前正处于巅峰。然而,由于人们急于采用成功的Transformer架构,所以会容易忽视可以借鉴的替代品。作为工程师,我们不应该采取一刀切的方法,对每个问题都使用相同的解决方案。我们应该在每一个情况下权衡利弊;否则将会被困在特定平台的限制范围内,同时因不知道有其他选择而感到“满足”,这可能会使发
2023-09-27评论:0访问次数:2127
在大模型内卷的同时,Transformer的地位也接连受到挑战。近日,RWKV发布了Eagle7B模型,基于最新的RWKV-v5架构。Eagle7B在多语言基准测试中脱颖而出,在英语测试中与顶尖模型不相上下。同时,Eagle7B用的是RNN架构,相比于同尺寸的Transformer模型,推理成本降低了10-100倍以上,可以说是世界上最环保的7B模型。由于RWKV-v5的论文可能要下个月才能发布,我们先提供RWKV的论文,这是第一个将参数扩展到数百亿的非Transformer架构。图片论文地址:https
2024-02-19评论:访问次数:616
视频理解的核心目标是准确理解时空表示,但面临两个主要挑战:短视频片段中存在大量时空冗余,并且复杂的时空依赖关系。三维卷积神经网络(CNN)和视频Transformer曾在解决其中一个挑战方面表现出色,但它们在同时应对这两个挑战时存在一定不足。UniFormer尝试结合这两种方法的优势,但在建模长视频方面遇到了困难。S4、RWKV和RetNet等低成本方案在自然语言处理领域的出现,为视觉模型开辟了新的途径。Mamba凭借其选择性状态空间模型(SSM)脱颖而出,实现了在保持线性复杂性的同时促进长期动
2024-03-25评论:0访问次数:196