轻量级视觉网络新主干：高效的傅里叶算子Token混合器-人工智能-PHP中文网

轻量级视觉网络新主干：高效的傅里叶算子Token混合器

WBOY

发布： 2023-08-17 17:57:08

转载

1519 人浏览过

1. 背景

这些年来，Transformer、Large-kernel CNN和MLP这三种视觉主干网络在广泛的计算机视觉任务中取得了巨大的成功，这主要归功于它们在全局范围内高效地融合信息的能力

Transformer、CNN和MLP是当前三种主流的神经网络，它们分别采用不同的方式来实现全局范围的Token融合。在Transformer网络中，自注意力机制利用查询-键对的相关性作为Token融合的权重。CNN通过扩大卷积核的尺寸来实现与Transformer相似的性能。而MLP则通过全连接在所有令牌之间实现另一种强大的范式。尽管这些方法都是有效的，但它们的计算复杂度较高（O(N^2)），难以在存储和计算能力有限的设备上部署，从而限制了很多模型的应用范围

2. AFF Token Mixer: 轻量、全局、自适应

为了解决计算昂贵的问题，研究人员开发了一种名为自适应傅里叶滤波器（Adaptive Fourier Filter，AFF）的高效全局Token融合算法。该算法利用傅里叶变换将Token集合转换到频域，并在频域学习到一个能够自适应内容的滤波掩膜，以对转换到频域空间中的Token集合进行自适应滤波操作

Adaptive Frequency Filters: Efficient Global Token Mixers

轻量级视觉网络新主干：高效的傅里叶算子Token混合器

点击此链接可访问原文：https://arxiv.org/abs/2307.14008

根据频域卷积定理，AFF Token Mixer 的数学等价操作是在原始域中进行的卷积操作，相当于在傅里叶域中进行的Hadamard乘积操作。这意味着AFF Token Mixer 可以通过在原始域中使用一个动态卷积核，其空间分辨率与Token集合大小相同，来实现内容自适应的全局Token融合（如下图右子图所示）

众所周知，动态卷积的计算成本很高，尤其是在使用大空间分辨率的动态卷积核时，对于高效 / 轻量级网络设计来说，这种成本似乎是难以接受的。然而，本文提出的 AFF Token Mixer 却能够以低功耗的等效实现方式同时满足上述要求，将复杂性从 O (N^2) 降低到 O (N log N)，从而显著提高了计算效率

轻量级视觉网络新主干：高效的傅里叶算子Token混合器