LLM的未来：3个发明塑造了下一代AI模型-IT业界-PHP中文网

Swish激活功能

神经建筑搜索

SWISH功能的代码实现

西鲁主要使用的地方在哪里？

绳索嵌入

绝对位置嵌入

相对位置嵌入

绳索

绳子矩阵

绳索组件

Infini的关注

压缩记忆

完整的工作流程

门控机制

内存更新

结论

首页

科技周边

IT业界

LLM的未来：3个发明塑造了下一代AI模型

Christopher Nolan

Sep 02, 2025 am 03:36 AM

注意机制为自然语言处理领域（NLP）领域的变压器体系结构奠定了基础。自引入以来，我们目睹了NLP的迅速发展。实际上，这一突破标志着整个生成AI和NLP的新时代的开始。如今，世界各地的公司正在发布日益高级的LLM。这些声称的每一个都在绩效上树立了新的基准，最终塑造了LLMS和AI的未来。

要真正掌握LLM的未来的发展方向，重要的是要了解一些影响其发展的最新创新。在本文中，我们将探讨三个关键进步，这些进步正在为下一代LLM铺平道路。这些都是：

Swish激活功能
绳子（旋转位置）嵌入
Infini的关注

让我们研究每个主题中的每个主题，并探讨它们如何为大型语言模型的不断发展的景观做出贡献。

Swish激活功能

作为数据科学家，我们遇到了各种激活功能。这些范围从线性和步骤功能等基本的范围，到随着神经网络的兴起（例如Tanh和广泛使用的Relu）引入的更高级功能。尽管Relu带来了重大改进，但其局限性导致了增强的替代方案的发展，例如Releu，Elu和其他人。

有趣的是，这些激活功能大多数都是由人类设计的。但是，Swish激活功能脱颖而出，因为它是由机器发现的。迷人，对吧？更令人着迷的是，Swish激活在塑造LLM的未来中起着关键作用。如果您熟悉计算机视觉，则可能会遇到Yolo-NAS模型。这是什么意思。

神经建筑搜索

Yolo-NAS中的NAS代表神经建筑搜索。这是Google开发的一种技术，可以自动化神经网络体系结构的设计。 NAS旨在确定给定任务的表现最佳模型配置。这包括诸如层和神经元数之类的决定。

在NAS中，我们既定义搜索空间（可能的架构）和搜索策略（我们如何探索该空间）。它通常专注于准确性或模型大小等指标。相应设置约束，并进行许多实验以发现最佳体系结构。

值得注意的是，EfficityNet是使用NAS创建的成功体系结构之一，它利用强化学习来指导其搜索过程。

LLM的未来：3个发明塑造了下一代AI模型

对高效神经网络的自动搜索也被利用以发现新的激活功能。结果，确定了几个有前途的激活函数候选。其中一些包括：

LLM的未来：3个发明塑造了下一代AI模型

这些激活功能在基准数据集（例如CIFAR-10和CIFAR-100）上评估。将它们的性能与Resnet，Wide Resnet和Densenet等标准模型进行了比较。与Relu相比，它特别关注准确度量指标。

LLM的未来：3个发明塑造了下一代AI模型

诸如Relu，泄漏的Relu，Elu和Tanh之类的活化功能都是单调的。它们要么不断增加或从X轴的正面增加或减小。而Swish激活是非单调的。 Swish激活最初在增加之前会略有减少，从而创建一个曲线，其中包括向下和向上的斜率。

这种非单调性增强了网络的表达能力，并在向前和向后传递期间提高了梯度流。结果，使用SWISH激活的模型表现出对体重初始化和学习率的变化的稳健性，从而提高了更好的整体训练稳定性和性能。

LLM的未来：3个发明塑造了下一代AI模型

Swish激活函数看起来像该f（x）= x * sigmoid（βx）

其中β这里是常数或可训练的参数。

如果β

如果β> 1，它的作用更像是relu函数

LLM的未来：3个发明塑造了下一代AI模型

SWISH功能的代码实现

导入numpy作为NP

def swish（x）：
返回x *（1 /（1 np.exp（-x）））

西鲁主要使用的地方在哪里？

Silu用于每个变压器层的进纸块中，特别是在第一个线性变换后，然后将其投射回模型尺寸。

这有所改善：

训练稳定性
梯度流
最终模型性能（尤其是在大规模设置中）

Swish激活功能提供了许多理想的功能，最终塑造了LLM的未来。这些都是：

无限制有助于摆脱在这里消失的梯度问题。
单调性非常有效，因为它既包含减小的斜率又增加。
它提供了平滑的曲线，因此每个点都存在梯度。

让我们看一下如何在变压器块中实现Silu。该代码段概述了如何在正向传播中使用Silu。

类Transformerblock（nn.Module）：
    def __init __（self，d_model，d_ff）：
        super（）.__ init __（）
        self.Attn =多障碍（...）
        self.ffn = nn.Sequepention（
            nn.linear（d_model，d_ff），
            nn.silu（），＃silu在这里应用
            nn.linear（d_ff，d_model）
        ）
        self.norm1 = nn.layernorm（d_model）
        self.norm2 = nn.layernorm（d_model）

    def向前（self，x）：
        x = x self.attn（self.norm1（x））＃残留关注
        x = x self.ffn（self.norm2（x））＃残留饲料
        返回x

前馈网络（FFN）负责学习令牌嵌入的复杂，非线性转换。该FFN中的激活功能（历史悠久，然后是Gelu和现在的Silu）在增加非线性和平稳的过渡方面起着至关重要的作用，从而提高了学习能力。

在Meta的骆驼（开源）中，您经常会发现这种模式：

 self.act_fn = nn.silu（）
self.ffn = nn.Sequepention（
    nn.linear（dim，hidden_dim），
    self.act_fn，
    nn.linear（hidden_dim，dim）
）

例如，Meta Facebook研究的Llama和Llama2模型使用Swish激活/Swiglu的激活功能。 GPT-4架构的确切细节是机密的。尽管有传言称使用Sigmoid激活函数（IE，SILU）的损失函数。此外，在对象检测任务的超级Yolo（例如Yolov7）模型中，SILU激活函数也用于使用。

现在，我们已经了解了Swish激活功能是什么以及在变压器中有效利用的功能，从而为我们提供了对LLMS未来的重要见解。最近，我们看到OpenAI GPT-oss模型使用了Swiglu名称的Swish激活函数的变体。 Swiglu使用Swish激活函数，该功能定义为Swish（X）= XPHINC（X），其中σ（X）是Sigmoid函数，以及类似于GLU的门控机制。

绳索嵌入

您需要的全部需要于2017年发表的论文引入了变压器体系结构，该结构彻底改变了自然语言处理领域。从那时起，已经提出了许多新的架构，尽管并非所有人都证明同样有效。这些早期变压器之间的一个共同特征是它们依赖正弦位置嵌入，以编码序列中令牌的位置。

在2022年，引入了一种更有效的位置编码方法：旋转位置嵌入（绳索）。此后，该技术已被几种大型语言模型采用，包括Palm，Llama 1，Llama 2等。这是因为它能够更好地处理更长的上下文长度并保留相对位置信息。

您可以在此处阅读我们有关嵌入的演变的深入文章。

绝对位置嵌入

生成位置嵌入的先前方法主要取决于绝对位置嵌入。在绝对的位置嵌入中，我们代表一个单词及其位置信息。基本上，我们表示每个单词及其在序列中的特定位置。在这里，最终令牌是通过将嵌入一词嵌入到位置嵌入来制作的。

主要有两种产生位置嵌入的方法：

从数据中学到的：嵌入向量是随机初始化的，然后在训练过程中训练。该方法用于原始变压器和伯特，GPT和罗伯塔等流行模型中。
但是，假设有一个位置向量从1到512。这构成了一个巨大的问题，因为最大长度有限，因此很难将这种逻辑用于长上下文，因为它无法很好地概括它。
正弦函数：它为序列中的每个可能位置提供了独特的位置嵌入。这为处理不同的输入大小提供了极大的灵活性。
由于幅度和角度的变化都显着变化，因此也很难理解其移动方式的模式。

LLM的未来：3个发明塑造了下一代AI模型

从不同的实验中，学习和正弦位置的嵌入性能相似。但是一个问题是每个位置都分别对待。例如，该模型将位置1和2之间的差异与位置2和500之间的差异相同，即使附近的位置通常在含义上更相关。

LLM的未来：3个发明塑造了下一代AI模型

要注意的另一件事是，这里的每个令牌都有独特的位置嵌入。因此，如果一个单词在句子中移至不同的位置，即使其含义没有太大变化，它仍然具有全新的位置值。这可能会使模型更难理解和推广。

相对位置嵌入

在相对位置嵌入中，我们不代表每个令牌的绝对位置。取而代之的是，我们了解了一对句子中每对代币的分开。由于位置取决于这对，因此我们不能像在绝对嵌入中那样将位置嵌入到令牌嵌入中。相反，我们需要修改注意机制本身以包括此相对位置信息。

LLM的未来：3个发明塑造了下一代AI模型

在此图像中，我们可以看到偏置矩阵，该矩阵表示具有一定距离的单词之间的关系。然后，我们将创建的B矩阵与此处的注意分数矩阵总结。

相对位置的嵌入确保，例如，与句子中出现的何处，相同3个单词的代币总是以相同的方式对待。这使它们对于处理长序列有用。但是，它们的速度较慢，因为他们需要额外的步骤来在注意力评分中添加偏置矩阵。

同样，由于嵌入取决于每对代币之间的位置，因此我们无法轻易重复使用以前的键值对，因此很难有效地使用键值缓存。这就是为什么大多数人在实践中不广泛使用它的原因。

LLM的未来：3个发明塑造了下一代AI模型

正如我们在这里看到的那样，相对位置嵌入有助于我们理解序列顺序，而不必担心确切的位置，并且在LLM的未来中起着关键作用。

绳索

旋转位置嵌入结合了绝对位置和相对位置嵌入的最佳部分。在这里，他们没有在绳索中添加位置向量以按顺序编码单词的位置，而是提议将旋转应用于向量。

LLM的未来：3个发明塑造了下一代AI模型

我们旋转的数量只是句子中单词位置的整数倍数，因此代表句子中的位置m。我们以m次θ（theta）的角度旋转原始单词矢量。这具有绝对位置嵌入的几个优点，例如，如果我们在句子的末尾添加更多令牌，这使它们更容易捕获。

旋转量仅取决于令牌在句子中的位置，因此在某个单词后的任何数量的令牌都不会像绝对位置嵌入中那样影响嵌入。

例如：
猫追赶狗
几天前，猫把狗从这里赶走了。

LLM的未来：3个发明塑造了下一代AI模型

绳子矩阵

绳索以相同的数量旋转“狗”和“狗”的向量，从而保留它们之间的角度，以使其在任何地方保持不变。这意味着即使我们在这些向量的开头或末尾添加单词时，两个向量之间的点产物也将保持不变，并假设向量之间的距离保持不变。

绳索的主要思想是根据序列中的位置旋转查询和密钥向量。

LLM的未来：3个发明塑造了下一代AI模型

旋转矩阵，有助于以“MXθ”角度旋转矢量。
我们首先应用线性转换以获取查询和密钥向量，然后应用旋转矩阵以保留旋转不变性属性。
旋转不变性是指在旋转下保持不变的系统或功能的属性。
注意：我们仅将旋转应用于查询和关键向量，而不是值向量
这是我们旋转的矢量。

但实际上，矩阵绝对不在2D中，可以扩展到这样的n个维度：

LLM的未来：3个发明塑造了下一代AI模型

在这里，向量分为2的块，并通过一定的m次θ旋转。

但是，由于不必要的内存和计算复杂性，这种逻辑确实很糟糕。因此，我们将使用这样的元素操作来实施：

LLM的未来：3个发明塑造了下一代AI模型

通常，假定向量的维度是偶数，通常情况下是这种情况，因此在这里制作2个块的假设。

这些嵌入被用来训练几种语言模型，例如Bert，Roformer等，这些模型表明，这些模型在正弦式嵌入式上使用绳索嵌入更快地训练了训练。

绳索组件

绳索具有2种类型的组件 - 高频和低频组件。高频组件对位置变化高度敏感。另一方面，低频组件对相对位置较不敏感，这使变压器可以在更长的距离内保持语义注意力。

因此，基本n从10000增加到500000，这进一步减慢了低频组件，从而使变压器能够使用具有较大相对距离的相对令牌，以捕获长距离依赖性。

但是我们需要了解如何确保可以将绳索用于更长的上下文长度序列。由于训练速度，记忆足迹和缺乏大规模数据，直接在登录环境上训练模型非常具有挑战性。由于只有顶级公司具有这种能力，因此这类资源非常有限。我们还将在下一节中讨论更长的上下文长度，称为Infini的注意，以及它们对LLM的未来的影响。

简而言之：一种有效的方法是将位置重新列入训练环境长度；这称为位置插值。通常，这基本上会进一步扩展位置，从而减慢低频组件，从而允许存储更长的上下文长度序列信息。

Infini的关注

变压器模型通常具有有限尺寸的上下文窗口。 Infini的注意力将压缩记忆纳入了香草注意机制中，并在单个变压器块中构建了掩盖的局部关注和长线性注意机制。注意机制也带有更多的缺点，例如：

它在内存和计算时间都具有二次复杂性。
将变压器缩放到更长序列的局限性（基本上，从较长序列学习良好的表示会成本高昂）。

在发布“不留下背景的情况下：有效的无限之后，有多一的无限关注”之前，有多个实验。有些技术就像是按行进行计算，我们正在用它来交易计算，但无论我们如何分配计算，我们都在计算中具有二次复杂性。还尝试进行线性注意计算，这些计算也称为线性注意力或快速重量。已经采用了几种方法来克服这种二次复杂性瓶颈，但Infini的关注引起了人们的注意。

LLM的未来：3个发明塑造了下一代AI模型

压缩记忆

除香草注意机制外，Infini的注意还具有压缩记忆单元。

Infini注意力中的压缩记忆系统旨在通过以紧凑的形式汇总过去信息来有效地处理长序列。它们没有存储所有过去的数据，而是维护了一组固定的参数，这些参数充当了序列历史记录的摘要。可以随着时间的推移更新此摘要，并且仍然保留有用的信息。关键的想法是，每当新信息到达时，内存会更新并修改其参数，以使该新信息的最相关方面被捕获。这使该模型可以稍后回忆重要的细节，而无需明确存储或处理整个序列。

结果，存储和计算要求都保持在一定限制之内，从而使其在处理长输入方面更具可扩展性，因此是塑造LLM的未来的关键参与者。

很长的序列分为“ S”段。这些段中的每一个都通过因果注意机制处理，并从当前细分市场中提取局部表示。在此之上，另一种具有有关序列历史记录的信息的表示是从压缩内存中检索的。然后，将当前段表示形式附加或更新到压缩内存中。最后，在最后，将当前段的本地表示和检索到的信息表示形式组合在一起以形成全局的远程表示。

基本上，有4个主要步骤 - 本地表示，检索，压缩内存更新和表示聚合。

LLM的未来：3个发明塑造了下一代AI模型

完整的工作流程

在了解LLM的未来的更大背景下，让我们首先从一开始就介绍完整的工作流程，对吗？

在Infini的注意力中，我们将输入序列分为多个块或段。例如，如果片段的大小为100个令牌，我们使用标准注意机制处理前100个令牌作为一个段。在计算此段的键值对（注意输出）之后，我们将这些表示形式存储在所谓的压缩内存中。

该记忆充当细分之间的桥梁。对于每个层和每个注意力头，该模型都从当前段中学到的知识并将其添加到此内存中。然后，当处理下一个细分市场时，它可以访问此内存，从而帮助其保留早期段的信息。

简而言之，仍然使用标准注意力计算本地表示形式，但是Infini的注意通过通过共享记忆结构向前传递学习的信息来增强这一点。

将查询（例如查询）将键值计算存储到过去时间步骤中的内存中，并以某种方式可以将其用于将来的步骤。

LLM的未来：3个发明塑造了下一代AI模型

现在，我们将看到如何通过即将到来的段的变压器块重复使用此压缩内存。因此，在这里，我们将利用门控机制，看起来与LSTM的门控机制中使用的逻辑非常相似。

LLM的未来：3个发明塑造了下一代AI模型

门控机制

在这里，我们只是不使用Q，k，v用于当前细分市场，而是基本上添加位置嵌入（绳索），然后计算上述的自我注意力，而是利用我们从以前的段中使用的信息，通过使用当前的Q（QUERY）通过以前的细分段来检索信息，从而以压缩记忆的形式获得了信息，以获取当前段和当前段的信息，以获取当前段的信息，并获得了整体的关注信息。

β这里称为门控标量。它有助于从当前和以前的细分市场融合注意力的封闭式合并。这是一个学习的参数。

现在，我们将了解如何获得此记忆。

LLM的未来：3个发明塑造了下一代AI模型