社区学习工具库休闲

简体中文

首页 > 科技周边 > 人工智能 > 探究RNN、LSTM和GRU的概念、区别和优劣

探究RNN、LSTM和GRU的概念、区别和优劣

WBOY

发布： 2024-01-22 19:51:19

转载

1220 人浏览过

探究RNN、LSTM和GRU的概念、区别和优劣

在时间序列数据中，观察之间存在依赖关系，因此它们不是相互独立的。然而，传统的神经网络将每个观察看作是独立的，这限制了模型对时间序列数据的建模能力。为了解决这个问题，循环神经网络(RNN)被引入，它引入了记忆的概念，通过在网络中建立数据点之间的依赖关系来捕捉时间序列数据的动态特性。通过循环连接，RNN可以将之前的信息传递到当前观察中，从而更好地预测未来的值。这使得RNN成为处理时间序列数据任务的强大工具。

但是RNN是如何实现这种记忆的呢？

RNN通过神经网络中的反馈回路实现记忆，这是RNN与传统神经网络的主要区别。反馈回路允许信息在层内传递，而前馈神经网络的信息仅在层之间传递。因此，有了不同类型的RNN：

循环神经网络(RNN)
长短期记忆网络(LSTM)
门控循环单元网络(GRU)

本文将介绍RNN、LSTM和GRU的概念和异同点，以及它们的一些优点和缺点。

循环神经网络(RNN)

通过反馈回路，一个RNN单元的输出也被同一单元用作输入。因此，每个RNN都有两个输入：过去和现在。使用过去的信息会产生短期记忆。

为了更好地理解，可以展开RNN单元的反馈循环。展开单元格的长度等于输入序列的时间步数。

可以看到过去的观察结果是如何作为隐藏状态通过展开的网络传递的。在每个单元格中，当前时间步的输入、前一时间步的隐藏状态和偏置组合，然后通过激活函数限制以确定当前时间的隐藏状态步。

RNN可用于一对一、一对多、多对一和多对多预测。

RNN的优点

由于其短期记忆，RNN可以处理顺序数据并识别历史数据中的模式。此外，RNN能够处理不同长度的输入。

RNN的缺点

RNN存在梯度下降消失的问题。在这种情况下，用于在反向传播期间更新权重的梯度变得非常小。将权重与接近于零的梯度相乘会阻止网络学习新的权重。停止学习会导致RNN忘记在较长序列中看到的内容。梯度下降消失的问题随着网络层数的增加而增加。

由于RNN仅保留最近的信息，所以该模型在考虑过去的观察时会出现问题。因此，RNN只有短期记忆而没有长期记忆。

此外，由于RNN使用反向传播及时更新权重，网络也会遭受梯度爆炸的影响，如果使用ReLu激活函数，则会受到死亡ReLu单元的影响。前者可能会导致收敛问题，而后者会导致停止学习。

长短期记忆(LSTM)

LSTM是一种特殊类型的RNN，它解决了RNN会梯度消失的问题。

LSTM的关键是单元状态，它从单元的输入传递到输出。单元状态允许信息沿着整个链流动，仅通过三个门进行较小的线性动作。因此，单元状态代表LSTM的长期记忆。这三个门分别称为遗忘门、输入门和输出门。这些门用作过滤器并控制信息流并确定保留或忽略哪些信息。

遗忘门决定了应该保留多少长期记忆。为此，使用了一个sigmoid函数来说明单元状态的重要性。输出在0和1之间变化，0即不保留任何信息；1则保留单元状态的所有信息。

输入门决定将哪些信息添加到单元状态，从而添加到长期记忆中。

输出门决定单元状态的哪些部分构建输出。因此，输出门负责短期记忆。

总的来说，状态通过遗忘门和输入门更新。

LSTM的优点

LSTM的优点类似于RNN，主要优点是它们可以捕获序列的长期和短期模式。因此，它们是最常用的RNN。

LSTM的缺点

由于结构更复杂，LSTM的计算成本更高，从而导致训练时间更长。

由于LSTM还使用时间反向传播算法来更新权重，因此LSTM存在反向传播的缺点，如死亡ReLu单元、梯度爆炸等。

门控循环单元(GRU)

与LSTM类似，GRU解决了简单RNN的梯度消失问题。然而，与LSTM的不同之处在于GRU使用较少的门并且没有单独的内部存储器，即单元状态。因此，GRU完全依赖隐藏状态作为记忆，从而导致更简单的架构。

重置门负责短期记忆，因为它决定保留和忽略多少过去的信息。

更新门负责长期记忆，可与LSTM的遗忘门相媲美。

当前时间步的隐藏状态是基于两个步骤确定的：

首先，确定候选隐藏状态。候选状态是当前输入和前一时间步的隐藏状态以及激活函数的组合。前一个隐藏状态对候选隐藏状态的影响由重置门控制。

第二步，将候选隐藏状态与上一时间步的隐藏状态相结合，生成当前隐藏状态。先前的隐藏状态和候选隐藏状态如何组合由更新门决定。

如果更新门给出的值为0，则完全忽略先前的隐藏状态，当前隐藏状态等于候选隐藏状态。如果更新门给出的值为1，则相反。

GRU的优势

由于与LSTM相比有着更简单的架构，GRU的计算效率更高，训练速度更快，只需要更少的内存。

此外，GRU已被证明对于较小的序列更有效。

GRU的缺点

由于GRU没有单独的隐藏状态和细胞状态，因此它们可能无法像LSTM那样考虑过去的观察结果。

与RNN和LSTM类似，GRU也可能遭受反向传播及时更新权重的缺点，即死亡ReLu单元、梯度爆炸。

以上是探究RNN、LSTM和GRU的概念、区别和优劣的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：

人工智能机器学习人工神经网络

来源：163.com

上一篇：拉普拉斯罚项下一篇：RPA和认知自动化：对企业的助益

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

什么是 NullPointerException，如何修复它？

2024-10-22 09:46:29
从新手到程序员：您的旅程从 C 基础知识开始

2024-10-13 13:53:41
使用PHP解锁网络开发：初学者指南

2024-10-12 12:15:51
揭秘 C：为新程序员提供一条清晰简单的道路

2024-10-11 22:47:31
释放您的编码潜力：绝对初学者的 C 编程

2024-10-11 19:36:51
释放你内心的程序员：C 绝对初学者

2024-10-11 15:50:41
使用 C 自动化您的生活：适合初学者的脚本和工具

2024-10-11 15:07:41
PHP 变得简单：Web 开发的第一步

2024-10-11 14:21:21
使用 Python 构建任何东西：释放创造力的初学者指南

2024-10-11 12:59:11
编码的关键：为初学者释放 Python 的力量

2024-10-11 12:17:31

最新问题

数独检查器无法工作？谁能帮我识别错误？我尝试了在线编辑器上的所有方法，但仍然收到错误。但当我在我的机器上的VSCode上执行此操作时，它工作正常。我很困惑，在没有发现错误的情况下无法提交代码。我不知道该去哪里寻找了。我...

来自于 2024-04-06 21:21:07

0

1

474

放大 d3.js 时散点图点不会保持值这是我第一次使用d3.js，所以请耐心等待。我在vue.js文件中将其作为纯JavaScript实现。我正在尝试制作具有缩放功能的散点图。到目前为止，我几乎一切正常，但当我缩放时，...

来自于 2024-04-06 18:16:26

0

1

403

使用SCSS生成默认值和CSS变量我正在实现网站样式。出于遗留支持的原因，我需要支持IE11，至少一段时间。出于工作流程和我的理智原因，我想尽可能使用css变量。我已经研究过这个解决方案，它会生成一些有效的东西，但...

来自于 2024-04-06 17:46:54

0

1

355

了解 Nuxtjs auth 模块的内部工作原理我实际上试图将Nuxtjsauth模块集成到我的项目中，但我无法理解auth模块的实际工作原理。如果有人帮助我理解这个概念，那将对我非常有帮助。谢谢！

来自于 2024-04-06 15:38:16

0

1

371

Node.js：无法将 SQL 查询结果存储在数组中我正在尝试将SQL查询的结果推送到数组。但是，它似乎不起作用。我在网上找不到解决方案。如果有人能帮助我解决这个问题，我将不胜感激。letdata=[];connection.que...

来自于 2024-04-06 14:14:46

0

1

373

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1424794
php入门教程之一周学会PHP

4271107
JAVA 初级入门视频教程

2551054
小甲鱼零基础入门学习Python视频教程

508400
PHP 零基础入门教程

863928

最新下载

更多>

网站特效

网站源码

网站素材

前端模板