Transformer が AI の隆盛をリード: アルゴリズムの革新から産業応用まで、人工知能の未来を 1 つの記事で理解する-AI-php.cn

Transformer が AI の隆盛をリード: アルゴリズムの革新から産業応用まで、人工知能の未来を 1 つの記事で理解する

1. はじめに

近年、人工知能技術は世界的に高い評価を得ていますが、その中でも自然言語処理は、 (NLP) ) とコンピュータービジョンが特に顕著です。これらの分野では、Transformerと呼ばれるモデルが徐々に研究の注目を集めており、それを核とした革新的な成果が次々と生まれています。この記事では、Transformer がどのようにして AI テクノロジーの隆盛をリードしているのかを、原理、アプリケーション、業界慣行などの側面から探っていきます。

2. Transformer の原理の簡単な分析

背景知識

Transformer を導入する前に、その背景知識であるリカレントニューラルネットワーク (RNN) と長期短期について理解する必要があります。メモリネットワーク (LSTM)。 RNN には、シーケンスデータを処理するときに勾配の消失と勾配の爆発という問題があり、長いシーケンスタスクでのパフォーマンスが低下します。この問題を解決するために、LSTM が登場し、ゲートメカニズムを導入することで勾配の消失と爆発の問題を効果的に軽減しました。この問題を解決するために、LSTM が登場し、ゲートメカニズムを導入することで勾配の消失と爆発の問題を効果的に軽減しました。

Transformer の提案

2017 年、Google チームはまったく新しいモデル Transformer を立ち上げました。その中心的なアイデアは、従来のトランスフォーマーの代わりに自己注意 (Self-Attention) メカニズムを使用することです。リカレントニューラルネットワーク。 Transformer は NLP の分野、特に機械翻訳タスクにおいて顕著な成果を上げており、そのパフォーマンスは LSTM をはるかに上回っています。このモデルは、機械翻訳や質問応答システムなどの自然言語処理タスクで広く使用されています。

トランスフォーマーのアーキテクチャ

トランスフォーマーは、エンコーダー (Encoder) とデコーダー (Decoder) の 2 つの部分で構成されます。エンコーダーは入力シーケンスを一連のベクトルにマッピングする役割を担い、デコーダーは役割を担います。入力シーケンスを一連のベクトルにマッピングするためのコントローラーの出力と既知の部分出力は、次の出力を予測するために使用されます。機械翻訳などのシーケンス間タスクでは、エンコーダはソース言語の文を一連のベクトルにマッピングし、デコーダはエンコーダの出力と既知の部分出力に基づいてターゲット言語の文を生成します。

「(1) エンコーダ: エンコーダは複数の同一の層で構成され、各層にはマルチヘッドセルフアテンションメカニズムと位置完全接続フィードフォワードネットワークという 2 つのサブ層が含まれています。」注: この記事の段落はニューラルネットワークのエンコーダーの構造に関するものであり、変更後も元の意味が保持される必要があり、単語数は 114 を超えてはなりません。

デコーダは複数の同一のレイヤで構成されており、各レイヤにはマルチヘッドアテンションメカニズム、エンコーダ/デコーダアテンションメカニズム、およびフォワードパスネットワークの 3 つのサブレイヤが含まれています。マルチヘッドセルフアテンションメカニズム、エンコーダ/デコーダアテンションメカニズム、および位置エンコーダはその主要コンポーネントであり、位置および完全に接続されたフィードフォワードネットワークをカバーしながらデコーダアテンションメカニズムを実装できます。さらに、デコーダのアテンションメカニズムと位置エンコーダは、ネットワーク全体で使用できるネットワーク接続を通じてパフォーマンスを向上させることもできます。