人間の脳を例に挙げると、忘れることを学習すると大規模な AI モデルがより良くなるでしょうか?-AI-php.cn

人間の脳を例に挙げると、忘れることを学習すると大規模な AI モデルがより良くなるでしょうか?

王林

リリース： 2024-03-12 14:43:02

転載

1192 人が閲覧しました

人間の脳を例に挙げると、忘れることを学習すると大規模な AI モデルがより良くなるでしょうか?

最近、コンピューター科学者のチームは、既知の情報を定期的に忘れる機能を備えた、既存の大規模言語モデルにはない、より柔軟で回復力のある機械学習モデルを開発しました。

実際のテストでは、多くの場合、「忘却法」がトレーニングにおいて非常に効率的であり、忘却モデルのパフォーマンスが向上することが示されています。韓国基礎科学研究所の AI エンジニアである Jea Kwon 氏は、この新しい研究は AI 分野における重要な進歩を表すと述べた。

「忘却法」の学習効率は非常に高い

現在主流のAI言語エンジンのほとんどは人工ニューラルネットワーク技術を使用しています。このネットワーク構造を構成する各「ニューロン」は、実は数学関数であり、複数層のニューロンの複雑な演算により相互に接続され、情報の送受信、データ処理や学習を実現しています。このニューラルネットワークのシミュレーション手法により、AI は人間の脳の働き方をシミュレートし、人間のような知的行動を実現できます。

最初は、情報の流れはほぼランダムですが、ネットワークがトレーニングデータと一致し続けるにつれて、ニューロン間を流れる情報は最適化され続けます。たとえば、研究者が二か国語翻訳モデルをトレーニングしたい場合、まず大量の二か国語テキストを収集し、そのテキストを使用してモデルをトレーニングし、ニューロン間の接続を調整して、ある言語のテキストを別の言語の同等のテキストと比較します。言語: 効果的な単語を接続します。

上記のトレーニングには大量のコンピューティングリソースが必要です。モデルのパフォーマンスが悪かったり、ユーザーのニーズが変化したりすると、モデルがニーズを満たせなくなる可能性があります。

研究者 Mikel Artetxe は次のように指摘しました。「100 の言語を含むモデルがあるとしますが、1 つの言語が含まれていないとします。この言語をモデルに追加したい場合は、再トレーニングする必要があります。」

数年前、Artetxe と彼の同僚は、言語に関するニューラルネットワークをトレーニングし、ニューラルネットワークに知られている「トークン」と呼ばれる単語構成情報を消去しました。トークンは、「埋め込み層」とも呼ばれるニューラルネットワークの最初の層に保存されます。他のレイヤーについては無視してください。第一言語のトークンを消去し、第二言語でトレーニングした後、第二言語の新しいトークンを埋め込み層に埋め込むことができます。

モデルには大量の不一致情報が含まれていますが、それでも第 2 言語で再トレーニングすることができます。つまり、モデルは第 2 言語を学習して処理できます。研究者らは、埋め込み層には第 2 言語の語彙固有の情報が保存されているが、ニューラルネットワークには、人間の言語の舞台裏の概念に関わる抽象的な情報が下位レベルで保存されていると考えられています。第二言語を学びます。

研究レポートの著者であるチェン・イーホン氏は、「私たちは同じ世界に住んでおり、同じ概念を表現するために異なる言語の言葉を使用しています。したがって、同じレベルの推論が存在することになります。」「モデル、リンゴなど、甘いです。おいしいです。それは単なる単語以上のものを表します。」

「忘却法」を使用して、トレーニング済みモデルに新しい言語を追加するのは非常に効率的です。まだ再トレーニングが必要であり、依然として大量のデータ、データと強力な処理能力が必要です。もっと良い方法はありますか？もちろん、トレーニングする必要はありません。埋め込み層を消去してから再度トレーニングするだけです。つまり、最初のトレーニング中に埋め込み層を定期的にリセットします。

Artetxe 氏は次のように述べています:「このようにして、モデル全体がリセットに適応できます。モデルを拡張して別の言語に適応させたい場合、プロセスがより簡単になります。」

忘却モデルのパフォーマンスが向上

研究者らは、定期的な忘却手法を使用してトレーニングされた比較的一般的な大規模言語モデルである Roberta を実験し、標準的な非忘却手法を使用してトレーニングされたモデルと比較しました。その結果、最初の言語を処理する場合、忘却モデルのスコアは 85.1 点、従来の標準モデルのスコアは 86.1 点でした。わずか約 500 万トークン (第一言語では 700 億が使用されました) のみを使用して第 2 言語でトレーニングした場合、忘却モデルの精度スコアは 62.7 ポイントに低下し、標準モデルは 53.3 ポイントに低下しました。

研究者が再トレーニング時に計算上の制約を課した場合、忘れっぽいモデルのパフォーマンスは向上します。たとえば、研究者らがトレーニングの長さを 125,000 ステップから 5,000 ステップに短縮した場合、非学習モデルの平均スコアは約 57.8 ポイントで、標準モデルは 37.2 ポイントに低下しましたが、これはほぼ推測にすぎません。

したがって、研究者らは、言語を学習する際には忘却モデルの方が優れたパフォーマンスを発揮すると結論づけました。

ケベック州の深層学習研究センター Mila の研究者である Evgenii Nikishin 氏は、「モデルはトレーニング中に常に学習を解除してから再学習するため、後でネットワークに何か新しいことを教える方が簡単になるでしょう。」と述べています。このモデルは、言語を理解する際に、個々の単語の意味を理解するだけでなく、より深いレベルに目を向けることになります。

忘却の方法は人間の脳の動作モードに似ています。サンフランシスコ大学の神経科学者ベンジャミン・レヴィ氏は、「人間の記憶は、詳細な情報を大量に保存する場合、非常に不正確になります。しかし、人間の脳は経験の重要なポイントを記憶し、抽象的な情報を記憶し、推論するのが得意です。」と考えています。「忘れる能力を持たせるなど、AI に人間と同じように情報を処理させれば、AI はより柔軟になるかもしれません。」

Yihong Chen 氏は、言語モデルを製造する工場が将来現れるかもしれないと信じています。そのような工場には忘却技術が必要です。すぐに適応できるベーシックモデルです新しいフィールド。 (ナイフ)

以上が人間の脳を例に挙げると、忘れることを学習すると大規模な AI モデルがより良くなるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。