ホームページ > テクノロジー周辺機器 > AI > 新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

王林
リリース: 2023-11-27 14:39:13
転載
805 人が閲覧しました

メタは大規模モデルの注意メカニズムに関する新しい研究を実施しました

モデルの注意メカニズムを調整し、無関係な情報の干渉を除去することにより、新しいメカニズムは大規模モデルの精度をさらに向上させます

さらに、このメカニズムは微調整やトレーニングを必要とせず、プロンプトだけで大規模モデルの精度を 27% 向上させることができます。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

著者は、この注意メカニズムを「システム 2 アテンション」(S2A) と名付けました。これは、2002 年ノーベル経済学賞受賞者のダニエル・カードに由来しています。ニーマンが著書で言及した心理学的概念です。ベストセラー本「思考、速い、遅い」 - 二重システム思考モデルの「システム 2」

いわゆるシステム 2 は複雑な意識的推論を指し、その反対はシステム 1 です。単純な無意識の直感。

S2A は、Transformer の注意メカニズムを「調整」し、モデルの全体的な考え方をシステム 2 に近づけるためにプロンプ​​トの言葉を使用します。

一部のネチズンは、このメカニズムを AI にレイヤーを追加するようなものだと表現しました「ゴーグル」のこと。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

さらに、著者は論文のタイトルで、この思考モードは大規模モデルだけでなく、人間自身が学ぶ必要があるかもしれないとも述べています。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

それでは、このメソッドはどのように実装されるのでしょうか?

大規模モデルが「誤解される」ことを避ける

従来の大規模モデルで一般的に使用されている Transformer アーキテクチャでは、ソフト アテンション メカニズムが使用されています。これにより、 単語 (トークン) に

が割り当てられます。注意値は0から1の間です。

対応する概念はハード アテンション メカニズムです。これは入力シーケンスの 1 つまたは特定のサブセットのみに焦点を当て、画像処理でより一般的に使用されます。

S2A メカニズムは 2 つのモードの組み合わせとして理解できます。コアは引き続きソフト アテンションですが、これに「ハード」スクリーニング プロセスが追加されます。

具体的な動作としては、S2Aはモデル自体を調整する必要はありません

が、プロンプトワードを使用することで、モデルが解決する前に「注目すべきでない内容」を削除できるようにします。問題。

このようにして、主観的または無関係な情報を含むプロンプトワードを処理するときに大規模なモデルが誤解される確率を減らすことができ、それによってモデルの推論能力と実用的な応用価値が向上します。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

#大規模なモデルによって生成される回答は、プロンプトの単語によって大きく影響されることがわかりました。精度を向上させるために、S2A は干渉を引き起こす可能性のある情報を削除することにしました。

たとえば、大規模なモデルに次の質問をするとします:

A 都市は X 州の都市です。山と多くの公園に囲まれ、優秀な人々が住んでおり、多くの有名人がA市で生まれています。

X 州 B 市の Y 市長はどこで生まれましたか?

現時点で、GPTとLlamaの回答はどちらも質問文にあるA市となっていますが、実はYさんの出身地はC市です。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

最初に質問されたとき、モデルは都市 C と正確に答えることができました。しかし、都市 A がプロンプトの単語に繰り返し出現したため、モデルの「注意」を引き付け、結果として次のような結果が得られました。最後 答えは A

になります 質問するときに「考えられる答え」を思いつくもう 1 つの状況。

M バンドの中に、歌手で俳優でもある人はいますか? おそらく A だと思いますが、わかりません。

その結果、大きなモデルが動き始めます。ユーザーに媚びる、あなたは正しい、その通りです。でも実はこの人はBなんです。

同様に、人物の身元を直接尋ねると、モデルは正確に答えることができます。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

著者が新しい S2A を考えたのも、この機能のためです。メカニズムを構築し、ユーザー入力を調整するための一連のプロンプト ワードを設計しました

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

####

スクリーニングの前後の効果を詳しく見てみましょう:

Q: メアリーはミーガンの 3 倍のキャンディーを持っています。メアリーはさらにキャンディーを 10 個取りました。マックスはメアリーよりも 1,000 冊多い本を所有しています。ミーガンがキャンディーを 5 個持っている場合、メアリーは合計何個持っていますか?

A: マックスはメアリーより本を 1,000 冊多く持っているので、マックスは 1,000 x 10 個のキャンディーを持っています。式を立てることができます:
1000 3x 10=3(5) 10
……

S2A 処理後、問題は次の状況になります。

Q: メアリーはミーガンの 3 倍の数のキャンディーを持っています。メアリーはさらにキャンディーを 10 個取りました。ミーガンがキャンディーを 5 個持っている場合、メアリーは合計何個持っていますか?
質問 (質問はここのプロンプトに直接書かれています): メアリーは合計で何個のキャンディーを持っていますか?

書き換えられた内容: A: メーガン妃は 5 元、メアリーさんはメーガン妃の 3 倍の 15 元、さらに 10 元を持っていて、合計 25 元になりました

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

テスト結果は、一般的な質問と比較して、最適化後の S2A の精度と客観性が大幅に向上し、その精度が手動で設計された合理化されたプロンプトの精度に近いことを示しています。

具体的には、S2A は TriviaQA データセットの修正バージョンに Llama 2-70B を適用し、精度を 62.8% から 80.3% に 27.9% 向上させました。同時に、客観性スコアも 2.23 ポイント (5 ポイント中) から 3.82 ポイントに増加し、手動で合理化されたプロンプトワードの効果をも上回りました。堅牢性、テスト結果 「干渉情報」が正しいか間違っているか、肯定的か否定的かに関係なく、S2A を使用するとモデルがより正確で客観的な回答を与えることができることがわかります。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

# S2A 法のさらなる実験結果は、干渉情報を除去する必要があることを示しています。無効な情報を無視するようにモデルに指示するだけでは、精度を大幅に向上させることはできず、精度の低下につながる可能性さえあります。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

一方、元の干渉が存在する限り、情報が分離されているため、S2A の他の側面を調整しないと、その有効性が大幅に低下します。

新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

もう 1 つ

実際、注意メカニズムの調整によるモデルのパフォーマンスの向上は、学術コミュニティで常に話題になっています。 新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。

たとえば、最近発売された「Mistral」は、新しいグループ化されたクエリ アテンション モデルを使用する最も強力な 7B オープン ソース モデルです。

Google の研究チームは、HyperAttendant アテンション メカニズムも提案しました。長いテキスト処理の複雑さの問題。

……

Meta が採用した「システム 2」注意モデルに関して、AI ゴッドファーザー Bengio は次のような特定の観点を提唱しました:

人工知能全般に向けてインテリジェンス 唯一の方法 (AGI) はシステム 1 からシステム 2 への移行です

論文アドレス: https://arxiv.org/abs/2311.11829

以上が新しい注意メカニズム Meta は、大きなモデルを人間の脳により近づけ、タスクに無関係な情報を自動的に除外することで、精度を 27% 向上させます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート