単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果-AI-php.cn

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果

王林

リリース： 2023-05-17 16:01:06

転載

1295 人が閲覧しました

はじめに

単語埋め込み表現は、機械翻訳、質問応答、テキスト分類などのさまざまな自然言語処理タスクの基礎です。通常、全体の 20% ～ 90% を占めます。モデルパラメータ。これらの埋め込みの保存とアクセスには大量のスペースが必要であり、リソースが限られているデバイス上でのモデルの展開やアプリケーションには適していません。この問題に対処するために、本記事では MorphTE 単語埋め込み圧縮方式 を提案します。 MorphTE は、テンソル積演算の強力な圧縮機能と言語形態学の事前知識を組み合わせて、モデルの精度を維持しながら単語埋め込みパラメータの高圧縮 ( 20 倍 以上) を実現します。パフォーマンス。

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果

論文リンク: https://arxiv.org/abs/2210.15379
オープンソースコード: https://github.com/bigganbing/Fairseq_MorphTE

モデル

この記事MorphTE 単語埋め込み圧縮方法を提案します。まず単語を意味論的な意味を持つ最小単位である形態素に分割し、形態素ごとに低次元のベクトル表現をトレーニングし、次にテンソル積を使用して低次元の量子もつれ状態の数学的表現を実現します。形態素ベクトルを使用して、高次元の単語表現を取得します。

01 単語の形態素構成

言語学において、形態素は特定の意味または文法機能を持つ最小単位です。英語などの言語の場合、単語は語根や接辞などのより小さな形態素単位に分割できます。たとえば、「unkindly」は、否定の「un」、「優しい」などの「kind」、副詞の「ly」に分解できます。中国語の場合、漢字を部首などの小さな単位に分割することもでき、たとえば「MU」を水を表す「氵」と「木」に分割することもできます。

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果

# 形態素には意味論が含まれていますが、共有される単語でも使用できます。それらの間で異なる単語を接続します。さらに、限られた数の形態素を組み合わせて、より多くの単語を形成できます。

02 もつれテンソルの形式での単語埋め込みの圧縮表現

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果

関連作品Word2ket は単一の単語埋め込みをもつれテンソルとして表現しますいくつかの低次元ベクトルの形式は次の式を持ちます:

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果 ##ここで

#、r はランク、 n は次数、はテンソル積を表します。 Word2ket は、これらの低次元ベクトルを保存して使用するだけで高次元のワードベクトルを構築できるため、効果的なパラメータ削減が実現します。たとえば、r = 2、n = 3 の場合、次元 512 のワードベクトルは、各グループの次元 8 の 3 つの低次元ベクトルテンソル積を 2 つのグループに分割することで得られます。パラメータの数が 512 から 48 に減少しました。 03 形態素強化テンソル化単語埋め込み圧縮表現

テンソル積を通じて、Word2ket は明白なパラメータ圧縮を実現できますが、高圧縮と機械翻訳の問題があります。より複雑なタスクの場合、圧縮する前に効果を実現することは通常困難です。低次元ベクトルはもつれテンソルを構成する基本単位であり、形態素は単語を構成する基本単位であるためです。この研究では、言語知識の導入を考慮し、低次元の形態素ベクトルを訓練し、単語に含まれる形態素ベクトルのテンソル積を使用して、対応する単語埋め込み表現を構築する MorphTE を提案します。

具体的には、まず形態素分割ツールを使用して単語リスト V 内の単語を分割します。すべての単語の形態素が形態素リスト M を形成し、形態素の数は単語の数よりも大幅に少なくなります。 ()。

各単語に対して、形態素テーブル内の各単語に含まれる形態素の位置を指す形態素インデックスベクトルを構築します。すべての単語の形態素インデックスベクトルは、単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果形態素インデックス行列を形成します。ここで、n は MorphTE の次数です。

語彙内の j 番目の単語単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果については、その形態素インデックスベクトルを使用して、それをパラメータ化します。 r グループ対応する形態素ベクトルは形態素埋め込み行列にインデックス付けされ、対応する単語埋め込みはテンソル積によるもつれテンソル表現によって取得されます。このプロセスは次のように形式化されます。

#上記の方法を通じて、MophTE は形態素ベースの言語的事前知識を単語埋め込み表現に注入することができ、異なる単語間での形態素ベクトルの共有により単語間の接続を明示的に構築できます。さらに、形態素の数とベクトル次元は語彙のサイズと次元よりもはるかに小さく、MophTE は両方の観点から単語埋め込みパラメータの圧縮を実現します。したがって、MophTE は単語埋め込み表現の高品質な圧縮を実現できます。

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果

実験

この記事では主に、さまざまな言語での翻訳、質問と回答のタスクに関する実験を行い、関連する分解ベースの単語埋め込み圧縮方法と比較します。

表からわかるように、MorphTE は英語、ドイツ語、イタリア語などのさまざまな言語に適応できます。 MorphTE は 20 倍を超える圧縮率で元のモデルの効果を維持できますが、他のほとんどすべての圧縮方法では効果が低下します。さらに、MorphTE は、40 倍を超える圧縮率で、さまざまなデータセットに対して他の圧縮方法よりも優れたパフォーマンスを発揮します。

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果

同様に、MorphTE は、WikiQA の質問と回答のタスクと SNLI の自然言語推論タスクで、それぞれ 81 倍と 38 倍の圧縮率を達成しました。モデルの効果を維持します。

単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果

結論

MorphTE は、先験的な形態素言語の知識とテンソル積の強力な圧縮機能を組み合わせて、単語埋め込みの高品質な圧縮を実現します。さまざまな言語とタスクの実験では、MorphTE がモデルの効果を損なうことなく、単語埋め込みパラメータの 20 ～ 80 倍の圧縮を達成できることが示されています。これは、形態素ベースの言語知識の導入により、単語埋め込みの圧縮表現の学習が向上できることを証明します。 MorphTE は現在、形態素のみをモデル化していますが、実際には、プロトタイプ、品詞、大文字化などのよりアプリオリな言語知識を明示的にモデル化する一般的な単語埋め込み圧縮拡張フレームワークに拡張して、単語埋め込み圧縮をさらに改善することができます。

以上が単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式損失のない20倍の圧縮効果の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。