ICML 2024 | LoRA アーキテクチャから脱却し、トレーニングパラメータが大幅に削減され、新しいタイプのフーリエ微調整が登場-AI-php.cn

ICML 2024 | LoRA アーキテクチャから脱却し、トレーニングパラメータが大幅に削減され、新しいタイプのフーリエ微調整が登場

王林

リリース： 2024-06-10 17:58:01

オリジナル

1150 人が閲覧しました

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。投稿メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事は、Large Model Efficient Fine-tuning (LLM PEFT) に関する香港科技大学 (広州)の記事を紹介します。微調整) 記事「離散フーリエ変換によるパラメーター効率の良い微調整」 この記事は ICML 2024 に受理され、コードはオープンソースになりました。

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

論文アドレス: https://arxiv.org/abs/2405.03003
プロジェクトアドレス: https://github.com/Chaos96/fourierft

背景

大規模な基本モデルは、自然言語処理 (NLP) とコンピュータービジョン (CV) の分野で目覚ましい成果を達成しました。大規模な基本モデルを微調整して、特別な下流タスクにより適したものにすることは、人気のある研究トピックとなっています。しかし、モデルがますます大きくなり、下流のタスクがますます多様になるにつれて、モデル全体の微調整によって生じるコンピューティングとストレージの消費量はもはや許容できなくなります。 LoRAでは、低ランクフィッティングの微調整増分方式を採用し、こうした消費量の大幅な削減に成功していますが、それでも各アダプター（アダプター）のサイズは無視できません。これがこの記事の中心的な質問の動機になります:

LoRA と比較してトレーニング可能なパラメーターをさらに大幅に減らすにはどうすればよいですか?さらに、興味深い追加の質問は、より少ないパラメータで高ランクの増分行列 を取得できるかどうかです。

方法

フーリエ基底は、1次元ベクトル信号や2次元画像の圧縮など、さまざまなデータ圧縮アプリケーションで広く使用されています。これらのアプリケーションでは、密な空間領域信号がフーリエ変換を通じて疎な周波数領域信号に変換されます。この原理に基づいて、モデルの重みの増分も空間領域信号と見なすことができ、それに対応する周波数領域信号はスパース表現によって実現できると著者は推測しています。

この仮定に基づいて、著者らは周波数領域で増分重み信号を学習するための新しい方法を提案します。具体的には、この方法は、ランダムな位置にあるまばらな周波数領域信号を通じて空間領域の重みの増分を表します。事前トレーニングされたモデルをロードするとき、最初に有効な周波数領域信号として n 個の点がランダムに選択され、次にこれらの信号が 1 次元ベクトルに接続されます。順伝播プロセス中、この 1 次元ベクトルはフーリエ変換を通じて空間行列を復元するために使用されます。逆伝播プロセス中は、フーリエ変換の微分可能性により、この学習可能なベクトルを直接更新できます。この方法では、モデルの微調整に必要なパラメータの数が効果的に削減されるだけでなく、微調整のパフォーマンスも保証されます。このようにして、著者らは大規模な基本モデルの効率的な微調整を実現するだけでなく、機械学習の分野におけるフーリエ変換の潜在的な応用価値も実証しています。

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

フーリエ変換基底の高い情報量のおかげで、LoRA と同等またはそれを超えるパフォーマンスを達成するために必要な n 値はわずかです。一般に、フーリエ微調整でトレーニング可能なパラメーターは、LoRA のパラメーターの 1,000 分の 1 から 10 分の 1 にすぎません。

実験

1. 自然言語理解

著者らは、自然言語理解のための GLUE ベンチマークでフーリエ微調整法を評価しました。ベースラインの比較方法には、Full Finetuning (FF)、Bitfit、Adapter Tuning、LoRA、DyLoRA、および AdaLoRA が含まれます。次の表は、さまざまな GLUE タスクにおけるさまざまなメソッドのパフォーマンスと、必要なトレーニングパラメーターの量を示しています。結果は、フーリエ微調整が、最小限のパラメーター数で他の微調整方法のパフォーマンスに達するか、それを上回ることを示しています。

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

2. 自然言語命令の微調整

大規模モデルの自然言語生成は、現在、モデル微調整の重要な応用分野です。著者らは、LLaMA ファミリのモデル、MT-Bench タスク、および Vicuna タスクでのフーリエ微調整のパフォーマンスを評価しています。結果は、フーリエ微調整が非常に少ない量のトレーニングパラメーターで LoRA と同様の効果を達成することを示し、フーリエ微調整法の多用途性と有効性をさらに検証します。

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

3. 画像分類

著者は、8 つの一般的な画像分類データセットを対象として、Vision Transformer でのフーリエ微調整のパフォーマンスをテストしました。実験結果によると、画像分類タスクにおける LoRA と比較したフーリエ微調整による圧縮率の向上は、自然言語タスクほど顕著ではありませんが、それでも LoRA よりもはるかに少ないパラメータ数で LoRA の効果を上回っています。これは、さまざまな応用分野におけるフーリエ微調整の有効性と利点をさらに実証しています。

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

4. 低ランクの突破

GLUE ベンチマークの RTE データセットでは、FourierFT は段階的に LoRA よりも大幅に高いランク (通常は 4 または 8) を達成できます。

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

5. GPU リソース消費

微調整プロセス中、FourierFT は LoRA よりも少ない GPU 消費を達成できます。以下の図は、単一の 4090 グラフィックスカードを使用した RoBERTa-Large モデルのピークメモリ消費量を示しています。

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

結論

著者は、フーリエ微調整と呼ばれる効率的な微調整手法を紹介しました。これは、大規模な基本モデルを微調整するときに、フーリエ変換を使用して学習可能なパラメータの数を削減します。この方法では、重みの変化を表す少数のフーリエスペクトル係数を学習することで、ストレージとコンピューティングの要件が大幅に軽減されます。実験結果は、フーリエ微調整が自然言語理解、自然言語生成、命令調整、画像分類などのタスクで良好に機能することを示しています。既存の低ランク適応手法 (LoRA など) と比較して、フーリエ微調整は維持またはそれを上回っています。同時に、LoRA のパフォーマンスが向上し、必要なトレーニング可能なパラメータが大幅に削減されます。

以上がICML 2024 | LoRA アーキテクチャから脱却し、トレーニングパラメータが大幅に削減され、新しいタイプのフーリエ微調整が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。