アダプターとGPTに基づく時系列マルチタスク統合大規模モデル-AI-php.cn

今日は、大規模モデルの時系列予測に関する最新の研究についてお話したいと思います。Alibaba Damo Academy から、アダプターに基づく一般的な時系列分析フレームワークが提案されており、長期予測、短期予測に使用できます。 -期間予測、およびゼロショットフューショット、異常検出、時系列分類、時系列充填を含む 7 つの時系列タスクで顕著な結果が達成されました。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル

論文タイトル: One size fits all: 事前トレーニング済み言語モデルと特別に設計されたアダプターを使用したユニバーサル時系列分析

ダウンロード可能なリンク: https:// arxiv .org/pdf/2311.14782v1.pdf

1. 背景

時系列予測の分野では、大規模なモデルを構築する際の困難の 1 つは、次のような十分なトレーニングデータが不足していることです。 NLP または CV フィールド。この記事では、NLP または CV の分野でトレーニングされた大規模モデルに基づいて時系列に適応させ、アダプターテクノロジーと組み合わせて、さまざまな時系列の問題を解決するソリューションを提案します。

アダプターは広く使用されています。特に最近の大規模モデルのアプリケーションでは、大規模モデルの軽量な微調整を行うためにアダプターがよく使用されます。アダプターは軽量のネットワークであり、大規模モデルの一部のモジュールにアダプターを挿入し、大規模モデルのパラメーターを固定し、アダプターのパラメーターのみを更新することで、軽量の大規模モデルの微調整を実現できます。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル写真

次に、Alibaba Damo Academy のこの取り組みで、アダプターを使用して事前トレーニング済みの NLP モデルと CV モデルを組み合わせる方法を紹介します。統一された時系列モデルを構築します。

2. 全体構造

この記事で提案するモデルは、Freeze パラメータの事前学習済み言語モデルに基づいており、4 種類のアダプターを組み合わせて実装されています。モデル全体の構造を次の図に示します。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル図

まず、入力時系列に対して、RevIN メソッドを使用して正規化します。これは、各時系列から平均を引き、分散で割ることを意味します。次に、PatchTST メソッドを使用して、スライディングウィンドウを通じて時系列を複数のセグメントに分割し、セグメントエンベディングを生成します。処理された時系列は、NLP フィールドの事前トレーニングされた言語モデルに入力されます。トレーニングプロセス全体を通じて、言語モデルの元のパラメーターは変更されず、新しく追加された 4 種類のアダプターパラメーターのみを更新します

3. アダプターの設計

この記事では、4 つのアダプターパラメーターを紹介します。時系列を適応させるという目標を達成するために、NLP および CV の分野の大規模モデルのさまざまな場所に接続できるアダプターのタイプ。これら 4 つのアダプタは、時間アダプタ、チャネルアダプタ、周波数アダプタ、および例外アダプタです。

時間アダプタ: 時間アダプタは、時間次元情報を融合するために使用される MLP ネットワークです。本論文では、時間次元や空間次元の高次元情報を低次元空間にマッピングし、その後高次元空間にマッピングし直すというボトルネック構造を採用する。この目的は、時系列関係を抽出するプロセスでの過剰適合のリスクを回避することです

チャネルアダプター: チャネルアダプターの構造は時間アダプターと似ていますが、実行される点が異なります。空間次元で使用され、多変量シーケンスの変数を抽出するために使用されます。それらの間の関係にも bottleect が使用されます。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル Picture

周波数アダプター:周波数アダプターは、周波数ドメインで時系列情報を抽出します。この部分は、時系列が周波数ドメインにマッピングされ、MLP が周波数ドメインで実行され、その後時間ドメインにマッピングされて、周波数でのグローバル情報の抽出を実現します。ドメイン。

異常アダプター: この部分は主に新しい時系列異常検出手法を実装します。ここでは注意スコアマトリックスが使用されます。正常なシーケンスの場合、注意スコアマトリックスは周期的な繰り返し特性を示しますが、異常なシーケンスはそうではありません。そこで、本記事では異常アダプタとしてガウシアンカーネルを使用し、アテンションの出力結果とその計算されたKL発散を時系列異常検出に利用します。

アダプターとGPTに基づく時系列マルチタスク統合大規模モデル画像