「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラルネットワークパラメーターを生成-AI-php.cn

従来の時空間予測モデルでは、通常、良好な結果を得るために大量のデータのサポートが必要です。

しかし、都市ごとの発展レベルの違いやデータ収集ポリシーの不一致により、多くの地域の時空間データ (交通量や人流データなど) は限られています。したがって、データが不足している場合、モデルの転送可能性が特に重要になります。

現在の研究は主にソース都市のデータに依存してモデルをトレーニングし、ターゲット都市のデータに適用していますが、このアプローチには複雑なマッチング設計が必要になることがよくあります。ソース都市とターゲット都市の間でより広範な知識の伝達をどのように達成するかは、依然として難しい課題です。

最近、事前トレーニングされたモデルは、自然言語処理とコンピュータービジョンの分野で大きな進歩を遂げました。プロンプトテクノロジーの導入により、微調整と事前トレーニングの間のギャップが狭まり、事前トレーニングされた高度なモデルが新しいタスクにより迅速に適応できるようになります。この方法の利点は、面倒な微調整への依存が減り、モデルの効率と柔軟性が向上することです。プロンプトテクノロジーを通じて、モデルはユーザーのニーズをより深く理解し、より正確な出力を生成できるため、人々により良いエクスペリエンスとサービスを提供できます。この革新的なアプローチは人工知能テクノロジーの開発を推進し、さまざまな業界にさらなる可能性と機会をもたらします。

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラルネットワークパラメーターを生成写真

紙のリンク: https://openreview.net/forum?id=QyFm3D3Tzi

オープンソースコードとデータ: //m.sbmmt.com/link/6644cb08d30b2ca55c284344a9750c2e

ICLR2024で本学科都市科学コンピューティング研究センターが発表した最新成果「拡散ニューラルネットワーク生成による空間時間的少数ショット学習」清華大学電子工学博士 GPD (Generative Pre-Trained Diffusion) モデルは、データがまばらなシナリオで時空間学習を成功裏に達成するために導入されました。

この方法では、生成ニューラルネットワークのパラメーターを使用して、時空間スパースデータ学習を拡散モデルの生成事前トレーニング問題に変換します。従来の方法とは異なり、この方法では、転送可能な特徴を抽出したり、複雑なパターンマッチング戦略を設計したりする必要がなくなり、数ショットのシナリオに適したモデルの初期化を学習する必要もなくなりました。

代わりに、このメソッドは、ソース都市からのデータに関する事前トレーニングによってニューラルネットワークパラメーターの最適化に関する知識を学習し、プロンプトに基づいてターゲット都市に適したニューラルネットワークモデルを生成します。

この手法のイノベーションは、「プロンプト」に基づいてカスタマイズされたニューラルネットワークを生成し、異なる都市間のデータ分布と特性の違いに効果的に適応し、独創的な時空間知識の伝達を実現できることです。

この研究は、都市コンピューティングにおけるデータ不足の問題を解決するための新しいアイデアを提供します。論文のデータとコードはオープンソースです。

データ配信からニューラルネットワークパラメータ配信へ

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラルネットワークパラメーターを生成図 1: データパターンレベルの知識伝達とニューラルネットワークレベルの知識伝達

図 1(a) に示すように、従来の知識伝達方法では通常、ソース都市のデータに基づいてモデルをトレーニングし、それをターゲット都市に適用します。ただし、異なる都市間のデータ分布には大きな違いがある可能性があり、その結果、ソース都市モデルが直接移行され、ターゲット都市のデータ分布にうまく適合しない可能性があります。

したがって、私たちは乱雑なデータ配布への依存を取り除き、知識を共有するためのより本質的で伝達可能な方法を模索する必要があります。データ分布と比較して、ニューラルネットワークパラメータの分布には、より「高次」の特性があります。

図 1 は、データパターンレベルからニューラルネットワークレベルの知識伝達への変換プロセスを示しています。ソース都市からのデータでニューラルネットワークをトレーニングし、それをターゲット都市に適応したニューラルネットワークパラメーターを生成するプロセスに変換することで、ターゲット都市のデータ分布と特性をより適切に適応させることができます。

トレーニング前のプロンプト微調整: 時空間的な少数ショット学習の実現

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラルネットワークパラメーターを生成図 2 GPD モデルの概要

図 2 に示すように、この研究で提案された GPD は、ソース都市のモデルパラメーターから直接学習し、ターゲット都市の新しいモデルパラメーターを生成するように設計された条件付き生成フレームワークです。この方法は 3 つの主要な段階で構成されます。 ##1. ニューラルネットワークの準備段階: まず、各ソース都市エリアについて、調査は個別の時空間予測モデルをトレーニングし、その最適化されたネットワークパラメーターを保存します。各領域のモデルパラメーターは、モデルがそれぞれの領域の特性に最適に適応できるように、パラメーターを共有することなく個別に最適化されます。

2. 拡散モデルの事前トレーニング: このフレームワークは、収集された事前トレーニングされたモデルパラメーターをトレーニングデータとして使用して、拡散モデルをトレーニングし、モデルパラメーターの生成プロセスを学習します。拡散モデルは、ランダムな初期化から始まるパラメータ最適化プロセスと同様のプロセスである段階的なノイズ除去を通じてパラメータを生成するため、対象都市のデータ分布によりよく適応できます。

3. ニューラルネットワークパラメーターの生成: 事前トレーニング後、ターゲット都市の地域的な手がかりを使用してパラメーターを生成できます。このアプローチでは、ヒントを活用して知識の伝達と正確なパラメーターのマッチングを促進し、都市間地域間の類似点を最大限に活用します。

プレトレーニングキュー微調整フレームワークでは、特定の領域の特性を捉えることができる限り、キューの選択は非常に柔軟であることに注目する価値があります。たとえば、人口、地域、機能、興味のある地点 (POI) の分布などのさまざまな静的特徴を使用して、この目的を達成できます。

この研究では、空間的および時間的側面の両方から地域的な手がかりを利用しています。空間的な手がかりは、都市知識グラフ [1,2] のノード表現から得られます。地域的な隣接性や機能的類似性などの関係のみを使用します。これらの関係は、容易に理解できます。すべての都市で利用可能であり、時間的手がかりは自己教師あり学習モデルのエンコーダーから得られます。プロンプトデザインの詳細については、元の記事を参照してください。

さらに、この研究では、さまざまなキュー導入方法も調査され、事前知識に基づくキュー導入が最適なパフォーマンスを発揮することが実験で検証されました。つまり、空間キューを使用して、空間相関をモデル化するためのニューラルネットワークパラメーターの生成をガイドします。、および時間プロンプトを使用して、時間ニューラルネットワークパラメーターの生成をガイドします。

実験結果

チームは、他の研究者が結果を再現できるように、論文の中で実験設定を詳細に説明しました。彼らはまた、オリジナルの論文とオープンソースデータコードを提供しました。ここではその実験結果に焦点を当てます。

提案されたフレームワークの有効性を評価するために、この研究では、複数の都市データセットを対象として、群衆の流れ予測と交通速度予測という 2 つの古典的な時空間予測タスクに関する実験を実施しました。

図「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラルネットワークパラメーターを生成表 1 は、4 つのデータセットに関する最先端のベースライン手法との比較結果を示しています。これらの結果に基づいて、次のことがわかります。

1) GPD は、ベースラインモデルと比較してパフォーマンスに大きな利点を示し、さまざまなデータシナリオで一貫して優れたパフォーマンスを示します。これは、GPD が効果的なニューラルネットワークパラメーターレベルの知識伝達を達成していることを示しています。

2) GPD は長期予測シナリオで良好なパフォーマンスを示します。この重要な傾向は、フレームワークによるより重要な知識のマイニングに起因し、長期的な時空間パターンの知識を対象都市に伝達するのに役立ちます。

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラルネットワークパラメーターを生成図 3 さまざまな時空間予測モデルのパフォーマンスの比較

さらに、この研究では、さまざまな時空間予測に適応するための GPD フレームワークの柔軟性も検証されました。モデル。古典的な時空間グラフ手法 STGCN に加えて、この研究では時空間予測モデルとして GWN と STID も導入し、拡散モデルを使用してそれらのネットワークパラメーターを生成します。

実験の結果、フレームワークの優位性はモデルの選択に影響されず、さまざまな先進的なモデルに適応できることがわかりました。

さらに、この研究では、2 つの合成データセットのパターン類似性を操作することによってケース分析を実行します。

図 4 は、領域 A と B が非常に類似した時系列パターンを持っているのに対し、領域 C は大きく異なるパターンを示していることを示しています。一方、図 5 は、ノード A とノード B が対称な空間位置を持っていることを示しています。

したがって、領域 A と B は非常によく似た時空間パターンを持つ一方で、C とは明らかな違いがあると推測できます。モデルによって生成されたニューラルネットワークのパラメーター分布の結果は、A と B のパラメーター分布は似ていますが、C のパラメーター分布とは大きく異なることを示しています。これにより、GPD フレームワークが多様な時空間パターンを持つニューラルネットワークパラメーターを効果的に生成できることがさらに検証されました。

「データ不足」問題に対する賢明な解決策!清華社オープンソース GPD: 拡散モデルを使用してニューラルネットワークパラメーターを生成