ICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場-AI-php.cn

ヒューマンアクション生成タスクは、エンターテイメント、仮想現実、ロボット工学、その他の分野のニーズを満たすために、現実的な人間のアクションシーケンスを生成することを目的としています。従来の生成方法には、3D キャラクターの作成、キーフレームアニメーション、モーションキャプチャなどの手順が含まれていますが、時間がかかる、専門的な技術知識が必要である、高価なシステムとソフトウェアが必要である、異なるソフトウェアとハードウェアシステム間で互換性がある可能性があるなど、多くの制限があります。性的な問題など深層学習の発展に伴い、人々は生成モデルを使用して人間の動作シーケンスの自動生成を実現しようとし始めました。たとえば、テキストの説明を入力し、テキストの要件に一致する動作シーケンスを生成するようモデルに要求します。拡散モデルが現場に導入されるにつれて、生成されたアクションと特定のテキストの一貫性は向上し続けています。

しかし、生成されるアクションの自然さは改善されてきましたが、ユーザーのニーズとの間には依然として大きなギャップがあります。人間の動き生成アルゴリズムの機能をさらに向上させるために、本論文では MotionDiffuse [1] に基づく ReMoDiffuse アルゴリズム (図 1) を提案します。検索戦略を活用することで、関連性の高い参照サンプルを見つけ出し、より高品質なアクションシーケンスを生成するためのきめ細かい参照特徴を提供します。

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

# 論文リンク: https:/ /arxiv.org/pdf/2304.01116.pdf
GitHub リンク: https://github.com/mingyuan-zhang/ReMoDiffuse
プロジェクトのホームページ: https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

拡散モデルと革新的な検索戦略を巧みに統合することにより、ReMoDiffuse はテキストガイドに新しい命を吹き込みます。人間の動きの生成。慎重に考えられたモデル構造により、ReMoDiffuse は、豊かで多様かつ非常に現実的なアクションシーケンスを作成できるだけでなく、さまざまな長さと多粒度のアクション要件にも効果的に対応できます。実験では、ReMoDiffuse がアクション生成の分野における複数の重要な指標で優れたパフォーマンスを示し、既存のアルゴリズムを大幅に上回っていることが証明されています。

ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了 #図 1. ReMoDiffuse の概要

メソッドの紹介

ReMoDiffuse の主なプロセスは、検索と拡散の 2 つの段階に分かれています。取得段階では、ReMoDiffuse はハイブリッド取得テクノロジーを使用して、ユーザー入力テキストと予想されるアクションシーケンスの長さに基づいて外部マルチモーダルデータベースから情報豊富なサンプルを取得し、アクション生成のための強力なガイダンスを提供します。拡散段階では、ReMoDiffuse は検索段階で取得した情報を使用して、効率的なモデル構造を通じてユーザー入力と意味的に一貫したモーションシーケンスを生成します。取得段階のデータフローは次のとおりです (図 2):

取得プロセスには 3 種類のデータが含まれます。つまり、ユーザー入力テキスト、予想されるアクションシーケンスの長さ、および複数の # を含む外部マルチモーダルデータベースです。 ## ペア。最も関連性の高いサンプルを取得するとき、ReMoDiffuse は式

を使用して、各データベース内のサンプルとユーザー入力の間の類似性を計算します。ここでの最初の項目は、事前トレーニングされた CLIP [2] モデルのテキストエンコーダーを使用して、ユーザー入力テキストとデータベースエンティティのテキスト間のコサイン類似度を計算することであり、2 番目の項目は、予想されるアクションシーケンスの長さの差を計算します。データベースエンティティのアクションシーケンスの長さの相対的な差異が運動学的類似度とみなされます。類似度スコアを計算した後、ReMoDiffuse は取得したサンプルと同様の類似度を持つ上位 k 個のサンプルを選択し、テキスト特徴

とアクション特徴

を抽出します。これら 2 つは、ユーザーが入力したテキストから抽出された特徴とともに、アクション生成をガイドする拡散ステージへの入力信号として使用されます。 ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

図 2: ReMoDiffuse の取得フェーズ ICCV 2023 | 重塑人体动作生成，融合扩散模型与检索策略的新范式ReMoDiffuse来了

拡散プロセス (図 3.c) は、順方向プロセスと逆方向プロセスの 2 つの部分で構成されます。順方向のプロセスでは、ReMoDiffuse は元のモーションデータにガウスノイズを徐々に追加し、最終的にランダムノイズに変換します。逆プロセスは、ノイズを除去し、リアルなモーションサンプルを生成することに重点を置いています。 ReMoDiffuse は、ランダムなガウスノイズから開始して、逆プロセスの各ステップでセマンティック変調モジュール (SMT) (図 3.a) を使用して真の分布を推定し、条件付き信号に基づいてノイズを段階的に除去します。ここでの SMT の SMA モジュールは、すべての条件情報を生成されたシーケンス特徴に統合します。これが、この記事で提案するコアモジュールです。

図 3 : ReMoDiffuse の拡散段階

#SMA 層 (図 3.b) では、効率的なアテンションメカニズム (Efficient tention) [3] を使用して加速します。アテンションモジュールを計算し、グローバル情報をより強調するグローバル特徴マップを作成します。この特徴マップは、アクションシーケンスのより包括的な意味論的な手がかりを提供するため、モデルのパフォーマンスが向上します。 SMA レイヤーの中心的な目標は、条件付き情報を集約することでアクションシーケンスの生成を最適化することです。このフレームワークの下:

1. Q ベクトルは、条件付き情報に基づいて生成すると予想されるアクションシーケンスを具体的に表します。

2.Kベクトルは、現在のアクションシーケンスの特徴、ユーザーが入力した意味論的な特徴、検索サンプルから得られる特徴and##を含む複数の要素を包括的に考慮したインデックスメカニズムです。＃。このうち、は検索サンプルから得られた行動系列特徴量を表し、は検索サンプルから得られたテキスト記述特徴量を表す。この包括的な構築方法により、インデックス作成プロセスにおける K ベクトルの有効性が保証されます。
3.V ベクトルは、アクションを生成するために必要な実際の機能を提供します。 K ベクトルと同様に、V ベクトルでは、検索サンプル、ユーザー入力、および現在のアクションシーケンスが考慮されます。取得したサンプルのテキスト説明特徴と生成されたアクションの間には直接の相関関係がないため、不必要な情報干渉を避けるために、V ベクトルを計算するときにこの特徴を使用しないことを選択します。
Efficient Attendee のグローバルアテンションテンプレートメカニズムと組み合わせると、SMA レイヤーは、検索サンプルからの補助情報、ユーザーテキストの意味情報、およびノイズ除去されるシーケンスの特徴情報を使用して、一連の包括的なアテンションを確立します。グローバルテンプレート、すべての条件の作成情報は、生成されるシーケンスによって完全に吸収されます。

内容を書き直すには、元のテキストを中国語に変換する必要があります。書き換え後は次のようになります。研究設計と実験結果

私たちは、HumanML3D [4] と KIT-ML [5] の 2 つのデータセットで ReMoDiffuse を評価しました。実験結果 (表 1 および 2) は、テキストの一貫性とアクションの品質の観点から、私たちが提案する ReMoDiffuse フレームワークの強力なパフォーマンスと利点を示しています。表 1. HumanML3D テストセットでのさまざまなメソッドのパフォーマンス

##表 2. さまざまなメソッドのパフォーマンスKIT-ML テストセットでの

#次は、ReMoDiffuse の強力なパフォーマンスを示すいくつかの例です (図 4)。以前の方法と比較して、たとえば、「人が円を描いてジャンプする」というテキストが与えられた場合、ReMoDiffuse だけが「ジャンプ」の動きと「円」のパスを正確にキャプチャできます。これは、ReMoDiffuse がテキストの詳細を効果的にキャプチャし、指定されたモーション継続時間にコンテンツを合わせることができることを示しています。
図 4. ReMoDiffuse によって生成されたアクションシーケンスの比較他の方法で生成されたアクションシーケンスと

#Guo らの方法 [4]、MotionDiffuse [1]、MDM [6] の結果を比較しました。生成された対応動作シーケンスを視覚的に表示し、テスト参加者の意見をアンケート形式で収集しました。結果の分布を図 5 に示します。この結果から明らかなように、ほとんどの場合、テスト参加者は、私たちの方法によって生成されたアクションシーケンス、つまり ReMoDiffuse によって生成されたアクションシーケンスが、4 つのアルゴリズムの中で与えられたテキストの説明と最も一致していると信じています。最も自然で滑らかです。 #図 5: ユーザー調査結果の分布

引用 Mingyuan Zhang、Cai Zhonggang、Pan Liang、Hong Fangzhou、Guo Xinying、Yang Lei、Liu Ziwei。 Motiondiffuse: 拡散モデルに基づいたテキスト駆動の人間のモーション生成。 arXiv プレプリント arXiv:2208.15001、2022
[2] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、 Jack Clark, et al. Learning transferable Visual models from Natural Language Superior. arXiv preprint arXiv:2103.00020, 2021.
##[3] Zhuoran Shen、Mingyuan Zhang、Haiyu Zhao、Shuai Yi、およびHonsheng Li. 効率的な注意: 線形複雑性による注意. コンピュータービジョンのアプリケーションに関する IEEE/CVF 冬季会議議事録、3531 ～ 3539 ページ、2021.

[4 ] Chuan Guo 、Shihao Zou、Xinxin Zuo、Sen Wang、Wei Ji、Xingyu Li、および Li Cheng. テキストからの多様で自然な 3D 人間の動きの生成. コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録、5152 ～ 5161 ページ、 2022.

書き直す必要があるのは、[5] マティアスプラパート、クリスチャンマンデリー、タミムアスフォーです。「運動言語データセット」。 Big Data、4(4):236-252、2016

[6] Guy Tevet、Sigal Raab、Brian Gordon、Yonatan Shafir、Daniel Cohen-Or、および Amit H Bermano。人間の動作拡散モデル。第 11 回学習表現国際会議にて、2022.

以上がICCV 2023 | 人間の行動生成を再構築し、拡散モデルと検索戦略を統合する新しいパラダイムである ReMoDiffuse が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。