並列人間姿勢推定特許：Microsoft AR/VR技術で仮想表現を実現-AI-php.cn

(Nweon、2023 年 11 月 13 日) 人間のユーザーの姿勢に関する情報を仮想の多関節表現にマッピングできます。たとえば、仮想現実環境に参加する場合、仮想環境における人間のユーザーのパフォーマンスは、現実世界の姿勢と同様の姿勢を示します。ユーザーの実世界のポーズは、事前にトレーニングされたモデルによって仮想多関節表現のポーズに変換でき、最終レンダリング用に同じ仮想多関節表現のポーズを出力するようにモデルをトレーニングできます。

場合によっては、システムは非現実的なパフォーマンスを表示する必要があります。たとえば、ユーザーは体のプロポーション、骨、その他の側面が異なる漫画のキャラクターを選択できます。

並列人間姿勢推定特許：Microsoft AR/VR技術で仮想表現を実現＃＃＃＃図１に示すように、現実世界環境１０２にいる人間のユーザ１００が表示されている。図から分かるように、人間のユーザのジェスチャが多関節表現１０４に適用される。換言すれば、人間のユーザが現実世界の環境で活動を実行するとき、対応するアクションは仮想環境１０６における多関節表現１０４の動きに変換される。

場合によっては、仮想アーティキュレーション表現がモデルのトレーニングに使用された表現と異なる場合があり、書き直す必要があります。この問題を解決するために、Microsoft の特許「仮想表現に対する人間の姿勢の同時推定」では、モデルの多関節表現とターゲットの多関節表現の姿勢を同時に推定できるテクノロジが導入されています。

具体的には、コンピューティングシステムは、1つまたは複数のセンサーからの入力に少なくとも部分的に基づいて、人間のユーザーの1つまたは複数の身体部分の詳細なパラメータに関する位置データを受信する。これらのセンサーには、ヘッドセットの慣性測定ユニットの出力だけでなく、適切なカメラの出力も含めることができます

書き換えられた内容は次のとおりです。システムは、ジョイントマッピング制約など、ターゲットのジョイント表現に関連付けられたモデルのジョイント表現の 1 つまたは複数のマッピング制約を同時に維持します。ポーズ最適化の機会では、位置決めデータとマッピング制約を使用して、モデルジョイントによって表されるポーズとターゲットジョイントによって表されるターゲットポーズを同時に推定します。推定が完了すると、システムはターゲットの関節表現をターゲットのポーズとともに仮想表現として表示し、人間のユーザーが見ることができます

姿勢最適化マシンは、モデルの多関節表現のグラウンドトゥルースラベルを含むトレーニング位置データを使用してトレーニングできます。ただし、トレーニングローカリゼーションデータには、ターゲットのアーティキュレーション表現のグラウンドトゥルースラベルが不足している場合があります。

このアプローチを使用すると、さまざまな潜在的なターゲットごとに高価なトレーニング計算を必要とせずに、現実世界のポーズの正確な再現を効果的に達成できます。このテクノロジーの独創的な説明は、人間のユーザーにプラスの影響を与える可能性があります

ユーザーは仮想環境に参加するとき、自分自身を表す別のアバターを選択でき、コミュニケーションプロセス中いつでも自分の外観を変更できます。特定の表現に対してモデルを再トレーニングすることなく、新しいターゲットの多関節表現をユーザーが利用できる表現のメニューに追加できるため、計算コストを節約できます

本発明は、人間のユーザーの実世界のポーズを正確に再現し、その正確なポーズを複数の異なるターゲット関節表現のいずれかに適用できるようにしながら、計算リソースの消費を削減するという技術的利点を提供できる技術について説明します。具体的な方法としては、対象物とモデルの姿勢を同時に推定する方法がある。

人間の姿勢の仮想表現 200

の例を図 2 に示します。＃＃＃２０２で、人間のユーザの１つまたは複数の体の部分の詳細なパラメータの位置データが、１つまたは複数のセンサからの入力に基づいて受信される。並列人間姿勢推定特許：Microsoft AR/VR技術で仮想表現を実現

204では、モデルの接続を確実にするために、ターゲットの多関節表現に関連する1つまたは複数のマッピング制約を維持する必要があります。図 4 に示すように、モデル多関節表現 400

の例が示されています。

上で述べたように、ターゲット関節表現は仮想環境で表示するためにレンダリングされ、姿勢最適化マシンを通じてターゲット姿勢を出力することによって表示できます。例えば、ターゲット多関節表現は、任意の適切な外観および比率を有することができ、任意の適切な数の手足、関節、および／または他の可動身体部分を有することができる。

これは次のように書き換えることができます: ターゲットの関節表現は、人間以外の動物、架空のキャラクター、または任意の適切なアバターを表すことができます。モデルの多関節表現とターゲットの多関節表現は、1 つ以上のマッピング制約 402 並列人間姿勢推定特許：Microsoft AR/VR技術で仮想表現を実現を通じて関連付けられます。

1つまたは複数のマッピング制約には、ジョイントマッピング制約404が含まれる場合があります。ターゲットの多関節表現内のジョイントの場合、ジョイントマッピング制約により、モデルの多関節表現内の 1 つまたは複数のジョイントのセットが指定されます。例えば、モデル多関節表現４００は複数の関節を含み、そのうちの２つは肩関節および肘関節に対応する４０３Ａおよび４０３Ｂとラベル付けされている。

ターゲット関節 No. 104 には、同様の関節 405A および 405B が含まれています。したがって、ターゲット表現のジョイント 405A および 405B は、複数の異なるジョイントマッピング制約を持つ可能性があり、これらのジョイントがモデル表現のジョイント 403A および 403B

にマップされることを示します。

ジョイントマッピングコンストレイントでは、ターゲットジョイント表現にマッピングするときに、各モデルジョイントのウェイトをさらに指定できます。たとえば、モデルの多関節表現に、ターゲットの多関節表現の特定のジョイントにマッピングされたジョイントが 1 つだけある場合、そのモデルのジョイントのウェイトは 100% になる可能性があります。 2 つのモデルジョイントがターゲットジョイントにマッピングされている場合、2 つのモデルジョイントのウェイトは 50% と 50%、30% と 70%、10% と 90% などになります。

＃＃＃図２において、方法２００は、以前に訓練された姿勢を最適化することによって、モデルヒンジによって表されるモデル姿勢と、ターゲットヒンジによって表されるターゲット姿勢とを同時に推定する。モデルの姿勢とターゲットの姿勢の推定は、位置データに少なくとも部分的に依存します

並列人間姿勢推定特許：Microsoft AR/VR技術で仮想表現を実現＃＃＃図５Ａは、姿勢最適化マシン５００の一例を概略的に示しており、コンピュータ論理コンポーネントの任意の適切な組み合わせとして実装することができる。非限定的な例として、姿勢最適化マシン５００は、図６に示されるような論理サブシステム６０２として実装され得る。

＃＃＃図５Ａに示すように、姿勢最適化マシンは、モデル関節によって表されるモデル姿勢５０２Ａと、目標関節によって表される目標姿勢５０２Ｂを同時に推定する。これは、測位データ５０４および１つまたは複数のマッピング制約５０６に少なくとも部分的に基づいて達成される。

＃＃＃＃姿勢推定は、１つまたは複数の以前の時間フレームで推定された１つまたは複数の以前のモデル姿勢および以前のターゲット姿勢に基づいて、少なくとも部分的に達成され得る。したがって、ポーズ最適化マシン５００は、各モデル関節に対する複数の局所回転として表すことができる複数の以前のポーズ５０６を記憶する。

1 つまたは複数のマッピング制約には、ポーズ連続性制約が含まれる場合があります。ポーズ連続性制約は、特定のジョイントのローカル回転がフレーム間でどの程度変化するかについてフレーム間の制約を課します。一連のマッピング制約をポーズの連続性に適用して、フレーム間の変化の程度を制限することで特定のジョイントのローカル回転を制約できます。

図 5B は、推定されたモデルとターゲットのポーズをモデルとターゲットの多関節表現に適用するプロセスを概略的に示しています。具体的には、図５Ｂは、モデル多関節表現４００およびターゲット多関節表現１０４に対応するデフォルト姿勢４０７Ａおよび４０７Ｂを再度示す。次に、関節の方向を変えることにより、モデル関節表現４００はモデル姿勢５０２Ａをとり、目標関節表現１０４は目標姿勢５０２Ｂ＃＃＃をとる。

姿勢最適化では、モデルの姿勢とターゲットの姿勢を同時に推定する必要があります。つまり、他の方法とは異なり、姿勢最適化マシンは最初にモデルの姿勢表現を出力し、それからそれをターゲットの姿勢表現に変換しません。対照的に、姿勢推定は、一連の制約を満たすモデルの姿勢とターゲットの姿勢を同時に見つけるプロセスです。

たとえば、モデルの多関節表現のポーズは、位置データのセットが与えられた場合に考えられる人間のポーズを出力する姿勢最適化マシンの事前トレーニングによって制約できます。また、ターゲットの多関節表現のポーズは、モデルを使用したターゲットの関節表現。1 つ以上の関連するマッピング制約を表す制約。

＃＃＃さらに、前のトレーニングでは、姿勢推定は、姿勢最適化を実行する機械学習モデル５０８によって実装することができる。一例では、ポーズ最適化マシンは、まばらな入力位置決めデータに基づいてポーズを出力するように構成され得る。言い換えれば、姿勢最適化マシンは、実行時に受け取るより多くの入力パラメータに応じて、より正確な姿勢推定値を出力するようにトレーニングできます。

言い換えれば、姿勢最適化マシンが受信した位置データには、人間のユーザーの n 個の関節の回転パラメーターが含まれている可能性があります。前回のトレーニングでは、姿勢最適化マシンは n m 個の関節の回転パラメーターを入力として受け取りました。ここで、m は 1 より大きくなります。次に、モデルの関節によって表現される n m 個のモデル関節の回転パラメータを推定することで、推定されたモデルの姿勢を決定できます。少なくとも n 個の関節に基づく回転パラメータが必要ですが、m 個の関節に基づく回転パラメータは必要ありません。

さらに、姿勢最適化マシンをトレーニングするときに、ターゲットの多関節表現のグラウンドトゥルースラベルを含める必要はありません。代わりに、ターゲットの多関節表現は、1 つ以上のマッピング制約を通じてモデルの多関節表現と関連付けられ、通常はターゲットのポーズがモデルのポーズと実質的に類似するように制約されます。

Microsoft は、上記のテクノロジを使用すると、プロセスの速度を 2 桁向上させることができると指摘しています。これにより、特殊なハードウェアアクセラレーションを必要とせずに、モデルとターゲットのポーズをリアルタイムで同時に推定できるようになります。

＃＃＃図２において、方法２００は、表示のために人間のユーザの仮想表現としてターゲット姿勢を有するターゲット多関節表現を出力することを含み、このステップは２０８で行われる。例えば、図１では、ターゲットの多関節表現１０４が電子表示装置１０８を通じて表示される。ターゲットの多関節表現を表示するために使用される表示装置は、任意の適切な形式をとることができ、任意の適切な基礎となる表示技術を使用することができる