Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案-AI-php.cn

(Nweon 2023 年 9 月 18 日) 人間のユーザーの現実世界の姿勢を正確に表現するには、通常、ユーザーの身体部分の位置と方向に関する比較的詳細な情報が必要ですが、この情報は常に利用できるわけではありません。たとえば、ヘッドセットを使用して仮想現実体験を提供する場合、システムはユーザーの頭と手に関連する空間情報しか取得できない場合があります。ただし、ほとんどの場合、人間のユーザーの実際のポーズを正確に再現するにはこれでは十分ではありません

そこでマイクロソフトは、「多関節オブジェクトの姿勢予測」という特許出願で、多関節オブジェクトの姿勢を予測する技術を提案しました。特に、機械学習モデルは、多関節オブジェクトのn個の異なる関節の空間情報を受け取ります。ここで、n個の関節は、多関節オブジェクトのすべての関節よりも小さいです。

人間ユーザーの場合、n 個の関節には人間ユーザーの頭部関節および/または 1 つまたは 2 つの手首関節が含まれ、これらはユーザーの頭および/または手のパラメーターの詳細を示す空間情報に関連付けられます

機械学習モデルは、多関節オブジェクトの n m 個のジョイントに関する入力空間情報を受け取るようにトレーニングされています。ここで、m は 1 以上です。たとえば、初期トレーニング中に、機械学習モデルは、多関節オブジェクトのほぼすべての関節に対応する入力データを受け取ります。ｎｍ個の関節は、多関節オブジェクトの各関節を含み得る。

他の例では、多関節オブジェクトのすべてのジョイントよりも少ない n m 個のジョイントが存在する可能性があります。トレーニングプロセス中、機械学習モデルに入力されたデータは徐々に隠蔽される場合があります。事前定義された値を使用して、m 個のノード内の特定のノードの対応する入力データを置き換えることも、単純に

を省略することもできます。

言い換えれば、機械学習モデルは、多関節オブジェクトのさまざまな可動部分の位置/方向に関する情報が徐々に少なくなり、多関節オブジェクトの姿勢を正確に予測するようにトレーニングされます。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案

このアプローチを使用すると、機械学習モデルは実行時に多関節オブジェクトの姿勢を正確に予測でき、必要なのはまばらな入力データだけです。 Microsoft は、このテクノロジにより、各関節の向きに関する大量の情報を必要とせずに、人間のユーザーに対して多関節オブジェクトの現実世界のポーズを正確に再現できると述べています。

言い換えれば、発明は、人間のユーザーの実世界のジェスチャーをより正確に再現することにより、人間とコンピューターの対話を改善する技術的利点を提供することができます。これらの技術的利点には、仮想現実体験の没入感の向上やジェスチャ認識システムの精度の向上が含まれます

さらに、説明されているテクノロジーは、姿勢予測プロセスへの入力として収集する必要があるデータの量を削減することで、人間のユーザーの実際の姿勢を正確に再現しながら、コンピューティングリソースの消費を削減できます。

例の方法 200 は、多関節物体の姿勢を予測するための図 2 を示しています。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案

ポイント 202 で、多関節オブジェクトに使用される n 個のジョイントの空間情報を受け取ります。システムは、多関節オブジェクトの n 個の関節の空間情報を受け取ります。これには、多関節オブジェクトのすべての関節よりも少ない関節が含まれます。関節の空間情報を身体各部を結ぶ6自由度の位置と向きとして表現し、関節の状態を推定することができます

＃＃＃一例として、ｎ個の関節は人体の頭部関節を含むことができ、頭部関節の空間情報は人体の頭部のパラメータを詳細に記述することができる。また、ｎ個の関節は、人体の１つ以上の手首関節を含み、１つ以上の手首関節の空間情報は、人体の１つ以上の手のパラメータを詳細に記述することができる。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案図 3 は人間のユーザーを示しています。人間のユーザは、頭３００と２つの手３０２Ａおよび３０２Ｂを有する。コンピューティングシステムは、頭部および／または手首の関節を含む、人間のユーザーの１つまたは複数の関節に関する空間情報を受信することができる。

多関節オブジェクトの n 個の関節の空間情報は、1 つまたは複数のセンサーによって出力された位置データから導き出すことができます。センサーは、人間のユーザーの対応する体の部分によって保持または着用される 1 つまたは複数のデバイスに統合することができます。

たとえば、センサーには、ヘッドマウントディスプレイデバイスおよび/またはハンドヘルドコントローラーに統合された 1 つまたは複数の慣性測定ユニットが含まれる場合があります。別の例として、センサーには 1 つ以上のカメラが含まれる場合があります。

図 3 は、さまざまな種類のセンサーを概略的に示しており、センサーからの出力には空間情報が含まれるか、空間情報の導出に使用されます。具体的には、人間のユーザは、頭部３００にヘッドマウントディスプレイ装置３０４を装着する。

＃＃＃さらに、人間のユーザは、ユーザの手の動きを検出してヘッドセット３０４および／または空間情報を受信するように構成された別のコンピューティングシステムに報告するように構成され得る位置センサ３０６Ａおよび３０６Ｂを保持する。

図 2 では、204 の状況に戻ります。 n 個の関節の空間情報を、事前にトレーニングされた機械学習モデルに渡します。このモデルは、n m 個の関節の空間情報を入力として受け取ります。ここで、m の値は 1 以上です。言い換えれば、前のトレーニングモデルと比較して、この機械学習モデルは受け取る関節空間の情報が少なくなります

＃＃＃＃２０６において、関節オブジェクトの姿勢予測が機械学習モデルからの出力として受信される。予測は少なくともｎ個の関節の空間情報に基づいており、それらの関節の空間情報は含まれない。つまり、m 個の関節の空間情報が提供されていなくても、機械学習モデルは関節オブジェクトの完全な姿勢を予測できます。

回路図4は、このプロセスを説明するための機械学習モデル400の例を示しています。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案図4では、機械学習モデルは、3つの異なる関節J1、J2、およびJ3に対応する空間情報402を受け取ります。関節の空間情報は、関節に接続された身体部分の位置および／または方向を特定する、またはそれらを導出するために使用できる任意の適切なコンピュータデータの形式をとることができる。

＃＃＃＃たとえば、空間情報は、身体部分の位置および方向を直接指定することができ、および／または空間情報は、１つまたは複数の回転軸に対する関節の１つまたは複数の回転を指定することができる。図４では、ユーザの体に重ねられた影付きの円によって示されるように、関節Ｊ１、Ｊ２、Ｊ３は、人間のユーザの頭部関節４０４Ａと２つの手首関節４０４Ｂ／４０４Ｃに対応する。

この例では、n 個の関節には人体の頭関節と手首関節に相当する 3 つの関節が含まれています。入力空間情報４０２に基づいて、機械学習モデルは多関節物体の予測姿勢４０６を出力する。

さらに、機械学習モデルは、仮想ヒンジによって表される関節に対応する予測された空間情報を出力できます。人間のユーザーは、漫画のようなプロポーションまたは人間以外のプロポーションを持つアバターで表すことができます。例えば、予測された空間情報は、ＳＭＰＬによって表される関節に対応することができる。

言い換えれば、多関節表現の仮想表現の関節は、多関節オブジェクトの関節と 1:1 の対応関係を持つ必要はありません。したがって、機械学習モデルによって予測される空間情報出力は、多関節オブジェクトの n m 個の関節に直接対応しない関節に関するものである可能性があります。たとえば、仮想表現では、多関節オブジェクトよりも脊椎関節の数が少ない場合があります。

機械学習モデルは、適切な方法でトレーニングできます。一実施形態では、機械学習モデルは、多関節オブジェクトのグラウンドトゥルースラベルを含むトレーニング入力データを使用して事前にトレーニングされていてもよい。

言い換えれば、多関節オブジェクトの関節のトレーニング空間情報を機械学習モデルに提供し、空間情報に対応する多関節オブジェクトの実際の姿勢を指定するグラウンドトゥルースラベルとしてマークすることができます。

前述したように、機械学習モデルは、n m 個の関節の空間情報を入力として受け取るようにトレーニングできます。これには、最初のトレーニング反復で、すべての n m ジョイントのトレーニング入力データを機械学習モデルに提供することが含まれます。後続の一連のトレーニング反復では、m 個の関節のトレーニング入力データを徐々にマスクすることができます。

たとえば、2 回目のトレーニング反復では、m 個のジョイントのうちの最初のジョイントをマスクできます。この場合、トレーニングデータセット内のジョイントの空間情報は、マスクされたジョイントを表す事前定義された値に置き換えられるか、単に省略されます。

例として。 3 回目のトレーニング反復では、m 個のジョイントのうち 2 番目のジョイントをマスクすることができ、m 個のジョイントすべてがマスクされるまで続き、n 個のジョイントの空間情報のみが機械学習モデルに提供されます。

このプロセスは、図 5a ～ 5d に示されています。具体的には、図５Ａでは、機械学習モデル４００にトレーニング入力データセットが提供される。この実施形態では、トレーニング入力データは、第１の姿勢５０２Ａおよび第２の姿勢５０２Ｂを含む多関節オブジェクトの複数の異なる姿勢に対応する空間情報を含む。

図 5A では、機械学習モデルの多関節オブジェクトの n m 個の関節の空間情報を提供します。この人体の簡略化された表現では、関節を表す各円が白い塗りつぶしパターンで表現されています。ただし、図 5B では、コネクタ 504A の円

を表す黒い塗りつぶしパターンで示されているように、504A をシールドしています。

言い換えると、図 5A はトレーニングプロセスの最初の反復を表しており、n m 個の関節すべての空間情報が機械学習モデルに提供されます。図５Ｂは、訓練プロセスの２回目の繰り返しを示しており、ｍ個の関節のうちの最初の関節５０４Ａ＃＃がマスクされている。

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案＃＃＃＃図５Ｃでは、ヒンジによって表されるｍ個の関節のうちの第２関節５０４Ｂがブロックされている。同様に、図 5D では、m 個の関節のうち 3 番目の関節が閉塞されています。 m 個の関節のそれぞれの空間情報がマスクされ、n 個の関節の空間情報のみが機械学習モデルに提供されるまで、複数のトレーニング反復を続けることができます。

上記のシナリオでは、多関節オブジェクトが人体の全身である状況を説明します。ただし、多関節オブジェクトは他の形式を取ることもできます

Microsoft、AR/VR 身体姿勢キャプチャ向けに多関節オブジェクトの姿勢を予測する特許技術を提案図 7 に示すように、多関節オブジェクトは人間の手であり、人体全体ではありません。具体的には、図７は、機械学習モデル７００の例を示す。

＃＃＃＃機械学習モデル７００は、関節Ｊ１、Ｊ２、およびＪ３に関する空間情報を受け取る。これらは、この例では人間の手７０６の形態をとる多関節オブジェクトの３つの関節７０４Ａ〜Ｃに対応する。

この場合、具体的には、n 個の関節には、人間の手の 1 つ以上の指の関節が含まれます。 1 つまたは複数の指の関節の空間情報は、人間の手の 1 つまたは複数の指または指セグメントのパラメータを詳細に示します。たとえば、空間情報は、手の指の位置/方向、および/または手の関節に適用される回転を指定する場合があります。＃＃＃＃位置センサー７０８などを介して、任意の適切な方法を使用して関節腔情報を収集することができる。たとえば、位置センサーは、手を画像化するように構成されたカメラの形式を取ることができます。別の例として、位置センサーには、手の表面を電磁場にさらし、アンテナでの電磁場インピーダンスに対する導電性人間の皮膚の動きと近接の影響を評価するように構成された適切な無線周波数アンテナが含まれる場合があります。

入力空間情報 702 に従って、機械学習モデルは予測された空間情報のセット 710 を出力します。空間情報７１０は、多関節物体の予測された姿勢を構築するために使用され得る。前述したように、この空間情報は多関節オブジェクトの身体部分の位置と方向を表すことができます。