평행 인간 자세 추정 특허: Microsoft AR/VR 기술로 가상 표현 실현-일체 포함-php.cn

(2023년 11월 13일 신규) 인간 사용자 자세에 대한 정보는 가상 관절 표현에 매핑될 수 있습니다. 예를 들어, 가상 현실 환경에 참여할 때 가상 환경에서 인간 사용자의 성능은 실제 자세와 유사한 자세를 나타냅니다. 사용자의 실제 포즈는 이전에 훈련된 모델에 의해 가상 관절 표현의 포즈로 변환될 수 있으며, 모델은 최종 렌더링을 위해 동일한 가상 관절 표현의 포즈를 출력하도록 훈련될 수 있습니다.

때로는 시스템이 비현실적인 성능을 보여야 할 때가 있습니다. 예를 들어, 사용자는 다양한 신체 비율, 뼈 또는 기타 측면을 가진 만화 캐릭터를 선택할 수 있습니다

평행 인간 자세 추정 특허: Microsoft AR/VR 기술로 가상 표현 실현

그림 1에 표시된 것처럼 실제 환경(102)에 있는 인간 사용자(100)가 표시됩니다. 볼 수 있듯이, 인간 사용자의 제스처는 연결 표현(104)에 적용됩니다. 즉, 인간 사용자가 실제 환경에서 활동을 수행할 때 해당 동작은 가상 환경(106)에서 연결 표현(104)의 움직임으로 변환됩니다.

때때로 가상 관절 표현은 모델 교육에 사용된 표현과 다를 수 있으므로 다시 작성해야 합니다. 이 문제를 해결하기 위해 Microsoft 특허 "가상 표현을 위한 동시 인간 자세 추정"에서는 모델 관절 표현과 대상 관절 표현의 포즈를 동시에 추정할 수 있는 기술을 도입합니다

구체적으로, 컴퓨팅 시스템은 하나 이상의 센서로부터의 입력을 적어도 부분적으로 기반으로 인간 사용자의 하나 이상의 신체 부위에 대한 세부 매개변수의 위치 데이터를 수신합니다. 이러한 센서에는 헤드셋의 관성 측정 장치 출력과 해당 카메라의 출력이 포함될 수 있습니다

다시 작성된 내용은 다음과 같습니다. 시스템은 관절 매핑 제약 조건과 같이 대상 관절 표현과 관련된 모델 관절 표현의 하나 이상의 매핑 제약 조건을 동시에 유지합니다. 포즈 최적화 기회는 위치 지정 데이터와 매핑 제약 조건을 사용하여 모델 관절이 나타내는 포즈와 대상 관절이 나타내는 대상 포즈를 동시에 추정합니다. 추정이 완료되면 시스템은 대상 포즈와 함께 대상 관절 표현을 인간 사용자가 볼 수 있는 가상 표현으로 표시할 수 있습니다

자세 최적화 기계는 모델의 명확한 표현에 대한 정답 레이블이 있는 훈련 포지셔닝 데이터를 사용하여 훈련할 수 있습니다. 그러나 훈련 지역화 데이터에는 대상 관절 표현에 대한 실제 레이블이 부족할 수 있습니다.

이 접근 방식을 사용하면 각기 다른 잠재적 대상에 대해 값비싼 훈련 계산을 할 필요 없이 실제 포즈를 정확하게 재현할 수 있습니다. 이 기술에 대한 독창적인 설명은 인간 사용자에게 긍정적인 영향을 미칠 수 있습니다

사용자가 가상 환경에 참여할 때 의사소통 과정에서 언제든지 자신을 대표할 다른 아바타를 선택하고 외모를 변경할 수 있습니다. 특정 표현에 대해 모델을 재교육할 필요 없이 사용자가 선택할 수 있는 표현 메뉴에 새로운 대상 연결 표현을 추가할 수 있으므로 계산 비용이 절약됩니다.

본 발명에 설명된 기술은 컴퓨팅 리소스 소비를 줄이는 동시에 인간 사용자의 실제 자세를 정확하게 재현하고 정확한 자세를 다양한 대상 관절 표현에 적용할 수 있다는 기술적 이점을 제공할 수 있습니다. 구체적인 방법은 대상과 모델의 자세를 동시에 추정하는 것입니다.

평행 인간 자세 추정 특허: Microsoft AR/VR 기술로 가상 표현 실현

사람의 포즈(200)를 가상으로 표현하는 방법의 예가 그림 2에 나와 있습니다.

202에서, 인간 사용자의 하나 이상의 신체 부위의 세부 매개변수에 대한 위치 데이터는 하나 이상의 센서로부터의 입력에 기초하여 수신됩니다.

204에서는 모델의 연결을 보장하기 위해 대상 관절 표현과 관련된 하나 이상의 매핑 제약 조건을 유지해야 합니다. 그림 4에 표시된 것처럼 연결 표현 400

의 예시적인 모델이 표시됩니다.

평행 인간 자세 추정 특허: Microsoft AR/VR 기술로 가상 표현 실현

위에서 언급했듯이 대상 관절 표현은 가상 환경에 표시하기 위해 렌더링되며 포즈 최적화 기계를 통해 대상 포즈를 출력하여 표시할 수 있습니다. 예를 들어, 타겟 관절 표현물은 임의의 적절한 모양과 비율을 가질 수 있으며 임의의 적절한 개수의 팔다리, 관절 및/또는 기타 움직일 수 있는 신체 부위를 가질 수 있습니다.

이는 다음과 같이 다시 작성할 수 있습니다. 대상 연결 표현은 인간이 아닌 동물, 가상의 인물 또는 적합한 아바타를 나타낼 수 있습니다. 모델의 관절 표현과 목표의 관절 표현은 하나 이상의 매핑 제약 조건(402)을 통해 관련됩니다.

하나 이상의 매핑 제약 조건에는 조인트 매핑 제약 조건 404가 포함될 수 있습니다. 대상 관절 표현의 관절의 경우 관절 매핑 제약 조건은 모델의 관절 표현에서 하나 이상의 관절 세트를 지정합니다. 예를 들어, 모델 연결 표현(400)은 복수의 관절을 포함하며, 그 중 두 개는 403A 및 403B로 표시되어 있으며 이는 어깨 관절과 팔꿈치 관절에 해당합니다.

대상 관절 번호 104에는 유사한 관절 405A 및 405B가 포함되어 있습니다. 따라서 대상 표현의 관절 405A 및 405B는 이러한 관절을 모델 표현의 관절 403A 및 403B에 매핑하는 것을 나타내는 여러 개의 서로 다른 관절 매핑 제약 조건을 가질 수 있습니다.

관절 매핑 제약 조건은 대상 관절 표현에 매핑할 때 각 모델 관절의 가중치를 추가로 지정할 수 있습니다. 예를 들어 모델의 관절 표현에 대상 관절 표현의 특정 관절에 매핑된 관절이 하나만 있는 경우 해당 모델 관절의 가중치는 100%일 수 있습니다. 두 개의 모델 관절이 대상 관절에 매핑되면 두 모델 관절의 가중치는 50%와 50%, 30%와 70%, 10%와 90% 등이 될 수 있습니다.

그림 2에서 방법 200은 이전에 훈련된 포즈를 최적화하여 모델 관절로 표현되는 모델 포즈와 타겟 관절로 표현되는 목표 포즈를 동시에 추정합니다. 모델 포즈와 목표 포즈 추정은 적어도 부분적으로 위치 데이터에 의존합니다

평행 인간 자세 추정 특허: Microsoft AR/VR 기술로 가상 표현 실현

그림 5A는 컴퓨터 논리 구성요소의 임의의 적절한 조합으로 구현될 수 있는 자세 최적화 기계(500)의 예를 개략적으로 보여줍니다. 비제한적인 예로서, 포즈 최적화 기계(500)는 도 6에 도시된 바와 같은 논리 서브시스템(602)으로 구현될 수 있다.

그림 5A에 표시된 것처럼 자세 최적화 기계는 모델 관절로 표현되는 모델 자세(502A)와 타겟 관절로 표현되는 타겟 자세(502B)를 동시에 추정합니다. 이는 포지셔닝 데이터(504) 및 하나 이상의 매핑 제약(506)에 적어도 부분적으로 기초하여 달성된다.

자세 추정은 하나 이상의 이전 시간 프레임에서 추정된 하나 이상의 이전 모델 포즈와 이전 대상 포즈를 기반으로 적어도 부분적으로 수행될 수 있습니다. 따라서, 포즈 최적화 기계(500)는 각 모델 관절에 대한 다중 로컬 회전으로 표현될 수 있는 다중 이전 포즈(506)를 저장합니다.

하나 이상의 매핑 제약 조건에는 포즈 연속성 제약 조건이 포함될 수 있습니다. 이는 특정 관절의 로컬 회전이 한 프레임에서 다른 프레임으로 변경될 수 있는 정도에 대해 프레임 간 제약 조건을 적용합니다. 프레임 간 변경 정도를 제한하여 주어진 관절의 로컬 회전을 제한하기 위해 포즈 연속성에 일련의 매핑 제약 조건을 적용할 수 있습니다

그림 5B는 추정 모델 및 대상 포즈를 모델 및 대상 관절 표현에 적용하는 과정을 개략적으로 보여줍니다. 구체적으로, 도 5b는 모델 관절 표현(400) 및 타겟 관절 표현(104)에 대응하는 기본 자세(407A 및 407B)를 다시 도시한다. 그런 다음 관절의 방향을 변경함으로써 모델 관절 표현(400)은 모델 포즈(502A)를 가정하고, 목표 관절 표현(104)은 목표 포즈(502B)를 가정합니다.

포즈 최적화에서는 모델과 타겟의 포즈를 동시에 추정하는 것이 필요합니다. 즉, 다른 방법과 달리 포즈 최적화 머신은 모델의 포즈 표현을 먼저 출력한 다음 이를 대상의 포즈 표현으로 변환하지 않습니다. 이에 비해 포즈 추정은 일련의 제약조건을 만족하는 모델 포즈와 목표 포즈를 동시에 찾는 과정입니다

예를 들어, 모델 관절 표현의 포즈는 일련의 위치 데이터가 주어졌을 때 가능한 인간 포즈를 출력하기 위해 자세 최적화 기계의 사전 훈련을 통해 제한될 수 있으며, 대상 관절 표현의 포즈는 관절 표적을 연관시켜 제한될 수 있습니다. 모델 표현에 대한 표현 하나 이상의 매핑 제약 조건에 연결된 제약 조건입니다.

또한, 이전 훈련에서는 자세 최적화를 수행하는 기계 학습 모델(508)을 통해 자세 추정을 구현할 수 있었습니다. 일례에서, 포즈 최적화 기계는 희박한 입력 포지셔닝 데이터에 기초하여 포즈를 출력하도록 구성될 수 있습니다. 즉, 포즈 최적화 기계는 런타임에 수신되는 더 많은 입력 매개변수에 따라 더 정확한 포즈 추정을 출력하도록 훈련될 수 있습니다

즉, 자세 최적화 기계가 수신한 포지셔닝 데이터에는 사용자의 n개 관절 회전 매개변수가 포함될 수 있습니다. 이전 훈련에서 자세 최적화 기계는 n+m 관절의 회전 매개변수를 입력으로 받았습니다. 여기서 m은 1보다 큽니다. 그런 다음 모델의 관절로 표현되는 n+m개의 모델 관절의 회전 매개변수를 추정하여 모델의 추정 자세를 결정할 수 있습니다. 이를 위해서는 최소한 n개의 관절을 기준으로 한 회전 매개변수가 필요하지만 m개의 관절을 기준으로 한 것은 아닙니다

또한 태도 최적화 기계를 훈련할 때 대상 연결 표현의 Ground Truth 라벨을 포함할 필요가 없습니다. 대신, 대상 관절 표현은 하나 이상의 매핑 제약 조건을 통해 모델 관절 표현과 연관되며, 일반적으로 대상 포즈가 모델 포즈와 실질적으로 유사하도록 제한합니다

Microsoft는 위의 기술을 사용하면 프로세스 속도를 두 배로 높일 수 있다는 점을 지적합니다. 이를 통해 특별한 하드웨어 가속 없이도 모델과 대상 포즈를 실시간으로 동시에 추정할 수 있습니다.

그림 2에서 방법(200)은 목표 포즈를 갖는 목표 관절 표현을 디스플레이용 인간 사용자의 가상 표현으로 출력하는 단계를 포함하며, 이 단계는 208에서 발생합니다. 예를 들어, 도 1에서는 타겟 관절 표현(104)이 전자 디스플레이 장치(108)를 통해 표시된다. 대상의 명확한 표현을 시연하는 데 사용되는 디스플레이 장치는 적절한 형식을 취할 수 있으며 적절한 기본 디스플레이 기술을 사용할 수 있습니다