상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 '초현실적인 3D 디지털 인간'을 생성할 수 있음-일체 포함-php.cn

대형 언어 모델(LLM), 확산(Diffusion) 등 기술의 발전으로 ChatGPT, Midjourney 등의 제품 탄생으로 새로운 AI 열풍이 불었고, 생성 AI도 큰 화제가 되었습니다. 우려.

텍스트나 이미지와 달리 3D세대는 아직 기술 탐구 단계입니다.

2022년 말 구글, 엔비디아, 마이크로소프트가 잇달아 자체 3D 생성 작품을 출시했지만, 대부분이 고급 NeRF(Neural Radiation Field) 암시적 표현을 기반으로 하고 있으며 Unity 등 산업용 3D 소프트웨어와 호환되지 않습니다. , Unreal Engine 및 Maya가 호환되지 않습니다.

기존 솔루션을 통해 Mesh로 표현된 기하학적 맵과 컬러맵으로 변환하더라도 정확도가 부족하고 시각적 품질이 저하되어 영화 및 TV 제작과 게임 제작에 직접 적용할 수 없습니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

프로젝트 웹사이트: https://sites.google.com/view/dreamface

논문 주소: https://arxiv.org/abs/2304.03117

웹 데모: https://hyperhuman.top

HuggingFace Space: https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

이러한 문제를 해결하기 위해 Yingmo Technology와 상하이 과학 기술 대학의 R&D 팀은 텍스트 기반의 프로그레시브 3D 생성 프레임워크를 제안했습니다.

이 프레임워크는 CG 제작 표준을 준수하는 외부 데이터 세트(지오메트리 및 PBR 재질 포함)를 도입하고, 텍스트를 기반으로 이 표준을 준수하는 3D 자산을 직접 생성할 수 있는 Production-Ready 3D를 지원하는 최초의 프레임워크입니다. 자산 생성.

텍스트 생성 기반 3D 초현실적 디지털 휴먼을 달성하기 위해 팀은 이 프레임워크를 프로덕션급 3D 디지털 휴먼 데이터 세트와 결합했습니다. 본 작품은 컴퓨터 그래픽 분야 최고 국제 저널인 Transactions on Graphics에 게재 승인을 받았으며, 최고의 국제 컴퓨터 그래픽 컨퍼런스인 SIGGRAPH 2023에서 발표될 예정입니다.

DreamFace에는 주로 기하학 생성, 물리 기반 재료 확산 및 애니메이션 기능 생성의 세 가지 모듈이 포함되어 있습니다.

이전 3D 생성 작업과 비교하여 이 작업의 주요 기여는 다음과 같습니다.

· 최신 시각적 언어 모델과 애니메이션 가능한 물리적 자료를 결합한 새로운 생성 방식인 DreamFace를 제안합니다. 형상, 모양 및 애니메이션 기능을 분리하는 점진적인 학습입니다.

· 잠재 공간과 이미지 공간에서 2단계 최적화를 수행하는 동시에 새로운 물질 확산 모델과 사전 훈련된 모델을 결합하는 이중 채널 모양 생성 설계를 소개합니다.

· BlendShapes 또는 생성된 Personalized BlendShapes를 사용하는 얼굴 자산은 애니메이션화되며 자연스러운 캐릭터 디자인을 위해 DreamFace를 사용하는 방법을 추가로 보여줍니다.

기하학 생성

기하학 생성 모듈은 텍스트 프롬프트를 기반으로 일관된 기하학적 모델을 생성할 수 있습니다. 그러나 얼굴 생성의 경우 이를 감독하고 수렴하기가 어려울 수 있습니다.

따라서 DreamFace는 CLIP(Contrastive Language-Image Pre-Training) 기반의 선택 프레임워크를 제안합니다. 이 프레임워크는 먼저 얼굴 기하학적 매개변수 공간 내에서 무작위로 샘플링된 후보 중에서 가장 좋은 대략적인 기하학적 모델을 선택한 다음 기하학적 세부 사항을 조각하여 머리 모델이 텍스트 단서와 더 일치합니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace는 입력 프롬프트를 기반으로 CLIP 모델을 사용하여 일치 점수가 가장 높은 대략적인 기하학 후보를 선택합니다. 다음으로 DreamFace는 암시적 확산 모델(LDM)을 사용하여 임의의 시야각 및 조명 조건에서 렌더링된 이미지에 대해 SDS(Scored Distillation Sampling) 처리를 수행합니다.

이를 통해 DreamFace는 정점 변위 및 상세한 노멀 맵을 통해 대략적인 기하학 모델에 얼굴 세부 정보를 추가하여 매우 상세한 기하학을 얻을 수 있습니다.

머리 모델과 마찬가지로 DreamFace도 이 프레임워크를 기반으로 헤어스타일과 색상을 선택합니다.

물리 기반 재료 확산 생성

물리 기반 재료 확산 모듈은 예측된 기하학 및 텍스트 단서와 일치하는 얼굴 질감을 예측하도록 설계되었습니다.

먼저 DreamFace는 수집된 대규모 UV 재료 데이터 세트에 대해 사전 훈련된 LDM을 미세 조정하여 두 개의 LDM 확산 모델을 얻었습니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace는 두 가지 확산 프로세스를 조정하는 공동 훈련 체계를 사용합니다. 하나는 UV 텍스처 맵을 직접 제거하고 다른 하나는 렌더링된 이미지를 감독하여 얼굴 UV 맵과 렌더링된 이미지가 올바른지 확인하는 것입니다. of는 텍스트 프롬프트와 일치합니다.

생성 시간을 단축하기 위해 DreamFace는 거친 질감 잠재력 확산 단계를 채택하여 세부적인 질감 생성에 대한 선험적 잠재력을 제공합니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

생성된 텍스처 맵에 바람직하지 않은 기능이나 조명 상황이 포함되지 않도록 하면서 다양성을 유지하기 위해 단서 학습 전략이 설계되었습니다.

팀에서는 고품질 확산 맵을 생성하기 위해 두 가지 방법을 사용합니다.

(1) 프롬프트 조정. 손으로 제작한 도메인별 텍스트 큐와 달리 DreamFace는 두 개의 도메인별 연속 텍스트 큐 Cd 및 Cu를 해당 텍스트 큐와 결합합니다. 이는 U-Net 디노이저 훈련 중에 최적화되어 불안정성과 시간 소모적인 프롬프트 수동 작성을 방지합니다.

(2) 비얼굴 부위 마스킹. LDM 노이즈 제거 프로세스는 결과 확산 맵에 원치 않는 요소가 포함되지 않도록 얼굴이 아닌 영역 마스크로 추가로 제한됩니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace는 마지막 단계로 초해상도 모듈을 적용하여 고품질 렌더링을 위한 4K 물리적 기반 텍스처를 생성합니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace 프레임워크는 설명을 기반으로 한 유명인 생성 및 캐릭터 생성에서 매우 좋은 결과를 얻었으며, User Study에서는 이전 작업을 훨씬 능가하는 결과를 얻었습니다. 전작과 비교해 런닝타임 측면에서도 분명한 장점이 있다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

이 외에도 DreamFace는 팁과 스케치를 사용한 텍스처 편집도 지원합니다. 미세 조정된 텍스처 LDM 및 큐를 직접 사용하여 노화 및 메이크업과 같은 전역 편집 효과를 얻을 수 있습니다. 마스크나 스케치를 더욱 조합하여 문신, 턱수염, 모반 등 다양한 효과를 연출할 수 있습니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

애니메이션 기능 생성

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace에서 생성된 모델에는 애니메이션 기능이 있습니다. BlendShapes 기반 방법과 달리 DreamFace의 신경 얼굴 애니메이션 방법은 고유한 변형을 예측하여 결과 중립 모델에 애니메이션을 적용하여 개인화된 애니메이션을 생성합니다.

먼저, 기하 생성기는 표현의 잠재 공간을 학습하도록 훈련되며, 여기서 디코더는 중립 기하를 조건으로 확장됩니다. 그런 다음 식 인코더는 RGB 이미지에서 식 특징을 추출하도록 추가로 훈련됩니다. 따라서 DreamFace는 단안 RGB 이미지를 사용하여 중립 기하학적 모양을 조건으로 개인화된 애니메이션을 생성할 수 있습니다.

표현 제어를 위해 일반적인 BlendShapes를 사용하는 DECA에 비해 DreamFace의 프레임워크는 미세한 표현 디테일을 제공하고 미세한 디테일로 퍼포먼스를 캡처할 수 있습니다.

결론

이 글에서는 최신 시각 언어 모델, 암시적 확산 모델, 물리 기반 물질 확산 기술을 결합한 텍스트 기반 프로그레시브 3D 생성 프레임워크인 DreamFace를 소개합니다.

DreamFace의 주요 혁신에는 기하학 생성, 물리적 기반 재료 확산 생성 및 애니메이션 기능 생성이 포함됩니다. 전통적인 3D 생성 방법과 비교하여 DreamFace는 더 높은 정확도, 더 빠른 실행 속도 및 더 나은 CG 파이프라인 호환성을 제공합니다.

DreamFace의 프로그레시브 생성 프레임워크는 복잡한 3D 생성 작업을 해결하기 위한 효과적인 솔루션을 제공하며 더욱 유사한 연구 및 기술 개발을 촉진할 것으로 예상됩니다.

또한 물리 기반 소재 확산 세대와 애니메이션 역량 세대를 통해 영화 및 TV 제작, 게임 개발 및 기타 관련 산업에 3D 생성 기술 적용을 촉진할 것입니다.

위 내용은 상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 '초현실적인 3D 디지털 인간'을 생성할 수 있음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!