객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안-일체 포함-php.cn

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안

프로젝트 홈페이지: https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html
논문 주소: https://arxiv.org/abs/ 2404.14329
코드 주소: https://github.com/tau-yihouxiang/X-Ray
데이터셋: https://huggingface.co/datasets/yihouxiang/X-Ray

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안

현재 인간지능 분야에서는 인공지능이 빠르게 발전하고 있습니다. 컴퓨터 비전에서는 이미지 및 비디오 생성 기술이 점점 성숙해지며 Midjourney 및 Stable Video Diffusion과 같은 모델이 널리 사용됩니다. 그러나 3D 비전 분야의 생성 모델은 여전히 어려움에 직면해 있습니다.

현재 3D 모델 생성 기술은 일반적으로 SV3D 모델과 같은 다각도 비디오 생성 및 재구성을 기반으로 하며, 다각도 비디오를 생성하고 NeRF(Neural Radiation Field) 또는 3D Gaussian Smooth 모델을 결합하여 점진적으로 3D를 구축합니다( 3D Gaussian Splatter 기술) 객체. 이 방법은 주로 단순하고 자기 폐쇄적이지 않은 3차원 객체를 생성하는 데 국한되며 객체의 내부 구조를 표현할 수 없어 전체 생성 과정이 복잡하고 불완전해 이 기술의 복잡성과 한계를 보여줍니다.

이유는 현재 유연하고 효율적이며 일반화하기 쉬운 3D 표현(3D 표현)이 부족하기 때문입니다.

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안

그림 1. X-Ray 직렬화된 3D 표현

싱가포르 국립대학교(NUS) Hu Run 박사는 연구팀을 이끌고 시퀀스가 가능한 새로운 3D 표현인 X-ray를 출시했습니다. 카메라 관점에서 본 사물의 표면 형태와 질감을 정확하게 표현할 수 있으며, 영상 생성 기능을 최대한 활용하여 모델의 장점을 활용하여 3D 객체를 생성할 수도 있습니다. 동시에 개체.

이 기사에서는 X-Ray 기술의 원리, 장점 및 광범위한 응용 전망을 자세히 설명합니다.

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안

그림 2. 렌더링 기반 3D 모델 생성 방법과 비교.

기술 혁신: 물체의 내부 및 외부 표면을 3D로 표현

각 광선 방향별로 깊이, 법선 벡터, 색상 등을 포함하는 L개의 3차원 속성 데이터를 물체 표면과의 교차점에 하나씩 기록하고, 이 데이터를 L×H×W 형태로 정리한다. 3D 모델 생성을 실현하기 위해 이것이 팀이 제안한 X-Ray 표현 방법입니다.

표현이 비디오 형식과 동일하므로 비디오 생성 모델을 사용하여 3D 생성 모델을 만들 수 있다는 점은 주목할 가치가 있습니다. 구체적인 과정은 다음과 같습니다.

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안

그림 3. 다양한 층의 X-Ray 샘플 샘플.

1. 3D 모델을 )로 변환하여 깊이

, 법선 벡터

, 색상 객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안 을 포함하여 각 카메라 광선이 객체와 교차하는 모든 표면의 속성 을 기록합니다. 등 표시의 편의를 위해 해당 위치에 표면이 존재하는지 여부를 로 표시합니다. 그러면 모든 카메라 광선과 기타 교차면 지점을 획득하면 다음 수식과 그림 3과 같이 완전한 X-Ray 3D 표현을 얻을 수 있습니다.

임의의 3D 모델을 인코딩 과정을 통해 X-Ray로 변환합니다. 이는 비디오 형식과 동일하며 프레임 수가 다릅니다. 일반적으로 프레임 수 L=8이면 3D 개체를 표현하기에 충분합니다.

2. X-Ray를 3D 모델로

X-Ray를 제공하면 디코딩 프로세스를 통해 다시 3D 모델로 변환할 수도 있으므로 3D는 다음과 같은 방법으로만 생성할 수 있습니다. X-Ray 모델 생성. 구체적인 프로세스에는 포인트 클라우드 생성 프로세스와 포인트 클라우드 표면 재구성 프로세스의 두 가지 프로세스가 포함됩니다.

X-Ray에서 포인트 클라우드로: X-Ray는 3D 포인트의 위치 좌표 외에도 포인트 클라우드의 각 포인트에 색상과 일반 벡터가 있습니다. 정보.

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안

여기서 r_0과 r_d는 각각 카메라 광선의 시작점과 정규화된 방향입니다. 각 카메라 광선을 처리하면 완전한 포인트 클라우드를 얻을 수 있습니다.

포인트 클라우드를 3차원 메쉬로:다음 단계는 포인트 클라우드를 3차원 메쉬로 변환하는 과정입니다. 구름에는 법선 벡터가 있으므로 Screened Poisson 알고리즘을 사용하여 포인트 클라우드를 최종 3D 모델인 3차원 메쉬 모델로 직접 변환합니다.

X-Ray 표현을 기반으로 한 3D 모델 생성

팀은 고해상도의 다양한 3D X-Ray 모델을 생성하기 위해 비디오 형식과 유사한 비디오 확산 모델 아키텍처를 사용했습니다. 이 아키텍처는 업샘플링 모듈을 통해 지속적인 3D 정보를 처리하고 X-Ray의 품질을 향상시켜 고정밀 3D 출력을 생성할 수 있습니다. 확산 모델은 노이즈가 있는 데이터로부터 상세한 3D 이미지를 점진적으로 생성하는 역할을 하며, 업샘플링 모듈은 고품질 표준을 충족하도록 이미지 해상도와 디테일을 향상시킵니다. 구체적인 구조는 그림 4에 나와 있습니다.

X-Ray 확산 생성 모델

확산 모델은 X-Ray 생성에서 잠재 공간을 사용하며 일반적으로 데이터 압축을 위해 벡터 양자화-변동 자동 인코더(VQ-VAE)[3]의 맞춤형 개발이 필요합니다. 이 프로세스는 기성 모델이 부족하면 훈련 부담이 가중됩니다.

고해상도 생성기를 효과적으로 훈련시키기 위해 팀은 제한된 컴퓨팅 리소스에 적응하고 X-Ray 이미지 품질을 향상시키기 위해 Imagen 및 Stable Cascaded와 같은 기술을 통해 저해상도에서 고해상도까지 점진적으로 훈련하는 캐스케이드 합성 전략을 채택했습니다.

구체적으로 Stable Video Diffusion의 3D U-Net 아키텍처를 확산 모델로 사용하여 저해상도 X-Ray를 생성하고 시공간 주의 메커니즘을 통해 2D 프레임 및 1D 시계열에서 특징을 추출하고 처리를 향상하며 설명합니다. 고품질 결과에 중요한 X-Ray 기능.

X-Ray 업샘플링 모델

이전 단계의 확산 모델은 텍스트나 기타 이미지에서만 저해상도 X-Ray 이미지를 생성할 수 있습니다. 후속 단계에서는 이러한 저해상도 X-Ray를 더 높은 해상도로 업그레이드하는 데 중점을 둡니다.

팀에서는 포인트 클라우드 업샘플링과 비디오 업샘플링이라는 두 가지 주요 방법을 탐색했습니다.

모양과 모양에 대한 대략적인 표현이 이미 획득되었으므로 이 데이터를 색상과 법선이 포함된 포인트 클라우드로 인코딩하는 것은 간단한 과정입니다.

그러나 포인트 클라우드 표현 구조는 너무 느슨하고 조밀한 예측에는 적합하지 않습니다. 기존 포인트 클라우드 업샘플링 기술은 일반적으로 단순히 포인트 수를 늘리기 때문에 질감이나 색상과 같은 속성을 개선하는 데 효과적이지 않을 수 있습니다. 프로세스를 단순화하고 파이프라인 전체의 일관성을 보장하기 위해 비디오 업샘플링 모델을 사용하기로 결정했습니다.

이 모델은 SVD(Stable Video Diffusion)의 시공간 VAE 디코더에서 채택되었으며 원래 레이어 수를 유지하면서 처음부터 합성 X-Ray 프레임을 4배로 업샘플링하도록 특별히 훈련되었습니다. 디코더는 프레임 수준과 계층 수준에서 독립적으로 주의 작업을 수행할 수 있습니다. 이 이중 레이어 주의 메커니즘은 해상도를 향상시킬 뿐만 아니라 이미지의 전반적인 품질도 크게 향상시킵니다. 이러한 기능을 통해 비디오 업샘플링 모델은 고해상도 X-Ray 생성에서 더욱 조정되고 효율적인 솔루션이 됩니다.

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안

그림 4: X-Ray 확산 모델 및 X-Ray 업샘플링 모델을 포함하여 X-Ray 표현을 기반으로 하는 3D 모델 생성 프레임워크.

Experiment

1. 데이터 세트:

실험에서는 Objaverse 데이터 세트의 필터링된 하위 세트를 사용했는데, 여기서 텍스처가 누락되고 힌트가 충분하지 않은 항목이 제거되었습니다.

이 하위 집합에는 60,000개가 넘는 3D 개체가 포함되어 있습니다. 각 객체에 대해 4개의 카메라 뷰가 무작위로 선택되며, 방위각은 -180~180도, 앙각은 -45~45도이며, 카메라에서 객체 중심까지의 거리는 1.5로 고정됩니다.

그런 다음 Blender 소프트웨어를 사용하여 렌더링하고, Trimesh 라이브러리에서 제공하는 레이 캐스팅 알고리즘을 통해 해당 X-Ray를 생성합니다. 이러한 프로세스를 통해 240,000쌍 이상의 이미지와 X-Ray 데이터 세트를 생성하여 생성 모델을 교육할 수 있습니다.

2. 구현 세부정보:

X-Ray 확산 모델은 SVD(Stable Video Diffusion)에 사용되는 시공간 UNet 아키텍처를 기반으로 하며 약간의 조정이 있습니다. 모델은 히트 채널 1개, 심도 채널 1개, 일반 채널 6개 등 8개 채널을 합성하도록 구성되어 있습니다. 원래 네트워크의 4개 채널로 연결됩니다.

X-Ray 영상과 기존 비디오의 중요한 차이점을 고려하여 모델은 X-Ray와 비디오 필드 사이의 큰 격차를 메우기 위해 처음부터 훈련되었습니다. 훈련은 8대의 NVIDIA A100 GPU 서버에서 일주일에 걸쳐 진행되었습니다. 이 기간 동안 AdamW 최적화 프로그램을 사용하여 학습률을 0.0001로 유지했습니다.

X-Ray마다 레이어 수가 다르기 때문에 더 나은 일괄 처리 및 훈련을 위해 동일한 8개 레이어로 패딩하거나 자르므로 각 레이어의 프레임 크기는 64×64입니다. 업샘플링 모델의 경우 L 레이어의 출력은 여전히 8이지만 각 프레임의 해상도는 256×256으로 증가하여 확대된 X-Ray의 세부 묘사와 선명도가 향상됩니다. 결과는 그림 5와 6에 나와 있습니다. .

객체의 3D 표현 및 생성 모델을 통해 확인: NUS 팀이 X-Ray를 제안