AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
이 논문의 저자에는 Imperial College London의 석사 과정 학생인 Yang Runyi와 Beihang의 석사 과정 2년차 학생인 Zhu Zhenxin이 포함됩니다. 북경공업대학 석사 2년생 주진신(Zhu Zhenxin), 베이징이공대학 학부 4년생 예바이준(周百君), 중국대학 학부 3년생 장이페이(張伯隆) 과학원 Zhao Jian 차이나 텔레콤 인공 지능 연구소 멀티미디어 인지 학습 연구소(EVOL Lab) 소장, 칭화대학교 지능형 산업 연구소(AIR) 조교수 Zhao Hao 외.
최근에는 새로운 3차원 표현 방식인 3D GS(3D Gaussian Splatting)가 빠른 렌더링 속도와 높은 렌더링 품질로 주목받고 있습니다. 그러나 이 접근 방식에는 메모리 소비도 높습니다. 예를 들어 훈련된 가우스 필드는 300만 개 이상의 가우스 프리미티브와 700MB 이상의 메모리를 사용할 수 있습니다.
최근 Imperial College London, Beihang University, Beijing Institute of Technology, University of Chinese Academy of Sciences, China Telecom 인공 지능 연구소 멀티미디어 인지 학습 연구소(EVOL Lab), 칭화 대학교 지능형 산업 연구소(AIR) 및 기타 기관 연구진은 "SUNDAE: Spectrally Pruned Gaussian Fields with Neural Compensation"이라는 논문을 공동으로 발표했습니다. 우리는 이러한 높은 메모리 사용량이 원시 요소 간의 관계를 고려하지 못했기 때문이라고 믿습니다. 논문에서 우리는 스펙트럼 가지치기와 신경 보상을 사용하여 SUNDAE라는 메모리 효율적인 가우스 필드를 제안합니다
기사 링크: https://arxiv.org/abs/2405.00676프로젝트 홈페이지: https://runyiyang.github.io/projects/SUNDAE/
一한편으로는 가우시안 프리미티브의 공간 정보를 기반으로 그래프를 구성하여 이들 간의 관계를 시뮬레이션하고, 그래프 신호 처리를 기반으로 다운샘플링 모듈을 설계하여 원하는 신호를 유지하면서 정리합니다. 반면, 가지치기로 인한 품질 저하를 보상하기 위해 경량 신경망을 활용하여 렌더링 기능을 혼합하여 가중치에서 프리미티브 간의 관계를 캡처하는 동시에 품질 저하를 효과적으로 보상합니다.
폭넓은 결과물로 SUNDAE의 퍼포먼스를 선보입니다. 예를 들어, Mip-NeRF360 데이터 세트에서 SUNDAE는 104MB 메모리를 사용하여 26.80 PSNR 및 145 FPS를 달성할 수 있는 반면, 표준 3D Gaussian Splatting 알고리즘은 523MB 메모리를 사용하여 25.60 PSNR 및 160 FPS를 달성합니다.
동시에 SUNDAE는 오픈소스 이후 국제적으로 폭넓은 관심을 받았으며, 유명한 NeRF 커뮤니티 MrNeRF, AI 연구 커뮤니티 유지관리자 Ahsen Khaliq 및 관련 분야의 많은 연구자들이 포워딩하고 팔로우하고 있습니다. ㅋㅋㅋ Gaussian 원시 장면 세트로 표현됩니다. 프리미티브가 3차원 공간에 불규칙하게 분포되어 있기 때문에 그리드와 같은 기존 구조를 사용하는 대신 프리미티브 간의 관계를 캡처하는 그래프 기반 방법을 제안합니다. 구체적으로 그래프 신호 처리 이론을 이용하여 그래프 신호를 기반으로 특정 스펙트럼 정보를 유지할 수 있는 최적의 샘플링 전략을 도출합니다. 스펙트럼 대역폭을 제어함으로써 가지치기 비율을 유연하게 제어하고 가우스 프리미티브 간의 관계를 모델링할 수 있습니다. 그림 1(c)에 표시된 것처럼 렌더링 품질을 저하시키지 않고 가우스 프리미티브의 90% 잘라내기를 제어할 수 있습니다.
그림 1: (a) 3DGS 7k 반복 결과, (b) 3DGS 30k 반복 결과, 3차원 장면을 표현하는 데 더 많은 가우시안 프리미티브가 사용되므로 품질은 높아지고 속도는 느려집니다. (c) 가우스 프리미티브의 90%가 정리되어 저장 공간이 크게 줄어들지만 유사한 렌더링 효과를 얻습니다. 가우스 프리미티브의 중심을 그래프의 신호 입력으로 사용하고, 가우스 프리미티브 사이의 거리를 그래프의 가장자리로 사용하여 그래프의 인접 행렬을
로 표현할 수 있습니다. 여기서 는 가우스 요소의 중심점이고, 는 임계값 슈퍼 매개변수 이고, 는 거리 행렬의 분산입니다. 즉, 두 가우스 프리미티브 사이의 거리가 임계값보다 작으면 둘 사이에 그래프 가장자리를 설정합니다. 그래프의 인접 행렬을 설정한 후 Haar-like 필터에 따라 그래프의 신호를 처리하여 특정 주파수 대역의 그래프 신호를 얻을 수 있습니다. 마지막으로, 원하는 주파수 대역 신호를 기반으로 가지치기를 수행합니다. 이 기사에서는 물체의 세부 사항을 나타내는 고주파 신호와 배경 지점의 저주파 신호를 유지하기 위해 대역 저지 필터를 사용합니다. 스펙트럼 프루닝 후에 너무 많은 가우시안 프리미티브가 삭제되므로 렌더링 품질이 필연적으로 저하됩니다. 이를 해결하기 위해 신경망을 사용합니다. 그림 2와 같이 품질 손실이 발생합니다. Gaussian Splatting에서 Feature Splatting으로 변환하여 경량 컨볼루션 신경망을 도입하여 이미지의 RGB 값에 매핑된 Gaussian 프리미티브를 출력함으로써 다양한 프리미티브의 정보를 융합했습니다. 이를 통해 보상 네트워크의 가중치가 2차원 이미지 공간에서 기본 요소 간의 관계를 간접적으로 캡처할 수 있습니다.
그림 2: 왼쪽에 표시된 원본 3DGS는 프리미티브 간의 관계를 캡처하지 않기 때문에 많은 양의 저장 공간이 필요합니다. 중간은 가우시안 프리미티브 관계를 모델링하는 스펙트럼 가지치기 전략을 보여줍니다. 렌더링을 개선하기 위해 2D 기능을 사용한 신경 보상을 보여줍니다. 구체적으로는 3DGS처럼 RGB 이미지를 직접 렌더링하는 대신 투영된 3D 가우시안의 특징을 2차원 특징 맵으로 변환하는 3D 가우시안용 미분 래스터라이저를 통해 특징 맵을 얻습니다. 그런 다음 경량 신경망을 활용하여 프리미티브 간의 관계를 모델링하고 스펙트럼 가지치기 후 품질 저하를 보상합니다. 이 네트워크는 다양한 프리미티브의 정보를 집계하는 건너뛰기 연결 기능을 갖춘 4계층 완전 컨벌루션 U-Net으로 구성됩니다. 다운샘플링에는 평균 풀링을 사용하고 이미지 업샘플링에는 이중선형 보간을 사용합니다. 네트워크는 래스터화된 특징 맵을 입력으로 사용하고 RGB 이미지를 출력합니다. SUNDAE의 전체 프레임워크는 아래 그림 3과 같습니다.
그림 3: (a) 파이프라인: 사전 훈련된 3D 가우스 필드의 경우 그래프 기반 가지치기 전략을 사용하여 가우스 요소를 다운샘플링하고 컨벌루션 신경망을 사용하여 가지치기로 인한 손실을 보상합니다. (b) 그래프 기반 가지치기(Graph-based pruning): 가우시안 프리미티브 간의 공간적 관계에 기반한 그래프를 가지치기에 사용합니다. 대역 저지 필터를 사용하면 이 프로세스를 통해 고주파 성분에서 세부 정보를 추출하는 동시에 저주파 부분의 일반적인 특징을 포착하여 전체 장면을 포괄적이고 효율적으로 표현할 수 있습니다. 또한 가우시안 필드의 완전히 조밀한 가지치기 프리미티브에서 시작하는 훈련 후 가지치기와는 달리 피크 저장을 줄이기 위한 연속 가지치기 전략도 제안합니다. , 연속 가지치기에는 학습 프로세스 전반에 걸쳐 사전 정의된 간격으로 일정한 간격으로 특정 수 또는 비율의 프리미티브를 제거하는 작업이 포함됩니다. 이 접근 방식은 3D 가우스 필드를 훈련할 때 최대 프리미티브 수를 지속적으로 제어하여 훈련 중에 최대 메모리 요구 사항을 줄이고 GPU 메모리가 낮은 GPU 장치에서 훈련을 허용하는 것을 목표로 합니다. 경험에 따르면 피크 메모리가 낮을수록 최종 메모리 공간 제어가 약해지는 이점이 있습니다. 예를 들어, 2000번의 반복마다 기본 요소의 20%를 잘라내면 3D 가우스 필드의 최종 수렴 상태가 예상된 20% 감소에서 벗어날 수 있습니다. 또한 이러한 변형은 시나리오에 따라 달라질 수 있으므로 가지치기 효과의 예측 가능성과 일관성이 더욱 복잡해집니다. 따라서 우리는 필요할 경우 대안으로 지속적인 가지치기 전략을 고려합니다. SUNDAE를 최신 3DGS 및 NeRF 알고리즘과 비교했습니다. , 우리 모델 유사 결과는 메모리의 10%만 사용하여 얻을 수 있으며 메모리의 30% 또는 50%를 사용하여 원래 3DGS를 초과할 수 있습니다. 그리고 FPS 측면에서 다른 NeRF 관련 알고리즘을 훨씬 능가합니다. 이것은 우리 모델이 가우시안 프리미티브 간의 관계를 더 잘 포착하고 더 적은 수의 가우시안 프리미티브를 사용하여 3차원 장면을 효율적으로 표현할 수 있기 때문입니다. 정성 결과에서 볼 수 있듯이 SUNDAE의 정성 결과를 3DGS 및 InstantNGP와 1% 및 10% 샘플링 비율로 비교합니다. 정성적 결과에 따르면 SUNDAE는 메모리 소비를 10% 또는 심지어 1%만 사용하면서 유사한 새로운 관점 합성 품질을 달성할 수 있는 것으로 나타났습니다. 그래프는 기본 요소 간의 관계를 성공적으로 구축하는 동시에 신경 보상 헤드는 렌더링 품질을 효과적으로 유지합니다. 그리고 그림 5의 네 번째와 마지막 행에서 볼 수 있듯이 스펙트럼 프루닝은 카메라 가까이에 떠 있는 물체를 제거할 수 있습니다.
대역저지 필터의 비율은 매개변수로 표시됩니다. 구체적으로 그래프 기반 가지치기 과정에서 특정 비율()의 고역 통과와 나머지(1-) 저역 통과를 포함하여 여러 기본 요소를 샘플링합니다. 결과에 따르면 이 매개변수는 렌더링 품질에 큰 영향을 미치며 50% 비율이 최상의 결과를 제공하는 반면 저주파 또는 고주파 신호를 불균형하게 강조하면 품질이 저하됩니다. 비율 50% 균형 잡힌 고주파 디테일과 저주파 배경을 유지하므로 효과가 더 좋습니다.
그림 6과 표 2에서 볼 수 있듯이 보상 네트워크의 중요성을 질적, 양적으로 보여줍니다. 표 2에서 볼 수 있듯이 신경 보상을 사용한 경우 모든 샘플링 속도에서 사용하지 않은 경우에 비해 향상된 성능을 보여줍니다. 이는 그림 6에 제시된 시각화 결과를 통해 더욱 뒷받침되며, 스펙트럼 프루닝으로 인한 성능 저하를 보상하는 모듈의 기능을 보여줍니다. 동시에 원초적인 관계를 잘 포착하고 있음도 입증됐다.
표 3에서 볼 수 있듯이 다양한 크기의 보상 네트워크를 시도했지만 네트워크 크기를 늘린다고 반드시 렌더링 품질이 향상되는 것은 아니며 이는 ADOP의 결과와 일치하여 비슷한 경향을 나타냅니다. 품질과 메모리의 최적 균형을 위해 30MB의 4계층 UNet을 기본 설정으로 사용합니다.
위의 표 1에서 볼 수 있듯이 원본 3DGS보다 기본 요소를 50% 유지하는 것이 렌더링 품질 측면에서 더 좋습니다. 또한 표 4에 표시된 것처럼 샘플링 속도가 최종 결과에 어떤 영향을 미치는지 조사하기 위해 80% 유지 및 모든 기본 요소 유지를 추가로 테스트했습니다. 결과에 따르면 기본 요소를 80% 유지하면 렌더링 품질이 향상되어 LPIPS 측면에서는 개선이 나타났지만 PSNR 및 SSIM에서는 시각적으로 약간 개선되었습니다. 모든 기본 요소를 유지하고 더 많은 시대에 대한 교육을 수행해도 품질이 더 이상 향상되지 않으며 이는 기본 관계 모델링의 중요성도 보여줍니다. 효과적인 관계형 모델링이 없으면 기본 요소가 많아지면 모델 수렴이 어려워지고 기본 요소 수가 많아지면 장면 표현에 부정적인 영향을 미칩니다. 또한 우리의 목표는 렌더링 품질과 저장 효율성의 균형을 맞추는 것이었지만, 기본 요소의 80%를 유지하기 위해 저장 공간을 620MB로 늘리면 품질이 약간 향상되어 저장 효율성이 떨어집니다.
MipNeRF360 데이터 세트의 자전거 및 카운터 시나리오에서 연속 샘플링 전략을 테스트하여 다양한 가지치기 간격 반복 및 가지치기 속도를 설정했습니다. Table 5에서 볼 수 있듯이 Points는 학습 후의 프리미티브 개수이고, Ratio는 원본 3DGS에 대한 트레이닝 후의 프리미티브 개수의 대략적인 비율이다. 결과에 따르면 이 전략은 최대 메모리를 줄일 수 있지만 최종 메모리(포인트 및 비율에 반영됨)를 제어하기가 어렵습니다. 따라서 우리는 훈련 후 가지치기 전략을 검증했지만 여전히 오픈 소스 도구 상자에서 대안으로 지속적인 가지치기 전략을 제공합니다.
훈련 시간, CUDA 메모리, 렌더링 프레임 속도 및 ROM 저장에 대한 자세한 내용은 표 6을 참조하세요. “Ours-50%” 버전은 허용 가능한 훈련 시간(1.41시간) 내에 최고의 렌더링 품질을 달성하는 동시에 실시간 렌더링을 달성하고 훈련 중 CUDA 메모리 사용량과 ROM 저장 공간을 크게 줄인다는 점은 주목할 가치가 있습니다.
이 연구에서는 그래프 신호 처리를 도입하여 가우스 기반을 모델링하기 위해 신경 보상을 갖춘 새로운 스펙트럼 가지치기 가우시안 필드 SUNDAE를 제안했습니다. 가지치기로 인한 정보 손실을 보상하기 위한 다양한 프리미티브. 가우시안 프리미티브 간의 공간 정보를 사용하여 그래프를 작성하여 관계를 모델링하고 스펙트럼 정보를 기반으로 정리하여 중복 프리미티브를 제거합니다. 가지치기 후에 불가피하게 발생하는 렌더링 품질의 손실을 보상하기 위해 경량 신경망이 사용됩니다. 실험 결과 SUNDAE는 3DGS의 효율성을 유지하면서 메모리를 크게 줄이고 효율성을 향상시키며 고품질 렌더링 품질을 유지하는 것으로 나타났습니다. 위 내용은 3D Gaussian Splatting 알고리즘에 작별 인사를 하세요. 신경 보상 기능을 갖춘 스펙트럼 가지치기 Gaussian field SUNDAE는 오픈 소스입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!