다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.-일체 포함-php.cn

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.

PHPz

풀어 주다： 2023-04-09 22:31:01

앞으로

1129명이 탐색했습니다.

최근 OpenAI가 출시한 DALLE-2와 Google이 출시한 Imagen은 놀라운 텍스트-이미지 생성 효과를 달성하여 광범위한 관심을 끌었으며 많은 흥미로운 애플리케이션을 탄생시켰습니다. 텍스트를 이미지로 변환하는 생성은 다중 모드 이미지 합성 및 편집 분야의 일반적인 작업입니다. 최근 막스 플랑크 연구소, 난양 기술 연구소 및 기타 기관의 연구자들은 다중 모드 이미지 합성 및 편집이라는 대규모 분야의 연구 상태와 향후 개발에 대한 자세한 조사 및 분석을 수행했습니다.

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.

논문 주소: https://arxiv.org/pdf/2112.13592.pdf
프로젝트 주소: https://github.com/fnzhan/MISE

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.

첫 번째 장에서는 다중 모달 이미지 합성 및 편집 작업의 중요성과 전반적인 개발, 그리고 이 논문의 기여와 전체 구조를 설명합니다.

두 번째 장에서는 이미지 합성 및 편집을 안내하는 데이터 양식을 기반으로 보다 일반적으로 사용되는 시각적 안내(예: 의미 맵, 핵심 포인트 맵, 에지 맵), 텍스트 안내 및 음성을 소개합니다. 지침 장면 그래프는 해당 모달 데이터와 통합 표현 프레임워크를 안내하고 처리합니다.

제3장에서는 영상 합성 및 편집의 모델 프레임워크에 따라 GAN 기반 방법, 자기회귀 방법, 확산 모델 방법, NeRF(Neural Radiation Field) 방법 등 현재의 다양한 방법을 분류합니다.

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.

GAN 기반 방법은 일반적으로 조건부 GAN과 무조건 GAN 반전을 사용하므로 본 논문에서는 이 범주를 모달 내 조건(예: 의미 맵, 에지 맵), 크로스 -모달 조건 모달 조건(예: 텍스트 및 음성) 및 GAN 반전(통합 양식)에 대해 자세히 설명합니다.

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.

GAN 기반 방법에 비해 자기회귀 모델 방법은 다중 모드 데이터를 보다 자연스럽게 처리할 수 있으며 현재 인기 있는 Transformer 모델을 활용할 수 있습니다. 자동회귀 방법은 일반적으로 먼저 벡터 양자화 인코더를 학습하여 이미지를 토큰 시퀀스로 개별적으로 표현한 다음 자동회귀적으로 토큰 분포를 모델링합니다. 텍스트, 음성 등의 데이터를 토큰으로 표현하고 자기회귀 모델링의 조건으로 사용할 수 있으므로 다양한 다중 모드 이미지 합성 및 편집 작업을 하나의 프레임워크로 통합할 수 있습니다.

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.

최근에는 널리 사용되는 확산 모델이 다중 모드 합성 및 편집 작업에도 널리 사용됩니다. 예를 들어 놀라운 DALLE-2와 Imagen은 모두 확산 모델을 기반으로 구현됩니다. GAN과 비교하여 확산 생성 모델은 정적 훈련 목표 및 쉬운 확장성과 같은 몇 가지 좋은 속성을 가지고 있습니다. 본 논문에서는 조건부 확산 모델과 사전 학습된 확산 모델을 기반으로 기존 방법을 세부적으로 분류하고 분석합니다.

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.

위의 방법은 주로 2D 이미지의 다중 모드 합성 및 편집에 중점을 둡니다. 최근 NeRF(Neural Radiation Fields)의 급속한 발전으로 인해 3D 인식을 위한 다중 모드 합성 및 편집이 점점 더 많은 주목을 받고 있습니다. 3D 인식을 위한 다중 모드 합성 및 편집은 다중 뷰 일관성을 고려해야 하기 때문에 더욱 어려운 작업입니다. 이 논문은 단일 장면 최적화 NeRF, 생성 NeRF 및 NeRF 반전의 세 가지 방법에 대한 기존 작업을 분류하고 요약합니다.

이번 리뷰에서는 위의 네 가지 모델 방법을 비교하고 논의합니다. 전반적으로 현재의 최첨단 모델은 GAN보다 자기회귀 및 확산 모델을 선호합니다. 다중 모드 합성 및 편집 작업에 NeRF를 적용하면 이 분야 연구를 위한 새로운 창이 열립니다.

다중 모드 이미지 합성 및 편집은 막스 플랑크 연구소, 난양 기술 연구소 등이 상세한 리뷰를 발표할 정도로 인기가 높습니다.