이미지 복원은 이미지에서 누락된 부분을 완성하는 것을 말하며, 이는 컴퓨터 비전의 기본 작업 중 하나입니다. 이 방향에는 객체 제거, 이미지 대상 변경, 이미지 합성 등과 같은 많은 실용적인 응용 프로그램이 있습니다.
초기 인페인팅 방법은 이미지의 누락된 부분을 채우기 위해 이미지 블록 합성이나 색상 확산을 기반으로 했습니다. 보다 복잡한 이미지 구조를 달성하기 위해 연구자들은 심층 생성 네트워크를 활용하여 시각적 콘텐츠와 모양을 예측하는 데이터 기반 접근 방식으로 전환하고 있습니다. 생성적 인페인팅 모델은 대규모 이미지 세트에 대한 훈련과 재구성 및 적대적 손실의 도움을 받아 자연 이미지와 사람 얼굴을 포함한 다양한 유형의 입력 데이터에 대해 시각적으로 더 매력적인 결과를 생성하는 것으로 나타났습니다.
그러나 기존 작업은 단순한 이미지 구조를 완성하는 것만으로는 좋은 결과를 보여줄 수 없으며, 복잡한 전체 구조와 충실도가 높은 디테일을 갖춘 이미지 콘텐츠를 생성하는 것은 특히 이미지에 구멍이 있는 경우에는 여전히 큰 도전입니다.
기본적으로 이미지 인페인팅은 두 가지 주요 문제에 직면해 있습니다. 하나는 글로벌 컨텍스트를 불완전한 영역에 정확하게 전파하는 방법이고, 다른 하나는 글로벌 단서와 일치하는 실제 로컬 세부 정보를 합성하는 것입니다. 전역 컨텍스트 전파 문제를 해결하기 위해 기존 네트워크는 인코더-디코더 구조, 아트러스 컨볼루션, 컨텍스트 주의 또는 푸리에 컨볼루션을 활용하여 장거리 기능 종속성을 통합하고 효과적인 수용 필드를 확장합니다. 또한 2단계 접근 방식과 반복적인 구멍 채우기는 전체 구조를 향상시키기 위해 대략적인 결과를 예측하는 데 의존합니다. 그러나 이러한 모델에는 마스크되지 않은 영역의 높은 수준의 의미를 포착하고 이를 홀에 효과적으로 전파하여 전체 전역 구조를 합성하는 메커니즘이 부족합니다.
이를 기반으로 University of Rochester와 Adobe Research의 연구원들은 전체 구조와 로컬 세부 사항을 더 잘 합성할 수 있는 새로운 생성 네트워크인 CM-GAN(Cascaded Modulation GAN)을 제안했습니다. CM-GAN에는 홀이 있는 입력 이미지에서 다중 스케일 특징 표현을 추출하기 위한 푸리에 컨볼루션 블록이 있는 인코더가 포함되어 있습니다. CM-GAN에는 각 스케일 레이어에 새로운 계단식 전역 공간 변조 블록을 설정하는 2스트림 디코더도 있습니다.
각 디코더 블록에서 먼저 전역 변조를 적용하여 대략적이고 의미 인식 구조 합성을 수행한 다음 공간 변조를 수행하여 공간 적응 방식으로 특징 맵을 추가로 조정합니다. 또한, 본 연구에서는 실제 장면에서 물체 제거 작업의 요구 사항을 충족하기 위해 캐비티 내 아티팩트를 방지하기 위한 물체 인식 훈련 방식을 설계했습니다. 이 연구는 CM-GAN이 정량적 평가와 정성적 평가 모두에서 기존 방법보다 훨씬 뛰어난 성능을 보인다는 것을 보여주기 위해 광범위한 실험을 수행했습니다.
먼저 이미지 복구 효과를 살펴보겠습니다. 다른 방법과 비교하여 CM-GAN은 더 나은 텍스처를 재구성할 수 있습니다.
CM-GAN은 더 나은 전역 구조를 합성할 수 있습니다.
CM-GAN은 더 나은 객체 경계를 가지고 있습니다.
본 연구의 방법과 실험 결과를 살펴보겠습니다.
이미지 완성의 글로벌 컨텍스트를 더 잘 모델링하기 위해 이 연구에서는 공간 코드 변조를 통해 글로벌 코드 변조를 계단식으로 처리하는 새로운 메커니즘을 제안합니다. 이 메커니즘은 부분적으로 유효하지 않은 기능을 처리하는 동시에 공간 영역에 전역 컨텍스트를 더 잘 주입하는 데 도움이 됩니다. 새로운 아키텍처 CM-GAN은 아래 그림 1과 같이 전체 구조와 로컬 세부 사항을 잘 합성할 수 있습니다.
아래 그림 2(왼쪽)에 표시된 것처럼 CM-GAN은 시각적 출력을 생성하기 위해 하나의 인코더 분기와 두 개의 병렬 계단식 디코더 분기를 기반으로 합니다. 인코더는 이미지와 마스크의 일부를 입력으로 사용하고 다중 스케일 기능 맵을 생성합니다 .
대부분의 인코더-디코더 방법과 달리, 전체 구조를 완성하기 위해 본 연구에서는 완전 연결 계층의 최고 수준 기능 에서 전역 스타일 코드 를 추출한 다음 정규화를 수행합니다. 또한 MLP 기반 매핑 네트워크는 이미지 생성의 무작위성을 시뮬레이션하기 위해 노이즈로부터 스타일 코드를 생성합니다. 코드 w는 s와 결합되어 후속 디코딩 단계에서 사용되는 전역 코드 g = [s; w]를 생성합니다.
글로벌 공간 캐스케이드 변조. 디코딩 단계에서 글로벌 컨텍스트를 더 잘 연결하기 위해 본 연구에서는 글로벌 공간 계단식 변조(CM)를 제안합니다. 그림 2(오른쪽)에 표시된 것처럼 디코딩 단계는 전역 변조 블록(GB)과 공간 변조 블록(SB)의 두 가지 분기를 기반으로 하며 전역 기능 F_g와 로컬 기능 F_s를 병렬로 업샘플링합니다.
CM-GAN은 기존 방식과 달리 홀 영역에 전역 컨텍스트를 주입하는 새로운 방식을 도입합니다. 개념적 수준에서 이는 각 규모의 기능 간 계단식 전역 및 공간 변조로 구성되며 자연스럽게 전역 컨텍스트 모델링을 위한 세 가지 보상 메커니즘을 통합합니다. 1) 기능 업샘플링, 3) 공간 변조.
훈련용 마스크를 생성하는 알고리즘이 중요합니다. 기본적으로 샘플링된 마스크는 실제 사용 사례에서 그려진 마스크와 유사해야 하며, 마스크는 전체 개체나 새 개체의 큰 부분을 가리지 않아야 합니다. 지나치게 단순화된 마스킹 방식으로 인해 아티팩트가 발생할 수 있습니다.
모델이 구멍 내에서 새로운 객체를 합성하는 것을 방지하면서 실제 객체 제거 사용 사례를 더 잘 지원하기 위해 이 연구에서는 아래 4와 같이 훈련 중에 보다 사실적인 마스크를 생성하는 객체 인식 훈련 방식을 제안합니다.
구체적으로 연구에서는 먼저 훈련 이미지를 파노라마 분할 네트워크 PanopticFCN에 전달하여 매우 정확한 인스턴스 수준 분할 주석을 생성한 다음 자유 구멍과 객체 구멍의 혼합을 초기 마스크로 샘플링합니다. 마지막으로 구멍과 이미지의 각 인스턴스 사이의 중첩 비율을 계산합니다. 중첩 비율이 임계값보다 크면 메서드는 구멍에서 전경 인스턴스를 제외합니다. 그렇지 않으면 구멍은 변경되지 않고 그대로 유지되고 임계값이 0.5로 설정된 상태로 시뮬레이션된 개체가 완성됩니다. 이 연구에서는 과적합을 방지하기 위해 객체 마스크를 무작위로 확장하고 변환합니다. 또한 이 연구에서는 구멍 근처의 배경 픽셀이 칠해진 영역으로 누출되는 것을 방지하기 위해 인스턴스 분할 경계의 구멍을 확대합니다.
모델은 적대적 손실과 분할 기반 지각 손실의 조합으로 훈련되었습니다. 실험에 따르면 이 방법은 적대적 손실만 사용하는 경우에도 좋은 결과를 얻을 수 있지만 지각 손실을 추가하면 성능이 더욱 향상될 수 있습니다.
또한, 이 연구는 특히 안정적인 인페인팅 작업의 적대적 훈련을 위한 Masked-R_1 정규화를 제안합니다. 여기서 마스크 m은 마스크 외부의 그래디언트 페널티 계산을 피하기 위해 활용됩니다.
본 연구에서는 Places2 데이터셋을 대상으로 512×512 해상도의 이미지 인페인팅 실험을 수행하였고, 모델의 정량적, 정성적 평가 결과를 제시하였습니다.
정량적 평가: 아래 표 1은 CM-GAN과 다른 마스킹 방법의 비교를 보여줍니다. 결과는 CM-GAN이 FID, LPIPS, U-IDS 및 P-IDS 측면에서 다른 방법보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다. 지각 손실의 도움으로 LaMa, CM-GAN은 사전 훈련된 지각 모델이 제공하는 추가 의미론적 지침 덕분에 CoModGAN 및 기타 방법보다 훨씬 더 나은 LPIPS 점수를 달성합니다. LaMa/CoModGAN과 비교하여 CM-GAN은 FID를 3.864/3.724에서 1.628로 줄입니다.
아래 표 3에서 볼 수 있듯이 미세 조정 여부에 관계없이 CM-GAN은 LaMa 및 CoModGAN 마스크 모두에서 LaMa 및 CoModGAN보다 훨씬 더 나은 성능 향상을 달성하여 모델에 일반화가 있음을 나타냅니다. CoModGAN 마스크, 객체 인식 마스크에서 훈련된 CM-GAN의 성능이 CoModGAN 마스크의 성능보다 여전히 우수하다는 점은 주목할 가치가 있으며, 이는 CM-GAN이 더 나은 생성 능력을 가지고 있음을 확인합니다.
정성적 평가: 그림 5, 그림 6, 그림 8은 합성 마스크 측면에서 CM-GAN 방식과 SOTA 방식의 시각적 비교 결과를 보여줍니다. ProFill은 일관되지 않은 전역 구조를 생성할 수 있고, CoModGAN은 구조적 아티팩트와 색상 반점을 생성하며, LaMa는 자연 장면에서 큰 이미지 흐림 현상이 발생하는 경향이 있습니다. 대조적으로, CM-GAN 방법은 보다 일관된 의미 구조와 명확한 질감을 생성하며 다양한 시나리오에 적용할 수 있습니다. ㅋㅋㅋ . 절제 실험 결과는 아래 표 2와 그림 7에 나타내었다.
본 연구에서는 CM-GAN 방식의 시각적 생성 품질을 더 잘 평가하기 위해 사용자 연구도 수행했으며 그 결과는 아래 표 5와 같습니다. 또한 부록에서는 독자의 참고를 위해 보다 시각적인 비교와 실험적 분석을 제공합니다.
위 내용은 이미지의 넓은 부분이 누락되더라도 사실적으로 복원할 수 있는 새로운 모델인 CM-GAN은 전체적인 구조와 텍스처 디테일을 고려합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!