AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
이 기사의 첫 번째 저자인 Shuai Xincheng은 현재 푸단 대학교 FVL 연구소에서 박사 과정을 공부하고 있으며 Shanghai Jiao Tong University를 졸업했습니다. 학사 학위. 그의 주요 연구 관심 분야는 이미지 및 비디오 편집과 다중 모드 학습입니다.
이 글에서는 일반적인 편집 작업을 해결하기 위한 통합 프레임워크를 제안합니다! 최근 푸단대학교 FVL 연구소와 난양기술대학교 연구진은 빈센트 그래프 대형 모델을 기반으로 한 다중 모드 안내 이미지 편집 알고리즘을 요약하고 검토했습니다. 리뷰에는 300개 이상의 관련 연구가 포함되어 있으며, 조사된 최신 모델은 올해 6월 기준입니다! 이 검토에서는 제어 조건(자연어, 이미지, 사용자 인터페이스) 및 편집 작업(객체/속성 조작, 공간 변환, 인페인팅, 스타일 전송, 이미지 번역, 주제/속성 사용자 정의)에 대한 논의를 보다 새롭고 포괄적인 논의로 확장합니다. 좀 더 일반적인 관점에서 편집 방법을 살펴보겠습니다. 또한, 본 리뷰에서는 편집 프로세스를 다양한 알고리즘 계열의 조합으로 표현하는 통합 프레임워크를 제안하고, 포괄적인 정성적, 정량적 실험을 통해 다양한 조합의 특성과 적응 시나리오를 설명합니다. 프레임워크는 사용자의 다양한 요구를 충족할 수 있는 친숙한 설계 공간을 제공하고 연구자가 새로운 알고리즘을 개발할 수 있는 특정 참조를 제공합니다. 이미지 편집은 사용자의 특정 요구에 따라 주어진 합성 또는 실제 이미지를 편집하도록 설계되었습니다. 인공지능 생성 콘텐츠(AIGC) 분야에서 유망하고 도전적인 분야로 이미지 편집이 광범위하게 연구되어 왔습니다. 최근에는 대규모 이미지-적외선(T2I) 확산 모델이 이미지 편집 기술의 발전을 주도해 왔습니다. 이러한 모델은 텍스트 프롬프트를 기반으로 이미지를 생성하여 놀라운 생성 기능을 보여주고 이미지 편집을 위한 일반적인 도구가 됩니다. T2I 기반의 이미지 편집 방법은 편집 성능을 획기적으로 향상시키고 다중 모드 조건 안내를 사용하여 사용자에게 콘텐츠 수정을 위한 인터페이스를 제공합니다. 우리는 T2I 확산 모델을 기반으로 하는 다중 모드 유도 이미지 편집 기술에 대한 포괄적인 검토를 제공합니다. 먼저, 보다 일반적인 관점에서 이미지 편집 작업의 범위를 정의하고 다양한 제어 신호 및 편집 시나리오를 자세히 설명합니다. 그런 다음 편집 프로세스를 공식화하여 두 알고리즘 계열의 조합으로 표현하는 통합 프레임워크를 제안합니다. 이 프레임워크는 사용자에게 특정 목표를 달성할 수 있는 디자인 공간을 제공합니다. 다음으로 프레임워크 내의 각 구성 요소에 대한 심층 분석을 수행하여 다양한 조합의 특성과 적용 가능한 시나리오를 연구했습니다. 학습 기반 방법은 소스 이미지를 대상 이미지에 매핑하는 방법을 직접 학습하므로 이러한 방법을 별도로 논의하고 다양한 시나리오에서 소스 이미지 주입 방식을 소개합니다. 또한 프레임 간 불일치 해결에 중점을 두고 비디오 편집에 2D 기술을 적용하는 방법을 검토합니다. 마지막으로 해당 분야의 열린 과제에 대해 논의하고 향후 연구 방향을 제안합니다.
- 논문 제목: A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
- 출판 단위: Fudan University FVL Laboratory, Nanyang Technological University
- 논문 주소: https://arxiv . org/abs/2406.14555
- 프로젝트 주소: https://github.com/xinchengshuai/Awesome-Image-Editing
1.1. 실생활에서는 제어 가능한 고품질 지능형 이미지 편집 도구에 대한 수요가 증가하고 있습니다. 따라서 이러한 방향의 방법과 기술적 특성을 체계적으로 요약하고 비교할 필요가 있습니다. 1.2, 현재 편집 알고리즘 및 관련 검토에서는 편집과 관련되지 않은 이미지의 낮은 수준의 의미 정보를 대부분 유지하도록 편집 시나리오를 제한합니다. 이러한 이유로 편집 작업의 범위를 확장할 필요가 있습니다. 좀 더 일반적인 관점에서 편집을 논의합니다. 1.3, 요구 사항과 시나리오의 다양성으로 인해 편집 프로세스를 통일된 프레임워크로 공식화하고 사용자에게 다양한 편집 목표에 적응할 수 있는 디자인 공간을 제공해야 합니다. 2. 리뷰 하이라이트는 현재 편집 리뷰와 어떻게 다릅니까? 2.1 편집 작업에 대한 논의의 정의와 범위. 기존 알고리즘 및 이전 편집 리뷰와 비교하여 본 논문에서는 이미지 편집 작업을 보다 광범위하게 정의합니다. 특히 이 문서에서는 편집 작업을 내용 인식 장면 그룹과 내용 없는 장면 그룹으로 나눕니다. 내용 인식 그룹의 장면은 이전 문헌에서 논의된 주요 작업이며, 공통점은 관련 없는 영역의 픽셀 내용 편집 또는 이미지 구조와 같은 이미지의 일부 낮은 수준의 의미 기능을 유지하는 것입니다. 또한 일반 편집 시나리오에 추가로 높은 수준의 의미(주체 신원 정보 또는 기타 세부적인 속성 등)를 유지하는 이러한 유형의 작업을 사용하여 콘텐츠 없는 시나리오 그룹에 사용자 정의 작업을 포함시키는 방법을 개척했습니다. . 보충하세요. ㅋㅋㅋ ~ . 편집 시나리오의 다양성으로 인해 기존 알고리즘은 모든 요구 사항을 잘 충족할 수 없습니다. 따라서 우리는 기존 편집 프로세스를 두 가지 알고리즘 계열의 조합으로 표현되는 통합 프레임워크로 공식화합니다. 또한, 정성적, 정량적 실험을 통해 다양한 조합의 특성과 적응 시나리오를 분석하여 사용자에게 다양한 편집 목표에 적응할 수 있는 좋은 디자인 공간을 제공했습니다. 동시에 이 프레임워크는 연구자에게 더 나은 성능을 갖춘 알고리즘 설계에 대한 더 나은 참조를 제공합니다.
2.3 토론의 포괄성. 우리는 300개 이상의 관련 논문을 연구했으며 다양한 시나리오에서 다양한 제어 신호 모드의 적용을 체계적이고 포괄적으로 설명했습니다. 훈련 기반 편집 방법의 경우 이 문서에서는 다양한 시나리오에서 T2I 모델에 소스 이미지를 주입하는 전략도 제공합니다. 또한, 영상 분야에서의 이미지 편집 기술의 적용에 대해서도 논의하여 독자들이 다양한 분야의 편집 알고리즘 간의 연관성을 빠르게 이해할 수 있도록 했습니다. 3. 일반 편집 알고리즘을 위한 통합 프레임워크
위 내용은 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!