300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 첫 번째 저자인 Shuai Xincheng은 현재 푸단 대학교 FVL 연구소에서 박사 과정을 공부하고 있으며 Shanghai Jiao Tong University를 졸업했습니다. 학사 학위. 그의 주요 연구 관심 분야는 이미지 및 비디오 편집과 다중 모드 학습입니다.

머리말

이 글에서는 일반적인 편집 작업을 해결하기 위한 통합 프레임워크를 제안합니다! 최근 푸단대학교 FVL 연구소와 난양기술대학교 연구진은 빈센트 그래프 대형 모델을 기반으로 한 다중 모드 안내 이미지 편집 알고리즘을 요약하고 검토했습니다. 리뷰에는 300개 이상의 관련 연구가 포함되어 있으며, 조사된 최신 모델은 올해 6월 기준입니다! 이 검토에서는 제어 조건(자연어, 이미지, 사용자 인터페이스) 및 편집 작업(객체/속성 조작, 공간 변환, 인페인팅, 스타일 전송, 이미지 번역, 주제/속성 사용자 정의)에 대한 논의를 보다 새롭고 포괄적인 논의로 확장합니다. 좀 더 일반적인 관점에서 편집 방법을 살펴보겠습니다. 또한, 본 리뷰에서는 편집 프로세스를 다양한 알고리즘 계열의 조합으로 표현하는 통합 프레임워크를 제안하고, 포괄적인 정성적, 정량적 실험을 통해 다양한 조합의 특성과 적응 시나리오를 설명합니다. 프레임워크는 사용자의 다양한 요구를 충족할 수 있는 친숙한 설계 공간을 제공하고 연구자가 새로운 알고리즘을 개발할 수 있는 특정 참조를 제공합니다.

요약

이미지 편집은 사용자의 특정 요구에 따라 주어진 합성 또는 실제 이미지를 편집하도록 설계되었습니다. 인공지능 생성 콘텐츠(AIGC) 분야에서 유망하고 도전적인 분야로 이미지 편집이 광범위하게 연구되어 왔습니다. 최근에는 대규모 이미지-적외선(T2I) 확산 모델이 이미지 편집 기술의 발전을 주도해 왔습니다. 이러한 모델은 텍스트 프롬프트를 기반으로 이미지를 생성하여 놀라운 생성 기능을 보여주고 이미지 편집을 위한 일반적인 도구가 됩니다. T2I 기반의 이미지 편집 방법은 편집 성능을 획기적으로 향상시키고 다중 모드 조건 안내를 사용하여 사용자에게 콘텐츠 수정을 위한 인터페이스를 제공합니다. 우리는 T2I 확산 모델을 기반으로 하는 다중 모드 유도 이미지 편집 기술에 대한 포괄적인 검토를 제공합니다. 먼저, 보다 일반적인 관점에서 이미지 편집 작업의 범위를 정의하고 다양한 제어 신호 및 편집 시나리오를 자세히 설명합니다. 그런 다음 편집 프로세스를 공식화하여 두 알고리즘 계열의 조합으로 표현하는 통합 프레임워크를 제안합니다. 이 프레임워크는 사용자에게 특정 목표를 달성할 수 있는 디자인 공간을 제공합니다. 다음으로 프레임워크 내의 각 구성 요소에 대한 심층 분석을 수행하여 다양한 조합의 특성과 적용 가능한 시나리오를 연구했습니다. 학습 기반 방법은 소스 이미지를 대상 이미지에 매핑하는 방법을 직접 학습하므로 이러한 방법을 별도로 논의하고 다양한 시나리오에서 소스 이미지 주입 방식을 소개합니다. 또한 프레임 간 불일치 해결에 중점을 두고 비디오 편집에 2D 기술을 적용하는 방법을 검토합니다. 마지막으로 해당 분야의 열린 과제에 대해 논의하고 향후 연구 방향을 제안합니다.

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

논문 제목: A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
출판 단위: Fudan University FVL Laboratory, Nanyang Technological University
논문 주소: https://arxiv . org/abs/2406.14555
프로젝트 주소: https://github.com/xinchengshuai/Awesome-Image-Editing

1. 연구동기

1.1. 실생활에서는 제어 가능한 고품질 지능형 이미지 편집 도구에 대한 수요가 증가하고 있습니다. 따라서 이러한 방향의 방법과 기술적 특성을 체계적으로 요약하고 비교할 필요가 있습니다.

1.2, 현재 편집 알고리즘 및 관련 검토에서는 편집과 관련되지 않은 이미지의 낮은 수준의 의미 정보를 대부분 유지하도록 편집 시나리오를 제한합니다. 이러한 이유로 편집 작업의 범위를 확장할 필요가 있습니다. 좀 더 일반적인 관점에서 편집을 논의합니다.

1.3, 요구 사항과 시나리오의 다양성으로 인해 편집 프로세스를 통일된 프레임워크로 공식화하고 사용자에게 다양한 편집 목표에 적응할 수 있는 디자인 공간을 제공해야 합니다.

2. 리뷰 하이라이트는 현재 편집 리뷰와 어떻게 다릅니까?

2.1 편집 작업에 대한 논의의 정의와 범위. 기존 알고리즘 및 이전 편집 리뷰와 비교하여 본 논문에서는 이미지 편집 작업을 보다 광범위하게 정의합니다. 특히 이 문서에서는 편집 작업을 내용 인식 장면 그룹과 내용 없는 장면 그룹으로 나눕니다. 내용 인식 그룹의 장면은 이전 문헌에서 논의된 주요 작업이며, 공통점은 관련 없는 영역의 픽셀 내용 편집 또는 이미지 구조와 같은 이미지의 일부 낮은 수준의 의미 기능을 유지하는 것입니다. 또한 일반 편집 시나리오에 추가로 높은 수준의 의미(주체 신원 정보 또는 기타 세부적인 속성 등)를 유지하는 이러한 유형의 작업을 사용하여 콘텐츠 없는 시나리오 그룹에 사용자 정의 작업을 포함시키는 방법을 개척했습니다. . 보충하세요. ㅋㅋㅋ ~ . 편집 시나리오의 다양성으로 인해 기존 알고리즘은 모든 요구 사항을 잘 충족할 수 없습니다. 따라서 우리는 기존 편집 프로세스를 두 가지 알고리즘 계열의 조합으로 표현되는 통합 프레임워크로 공식화합니다. 또한, 정성적, 정량적 실험을 통해 다양한 조합의 특성과 적응 시나리오를 분석하여 사용자에게 다양한 편집 목표에 적응할 수 있는 좋은 디자인 공간을 제공했습니다. 동시에 이 프레임워크는 연구자에게 더 나은 성능을 갖춘 알고리즘 설계에 대한 더 나은 참조를 제공합니다.

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

2.3 토론의 포괄성. 우리는 300개 이상의 관련 논문을 연구했으며 다양한 시나리오에서 다양한 제어 신호 모드의 적용을 체계적이고 포괄적으로 설명했습니다. 훈련 기반 편집 방법의 경우 이 문서에서는 다양한 시나리오에서 T2I 모델에 소스 이미지를 주입하는 전략도 제공합니다. 또한, 영상 분야에서의 이미지 편집 기술의 적용에 대해서도 논의하여 독자들이 다양한 분야의 편집 알고리즘 간의 연관성을 빠르게 이해할 수 있도록 했습니다.

3. 일반 편집 알고리즘을 위한 통합 프레임워크

그림 2. 일반 편집 알고리즘의 통합 프레임 워크

프레임 워크에는 두 개의 알고리즘 패밀리, 반전 알고리즘
및 편집 알고리즘

가 포함됩니다.

3.1 반전 알고리즘. 반전 알고리즘
은 소스 이미지 세트

를 특정 기능 또는 매개변수 공간으로 인코딩하고 해당 표현

(역전 단서)을 얻은 다음 해당 소스 텍스트 설명 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

을 소스 이미지의 식별자로 사용합니다. 튜닝 기반 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

과 순방향 기반

이라는 두 가지 유형의 반전 알고리즘이 포함됩니다. 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

Tuning-based inversion

원본 이미지 세트는 원래 확산 훈련 프로세스를 통해 확산 모델의 세대 분포에 이식됩니다. 형식화 프로세스는 다음과 같습니다.

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

여기서 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문 는 도입된 학습 가능한 매개변수이고

입니다.

Forward-based inversion
은 확산 모델의 역과정(

)에서 특정 순방향 경로(

)의 노이즈를 복원하는 데 사용됩니다. 공식화 프로세스는 다음과 같습니다. 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

여기서

는 메소드에 도입된 매개변수로, 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

를 최소화하는 데 사용됩니다. 여기서 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

3.2.알고리즘 편집. 편집 알고리즘 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

은

및 다중 모드 지침 세트 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

를 기반으로 최종 편집 결과 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

를 생성합니다. 주의 기반 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

, 혼합 기반

, 점수 기반

및 최적화 기반

을 포함한 편집 알고리즘. 다음과 같이 공식화할 수 있습니다.

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

특히 역 프로세스의 각 단계에 대해 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

는 다음 작업을 수행합니다.

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

여기서

의 작업은 확산 모델 샘플링에서 편집 알고리즘의 개입을 나타냅니다. 프로세스 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

, 편집된 이미지

와 원본 이미지 컬렉션 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

간의 일관성을 보장하고 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

의 지침 조건에 지정된 시각적 변형을 반영하는 데 사용됩니다.

구체적으로 우리는 개입 없는 편집 프로세스를 편집 알고리즘의 일반 버전으로 취급합니다 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

. 다음과 같이 공식화됩니다:

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

주의 기반 편집

의 형식적 프로세스:

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

Blending 기반 편집 300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

의 형식적 프로세스

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

점수 기반 편집

의 형식적 프로세스:

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

최적화 기반 편집

의 공식화 프로세스:

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

3.3 훈련 기반 편집 방법. 훈련이 필요 없는 방법과 달리 훈련 기반 알고리즘은 소스 이미지 세트를 작업별 데이터 세트의 편집된 이미지에 매핑하는 방법을 직접 학습합니다. 이러한 유형의 알고리즘은 추가로 도입된 매개변수를 통해 소스 이미지를 생성 분포로 인코딩하는 튜닝 기반 역전의 확장으로 볼 수 있습니다. 이러한 유형의 알고리즘에서 가장 중요한 것은 소스 이미지를 T2I 모델에 주입하는 방법입니다. 다음은 다양한 편집 시나리오에 대한 주입 방식입니다.

콘텐츠 인식 작업 주입 방식:

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

^{> > ~ 그림 3. 콘텐츠가 없는 작업의 주입 방식}

4. 다중 모드 편집 작업에서 통합 프레임워크 적용

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

^{이 문서에서는 정성적 실험을 통해 다중 모드 편집 작업에서 각 조합의 적용을 보여줍니다.}

그림 4. 주의 기반 편집 애플리케이션 정보

의 알고리즘 조합 알고리즘 조합 적용

300개 이상의 관련 연구, 푸단대학교 및 난양기술대학교의 최신 다중 모드 이미지 편집 리뷰 논문

^{그림 6. 점수 기반 편집을 위한 알고리즘 조합 적용 > 자세한 분석을 위해. ^{5． 텍스트 기반 편집 시나리오의 다양한 조합 비교}일반적인 텍스트 기반 편집 작업을 위해 이 기사에서는 다양한 조합에 적합한 편집 시나리오를 설명하기 위해 여러 가지 도전적인 질적 실험을 설계했습니다. 또한 본 논문에서는 다양한 시나리오에서 다양한 조합으로 고급 알고리즘의 성능을 정량적으로 설명하기 위해 그에 따라 고품질의 어려운 데이터 세트를 수집합니다.

콘텐츠 인식 작업의 경우 주로 개체 작업(추가/삭제/교체), 속성 변경 및 스타일 마이그레이션을 고려합니다. 특히 우리는 다음과 같은 까다로운 실험 설정을 고려합니다. 1. 다목적 편집. 2. 이미지의 의미 레이아웃에 더 큰 영향을 미치는 사용 사례. 또한 이러한 복잡한 장면의 고품질 이미지를 수집하고 다양한 조합의 최첨단 알고리즘에 대한 포괄적인 정량적 비교를 수행합니다. En 그림 8. Content-AWARE 미션의 각 조합에 대한 정성적 비교. 왼쪽에서 오른쪽으로 결과 분석 및 더 많은 실험 결과가 나와 있습니다. 원본 논문을 참조하세요. 컨텐츠 없는 작업의 경우 주제 중심의 맞춤형 작업을 주로 고려합니다. 그리고 배경 변경, 개체와의 상호 작용, 동작 변경, 스타일 변경 등 다양한 시나리오를 고려합니다. 또한 다수의 텍스트 지침 템플릿을 정의하고 각 방법의 전반적인 성능에 대한 정량적 분석을 수행했습니다.
그림 9. 콘텐츠 프리 미션의 각 조합에 대한 정성적 비교. 왼쪽부터 결과 분석 및 더 많은 실험 결과는 원본 논문을 참조하세요. 6． 앞으로 연구할 수 있는 방향
또한 이 글에서는 향후 연구 방향에 대한 분석도 제공합니다. 여기서는 콘텐츠 인식 작업과 콘텐츠 없는 작업이 직면한 과제를 예로 들어보겠습니다.

6.1. 콘텐츠 인식 작업의 과제. 콘텐츠 인식 편집 작업의 경우 기존 방법으로는 여러 편집 시나리오와 제어 신호를 동시에 처리할 수 없습니다. 이러한 제한으로 인해 애플리케이션은 서로 다른 작업 간에 적절한 백엔드 알고리즘을 전환해야 합니다. 또한 일부 고급 방법은 사용자에게 친숙하지 않습니다. 일부 방법에서는 최적의 결과를 얻기 위해 사용자가 주요 매개변수를 조정해야 하는 반면, 다른 방법에서는 소스 및 대상 힌트 또는 보조 마스크와 같은 지루한 입력이 필요합니다.

6.2.컨텐츠 없는 작업 챌린지. 콘텐츠가 없는 편집 작업의 경우 기존 방법은 테스트 중에 조정 프로세스가 길어지고 과적합 문제가 발생합니다. 일부 연구에서는 소수의 매개변수를 최적화하거나 모델을 처음부터 훈련하여 이 문제를 완화하는 것을 목표로 합니다. 그러나 주제를 개별화하는 세부 사항을 놓치거나 일반화 능력이 떨어지는 경우가 많습니다. 또한, 현재의 방법은 소수의 이미지에서 추상적인 개념을 추출하는 데도 부족하고, 원하는 개념을 다른 시각적 요소와 완전히 분리할 수 없습니다.

연구 방향에 대한 자세한 내용은 원본 논문을 확인하세요.}