멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.-일체 포함-php.cn

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

대화만으로도 그림이 좋아지는 것이 A당과 B당의 공통된 바람이지만, 그 고통과 슬픔은 대개 B당만이 알고 있습니다. 오늘날 AI는 이 어려운 문제에 대한 도전을 시작했습니다.

10월 17일 arXiv에 게재된 논문에서 Google Research, Technion-Israel Institute of Technology, 이스라엘 Weizmann Institute of Science의 연구진은 확산 모델을 기반으로 한 실제 이미지 편집 방법을 소개했습니다. — —Imagic, 사람에게 엄지손가락을 치켜세우거나 앵무새 두 마리에게 뽀뽀하라고 요청하는 등 실제 사진의 PS를 구현하기 위해 텍스트만 사용할 수 있습니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

"좋아요 제스처로 도와주세요." 확산 모델: 문제 없습니다. 제가 다루겠습니다."

논문에 실린 이미지에서 볼 수 있듯이, 수정된 이미지는 여전히 매우 자연스럽고 수정이 필요한 내용 외에는 정보에 눈에 띄는 손상이 없습니다. 유사한 연구에는 이전에 Google Research와 이스라엘의 Tel Aviv University에서 완료한 Prompt-to-Prompt가 포함됩니다(Imagic 논문의 [16] 참조):

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

프로젝트 링크(논문, 코드 포함) ：https ://prompt-to-prompt.github.io/

그래서 어떤 분들은 "이 분야는 너무 빨리 변해서 좀 과장됐다"고 한탄하십니다. 이제부터 A당은 정말 마음대로 바꿀 수 있습니다. 그냥 한마디가 바뀌었어요.

Imagic 논문 개요

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

논문 링크: https://arxiv.org/pdf/2210.09276.pdf

실제 사진에 과감한 의미 편집을 적용하는 것은 항상 어려운 일이었습니다. 이미지 처리에 있어서 흥미로운 작업입니다. 최근 몇 년간 딥러닝 기반 시스템이 상당한 발전을 이루면서 이 작업은 연구 커뮤니티로부터 상당한 관심을 끌었습니다.

간단한 자연어 텍스트 프롬프트를 사용하여 편집하고 싶은 내용(예: 개에게 앉으라고 요청하는 것)을 설명하는 것은 인간이 의사소통하는 방식과 매우 일치합니다. 따라서 연구자들은 텍스트 기반의 이미지 편집 방법을 많이 개발했으며 이러한 방법도 효과적입니다.

그러나 현재 주류 방법에는 다음과 같은 다소 문제가 있습니다.

1 이미지 페인팅, 개체 추가 또는 스타일 마이그레이션과 같은 특정 편집 집합으로 제한됩니다. [6, 28]

2. 특정 분야의 이미지나 합성 이미지에만 작동할 수 있습니다. [16, 36]

3. 입력 이미지 외에도 필요한 편집 내용을 나타내는 등의 보조 입력도 필요합니다. 위치의 이미지 마스크, 동일한 피사체의 여러 이미지 또는 원본 이미지를 설명하는 텍스트 [6, 13, 40, 44].

이 기사에서는 위와 같은 문제를 완화하기 위해 의미론적 이미지 편집 방법인 "Imagic"을 제안합니다. 편집할 입력 이미지와 대상 편집을 설명하는 단일 텍스트 프롬프트가 주어지면 이 방법을 사용하면 실제 고해상도 이미지의 복잡하지 않은 편집이 가능합니다. 결과 이미지 출력은 원본 이미지의 전체 컨텍스트, 구조 및 구성을 유지하면서 대상 텍스트와 잘 정렬됩니다.

그림 1에서 볼 수 있듯이 Imagic은 두 마리의 앵무새에게 키스를 하거나 사람이 엄지손가락을 치켜세우게 만들 수 있습니다. 이것이 제공하는 텍스트 기반 의미 편집은 여러 객체 편집을 포함한 복잡한 작업을 단일 실제 고해상도 이미지에 적용할 수 있는 최초의 사례입니다. 이러한 복잡한 변경 외에도 Imagic에서는 스타일 변경, 색상 변경, 개체 추가 등 다양한 편집이 가능합니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

이 위업을 달성하기 위해 연구원들은 최근 성공한 텍스트-이미지 확산 모델을 활용했습니다. 확산 모델은 고품질 이미지 합성이 가능한 강력한 생성 모델입니다. 자연어 텍스트 프롬프트를 조건으로 하면 요청된 텍스트와 일치하는 이미지를 생성할 수 있습니다. 이 연구에서 연구자들은 새로운 이미지를 합성하기보다는 실제 이미지를 편집하는 데 이를 사용했습니다.

그림 3에 표시된 것처럼 Imagic은 위 작업을 완료하는 데 세 단계만 필요합니다. 먼저 텍스트 임베딩을 최적화하여 입력 이미지와 유사한 이미지를 생성합니다. 그런 다음 사전 훈련된 생성 확산 모델을 미세 조정하여 최적화된 임베딩을 조건으로 입력 이미지를 더 잘 재구성합니다. 마지막으로 대상 텍스트 임베딩과 최적화된 임베딩 사이에 선형 보간을 수행하여 입력 이미지와 대상 텍스트를 결합한 표현이 생성됩니다. 그런 다음 이 표현은 미세 조정된 모델을 사용하여 생성 확산 프로세스로 전달되어 최종 편집된 이미지를 출력합니다.

Imagic의 위력을 입증하기 위해 연구진은 다양한 실험을 진행하여 다양한 분야의 수많은 이미지에 이 방법을 적용했으며 모든 실험에서 인상적인 결과를 얻었습니다. Imagic이 출력하는 고품질 이미지는 입력 이미지와 매우 유사하며 필요한 대상 텍스트와 일치합니다. 이러한 결과는 Imagic의 다양성, 다양성 및 품질을 입증합니다. 연구원들은 또한 제안된 방법의 각 구성 요소의 효율성을 강조하는 절제 연구를 수행했습니다. 최근의 다양한 방법과 비교하여 Imagic은 특히 매우 복잡하고 비경직적인 편집 작업을 수행할 때 훨씬 더 나은 편집 품질과 원본 이미지의 충실도를 보여줍니다.

방법 세부 사항

입력 이미지 x와 대상 텍스트가 주어지면 이 논문에서는 이미지 x의 많은 세부 사항을 유지하면서 주어진 텍스트를 만족시키는 방식으로 이미지를 편집하는 것을 목표로 합니다. 이 목표를 달성하기 위해 본 논문에서는 확산 모델의 텍스트 임베딩 레이어를 활용하여 GAN 기반 방법과 다소 유사한 방식으로 의미 연산을 수행합니다. 연구자들은 의미 있는 표현을 찾는 것부터 시작한 다음 입력 이미지와 유사한 이미지를 생성하는 생성 과정을 거칩니다. 그런 다음 생성 모델은 입력 이미지를 더 잘 재구성하도록 최적화되고 마지막 단계는 잠재 표현을 처리하여 편집 결과를 얻는 것입니다.

위 그림 3에서 볼 수 있듯이 우리의 방법은 세 단계로 구성됩니다. (1) 텍스트 임베딩을 최적화하여 대상 텍스트 임베딩 근처의 주어진 이미지와 가장 잘 일치하는 텍스트 임베딩을 찾습니다. (2) 확산을 미세 조정합니다. (3) 최적화된 임베딩과 대상 텍스트 임베딩 사이를 선형적으로 보간하여 이미지 충실도와 대상 텍스트 정렬을 모두 달성하는 지점을 찾습니다.

더 구체적인 내용은 다음과 같습니다.

텍스트 임베딩 최적화

먼저 대상 텍스트가 텍스트 인코더에 입력되고, 해당 텍스트 임베딩 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다. 이 출력됩니다. 여기서 T는 주어진 대상입니다. 텍스트의 토큰 수 d는 토큰 임베딩 차원입니다. 그런 다음, 연구원들은 생성된 확산 모델 f_θ의 매개변수를 동결하고 노이즈 제거 확산 목표를 사용하여 e_tgt

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

대상 텍스트 임베딩을 최적화합니다.

여기서 x는 입력 이미지이고, 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다. 는 x의 노이즈 버전이며, θ는 사전 훈련된 확산 모델 가중치입니다. 이렇게 하면 텍스트 임베딩이 입력 이미지와 최대한 가깝게 일치하게 됩니다. 이 프로세스는 상대적으로 적은 단계로 실행되어 원래 대상 텍스트 임베딩에 가깝게 유지되어 최적화된 임베딩 e_opt를 얻습니다.

모델 미세 조정

여기서 얻은 최적화된 임베딩 e_opt는 생성 확산 프로세스를 통과할 때 입력 이미지 x와 반드시 완전히 유사하지는 않다는 점에 유의해야 합니다. 소수의 최적화 단계(그림 5의 왼쪽 상단 패널 참조) 따라서 두 번째 단계에서 저자는 최적화 임베딩을 동결하면서 방정식 (2)에 제공된 동일한 손실 함수를 사용하여 모델 매개변수 θ를 최적화하여 이 격차를 해소합니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

텍스트 삽입 보간

Imagic의 세 번째 단계는 e_tgt와 e_opt 사이의 간단한 선형 보간입니다. 주어진 하이퍼파라미터 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다. 에 대해 를 얻습니다. 그런 다음 저자는 미세 조정 모델을 사용하여 에 조건부로 기본 생성 확산 프로세스를 적용합니다. 이렇게 하면 저해상도 편집 이미지가 생성되며, 이 이미지는 미세 조정된 보조 모델을 사용하여 대상 텍스트를 초해상도로 해결됩니다. 이 생성 과정을 통해 최종 고해상도 편집 이미지 멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다. 가 출력됩니다.

실험 결과

효과를 테스트하기 위해 연구원들은 간단한 텍스트 프롬프트를 사용하여 스타일, 모양, 색상, 포즈와 구성 . 그들은 Unsplash와 Pixabay에서 고해상도의 무료 이미지를 수집하고 5개의 무작위 시드로 각 편집을 생성하도록 최적화하고 최상의 결과를 선택했습니다. Imagic은 그림 1과 7에서 볼 수 있듯이 일반 입력 이미지와 텍스트에 다양한 편집 범주를 적용하는 기능으로 인상적인 결과를 보여줍니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

그림 2는 동일한 이미지에 다양한 텍스트 프롬프트를 사용한 실험으로 Imagic의 다양성을 보여줍니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.

연구원들이 활용하는 기본 생성 확산 모델은 확률을 기반으로 하기 때문에 이 방법은 단일 이미지-텍스트 쌍에 대해 다른 결과를 생성할 수 있습니다. 그림 4는 다양한 무작위 시드를 사용하여 편집하기 위한 여러 옵션을 보여줍니다(각 시드의 에타를 약간 조정함). 자연어 텍스트 프롬프트는 일반적으로 모호하고 부정확하기 때문에 이러한 무작위성을 통해 사용자는 다양한 옵션 중에서 선택할 수 있습니다. 연구에서는 Imagic을 실제 이미지의 단일 입력에 대해 작동하고 텍스트 프롬프트를 기반으로 편집하는 선도적인 범용 방법과 비교했습니다. 그림 6은 Text2LIVE[7] 및 SDEdit[32]와 같은 다양한 방법의 편집 결과를 보여줍니다.

우리의 방법은 필요한 편집을 적절하게 수행하면서 입력 이미지에 대한 높은 충실도를 유지하는 것을 볼 수 있습니다. "개를 앉히기"와 같은 복잡하고 경직되지 않은 편집 작업이 주어지면 우리의 방법은 이전 기술보다 훨씬 뛰어난 성능을 발휘합니다. Imagic은 단일 실제 이미지에 정교한 텍스트 기반 편집을 적용한 최초의 데모입니다.

멈출 수 없어! 텍스트만 사용하여 포토샵 사진에 확산 모델을 사용할 수 있습니다.