추가 교육 없이도 수많은 개념을 효과적으로 분할하려면 루프에서 CLIP을 호출하세요.
영화 캐릭터, 랜드마크, 브랜드, 일반 카테고리 등 모든 문구.
옥스포드 대학과 Google Research의 공동 팀의 이 새로운 결과는 CVPR 2024에서 승인되었으며 코드는 오픈 소스로 제공되었습니다.
팀은 개방형 어휘 이미지 분할 분야의 몇 가지 주요 문제를 해결하는 RNN(줄여서 CaR)이라는 새로운 기술을 제안했습니다.
CaR의 원리를 이해하려면 먼저 순환 신경망 RNN을 검토해야 합니다.
RNN은 과거 시간 단계의 정보를 저장하는 "기억"과 같은 숨겨진 상태의 개념을 도입합니다. 그리고 각 시간 단계는 동일한 가중치 세트를 공유하므로 시퀀스 데이터를 잘 모델링할 수 있습니다.
RNN에서 영감을 받은 CaR은 두 부분으로 구성된 순환 프레임워크로 설계되었습니다.
이렇게 계속 반복하다 보면 텍스트 쿼리도 점점 더 정확해지고, 마스크의 품질도 점점 더 높아질 것입니다.
마지막으로 쿼리 세트가 더 이상 변경되지 않으면 최종 분할 결과가 출력될 수 있습니다.
이 재귀적 프레임워크를 설계한 이유는 CLIP 사전 훈련의 "지식"을 최대한 유지하기 위한 것입니다.
CLIP 사전 트레이닝에는 연예인, 랜드마크부터 애니메이션 캐릭터까지 모든 것을 포괄하는 많은 컨셉이 있습니다. 분할된 데이터 세트를 미세 조정하면 어휘가 크게 줄어들 수 있습니다.
예를 들어, "모든 것을 나누는" SAM 모델은 코카콜라 한 병만 인식할 수 있지만 펩시콜라 한 병도 인식할 수 없습니다.
하지만 CLIP을 직접 사용하여 분할하는 경우에는 효과가 만족스럽지 않습니다.
CLIP의 사전 학습 목표는 원래 조밀한 예측을 위해 설계되지 않았기 때문입니다. 특히 특정 텍스트 쿼리가 이미지에 존재하지 않는 경우 CLIP은 잘못된 마스크를 쉽게 생성할 수 있습니다.
CaR은 RNN 스타일 반복을 통해 이 문제를 영리하게 해결합니다. 마스크를 개선하면서 쿼리를 반복적으로 평가하고 필터링함으로써 최종적으로 고품질의 개방형 어휘 분할이 달성됩니다.
마지막으로 팀의 해석을 따라가며 CaR 프레임워크의 세부 사항에 대해 알아 보겠습니다.
이러한 기술적 수단을 통해 CaR 기술은 기존의 제로샷 학습 방식을 뛰어넘어 여러 표준 데이터 세트에서 상당한 성능 향상을 달성했으며, 광범위한 데이터 미세 조정을 거친 모델과 비교하여 경쟁력도 향상되었습니다. 아래 표에서 볼 수 있듯이 추가 훈련 및 미세 조정이 필요하지 않지만 CaR은 추가 데이터에 대해 미세 조정된 이전 방법보다 제로 샷 의미론적 분할의 8가지 다른 지표에서 더 강력한 성능을 보여줍니다.
저자는 CaR이 제로 샘플 참조 분할에 미치는 영향도 테스트했습니다. CaR도 이전 제로 샘플 방법보다 강력한 성능을 보여주었습니다.
요약하자면, CaR(CLIP as RNN)은 추가 훈련 데이터 없이 제로샷 의미론적 및 참조 이미지 분할 작업을 효과적으로 수행할 수 있는 혁신적인 순환 신경망 프레임워크입니다. 사전 훈련된 시각적 언어 모델의 광범위한 어휘 공간을 보존하고 반복 프로세스를 활용하여 텍스트 쿼리와 마스크 제안의 정렬을 지속적으로 최적화함으로써 분할 품질을 크게 향상시킵니다.
CaR의 장점은 미세 조정 없이 복잡한 텍스트 쿼리를 처리할 수 있는 능력과 비디오 분야로의 확장성으로, 개방형 어휘 이미지 분할 분야에 획기적인 발전을 가져옵니다.
논문 링크: https://arxiv.org/abs/2312.07661.
프로젝트 홈페이지: https://torrvision.com/clip_as_rnn/.
위 내용은 CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!