> 기술 주변기기 > 일체 포함 > 보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

WBOY
풀어 주다: 2023-04-10 14:41:10
앞으로
1661명이 탐색했습니다.

ChatGPT는 대규모 언어 모델에 대한 열풍을 촉발시켰습니다. AI의 또 다른 주요 영역인 비전에 대한 GPT 순간은 언제 올까요?

이틀 전 Machine Heart에서는 Meta의 최신 연구 결과인 SAM(Segment Anything Model)을 소개했습니다. 이 연구는 AI 커뮤니티에서 폭넓은 논의를 불러일으켰다.

우리가 아는 한, 지적 재산 연구소의 비전 팀은 거의 동시에 일반 분할 모델 SegGPT(Segment Everything In Context)를 출시했습니다. 이는 시각적 프롬프트를 사용하여 모든 작업을 완료하는 일반 시각적 모델입니다. 세분화 작업.

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

  • 논문 주소: https://arxiv.org/abs/2304.03284
  • 코드 주소: https://github.com/baaivision/Painter
  • 데모 :https://huggingface.co/spaces/BAAI/SegGPT

SegGPT는 Meta AI 이미지 분할 기본 모델인 SAM과 동시에 출시되었습니다. 둘의 차이점은

  • SegGPT입니다. "원스톱 서비스": 하나 이상의 예시 이미지와 의도 마스크가 주어지면 모델은 사용자의 의도를 파악하고 유사한 분할 작업을 "모방"할 수 있습니다. 사용자는 화면에 나타난 객체의 종류를 표시하고 인식한 후, 현재 화면이나 다른 화면, 영상 환경에서 유사한 객체를 일괄적으로 식별하고 분할할 수 있습니다.
  • SAM “원터치 앤 고”: 점이나 경계 상자를 통해 예측할 그림에 대화형 프롬프트가 제공되고 분할 화면에서 지정된 개체가 식별됩니다.

"원터치 전체"이든 "원터치 전체"든 시각적 모델이 이미지 구조를 "이해"했다는 의미입니다. SAM의 정밀한 주석 기능과 SegGPT의 범용 분할 주석 기능을 결합하면 픽셀 배열의 모든 이미지를 시각적 구조 단위로 구문 분석하고 생물학적 비전과 같은 모든 장면을 이해할 수 있습니다.

SegGPT는 모든 객체를 분할하는 목표에 최적화된 Intelligent Source 일반 비전 모델 Painter(CVPR 2023)의 파생 모델입니다. SegGPT 훈련이 완료된 후에는 미세 조정이 필요하지 않습니다. 이미지와 비디오의 인스턴스, 카테고리, 구성 요소, 윤곽선, 텍스트, 얼굴 등을 포함하여 해당 분할 작업을 자동으로 추론하고 완료하기 위한 예제를 제공하기만 하면 됩니다.

모델에는 다음과 같은 장점과 기능이 있습니다.

1. 일반 기능 : SegGPT는 상황에 맞는 추론 기능을 갖추고 있으며 모델은 제공된 분할 예를 기반으로 예측을 적응적으로 조정할 수 있습니다(프롬프트). , 인스턴스, 카테고리, 구성 요소, 윤곽선, 텍스트, 얼굴, 의료 이미지, 원격 감지 이미지 등을 포함한 "모든 것"의 분할을 실현합니다.

2. 유연한 추론 기능: 특정 시나리오에 맞게 조정된 프롬프트를 지원합니다. 다양한 색상의 마스크를 사용하여 병렬 분할 추론을 달성할 수 있습니다.

3. 자동 비디오 분할 및 추적 기능: 첫 번째 프레임 이미지와 해당 객체 마스크를 컨텍스트 예로 사용하면 SegGPT는 후속 비디오 프레임을 자동으로 분할하고 마스크된 색상을 사용할 수 있습니다. 자동 추적을 달성하기 위해 개체의 ID로 사용됩니다.

사례 발표

1. 저자는 퓨샷 의미론적 분할, 비디오 객체 분할, 의미론적 분할 및 파노라마 분할을 포함한 광범위한 작업에 대해 SegGPT를 평가했습니다. 아래 그림은 인스턴스, 카테고리, 구성 요소, 윤곽선, 텍스트 및 임의 모양의 개체에 대한 SegGPT의 분할 결과를 구체적으로 보여줍니다.

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

2. 한 그림의 무지개를 표시하고(위 그림), 다른 그림의 무지개를 나누어(아래 그림)

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

3. 행성고리대(상단 이미지)를 생성하고, 예측지도의 대상 이미지(하단 이미지)에 있는 행성고리대를 정확하게 출력합니다.

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

4 SegGPT는 사용자가 제공한 우주 비행사 헬멧 마스크(왼쪽 사진)의 맥락을 기반으로 새 사진(오른쪽)에서 해당 우주 비행사 헬멧 영역을 예측할 수 있습니다. .

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

훈련 방법

SegGPT는 다양한 분할 작업을 공통 컨텍스트 학습 프레임워크로 통합하고, 다양한 분할 데이터를 동일한 형식의 이미지로 변환하여 다양한 데이터 형식을 통합합니다.

구체적으로 SegGPT의 교육은 각 데이터 샘플에 대해 무작위 색상 매핑을 사용하는 상황별 색상 문제로 정의됩니다. 특정 색상에 의존하기보다 상황에 따라 다양한 작업을 수행하는 것이 목표입니다. 학습 후 SegGPT는 인스턴스, 카테고리, 구성 요소, 윤곽선, 텍스트 등과 같은 상황별 추론을 통해 이미지 또는 비디오에서 임의의 분할 작업을 수행할 수 있습니다.

테스트 시간 기술

테스트 시간 기술을 통해 다양한 능력을 잠금 해제하는 방법은 유니버설 모델의 하이라이트입니다. SegGPT 문서에서는 아래 그림에 표시된 다양한 컨텍스트 앙상블 방법과 같이 다양한 분할 기능을 잠금 해제하고 향상하기 위한 여러 기술을 제안합니다. 제안된 Feature Ensemble 방법은 인간 친화적인 추론 효과를 달성하기 위해 다양한 프롬프트 예제를 지원할 수 있습니다.

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

또한 SegGPT는 특정 시나리오에 최적화된 전용 프롬프트도 지원합니다. 대상 사용 시나리오의 경우 SegGPT는 특정 시나리오에 맞게 모델 매개변수를 업데이트하지 않고도 프롬프트 조정을 통해 해당 프롬프트를 얻을 수 있습니다. 예를 들어, 특정 데이터 세트에 해당하는 프롬프트를 자동으로 구축하거나 회의실 전용 프롬프트를 구축할 수 있습니다. 아래 그림과 같이

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

결과 표시

모델에는 몇 가지 프롬프트 예만 필요하며 COCO 및 PASCAL 데이터 세트에서 최적의 성능을 달성합니다. SegGPT는 훈련 없이 퓨샷 의미론적 분할 테스트 세트 FSS-1000에서 최첨단 성능을 달성하는 등 강력한 제로샷 장면 전송 기능을 보여줍니다.

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

비디오 교육 데이터 없이 SegGPT는 비디오 개체 분할을 직접 수행하고 비디오 개체 분할에 특별히 최적화된 모델과 유사한 성능을 달성할 수 있습니다.

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

다음은 의미론적 분할 및 인스턴스 분할 작업에 대한 tuned 프롬프트의 효과에 대한 데모입니다.

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시

위 내용은 보편적인 비전 GPT의 순간이 다가오고 있습니까? Zhiyuan, 범용 분할 모델 SegGPT 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿