다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.-일체 포함-php.cn

여러 벤치마크 테스트에서 업계 최고의 제로샷 성능을 새롭게 선보입니다.

다양한 모달 입력 콘텐츠(텍스트, 이미지, 비디오, 오디오, IMU 모션 센서 데이터)를 이해하고 텍스트 응답을 생성할 수 있는 통합 모델입니다. 이 기술은 Llama 2를 기반으로 하며 Meta에서 제공됩니다.

어제 멀티모달 대형 모델 애니말(AnyMAL)에 대한 연구가 AI 연구계의 주목을 끌었습니다.

대형 언어 모델(LLM)은 엄청난 크기와 복잡성으로 유명하며, 이는 인간의 언어를 이해하고 표현하는 기계의 능력을 크게 향상시킵니다. LLM의 발전으로 시각적 언어 분야에서 상당한 발전이 가능해졌으며, 이미지 인코더와 LLM 간의 격차를 해소하고 추론 기능을 결합했습니다. 이전의 다중 모드 LLM 연구는 텍스트 및 이미지 모델과 같은 다른 양식과 텍스트를 결합하는 모델이나 오픈 소스가 아닌 독점 언어 모델에 중점을 두었습니다.

다중 모드 기능을 달성하고 LLM에 다양한 모드를 포함하는 더 좋은 방법이 있다면 이것이 우리에게 다른 경험을 가져다 줄까요? ㅋㅋㅋ 출력 example

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

이 문제를 해결하기 위해 Meta의 연구진은 최근 AnyMAL(Any-Modality Augmented Language Model)을 출시했습니다. 이는 다양한 양식(이미지, 비디오, 오디오 및 IMU 모션 센서 데이터 포함)의 데이터를 LLM

의 텍스트 임베딩 공간으로 변환하도록 훈련된 다중 모드 인코더 모음입니다. Paper 주소: https://huggingface. co/papers/2309.16058

설명에 따르면 이 연구의 주요 기여는 다음과 같습니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

다중 모드 LLM 구축을 위한 효율적이고 확장 가능한 솔루션이 제안됩니다. 이 기사에서는 여러 양식(예: 2억 개의 이미지, 220만 개의 오디오 세그먼트, 500,000개의 IMU 시계열, 2,800만 개의 비디오 세그먼트)을 포함하는 대규모 데이터 세트에 대해 사전 훈련된 프로젝션 레이어를 제공합니다. 모두 동일한 대규모 모델(LLaMA-2- 70B-채팅), 인터리브된 다중 모드 상황별 단서를 가능하게 합니다.

이 연구에서는 단순한 질문 응답(QA) 영역을 넘어 다양한 무제한 작업을 포괄하는 세 가지 양식(이미지, 비디오 및 오디오)에 걸쳐 다중 모드 명령 세트를 사용하여 모델을 더욱 미세 조정합니다. 이 데이터 세트에는 인간이 수집한 고품질 교육 데이터가 포함되어 있으므로 본 연구에서는 이를 복잡한 다중 모드 추론 작업의 벤치마크로 사용합니다

이 문서의 가장 좋은 모델은 다양한 작업 및 양식에 대한 자동 및 인간 평가에서 좋은 결과를 얻었습니다. 기존 문헌의 모델과 비교하여 VQAv2의 상대 정확도는 7.0% 증가하고, 제로 오류 COCO 이미지 자막의 CIDEr는 8.4%, AudioCaps의 CIDEr는 14.5% 증가하여 새로운 모델을 만들었습니다. SOTA

메소드 개요

특정 데이터를 포함하는 페어링된 멀티모달 데이터를 사용하여 다시 작성해야 함 모달 신호 및 텍스트 내러티브), 이 연구에서는 다중 달성을 위해 LLM을 사전 훈련했습니다. -그림 2에 표시된 모달 이해 기능. 특히 입력 신호를 특정 LLM의 텍스트 토큰 내장 공간에 투영하는 각 양식에 대한 경량 어댑터를 교육합니다. 이러한 방식으로 LLM의 텍스트 토큰 임베딩 공간은 토큰이 텍스트 또는 기타 형식을 나타낼 수 있는 공동 토큰 임베딩 공간이 됩니다.

이미지 정렬 연구와 관련하여 우리는 LAION-2B 데이터세트의 깨끗한 하위 집합을 사용했으며 CAT 방법을 사용했습니다. 필터링을 위해 감지 가능한 얼굴은 모두 흐리게 처리됩니다. 오디오 정렬 연구를 위해 AudioSet(2.1M), AudioCaps(46K) 및 CLOTHO(5K) 데이터 세트가 사용되었습니다. 또한 IMU 및 텍스트 정렬(528K)을 위해 Ego4D 데이터세트도 사용했습니다.

대규모 데이터세트의 경우 사전 훈련을 70B 매개변수 모델로 확장하려면 많은 리소스가 필요하며 종종 여러 GPU에서 FSDP 래퍼를 사용해야 하는 경우도 있습니다. 샤딩되어 있습니다. 훈련을 효과적으로 확장하기 위해 모델의 LLM 부분이 고정되고 모달 토크나이저만 훈련 가능한 다중 모드 설정에서 양자화 전략(4비트 및 8비트)을 구현합니다. 이 접근 방식은 메모리 요구 사항을 몇 배나 줄여줍니다. 따라서 70B AnyMAL은 배치 크기가 4인 단일 80GB VRAM GPU에서 훈련을 완료할 수 있습니다. FSDP와 비교하여 이 글에서 제안하는 양자화 방법은 GPU 리소스의 절반만 사용하지만 동일한 처리량을 달성합니다

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

미세 조정을 위해 다중 모드 명령 데이터 세트를 사용한다는 것은 미세 조정을 위해 다중 모드 명령 데이터 세트를 사용한다는 의미입니다.

다양한 입력 양식에 대한 명령을 따르는 모델의 능력을 더욱 향상시키기 위해 우리는 다중 모드 명령어 데이터 세트 사용 MM-IT(Dynamic Instruction Tuning) 데이터 세트에 대한 추가 미세 조정이 수행되었습니다. 구체적으로, 응답 대상이 텍스트 명령과 모달 입력을 모두 기반으로 하도록 입력을 [ 다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다. ]으로 연결합니다. 연구는 다음 두 가지 상황에 대해 수행됩니다: (1) LLM 매개변수를 변경하지 않고 투영 계층을 훈련하거나 (2) LM 동작을 추가로 조정하기 위해 낮은 수준 적응(Low-Rank Adaptation)을 사용합니다. 이 연구에서는 수동으로 수집한 명령 조정 데이터 세트와 합성 데이터를 모두 사용합니다.

실험 및 결과

이미지 캡션 생성은 이미지에 해당하는 캡션을 자동으로 생성하는 데 사용되는 인공 지능 기술입니다. 컴퓨터 비전과 자연어 처리 방식을 결합해 이미지의 내용과 특징을 분석하고 의미와 구문을 이해해 이미지와 관련된 설명 캡션을 생성하는 기술이다. 이미지 캡션 생성은 이미지 검색, 이미지 주석, 이미지 검색 등을 포함한 다양한 분야에서 폭넓게 적용됩니다. 제목을 자동으로 생성함으로써 이미지에 대한 이해도와 검색 엔진의 정확성이 향상되어 사용자에게 더 나은 이미지 검색 및 탐색 경험을 제공할 수 있습니다

표 2는 COCO의 결과와 "상세 설명"(MM- IT-Cap의 MM-IT 데이터세트 하위 집합에 대한 제로샷 이미지 캡션 생성 성능. 볼 수 있듯이 AnyMAL 변종은 두 데이터 세트 모두에서 기준보다 훨씬 더 나은 성능을 발휘합니다. 특히 AnyMAL-13B와 AnyMAL-70B 변형 간에는 성능에 큰 차이가 없습니다. 이 결과는 이미지 캡션 생성을 위한 기본 LLM 기능이 이미지에 대한 해당 캡션을 자동으로 생성하는 데 사용되는 인공 지능 기술임을 보여줍니다. 컴퓨터 비전과 자연어 처리 방식을 결합해 이미지의 내용과 특징을 분석하고 의미와 구문을 이해해 이미지와 관련된 설명 캡션을 생성하는 기술이다. 이미지 캡션 생성은 이미지 검색, 이미지 주석, 이미지 검색 등을 포함한 다양한 분야에서 폭넓게 적용됩니다. 캡션 생성을 자동화하면 이미지 이해도와 검색 엔진 정확도가 향상되어 사용자에게 더 나은 이미지 검색 및 탐색 경험을 제공할 수 있습니다. 작업의 영향은 적지만 데이터 크기 및 등록 방법에 따라 크게 달라집니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

필요한 재작성은 다음과 같습니다: 다중 모달 추론 작업에 대한 인간 평가

그림 3은 AnyMAL이 기준선(LLaVA: 34.4% 승률 및 MiniGPT4: 27.0% 승률)과 비교됨을 보여줍니다. 성능은 다음과 같습니다. 강력하고 실제 사람이 주석을 추가한 샘플과의 격차가 작습니다(승률 41.1%). 특히, 전체 명령어 세트로 미세 조정된 모델은 가장 높은 우선순위 승률을 보여 인간이 주석을 추가한 응답에 필적하는 시각적 이해 및 추론 능력을 보여주었습니다. BLIP-2와 InstructBLIP은 공개 VQA 벤치마크에서는 좋은 성능을 발휘하지만 이러한 공개 쿼리에서는 성능이 좋지 않다는 점도 주목할 가치가 있습니다(각각 4.1% 및 16.7% 우선순위 승률).

VQA 벤치마크

표 4에서는 문헌에 보고된 각 벤치마크에 대한 Hateful Meme 데이터 세트인 VQAv2, TextVQA, ScienceQA, VizWiz 및 OKVQA에 대한 제로샷 성능을 보여줍니다. 샘플 결과를 비교했습니다. 우리의 연구는 추론 시간에 공개 쿼리에 대한 모델 성능을 가장 정확하게 추정하기 위한 제로 샷 평가에 중점을 두고 있습니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

동영상 QA 벤치마크

표 6에 표시된 대로 세 가지 모델을 연구합니다. 비디오 QA 벤치마크.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

오디오 자막 재생성

표 5는 AudioCaps 벤치마크 데이터 세트에서 오디오 자막을 재생성한 결과를 보여줍니다. AnyMAL은 문헌의 다른 최첨단 오디오 자막 모델(예: CIDEr +10.9pp, SPICE +5.8pp)보다 훨씬 뛰어난 성능을 보여 제안된 방법이 비전뿐만 아니라 다양한 양식에도 적용 가능함을 나타냅니다. 텍스트 70B 모델은 7B 및 13B 변형에 비해 분명한 이점을 보여줍니다.

다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.

흥미롭게도 AnyMAL 논문 제출 방법, 유형, 시기를 기준으로 메타는 새로 출시한 혼합현실/메타버스 헤드셋을 통해 다중 모드 데이터를 수집할 계획인 것으로 보입니다. 이러한 연구 결과는 Meta의 Metaverse 제품 라인에 통합되거나 곧 소비자 애플리케이션에 적용될 수 있습니다.

자세한 내용은 원본 기사를 읽어보세요.

위 내용은 다중 모달 버전 Llama2가 온라인이고 Meta가 AnyMAL을 출시합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!