작년 말 OpenAI는 ChatGPT를 대중에게 출시했습니다. 이 기술은 AI 기반 챗봇을 즉시 주류 담론의 중심으로 끌어 올렸습니다. 많은 연구자들이 비즈니스, 교육 등을 어떻게 변화시킬 수 있는지에 대한 논의를 시작했습니다. .토론회.
이후 기술 거대 기업들이 이를 따라 과학 연구팀에 투자했고, 소위 '제너레이티브 AI' 기술(대화 텍스트, 그래픽 등을 생성할 수 있는 기술)도 준비되었습니다.
우리 모두 알고 있듯이 ChatGPT는 GPT-3.5 시리즈 모델을 기반으로 미세 조정되었습니다. 그러나 ChatGPT와 비교하면 새로운 연구 결과가 얼마나 좋은가요? ? 최근 Amazon이 발표한 논문 "Multimodal Chain-of-Thought Reasoning in Language Models"에서 시각적 기능을 포함하는 Multimodal-CoT를 제안했습니다. 이 아키텍처는 매개변수 수가 10억 개 미만일 때 ScienceQA 벤치마크에서 좋은 성능을 보였습니다. GPT-3.5(75.17%→91.68%)보다 16%포인트 높아, 심지어 많은 인간을 능가한다.
ScienceQA 벤치마크에 대한 간략한 소개는 UCLA와 Allen Institute for Artificial Intelligence(AI2)에서 제안한 최초의 다중 모드 과학 질문 및 답변 데이터 세트입니다. 모델의 다중 양식을 테스트하는 데 사용됩니다. 동적 추론 능력은 자연 과학, 언어 과학 및 사회 과학 분야를 포괄하는 매우 풍부한 분야 다양성을 가지며 모델의 논리적 추론 능력에 대한 높은 요구 사항을 제시합니다.
논문 주소: https://arxiv.org/abs/2302.00923
프로젝트 주소: https://github.com/amazon-science/mm-cot
Amazon의 언어 모델이 어떻게 GPT-3.5를 능가하는지 살펴보겠습니다.
대형 언어 모델(LLM)은 복잡한 추론 작업을 잘 수행하며 CoT(사고 사슬) 프롬프트의 도움 없이는 수행할 수 없습니다. 그러나 기존 CoT 연구는 언어 양상에만 초점을 맞추고 있습니다. 다중 양식에서 CoT 추론을 트리거하기 위한 한 가지 가능한 솔루션은 시각적 기능과 언어 기능을 융합하여 CoT 추론을 수행하도록 작은 언어 모델을 미세 조정하는 것입니다.
그러나 작은 모델은 큰 모델보다 더 자주 화장을 하는 경향이 있는 것으로 관찰되었습니다. 이러한 모델의 행동을 종종 "환각"이라고 합니다. 이전 Google 연구에서도 CoT 기반 프롬프트는 모델에 최소 1,000억 개의 매개변수가 있는 경우에만 유용하다는 사실이 밝혀졌습니다(생각의 사슬 프롬프트가 대형 언어 모델에서 추론 유도 논문).
즉, CoT 힌트는 소형 모델의 성능에 긍정적인 영향을 미치지 않으며 ~100B 매개변수의 모델과 함께 사용할 경우에만 성능 향상을 얻을 수 있습니다.
그런데 이 글에서는 10억개 미만의 매개변수를 사용하여 성능 개선을 연구합니다. 간단히 말해서, 본 논문에서는 시각적 특징을 포함하는 Multimodal-CoT를 제안하고, 이 패러다임(Multimodal-CoT)을 사용하여 여러 양식에서 CoT 추론을 찾습니다.
Multimodal-CoT는 시각적 기능을 단일 교육 프레임워크에 결합하여 잘못된 추론 패턴을 생성하는 경향이 있는 언어 모델의 영향을 줄입니다. 전반적으로 이 프레임워크는 추론 프로세스를 근거 생성(이유 찾기)과 답변 추론(답변 찾기)의 두 부분으로 나눕니다.
다중 모드 CoT 2단계 프로세스: 텍스트(질문 + 컨텍스트)와 시각적 기능을 사용하여 논리적 근거를 생성합니다.
Dataset
이 문서는 주로 이미지와 텍스트가 컨텍스트의 일부인 ScienceQA 데이터 세트에 중점을 두고 있습니다. 또한 데이터 세트에는 모델이 될 수 있도록 답변에 대한 설명도 포함되어 있습니다. CoT 근거를 생성하도록 미세 조정되었습니다. 또한 본 논문에서는 DETR 모델을 활용하여 시각적 특징을 생성합니다.
더 작은 LM은 CoT/기본 원리를 생성할 때 환각을 느끼기 쉽습니다. 저자는 모델이 LM에서 생성된 텍스트 기능과 이미지 모델에서 생성된 시각적 기능을 활용할 수 있는 수정된 아키텍처가 있다면 그렇게 될 것이라고 추측합니다. 더 많은 사례를 만들고 질문에 답할 수 있습니다.
아키텍처
전반적으로 텍스트 기능과 시각적 기능을 생성하고 이를 사용하여 텍스트 응답을 생성할 수 있는 모델이 필요합니다.
또한 텍스트와 시각적 특징 사이에 일종의 상호 작용이 있는 것으로 알려져 있는데, 이는 본질적으로 일종의 공동 주의 메커니즘으로, 두 양식에 존재하는 정보를 캡슐화하는 데 도움이 되어 참조 아이디어가 가능해집니다. . 이 모든 것을 달성하기 위해 저자는 인코더-디코더 아키텍처가 있는 T5 모델을 선택했으며 위에서 언급한 대로 DETR 모델은 시각적 기능을 생성하는 데 사용됩니다.
T5 모델의 인코더는 텍스트 특징 생성을 담당하지만 T5 모델의 디코더는 인코더가 생성한 텍스트 특징을 사용하지 않고 저자가 제안한 Co-Attention 스타일의 상호 작용 레이어를 사용합니다. 산출.
분해를 보면 H_언어가 T5 인코더의 출력이라고 가정하겠습니다. X_vision은 DETR의 출력입니다. 첫 번째 단계는 Attention 레이어를 사용할 수 있도록 시각적 특징과 텍스트 특징의 숨겨진 크기가 동일한지 확인하는 것입니다.
참고: 모든 코드 조각은 논문의 GitHub에서 가져온 것입니다: https://github.com/amazon-science/mm-cot/blob/main/model.py
self.image_dense = nn.Linear(self.patch_dim, config.d_model)
W_h는 본질적으로 선형 레이어입니다. H_vision은 최종 시각적 특징에 해당합니다. W_h는 시각적 특징의 크기를 텍스트 특징의 크기와 일치하도록 변경하는 데 도움이 됩니다.
다음으로 시각적 기능과 텍스트 기능이 서로 상호 작용할 수 있도록 주의 레이어를 추가해야 합니다. 이를 위해 저자는 H_언어를 쿼리 벡터로, H_vision을 키 및 값 벡터로 사용하는 단일 헤드 주의 레이어를 사용합니다.
self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, kdim=config.hidden_size, vdim=config.hidden_size, num_heads=1, batch_first=True) image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)
이제 텍스트와 시각적 기능 모두의 정보를 포함하는 임베딩이 생겼습니다. 그런 다음 작성자는 게이트 융합을 활용하여 디코더로 전송될 최종 기능 세트를 생성합니다. Gated Fusion에는 두 단계가 있습니다.
W_I와 W_v는 본질적으로 두 개의 선형 레이어입니다.
self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) self.sigmoid = nn.Sigmoid() hidden_states = encoder_outputs[0] merge = torch.cat([hidden_states, image_att], dim=-1) gate = self.sigmoid(self.gate_dense(merge)) hidden_states = (1 - gate) * hidden_states + gate * image_att
마지막으로 융합된 기능이 디코더로 전달됩니다.
decoder_outputs = self.decoder( input_ids=decoder_input_ids, attention_mask=decoder_attention_mask, inputs_embeds=decoder_inputs_embeds, past_key_values=past_key_values, encoder_hidden_states=hidden_states,
이것은 저자가 따르는 구조와 거의 같습니다! 그러나 두 단계가 있다는 것을 기억하십시오. 첫 번째 단계는 근거/CoT를 생성하는 것입니다. 두 번째 단계에서는 위 그림과 같이 첫 번째 단계에서 생성된 CoT를 활용하여 답을 생성한다.
저자는 UnifiedQA 모델의 가중치를 T5 모델의 초기화 지점으로 사용하고 ScienceQA 데이터세트에서 이를 미세 조정했습니다. 그들은 Multimodal CoT 방법이 GPT-3.5를 포함한 모든 이전 기준보다 성능이 뛰어남을 관찰했습니다.
흥미로운 점은 매개변수가 2억 2,300만 개에 불과한 기본 모델도 GPT-3.5 및 기타 Visual QA 모델보다 성능이 뛰어나다는 것입니다! 이는 다중 모드 아키텍처의 힘을 강조합니다.
저자는 또한 2단계 접근 방식이 1단계 접근 방식보다 성능이 우수하다는 것을 보여줍니다.
이 문서의 가장 큰 교훈은 멀티모달 기능이 시각적 기능과 텍스트 기능 모두의 문제를 해결하는 데 얼마나 강력한지입니다.
저자는 시각적 기능을 활용하면 작은 언어 모델(LM)이라도 훨씬 적은 환각으로 의미 있는 사고 사슬/추론을 생성할 수 있음을 보여주고 사고 사슬 기반 학습 기술을 개발하는 데 있어 시각적 모델의 역할을 밝힙니다. 놀다.
실험을 통해 우리는 수백만 개의 매개변수를 사용하여 시각적 기능을 추가하는 것이 일반 텍스트 모델을 수십억 개의 매개변수로 확장하는 것보다 더 큰 가치를 가져올 수 있음을 확인했습니다.
위 내용은 GPT 3.5를 뛰어넘는 차세대 소형 모델을 살펴보세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!