"읽기"만 가능한 대규모 언어 모델이 실제 시각적 인식을 갖습니까? 문자열 간의 관계를 모델링함으로써 언어 모델은 시각적 세계에 대해 정확히 무엇을 배울 수 있습니까?
최근 MIT CSAIL(컴퓨터 과학 및 인공 지능 연구소)의 연구원들은 시각적 기능에 중점을 두고 언어 모델을 평가했습니다. 그들은 단순한 모양과 물체부터 복잡한 장면에 이르기까지 점점 더 복잡해지는 시각적 개념을 생성하고 인식하도록 요청하여 모델의 능력을 테스트했습니다. 연구원들은 또한 텍스트 전용 모델을 사용하여 예비 시각적 표현 학습 시스템을 훈련하는 방법을 보여주었습니다. 이 연구를 통해 그들은 시각적 표현 학습 시스템의 추가 개발 및 개선을 위한 기반을 마련했습니다.
논문 링크: https://arxiv.org/abs/2401.01862
언어 모델은 시각적 정보를 처리할 수 없기 때문에 연구에서는 코드를 사용하여 이미지를 렌더링합니다.
LLM에서 생성된 이미지는 자연 이미지만큼 현실적이지 않을 수 있지만 생성 결과와 모델의 자체 수정을 통해 문자열/텍스트를 정확하게 모델링할 수 있으므로 언어 모델이 학습할 수 있습니다. 다양한 개념의 시각적 세계.
연구원들은 텍스트 모델에서 생성된 이미지를 사용하여 자기 지도형 시각적 표현 학습 방법도 연구했습니다. 결과는 이 방법이 비전 모델을 훈련하고 LLM만을 사용하여 자연 이미지의 의미론적 평가를 수행하는 데 사용될 가능성이 있음을 보여줍니다.
먼저 질문하세요. 사람들이 "개구리"의 시각적 개념을 이해한다는 것은 무엇을 의미합니까?
피부색, 다리 개수, 눈 위치, 점프할 때의 모습 등 세부 사항만 알면 충분할까요?
사람들은 종종 개구리의 개념을 이해하려면 개구리의 이미지를 보고 다양한 각도와 실제 시나리오에서 관찰해야 한다고 생각합니다.
텍스트만 관찰하면 다양한 개념의 시각적 의미를 어디까지 이해할 수 있나요?
모델 학습 관점에서 보면 LLM(대형 언어 모델)의 학습 입력은 텍스트 데이터일 뿐이지만, 모델이 모양, 색상 등 개념에 대한 정보를 이해하고 비전으로 변환할 수도 있음이 입증되었습니다. 모델 표현의 선형 변환을 통해.
즉, 시각적 모델과 언어 모델은 세계 표현 측면에서 매우 유사합니다.
그러나 모델 특성화를 위한 대부분의 기존 방법은 모델이 인코딩하는 정보를 탐색하기 위해 미리 선택된 속성 세트를 기반으로 합니다. 이 방법은 속성을 동적으로 확장할 수 없으며 모델의 내부 매개변수에 대한 액세스도 필요합니다. .
그래서 연구자들은 두 가지 질문을 제기했습니다.
1. 언어 모델은 시각적 세계에 대해 얼마나 알고 있습니까?
2. "텍스트 모델만 사용하여" 자연스러운 이미지에 사용할 수 있는 시각적 시스템을 훈련할 수 있나요?
연구자들은 렌더링(그리기)에서 다양한 언어 모델을 테스트하고 실제 시각적 개념을 인식(참조)하여 모델에 어떤 정보가 포함되어 있는지 평가함으로써 측정을 수행했습니다. 각 속성에 대해 개별적으로 기능 분류기를 훈련합니다.
언어 모델은 이미지를 생성할 수 없지만 GPT-4와 같은 대형 모델은 객체 렌더링을 위한 코드를 생성할 수 있습니다. 이 기사에서는 텍스트 프롬프트 -> 코드 -> 이미지 프로세스를 사용하여 측정할 객체 렌더링의 난이도를 점차 높입니다. 모델 능력.
연구원들은 LLM이 여러 객체로 구성된 복잡한 시각적 장면을 생성하는 데 놀라울 정도로 뛰어나고 공간 관계를 효율적으로 모델링할 수 있지만 질감, 정확한 모양 및 색상과 같은 객체의 속성을 포함하여 시각적 세계를 잘 포착할 수 없다는 사실을 발견했습니다. 이미지의 다른 물체와의 표면 접촉.
또한 기사에서는 지각 개념을 식별하는 LLM의 능력을 평가하고 코드로 표현된 그림을 입력하며 코드에는 모양의 순서, 위치 및 색상이 포함된 다음 언어 모델에 설명된 시각적 내용에 답하도록 요청합니다. 코드.
실험 결과 LLM은 인간과 정반대라는 사실이 밝혀졌습니다. 인간의 경우 코드 작성 과정은 어렵지만 모델은 어려운 반면 이미지의 내용을 확인하는 것은 쉽습니다. 코드의 내용을 해석/인식하지만 복잡한 장면을 생성할 수 있습니다.
또한 연구 결과는 텍스트 기반 교정을 통해 언어 모델의 시각적 생성 능력이 더욱 향상될 수 있음을 입증했습니다.
연구원들은 먼저 언어 모델을 사용하여 개념을 설명하는 코드를 생성한 다음 코드를 수정하는 조건으로 "생성된 코드 개선"이라는 프롬프트를 지속적으로 입력하여 최종 모델을 생성할 수 있습니다. 이러한 반복적인 접근 방식을 통해 시각적 효과가 향상되었습니다.
연구원들은 낮은 수준에서 높은 수준의 복잡성으로 이미지 렌더링 코드를 생성, 인식 및 수정하는 모델의 능력을 측정하기 위해 세 가지 텍스트 설명 데이터 세트를 구축했습니다. , 사물 및 복잡한 장면.
1. 모양과 그 구성
에는 점, 선, 2D 모양 및 3D 모양과 같은 다양한 범주의 모양 구성이 포함되어 있으며 색상, 질감, 위치, 공간 배치.
전체 데이터 세트에는 400,000개 이상의 예가 포함되어 있으며 그 중 1500개의 샘플이 실험 테스트에 사용됩니다.
2. 객체
ADE 20K 데이터세트에서 가장 일반적인 객체 1000개가 포함되어 있으며, 더 복잡한 모양 조합이 포함되어 있기 때문에 생성 및 인식이 더 어렵습니다.
3. 장면
은 여러 개체와 다양한 위치를 포함하는 복잡한 장면 설명으로 구성되며 MS-COCO 데이터 세트에서 1000개의 장면 설명을 무작위로 균일하게 샘플링하여 얻습니다.
데이터 세트의 시각적 개념은 언어로 설명됩니다. 예를 들어 장면 설명은 "푸른 하늘과 잔잔한 바다가 있는 해변의 화창한 여름날"입니다.
테스트 과정에서 LLM은 묘사된 장면을 기반으로 코드를 생성하고 렌더링된 이미지를 컴파일하라는 요청을 받았습니다.
모델 평가 작업은 크게 세 가지로 구성됩니다.
1. 텍스트 생성/그리기: 특정 개념에 해당하는 이미지 렌더링 코드를 생성하는 LLM의 능력을 평가합니다.
2. 텍스트 인식/보기: 코드로 표현된 시각적 개념과 장면을 인식하는 LLM의 성능을 테스트합니다. 우리는 각 모델에서 사람 그림의 코드 표현을 테스트합니다.
3. 텍스트 피드백을 사용하여 그림 수정: 생성된 자연어 피드백을 사용하여 생성된 코드를 반복적으로 수정하는 LLM의 능력을 평가합니다.
테스트에서 모델 입력에 대한 프롬프트는 다음과 같습니다. [개념]을 그리는 프로그래밍 언어 [프로그래밍 언어 이름]으로 코드를 작성합니다. 그런 다음 모델의 출력 코드에 따라 컴파일하고 렌더링하고 시각적으로 이미지 생성 품질과 다양성이 평가됩니다.
1. 충실도
이미지에 대한 최상의 설명을 검색하여 생성된 이미지와 실제 설명 간의 충실도를 계산합니다. CLIP 점수는 먼저 각 이미지와 동일한 카테고리(모양/물체/장면)의 모든 잠재적 설명 간의 일치도를 계산하는 데 사용되며, 실제 설명의 순위는 백분율로 보고됩니다(예: 100% 점수는 진짜 컨셉이 1순위라는 것) .
2. 다양성
모델의 다양한 콘텐츠 렌더링 능력을 평가하기 위해 동일한 시각적 개념을 나타내는 이미지 쌍에 LPIPS 다양성 점수가 사용됩니다.
3. 사실주의
ImageNet에서 샘플링한 1K 이미지 컬렉션의 경우 FID(Fréchet Inception Distance)를 사용하여 자연 이미지와 LLM 생성 이미지 간의 분포 차이를 수량화합니다.
비교 실험에서는 Stable Diffusion으로 얻은 모델을 기준으로 사용했습니다.
LLM은 무엇을 시각화할 수 있나요?
연구 결과에 따르면 LLM은 전체 시각적 계층 구조에서 실제 개념을 시각화하고, 관련 없는 두 가지 개념(예: 자동차 모양 케이크)을 결합하고, 시각적 현상(예: 흐릿한 이미지)을 생성하고, 공간을 올바르게 해석할 수 있는 것으로 나타났습니다. 관계(예: 가로로 배열된 "자전거 열") ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
역시 CLIP 점수 결과를 보면, 모양에서 장면으로 개념적 복잡성이 증가함에 따라 모델의 기능은 감소합니다.
여러 개체가 포함된 장면 그리기와 같은 더 복잡한 시각적 개념의 경우 처리 및 tikz를 사용하여 더 정확한 복잡한 설명이 있는 장면을 그릴 때 GPT-3.5 및 GPT-4가 python-matplotlib 및 python-turtle보다 낫습니다. .
물체와 장면의 경우 "사람", "차량", "야외 장면"을 포함한 개념이 가장 그리기 쉽다는 것을 CLIP 점수는 보여줍니다. 복잡한 장면을 렌더링하는 이러한 능력은 렌더링 코드의 표현력에서 비롯됩니다. 모델은 시나리오 내의 각 프로그래밍 기능과 관련된 다양한 개념의 내부 표현의 품질에 있습니다.
LLM이 시각화할 수 없는 것은 무엇입니까?
어떤 경우에는 비교적 단순한 개념으로도 모델을 그리기가 어려운데, 연구자들은 세 가지 일반적인 실패 모드를 요약했습니다.
1. 언어 모델은 일련의 모양과 특정 개념을 처리할 수 없습니다. 2. 특히 matplotlib 및 거북이 코딩을 사용할 때 Davinci에서 가장 흔히 볼 수 있는 거친 그림 및 세부 사항 부족 3. 개념(일반적인 시나리오 범주). 4. 모든 모델은 그림을 그릴 수 없습니다. 다양성과 현실성언어 모델은 동일한 개념에 대해 다양한 시각화를 생성하는 능력을 보여줍니다. 동일한 장면의 다양한 샘플을 생성하기 위해 이 기사에서는 두 가지 전략을 비교합니다. 1. 모델에서 반복 샘플링 2 매개변수를 변경하여 생성할 수 있는 샘플링. 개념의 새로운 플롯. 시각적 개념의 다양한 구현을 표현하는 모델의 능력은 높은 LPIPS 다양성 점수에 반영됩니다. 다양한 이미지를 생성하는 능력은 LLM이 특정 방식에 국한되지 않고 다양한 방식으로 시각적 개념을 표현할 수 있음을 보여줍니다. 한정 세트 프로토타입. LLM에서 생성된 이미지는 자연 이미지보다 훨씬 덜 사실적이며 Stable Diffusion에 비해 FID 측정 기준에서 모델 점수가 매우 낮지만 최신 모델은 이전 모델보다 성능이 더 좋습니다. 텍스트에서 시각적 시스템 학습훈련 및 평가연구원들은 비지도 학습으로 얻은 사전 훈련된 시각적 모델을 네트워크의 백본으로 사용했으며, MoCo-v2 방법을 사용하여 130만 개를 생성했습니다. LLM의 384× ResNet-50 모델은 총 200개의 에포크 동안 384개 이미지 데이터세트에서 교육되었습니다. 교육 후에는 각 데이터세트에 대해 교육된 모델의 성능을 평가하는 데 두 가지 방법이 사용됩니다. 1. ImageNet-1 k 분류 100 epoch 동안 백본의 선형 레이어를 훈련합니다.2 ImageNet-100에서 5-최근접 이웃(kNN) 검색을 사용합니다.
결과에서 볼 수 있듯이 LLM에서 생성된 데이터만을 사용하여 학습한 모델은 선형 레이어를 학습할 필요 없이 자연 이미지에 대한 강력한 표현 기능을 제공할 수 있습니다.
결과 분석
연구원들은 LLM에서 생성된 이미지를 데드 레바브, 프랙탈, StyleGAN과 같은 간단한 생성 프로그램을 포함한 기존 프로그램에서 생성된 이미지와 비교하여 매우 다양한 이미지를 생성했습니다. 결과에서 LLM 방법은 데드 레바브 및 프랙탈보다 우수하지만 데이터를 수동으로 검사한 후 연구원들은 이러한 열등함을 확인했습니다. 대부분의 LLM 생성 이미지에는 질감이 부족합니다. . 이 문제를 해결하기 위해 연구원들은 Shaders-21k 데이터 세트를 LLM에서 얻은 샘플과 결합하여 질감이 풍부한 이미지를 생성했습니다. 결과에서 볼 수 있듯이 이 솔루션은 성능을 크게 향상시키고 다른 프로그램 생성 솔루션보다 성능이 뛰어납니다.
위 내용은 순수 텍스트 모델은 '시각적' 표현을 학습합니다! MIT의 최신 연구: 언어 모델은 코드를 사용하여 그림을 그릴 수 있습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!