GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다.-일체 포함-php.cn

GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다.

王林

풀어 주다： 2023-11-21 08:38:56

앞으로

745명이 탐색했습니다.

GPT-4의 그래픽 추론 능력은 인간의 절반에도 못 미친다고요?

미국 산타페 연구소의 연구에 따르면 그래픽 추론 질문에 대한 GPT-4의 정확도는 33%에 불과합니다.

GPT-4v는 다중 모드 기능을 갖추고 있지만 성능이 상대적으로 낮고 질문의 25%만 올바르게 대답할 수 있습니다

GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다.

Δ점선은 16개 작업의 평균 성능을 나타냅니다

결과가 나오자마자 이 실험이 공개되자 곧바로 YC에서 폭넓은 논의가 일어났습니다

이 결과를 지지한 일부 네티즌들은 GPT가 추상적인 그래픽을 처리하는 데 제대로 수행되지 않으며 "위치"와 "회전"과 같은 개념을 이해하기가 더 어렵다고 말했습니다

GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다.

그러나 일부 네티즌들은 이러한 결론에 대해 의구심을 표명했습니다. 그들의 견해는 다음과 같이 간단하게 요약될 수 있습니다.

이 견해가 틀렸다고 말할 수는 없지만 완전히 설득력이 있는 것은 아닙니다. 이유는 계속 읽어보세요.

GPT-4의 정확도는 33%에 불과합니다.

GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다. 이러한 그래픽 문제에 대한 인간과 GPT-4의 성능을 평가하기 위해 연구원들은 올해 5월에 출시된 ConceptARC 데이터 세트를 사용했습니다

ConceptARC에는 총 하위 카테고리 16개

그래픽 추론 문제

, 카테고리당 30문항, 총 480문항.

이 16개의 하위 범주에는 위치 관계, 모양, 연산, 비교 등이 포함됩니다.

구체적으로 이러한 질문은 픽셀 블록으로 구성됩니다. 인간과 GPT는 주어진 예를 기반으로 패턴을 찾고 동일한 방식으로 처리된 이미지의 결과를 분석해야 합니다

GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다. 저자는 논문에서 이러한 16개 하위 범주의 예를 각 범주별로 하나씩 구체적으로 보여줍니다.

GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다. 그 결과, 451명의 인간 피험자의 평균 정확도는 각 하위 항목에서 83% 이상, 16개 작업의 평균은 91%에 달하는 것으로 나타났습니다.
3번 문제를 풀 수 있는 경우(한 번 맞췄을 경우) GPT-4(단일 샘플)의 최고 정확도는 60%를 넘지 않으며 평균은 33%에 불과합니다
GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다.

모닝 얼마 전 이 실험에 참여한 ConceptARC Benchmark 작성자도 비슷한 실험을 했는데, GPT-4에서

zero-sample test

GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다. 를 진행한 결과 16개 작업의 평균 정확도가 나왔습니다. 19%에 불과하다.

GPT-4v는 다중 모드 모델이지만 정확도가 낮습니다. 48개 문항으로 구성된 소규모 ConceptARC 데이터 세트에서 영표본 검정과 단일 표본 검정의 정확도는 각각 25%, 23%에 불과했습니다. 일부 사람의 실수는 "부주의"로 인해 발생할 가능성이 높은 반면 GPT는 질문의 규칙을 완전히 이해하지 못했습니다

. GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다.