ChatGPT가 데이터 주석 산업을 죽일 것인가? 인간보다 20배 저렴하고 정확하다-일체 포함-php.cn

의외로 AI가 진화한 후 가장 먼저 제거되는 사람들은 AI 훈련을 돕는 사람들입니다.

많은 NLP 애플리케이션에서는 특히 분류자를 교육하거나 감독되지 않은 모델의 성능을 평가하는 등 다양한 작업을 위해 대량의 데이터에 수동으로 주석을 추가해야 합니다. 규모와 복잡성에 따라 이러한 작업은 MTurk와 같은 플랫폼의 크라우드소싱 작업자와 연구 보조원과 같은 훈련된 주석자가 수행할 수 있습니다.

우리는 LLM(대형 언어 모델)이 특정 규모에 도달한 후 "출현"할 수 있다는 것을 알고 있습니다. 즉, 이전에는 예측할 수 없었던 새로운 기능을 획득할 수 있습니다. AI의 새로운 확산을 촉진하는 대규모 모델인 ChatGPT의 기능은 데이터 세트 라벨링 및 교육을 포함하여 많은 작업에서 사람들의 기대를 뛰어넘었습니다.

최근 취리히 대학의 연구원들은 ChatGPT가 관련성, 자세, 주제 및 프레임 감지를 포함한 다양한 주석 작업에서 크라우드소싱 작업 플랫폼과 인간 작업 보조자보다 뛰어난 성능을 발휘한다는 사실을 입증했습니다.

또한 연구원들은 계산을 수행했습니다. ChatGPT 비용은 주석당 $0.003 미만으로 MTurk보다 약 20배 저렴합니다. 이러한 결과는 텍스트 분류의 효율성을 크게 향상시킬 수 있는 대규모 언어 모델의 잠재력을 보여줍니다.

ChatGPT가 데이터 주석 산업을 죽일 것인가? 인간보다 20배 저렴하고 정확하다

문서 링크:https://arxiv.org/abs/2303.15056

세부 정보 검색

많은 NLP 애플리케이션에는 특히 분류 프로세서 훈련이나 평가를 위해 주석이 달린 고품질 데이터가 필요합니다. 비지도 모델의 성능. 예를 들어, 연구자들은 때때로 관련성을 위해 시끄러운 소셜 미디어 데이터를 필터링하고, 텍스트를 다른 주제나 개념 범주에 할당하거나, 감정적 입장을 측정해야 합니다. 이러한 작업에 사용되는 특정 방법(지도, 준지도 또는 비지도 학습)에 관계없이 훈련 세트를 구축하거나 성능을 평가하기 위한 최적의 표준으로 사용하려면 정확하게 레이블이 지정된 데이터가 필요합니다.

사람들이 이를 처리하는 일반적인 방법은 연구 보조원을 모집하거나 MTurk와 같은 크라우드소싱 플랫폼을 사용하는 것입니다. OpenAI는 ChatGPT를 구축할 때 부정적인 내용의 문제도 케냐의 데이터 주석 기관에 하청 계약하고 정식 출시되기 전에 많은 주석 훈련을 실시했습니다.

스위스 취리히 대학교에서 제출한 이 보고서는 2022년 11월에 출시된 ChatGPT를 중심으로 텍스트 주석 작업에서 LLM(대형 언어 모델)의 잠재력을 탐구합니다. 이는 제로샷(즉, 추가 교육 없이) ChatGPT가 수동 노동 비용의 10분의 1에 불과한 비용으로 분류 작업에 대한 MTurk 주석보다 뛰어난 성능을 발휘한다는 것을 증명합니다.

연구원들은 이전 연구에서 수집된 2,382개의 트윗 샘플을 사용했습니다. 트윗에는 관련성, 입장, 주제, 2프레임 감지라는 5가지 작업에 대해 훈련된 주석 작성자(연구 보조자)가 라벨을 지정했습니다. 실험에서 연구원들은 제로샷 분류로 ChatGPT에 작업을 제출하고 동시에 MTurk의 크라우드 소싱 작업자에게 작업을 제출한 다음 두 가지 벤치마크를 기반으로 ChatGPT의 성능을 평가했습니다. 연구 보조 주석자와 관련된 정확도.

작업 5개 중 4개에서 ChatGPT의 제로 샘플 정확도가 MTurk보다 높은 것으로 나타났습니다. 모든 작업에 대해 ChatGPT의 인코더 계약은 MTurk 및 훈련된 주석자의 계약보다 뛰어납니다. 또한 비용 측면에서 ChatGPT는 MTurk보다 훨씬 저렴합니다. 5가지 분류 작업 비용은 ChatGPT(주석 25264개)에서 약 $68, MTurk(주석 12632개)에서 약 $657입니다.

따라서 ChatGPT의 주석당 비용은 약 $0.003, 즉 1/3센트입니다. MTurk보다 약 20배 저렴하고 품질도 더 좋습니다. 이를 고려하면 이제 더 많은 샘플에 주석을 달거나 지도 학습을 위한 대규모 훈련 세트를 생성하는 것이 가능합니다. 기존 테스트에 따르면 100,000개의 주석 비용은 약 $300입니다.

ChatGPT 및 기타 LLM이 더 넓은 맥락에서 어떻게 작동하는지 더 잘 이해하려면 추가 연구가 필요하지만, 이러한 결과는 연구원들이 데이터에 주석을 추가하고 MTurk를 방해하는 방식을 바꿀 수 있는 잠재력이 있음을 시사한다고 연구원들은 말합니다. 다른 플랫폼의 일부 비즈니스 모델 .

실험 절차

연구원들은 콘텐츠 조정 관련 작업에 대한 이전 연구에서 수동으로 주석을 추가한 2382개의 트윗 데이터세트를 사용했습니다. 특히, 숙련된 주석자(연구 보조자)는 다양한 범주 수를 가진 5가지 개념 범주에 대한 최적의 표준을 구축했습니다. 230조에 관한 콘텐츠 조정 질문에 대한 트윗의 관련성(1996년 미국 통신 품위법의 일부로서의 지위) , 미국 인터넷 법률의 핵심 부분, 주제 식별(6개 범주), 그룹 1 프레임워크(문제, 솔루션 또는 중립으로서의 콘텐츠 조정) 및 섹션 1 두 가지 프레임워크 세트(14개 범주)

그런 다음 연구원들은 ChatGPT와 MTurk에서 모집된 크라우드소싱 근로자를 사용하여 정확히 동일한 분류를 수행했습니다. ChatGPT에 대해 4세트의 주석이 작성되었습니다. 출력의 무작위성 정도를 제어하는 ChatGPT 온도 매개변수의 영향을 탐색하기 위해 여기에는 덜 무작위성을 의미하는 기본값인 1과 0.2가 주석으로 표시되어 있습니다. 각 온도 값에 대해 연구원들은 ChatGPT의 인코더 일치를 계산하기 위해 두 세트의 주석을 수행했습니다.

전문가의 경우, 이 연구에서는 두 명의 정치학 대학원생이 다섯 가지 작업 모두에 대해 트윗에 주석을 달고 있는 것을 발견했습니다. 각 작업에 대해 코더에게는 동일한 지침 세트가 제공되었으며 작업별로 트윗에 독립적으로 주석을 달도록 요청 받았습니다. ChatGPT와 MTurk의 정확성을 계산하기 위해 비교에서는 두 훈련된 주석자가 모두 동의한 트윗만 고려했습니다.

MTurk의 경우 연구 목표는 특히 Amazon에서 "MTurk Masters"로 분류되고 90% 이상의 긍정적인 평가를 받았으며 미국에 거주하는 근로자를 선별하여 최고의 근로자 그룹을 선택하는 것입니다. .

이 연구에서는 ChatGPT API의 "gpt-3.5-turbo" 버전을 사용하여 트윗을 분류합니다. 주석은 2023년 3월 9일부터 3월 20일 사이에 진행되었습니다. 각 주석 작업에 대해 연구원들은 ChatGPT와 MTurk 크라우드 작업자 간의 비교 가능성을 보장하기 위해 의도적으로 "단계별로 생각해 봅시다"와 같은 ChatGPT 관련 프롬프트를 추가하지 않았습니다.

여러 변형을 테스트한 후 사람들은 다음과 같은 프롬프트를 사용하여 ChatGPT에 트윗을 하나씩 피드하기로 결정했습니다. "이것은 내가 선택한 트윗입니다. [작업별 지침(예: 설명)] 또한, 이 연구에서는 각 트윗에 대해 4개의 ChatGPT 응답이 수집되었으며, ChatGPT 결과가 주석 기록의 영향을 받지 않도록 각 트윗마다 새로운 채팅 세션도 생성되었습니다.

그림 1. MTurk의 높은 점수를 받은 주석 작성자와 비교한 ChatGPT 제로 샷 텍스트 주석 기능 ChatGPT의 정확도는 5개 작업 중 4개에서 MTurk보다 우수합니다. ChatGPT가 데이터 주석 산업을 죽일 것인가? 인간보다 20배 저렴하고 정확하다

ChatGPT가 장점을 갖는 4가지 작업 중 위 그림에서 한 가지 경우(관련성) ChatGPT는 약간의 이점이 있지만 다른 세 가지 경우(프레임 I, 프레임 II 및 Stance)에서는 성능이 MTurk와 매우 유사하며 ChatGPT는 MTurk보다 2.2~3.4배 더 나은 성능을 발휘합니다. 또한 작업의 난이도, 클래스 수 및 주석이 0샘플이라는 사실을 고려할 때 ChatGPT의 정확도는 일반적으로 두 가지 범주(관련/비관련)가 있는 상관 관계에 적합합니다. 정확도는 72.8%인 반면, 세 가지 범주(긍정적/부정적/중립)가 있는 경우 작업의 본질적인 난이도도 영향을 주지만 범주 수가 증가함에 따라 정확도는 78.7%입니다. 프로토콜에 따르면, 그림 1은 온도 매개변수가 0.2로 설정된 경우 모든 작업에 대한 성능이 95%를 초과하는 등 매우 높은 성능을 보여줍니다. 이 값은 훈련된 주석자를 포함하여 코더 간 일치 관계가 더 높습니다. 그리고 정확도는 기본 온도 값인 1을 사용하는 경우에도 양수입니다(더 많은 무작위성을 의미함). 그러나 이는 약합니다(Pearson의 상관 계수: 0.17). 상관 관계는 단 5개의 데이터 포인트를 기반으로 하지만 온도 값이 더 낮음을 나타냅니다. 정확도를 크게 줄이지 않고도 결과의 일관성을 향상시키는 것처럼 보이기 때문에 주석 작업에 더 적합할 수 있습니다. ChatGPT 테스트는 복잡한 주제이며 광범위한 리소스가 필요하다는 점을 강조해야 합니다. 연구자들은 특정 연구 목적을 위해 개념적 범주를 개발했습니다. 일부 작업에는 많은 범주가 포함되지만 ChatGPT는 여전히 높은 정확도를 달성합니다

모델을 사용하여 데이터에 주석을 다는 것은 새로운 것이 아닙니다. 대규모 데이터 세트를 사용하는 컴퓨터 과학 연구에서 사람들은 소수의 샘플에 라벨을 붙인 다음 기계 학습을 통해 증폭시키는 경우가 많습니다. 그러나 인간을 능가한 후에는 향후 ChatGPT의 판단을 더 신뢰할 수 있을 수도 있습니다.

위 내용은 ChatGPT가 데이터 주석 산업을 죽일 것인가? 인간보다 20배 저렴하고 정확하다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!