GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?-일체 포함-php.cn

GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

PHPz

풀어 주다： 2023-09-23 12:05:06

앞으로

1237명이 탐색했습니다.

요약 생성은 긴 텍스트를 짧은 요약으로 압축하는 것이 주요 목적인 자연어 생성(NLG)의 작업입니다. 뉴스 기사, 소스 코드, 교차 언어 텍스트 등 다양한 콘텐츠에 적용할 수 있습니다.

대형 모델(LLM)의 등장으로 특정 데이터 세트를 미세 조정하는 기존 방법은 더 이상 존재하지 않습니다. 더 오래 적용 가능합니다.

요약을 생성하는 데 LLM이 얼마나 효과적인지 묻지 않을 수 없습니다.

이 질문에 답하기 위해 북경대학교 연구진은 "요약은 (거의) 죽었다"라는 논문에서 자세한 논의를 진행했습니다. 그들은 인간이 생성한 평가 데이터세트를 사용하여 다양한 요약 작업(단일 뉴스, 다중 뉴스, 대화, 소스 코드 및 교차 언어 요약)에 대한 LLM의 성능을 평가했습니다. LLM 생성 요약과 인간이 작성한 요약을 정량적, 정성적으로 비교한 후입니다. Fine-tuned 모델로 생성된 요약과 Fine-tuned 모델로 생성된 요약을 비교한 결과 LLM으로 생성된 요약이 인간 평가자에게 상당히 선호되는 것으로 나타났습니다

ACL, EMNLP, NAACL에 게시된 100개의 기사를 비교한 결과 연구진은 지난 3년간 요약 방법과 관련된 논문을 샘플링하고 검토한 결과 약 70%의 논문이 요약 요약 방법을 제안하고 표준 데이터 세트에서 그 유효성을 검증하는 것이 주된 기여임을 확인했습니다. 따라서 연구에서는 "요약이 (거의) 죽었다"고 말합니다

그럼에도 불구하고 연구자들은 이 분야가 여전히 더 높은 품질의 참조 데이터 세트와 향상된 평가의 필요성 등 몇 가지 과제에 직면해 있다고 말했습니다. to besolved

논문 링크: https://arxiv.org/pdf/2309.09558.pdf GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

방법 및 결과

본 연구는 최신 데이터를 사용하여 데이터 세트를 구축했으며, 각 데이터는 세트는 50개의 샘플로 구성됩니다.

단일 뉴스, 다중 뉴스 및 대화 요약 작업을 수행할 때 시뮬레이션을 위해 CNN/DailyMail 및 Multi-News 데이터 세트 구성 방법과 유사한 방법을 사용했습니다. 언어 간 요약 작업을 위해 Zhu et al.이 제안한 것과 동일한 전략을 채택합니다. 코드 요약 작업은 Bahrami et al.이 제안한 방법입니다.

데이터 세트가 구성되면 다음 단계는 방법입니다. 특히 이 기사에서는 단일 뉴스 작업에 BART와 T5를 사용하고, 여러 뉴스 작업에 T5와 BART를, 교차 언어 작업에 MT5와 MBART를, 소스 코드 작업에 Codet5를 사용합니다.

이 실험에서 연구에서는 인간 평가자를 사용하여 다양한 초록의 전반적인 품질을 비교했습니다. 그림 1의 결과에 따르면 LLM이 생성한 요약은 모든 작업에서 인간이 생성한 요약과 미세 조정된 모델이 생성한 요약보다 성능이 뛰어납니다

이것은 LLM이 왜 인간이 생성한 요약보다 성능이 뛰어날 수 있는지에 대한 의문을 제기합니다. 전통적으로 완벽하다고 생각되었습니다. 또한, 예비 관찰에 따르면 LLM에서 생성된 요약은 매우 부드럽고 일관적입니다. GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

이 문서에서는 인간 및 LLM에서 생성된 요약 문장에서 환각 문제를 식별하기 위해 주석자를 추가로 모집하고 결과는 생성된 요약과 비교하여 표 1에 표시됩니다. by GPT-4 이에 비해 사람이 작성한 요약은 동일하거나 더 높은 수의 환각을 나타냅니다. 여러 뉴스 항목 및 코드 요약과 같은 특정 작업에서 사람이 작성한 요약은 사실적 일관성이 상당히 낮습니다.

표 2는 인간이 작성한 요약과 GPT-4가 생성한 요약에서 환각의 비율을 보여줍니다. GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

이 논문에서는 또한 인간이 작성한 참고 요약이 유창성이 부족한 문제가 있음을 발견했습니다. 그림 2(a)에 표시된 것처럼 사람이 작성한 참조 요약은 때때로 불완전한 정보로 인해 어려움을 겪습니다. 그리고 그림 2(b)에서는 사람이 작성한 일부 참조 요약에서 환각이 나타납니다. GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

이 연구에서는 또한 미세 조정된 모델에서 생성된 요약은 일반적으로 고정적이고 엄격한 길이를 갖는 반면, LLM은 입력 정보를 기반으로 출력 길이를 조정할 수 있음을 발견했습니다. 또한 입력에 여러 주제가 포함된 경우 미세 조정 모델에 의해 생성된 요약은 그림 3과 같이 주제에 대한 적용 범위가 낮은 반면 LLM은 요약을 생성할 때 모든 주제를 캡처할 수 있습니다

GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?