Google은 최초의 '방언' 데이터 세트를 오픈소스로 제공하여 기계 번역을 더욱 확실하게 만듭니다.-일체 포함-php.cn

중국 전역의 사람들이 중국어를 사용하지만, 지역마다 구체적인 방언이 조금씩 다릅니다. 예를 들어 '후퉁'이라고 하면 옛 베이징이라는 것을 알 수 있지만 남쪽에서는 '골목'이라고 합니다. "농" .

이러한 미묘한 지역적 차이는 "기계번역" 작업에 반영되어 번역 결과가 불충분하게 "진정성"으로 나타나게 됩니다. 그러나 현재 거의 모든 기계번역 시스템은 지역 언어의 영향을 고려하지 않습니다. 즉, 방언) .

이런 현상은 전 세계적으로도 존재합니다. 예를 들어 브라질의 공용어는 포르투갈어이고, 유럽의 포르투갈어와는 지역적으로 차이가 있습니다.

최근 Google은 방언 번역 문제를 주로 해결하는 소수 지역 인식 기계 번역에 사용할 수 있는 새로운 데이터 세트 및 평가 벤치마크 FRMT를 출시했습니다. 전산언어학협회) .

Google은 최초의 방언 데이터 세트를 오픈소스로 제공하여 기계 번역을 더욱 확실하게 만듭니다.

논문 링크: https://arxiv.org/pdf/2210.00193.pdf

오픈 소스 링크: https://github.com/google-research/google-research/tree/master/frmt

이 데이터 세트에는 영어에서 포르투갈어 및 중국어의 두 지역 변종에 대한 전문적인 번역이 포함되어 있으며, 소스 문서는 어휘적으로 구별되는 용어 및 간섭 용어를 포함하여 관심 현상에 대한 자세한 분석이 가능하도록 설계되었습니다.

연구원들은 FRMT의 자동 평가 지표를 탐색하고 지역 일치 및 불일치 채점 시나리오에서 전문가 수동 평가와의 상관 관계를 확인했습니다.

마지막으로 이 작업을 위한 몇 가지 기본 모델이 제안되었으며, 연구자들에게 자체 모델을 훈련, 평가 및 비교하는 방법에 대한 지침 제안이 제공되었습니다. 데이터세트와 평가 코드는 오픈 소스로 제공됩니다.

Few-Shot Generalization

대부분의 최신 기계 번역 시스템은 영어 입력 문장과 해당 포르투갈어 번역으로 구성된 입력 데이터를 사용하여 수백만 또는 수십억 개의 번역 예를 학습합니다.

그러나 사용 가능한 대부분의 교육 데이터는 번역의 지역적 차이를 설명하지 않습니다.

이러한 데이터 부족을 고려하여 연구원들은 FRMT를 소수 번역의 벤치마크로 지정하여 언어 능력별로 레이블이 지정된 예가 100개 이하로 주어졌을 때 기계 번역 모델이 특정 지역 언어 변형을 얼마나 잘 식별하는지 측정했습니다.

기계 번역 모델은 소수의 레이블이 지정된 샘플(예: 예)에 표시되는 언어 패턴을 기반으로 레이블이 지정되지 않은 다른 훈련 샘플에서 유사한 패턴을 식별해야 합니다. 모델에 명시적으로 지정되지 않은 영역에 대해 "관용적" 번역을 생성하려면 모델을 이러한 방식으로 일반화해야 합니다.

Google은 최초의 방언 데이터 세트를 오픈소스로 제공하여 기계 번역을 더욱 확실하게 만듭니다.

예를 들어 다음 문장을 입력하세요. 버스가 도착했고 브라질 포르투갈어로 몇 가지 예가 제공되면 모델은 "O ônibus chegou"를 번역할 수 있어야 합니다. 제공된 예가 유럽 포르투갈어인 경우 모델의 번역입니다. 결과는 "O autocarro chegou"가 되어야 합니다.

퓨샷 기계 번역 방법은 연구 가치가 매우 높으며 매우 간단한 방법으로 기존 시스템에 지역 언어에 대한 지원을 추가할 수 있습니다.

현재 Google에서 게시한 작업은 두 언어의 지역적 변형에 대한 것이지만 연구원들은 좋은 접근 방식이 다른 언어 및 지역적 변형에 쉽게 적용될 것이라고 예측합니다.

원칙적으로 이러한 방법은 에티켓, 스타일 등 다른 언어 차이 현상에도 적용 가능합니다.

데이터 수집

FRMT 데이터세트에는 Wiki40b 데이터세트에서 파생된 일부 영어 Wikipedia 기사가 포함되어 있으며, 이는 유료 전문 번역가에 의해 다양한 지역의 포르투갈어와 중국어로 번역되었습니다.

Google은 최초의 방언 데이터 세트를 오픈소스로 제공하여 기계 번역을 더욱 확실하게 만듭니다.

주요 영역 인식 번역의 어려움을 강조하기 위해 연구원들은 세 가지 콘텐츠 버킷을 사용하여 데이터 세트를 설계했습니다.

1 어휘

예를 들어, "bus"라는 단어가 포함된 문장을 각각 브라질 포르투갈어와 유럽 포르투갈어로 번역할 때 모델은 "ônibus"와 "autocarro" 간의 차이를 식별할 수 있어야 합니다.

연구원들은 블로그와 교육 웹사이트를 기반으로 20~30개의 지역별 번역 용어를 수동으로 수집하고, 각 지역의 원어민 자원봉사자들의 피드백을 바탕으로 번역을 필터링하고 검토했습니다.

구입된 영어 용어 목록을 바탕으로 관련 영어 위키피디아 기사(예: 버스)에서 100개의 문장을 추출하세요. 중국어의 경우 위와 동일한 수집 프로세스를 반복합니다.

Google은 최초의 방언 데이터 세트를 오픈소스로 제공하여 기계 번역을 더욱 확실하게 만듭니다.

2. 엔터티 엔터티

엔터티 버킷은 특정 언어가 다루는 두 영역 중 하나와 밀접하게 관련된 사람, 위치 또는 기타 엔터티를 포함하여 유사한 방식으로 채워집니다.

예를 들어 "In Lisbon, 나는 종종 버스를 탔습니다."(In Lisbon, 나는 종종 버스를 탔습니다.)와 같은 설명 문장이 주어지면 이를 브라질 포르투갈어로 올바르게 번역하려면 패턴이 다음과 같아야 합니다. 두 가지 잠재적인 함정을 식별할 수 있음:

1) 리스본과 포르투갈 간의 긴밀한 지리적 연결은 모델 번역의 선택에 영향을 미칠 수 있으며, 모델이 브라질 포르투갈어가 아닌 유럽 포르투갈어로 번역해야 한다고 판단하는 데 도움이 될 수 있습니다. 즉, " "오니부스(ônibus)" 대신 "오토카로(autocarro)"를 사용하세요.

2) "Lisbon"을 "Brasilia"로 바꾸는 것은 비교적 간단한 방법일 수 있습니다. 동일한 모델의 경우 출력을 브라질 포르투갈어로 현지화하면 번역 결과가 여전히 원활하더라도 의미가 부정확해질 수 있습니다.

3. Random Random

임의 버킷은 Wikipedia의 추천 및 우수 컬렉션에서 무작위로 선택된 100개의 기사를 포함하여 모델이 다른 현상을 올바르게 처리하는지 확인하는 데 사용됩니다.

Google은 최초의 방언 데이터 세트를 오픈소스로 제공하여 기계 번역을 더욱 확실하게 만듭니다.

시스템 성능

FRMT 데이터 세트에 대해 수집된 번역이 지역별 현상을 포착할 수 있는지 확인하기 위해 연구원들은 데이터 품질에 대한 수동 평가를 수행했습니다.

각 지역의 전문 주석가는 MQM(다차원 품질 측정) 프레임워크를 사용하여 번역 오류를 식별하고 분류합니다. 프레임워크에는 식별된 오류를 단일 점수로 변환하는 분류 가중치 체계가 포함되어 있으며, 주요 오류 수를 대략적으로 나타냅니다. 문장당, 즉 숫자가 작을수록 번역이 더 좋습니다.

각 지역에 대해 연구원들은 MQM 평가자에게 해당 지역의 번역과 해당 언어의 다른 지역의 번역을 평가해 달라고 요청했습니다.

예를 들어, 브라질의 포르투갈어 평가자는 브라질 및 유럽 포르투갈어 번역을 동시에 평가했습니다. 두 점수의 차이는 언어 현상의 일반성, 즉 언어 변형이 허용되는지 여부와 다른 언어가 아닌지를 나타냅니다.

실험 결과에 따르면 포르투갈어와 중국어에서는 평가자가 일치하는 번역보다 문장당 평균 약 2개의 주요 오류를 더 많이 발견한 것으로 나타났습니다. 이는 FRMT 데이터세트가 실제로 지역별 언어 현상을 포착할 수 있음을 나타냅니다.

수동 평가는 모델 품질을 보장하는 가장 좋은 방법이지만 느리고 비용이 많이 드는 경우가 많습니다.

따라서 연구원들은 벤치마크에서 모델의 성능을 평가하는 데 사용할 수 있는 기성 자동 측정 항목을 찾기를 희망합니다.

Google은 최초의 방언 데이터 세트를 오픈소스로 제공하여 기계 번역을 더욱 확실하게 만듭니다.

MQM에 따르면 평가자들은 여러 기본 모델의 번역 결과를 평가한 결과 BLEURT가 인간 판단과 가장 높은 상관 관계를 갖고 있으며 이 상관 관계의 강도(0.65 Pearson 상관 계수, ρ)가 주석 간 일관성(0.70 클래스 내 일관성)과 일치한다는 사실을 발견했습니다. 상관성 성별) 그렇죠.