Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique-IA-php.cn

Bien que les gens de toute la Chine parlent chinois, les dialectes spécifiques selon les endroits sont légèrement différents. Par exemple, lorsque vous dites « Hutong », vous saurez que c'est le vieux Pékin, mais dans le sud, cela s'appelle. "Nong" .

De telles différences régionales subtiles se reflètent dans la tâche de « traduction automatique », et les résultats de la traduction sembleront insuffisamment « authentiques ». Cependant, presque tous les systèmes de traduction automatique actuels ne prennent pas en compte l'impact des langues régionales ( c'est-à-dire les dialectes).

Ce phénomène existe également dans le monde entier. Par exemple, la langue officielle du Brésil est le portugais, et il existe quelques différences régionales avec le portugais en Europe.

Récemment, Google a publié un tout nouvel ensemble de données et un référentiel d'évaluation FRMT qui peuvent être utilisés pour la traduction automatique de quelques plans, qui résout principalement le problème de la traduction dialectale. L'article a été publié sur TACL (Transactions of the. Association pour la linguistique computationnelle) .

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Lien papier : https://arxiv.org/pdf/2210.00193.pdf

Lien open source : https://github.com/google-research/google-research/tree/master/frmt

Cet ensemble de données comprend des traductions professionnelles de l'anglais vers deux variétés régionales de portugais et de chinois mandarin. Les documents sources sont conçus pour permettre une analyse détaillée des phénomènes d'intérêt, y compris des termes lexicalement distincts et des termes d'interférence.

Les chercheurs ont exploré les mesures d'évaluation automatique pour FRMT et vérifié leur corrélation avec l'évaluation manuelle d'experts dans le cadre de scénarios de notation de correspondance et d'inadéquation régionales.

Enfin, certains modèles de base sont proposés pour cette tâche et des suggestions d'orientation sont fournies aux chercheurs sur la façon de former, d'évaluer et de comparer leurs propres modèles. L'ensemble de données et le code d'évaluation sont open source.

Généralisation en quelques étapes

La plupart des systèmes de traduction automatique modernes sont formés sur des millions ou des milliards d'exemples de traduction, avec des données d'entrée constituées de phrases d'entrée en anglais et de leurs traductions portugaises correspondantes.

Cependant, la grande majorité des données de formation disponibles ne tiennent pas compte des différences régionales en matière de traduction.

Compte tenu de cette rareté des données, les chercheurs ont positionné FRMT comme une référence pour la traduction en quelques étapes, mesurant dans quelle mesure un modèle de traduction automatique identifie une variante linguistique régionale donnée lorsqu'il ne reçoit pas plus de 100 exemples étiquetés par capacité linguistique.

Les modèles de traduction automatique doivent identifier des modèles similaires dans d'autres échantillons de formation non étiquetés en fonction des modèles de langage affichés dans un petit nombre d'échantillons étiquetés (c'est-à-dire des exemples). Le modèle doit se généraliser de cette manière pour produire des traductions « idiomatiques » pour des domaines non explicitement spécifiés dans le modèle.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Par exemple, saisissez la phrase : Le bus est arrivé, et étant donné quelques exemples en portugais brésilien, le modèle devrait être capable de traduire « O ônibus chegou » si les exemples donnés sont en portugais européen, la traduction du modèle ; les résultats devraient être Cela devient "O autocarro chegou".

La méthode de traduction automatique en quelques étapes est d'une grande valeur pour la recherche et peut ajouter la prise en charge de langues régionales supplémentaires aux systèmes existants d'une manière très simple.

Bien que les travaux actuellement publiés par Google concernent les variantes régionales de deux langues, les chercheurs prédisent qu'une bonne approche sera facilement applicable à d'autres langues et variantes régionales.

En principe, ces méthodes sont également applicables à d'autres phénomènes de différence linguistique, tels que l'étiquette et le style.

Collecte de données

L'ensemble de données FRMT comprend des articles Wikipédia en anglais, dérivés de l'ensemble de données Wiki40b, qui ont été traduits dans différents portugais et chinois régionaux par des traducteurs professionnels rémunérés.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Afin de mettre en évidence les principales difficultés de traduction sensibles au domaine, les chercheurs ont utilisé trois catégories de contenu pour concevoir l'ensemble de données :

1 Lexical

Principalement, faites attention aux différences dans. choix de mots entre différentes régions. Par exemple, lors de la traduction d'une phrase contenant le mot « bus » respectivement en portugais brésilien et européen, le modèle doit être capable d'identifier la différence entre « ônibus » et « autocarro ».

Les chercheurs ont collecté manuellement 20 à 30 termes traduits spécifiques à une région sur la base de blogs et de sites Web éducatifs, et ont filtré et examiné les traductions en fonction des commentaires de bénévoles de langue maternelle de chaque région.

Sur la base de la liste de termes anglais obtenue, extrayez 100 phrases d'articles Wikipédia anglais pertinents (par exemple, bus). Pour le mandarin, répétez le même processus de collecte ci-dessus.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

2. Entité Entité

Les compartiments d'entités sont remplis de la même manière impliquant des personnes, des emplacements ou d'autres entités étroitement liées à l'un des deux domaines couverts par une langue particulière.

Par exemple, étant donné une phrase explicative telle que « À Lisbonne, je prenais souvent le bus. » (À Lisbonne, je prenais souvent le bus.), afin de la traduire correctement en portugais brésilien, le modèle doit être capable d'identifier deux pièges potentiels :

1) La connexion géographique plus étroite entre Lisbonne et le Portugal peut influencer le choix du modèle de traduction, aidant le modèle à déterminer qu'il doit traduire en portugais européen plutôt qu'en portugais brésilien, c'est-à-dire choisir " autocarro" au lieu de "ônibus".

2) Remplacer "Lisbonne" par "Brasilia" peut être un moyen relativement simple. Pour le même modèle, localiser sa sortie en portugais brésilien, même si le résultat de la traduction est toujours fluide, peut conduire à une sémantique inexacte.

3. Random Random Random

Le bucket aléatoire est utilisé pour vérifier si un modèle gère correctement d'autres phénomènes différents, contenant 100 articles sélectionnés au hasard parmi les et bonnes collections de Wikipédia.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Performances du système

Pour vérifier que les traductions collectées pour l'ensemble de données FRMT étaient capables de capturer des phénomènes spécifiques à une région, les chercheurs ont effectué une évaluation manuelle de la qualité des données.

Des annotateurs experts de chaque région respective identifient et classent les erreurs de traduction à l'aide d'un cadre de mesure de la qualité multidimensionnelle (MQM) : le cadre comprend un système de pondération de classification qui convertit les erreurs identifiées en un seul score, représente approximativement le nombre d'erreurs majeures. par phrase, c'est-à-dire que plus le nombre est petit, meilleure est la traduction.

Pour chaque région, les chercheurs ont demandé aux évaluateurs MQM d'évaluer les traductions de leur région et les traductions d'autres régions de leur langue.

Par exemple, les évaluateurs du portugais au Brésil ont évalué en même temps les traductions en portugais brésilien et européen. La différence entre les deux scores indique la généralité du phénomène linguistique, c'est-à-dire si la variante linguistique est acceptable, et non une autre langue.

Les résultats expérimentaux ont révélé qu'en portugais et en chinois, les évaluateurs ont trouvé en moyenne environ deux erreurs majeures de plus par phrase que dans les traductions correspondantes, indiquant que l'ensemble de données FRMT est effectivement capable de capturer des phénomènes linguistiques spécifiques à une région.

Bien que l'évaluation manuelle soit le meilleur moyen de garantir la qualité du modèle, elle est souvent lente et coûteuse.

Par conséquent, les chercheurs espèrent trouver une métrique automatique prête à l'emploi qui pourra être utilisée pour évaluer les performances du modèle dans le benchmark. Les chercheurs envisagent d'utiliser chrF, BLEU et BLEURT.

Selon MQM Evaluators, les résultats de traduction de plusieurs modèles de base ont été évalués et ont constaté que BLEURT a la meilleure corrélation avec le jugement humain, et la force de cette corrélation (coefficient de corrélation de Pearson de 0,65, ρ) est cohérente avec la cohérence inter-annotateur (0,70 intra -classe corrélation sexe) tout à fait.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique Performances du système

Cet article évalue certains modèles récemment sortis avec des capacités de contrôle en quelques coups.

Basées sur une évaluation humaine du MQM, les méthodes de base montrent toutes une certaine capacité à localiser la sortie en portugais, mais pour le chinois mandarin, la plupart n'utilisent pas la connaissance de la région cible pour générer d'excellents résultats de traduction locale.

Le modèle linguistique PaLM de Google a été le plus performant parmi les benchmarks évalués. Pour générer des traductions spécifiques à une région à l'aide de PaLM, une invite instructive est d'abord introduite dans le modèle et du texte est ensuite généré à partir de celui-ci pour combler les lacunes.

PaLM obtient de très bons résultats avec un seul exemple, en portugais, et en passant à 10 exemples, la qualité s'améliore légèrement, étant donné que PaLM n'est pas supervisé. Pour un entraînement dans de telles conditions, cette performance est déjà très bien.

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique

Les résultats suggèrent également que les modèles linguistiques tels que PaLM pourraient être particulièrement efficaces pour mémoriser les choix lexicaux spécifiques à une région, nécessaires à une traduction fluide.

Cependant, il existe encore un écart de performance important entre PaLM et les humains.

Référence :

Google ouvre son premier ensemble de données « dialectes » : rendre la traduction automatique plus authentique https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!