Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。-AI-php.cn

学術および商用の機械翻訳システム (MT) の品質は、過去 10 年間で劇的に向上しました。これらの改善は主に、機械学習の進歩と大規模な Web マイニングデータセットの利用可能性によるものです。同時に、ディープラーニング（DL）およびE2Eモデル、Webマイニングから得られる大規模な並列単一言語データセット、逆翻訳や自己学習などのデータ拡張手法、および大規模な多言語データセットの出現。言語モデリングは、100 言語を超える高品質の機械翻訳システムをサポートする機能をもたらしました。

しかし、低リソースの機械翻訳は大きく進歩しているにもかかわらず、広く利用可能な一般的な機械翻訳システムが構築されている言語の数は約 100 言語に限られています。それらは明らかに今日最も包括的なものにすぎず、世界で話されている 7,000 以上の言語のうちのいくつかです。言語の数が限られていることに加えて、現在の機械翻訳システムがサポートする言語の分布もヨーロッパ言語に大きく偏っています。

人口が多いにもかかわらず、アフリカ、南アジア、東南アジアで話されている言語、およびアメリカ先住民の言語を対象としたサービスが少ないことがわかります。たとえば、Google 翻訳はフリジア語、マルタ語、アイスランド語、コルシカ語をサポートしていますが、これらの言語の母語話者はいずれも 100 万人未満です。比較すると、Google 翻訳が提供されていないビハール語の人口は約 5,100 万人、オロモ語の人口は約 2,400 万人、ケチュア語の人口は約 900 万人、ティグリニャ語の人口は約 900 万人です (2022 年)。これらの言語は「ロングテール」言語として知られており、データが不足しているため、十分なトレーニングデータがあれば言語を超えて一般化できる機械学習技術の適用が必要です。

これらのロングテール言語の機械翻訳システムの構築は、利用可能なデジタル化されたデータセットや言語識別 (LangID) モデルなどの NLP ツールが不足しているため、大きく制限されています。これらは高リソース言語ではどこにでもあります。

最近の Google の論文「次の 1,000 の言語のための機械翻訳システムの構築」では、20 名を超える研究者が、1,000 を超える言語をサポートする実用的な機械を構築する取り組みを実証しました。結果。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

論文アドレス: https://arxiv.org/pdf/2205.03983.pdf

特定の具体的には、研究者らは以下の 3 つの研究分野からの成果について説明します。

まず、言語認識とデータ駆動型フィルタリング技術のための半教師あり事前トレーニングを通じて、1,500 言語用のクリーンなウェブマイニングデータセットが作成されます。

2 番目に、100 を超える高リソース言語の教師付き並列データと、さらに 1,000 の追加言語の単言語データセットを使用してトレーニングされた大規模な多言語モデルを通じて、実際に十分なサービスが提供されていない言語でも機能します。

第三に、これらの言語の評価指標の限界を研究し、機械翻訳モデルの出力の定性分析を実施し、そのようなモデルのいくつかの一般的なエラーパターンに焦点を当てます。

この研究が、現在研究が進んでいない言語の機械翻訳システムの構築に取り組む実務者に有益な洞察を提供することを願っています。さらに研究者らは、この研究が、データがまばらな環境における大規模多言語モデルの弱点に対処する研究の方向性につながることを期待している。

5 月 12 日の I/O カンファレンスで、Google は、自社の翻訳システムに、ニッチなアメリカ先住民の言語を含む 24 の新しい言語を追加したと発表しました。前述のケチュア語とティグリニャ語。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

論文の概要

この研究は主に 4 つの主要な章に分かれており、ここではそれぞれの章についてのみ説明します。各章の内容を簡単に紹介します。

1000 言語の Web テキストデータセットを作成する

この章では、1500 言語の単一言語テキストデータをクロールする研究者の取り組みについて詳しく説明します。収集プロセスで使用されます。これらの方法は、高精度データ (つまり、高い割合のきれいな言語内テキスト) を回復することに重点を置いているため、さまざまなフィルタリング方法が大部分を占めます。

一般に、研究者が使用する方法には次のようなものがあります:

トレーニングデータの品質と LangID パフォーマンスが低い言語を LangID モデルから削除し、1629 言語の CLD3 LangID モデルと半教師あり LangID (SSLID) モデルをトレーニングします。
CLD3 モデルの言語のエラー率に基づいてクラスタリング操作を実行します;
CLD3 モデルを使用して Web クローリングの最初のラウンドを実行します;
文書の一貫性を使用して文をフィルタリングします;
パーセンテージしきい値の単語リストを使用してすべてのコーパスをフィルタリングします;
半教師あり LangID (SSLID) を使用してすべてのコーパスをフィルターします;
相対再現率を使用して外れ値言語を検出し、用語周波数逆インターネット周波数 (TF-IIF) を使用してフィルターします;
トークン頻度の異常性スコアを使用して外れ値言語を検出し、それらのフィルターを手動で設計します;
文のすべてのコーパスに直面しますレベル重複排除操作を実行します。

以下は、1745 言語の CLD3 LangID モデルを使用した Web テキストのドキュメント整合性スコアのヒストグラムです。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

#以下の表 2 は、単一言語データの一部である完全な低リソース言語 (LRL) データセットの単一言語データを示しています。モデルのトレーニングに使用され、高リソース言語を含む完全なトレーニングセットの単一言語統計が含まれます。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

章のディレクトリは次のとおりです。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

は次のとおりです。ロングテール言語機械翻訳モデルの構築

Web からマイニングされた単一言語データの場合、次の課題は、限られた量の単一言語データから高品質の一般的な機械翻訳モデルを作成することです。トレーニングデータ。この目的を達成するために、研究者らは、高リソース言語で利用可能なすべての並列データを活用して、単一言語データのみが利用可能なロングテール言語の品質を向上させるという実用的なアプローチを採用しました。ロングテール言語には直接の監視がないため、彼らはこのセットアップを「ゼロリソース」と呼んでいます。

研究者らは、ロングテール言語のゼロリソース翻訳の品質を向上させるために、過去数年間に機械翻訳用に開発されたいくつかの技術を使用してきました。これらの手法には、単言語データからの自己教師あり学習、大規模な多言語教師あり学習、大規模な逆変換、および大容量モデルの自己トレーニングが含まれます。彼らはこれらのツールを使用して、約 100 言語をカバーする既存の対訳コーパスと Web から構築された 1,000 言語の単一言語データセットを利用して、1,000 言語を翻訳できる機械翻訳モデルを作成しました。

具体的には、研究者らはまず、ゼロリソース翻訳 (3.2) における 15 億パラメータと 60 億パラメータのトランスフォーマのパフォーマンスを比較することで、高度な多言語モデルにおけるモデル能力の重要性を強調しました。自己教師あり言語の数を 1000 に増やし、同様の言語からのより多くの単言語データが利用可能になるにつれて、ほとんどのロングテール言語のパフォーマンスが向上することを検証しました (3.3)。研究者の 1,000 言語モデルは妥当なパフォーマンスを示しましたが、アプローチの長所と限界を理解するために大規模なデータ拡張を組み込みました。

さらに、研究者らは、自己学習と逆翻訳を通じて、大量の合成データを含む 30 言語のサブセットで生成モデルを微調整しました (3.4)。彼らはさらに、幻覚や誤った言語翻訳に対するこれらの微調整されたモデルの堅牢性を高めるために、合成データをフィルタリングするための実践的な方法についても説明しています (3.5)。

また、シーケンスレベルの蒸留を使用して、これらのモデルをより小さく、推論しやすいアーキテクチャに改良し、教師モデルと生徒モデル間のパフォーマンスのギャップを強調しました (3.6)。

章のディレクトリは次のとおりです:

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

Assessment

機械翻訳モデルを評価するために、研究者らはまず英語の文章をこれらの言語に翻訳し、選択した 38 のロングテール言語の評価セット (4.1) を構築しました。彼らは、ロングテール設定における BLEU の制限を強調し、CHRF (4.2) を使用してこれらの言語を評価します。

研究者らはまた、参照セットが利用できない言語でのモデルの品質を理解するために、往復翻訳に基づいた近似の非参照メトリクスを提案しました。このメトリックによって測定されたモデルの結果が報告されます (4.3)。彼らは、28 言語のサブセットに対して人によるモデルの評価を実行し、その結果を報告し、論文 (4.4) で説明されているアプローチに従って有用な機械翻訳システムを構築できることを確認しました。

大規模な多言語ゼロリソースモデルの弱点を理解するために、研究者はいくつかの言語について定性的エラー分析を実施しました。このモデルでは、「トラ」が「小さなワニ」になるなど、分布が似ている単語や概念が混同されることが多いことがわかりました (4.5)。また、より低いリソース設定 (4.6) では、出現頻度が低いトークンのトークンを変換するモデルの能力が低下します。

研究者らは、これらのモデルが短い単語や単一の単語の入力を正確に翻訳できないことが多いことも発見しました (4.7)。洗練されたモデルに関する研究では、すべてのモデルがトレーニングデータに存在するバイアスやノイズを増幅する可能性が高いことが示されています (4.8)。

#この章の目次は次のとおりです:

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。