OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース-AI-php.cn

先週、OpenAI は ChatGPT API と Whisper API をリリースし、開発者間でカーニバルを引き起こしました。

#Google は 3 月 6 日、ベンチマークモデル USM を発表しました。 100以上の言語をサポートしているだけでなく、パラメータの数も20億に達しています。

# もちろん、モデルはまだ公開されていませんが、「これはまさに Google です」！

OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース

簡単に言えば、USM モデルは 1,200 万時間の音声と 280 億の文をカバーします。 300 の異なる言語のラベルなしデータセットで事前トレーニングされ、ラベル付きの小さなトレーニングセットで微調整されます。

Google の研究者らは、微調整に使用されるアノテーショントレーニングセットは Whisper の 1/7 にすぎませんが、USM は同等かそれ以上の結果が得られると述べています。新しい言語やデータに効率的に適応する能力も必要です。

OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース

紙のアドレス: https://arxiv.org/abs/2303.01037

#結果は、USM が多言語自動音声認識および音声テキスト翻訳タスクの評価において SOTA を達成するだけでなく、実際に YouTube の字幕生成にも使用できることを示しています。

#現在、自動検出と翻訳をサポートしている言語には、主流の英語、中国語、およびアッサム語などの小規模な言語が含まれています。

#最も重要なことは、昨年の IO カンファレンスで Google がデモンストレーションした将来の AR メガネのリアルタイム翻訳にも使用できることです。

Jeff Dean が個人的に発表しました: AI に 1,000 の言語をサポートさせましょう OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース

## While Microsoft Google はどちらが優れた AI チャットボットを持っているかについて議論していますが、大規模な言語モデルはそれだけではないことにも使用できることを知っています。

昨年 11 月、Google は「世界で最も一般的に使用されている 1,000 の言語をサポートする人工知能言語モデルを開発する」という新しいプロジェクトを初めて発表しました。。」

OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース

同年、Meta は「No Language Left Behind」というモデルもリリースしました。また、200以上の言語を翻訳できると主張しており、「ユニバーサル翻訳者」の作成を目指しています。

#最新モデルのリリースは、Google によってその目標に向けた「重要なステップ」であると説明されています。

# 言語モデルの構築に関しては、多くの英雄が競い合っていると言えます。

噂によると、Google は今年の年次 I/O カンファレンスで人工知能を活用した 20 以上の製品を展示する予定です。

現在、自動音声認識は多くの課題に直面しています:

従来の教師あり学習方法にはスケーラビリティが欠けています

##従来の方法では、時間とコストがかかる方法で音声データに手動でラベルを付ける必要があります。既存のトランスクリプションのソースから収集されますが、広範な表現が欠けている言語では見つけるのが難しい場合があります。

#言語の範囲と品質を拡大しながら、計算効率の高い方法でモデルを改善する必要があります

これには、さまざまなソースからの大量のデータを使用でき、完全な再トレーニングを必要とせずにモデルの更新を可能にし、新しい言語やユースケースに一般化できるアルゴリズムが必要です。微調整された自己教師あり学習

論文によると、USM トレーニングでは、ペアになっていないオーディオデータセット、ペアになっていないテキストデータの 3 つのデータベースが使用されます。セット、ペアになった ASR コーパス。

YT-NTL-U (1,200 万時間以上の YouTube タグなし音声データ) および Pub-U (51 言語で 429,000 時間以上の音声コンテンツ) が含まれます

#ペアになっていないテキストデータセット

##Web -NTL (1,140 以上の異なる言語で 280 億文)

対になった ASR コーパス

YT-SUP および Pub-S コーパス (10,000 時間以上の音声コンテンツと一致するテキスト)

USM は標準のエンコーダ/デコーダ構造を使用します。デコーダには CTC、RNN -T、または LAS を使用できます。

OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース

#エンコーダの場合、USM は Conformor、つまり畳み込み強化された Transformer を使用します。

#トレーニングプロセスは 3 つの段階に分かれています。

#初期段階では、BEST-RQ (音声事前トレーニング用の BERT ベースのランダム射影量子化器) を使用して教師なし事前トレーニングが実行されます。目標は、RQ を最適化することです。

#次の段階では、音声表現学習モデルがさらにトレーニングされます。

MOST (Multi-Object Supervised Pre-training) を使用して、他のテキストデータからの情報を統合します。

このモデルでは、テキストを入力として受け取る追加のエンコーダーモジュールを導入し、音声エンコーダーとテキストエンコーダーの出力を組み合わせてモデルを共同トレーニングするための追加レイヤーを導入しています。ラベルなしの音声、ラベル付きの音声、およびテキストデータ。

最後のステップは、ASR (自動音声認識) タスクと AST (自動音声翻訳) タスクを微調整することです。事前トレーニングされた USM モデルに必要なのは、少量の監視データでも良好なパフォーマンスを達成できます。

USM 全体的なトレーニングプロセス

OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース

USM はどのように機能しますか? Google は、YouTube の字幕、ダウンストリーム ASR タスクの促進、および自動音声翻訳で USM をテストしました。

YouTube 多言語字幕でのパフォーマンス

監視付き YouTube データには 73 言語が含まれており、1 言語あたりのデータは平均 3,000 時間弱になります。監視データが限られているにも関わらず、このモデルは 73 言語にわたって平均単語誤り率 (WER) が 30% 未満を達成しました。これは、米国内の最先端のモデルよりも低い値です。

さらに、Google は、400,000 時間以上の注釈付きデータでトレーニングされた Whisper モデル (big-v2) と比較しました。

Whisper がデコードできる 18 言語のうち、デコードエラー率は 40% 未満ですが、USM の平均エラー率はわずか 32.7% です。

OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース

下流の ASR タスクの推進

公開されているデータセットでは、ドメイン内にあるかどうかに関係なく、USM は Whisper WER と比較して、CORAAL (アフリカ系アメリカ人の方言英語)、SpeechStew (英語 - 米国)、および FLEURS (102 言語) でパフォーマンスが低いことを示しています。トレーニングデータ。

#FLEURS の 2 つのモデルの違いは特に明らかです。

OpenAIを再び打ち負かしましょう！ Google、100以上の言語を自動的に認識して翻訳する20億パラメータのユニバーサルモデルをリリース