科学者は95%の精度で読唇術を認識できる人工知能ソナーグラスを開発-AI-php.cn

科学者は95%の精度で読唇術を認識できる人工知能ソナーグラスを開発

WBOY

リリース： 2023-04-10 14:31:11

転載

1531 人が閲覧しました

4月10日のニュース、米国コーネル大学の研究者らがソナーグラスを介して無音通信を可能にする新技術を開発した。このメガネは、小さなスピーカーとマイクを使用して、着用者が静かに話した言葉を読み上げ、物理的な入力を必要とせずにさまざまなタスクを実行できるようにします。

The EchoSpeech glasses (modeled here by lead scientist Ruidong Zhang) could be utilized to control devices, or even to help the voiceless communicate

このテクノロジーは、コーネル大学の博士課程の学生である Zhang Ruidong (音訳) のリーダーシップの下で開発され、ワイヤレスヘッドセットを使用した同様のプロジェクトに基づいて改良されたものです。、以前のモデルはカメラに依存していました。

IT House によると、ソナーメガネは EchoSpeech と呼ばれる無音音声認識インターフェイスを使用しており、ソナーを使用して口の動きを感知し、深層学習アルゴリズムを使用してエコー特性をリアルタイムで分析します。これにより、システムは着用者が黙って話した言葉を約 95% の精度で認識できるようになります。

このテクノロジーの最もエキサイティングな将来性の 1 つは、言語障害を持つ人々がこのテクノロジーを使用して、音声合成装置に静かに会話を送り込み、その言葉を大声で話すことができることです。このメガネは、静かな図書館で音楽再生を制御したり、騒がしいコンサートで情報を口述したりするためにも使用できます。

このテクノロジーは小型かつ低消費電力であり、ユーザーの携帯電話からデータが流出しないため、プライバシーを侵害しません。このようにすれば、プライバシーの懸念はありません。このメガネは着用が非常に便利で、他の利用可能な無音音声認識技術よりも実用的で実現可能です。

研究者らによると、このシステムはユーザーの音声パターンを学習するのに数分のトレーニングデータしか必要としません。学習が完了すると、ユーザーの顔に向かって音波を送受信し、口の動きを感知し、奥行きを使用できるようになります学習アルゴリズムはエコー特性を分析します。現在、システムは 31 個の独立したコマンドと連続した数字のシーケンスを 10% 未満のエラー率で識別できます。

システムの現在のバージョンは、約 10 時間のバッテリ寿命を提供し、Bluetooth 経由でユーザーのスマートフォンと無線通信します。スマートフォンはすべてのデータの処理と予測を担当し、その結果を多数の「アクションキー」に送信して、音楽の再生、スマートデバイスとの対話、または音声アシスタントの起動を可能にします。

コーネル大学の未来インタラクションのためのインテリジェントコンピューターインターフェイス (SciFi) 研究室は、コーネル大学の助成プログラムを活用して、このテクノロジーの商業化の可能性を模索しています。

以上が科学者は95%の精度で読唇術を認識できる人工知能ソナーグラスを開発の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。