機械学習を使用して、15 年間「声が出なかった」脳を解読し、「話せる」ようにする-AI-php.cn

Big Data Digest Works

Author: Miggy

麻痺患者にとって最大の苦痛は、外界と通信できないことです。脳はまだ活動しており、表現したいと考えていますが、声の筋肉を動かすことができないため、そのような患者の言語メカニズムは徐々に劣化していきます。

カリフォルニア大学サンフランシスコ校の脳神経外科部長であるエドワード・チャンは、話す能力を失った人々のためのブレイン・コンピューター・インターフェース技術を開発しています。彼の研究室は、声道の指令に関連する脳信号を解読し、神経インプラントを介してコンピューターを通じて脳の言語機能を出力することに専念しています。このプロジェクトには、現在入手可能な最高のニューロテクノロジーハードウェアだけでなく、強力な機械学習モデルも必要でした。

最近ではこの技術も大きく進歩し、15年間麻痺で「声が出ない」状態だった患者がコンピューターを使って外部とコミュニケーションできるようになりました。 Chang 氏はこの技術プロセスも記録し、IEEE で公開しました。

見に行きましょう。

15年間しゃべらなかった脳に「しゃべらせる」

パソコンの画面に『水を飲みますか？」「この質問です。以下では、3 つの小さな点が点滅し、その後 1 行の単語が表示されます。「いいえ、喉は渇いていません。「

脳の活動によってコミュニケーションが可能になります。この会話を生み出した脳は、15 年以上話したことのない無言の人の脳だったということは注目に値します。15 年前、脳卒中のため, 彼の脳は体の残りの部分から「切り離され」、患者と外界とのコミュニケーションが途絶えた。彼は外界とコミュニケーションを図るために多くの新しい技術を試してきたが、最近では、ポインタをマウスに取り付けて使用した。野球帽をかぶってタッチスクリーンに単語を入力するこの方法は効果的ですが時間がかかります。

最近、この患者はより迅速な方法を探求したいと考え、カリフォルニア大学サンフランシスコ校で行われている私の研究グループの臨床試験に参加することを志願しました。これまでのところ、彼は研究中にのみこの脳生成テキストシステムにアクセスできますが、このテクノロジーを彼のような人々が日常生活で使用できるものに開発する手助けをしたいと考えています。パイロット研究では、このボランティアの脳の表面は、薄い柔軟な電極のアレイで覆われています。電極は神経信号を記録し、音声デコーダに送信します。音声デコーダは、その信号を彼が言いたい内容に変換します。これは、脳の麻痺です。研究者らは初めて、ニューロテクノロジーを利用して、単なる文字ではなく、脳から単語全体を「ブロードキャスト」した。「音声を制御するメカニズムを解明し、これまでで最高の結果をもたらしました。これまでに達成したことを非常に誇りに思っています。しかし、まだ始まったばかりです。UCSF の私の研究室は、世界中の同僚と協力して、このテクノロジーは安全で安定しており、家庭での日常使用に十分な信頼性を備えています。現在も開発中です。システムのパフォーマンスが向上するため、努力する価値があります。

ブレインコンピューターインターフェイスの最初のバージョン

Neuro インプラントはどのように機能するのですか?

神経インプラント技術は過去から大きく進歩しました。 20年が経ちます。聴覚用の人工インプラントは最も進歩しており、内耳の蝸牛神経と接続するか、聴覚脳幹に直接接続するように設計されています。網膜および脳のインプラントについても多くの研究が行われており、取り組みも行われています。義手に触覚を提供するためのもので、これらの感覚義手はすべて外界から情報を取り込み、電気信号に変換されて脳の処理中枢に入力されます。嗅覚喪失患者が味覚を取り戻すのを助けるためにインプラントを使用した事例。

別の神経人工装具の一種は、脳の電気活動を記録し、それをロボットアームなどの外界を制御する信号に変換します。、ビデオゲームコントローラー、またはコンピューター画面上のカーソル。この最後の制御形式は、麻痺した人々が単語を入力できるようにするために、ブレインゲートアライアンスなどのグループによって使用されています。場合によっては一度に 1 文字ずつ、場合によってはオートコンプリート機能を使用して

このタイプの脳を介したタイピングは新しいものではありませんが、研究者は、動きを制御する脳の部分である皮質にインプラントを埋め込むことがよくあります。その後、ユーザーは特定の身体的な動きを想像します。仮想キーボード上で移動するカーソルを制御する別のアプローチは、2021 年の論文で私の共同研究者の何人かによって先駆的に開発されましたが、これはユーザーにペンを紙に当てて手紙を書いていると想像させ、運動皮質で信号を生成し、それが翻訳されるようにしますテキストに。この方法によりタイピング速度の新記録が樹立され、ボランティアは 1 分あたり約 18 ワードを書くことが可能になりました。

最新の実験室研究では、より効率的なアプローチを採用しました。カーソルやペンを動かすというユーザーの意図を解読する代わりに、喉頭 (しばしば発声器と呼ばれる)、舌、唇を制御する数十の筋肉を含む声道を制御するという意図を解読します。

麻痺のある男性にとって、一見単純な会話の設定は、脳信号を解読する高度なニューロテクノロジーハードウェアと機械学習システムによって可能になります。

私がこの分野で働き始めたのは10年以上前です。私は脳神経外科医として、話すことができないほどの重傷を負った患者をよく診察します。驚いたことに、多くの場合、脳の損傷の位置が医学部で学んだ症候群と一致せず、脳がどのように言語を処理するかについては、まだ学ぶべきことがたくさんあることに気づきました。私は、言語の基礎となる神経生物学を研究し、可能であれば、言語を失った人々のコミュニケーションを回復するためのブレイン・コンピューター・インターフェース（BMI）を開発することにしました。私の脳神経外科の経歴に加えて、私のチームは言語学、電気工学、コンピューターサイエンス、生物工学、医学の専門知識を持っています。

筋肉はどのように話すのに役立つのか

言語は人間をユニークにする能力の 1 つです。他の多くの種も音を出しますが、一連の音を組み合わせて無数の異なる方法で表現できるのは人間だけです。これは非常に複雑な運動動作でもあり、一部の専門家は、これが人間が行う最も複雑な運動動作であると考えています。音声は声道を通る調整された気流の産物であり、喉頭声帯に可聴振動を生み出し、唇、顎、舌の形状を変えることによって呼吸を形成します。

声道の筋肉の多くは、規定されたいくつかの方法でのみ動くことができる腕や脚などの関節ベースの筋肉とはまったく異なります。たとえば、唇を制御する筋肉は括約筋ですが、舌を構成する筋肉は水圧によってより制御されています。舌は主に一定量の筋肉組織で構成されているため、舌の一部を動かすとその変化が変化します。他の場所で形を整えます。これらの筋肉の動きを制御する物理学は、上腕二頭筋やハムストリングスとはまったく異なります。

非常に多くの筋肉が関係しており、それぞれに非常に多くの自由度があるため、基本的に可能な構成は無限にあります。しかし、人々が話すとき、核となる動作は比較的少数しか使用していないことがわかりました (言語によって異なります)。たとえば、英語話者は「d」音を発音するとき、舌を歯の後ろに置きます。「k」音を発音するとき、舌の付け根は口の奥の天井に触れるまで伸びます。最も単純な言葉を話すために必要な、正確で複雑で調整された筋肉の動きを理解している人はほとんどいません。

チームメンバーのデビッド・モーゼスは、患者の脳波測定値[左画面]とデコードシステム活動の表示[右画面]を見ています。

私の研究グループは、顔、喉、口、舌の筋肉に運動指令を送る脳の運動皮質部分に焦点を当てています。これらの脳領域はマルチタスクを行っています。言語を生成する筋肉の動きだけでなく、飲み込む、微笑む、キスするための同じ筋肉の動きも管理します。

これらの領域の神経活動を研究するには、ミリメートルレベルの空間解像度とミリ秒レベルの時間解像度が必要です。歴史的に、非侵襲的イメージングシステムはどちらか一方を提供できましたが、両方を提供することはできませんでした。この研究を開始したとき、脳活動のパターンが音声の最も単純な要素である音素と音節にどのように関連しているかについてのデータがほとんどないことがわかりました。

ここでボランティアの方々に感謝の意を表します。 UCSF てんかんセンターでは、手術の準備をしている患者は、発作に関与する領域をマッピングできるよう、数日間、脳の表面に電極を外科的に配置されることがよくあります。有線によるダウンタイムが続くこの数日間、多くの患者が神経学的研究実験への参加を志願し、脳内の電極記録を利用して、患者が話すときの神経活動のパターンを研究することができた。

関与するハードウェアは皮質電気検査 (ECoG) と呼ばれます。 ECoG システムの電極は脳を貫通せず、脳の表面に配置されます。当社のアレイには数百の電極センサーを含めることができ、それぞれが数千のニューロンを記録します。これまでは 256 チャネルのアレイを使用してきました。これらの初期の研究における私たちの目標は、人々が単純な音節を話すときの皮質活動のパターンを発見することでした。私たちはボランティアたちに特定の音や言葉を話すよう依頼し、その一方で彼らの神経パターンが記録され、舌や口の動きが追跡されました。時には、患者にカラフルなフェイスペイントを塗ってもらい、コンピュータービジョンシステムを使用して運動ジェスチャーを抽出することでこれを行いますが、また時には、患者の顎の下に超音波装置を設置して、動く舌を画像化することもあります。

システムは、運動皮質からの信号を受信するために患者の脳に掛けられる一連の柔軟な電極から始まります。このアレイは、特に患者の声道の運動コマンドを捕捉します。頭蓋骨に固定されたポートはコンピューターシステムに接続されたワイヤーにつながり、コンピューターシステムは脳信号を解読して患者が言いたいことを変換し、その答えをディスプレイに表示します。

私たちはこれらのシステムを使用して、神経パターンを声道の動きに一致させます。当初、私たちはニューラルコードについて多くの質問をしました。可能性の 1 つは、神経活動が特定の筋肉の方向をエンコードしており、脳は基本的にキーボードのキーを押すようにそれらの筋肉のオンとオフを切り替え、別のパターンを通じて筋肉の収縮速度を決定するというものです。もう 1 つは、神経活動が、特定の音を生成するために使用される筋肉収縮の調整されたパターンに対応しているということです。（たとえば、「ああ」という音を出すには、舌と顎の両方を下げる必要があります。）私たちは、声道のさまざまな部分や脳のさまざまな領域を制御する表現マップがあることを発見しました。この 2 つを組み合わせると、流暢な音声を生成できます。

今日のニューロテクノロジーにおける人工知能の有用性

私たちの仕事は、過去 10 年間の人工知能の進歩に依存しています。ニューラル活動と音声運動学に関して収集されたデータをニューラルネットワークに入力し、機械学習アルゴリズムに 2 つのデータセット間の相関関係のパターンを見つけさせ、それによってニューラル活動と生成された音声の間のリンクを確立し、これを使用できます。コンピューター生成の音声またはテキストを生成するためのモデル。しかし、この技術ではデータの半分が欠落しているため、麻痺した人向けのアルゴリズムをトレーニングすることはできません。神経パターンはあるものの、対応する筋肉の動きはありません。

機械学習を使用するより賢い方法は、問題を 2 つのステップに分割することであることに気付きました。まず、デコーダは脳からの信号を声道の筋肉の意図された動きに変換し、次にこれらの意図された動きを合成音声またはテキストに変換します。

生物学的な運動パターンを再現するため、私たちはこれをバイオニックアプローチと呼んでいます。人体では、神経活動は声道の動きに直接関与し、生成される音には間接的にのみ関与します。このアプローチの大きな利点は、筋肉の動きを音に変換するためにデコーダーをトレーニングする 2 番目のステップです。声道の動きと音の関係がより分かりやすくなったため、麻痺のない人々からの大規模なデータセットでデコーダーをトレーニングすることができました。

次の大きな課題は、テクノロジーの恩恵を実際に受けられる人々にテクノロジーを提供することです。

国立衛生研究所 (NIH) は、2021 年に開始されるパイロット試験に資金を提供しています。私たちはすでに ECoG アレイを移植された麻痺のあるボランティア 2 名を抱えており、今後数年間でさらに多くのボランティアを採用したいと考えています。主な目標はコミュニケーションを改善することであり、パフォーマンスを 1 分あたりの単語数で測定します。フルキーボードでタイピングする平均的な成人は 1 分あたり 40 ワードを入力でき、最速のタイピストでは 1 分あたり 80 ワード以上の速度に達します。

将来: テキスト出力の代わりに音声を使用します

音声システムを使用して話すと、より良い効果が得られると考えています。人間は入力するよりもはるかに速く話します。英語を話す人は 1 分間に 150 語を簡単に発声できます。私たちは、麻痺のある人々が毎分 100 語でコミュニケーションできるようにしたいと考えています。この目標を達成するには、やるべきことがまだたくさんあります。

移植手順は他のインプラントと同様です。まず、外科医は頭蓋骨の小さな部分を切除し、次に柔軟な ECoG アレイを皮質表面にそっと配置します。次に、小さなポートが頭蓋骨に固定され、頭皮の別の開口部から出ます。現在、電極からのデータを送信するために外部ワイヤに接続するこのポートが必要ですが、将来的にはシステムをワイヤレスにしたいと考えています。

貫通微小電極はより小さな神経集団を記録できるため、神経活動についてより詳細な情報が得られるため、貫通微小電極を検討しました。しかし、現在のハードウェアは、臨床使用において ECoG ほど強力かつ安全ではありません。

もう 1 つの考慮事項は、貫通電極は神経信号を明確なコマンドに変換するために毎日の再校正を必要とすることが多く、神経デバイスに関する研究では、セットアップの速度とパフォーマンスの信頼性が人々がこのテクノロジーを使い続ける鍵であることを示しています。そのため、長期使用向けの「プラグアンドプレイ」システムを作成する際には、安定性を優先します。私たちはボランティアの神経信号の時間の経過に伴う変化を調べる研究を実施し、複数のセッションや日数にわたるデータパターンを使用するとデコーダーのパフォーマンスが向上することがわかりました。機械学習の用語では、デコーダーの「重み」が継承され、その結果統合されたニューラル信号が得られると言います。

麻痺のあるボランティアは脳のパターンを観察している間話すことができなかったため、最初のボランティアに 2 つの異なるアプローチを試すように依頼しました。まず、「お腹が空いた」「喉が渇いた」「お願いします」「助けて」「コンピュータ」など、日常で使いやすい50語のリストをあげた。数か月にわたる 48 回のセッションを通じて、私たちは時には彼に、リストにある各単語を言うことを想像してもらい、時には彼にその単語を話して「言ってみる」ように頼みました。私たちは、話そうとすると、解読アルゴリズムを訓練するのに十分な、より明瞭な脳信号を生成することがわかりました。ボランティアはリストにあるこれらの単語を使用して、「いいえ、喉が渇いていません」など、自分で選んだ文を生成できます。

私たちは現在、語彙を増やすことに取り組んでいます。これを達成するには、現在のアルゴリズムとインターフェースを改善し続ける必要がありますが、これらの改善は今後数か月から数年以内に起こると信じています。原理の証明が確立されたので、目標は最適化です。私たちは、システムをより速く、より正確に、そして最も重要なことに、より安全で信頼性の高いものにすることに集中できます。今は物事が急速に進んでいるはずです。

私たちが解読しようとしている脳システムと、麻痺によってその活動がどのように変化するかをよりよく理解できれば、最大の進歩が得られるかもしれません。私たちは、声道の筋肉に命令を送ることができない麻痺患者の神経パターンは、命令を送ることができるてんかん患者の神経パターンとは大きく異なることに気づきました。私たちは BMI エンジニアリングという野心的な偉業に挑戦していますが、基礎となる神経科学については学ぶべきことがまだたくさんあります。私たちは、これらすべてが組み合わさって患者にコミュニケーション能力を提供できると信じています。

資料のソース: https://spectrum.ieee.org/brain-computer-interface-speech

以上が機械学習を使用して、15 年間「声が出なかった」脳を解読し、「話せる」ようにするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。