マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。-AI-php.cn

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

WBOY

リリース： 2024-05-30 10:13:19

オリジナル

1227 人が閲覧しました

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

編集 | キャベツの葉

多くの臨床作業では、医療画像、ゲノミクスなどの専門的なデータの理解が必要です。この種の専門的な知識情報は、通常、一般的なマルチモーダル大規模モデルのトレーニングには存在しません...

前回の論文の説明では、Med-Gemini はさまざまな医用画像タスクで GPT-4 シリーズのモデル実装を上回りました。そた！

ここでは、Google DeepMind が Med-Gemini に関する 2 番目の論文を執筆しました。

Gemini のマルチモーダルモデルに基づいて、チームは Med-Gemini シリーズ用の複数のモデルを開発しました。これらのモデルは、Gemini のコア機能を継承しており、2D および 3D 放射線学、組織病理学、眼科、皮膚科、ゲノミクスデータを微調整することで医療用途に最適化されています。

1. Med-Gemini-2D: 放射線学、病理学、皮膚科、眼科の画像を処理できます。

2. Med-Gemini-Polygenic: 可能です。ゲノムの「画像」を処理する。

「

ジェミニのマルチモーダル医療能力の進歩

」と題されたこの研究は、2024年5月6日にarXivプレプリントプラットフォームで公開されました。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。医療データソースには、バイオバンク、電子健康記録、医療画像、ウェアラブルデバイス、バイオセンサー、ゲノム配列決定などのさまざまなソースからの医療データが含まれます。これらのデータは、人口の健康と病気の複雑さをより適切に捉えるためのマルチモーダル AI ソリューションの開発を推進しています。

医療における AI は主に単一の入力と出力タイプを持つ狭いタスクに焦点を当ててきましたが、生成 AI の最近の進歩は、医療現場におけるマルチモーダル、マルチタスクの課題の解決に有望であることを示しています。

Gemini のような強力なモデルに代表されるマルチモーダルな生成 AI は、医療に革命をもたらす大きな可能性を秘めています。医学はこれらの新しいモデルを迅速に反復するためのデータソースですが、一般的なモデルは、データが高度に特殊化されているため、医療分野に適用するとパフォーマンスが低下することがよくあります。

Gemini のコア機能に基づいて、DeepMind は Med-Gemini シリーズの 3 つの新しいモデル、Med-Gemini-2D、Med-Gemini-3D、および Med-Gemini-Polygenic を発売しました。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

イラスト: メド・ジェミニの概要。 (出典: 論文)

モデルのトレーニングには、370 万件の医療画像と症例からの 700 万件を超えるデータサンプルが使用されました。病院からのプライベートデータセットを含む、さまざまな視覚的な質問応答および画像キャプションデータセットが使用されています。

3D データ (CT) を処理するには、Gemini ビデオエンコーダーが使用され、時間次元が深度次元として扱われます。ゲノムデータを処理するために、さまざまな形質のリスクスコアが画像内の RGB ピクセルとしてエンコードされました。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。図: 個人の PRS 画像と人口統計情報を使用して冠状動脈疾患を予測する例。 (出典: 論文)

Med-Gemini-2D

Med-Gemini-2D は、専門家の評価に基づいて AI ベースの胸部 X 線 (CXR) レポート生成の新しい標準を設定し、以前の 2 つの独立したデータを上回りました。このセットの結果は、絶対的な優位性が 1% と 12% で、そのうち AI の正常症例レポートは 57% と 96%、異常症例レポートは 43% と 65% でした。元の放射線科医のレポートと比較すると、品質は「同等の「」、あるいは「より優れた」。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。グラフィック: 胸部 X 線分類タスクにおける Med-Gemini-2D のパフォーマンス。 (出典: 論文)

Med-Gemini-2D は、胸部 X 線分類の分散タスクにおいて、一般的な大型の Gemini 1.0 Ultra モデルよりも優れています (トレーニング中の同じデータセットの例で見られます)。ディストリビューション外のタスクの場合、パフォーマンスは異なります。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。イラスト: Med-Gemini-2D 病理組織画像分類パフォーマンス。 (出典: 論文)

組織病理学的分類タスクでは、Med-Gemini はほとんどの場合 Gemini Ultra を上回りましたが、病理学固有の基本モデルを上回ることはできませんでした。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

グラフィック: PAD-UFES-20 分類タスクのパフォーマンス。 (出典: 論文)

Med-Gemini はドメイン固有モデルに非常に近いですが、皮膚病変の分類でも同様の傾向が観察されます (ドメイン固有モデル > Med-Gemini > Gemini Ultra)。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

グラフィック: Med-Gemini-2D、Gemini Ultra、および眼底画像分類用の追加データを使用してトレーニングされた教師ありモデルのパフォーマンス比較。（出典：論文）

眼科分類についても、同様の状況が再び見られます。ドメイン固有のモデルは約 200 倍のデータでトレーニングされるため、Med-Gemini は比較して非常に優れたパフォーマンスを発揮することに注意してください。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

イラスト: VOA タスクの評価の詳細。 (出典: 論文)

チームはまた、医療視覚的質問応答 (VQA) で Med-Gemini-2D モデルを評価しました。ここで、彼らのモデルは多くの VQA タスクで非常に強力であり、多くの場合 SOTA モデルを上回ります。 Med-Gemini-2D は、CXR 分類と放射線科 VQA で良好なパフォーマンスを示し、20 タスク中 17 タスクで SOTA またはベースラインを上回りました。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

図: 胸部 X 線レポートの生成を詳細に説明する評価。 (出典: 論文)

医療画像の単純な狭い解釈を超えて、著者らは胸部 X 線放射線レポート生成における Med-Gemini-2D のパフォーマンスも評価し、それが放射線科専門家の評価 SOTA に基づいて達成されていることを観察しています。

Med-Gemini-3D

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

図: 頭部 CT ボリュームレポートによって生成された手動評価結果。 (出典: 論文)

Med-Gemini-3D は 2D 画像だけでなく、エンドツーエンドの CT レポートの自動生成にも使用できます。専門家の評価によると、これらの AI レポートの 53% は臨床的に許容できると考えられており、専門放射線科医からのレポートの品質を満たすには追加の研究が必要ですが、これはこのタスクを実行できる最初の生成モデルです。

Med-Gemini-Polygenic

最後に、Med-Gemini-Polygenic の健康転帰の予測は、さまざまな形質の多遺伝子リスクスコアに基づいて評価されました。このモデルは通常、既存のベースラインを上回ります。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

図: Med-Gemini-Polygenic を使用した健康アウトカムの予測と、偏在および分布外のアウトカムの 2 つのベースラインとの比較。 (出典: 論文)

Med-Gemini がサポートするマルチモーダルな会話の例をいくつか示します。

マルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。

イラスト: 自由質疑応答による 2D 医療画像の会話の例。 (出典: 論文)

病理組織学、眼科、皮膚科の画像分類において、Med-Gemini-2D は 20 タスク中 18 タスクでベースラインを上回り、タスク固有のモデルのパフォーマンスに近づきました。

結論

全体として、この研究は一般的なマルチモーダル医療人工知能モデルに関して有益な進歩を遂げましたが、明らかにまだ改善の余地がたくさんあります。多くのドメイン固有モデルは Med-Gemini よりも優れたパフォーマンスを発揮しますが、Med-Gemini はより少ないデータとより一般的な手法でも良好なパフォーマンスを発揮できます。興味深いことに、Med-Gemini は、VQA や放射線レポートの作成など、言語理解に依存するタスクでより優れたパフォーマンスを発揮するようです。

研究者らは、これらの個々の機能がすべて包括的なシステムに統合され、さまざまな複雑な学際的な臨床タスクを実行できる未来を思い描いています。 AI は人間と協力して臨床効果を最大化し、患者の転帰を改善します。

論文リンク: https://arxiv.org/abs/2405.03162

関連コンテンツ: https://twitter.com/iScienceLuvr/status/1789216212704018469

以上がマルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。