プライバシー保護: AI による医療臨床データの匿名化-AI-php.cn

プライバシー保護: AI による医療臨床データの匿名化

新型コロナウイルス感染症（COVID-19）の突然の流行に直面して、私たちは記録的なデータ侵害を目撃しました。最近の IBM のレポートでは、データ侵害のコストも劇的に上昇していることが判明しました。

ヘルスケアは間違いなくデータ侵害によって最も大きな影響を受ける業界の 1 つであり、データ侵害 1 件あたりのコストは平均 920 万ドルに上ります。このような侵害で最も頻繁に流出する情報の種類は、機密性の高い顧客データです。

製薬会社やヘルスケア会社は、患者データを保護しながら、厳格なガイダンスに従って組織および運営する必要があります。したがって、侵害は多大な損害をもたらす可能性があります。たとえば、企業は創薬段階を通じて個人を特定できる情報 (PII) を収集、処理、保存する必要があり、治験が終了して臨床申請を提出する際には、公表される結果における患者のプライバシーを保護するために注意を払う必要があります。

欧州医薬品庁 (EMA) 規則 No. 0070 とカナダ保健省が発行した「臨床情報の公開」規則はどちらも、患者の回復のための結果の使用を最小限に抑えることを期待して、データの匿名化に関する具体的な提案を提示しています。身元情報のリスク。

これらの規制では、データプライバシーの擁護に加えて、コミュニティが確実にデータに取り組むことができるように試験データの共有も義務付けています。しかし、これは間違いなく企業をジレンマに陥らせます。

それでは、製薬会社は、研究結果をタイムリーかつ費用対効果の高い効率的な方法で公開しながら、データのプライバシーと透明性のバランスをどのようにとっているのでしょうか? AI テクノロジーが提出プロセスのワークロードの 97% 以上を引き受け、企業の運用負担を大幅に軽減できることが事実で証明されています。

臨床研究結果 (CSR) を匿名化することが非常に難しいのはなぜですか?

臨床申請の匿名化を実装する過程で、企業は主に 3 つの主要な課題に直面します。

非構造化データは処理が困難です。 臨床試験データの中には、多くのデータが含まれます。そのほとんどは非構造化データです。研究結果には大量のテキストデータ、スキャンした画像、表が含まれているため、処理が非効率になります。研究報告書は多くの場合、数千ページに及ぶため、その中の機密情報を特定することは、干し草の山から針を見つけるようなものです。さらに、この種の処理を自動化できる標準化された技術トレーニングソリューションはありません。

手動プロセスは煩雑でエラーが発生しやすいです: 現在、製薬会社は臨床研究の提出を匿名化するために何百人もの従業員を雇用しています。チーム全体が 25 を超える複雑な手順を実行する必要があり、一般的な概要ドキュメントの処理には最大 45 日かかる場合があります。また、何千ページもの資料を手動でレビューする場合、その面倒なプロセスによりエラーが発生することがよくあります。

規制ガイドラインの自由な解釈: 規制には多くの詳細な提案がありますが、詳細はまだ不完全です。たとえば、カナダ保健省の「臨床情報の公開」規制では、ID 情報の回復リスクを 9% 未満にすることが求められていますが、具体的なリスク計算方法については詳しく説明されていません。

以下では、問題解決の観点から、このような匿名化のニーズに対応できる具体的なソリューションを想定します。

拡張分析を使用して人間の言語で機密情報を識別する

次の 3 つの要素は、テクノロジー主導の匿名化ソリューションの構築に役立ちます:

処理用の自然言語 AI 言語モデル (NLP) )

現在、AI はアーティストのように創作したり、医師のように診断したりできます。深層学習テクノロジーは AI の多くの進歩を促進し、AI 言語モデルはそのバックボーンの 1 つです。人間の言語を処理するように設計されたアルゴリズムの 1 つである AI 言語モデルは、患者名、社会保障番号、郵便番号などの固有表現の検出に特に優れています。

これらの強力な AI モデルは、無意識のうちにパブリックドメインの隅々に浸透し、公開文書を使用して大規模にトレーニングされています。有名な Wikipedia に加えて、40,000 人の患者の減感作データを含む MIMIC-III v1.4 データベースも、AI モデルをトレーニングするための貴重なリソースとなっています。もちろん、モデルのパフォーマンスを向上させるために、ドメインの専門家は社内の臨床試験レポートに基づいてモデルのその後の再トレーニングを実行する必要もあります。

ヒューマンマシンループ設計による精度の向上

カナダ保健省によって提案された 9% のリスク閾値基準は、およそ 95% のモデル精度要件に大まかに変換できます (通常は再現率または測定値を使用します)。精度による）。 AI アルゴリズムは、大量のデータを調べ、複数のトレーニングサイクルを実行して精度を向上させることができます。ただし、技術的な改善だけでは臨床応用に備えるのに十分ではなく、これらのモデルには人間による指導やサポートも必要です。

臨床試験データの主観性に対処し、結果を改善するために、分析ソリューションは人間と連携して機能するように設計されています。これは拡張知能と呼ばれます。つまり、人間は人間と機械のループの一部とみなされ、データのラベル付けやモデルのトレーニングを担当するだけでなく、ソリューションが効果を発揮した後も定期的にフィードバックを提供します。このようにして、モデルの精度と出力パフォーマンスが向上します。

協力的なアプローチで問題を解決する

研究に 1,000 人の患者が参加し、そのうち 980 人が米国本土の出身で、残りの 20 人が南米の出身であると仮定します。では、これら 20 人の患者のデータは編集 (黒塗り) または匿名化する必要があるのでしょうか?同じ国または大陸内の患者サンプルを選択する必要がありますか?攻撃者はどのような方法でこの匿名化された情報を年齢、郵便番号、その他のデータと組み合わせて、最終的に患者の身元を復元する可能性がありますか?

残念ながら、これらの質問に対する標準的な答えはありません。臨床申請ガイダンスをより明確に解釈するには、製薬メーカー、臨床研究機関 (CRO)、テクノロジーソリューションプロバイダー、学術界の研究者が力を合わせて協力する必要があります。

AI 主導の匿名化方法

上記の基本的なアイデアを踏まえて、次のステップはそれらを組み合わせて完全なソリューションプロセスを構築することです。匿名化ソリューション全体のさまざまなテクノロジーは、私たちが業務ですでに使用している実際の方法に基づいている必要があります。

臨床研究レポートには、前述したさまざまな非構造化データ要素に加えて、さまざまな構造化データ (人口統計情報や住所エントリなどの数値およびアイデンティティエンティティ) が含まれています。これは、悪意のあるハッカーがこれらを機密の名前付きエンティティに復元できないように適切に処理する必要があります。構造化データは比較的処理が簡単ですが、AI アルゴリズムは非構造化データの難しさを克服する必要があります。

したがって、非構造化データ (通常はスキャン画像や PDF などの形式) は、まず光学式文字認識 (OCR) やコンピュータービジョンなどのテクノロジを使用して読み取り可能な形式に変換されます。その後、AI アルゴリズムが文書に適用され、個人を特定できる情報が検出されます。アルゴリズムのパフォーマンスを向上させるために、ユーザーはサンプル結果に関するフィードバックを共有して、システムがこれらの信頼性の低い分析の処理方法を理解できるようにすることができます。

プライバシー保護: AI による医療臨床データの匿名化

AI を活用した匿名化手法

匿名化が完了したら、対応する ID 復元のリスクも評価する必要があります。この研究では通常、母集団の背景を参照し、他の同様の試験からのデータと組み合わせる必要があります。リスク評価は、一連の要素を通じて、検察官、ジャーナリスト、マーケティング担当者の 3 つの主要なリスクシナリオを特定することに重点を置いています。これら 3 つのグループは、それぞれのニーズに基づいて患者情報の復元を試みます。

リスクレベルが規定の推奨値の 9% に達するまで、匿名化プロセスではさらに多くのビジネスルールとアルゴリズムの改善が導入され、反復サイクルで有効性が向上します。次に、他のテクノロジーアプリケーションと統合し、機械学習オペレーション (ML Ops) プロセスを確立することで、匿名化ソリューション全体を実際のワークフローに組み込むことができます。

アルゴリズムよりも難しい課題 - データ品質

製薬会社にとって、このような匿名化ソリューションは提出サイクルを最大 97% 短縮できます。さらに重要なのは、この半自動化されたワークフローにより、人間の関与を確保しながら効率が向上します。しかし、AI を活用した匿名化ソリューションを構築する際の最大の課題は何でしょうか?

実際、ほとんどのデータサイエンスの実践と同様、この作業に対する最大の障害は、名前付きエンティティの識別に使用される AI アルゴリズムではなく、調査レポートを、データサイエンスで処理できる高品質のデータに変換する方法です。あい。形式、スタイル、構造が異なるドキュメントの場合、対応するコンテンツ取り込みパイプラインが失われることがよくあります。

したがって、AI 匿名化ソリューションは、新しいドキュメントのエンコード形式に適応したり、画像や表のスキャンの開始位置と終了位置を正確に検出したりするために、常に微調整する必要があります。明らかに、この作業面は AI 匿名化において最も時間とエネルギーを消費する領域です。

臨床研究における匿名化の新たな課題

テクノロジーの急速な進歩により、臨床研究の匿名化は今後も困難が軽減され、より効率的になるでしょうか? AI を活用したソリューションは確かに優れていますが、注意が必要な新たな課題も存在するでしょう。

まず、ソーシャルメディア、デバイスの使用状況、オンライン追跡を通じて収集された消費者データにより、ID 復元のリスクが大幅に増加しています。攻撃者は、この公開情報と臨床研究データを組み合わせて、患者を正確に特定することができます。さらに懸念されるのは、悪意のあるハッカーが AI の結果を積極的に応用しており、製薬会社よりも先を行く可能性があることです。

最後に、国固有の慣行に対応するために規制は進化し続けています。おそらく、近いうちに一部の国が臨床申請の匿名化に関する特定の規制を発表することになるでしょう。これにより、企業がコンプライアンスを維持するための複雑さとコスト負担が確実に増大するでしょう。しかし、よく言われるように、未来は明るいが道は曲がりくねっており、AI テクノロジーの成熟した発展は、少なくとも業界全体に問題を克服する希望をもたらします。

以上がプライバシー保護: AI による医療臨床データの匿名化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。