データ管理は生成人工知能の健全な発展の鍵です-AI-php.cn

2023 年は人工知能時代の正式な始まりとなり、ほぼ全員が ChatGPT について話しています。

データ管理は生成人工知能の健全な発展の鍵です

ChatGPT のような生成型人工知能言語モデルは、人工知能が対話する様子を観察できるという初めての理由から、私たちの注目と関心を集めてきました。私たちは実在の人物が好きで、創造的だと思う記事、詩、その他の新しいコンテンツを生成します。生成 AI ソリューションは、より迅速かつ優れたイノベーション、生産性、価値の実現を可能にする画期的な可能性に満ちているように見えます。ただし、その制限は広く知られておらず、データプライバシーとデータ管理のベストプラクティスも広く理解されていません。

最近、テクノロジーおよびセキュリティコミュニティの多くが、人工知能テクノロジーの使用に対する理解と適切な規制が欠如していることを理由に警鐘を鳴らしています。 AI ツールの出力の信頼性、IP (知的財産) や機密データの漏洩、プライバシーとセキュリティの侵害に関する懸念がすでに現れています。

Samsung の ChatGPT に関する事件は、テクノロジー大手が誤って人工知能に秘密を漏らしてしまったことで大きく報道されました。 Samsung 社だけではありません。Cyberhaven の調査によると、従業員の 4% が企業の機密データを大規模な言語モデルに入れていることがわかりました。多くの人は、企業データに基づいてモデルをトレーニングすると、AI 企業がそのデータを他の場所で再利用できる可能性があることを知りません。

サイバーセキュリティインテリジェンス会社 Recorded Future は次のように明らかにしました。「ChatGPT のリリースから数日以内に、欠陥はあるものの強力なマルウェア、ソーシャルネットワーク上のマルウェアを共有していた多数の脅威アクターをダークウェブと特別なアクセスフォーラムで発見しました。エンジニアリングチュートリアル、金儲けスキームなど、すべて ChatGPT を使用することで可能になります。」

プライバシーの観点から言えば、個人が ChatGPT のようなツールにサインアップすると、アクセス権が付与されます。 IP アドレス、ブラウザ設定、今日の検索エンジンのようなブラウジング動作まで。しかし、プライベート・インターネット・アクセスのエンジニアリング・ディレクター、ホセ・ブラヤ氏は、「個人の同意なしに政治的信念や性的指向が暴露される可能性があり、恥ずかしい情報、さらにはキャリアを台無しにする情報が公開される可能性がある」ため、リスクはより高いと述べた。

これらの新しい AI テクノロジーを実装するには、より良い規制と標準が必要であることは明らかです。しかし、データガバナンスとデータ管理の重要な役割に関する議論は不足しています。しかし、これは企業による AI の導入と安全な使用において重要な役割を果たします。

#すべてはデータです

注目すべき 3 つの領域を次に示します:

データガバナンスとトレーニングデータの透明性: 中核的な問題は、独自の事前トレーニングされた AI モデルまたは大規模言語モデル (LLM) に関するものです。 LLM を使用した機械学習プログラムには、さまざまなソースからの大規模なデータセットが含まれています。問題は、LLM がブラックボックスであり、ソースデータに対する透明性がほとんどないことです。これらの情報源に不正なデータが含まれているか、PII (個人を特定できる情報) が含まれているか、信頼できるか、偏っていないか、正確であるか、合法であるかはわかりません。 LLM R&D はソースデータを共有しません。

ワシントンポストは、1,500 万の Web サイトにわたる Google の C4 データセットを分析し、扇動的なデータや PII データ、その他の不審なコンテンツを含む多数の不快なサイトを発見しました。データガバナンスが必要です。これには、使用されるデータソースの透明性と、それらのソースに含まれる知識の有効性/信頼性が必要です。たとえば、AI ボットが未検証のソースやフェイクニュースサイトからのデータに基づいてトレーニングされ、会社の新しいポリシーや研究開発の取り組みの一部となっている知識に偏りが生じている可能性があります。

データ分離とデータドメイン: 現在、AI ベンダーごとに、提供されたデータの処理方法に関するプライバシーポリシーが異なります。従業員は、モデルがデータをナレッジベースに組み込む可能性があることを知らずに、プロンプトで LLM にデータを提供してしまう可能性があります。企業は、知らず知らずのうちに企業秘密、ソフトウェアコード、個人データを世界に公開する可能性があります。

一部の AI ソリューションでは、API を使用して、事前トレーニングされたモデルからデータを除外することでデータプライバシーを保護するなどの回避策が提供されていますが、これにより AI の機能的価値も制限されます。なぜなら、理想的なユースケースは、データのプライバシーを維持しながら、事前トレーニングされたモデルをケース固有のデータで拡張することだからです。

1 つの解決策は、事前トレーニングされた AI ツールにデータの「ドメイン」の概念を理解させることです。トレーニングデータの「共通」ドメインは事前トレーニングに使用され、共通のアプリケーション間で共有されますが、「独自のデータ」に基づくトレーニングモデルは組織の境界内に安全に制限されます。データ管理により、これらの境界が作成され、維持されることが保証されます。

人工知能の派生: データ管理の 3 番目の領域には、人工知能プロセスによって生成されたデータとその最終的な所有者が関係します。たとえば、AI ボットを使用してコーディングの問題を解決します。何かが間違って実行されてバグやバグが発生した場合、通常は誰が何を行ったかがわかり、調査して修正する必要があります。しかし、AI の場合、AI によって実行されたタスクから生じるエラーや悪い結果の責任を組織が誰に負わせるかを定義することは困難です。機械を責めることはできません。エラーや悪い結果を引き起こしたのはある程度人間です。

さらに複雑な質問は IP です。生成人工知能ツールを使用して作成された作品の IP を所有していますか?法廷でどうやって自分を弁護しますか？ Harvard Business Review によると、アート界は特定の AI アプリケーションに対して訴訟を起こし始めています。

データ管理戦略を検討しましょう

初期の頃、私たちは不良データ、プライバシー、セキュリティにおける人工知能の役割を知りませんでした。、知的財産など機密データセットのリスクについて知られていないこと。人工知能は、LLM、ビジネスプロセスロジックに基づく自動化などの複数のアプローチを備えた幅広い分野でもあります。これらは、データガバナンスポリシーとデータ管理実践の組み合わせを通じて検討されるトピックのほんの一部です:

リスクを軽減し、結果を検証するための監視戦略、ポリシー、手順が確立されるまで、生成 AI の実験を一時停止してください。

データ管理の基本原則を組み込むには、データがどこに存在するかに関係なく、データをしっかりと理解することから始まります。機密の PII と顧客データはどこにありますか? IP データはどれくらいありますか? これらのファイルはどこにありますか?このような種類のデータが AI ツールに誤って入力されないように使用状況を監視し、セキュリティやプライバシーの侵害を防ぐことはできますか?

AI アプリケーションに必要以上のデータを提供したり、機密の独自データを共有したりしないでください。 IP と顧客データをロック/暗号化して共有を防ぎます。

AI ツールがデータソースに対して透過的になる方法とその有無を理解します。

#プロバイダーはデータを保護できますか? Google はこの発表をブログで共有しましたが、その「方法」は不明です。「企業が Vertex AI でモデルをトレーニングしているか、Generative AI App Builder でカスタマーサービスエクスペリエンスを構築しているかに関係なく、プライベートデータは非公開のままであり、外部で使用されることはありません」より広範なベースモデルトレーニングコーパス。」各 AI ツールの契約文言を読み、AI ツールに提供するデータが機密保持できるかどうかを確認してください。

二次的著作物としてプロジェクトを委託した所有者、個人、または部門をタグ付けするデータ。これは、会社が生み出すあらゆる仕事に最終的に責任を負う可能性があり、AI がどのようにプロセスに統合され、誰が関与しているのかを知りたい場合に役立ちます。

ドメイン間のデータの移植性を確保します。たとえば、チームは、IP および識別機能のデータを取り除き、将来の使用のために共通のトレーニングデータセットにフィードしたい場合があります。このプロセスの自動化と追跡は重要です。

策定中の業界規制やガイダンスについて常に最新の情報を入手し、他の組織の同僚と話し合って、リスク軽減やデータ管理にどのように取り組んでいるかを理解してください。

生成 AI プロジェクトを開始する前に、法律の専門家に相談して、データ侵害、プライバシーと IP の侵害、悪意のある行為者、または虚偽/誤った結果が発生した場合のリスクとプロセスを理解してください。。

企業における人工知能への実践的なアプローチ

人工知能は急速に発展しており、イノベーションを加速し、コストを削減し、ユーザーエクスペリエンスを向上させる可能性を秘めており、大きな可能性を秘めています。前例のない率。ただし、ほとんどの強力なツールと同様に、AI は適切なデータガバナンスとデータ管理のガードレールを備えた適切な状況で慎重に使用する必要があります。人工知能のデータ管理に関する明確な標準はまだ確立されておらず、これはさらなる調査が必要な分野です。同時に、企業は AI アプリケーションを使用する前に注意を払い、データ漏洩、データ侵害、および潜在的なデータセキュリティリスクについて明確に理解していることを確認する必要があります。

以上がデータ管理は生成人工知能の健全な発展の鍵ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。