合成データジェネレーターで AI バイアスの問題を回避する方法-AI-php.cn

合成データジェネレーターで AI バイアスの問題を回避する方法

王林

リリース： 2023-04-26 14:40:08

転載

859 人が閲覧しました

合成データジェネレーターで AI バイアスの問題を回避する方法

AI バイアスは、個人にさまざまな影響を与える可能性がある深刻な問題です。

人工知能が進歩するにつれて、データサイエンスソリューションを取り巻く疑問や倫理的ジレンマが表面化し始めています。人間は意思決定プロセスから自らを遠ざけているため、これらのアルゴリズムによる判断が偏見や差別的でないことを保証したいと考えています。人工知能は常に監視されなければなりません。人工知能は大量のデータを処理できる予測分析に基づくデジタルシステムであるため、この偏りの可能性が人工知能によって引き起こされているとは言えません。問題ははるかに早い段階で、監視されていないデータがシステムに「供給」されることで始まります。

歴史を通じて、人類は常に偏見と差別を抱えてきました。私たちの行動はすぐには変わらないようです。人間とは異なり、問題の影響を受けないと思われるシステムやアルゴリズムにはバイアスが存在します。

人工知能バイアスとは何ですか?

AI バイアスは、データの取得方法により、関心のあるグループを正しく表さないサンプルが生成される場合に、データ関連分野で発生します。これは、特定の人種、信条、肌の色、性別の人々がデータサンプル内で過小評価されていることを示唆しています。これにより、システムが差別的な結論を下す可能性があります。また、データサイエンスコンサルティングとは何なのか、なぜそれが重要なのかという疑問も生じます。

AI におけるバイアスとは、AI システムが意図的に特定のグループの人々を優遇するように作成されていることを意味するものではありません。人工知能の目標は、個人が指示ではなく例を通じて自分の欲求を表現できるようにすることです。つまり、AI に偏りがあるとすれば、それはデータに偏りがあるからだけである可能性があります! 人工知能の意思決定は現実世界で動作する理想化されたプロセスであり、人間の欠陥を隠すことはできません。ガイド付き学習を組み込むことも有益です。

なぜそうなるのですか?

人工知能のバイアスの問題は、データにアルゴリズムによる適切な結論を導き出すのに役立つ先入観に基づく人間の選択が含まれている可能性があるために発生します。 AI バイアスの実例はいくつかあります。人種差別的な人々や有名なドラァグクイーンは、Google のヘイトスピーチ検出システムによって差別されました。 10 年間、アマゾンの人事アルゴリズムには主に男性従業員に関するデータが入力され、その結果、女性候補者がアマゾンでの仕事に適格であると評価される可能性が高くなりました。

マサチューセッツ工科大学 (MIT) のデータサイエンティストによると、顔認識アルゴリズムは、少数派、特に少数派の女性の顔を分析する際にエラー率が高くなります。これは、トレーニング中にアルゴリズムに主に白人男性の顔が与えられたためである可能性があります。

Amazon のアルゴリズムは、米国内の 1 億 1,200 万人のプライムユーザーだけでなく、サイトに頻繁にアクセスし、他の商品を頻繁に使用するさらに数千万人の個人からのデータに基づいてトレーニングされているため、同社は消費者の購買行動を予測できます。。 Google の広告ビジネスは、毎日行われる数十億のインターネット検索と市場に流通している 25 億台の Android スマートフォンからのデータを基にした予測アルゴリズムに基づいています。これらのインターネット巨人は巨大なデータ独占を確立しており、人工知能の分野ではほぼ克服できない優位性を持っています。

合成データは AI バイアスへの対処にどのように役立ちますか?

理想的な社会では、肌の色、性別、宗教、性的指向に関係なく、誰も偏見を持たず、誰もが平等な機会を得ることができます。しかし、それは現実の世界にも存在しており、特定の分野で多数派と異なる人々は仕事を見つけたり教育を受けたりするのがより困難であり、多くの統計で過小評価されています。 AI システムの目標によっては、そのような人々はスキルが低く、これらのデータセットに含まれる可能性が低く、良いスコアを達成するのに適していないという誤った推論につながる可能性があります。

一方、AI データは、偏りのない AI の方向への大きな一歩となる可能性があります。考慮すべき概念は次のとおりです。

実際のデータを見て、どこにバイアスがあるかを確認します。次に、データは実世界のデータと観察可能なバイアスを使用して合成されます。理想的な仮想データジェネレーターを作成したい場合は、偏ったデータを公平とみなされるデータに変換しようとする公平性の定義を含める必要があります。

AI で生成されたデータは、あまり変化がないデータセットや、不偏のデータセットを形成するほど大きくないデータセットのギャップを埋める可能性があります。サンプルサイズが大きい場合でも、一部の人が除外されたり、他の人に比べて過小評価されたりする可能性があります。この問題は合成データを使用して解決する必要があります。

データマイニングは、不偏データを生成するよりもコストが高くなる可能性があります。実際のデータ収集には、測定、インタビュー、大量のサンプルが必要で、いずれにしても多大な労力が必要です。 AI によって生成されるデータは安価であり、データサイエンスと機械学習アルゴリズムの使用のみが必要です。

ここ数年、多くの営利合成データ会社の幹部や、Synthea の創設者である MitreCorp. は、自社のサービスに対する関心が急増していることに気づいています。しかし、人生を変える意思決定を行うためにアルゴリズムがより広く使用されるようになるにつれて、顔認識、犯罪予測、医療上の意思決定など、影響の大きい他の分野において、アルゴリズムが人種差別、性差別、有害な偏見を悪化させることが判明しています。研究者らは、アルゴリズムで生成されたデータに基づいてアルゴリズムをトレーニングすると、AI システムが多くの状況で有害なバイアスを永続させる可能性が高まると述べています。

以上が合成データジェネレーターで AI バイアスの問題を回避する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。