合成データは人工知能を向上させることができるでしょうか?-AI-php.cn

人工知能 (AI) は指数関数的な進歩によりさらに高度になってきましたが、この最新テクノロジーの限界は依然として存在します。

では、合成データは人工知能に関連するすべての問題を解決できるのでしょうか?

第 4 次産業革命では、あらゆる業界が人工知能 (AI) や機械学習 (ML) などの最新テクノロジーの可能性を発見しました。

他のほぼすべての組織は、より効率的なビジネスプロセスを作成し、より高い顧客満足度を確保するために AI を導入しています。しかし、スタートアップ企業、SOHO、中小企業 (SMB) は、AI を導入する際に、コールドスタート問題として知られる大きな問題に直面します。一般にスタートアップや中小企業にはビッグデータを収集するリソースがありませんが、コールドスタートの問題は本質的にそのような関連データの欠如にあります。

一方、業界大手はすでに実世界のデータを収集し、それを自社の AI システムのトレーニングに適用するためのリソースを持っています。したがって、中小企業が勝つ可能性は非常に高いです。この場合、合成データが必要な実現要因となる可能性があります。

合成データは、データ駆動型のビジネスモデルの推進力となる可能性があります。さらに、合成データは実際のデータと同じ結果を生み出すことが研究で示されています。合成データは、実際のデータよりも安価で、処理にかかる時間が短いと考えられています。したがって、合成データの出現により、現在大企業が独占している競争条件が平準化され、中小企業や新興企業に有利になる可能性があります。

合成データの利点を発見する

合成データは、データが実際の過去のデータに可能な限り近いことを保証するために、ユーザー指定のパラメーターに基づいてコンピューターで生成された人工データです。通常、Unreal Engine や Unity などのゲームエンジンは、自動運転車などの AI ベースのアプリケーションをテストおよびトレーニングするためのシミュレーション環境としてよく使用されます。合成データに基づいて AI 駆動のアプリケーションを開発することには多くの利点があります。

合成データは人工知能を向上させることができるでしょうか?

#1. プロトタイプの開発関連する大量の実世界データの検索、集約、モデリングは、面倒なプロセスです。したがって、合成データを生成することが最良の解決策である可能性があります。このようなデータにより、プロトタイプを構築し、量産前にそのようなプロトタイプをテストして望ましい結果を得ることができます。合成データを使用してプロトタイプを構築することは、実際のデータよりも効率的でコスト効率が高くなります。

Open AI は非営利の人工知能研究会社であり、人工知能ベースのアプリケーションを多数開発しています。これらのアプリケーションの中で、研究者らは、一度実行されたアクションを見た後に新しいタスクを学習できる合成データで訓練されたロボットを開発しました。カリフォルニアのテクノロジー系スタートアップ企業は、Amazon Go と同様のビジョンを持った人工知能プラットフォームを開発しています。このスタートアップは、合成データを活用して、コンビニエンスストアや小売店にチェックアウト不要のソリューションを提供することを目指しています。また、店舗内のすべての買い物客を監視して学習パターンを特定して分析する、AI を活用したスマートシステムも導入しました。

2. データプライバシーの確保

2018 年 11 月、5 億人のマリオット顧客が注目を集めたデータ侵害の影響を受けました。この5億人のうち、3億2,700万人がパスポート情報、電子メールアドレス、郵送先住所、クレジットカード情報などのデータを盗まれた。このような事件により、人々は自分のデータのセキュリティとプライバシーについて懸念しています。

合成データは、このようなプライバシー問題を効果的に解決できます。合成データには個人データは含まれません。したがって、データのプライバシーを容易に確保できます。合成データは、ヘルスケアアプリケーションの AI システムをトレーニングする際に非常に役立ちます。 AI システムには多くの場合、実際の患者データが必要です。これは患者のプライバシーを脅かします。合成データを使用すると、患者の機密性を維持しながら、医療における高度な人工知能アプリケーションの開発が可能になります。

たとえば、Nvidia の研究者は、ミネソタ州のメイヨークリニックおよびボストンの MGH および BWH 臨床データサイエンスセンターと協力して、敵対的生成ネットワークを使用して、ニューラルネットワークをトレーニングするための合成データを生成しています。生成された合成データには、アルツハイマー病ニューロイメージングイニシアチブデータセットからの 3,400 個の MRI と、マルチモーダル脳腫瘍画像セグメンテーションベンチマークデータセットからの 200 個の 4D 脳 MRI および腫瘍が含まれています。同様に、シミュレートされた X 線を実際の X 線と並行して使用して、複数の健康状態を認識するように AI システムをトレーニングすることができます。

3. 前例のないシナリオのテストとトレーニング

AI 駆動型アプリケーションの開発における最も重要なプロセスの 1 つは、システムパフォーマンスのテストです。システムが望ましい出力を生成していない場合は、再トレーニングする必要があります。この場合、合成データが有益であることがわかります。実際のデータを使用したり、実際の環境でシステムをテストしたりする代わりに、合成データを使用して AI システムをテストするシナリオを生成できます。この方法は、実際のデータを取得するよりも安価で時間もかかりません。

同様に、合成データは、実際のデータやイベントが欠如している将来発生する可能性のあるシナリオに備えて、新規または既存のシステムをトレーニングすることもできます。このアプローチにより、研究者はより未来的な AI アプリケーションを開発できます。さらに、合成データを使用した AI システムの再トレーニングは、正確な実世界のデータを収集するよりも合成データの生成が簡単であるため、より簡単です。

これらの利点により、合成データは自動運転車のテストとトレーニングに利用できる代替手段となっています。多くの自動運転車開発者は、GTA V のようなシミュレートされたゲーム環境を使用して、AI ベースのシステムをトレーニングしています。同様に、May Mobility は、合成データを使用して車両をトレーニングすることで、自動運転マイクロモビリティサービスを構築しています。

Waymo という別の自動運転車開発会社は、すでに模擬道路で 50 億マイル、実際の道路でさらに 800 万マイルを走行して自動運転車をテストしました。合成データのアプローチにより、開発者は模擬道路で自動運転車をテストできるため、実際の道路で直接テストするよりもはるかに安全です。

4. データの柔軟性の向上

実際のデータの取得は、アノテーションの料金を支払い、著作権侵害を確実に回避する必要がある、面倒なプロセスです。さらに、実際のデータは、特定のドメインに十分な履歴データがある特定のシナリオでのみ使用できます。実際のデータとは異なり、合成データは、オブジェクト、シーン、イベント、人物のあらゆる組み合わせを瞬時に表現できます。合成データは、ニッチなアプリケーションを発見できる一般的なデータセットを生成できます。その結果、研究者は合成データを使用して無限の可能性を探ることができます。いくつかの新興企業は、顧客の要件を満たすトレーニングデータセットを開発することで、オープンデータエコノミーを構築しています。

5. 合成データの限界を探る

合成データは AI が未発見の領域に到達するのに役立ちますが、その限界が主流の展開にとって大きな障害となる可能性があります。まず、合成データは現実世界のデータのいくつかのプロパティをシミュレートしますが、元のデータを正確に複製するわけではありません。このような合成データをモデル化する場合、AI システムは実際のデータの共通の傾向と状況のみを検索します。したがって、現実世界のデータのまれなケースに含まれるまれなシナリオは、合成データには決して含まれない可能性があります。

さらに、研究者はデータが正確かどうかを確認するメカニズムをまだ開発していません。実際のデータの欠陥を見つけてそれらを減らすことは、合成データを使用するよりも簡単です。 AI 駆動のシステムには、意図しないバイアスを促進する「ダークサイド」がすでに存在します。合成データを使用して、このバイアスの範囲と影響を予測するのは時期尚早である可能性があります。

6. 課題の克服

組織は、合成データがかなり新しい発見であることを理解する必要があります。このようなデータの効率と正確性は、現在の業界標準に照らして評価されていません。したがって、合成データをスタンドアロンデータソースと見なすべきではありません。特にヘルスケアアプリケーションや自動運転車など、安全性の懸念に直面しているアプリケーションでは、合成データを現実世界のデータと組み合わせて AI システムを開発する必要があります。しかし、小売業のアプリケーションはリスク要因が低く、合成データに簡単に依存できます。

テスト目的の場合、合成データは実行可能で安価なソリューションです。ただし、他の目的では、合成データをスタンドアロンソリューションとして使用する前に、AI システムの結果を徹底的に調査および分析する必要があります。研究が進めば、さまざまな操作において合成データの信頼性が高まる可能性があります。

以上が合成データは人工知能を向上させることができるでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。