生成AIおよびエージェントAIの20のオープンソースデータセット-AI-php.cn

生成およびエージェントAI：トップオープンソースデータセットに深く潜ります

生成AI（GENAI）とエージェントAIの分野は、創造的なコンテンツ生成から自律的な意思決定に至るまで、すべてに革命をもたらしています。この進捗は、モデルトレーニング、テスト、展開に使用される広大で公開されたデータセットによって促進されます。この記事では、生成的およびエージェントAIの両方の主要なオープンソースデータセットのキュレーションされた選択を紹介します。さまざまなデータタイプを網羅しています。広範なテキストや画像コレクションから、インテリジェントエージェントの構築や複雑な推論の問題に取り組むための専門的なリソースまで。

20 Open-Source Datasets for Generative AI and Agentic AI

パイル：巨大なテキストコーパス

パイルは、Arxiv、Github、Wikipediaを含むさまざまなソースから編集された大規模で多様なテキストデータセット（約800GB）です。その幅広いライティングスタイルとトピックにより、大規模な言語モデルのトレーニング、自然言語の理解と生成能力の向上に最適です。

に最適：

大規模な言語モデルのトレーニング、洗練された自然言語理解システムの開発、および特定のテキスト生成タスクの微調整モデル。 link：

eleutherai - パイル

一般的なクロール：Webスケールのデータ

Common Crawlは、毎月更新された数十億のWebページを集約する真のWebスケールデータセットを提供します。この多様なオンラインコンテンツの大規模なコレクションは、堅牢な言語モデルをトレーニングするために非常に貴重です。

に最適：

Webスケール言語モデルの構築、情報検索と検索エンジン機能の強化、オンラインコンテンツの動向とユーザーの動作の分析。

link：common crawl

wikitext：高品質のウィキペディアデータ

wikitextは、高品質のウィキペディア記事を活用して、言語モデリングデータセットを作成します。その構造化されたコンテンツと言語の複雑さは、特に長距離依存関係を習得するために、モデルに挑戦的な学習環境をもたらします。複数のバージョンが存在し、wikitext-103が前任者よりも大幅に大きい。

に最適なもの：>トレーニング言語モデルは、長距離コンテキスト、次のワードの予測とテキスト生成のベンチマーク、および要約と翻訳のための微調整モデルに焦点を当てています。

リンク：

wikitext hugging face

のレクリエーション

に最適：

>多様なオンラインテキストを使用したWebスケール言語モデルのトレーニング、テキスト生成と要約のための微調整モデル、および現在のWebデータを使用した自然言語の理解の調査link：githubのopenwebtext

laion-5b：マルチモーダルの巨人

LAION-5Bは、マルチモーダルAIの比類のないリソースを提供する大規模なデータセット（58億5,500万億画像テキストペア）です。そのスケールと多様性は、トレーニングの最先端のテキストからイメージモデルをサポートし、システムが言語を視覚コンテンツに効果的に変換できるようにします。

テキストから画像への生成モデルのトレーニング、マルチモーダルコンテンツ合成システムの開発、高度な画像キャプションと視覚的なストーリーテリングアプリケーションの作成

link：laion-5b

Coco ms：豊富な注釈付き画像

Cocoは、オブジェクトの検出、セグメンテーション、およびキャプションのための詳細な注釈を備えた包括的な画像のコレクションを提供します。その複雑さは、視覚的なシーンの徹底的な説明を生成し、画像の理解と生成の進歩を促進するためにモデルに挑戦しています。
に最適：

link：

ms coco

Open Images Dataset：大規模なコミュニティの取り組み

Open Images Datasetは、ラベル、境界ボックス、セグメンテーションマスクを備えた大規模でコミュニティ主導の画像のコレクションです。その広範なカバレッジと多様なコンテンツは、一般的な画像生成と認識モデルのトレーニングに最適です。

に最適：トレーニング汎用画像生成システム、オブジェクトの検出モデルの強化、堅牢な画像認識フレームワークの構築。

link：Open Images Dataset

redpajama-1tおよびredpajama-v2：llamaのデータの再現と改良

Redpajama-1Tは、Llamaの前削減データセットのオープンソースの再現であり、Redpajama-V2は高品質のWebデータと多言語サポートに焦点を当てることでそれを改良します。どちらも、大規模な言語モデルの事前トレーニングとデータセットキュレーションに貴重なリソースを提供します。

に最適：

Llamaのトレーニングデータ、オープンソースLLM事前化、および多領域/多言語データセットキュレーションを再現します。リンク：

redpajama-1t、redpajama-v2

Openai WebGPTデータセット：Webインタラクションデータ

Openai WebGPTデータセットは、Webと動的に対話するAIエージェントのトレーニングに焦点を当てています。検索された生成システムを開発するために重要な、現実世界のWebブラウジングインタラクションの人間が注文したデータが含まれています。

に最適：

>> Webブラウジングと情報検索エージェントのトレーニング、検索された自然言語処理システムの開発、およびWebコンテンツとの対話および理解のAIの能力の向上。

リンク：openai webgptデータセット

Obsidian Agent Dataset：シミュレートされた意思決定

Obsidian Agent Datasetは、合成データを使用して、AIエージェントの自律的な意思決定、複雑な計画、意思決定スキルのテストのための環境をシミュレートします。
に最適：

link：

obsidian agent dataset

WebShop Dataset：eコマースインタラクション

WebShopデータセットでは、製品の説明、ユーザーインタラクションログ、ブラウジングパターンを備えたeコマース環境をシミュレートします。これは、製品の研究、推奨、自動購入のためにインテリジェントエージェントを開発するのに最適です。

に最適なもの：
eコマースナビゲーションと製品調査のためのAIエージェントの構築、オンライン買い物客向けの推奨システムの開発、製品の比較と購入決定プロセスの自動化。

リンク：

WebShop Dataset

Meta EAIデータセット（具体化されたAI）：ロボット工学と家庭用タスク

メタEAIデータセットは、特にロボット工学と家庭用タスクの計画のために、仮想および現実世界の環境と対話するトレーニングAIエージェントをサポートしています。

に最適：>実世界のタスクのためのインタラクティブロボットエージェントのトレーニング、家庭用タスクの計画と実行のシミュレーション、および仮想環境での具体化されたAIアプリケーションの開発。

リンク：Meta EAI Dataset

Mujoco：現実的な物理シミュレーション

ムホコは、特にロボット工学用の現実的なシミュレーションを作成するための物理エンジンです。 AIモデルは、物理ベースの環境で複雑な動きを学び、タスクを制御できます。

に最適なもの：

リアルなロボットシミュレーションのトレーニングモデル、シミュレートされた環境での高度な制御システムの開発、物理ベースのタスクに関するAIアルゴリズムのベンチマーク。

link：

mujoco

に最適：

>実世界のロボットインタラクション、センサーベースの意思決定システムの開発、および動的環境での具体化されたAIパフォーマンスのベンチマークのためのAIのトレーニング。

リンク：Robotics Datasets

Atari Games：補強学習ベンチマーク

Atari Gamesは、補強学習アルゴリズムのための古典的なベンチマークを提供し、シーケンシャルな意思決定タスクのためのゲーム環境スイートを提供します。

ベンチマーク補強学習戦略、さまざまなゲーム環境でのAIパフォーマンスのテスト、シーケンシャルな意思決定のためのアルゴリズムの開発。

link：

atari games

Webがクロールしたインタラクション：実際のユーザーの動作データ

に最適：
>トレーニングインタラクティブエージェントは、実際のユーザーの動作、動的な相互作用データを備えた推奨システムの強化、および会話型AIのエンゲージメントトレンドの分析

リンク：

Webがクロールしたインタラクション

AI2 ARCデータセット：Commonsense Reasoning

AI2 ARCデータセットには、AIの常識的な推論と問題解決能力を評価するための挑戦的な複数選択の質問が含まれています。

理想：
ベンチマーク常識推論機能、標準化されたテストの質問を処理するためのトレーニングモデル、AIシステムでの問題解決と論理的推論の強化。

ai2 arc dataset

MS MARCO：情報の検索と質問の回答

MS MARCOは、通過ランキング、質問応答、情報検索、トレーニング、検索の高等発電システムの大規模なデータセットです。

に最適：>トレーニング検索された生成（RAG）モデル、高度なパッセージランキングと質問回答システムの開発、および実際のデータを使用した情報検索パイプラインを強化します。

link：

ms marco

に最適：

ベンチマーク補強学習アルゴリズム、エージェントのシミュレートされたトレーニング環境の開発、および制御されたシナリオにおけるエージェントの動作の迅速なプロトタイピング。

link：openai Gym

概要表（オリジナルと同様に、データセットを要約するテーブルはここに含まれます。）

）

結論

議論されたオープンソースのデータセットは、高度な生成およびエージェントAIを開発するための強力な基盤を提供します。彼らは、さまざまなAIドメインでイノベーションを促進するために必要な規模と多様性を提供します。

よくある質問

（元のものと同様に、FAQセクションはここに含まれます。）

以上が生成AIおよびエージェントAIの20のオープンソースデータセットの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

生成AIおよびエージェントAIの20のオープンソースデータセット

wikitext：高品質のウィキペディアデータ

Atari Gamesは、補強学習アルゴリズムのための古典的なベンチマークを提供し、シーケンシャルな意思決定タスクのためのゲーム環境スイートを提供します。

に最適：

ベンチマーク常識推論機能、標準化されたテストの質問を処理するためのトレーニングモデル、AIシステムでの問題解決と論理的推論の強化。

MS MARCO：情報の検索と質問の回答

結論