自動機械学習の Python に相当するコードの説明-Python チュートリアル-php.cn

自動機械学習の Python に相当するコードの説明

PHPz

リリース： 2023-08-22 20:25:10

転載

1082 人が閲覧しました

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃導入＃＃＃

機械学習は急速に発展している分野であり、新しいテクノロジーやアルゴリズムが常に登場しています。ただし、機械学習モデルの作成と強化は、高度な専門知識を必要とする、時間のかかる困難な作業になる可能性があります。自動機械学習 (autoML とも呼ばれます) は、特徴量エンジニアリング、ハイパーパラメーター調整、モデル選択などの面倒なタスクの一部を自動化することで、機械学習モデルの作成と最適化のプロセスを簡素化することを目的としています。自動機械学習の Python に相当するコードの説明

auto-sklearn は、Python で最も有名な機械学習ライブラリの 1 つである scikit-learn 上に構築された強力なオープンソースの自動機械学習フレームワークです。ベイジアン最適化とメタ学習を通じて、特定のデータセット上で潜在的な機械学習パイプラインを自動的に検索し、最適なモデルとハイパーパラメーターを自動的に特定します。このチュートリアルでは、インストール、データのインポート、データの準備、モデルの作成とトレーニング、モデルの効果の評価に関するガイダンスを含め、Python での Auto-sklearn の使用方法を紹介します。初心者でも Auto-sklearn を使用すると、強力な機械学習モデルを迅速かつ簡単に作成できます。

node-red でのエラーの処理方法

自動スクラーン

効率的なオープンソースソフトウェアプログラム Auto-sklearn を使用して、機械学習モデルの作成と継続的な改善を自動化します。ベイズ最適化とメタ学習を使用して、特定のデータセットの理想的なモデルとハイパーパラメータを自動的に見つけます。メタ学習自体は、よく知られた機械学習プログラム scikit-learn に基づいています。

Autosklearn が分類および回帰問題のために作成したアプリケーションには、自然言語処理、画像分類、時系列予測などはほんのわずかしかありません。

ライブラリは、特徴量エンジニアリング、モデル選択、データ準備プロセスなど、潜在的な機械学習プロセスのコレクションを検索することによって動作します。ベイジアン最適化を使用してこの空間を効率的に検索し、メタ学習を通じて以前のテストから検索効率を継続的に向上させます。

さらに、Auto-sklearn は、動的統合選択、自動モデル統合、アクティブ学習などの一連の強力な機能も提供します。さらに、モデルの開発、テスト、トレーニングのための使いやすい API も提供します。

AutoML コード

Auto-sklearn を使用して、AutoML コードをさらに詳しく調べてみましょう。 scikit-learn の Digits データセット (手書きの数字のデータセット) を使用します。数字の写真から数字を予測することが目標です。コードは次のとおりです -

プログラム

の中国語訳は次のとおりです:

プログラム

リーリー＃＃＃出力＃＃＃リーリー

コードの説明

このプログラムは、自動機械学習 (AutoML) を使用して、Auto-sklearn モジュールの使用を含め、MNIST データセットから手書きの数字を分類します。コードの概要は次のとおりです -

autosklearn.classification モジュールから AutoSklearnClassifier クラスをインポートします。このクラスには、使用される AutoML 分類モデルが含まれています。autosklearn.classification モジュールをインポートします。

sklearn.datasets からload_digits 関数をインポート: これにより、sklearn.datasets パッケージから MNIST データセットのload_digits 関数がインポートされます。

sklearnからモデルを選択してください。 MNIST データセットは、ここでインポートされる sklearn.model 選択モジュールのトレーニングテスト分割関数を使用して、トレーニングセットとテストセットに分割されます。
MNIST データセットがロードされ、入力特徴が X に保存され、対応するラベルが y に保存されます。 X, y =load_digits(return_X_y=True): これにより、MNIST データセットがロードされます。
XX トレーニングセット、セット、テストセット、再現性を確保するためにランダムシードを 1 に設定
まず、pandas、numpy、sklearn、tpot などの必要なライブラリをコードにインポートします。 Sklearn はデータの前処理、モデルの選択、評価などの機械学習タスクに使用され、Pandas はデータ操作に使用され、NumPy は数値計算に使用されます。 AutoML アルゴリズムを実装する主なライブラリは TPOT です。

次に、pandas の read_csv 関数を使用してデータセットを読み込み、入力フィーチャと出力ラベルを異なる変数に個別に保存します。「y」変数は出力のラベルを保持し、「X」変数は入力の特徴を格納します。

データを適合させて機械学習モデルを生成するには、コードはまずデータセットを読み込み、次に TPOTRegressor クラスのインスタンスを作成します。 TPOTSRegressor クラスは TPOTBase クラスのサブクラスであり、遺伝的アルゴリズムを使用して機能を選択し、ハイパーパラメーターを調整します。 TPOTRegressor クラスは回帰問題を処理し、TPOTClassifier クラスは分類問題を処理します。

Sklearn のトレーニング-テスト-分割メソッドを使用して、データセットをトレーニングセットとテストセットに分割します。機械学習では、データを 2 つのセット (モデルをフィッティングするためのトレーニングセットとモデルのパフォーマンスを評価するためのテストセット) に分割するのが一般的です。

データが分割されると、TPOTRegressor インスタンスの fit メソッドが呼び出され、トレーニングデータに基づいてモデルが調整されます。 Fit テクノロジーでは、遺伝的アルゴリズムを使用して、特定のデータに対する特徴とハイパーパラメーターの最適なサブセットを見つけます。最適なモデルが返されます。

コードは次に、スコアリング方法を使用して、テストセットでのモデルのパフォーマンスを評価し、モデルの精度を決定します。精度スコアはモデルがデータにどの程度適合しているかを示し、値が 1 に近いほど適合度が高いことを示します。

次に、エクスポート関数を使用して、最良のモデルがテストセットの精度スコアとともに Python ファイルにエクスポートされます。
＃＃＃結論は＃＃＃
要約すると、Auto-sklearn は、機械学習モデルの作成と改善のプロセスを簡素化する強力なライブラリです。特定のデータセットに最適なモデルとハイパーパラメーターを自動的に見つけることで、時間と労力を節約します。このチュートリアルでは、Python で Auto-sklearn を使用する方法について説明します。これには、Auto-sklearn のインストール、データのインポート、データの準備、モデルの作成とトレーニング、モデルのパフォーマンスの評価に関するガイダンスが含まれます。初心者でも Auto-sklearn を使用すると、強力な機械学習モデルを迅速かつ簡単に作成できます。