Featuretools を使用して自動特徴量エンジニアリングを実装する-AI-php.cn

Featuretools を使用して自動特徴量エンジニアリングを実装する

PHPz

リリース： 2024-01-22 15:18:06

転載

646 人が閲覧しました

Featuretools を使用して自動特徴量エンジニアリングを実装する

Featuretools は、自動特徴量エンジニアリング用の Python ライブラリです。特徴エンジニアリングプロセスを簡素化し、機械学習モデルのパフォーマンスを向上させることを目的としています。このライブラリは生データから有用な特徴を自動的に抽出できるため、ユーザーはモデルの精度を向上させながら時間と労力を節約できます。

Featuretools を使用して特徴エンジニアリングを自動化する方法の手順は次のとおりです:

ステップ 1: データを準備する

Featuretools を使用する前に、データセットを準備する必要があります。データセットは Pandas DataFrame 形式である必要があり、各行が観測値を表し、各列が特徴を表します。分類および回帰問題の場合、データセットにはターゲット変数が含まれている必要がありますが、クラスタリング問題の場合、データセットにターゲット変数は必要ありません。したがって、Featuretools を使用する場合は、特徴エンジニアリングと特徴生成を効率的に実行できるように、データセットがこれらの要件を満たしていることを確認してください。

ステップ 2: エンティティと関係を定義する

Featuretools を特徴量エンジニアリングに使用する場合は、最初にエンティティと関係を定義する必要があります。エンティティは、関連する特性のセットを含むデータセットのサブセットです。たとえば、電子商取引 Web サイトでは、注文、ユーザー、製品、支払いなどを別のエンティティとして扱うことができます。関係とはエンティティ間のつながりであり、たとえば、注文がユーザーに関連付けられたり、ユーザーが複数の製品を購入したりする場合があります。エンティティと関係を明確に定義することで、データセットの構造をより深く理解できるようになり、特徴の生成とデータ分析が容易になります。

ステップ 3: エンティティセットを作成する

Featuretools を使用して、エンティティと関係を定義してエンティティセットを作成できます。エンティティセットは、複数のエンティティのコレクションです。このステップでは、各エンティティの名前、データセット、インデックス、変数タイプ、タイムスタンプなどを定義する必要があります。たとえば、次のコードを使用して、注文エンティティとユーザーエンティティを含むエンティティセットを作成できます。

import featuretools as ft

# Create entity set
es=ft.EntitySet(id=&#x27;ecommerce&#x27;)

# Define entities
orders=ft.Entity(id=&#x27;orders&#x27;,dataframe=orders_df,index=&#x27;order_id&#x27;,time_index=&#x27;order_time&#x27;)
users=ft.Entity(id=&#x27;users&#x27;,dataframe=users_df,index=&#x27;user_id&#x27;)

# Add entities to entity set
es=es.entity_from_dataframe(entity_id=&#x27;orders&#x27;,dataframe=orders_df,index=&#x27;order_id&#x27;,time_index=&#x27;order_time&#x27;)
es=es.entity_from_dataframe(entity_id=&#x27;users&#x27;,dataframe=users_df,index=&#x27;user_id&#x27;)

ログイン後にコピー

ここでは、EntitySet を使用して「」というエンティティを作成します。 ecommerce」エンティティセットを作成し、エンティティを使用して注文とユーザーの 2 つのエンティティを定義します。注文エンティティの場合、注文 ID をインデックスとして指定し、注文時刻をタイムスタンプとして指定しました。ユーザーエンティティについては、インデックスとしてユーザー ID のみを指定しました。

ステップ 4: 関係を定義する

このステップでは、エンティティ間の関係を定義する必要があります。フィーチャーツールを使用すると、エンティティ間の共有変数、タイムスタンプなどを通じて関係を定義できます。たとえば、電子商取引 Web サイトでは、各注文がユーザーに関連付けられます。注文とユーザーの間の関係は、次のコードを使用して定義できます。

# Define relationships
r_order_user = ft.Relationship(orders[&#x27;user_id&#x27;], users[&#x27;user_id&#x27;])
es = es.add_relationship(r_order_user)

ログイン後にコピー

ここでは、Relationship を使用して注文とユーザーの間の関係を定義し、add_relationship を使用してそれらをエンティティセットに追加しました。

ステップ 5: 深部特徴合成アルゴリズムを実行する

上記のステップを完了すると、Featuretools の深部特徴合成アルゴリズムを使用して、フィーチャーを自動的に生成します。このアルゴリズムは、集計、変換、組み合わせなどの新しい機能を自動的に作成します。次のコードを使用して、深部特徴合成アルゴリズムを実行できます:

# Run deep feature synthesis algorithm
features, feature_names = ft.dfs(entityset=es, target_entity=&#x27;orders&#x27;, max_depth=2)

ログイン後にコピー

ここでは、dfs 関数を使用して深部特徴合成アルゴリズムを実行し、ターゲットエンティティを順序エンティティとして指定し、最大深度を設定します。 2へ。この関数は、新しい機能と機能名のリストを含む DataFrame を返します。

ステップ 6: モデルを構築する

新しい機能を取得したら、それらを使用して機械学習モデルをトレーニングできます。次のコードを使用して、元のデータセットに新しい特徴を追加できます:

# Add new features to original dataset
df=pd.merge(orders_df,features,left_on=&#x27;order_id&#x27;,right_on=&#x27;order_id&#x27;)

ログイン後にコピー

ここでは、マージ関数を使用して、トレーニングとテストのために元のデータセットに新しい特徴を追加します。その後、新しい機能を使用して機械学習モデルをトレーニングできます。例:

# Split dataset into train and test sets
X_train, X_test, y_train, y_test = train_test_split(df[feature_names], df[&#x27;target&#x27;], test_size=0.2, random_state=42)

# Train machine learning model
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Evaluate model performance
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

ログイン後にコピー

ここでは、ランダムフォレスト分類器を機械学習モデルとして使用し、トレーニングセットを使用してモデルをトレーニングします。次に、テストセットを使用して、精度を評価指標として使用してモデルのパフォーマンスを評価します。

概要:

Featuretools を使用して特徴エンジニアリングを自動化する手順には、データの準備、エンティティと関係の定義、エンティティセットの作成、関係の定義が含まれます。、ディープ特徴合成アルゴリズムとモデル構築を実行します。 Featuretools は生データから有用な特徴を自動的に抽出できるため、ユーザーは時間と労力を大幅に節約し、機械学習モデルのパフォーマンスを向上させることができます。

以上がFeaturetools を使用して自動特徴量エンジニアリングを実装するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。