は、データ セットを小さな管理可能なサブセットに分割することによって分類または回帰を実行するアルゴリズムです。各ノードはデータを分割するために使用される特徴を表し、各リーフ ノードはカテゴリまたは予測値を表します。デシジョン ツリーを構築するとき、アルゴリズムはデータを分割するための最適な特徴を選択し、各サブセット内のデータが同じカテゴリに属するか、可能な限り類似した特徴を持つようにします。このプロセスは、Java の再帰と同様に、停止条件に達する (たとえば、リーフ ノードの数が事前設定値に達する) まで継続的に繰り返され、完全な決定木が形成されます。分類および回帰タスクの処理に適しています。人工知能の分野では、決定木も幅広い用途を持つ古典的なアルゴリズムです。
以下は、ディシジョン ツリー プロセスの簡単な紹介です:
データ準備レストランのデータがあると仮定します。 set には、顧客の性別、喫煙の有無、食事時間などの属性や、顧客がチップを残すかどうかに関する情報が含まれます。私たちのタスクは、これらの属性を使用して、顧客がチップを持って帰るかどうかを予測することです。
データ クリーニングと特徴エンジニアリングデータ クリーニングでは、欠損値や外れ値などを処理して、データの整合性と正確性を確保する必要があります。特徴エンジニアリングでは、元のデータを処理し、最も特徴的な特徴を抽出する必要があります。たとえば、食事の時間を朝、昼、晩に離散化したり、性別や喫煙状況を0/1の値に変換したりすることができます。
データ セットの分割通常、相互検証を使用して、データ セットをトレーニング セットとテスト セットに分割します。
デシジョン ツリーの構築ID3、C4.5、CART、およびその他のアルゴリズムを使用してデシジョン ツリーを構築できます。ここでは ID3 アルゴリズムを例に挙げますが、重要なのは情報利得の計算です。各属性の情報ゲインを計算し、最大の情報ゲインを持つ属性を分割ノードとして見つけて、サブツリーを再帰的に構築できます。
モデルの評価精度、再現率、F1 スコアなどの指標を使用して、モデルのパフォーマンスを評価できます。
モデルのチューニングデシジョン ツリー パラメーターを枝刈りおよび調整することで、モデルのパフォーマンスをさらに向上させることができます。
モデルの適用最後に、トレーニングされたモデルを新しいデータに適用して、予測と決定を行うことができます。
簡単な例を通してそれについて学びましょう:
次のデータセットがあると仮定します:
特徴 2 | カテゴリー | |
---|---|---|
1 | 男性 | |
0 | 男性 | |
1 | 男性 | |
0 | 女性 |
feature1 = 1 feature2 = 0 # 解析决策树函数 def predict(feature1, feature2): if feature1 == 1: print("男") else: if feature2 == 1: print("男") else: print("女")
最初に剪定する: 事前にツリーの構築を停止してツリーを「剪定」します。停止すると、ノードは葉になります。一般的な処理方法は、葉のサンプルの高さと数を制限することです。
以上がPython人工知能アルゴリズムの決定木プロセスとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。