機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴-AI-php.cn

回帰は統計における最も強力なツールの 1 つです。機械学習の教師あり学習アルゴリズムは、分類アルゴリズムと回帰アルゴリズムの 2 つのタイプに分類されます。回帰アルゴリズムは連続分布の予測に使用され、離散的なカテゴリラベルだけでなく連続的なデータを予測できます。

回帰分析は、製品の売上、交通の流れ、住宅価格、気象条件などの予測など、機械学習の分野で広く使用されています。

回帰アルゴリズムは、一般的に使用される機械学習です。変数 X と従属変数 Y の間の関係を自動的に確立するためのアルゴリズム。機械学習の観点から見ると、属性 X とラベル Y の間のマッピング関係を実現するためのアルゴリズムモデル (関数) を構築するために使用されます。学習プロセス中、アルゴリズムは適合度が最適になるように最良のパラメーター関係を見つけようとします。

回帰アルゴリズムでは、アルゴリズム (関数) の最終結果は連続データ値です。入力値 (属性値) は d 次元の属性/数値ベクトルです。

一般的に使用される回帰アルゴリズムには、線形回帰、多項式回帰、決定木回帰、リッジ回帰、ラッソ回帰、ElasticNet 回帰などが含まれます。

この記事では、いくつかの一般的な回帰アルゴリズムとそれぞれの特徴を紹介します

##多項式回帰
サポートベクターマシン回帰
デシジョンツリー回帰
ランダムフォレスト回帰
LASSO 回帰
Ridge のリターン
ElasticNet のリターン
XGBoost のリターン
局所加重線形回帰
1. 線形回帰

単変量線形回帰は、単一の入力変数 (つまり、単一の特徴変数) と単一の出力変数の間の関係を分析するために使用されるモデリング手法です。関係

多変数線形回帰 (多重線形回帰とも呼ばれます): 複数の入力変数 (複数の特徴変数) と 1 つの出力変数の間の関係をモデル化します。

線形回帰に関するいくつかの重要なポイント:

モデル化が迅速かつ簡単

これは、モデル化したい関係がそれほど複雑ではなく、大量のデータがない場合に特に役立ちます。
非常に直感的な理解と説明。
異常値に対して非常に敏感です。
2. 多項式回帰

多項式回帰に関するいくつかの重要なポイント:

は非線形の分離可能なデータをモデル化できますが、線形回帰ではそれを実現できません。一般に、これはより柔軟であり、かなり複雑な関係をモデル化できます。

特徴変数 (設定する指数) のモデリングを完全に制御します。
サポートベクターマシンは分類問題でよく知られています。回帰における SVM の使用は、サポートベクター回帰 (SVR) と呼ばれます。 Scikit-learn では、このメソッドが SVR() に組み込まれています。

サポートベクター回帰に関するいくつかの重要なポイント:

これは、性別の外れ値に対して堅牢です。高次元空間で効果的です

デシジョンツリーは、次のタイプです。使用される分類と回帰にはノンパラメトリック教師あり学習方法が使用されます。目標は、データの特徴から推測される単純な決定ルールを学習することによって、ターゲット変数の値を予測するモデルを作成することです。ツリーは区分的定数近似として見ることができます。

機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴

デシジョンツリーに関するいくつかの重要なポイント:

理解しやすく、説明しやすい。樹木を視覚化することができます。
カテゴリ値と連続値の両方に適用されます
DT (予測データ) の使用コストは、使用されるデータポイントの数に比例します。ツリーを対数的にトレーニングするには
#決定木の予測は滑らかでも連続的でもありません (上の図に示すように、区分的定数近似です)

5. ランダムフォレスト回帰

ランダムフォレスト回帰は、基本的にデシジョンツリー回帰と非常によく似ています。これは、データセットのさまざまなサブサンプルに複数のデシジョンツリーを適合させ、それらを平均して予測精度を向上させ、過剰適合を制御できるメタ推定ツールです。

ランダムフォレストリグレッサーのパフォーマンスは、回帰問題におけるデシジョンツリー (一般的に分類問題では優れていますが) は、ツリー構築アルゴリズムに固有の微妙な過適合と過小適合により発生します。 :

デシジョンツリーの過学習を軽減し、精度を向上させます。

カテゴリ値と連続値にも機能します。
多くのデシジョンツリーに適合して出力を結合するため、多くのコンピューティング能力とリソースが必要になります。
6. LASSO 回帰

Lasso 回帰に関するいくつかのポイント:

機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴

#自動変数を削除し、機能を選択するために最も一般的に使用されます。

これは、重度の多重共線性 (特徴が互いに高度に相関している) を示すモデルに適しています。
LASSO 回帰は L1 正則化を利用します
LASSO 回帰は、一部の特徴のみを選択し、他の特徴を組み合わせると係数がに削減されるため、Ridge よりも優れていると考えられます。ゼロ。
7. リッジ回帰

リッジ回帰に関するいくつかのポイント:

機械学習アプリケーションで一般的に使用される回帰アルゴリズムとその特徴

深刻な多重共線性 (特徴が互いに高度に相関している) モデルを示すのに非常に適しています。。

リッジ回帰では L2 正則化が使用されます。貢献度が低い特徴の係数はゼロに近くなります。
L2 正則化の性質により、リッジ回帰は LASSO よりも悪いと考えられています。
8. ElasticNet 回帰

Lasso と Ridge を比較検討する場合、実際的な利点は、Elastic-Net が回転時の Ridge の安定性の一部を継承できることです。

9. XGBoost 回帰

XGBoost は、勾配ブースティングアルゴリズムの効率的かつ効果的な実装です。勾配ブースティングは、分類または回帰問題に使用できるアンサンブル機械学習アルゴリズムの一種です。

XGBoost は、もともと Chen Tianqi が 2016 年の論文「XGBoost: A」で開発したオープンソースライブラリです。「ブースティングシステム」で開発された「スケーラブルツリー」。このアルゴリズムは、計算効率が高く効率的になるように設計されています。

關於 XGBoost 的幾點：

#XGBoost 在稀疏和非結構化資料上表現不佳。
該演算法被設計為計算效率和高效，但是對於大型資料集的訓練時間仍然相當長。
它對異常值很敏感。

十、局部加權線性迴歸

在局部加權線性迴歸（Local Weights Linear Regression）中，我們也是在進行線性迴歸。然而，與普通線性迴歸不同的是，局部加權線性迴歸是一種局部線性迴歸方法。它透過引入權值（核函數），在進行預測時，只使用與測試點相近的部分樣本來計算迴歸係數。普通線性迴歸則是全域線性迴歸，它使用全部的樣本來計算迴歸係數