Algoritma regresi yang biasa digunakan dan ciri-cirinya dalam aplikasi pembelajaran mesin-AI-php.cn

Regression ialah salah satu alat yang paling berkuasa dalam statistik Algoritma pembelajaran diselia pembelajaran mesin dibahagikan kepada dua jenis: algoritma klasifikasi dan algoritma regresi. Algoritma regresi digunakan untuk ramalan pengedaran berterusan dan boleh meramal data berterusan dan bukannya label kategori diskret sahaja.

Analisis regresi digunakan secara meluas dalam bidang pembelajaran mesin, seperti meramalkan jualan produk, aliran trafik, harga perumahan, keadaan cuaca, dll.

Algoritma regresi ialah algoritma pembelajaran mesin yang biasa digunakan, digunakan untuk mewujudkan hubungan antara pembolehubah bebas X dan pembolehubah bersandar Y hubungan. Dari perspektif pembelajaran mesin, ia digunakan untuk membina model (fungsi) algoritma untuk mencapai hubungan pemetaan antara atribut X dan label Y. Semasa proses pembelajaran, algoritma cuba mencari hubungan parameter terbaik supaya kesesuaian adalah yang terbaik

Dalam algoritma regresi, hasil akhir algoritma (fungsi) ialah nilai data berterusan. Nilai input (nilai atribut) ialah atribut d-dimensi/vektor angka

Sesetengah algoritma regresi yang biasa digunakan termasuk regresi linear, regresi polinomial, regresi pepohon keputusan, regresi Ridge, regresi Lasso, regresi ElasticNet, dll.

Artikel ini akan memperkenalkan beberapa yang biasa Algoritma regresi, dan ciri masing-masing

Regresi linear
Regresi polinomial
mesin vektor sandaran
regresi pokok keputusan
Random Hutan kembali
LASSO kembali
Ridge kembali
ElasticNet

Boost kini kembali

Wajaran Tempatan Regresi Linear

Satu , Regresi Linear

Regresi linear selalunya merupakan algoritma pertama yang orang pelajari tentang pembelajaran mesin dan sains data. Regresi linear ialah model linear yang menganggap hubungan linear antara pembolehubah input (X) dan pembolehubah keluaran tunggal (y). Secara umumnya, terdapat dua situasi:

Univariate linear regresi ialah kaedah pemodelan yang digunakan untuk menganalisis hubungan antara pembolehubah input tunggal (iaitu pembolehubah ciri tunggal) dan pembolehubah output tunggal

Multivariable Linear regresi (juga dipanggil regresi linear berganda): Ia memodelkan hubungan antara pembolehubah input berbilang (pembolehubah berbilang ciri) dan pembolehubah output tunggal. . data.
Pemahaman dan penjelasan yang sangat intuitif.
Ia sangat sensitif kepada outlier.
2. Regresi Polinomial

Apabila kita ingin mencipta model untuk data boleh dipisahkan tak linear, regresi polinomial ialah salah satu pilihan yang paling popular. Ia serupa dengan regresi linear tetapi menggunakan hubungan antara pembolehubah X dan y untuk mencari cara terbaik untuk melukis lengkung yang sesuai dengan titik data.

Beberapa perkara penting tentang regresi polinomial:

dapat memodelkan data boleh dipisahkan bukan linear tidak boleh melakukan ini. Secara umum, ia lebih fleksibel dan boleh memodelkan beberapa perhubungan yang agak kompleks.

Kawalan penuh ke atas pemodelan pembolehubah ciri (eksponen untuk ditetapkan).
Memerlukan reka bentuk yang teliti. Beberapa pengetahuan data diperlukan untuk memilih indeks yang terbaik.
Jika indeks tidak dipilih dengan betul, ia mudah untuk overfit.
3. Regresi Mesin Vektor Sokongan

Mesin vektor sokongan terkenal dalam masalah klasifikasi. Penggunaan SVM dalam regresi dipanggil Regresi Vektor Sokongan (SVR). Scikit-learn mempunyai kaedah ini terbina dalam SVR(). . data ghaib)

Jika bilangan ciri jauh lebih besar daripada bilangan sampel, ia adalah mudah untuk overfit

4. Regresi pepohon keputusan

Pepohon keputusan ialah kaedah yang digunakan untuk bukan pengelasan dan regresi kaedah pembelajaran seliaan parametrik. Matlamatnya adalah untuk mencipta model yang meramalkan nilai pembolehubah sasaran dengan mempelajari peraturan keputusan mudah yang disimpulkan daripada ciri data. Sebatang pokok boleh dilihat sebagai anggaran pemalar sekeping.

Beberapa perkara penting tentang pokok keputusan:
- Mudah untuk difahami dan dijelaskan. Pokok boleh divisualisasikan. . berterusan (Seperti yang ditunjukkan dalam rajah di atas, ia adalah anggaran pemalar sekeping)
- 5. Regresi Hutan Rawak
- Regresi hutan rawak dan regresi pokok keputusan pada asasnya sangat serupa. Ia adalah penganggar meta yang boleh memuatkan berbilang pepohon keputusan pada pelbagai subsampel set data dan meratakannya untuk meningkatkan ketepatan ramalan dan mengawal overfitting
- Random Forest Regressor dalam masalah regresi Prestasi mungkin lebih baik atau lebih teruk daripada pepohon keputusan (walaupun selalunya lebih baik dalam masalah klasifikasi) disebabkan oleh tukar tambah (overfitting) dan kekurangan (underfitting) yang wujud dalam algoritma pembinaan pokok
Mengenai Hutan Rawak Beberapa perkara untuk regresi:

Kurangkan ketepatan yang berlebihan dalam pepohon keputusan.

Ia juga berfungsi untuk nilai kategori dan berterusan. Memerlukan banyak kuasa dan sumber pengkomputeran kerana ia sesuai dengan banyak pokok keputusan untuk menggabungkan output mereka.
- 6. Regresi LASSO
- Regresi LASSO ialah varian regresi linear pengecutan. Pengecutan ialah proses mengecilkan nilai data ke titik tengah sebagai purata. Regresi jenis ini sesuai untuk model yang mempunyai multikolineariti yang teruk (kaitan tinggi antara ciri)
Ia adalah ciri yang paling biasa digunakan untuk menghapuskan ciri automatik .

Ia sesuai untuk model yang menunjukkan multikolineariti yang teruk (ciri sangat berkorelasi antara satu sama lain). LASSO Regresi menggunakan L1 regularization
- LASSO Regresi dianggap lebih baik daripada Ridge kerana ia hanya memilih beberapa ciri dan mengurangkan pekali ciri lain kepada sifar.
- 7. Regresi rabung
- Regression rabung hampir sama dengan regresi LASSO kerana kedua-dua teknik menggunakan kaedah pengecutan. Kedua-dua regresi Ridge dan LASSO sangat sesuai untuk model yang mempunyai masalah multikolineariti yang teruk (iaitu korelasi tinggi antara ciri). Perbezaan utama antara mereka ialah Ridge menggunakan regularization L2, yang bermaksud bahawa tiada satu pun pekali akan pergi ke sifar (tetapi hampir kepada sifar) seperti dalam regresi LASSO
Ia sesuai untuk model yang menunjukkan multikolineariti yang teruk (ciri sangat berkorelasi antara satu sama lain).

Regresi rabung menggunakan regularisasi L2. Ciri yang menyumbang kurang akan mempunyai pekali hampir kepada sifar. Regresi rabung dianggap lebih teruk daripada LASSO kerana sifat regularisasi L2.
- 8. Regresi ElasticNet
- ElasticNet ialah satu lagi model regresi linear yang dilatih menggunakan regularisasi L1 dan L2. Ia adalah gabungan teknik regresi Lasso dan Ridge, jadi ia juga sangat sesuai untuk model yang menunjukkan multikolineariti yang teruk (ciri sangat berkorelasi antara satu sama lain).
- Apabila menimbang antara Lasso dan Ridge, kelebihan praktikal ialah Elastic-Net boleh mewarisi sebahagian daripada kestabilan Ridge di bawah putaran
XGBoost ialah versi algoritma penggalak kecerunan yang cekap. dilaksanakan dengan berkesan. Peningkatan kecerunan ialah sejenis algoritma pembelajaran mesin ensemble yang boleh digunakan untuk masalah klasifikasi atau regresi
XGBoost ialah perpustakaan sumber terbuka yang pada asalnya dibangunkan oleh Chen Tianqi dalam makalah 2016 beliau "XGBoost: A Scalable Tree Boosting System". Algoritma direka untuk menjadi cekap dan cekap dari segi pengiraan
Sedikit perkara tentang XGBoost:
- XGBoost tidak berprestasi baik pada data yang jarang dan tidak berstruktur.
- Algoritma direka untuk cekap dan cekap dari segi pengiraan, tetapi masa latihan masih agak lama untuk set data yang besar.
- Ia sensitif kepada outliers.
10. Regresi Linear Wajaran Tempatan

Dalam Regresi Linear Wajaran Tempatan (Regression Linear Wajaran Tempatan), kami juga melakukan regresi linear. Walau bagaimanapun, tidak seperti regresi linear biasa, regresi linear wajaran tempatan ialah kaedah regresi linear tempatan. Dengan memperkenalkan pemberat (fungsi kernel), semasa membuat ramalan, hanya beberapa sampel yang hampir dengan titik ujian digunakan untuk mengira pekali regresi. Regresi linear biasa ialah regresi linear global, yang menggunakan semua sampel untuk mengira pekali regresi

Kebaikan dan keburukan & senario yang boleh digunakan

Kelebihan melalui penurunan berat badan, pengurangan berat badan juga jelas. diperlukan. Apabila regresi linear berganda terlampau pasang, anda boleh mencuba pemberat tempatan kernel Gaussian untuk mengelakkan overfitting. Regresi Bayesian Ridge hitung bahagian belakang daripada sebelumnya. Regresi linear Bayesian boleh diselesaikan dengan kaedah berangka, dan dalam keadaan tertentu, statistik posterior atau berkaitan dalam bentuk analitik juga boleh diperolehi

Regresi linear Bayesian mempunyai sifat asas model statistik Bayesian dan boleh menyelesaikan untuk pekali berat Fungsi ketumpatan kebarangkalian , pembelajaran dalam talian dan ujian hipotesis model berdasarkan faktor Bayes (faktor Bayes)
Kebaikan dan Kelemahan & Senario Berkenaan

Kelebihan regresi Bayesian ialah kebolehsuaian data yang berlebihan dan boleh mencegah penggunaan semula data Dalam proses penganggaran, istilah regularisasi boleh diperkenalkan Contohnya, dengan memperkenalkan istilah regularisasi L2 dalam regresi linear Bayesian, regresi rabung Bayesian boleh direalisasikan ialah proses pembelajaran yang terlalu mahal. Apabila bilangan ciri kurang daripada 10, anda boleh mencuba regresi Bayesian.

Atas ialah kandungan terperinci Algoritma regresi yang biasa digunakan dan ciri-cirinya dalam aplikasi pembelajaran mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Algoritma regresi yang biasa digunakan dan ciri-cirinya dalam aplikasi pembelajaran mesin

Mesin vektor sokongan terkenal dalam masalah klasifikasi. Penggunaan SVM dalam regresi dipanggil Regresi Vektor Sokongan (SVR). Scikit-learn mempunyai kaedah ini terbina dalam SVR(). . data ghaib)

4. Regresi pepohon keputusan

Beberapa perkara penting tentang pokok keputusan:

Ia juga berfungsi untuk nilai kategori dan berterusan. Memerlukan banyak kuasa dan sumber pengkomputeran kerana ia sesuai dengan banyak pokok keputusan untuk menggabungkan output mereka.

Ia sesuai untuk model yang menunjukkan multikolineariti yang teruk (ciri sangat berkorelasi antara satu sama lain). LASSO Regresi menggunakan L1 regularization

Regresi rabung menggunakan regularisasi L2. Ciri yang menyumbang kurang akan mempunyai pekali hampir kepada sifar. Regresi rabung dianggap lebih teruk daripada LASSO kerana sifat regularisasi L2.

Sedikit perkara tentang XGBoost:

10. Regresi Linear Wajaran Tempatan

Kebaikan dan keburukan & senario yang boleh digunakan