Deep clustering ialah kaedah yang menggabungkan model pembelajaran mendalam dan algoritma pengelompokan untuk mempelajari ciri secara automatik daripada data dan mengumpulkan data ke dalam kategori dengan ciri yang serupa. Berbanding dengan algoritma pengelompokan tradisional, pengelompokan dalam boleh mengendalikan data berdimensi tinggi, tidak linear dan kompleks dengan berkesan serta mempunyai ekspresi dan ketepatan yang lebih baik. Melalui model pembelajaran mendalam, pengelompokan mendalam boleh mempelajari perwakilan abstrak data untuk menangkap struktur intrinsik dan persamaan data dengan lebih baik. Kelebihan kaedah ini ialah ia boleh mempelajari ciri-ciri data secara automatik tanpa menentukan ciri-ciri secara manual, sekali gus mengurangkan gangguan faktor manusia. Pengelompokan mendalam mempunyai aplikasi yang luas dalam banyak bidang, seperti penglihatan komputer, pemprosesan bahasa semula jadi dan sistem pengesyoran.
Idea teras pengelompokan mendalam ialah menggunakan model pembelajaran mendalam untuk mengurangkan dimensi data kepada perwakilan berdimensi rendah dan melaksanakan pengelompokan dalam ruang berdimensi rendah. Langkah utama termasuk prapemprosesan data, membina model pembelajaran mendalam, melatih model untuk mendapatkan perwakilan dimensi rendah, dan menggunakan algoritma pengelompokan untuk pengelompokan.
1) Wujudkan model pembelajaran mendalam: Pilih model pembelajaran mendalam yang sesuai untuk masalah, seperti pengekod auto, pengekod auto variasi, rangkaian musuh generatif, dsb.
2) Pengekstrakan ciri: Gunakan model pembelajaran mendalam untuk mengekstrak ciri daripada data asal dan mengurangkan data berdimensi tinggi kepada perwakilan dimensi rendah.
3) Analisis kluster: Analisis kluster dilakukan dalam ruang berdimensi rendah untuk mengumpulkan data ke dalam kategori dengan ciri yang serupa.
4) Penyebaran belakang: Berdasarkan hasil pengelompokan, gunakan algoritma perambatan belakang untuk mengemas kini model pembelajaran mendalam bagi meningkatkan ketepatan pengelompokan.
Pengekod auto pengekod ialah algoritma pengelompokan tanpa pengawasan berdasarkan pembelajaran mendalam, yang mempelajari dimensi rendah bagi perwakilan data pengekodan. Idea asas pengekod autoekod adalah untuk memetakan data input dimensi tinggi ke ruang dimensi rendah melalui pengekod, dan kemudian membina semula data dimensi rendah kembali kepada data asal melalui penyahkod. Langkah-langkah algoritma adalah seperti berikut:
1 Tentukan struktur pengekod auto, termasuk pengekod dan penyahkod, di mana pengekod memetakan data input ke ruang dimensi rendah, dan penyahkod membina semula pengekod rendah. data dimensi kembali kepada data asal .
2 Gunakan algoritma pembelajaran tanpa pengawasan untuk melatih pengekod automatik, dengan matlamat untuk meminimumkan ralat pembinaan semula, iaitu perbezaan antara data asal dan data yang dibina semula.
3 Gunakan pengekod untuk memetakan data asal ke ruang berdimensi rendah dan gunakan algoritma pengelompokan untuk mengelompokkan data berdimensi rendah untuk mendapatkan hasil pengelompokan akhir.
Pengelompokan pembenaman mendalam ialah algoritma pengelompokan tanpa diawasi berdasarkan pembelajaran mendalam, yang melaksanakan pengelompokan dengan mempelajari perwakilan data terbenam. Idea asas pengelompokan benam mendalam adalah untuk memetakan data asal ke ruang benam berdimensi rendah melalui transformasi tak linear berbilang lapisan, dan menggunakan algoritma pengelompokan untuk mengelompokkan data dalam ruang benam. Langkah-langkah algoritma adalah seperti berikut:
1 Tentukan struktur rangkaian benam dalam, termasuk berbilang lapisan transformasi tak linear dan lapisan benam, di mana lapisan transformasi bukan linear memetakan data asal ke ruang benam berdimensi rendah. melalui pembelajaran, benam Lapisan digunakan untuk mengelompokkan data dalam ruang benam.
2 Gunakan algoritma pembelajaran tanpa pengawasan untuk melatih rangkaian pembenaman yang mendalam, dengan matlamat untuk meminimumkan jarak antara titik data dalam ruang pembenaman sambil menjadikan jarak antara kluster berbeza seluas mungkin.
3 Gunakan lapisan benam untuk memetakan data asal ke ruang benam berdimensi rendah, dan gunakan algoritma pengelompokan untuk mengelompokkan data dalam ruang pembenaman untuk mendapatkan hasil pengelompokan akhir.
Pengelompokan spektral ialah algoritma pengelompokan berdasarkan teori graf Ia menganggap titik data sebagai nod dalam graf dan persamaan antara mereka sebagai nod dalam graf, dan kemudian membahagikan graf menggunakan penguraian spektrum. Idea asas pengelompokan spektrum adalah untuk memetakan titik data ke dalam ruang ciri berdimensi rendah dan mengelompokkan titik data dalam ruang ciri. Langkah-langkah algoritma ini adalah seperti berikut:
1 Bina matriks persamaan antara titik data yang biasa digunakan termasuk jarak Euclidean, persamaan kosinus, dsb.
2. Bina matriks Laplacian, termasuk perbezaan antara matriks darjah dan matriks bersebelahan.
3. Lakukan penguraian spektrum matriks Laplacian untuk mendapatkan vektor eigen dan nilai eigen.
4 Pilih vektor ciri k teratas dan tunjuk titik data ke dalam ruang ciri berdimensi rendah.
5 Gunakan algoritma pengelompokan untuk mengelompokkan titik data dalam ruang ciri untuk mendapatkan hasil pengelompokan akhir.
Pengelompokan hierarki ialah algoritma pengelompokan berdasarkan struktur pepohon, yang membahagikan titik data kepada kumpulan yang berbeza lapisan demi lapisan. Idea asas pengelompokan hierarki adalah menganggap setiap titik data sebagai gugusan awal, dan kemudian secara berterusan menggabungkan gugusan dengan persamaan tertinggi sehingga gugusan besar atau bilangan gugusan tertentu akhirnya diperolehi. Langkah-langkah pengelompokan hierarki adalah seperti berikut:
1 Kira matriks persamaan antara titik data yang biasa digunakan termasuk jarak Euclidean, kesamaan kosinus, dll.
2. Anggap setiap titik data sebagai kelompok awal.
3 Kira persamaan antara setiap gugusan ukuran persamaan yang biasa digunakan termasuk pautan tunggal, pautan lengkap, pautan purata, dsb.
4 Teruskan menggabungkan kluster dengan persamaan tertinggi sehingga anda akhirnya mendapat kluster besar atau bilangan kluster tertentu.
Pengelompokan Rangkaian Adversarial Generatif ialah algoritma pengelompokan berdasarkan Rangkaian Adversarial Generatif (GAN), yang melaksanakan pengelompokan melalui pembelajaran lawan penjana dan diskriminator. Idea asas pengelompokan rangkaian musuh generatif adalah menganggap titik data sebagai input penjana, menjana vektor benam berdimensi rendah melalui penjana, dan menggunakan diskriminator untuk mengelompokkan vektor benam. Langkah-langkah algoritma adalah seperti berikut:
1 Tentukan struktur penjana dan diskriminator, di mana penjana memetakan data input berdimensi tinggi kepada vektor benam berdimensi rendah, dan diskriminator digunakan untuk mengelompokkan pembenaman. vektor.
2 Gunakan algoritma pembelajaran tanpa pengawasan untuk melatih penjana dan diskriminator Matlamatnya adalah untuk menjadikan vektor benam yang dijana oleh penjana sedekat mungkin dengan vektor dimensi rendah sebenar, dan untuk membolehkan diskriminator tepat. kelompokkan jenis vektor benam.
3 Gunakan penjana untuk memetakan data asal ke ruang benam berdimensi rendah, dan gunakan algoritma pengelompokan untuk mengelompokkan data dalam ruang pembenaman untuk mendapatkan hasil pengelompokan akhir.
Rangkaian pengelompokan dalam ialah algoritma pengelompokan tanpa pengawasan berdasarkan pembelajaran mendalam, yang mencapai pengelompokan dengan melatih pengekod dan pengekod secara bersama. Idea asas rangkaian pengelompokan dalam adalah untuk mengekodkan data asal ke dalam ruang benam berdimensi rendah melalui pengekod, dan kemudian menggunakan clusterer untuk mengelompokkan data dalam ruang benam. Langkah-langkah algoritma ini adalah seperti berikut:
1 Takrifkan struktur rangkaian pengelompokan dalam, termasuk pengekod dan pengekod, di mana pengekod memetakan data asal ke ruang benam berdimensi rendah, dan pengelompokan ialah. digunakan untuk memetakan ruang benam Data dikelompokkan.
2 Latih rangkaian pengelompokan yang mendalam menggunakan algoritma pembelajaran tanpa pengawasan, dengan matlamat meminimumkan jarak antara titik data dalam ruang pembenaman sambil meminimumkan ralat pengelompokan pengelompokan.
3 Gunakan pengekod untuk memetakan data asal ke ruang benam berdimensi rendah, dan gunakan pengelompokan untuk mengelompokkan data dalam ruang pembenaman untuk mendapatkan hasil pengelompokan akhir.
Pengelompokan Deep Ensemble ialah algoritma pengelompokan berdasarkan pembelajaran mendalam dan pembelajaran ensembel, yang meningkatkan ketepatan pengelompokan dengan menyepadukan berbilang model pengelompokan. Idea asas pengelompokan ensembel dalam adalah untuk mendapatkan hasil pengelompokan yang lebih mantap dan tepat dengan melatih berbilang model pengelompokan dalam dan kemudian menyepadukan hasil pengelompokan mereka. Langkah-langkah algoritma adalah seperti berikut:
1 Tentukan struktur dan hiperparameter berbilang model pengelompokan dalam, termasuk pengekod, pengelompokan, pengoptimum, dsb.
2. Gunakan algoritma pembelajaran diselia atau tidak diselia untuk melatih berbilang model pengelompokan dalam dengan matlamat meminimumkan ralat pengelompokan.
3 Sepadukan hasil pengelompokan berbilang model pengelompokan dalam yang biasa digunakan termasuk pengundian, purata wajaran, pengagregatan, dsb.
4 Menilai dan menganalisis hasil pengelompokan bersepadu, dan pilih hasil pengelompokan yang optimum sebagai hasil akhir.
Rangkaian pengelompokan penyesuaian ialah algoritma pengelompokan berdasarkan pembelajaran mendalam dan pembelajaran penyesuaian, yang menyesuaikan diri dengan perubahan dalam pengedaran data dengan melaraskan parameter pengelompokan dan perubahan struktur pengelompokan secara berterusan. Idea asas rangkaian pengelompokan adaptif adalah menyesuaikan diri dengan perubahan dalam pengedaran data dengan melatih pengelompokan, dan pada masa yang sama menyesuaikan secara adaptif parameter pengelompokan mengikut perubahan dalam struktur pengelompokan. Langkah-langkah algoritma adalah seperti berikut:
1 Tentukan struktur rangkaian pengelompokan adaptif, termasuk pengekod, pengelompokan, modul pelarasan penyesuaian, dsb.
2 Gunakan algoritma pembelajaran tanpa pengawasan untuk melatih rangkaian pengelompokan penyesuaian Matlamatnya adalah untuk meminimumkan ralat pengelompokan dan melaraskan parameter pengelompokan secara berterusan melalui modul pelarasan penyesuaian.
3 Dalam aplikasi praktikal, rangkaian pengelompokan adaptif secara berterusan menerima data baharu dan menyesuaikan secara adaptif parameter pengelompokan mengikut perubahan dalam pengedaran data dan struktur pengelompokan, dengan itu mencapai pengelompokan adaptif.
Pengelompokan dalam berasaskan ketumpatan ialah algoritma pengelompokan berasaskan ketumpatan yang melaksanakan pengelompokan dengan mengira ketumpatan titik data. Idea asas pengelompokan dalam berasaskan kepadatan adalah menganggap titik data sebagai titik sampel taburan ketumpatan, dan melaksanakan pengelompokan dengan mengira jarak dan ketumpatan antara titik sampel. Langkah-langkah algoritma adalah seperti berikut:
1. Kira ketumpatan dan ketumpatan setempat setiap titik data.
2. Pilih ambang ketumpatan dan gunakan titik data dengan ketumpatan lebih rendah daripada ambang sebagai titik hingar.
3 Pilih jejari kejiranan, anggap titik data dengan ketumpatan lebih tinggi daripada ambang sebagai titik teras dan anggap titik data dalam kejiranan dari titik teras sebagai titik ketumpatan secara langsung.
4 Sambungkan titik ketumpatan terus yang boleh dicapai untuk membentuk kelompok, dan bahagikan baki titik ketumpatan yang boleh dicapai kepada kelompok yang sepadan.
5. Kecualikan titik hingar daripada pengelompokan.
Di atas adalah beberapa algoritma pengelompokan dalam yang biasa dan idea dan langkah asas mereka semuanya mempunyai ciri dan skop aplikasi yang berbeza Anda boleh memilih algoritma yang sesuai untuk analisis kelompok mengikut situasi sebenar.
Atas ialah kandungan terperinci Kajian pengelompokan mendalam dan algoritma berkaitan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!