K-means clustering ialah algoritma pengelompokan tanpa pengawasan yang biasa digunakan yang mencapai persamaan intra-kluster yang tinggi dan kesamaan antara kelompok dengan membahagikan set data kepada k kelompok, setiap kelompok mengandungi titik data yang serupa. Artikel ini akan memperkenalkan cara menggunakan K-means untuk pengelompokan tanpa pengawasan.
1. Prinsip asas pengelompokan K-means
K-means clustering ialah algoritma pembelajaran tanpa penyeliaan yang biasa digunakan ialah membahagikan titik data kepada kluster supaya setiap titik data adalah Milik satu daripada kluster, dan persamaan titik data dalam kluster adalah setinggi mungkin, dan persamaan antara kluster berbeza adalah serendah mungkin. Langkah-langkah khusus adalah seperti berikut:
1. Permulaan: pilih k titik data secara rawak sebagai pusat kluster.
2. Tugasan: Tetapkan setiap titik data kepada kluster di mana pusat klusternya terletak.
3. Kemas kini: Kira semula pusat kluster setiap kluster.
4 Ulangi langkah 2 dan 3 sehingga gugusan tidak lagi berubah atau bilangan lelaran yang telah ditetapkan tercapai.
Matlamat pengelompokan K-means adalah untuk meminimumkan jumlah jarak antara titik data dalam setiap gugusan dan pusat gugusan gugusan ini juga dipanggil "jumlah ralat kuadrat intra-kluster (SSE )". Algoritma berhenti lelaran apabila nilai SSE tidak lagi berkurangan atau mencapai bilangan lelaran yang telah ditetapkan.
2. Langkah pelaksanaan pengelompokan K-means
Langkah pelaksanaan algoritma pengelompokan K-means adalah seperti berikut:
1 Pilih pusat k sebagai pusat kluster.
2. Kira jarak: Kira jarak antara setiap titik data dan pusat kluster, dan pilih kluster dengan pusat kluster terdekat.
3. Kemas kini pusat kluster: Kira semula pusat kluster untuk setiap kluster, iaitu purata koordinat semua titik data dalam kluster digunakan sebagai pusat kluster baharu.
4 Ulangi langkah 2 dan 3 sehingga bilangan lelaran yang telah ditetapkan tercapai atau gugusan tidak lagi berubah.
5. Keluaran hasil pengelompokan: Tetapkan setiap titik data dalam set data kepada kelompok akhir dan keluarkan hasil pengelompokan.
Apabila melaksanakan algoritma pengelompokan K-means, anda perlu memberi perhatian kepada perkara berikut:
1 Permulaan pusat kluster: Pemilihan pusat kluster mempunyai kesan yang besar terhadap kesan pengelompokan. Secara umumnya, k titik data boleh dipilih secara rawak sebagai pusat kluster.
2 Pemilihan kaedah pengiraan jarak: Kaedah pengiraan jarak yang biasa digunakan termasuk jarak Euclidean, jarak Manhattan dan persamaan kosinus, dsb. Kaedah pengiraan jarak yang berbeza sesuai untuk jenis data yang berbeza.
3 Pemilihan bilangan kluster k: Pemilihan bilangan kluster k selalunya merupakan isu subjektif dan perlu dipilih mengikut senario aplikasi tertentu. Secara umumnya, bilangan gugusan yang optimum boleh ditentukan melalui kaedah seperti kaedah siku dan pekali siluet.
3. Kebaikan dan keburukan K-means clustering
Kelebihan K-means clustering termasuklah:
1.
2. Boleh mengendalikan set data berskala besar.
3. Apabila pengedaran data agak seragam, kesan pengelompokan adalah lebih baik.
Kelemahan K-means clustering termasuk:
1 Ia agak sensitif kepada permulaan pusat kluster dan mungkin menumpu kepada penyelesaian optimum tempatan.
2. Pemprosesan titik abnormal tidak cukup berkesan.
3. Apabila pengedaran data tidak sekata atau bunyi bising, kesan pengelompokan mungkin lemah.
4. Kaedah pengelompokan K-means yang lebih baik
Untuk mengatasi batasan pengelompokan K-means, para penyelidik telah mencadangkan banyak kaedah yang ditambah baik, termasuk:
pusat pengelompokan dari titik data ke titik perwakilan (medoid) dalam gugusan boleh mengendalikan outlier dan hingar dengan lebih baik. 2. Algoritma pengelompokan berasaskan ketumpatan: seperti DBSCAN, OPTIK, dsb., boleh mengendalikan gugusan ketumpatan yang berbeza dengan lebih baik. 3 Pengelompokan spektrum: Anggap titik data sebagai nod dalam graf, anggap persamaan sebagai pemberat tepi, dan laksanakan pengelompokan melalui penguraian spektrum graf, yang boleh mengendalikan gugusan bukan cembung dan gugusan bentuk yang berbeza. 4. Pengelompokan hierarki: Anggap titik data sebagai nod dalam pepohon, dan laksanakan pengelompokan dengan menggabungkan atau membelah gugusan secara berterusan untuk mendapatkan struktur hierarki gugusan. 5 Kluster kabur: Peruntukkan titik data kepada kluster yang berbeza Setiap titik data mempunyai tahap keahlian untuk setiap kluster, yang boleh mengendalikan situasi di mana ketidakpastian titik data adalah besar. Ringkasnya, pengelompokan K-means ialah algoritma pengelompokan tanpa pengawasan yang mudah dan berkesan, tetapi batasannya perlu diberi perhatian dalam aplikasi praktikal, dan kaedah penambahbaikan lain boleh digabungkan untuk meningkatkan kesan pengelompokan.Atas ialah kandungan terperinci Pengelompokan tanpa pengawasan menggunakan algoritma K-means. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!