Python で K 平均法クラスタリングアルゴリズムを記述するにはどうすればよいですか?-Python チュートリアル-php.cn

Python で K 平均法クラスタリングアルゴリズムを記述するにはどうすればよいですか?

WBOY

リリース： 2023-09-21 11:06:25

オリジナル

926 人が閲覧しました

Python で K 平均法クラスタリングアルゴリズムを記述するにはどうすればよいですか?

K 平均法クラスタリングアルゴリズムを Python で作成するにはどうすればよいですか?

K 平均法クラスタリングアルゴリズムは、属性に従ってデータセットを分類およびクラスタリングできる、一般的に使用されるデータマイニングおよび機械学習のアルゴリズムです。この記事では、Python で K 平均法クラスタリングアルゴリズムを作成する方法を紹介し、具体的なコード例を示します。

コードを書き始める前に、K 平均法クラスタリングアルゴリズムの基本原理を理解する必要があります。

K 平均法クラスタリングアルゴリズムの基本手順は次のとおりです。

k 重心を初期化します。重心はクラスターの中心点を指し、各データポイントは最も近い重心によって表されるカテゴリに割り当てられます。
各データポイントを、重心からの距離に基づいて、最も近い重心によって表されるカテゴリに割り当てます。
重心の位置を更新し、そのカテゴリ内のすべてのデータポイントの平均に設定します。
重心の位置が変化しなくなるまで、手順 2 と 3 を繰り返します。

これで、コードの記述を開始できます。

必要なライブラリをインポートする

まず、numpy や matplotlib などの必要なライブラリをインポートする必要があります。

import numpy as np
import matplotlib.pyplot as plt

ログイン後にコピー

データの準備

クラスタリング用のデータセットを準備する必要があります。ここでは、numpy を使用して 2 次元データのセットをランダムに生成します。

data = np.random.randn(100, 2)

ログイン後にコピー

重心の初期化

クラスタリングアルゴリズムのために k 個の重心を初期化する必要があります。ここでは、numpy を使用して k 個のデータポイントを初期重心としてランダムに選択します。

k = 3
centroids = data[np.random.choice(range(len(data)), k, replace=False)]

ログイン後にコピー

距離の計算

データポイントと重心の間の距離を計算する関数を定義する必要があります。ここではユークリッド距離を使用します。

def compute_distances(data, centroids):
    return np.linalg.norm(data[:, np.newaxis] - centroids, axis=2)

ログイン後にコピー

データポイントを最も近い重心に割り当てる

各データポイントを最も近い重心で表されるカテゴリに割り当てる関数を定義する必要があります。

def assign_clusters(data, centroids):
    distances = compute_distances(data, centroids)
    return np.argmin(distances, axis=1)

ログイン後にコピー

重心の位置を更新

重心の位置を更新する関数を定義する必要があります。つまり、重心の位置をカテゴリ内のすべてのデータポイントの平均に設定します。

def update_centroids(data, clusters, k):
    centroids = []
    for i in range(k):
        centroids.append(np.mean(data[clusters == i], axis=0))
    return np.array(centroids)

ログイン後にコピー

反復クラスタリングプロセス

最後に、重心の位置が変化しなくなるまでクラスタリングプロセスを反復する必要があります。

def kmeans(data, k, max_iter=100):
    centroids = data[np.random.choice(range(len(data)), k, replace=False)]
    for _ in range(max_iter):
        clusters = assign_clusters(data, centroids)
        new_centroids = update_centroids(data, clusters, k)
        if np.all(centroids == new_centroids):
            break
        centroids = new_centroids
    return clusters, centroids

ログイン後にコピー

クラスタリングアルゴリズムの実行

これで、クラスタリングアルゴリズムを実行して、各データポイントが属するカテゴリと最終的な重心を取得できるようになります。

clusters, centroids = kmeans(data, k)

ログイン後にコピー

結果の視覚化

最後に、matplotlib を使用して結果を視覚化できます。各データポイントは、属するカテゴリに応じて色分けされ、重心の位置は赤い円で示されます。

plt.scatter(data[:, 0], data[:, 1], c=clusters)
plt.scatter(centroids[:, 0], centroids[:, 1], s=100, c='red', marker='o')
plt.show()

ログイン後にコピー

上記のコード例を通じて、Python を使用して K-means クラスタリングアルゴリズムを実装できます。必要に応じて、クラスターの数 k やその他のパラメーターを調整できます。この記事が、K 平均法クラスタリングアルゴリズムの理解と実装に役立つことを願っています。

以上がPython で K 平均法クラスタリングアルゴリズムを記述するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python で K 平均法クラスタリング アルゴリズムを記述するにはどうすればよいですか?

必要なライブラリをインポートする

データの準備

重心の初期化

距離の計算

データ ポイントを最も近い重心に割り当てる

重心の位置を更新

反復クラスタリング プロセス

クラスタリング アルゴリズムの実行

結果の視覚化

Python で K 平均法クラスタリングアルゴリズムを記述するにはどうすればよいですか?

データポイントを最も近い重心に割り当てる

反復クラスタリングプロセス

クラスタリングアルゴリズムの実行