コンピュータ ビジョンの分野の継続的な発展に伴い、物体認識に関する研究はますます深まっています。中でも、Bag of Visual Words (BoW) はよく使用されるオブジェクト認識手法です。この記事では、バッグ・オブ・ビジュアルワード法の原理、メリット、デメリットを紹介し、例を示します。 Bag of Visual Words 法は、画像の局所的な特徴に基づいたオブジェクト認識法です。画像を複数の小さな領域に分割し、各領域の特徴記述子を抽出します。次に、これらの特徴記述子は、クラスタリング アルゴリズムを通じて視覚的な単語のバッグにグループ化されます。各単語のバッグは、特定の局所的な特徴を表します。物体認識段階では、入力画像の特徴記述子がビジュアルワードと結合されます。
ビジュアルワードの袋は古典的な画像分類方法です。これは、画像内の局所的な特徴を抽出し、クラスタリング アルゴリズムを使用してこれらの特徴をビジュアル ワードのセットにクラスタリングすることによって機能します。次に、画像内に出現する各ビジュアル ワードの頻度をカウントすることにより、画像は固定長ベクトル、つまりビジュアル ワード表現のバッグとして表現されます。最後に、ビジュアルワードのバッグが分類のために分類器に供給されます。この方法は、画像内の重要な特徴を捕捉し、分類器で使用できるベクトル形式で表現できるため、画像認識タスクで広く使用されています。
メリット:
(1) ビジュアルのバッグWords メソッドはシンプルで実装が簡単です;
(2) 画像の局所的な特徴を抽出でき、オブジェクトの回転、スケーリング、その他の変換に対して一定の堅牢性を備えています。
##(3) データセットが小さい場合、分類効果が高くなります。 欠点: (1) ビジュアルワード手法のバッグでは、特徴間の空間的関係が考慮されていません。オブジェクトの一部、オクルージョンなどの状況では、分類効果は低くなります。 (2) クラスターの数は手動で設定する必要があります。異なるデータ セットの場合、クラスターの数は、 ; (3) ディープラーニングの優れた特徴表現を活かすことができないため、分類効果は限定的です。 3. 例 以下では、ビジュアル ワードのバッグのアプリケーションを説明するために、例として MNIST データ セットを取り上げます。 MNIST データ セットは手書きの数字分類データ セットで、60,000 のトレーニング セット サンプルと 10,000 のテスト セット サンプルが含まれています。各サンプルは、手書きの数字を表す 28x28 のグレースケール画像です。コードは次のように実装されます:import numpy as np import cv2 from sklearn.cluster import KMeans from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 读取MNIST数据集 train_images = np.load('mnist_train_images.npy') train_labels = np.load('mnist_train_labels.npy') test_images = np.load('mnist_test_images.npy') test_labels = np.load('mnist_test_labels.npy') # 特征提取 features = [] sift = cv2.xfeatures2d.SIFT_create() for image in train_images: keypoints, descriptors = sift.detectAndCompute(image, None) features.append(descriptors) features = np.concatenate(features, axis=0) # 聚类 n_clusters = 100 kmeans = KMeans(n_clusters=n_clusters) kmeans.fit(features) # 计算视觉词袋 train_bow = [] for image in train_images: keypoints, descriptors = sift.detectAndCompute(image, None) hist = np.zeros(n_clusters) labels = kmeans.predict(descriptors) for label in labels: hist[label] += 1 train_bow.append(hist) train_bow = np.array(train_bow) test_bow = [] for image in test_images: keypoints, descriptors = sift.detectAndCompute(image, None) hist = np.zeros(n_clusters) labels = kmeans.predict(descriptors) for label in labels: hist[label] += 1 test_bow.append(hist) test_bow = np.array(test_bow) # 分类 knn = KNeighborsClassifier() knn.fit(train_bow, train_labels) pred_labels = knn.predict(test_bow) # 计算准确率 acc = accuracy_score(test_labels, pred_labels) print('Accuracy:', acc)
以上が物体認識のための視覚的な言葉のバッグの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。