コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載-AI-php.cn

1. はじめに

コンピュータービジョン (コンピュータービジョン) は通常 CV と呼ばれ、コンピューターが画像を「見て」「理解できる」ようにするテクノロジーを使用する研究分野です。写真またはビデオ、コンテンツ。

この記事では、コンピュータービジョンについての全体的な概要を説明します。この記事は 6 つの部分に分かれています。

#コンピュータビジョンが重要な理由
コンピュータビジョンとは
コンピュータビジョンの基本原理
コンピュータビジョンの典型的なタスク
日常生活におけるコンピュータビジョンの応用シナリオ
コンピュータビジョンが直面する課題

2. コンピュータビジョンが重要な理由

生理学的に、視覚は視覚器官の受容細胞の興奮から始まり、視覚神経系が収集した情報を処理した後に形成されます。私たち人間は、目の前の物の形や状態を直観的に理解するために視覚を使用しており、ほとんどの人は、料理を完成させたり、障害物を乗り越えたり、道路標識を読んだり、ビデオを見たり、その他数え切れないほどの作業を視覚に頼っています。実際、視覚障害者のような特別なグループがなければ、大多数の人は視覚を通じて外部情報を取得しており、この割合は 80% にも達します。有名な実験心理学者トレイヒャーによると、この割合には根拠がないわけではありません。人間が得る情報の 83% は視覚から、11% は聴覚から、残りの 6% は嗅覚、触覚、味覚から得られることが多数の実験によって確認されています。したがって、人間にとって視覚は間違いなく最も重要な感覚です。

人間だけが「視覚動物」であるわけではありませんが、ほとんどの動物にとって視覚も非常に重要な役割を果たしています。人間や動物は、視覚を通じて外部の物体の大きさ、明暗、色、動きなどを認識し、身体の生存に重要なさまざまな情報を得ることで、周囲の世界の様子や周囲の様子を知ることができます。世界とどのように対話するか。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

#コンピュータビジョンが登場するまで、画像はコンピュータにとってブラックボックス状態でした。コンピュータにとって、画像は単なるファイルまたはデータ文字列にすぎません。コンピュータは画像の内容を知りません。画像のサイズ、占有メモリ量、形式などだけを知っています。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

コンピュータと人工知能が現実世界で重要な役割を果たしたいのであれば、画像を理解する必要があります。そのため、半世紀にわたり、コンピューター科学者はコンピューターに視覚を与える方法を解明しようと試み、「コンピュータービジョン」という分野を生み出しました。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

インターネットの急速な発展により、コンピュータービジョンも特に重要になってきました。以下の図は、2020 年以降のネットワーク上の新規データ量の傾向グラフです。灰色のグラフィックは構造化データ、青色のグラフィックは非構造化データ (主に写真とビデオ) です。写真やビデオの数が指数関数的に増加していることは明らかです。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

#インターネットはテキストと画像で構成されています。テキストの検索は比較的簡単ですが、画像を検索するには、アルゴリズムが画像に含まれる内容を認識する必要があります。長い間、人間には画像やビデオの内容を理解するための十分なテクノロジーがなく、画像やビデオの説明を取得するには手動の注釈に頼るしかありませんでした。コンピュータがこれらの画像情報をよりよく理解できるようにする方法は、今日のコンピュータ技術が直面している大きな課題です。画像や動画のデータを最大限に活用するには、コンピュータに画像や動画を「見て」内容を理解させる必要があります。

3. コンピュータービジョンとは

コンピュータービジョンは人工知能分野の重要な分野であり、簡単に言えば、コンピューターに画像やビデオの内容を理解させることで解決できる問題です。例: 写真のペットは猫ですか、それとも犬ですか?写真の人物はラオ・チャンですか、それともラオ・ワンですか？ビデオの中の人たちは何をしているのですか?さらに、コンピュータビジョンとは、人間の目の代わりにカメラやコンピュータを使用してターゲットを識別、追跡、測定し、さらにグラフィック処理を実行して、人間の目での観察や検出用の機器への送信により適した画像を取得することを指します。科学分野として、コンピュータービジョンは関連する理論と技術を研究し、画像や多次元データから高レベルの情報を取得できる人工知能システムの構築を試みています。エンジニアリングの観点から見ると、自動化システムを活用して人間の視覚システムを模倣し、タスクを完了することを目指しています。コンピュータービジョンの最終目標は、コンピューターが人間と同じように視覚を通じて世界を観察および理解できるようにし、自律的に環境に適応できるようにすることです。しかし、コンピュータがカメラを通して世界を認識できることを真に理解することは非常に困難です。カメラで捉えた画像は私たちが普段見ているものと同じですが、コンピュータにとってはどんな画像も単なるピクセルの配置と組み合わせにすぎないからです。値: 厳格な数値の束。コンピューターがこれらの厳密な数値から意味のある視覚的な手がかりを読み取ることができるようにする方法は、コンピュータービジョンが解決すべき問題です。

4. コンピュータービジョンの基本原理

カメラや携帯電話を使ったことがある人なら誰でも、コンピューターが驚くほど忠実で詳細な写真を撮るのが得意であることを知っています。ある程度、コンピューターは人工的なものです。「視覚」は人間の自然な視覚能力よりもはるかに強力です。しかし、私たちがよく「聞いても理解できない」と言われるように、「見える」ことが「理解できる」わけではないので、コンピュータに画像を真に「理解」してもらいたいと思うと、それは簡単なことではありません。画像はピクセルの大きなグリッドであり、各ピクセルには、赤、緑、青の 3 原色の組み合わせである色があります。 RGB 値と呼ばれる 3 つの色の強度を組み合わせることで、任意の色を得ることができます。始めるのに最も単純で最も適したコンピュータービジョンアルゴリズムは次のとおりです。ピンクのボールなどの色付きのオブジェクトを追跡するには、まずボールの色を記録し、中心ピクセルの RGB 値を保存し、次に画像をプログラムにこの色に最も近いピクセルを見つけさせます。アルゴリズムは左上隅から開始して各ピクセルを調べ、ターゲットの色との差を計算します。各ピクセルをチェックした後、ピクセルの最も近い部分がボールがあるピクセルである可能性があります。このアルゴリズムはこの 1 つの画像での実行に限定されず、ビデオの各フレームでアルゴリズムを実行してボールの位置を追跡することができます。もちろん、光や影などの影響でボールの色は変化しますので、保存したRGB値と全く同じではありませんが、かなり近いものにはなります。ただし、夜間のフットボールの試合などの極端な場合には、追跡効果が非常に劣る可能性があり、チームのジャージの 1 つがボールと同じ色の場合、アルゴリズムは完全に「失神」します。したがって、環境を厳密に制御できない限り、このような色追跡アルゴリズムが実用化されることはほとんどありません。現在、コンピュータビジョンのアルゴリズムには「深層学習」の手法や技術が使われることが多くなっていますが、その中でも性能が優れている畳み込みニューラルネットワーク (CNN) が最も広く使われています。「ディープラーニング」に関連する知識は広すぎるため、この記事ではこれ以上詳しく説明しません。「ディープラーニング」についてさらに詳しく知りたい場合は、AI 入門コース「インテル® OpenVINO™ ツールスイート初級コース」をご覧ください。 AI の基本概念から始まり、人工知能とビジョンアプリケーションに関する関連知識を紹介し、ユーザーがインテル® OpenVINO™ ツールスイートの基本概念とアプリケーションシナリオをすぐに理解できるようにします。コース全体には、ビデオ処理、ディープラーニングに関連する知識、人工知能アプリケーションの推論アクセラレーション、インテル® OpenVINO™ ツールスイートのデモデモンストレーションが含まれており、ディープラーニングを浅いところから深いところまで段階的にマスターすることができます。

5. コンピュータービジョンの典型的なタスク

画像分類

画像分類は、画像の意味情報に基づいて画像のさまざまなカテゴリを区別することです。 . それはコンピュータです視覚の中核は、物体検出、画像セグメンテーション、物体追跡、行動分析、顔認識などの他の高レベルの視覚タスクの基礎です。たとえば、下の図では、コンピューターは画像分類を通じて、画像内の人物、木、草、空を認識します。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

画像分類は、セキュリティ分野での顔認識とインテリジェントビデオ分析、交通分野での交通シーン認識、インターネットベースなど、多くの分野で広く使用されています。コンテンツの画像検索やフォトアルバムの自動分類、医療分野での画像認識など。

オブジェクト検出

ターゲット検出タスクの目標は、画像またはビデオフレームを与え、コンピューターにその中のすべてのターゲットの位置を検出させ、各ターゲットを与えることです。特定のカテゴリー。以下の図に示すように、人物の認識と検出を例として、境界線を使用して画像内のすべての人物の位置をマークします。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

マルチカテゴリのターゲット検出では、通常、次の図に示すように、さまざまな色の境界線を使用して、さまざまな検出されたオブジェクトの位置をマークします。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

セマンティックセグメンテーション

セマンティックセグメンテーションは、コンピュータービジョンの基本的なタスクです。セマンティックセグメンテーションでは、視覚入力を次のように分割する必要があります。意味的に解釈可能なさまざまなカテゴリ。画像全体をピクセルのグループに分割し、ラベルを付けて分類します。たとえば、画像内の車に属するすべてのピクセルを区別し、それらのピクセルを青に色付けしたい場合があります。以下に示すように、画像は人物 (赤)、木 (深緑)、草 (薄緑)、空 (青) のラベルに分割されます。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

インスタンスセグメンテーションインスタンスセグメンテーションは、ターゲット検出とセマンティックセグメンテーションを組み合わせたものです。画像内でターゲットが検出され (ターゲット検出)、各ピクセルにラベルが付けられます (セマンティックセグメンテーション)。））。上の図と下の図を比較すると、人間のターゲットが使用されている場合、セマンティックセグメンテーションでは同じカテゴリに属する異なるインスタンスが区別されない (すべての人が赤でマークされている) のに対し、インスタンスセグメンテーションでは同じカテゴリの異なるインスタンスが区別されることがわかります (異なる人を区別するために異なる色が使用されます)。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

#ターゲット追跡ターゲット追跡とは、画像シーケンス内の移動ターゲットの検出、抽出、識別、追跡、移動ターゲットの運動パラメータの取得、処理と分析、および移動するターゲットの行動を理解し、より高レベルの検出タスクを完了します。

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

6. 日常生活におけるコンピュータビジョンの応用シナリオ

コンピュータビジョンの応用シナリオは非常に多岐にわたります。ここでは、日常生活における一般的な応用シナリオをいくつか紹介します。 . . · アクセス制御と Alipay のための顔認識

コンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載

7. コンピュータビジョンが直面する課題

現在、コンピュータビジョンテクノロジは急速に発展しており、予備的な業界規模を持っています。将来のコンピュータビジョンテクノロジの開発は、主に次の課題に直面します: まず、異なるアプリケーション分野の他のテクノロジとどのようにうまく組み合わせるか、コンピュータビジョンは、特定の問題を解決するときにビッグデータを広範囲に利用できます。コンピュータビジョンアルゴリズムの開発時間と人件費をいかに削減するか. 現在、コンピュータビジョンアルゴリズムには大量のデータと手動のアノテーションが必要であり、アプリケーション分野の要件に達するには長い研究開発サイクルが必要であること、要求される精度と時間がかかること、3 つ目は、新しいアルゴリズムの設計と開発をスピードアップする方法であること、新しいイメージングハードウェアと人工知能チップの出現により、、さまざまなチップやデータ収集機器用のコンピュータービジョンアルゴリズムの設計と開発も課題の 1 つです。

8. 結論

コンピュータビジョンは、人工知能の分野で最も急速に成長し、最も広く使用されているテクノロジの 1 つであり、人工知能の「目」のようなもので、すべての人の画像をキャプチャします。人生の歩みを観察し、より多くの情報を分析します。将来的には、アルゴリズムの変更、ハードウェアの計算能力のアップグレード、データの爆発的増加、および 5G 技術の発展によってもたらされる高速ネットワークにより、コンピュータビジョンのアプリケーションの開発スペースもさらに広がるでしょう。様子を見てみましょう！

以上がコンピュータービジョンを理解するための 1 つの記事、役立つ情報が満載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。