Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen-KI-php.cn

1. Vorwort

Computer Vision (Computer Vision), üblicherweise als CV bezeichnet, ist ein Forschungsgebiet, das Technologie nutzt, um Computern dabei zu helfen, Bilder zu „sehen“ und zu „verstehen“, beispielsweise beim Erstellen Computer verstehen den Inhalt des Fotos oder Videos.

Dieser Artikel bietet eine allgemeine Einführung in Computer Vision. Dieser Artikel ist in sechs Teile unterteilt:

Warum Computer Vision wichtig ist
Was ist Computer Vision
Computer Vision Die Grundprinzipien von
Typische Aufgaben von Computer Vision
Anwendungsszenarien von Computer Vision im täglichen Leben
Herausforderungen von Computer Vision

2. Warum ist Computer Vision wichtig? Die Informationen werden verarbeitet und geformt. Wir Menschen nutzen das Sehen, um intuitiv die Form und den Zustand der Dinge vor uns zu verstehen. Die meisten von uns verlassen sich auf das Sehen, um das Kochen abzuschließen, Hindernisse zu überwinden, Straßenschilder zu lesen, Videos anzusehen und unzählige andere Aufgaben. Gäbe es da nicht besondere Gruppen wie Blinde, nimmt die überwiegende Mehrheit der Menschen äußere Informationen durch das Sehen auf, und dieser Anteil liegt sogar bei 80 % – dieser Anteil ist nicht unbegründet, so der berühmte Experimentalpsychologe Treicher Durch zahlreiche Experimente wurde bestätigt, dass 83 % der Informationen, die Menschen erhalten, durch Sehen, 11 % durch Hören und die restlichen 6 % durch Geruch, Berührung und Geschmack entstehen. Daher ist das Sehen für den Menschen zweifellos der wichtigste Sinn.

Nicht nur der Mensch ist ein „Sehtier“, sondern für die meisten Tiere spielt auch das Sehen eine sehr wichtige Rolle. Durch das Sehen nehmen Menschen und Tiere die Größe, das Licht und den Schatten, die Farbe und die Bewegung äußerer Objekte wahr und erhalten verschiedene Informationen, die für das Überleben des Körpers wichtig sind. Durch diese Informationen können sie lernen, wie die Welt um sie herum aussieht wie man mit der Welt interagiert.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen Vor dem Aufkommen von Computer Vision befanden sich Bilder für Computer in einem Black-Box-Zustand. Für einen Computer ist ein Bild nur eine Datei oder eine Datenfolge. Der Computer kennt den Inhalt des Bildes nicht, er weiß nur, wie groß das Bild ist, wie viel Speicher es belegt, in welchem Format es vorliegt usw.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen Wenn Computer und künstliche Intelligenz in der realen Welt eine wichtige Rolle spielen wollen, müssen sie Bilder verstehen! Daher versuchen Informatiker seit einem halben Jahrhundert herauszufinden, wie man Computer zum Sehen bringt, und haben so das Gebiet der „Computer Vision“ hervorgebracht.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen Durch die rasante Entwicklung des Internets ist auch Computer Vision besonders wichtig geworden. Die folgende Abbildung ist ein Trenddiagramm der Menge neuer Daten im Netzwerk seit 2020. Graue Grafiken sind strukturierte Daten, blaue Grafiken sind unstrukturierte Daten (hauptsächlich Bilder und Videos). Es ist offensichtlich, dass die Anzahl der Bilder und Videos exponentiell wächst.

Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen Das Internet besteht aus Text und Bildern. Die Suche nach Text ist relativ einfach, aber um nach Bildern zu suchen, muss der Algorithmus wissen, was das Bild enthält. Lange Zeit verfügten Menschen nicht über genügend Technologie, um den Inhalt von Bildern und Videos zu verstehen, und konnten sich nur auf manuelle Anmerkungen verlassen, um Beschreibungen von Bildern oder Videos zu erhalten. Wie Computer in die Lage versetzt werden können, diese Bildinformationen besser zu verstehen, ist eine große Herausforderung für die heutige Computertechnologie. Um Bild- oder Videodaten optimal nutzen zu können, müssen Sie dem Computer ermöglichen, das Bild oder Video zu „sehen“ und den Inhalt zu verstehen.

3. Was ist Computer Vision?

Computer Vision ist ein wichtiger Zweig im Bereich der künstlichen Intelligenz. Das Problem besteht darin, Computern den Inhalt von Bildern oder Videos verstehen zu lassen. Zum Beispiel: Ist das Haustier auf dem Bild eine Katze oder ein Hund? Ist die Person auf dem Bild Lao Zhang oder Lao Wang? Was machen die Personen im Video? Darüber hinaus bezieht sich Computer Vision auf die Verwendung von Kameras und Computern anstelle des menschlichen Auges, um Ziele zu identifizieren, zu verfolgen und zu messen und die weitere Grafikverarbeitung durchzuführen, um Bilder zu erhalten, die besser für die Beobachtung mit dem menschlichen Auge oder die Übertragung an Instrumente zur Erkennung geeignet sind. Als wissenschaftliche Disziplin untersucht Computer Vision verwandte Theorien und Technologien und versucht, Systeme der künstlichen Intelligenz aufzubauen, die aus Bildern oder mehrdimensionalen Daten Informationen auf hoher Ebene gewinnen können. Aus technischer Sicht zielt es darauf ab, automatisierte Systeme zu nutzen, um das menschliche visuelle System zur Erledigung von Aufgaben nachzuahmen. Das ultimative Ziel von Computer Vision besteht darin, Computern die Möglichkeit zu geben, die Welt durch Sehen zu beobachten und zu verstehen, wie es Menschen tun, und die Fähigkeit zu haben, sich autonom an die Umgebung anzupassen. Aber es ist sehr schwierig, wirklich zu erkennen, dass ein Computer die Welt durch eine Kamera wahrnehmen kann, denn obwohl die von der Kamera aufgenommenen Bilder die gleichen sind wie das, was wir normalerweise sehen, ist jedes Bild für den Computer nur eine Anordnung und Kombination von Pixeln Werte. Ein Haufen starrer Zahlen. Wie es Computern ermöglicht wird, aus diesen starren Zahlen aussagekräftige visuelle Hinweise zu lesen, ist ein Problem, das durch Computer Vision gelöst werden sollte.

4. Grundprinzipien des Computer-Sehens

Jeder, der eine Kamera oder ein Mobiltelefon verwendet hat, weiß, dass Computer gut darin sind, Fotos mit erstaunlicher Genauigkeit und Details aufzunehmen. In gewissem Maße ist das künstliche „Sehen“ von Computern besser Die Sehfähigkeit des Menschen ist von Geburt an viel stärker. Aber so wie wir normalerweise sagen: „Hören bedeutet nicht Verstehen“, bedeutet „Sehen“ nicht „Verstehen“. Wenn Sie möchten, dass ein Computer Bilder wirklich „versteht“, ist das keine einfache Sache. Ein Bild ist ein großes Pixelraster, und jedes Pixel hat eine Farbe, die eine Kombination aus drei Primärfarben ist: Rot, Grün und Blau. Durch die Kombination der Intensitäten von drei Farben – sogenannte RGB-Werte – können wir jede beliebige Farbe erhalten. Der einfachste und am besten geeignete Computer-Vision-Algorithmus für den Einstieg ist: Um ein farbiges Objekt, beispielsweise einen rosa Ball, zu verfolgen, notieren wir zunächst die Farbe des Balls, speichern den RGB-Wert des mittleren Pixels und geben das Bild dann an den program , sodass das Programm das Pixel finden kann, das dieser Farbe am nächsten kommt. Der Algorithmus kann in der oberen linken Ecke beginnen, jedes Pixel untersuchen und den Unterschied zur Zielfarbe berechnen. Nachdem jedes Pixel überprüft wurde, ist der nächstgelegene Teil der Pixel wahrscheinlich das Pixel, in dem sich der Ball befindet. Dieser Algorithmus ist nicht auf die Ausführung auf diesem einzelnen Bild beschränkt, wir können den Algorithmus auch auf jedem Bild des Videos ausführen, um die Position des Balls zu verfolgen. Natürlich wird sich die Farbe des Balls aufgrund des Einflusses von Licht, Schatten und anderen Faktoren ändern. Sie entspricht nicht genau dem von uns gespeicherten RGB-Wert, kommt aber sehr nahe. In einigen extremen Fällen, beispielsweise bei einem Fußballspiel in der Nacht, kann der Tracking-Effekt jedoch sehr schlecht sein, und wenn eines der Trikots die gleiche Farbe wie der Ball hat, gerät der Algorithmus völlig in Ohnmacht. Sofern die Umgebung nicht streng kontrolliert werden kann, werden solche Farbverfolgungsalgorithmen daher selten in die Praxis umgesetzt. Heutzutage umfassen immer mehr Computer-Vision-Algorithmen im Allgemeinen „Deep Learning“-Methoden und -Technologien. Unter ihnen ist das Convolutional Neural Network (CNN) aufgrund seiner überlegenen Leistung am weitesten verbreitet. Da das Wissen, das mit „Deep Learning“ verbunden ist, zu umfangreich ist, wird in diesem Artikel nicht näher darauf eingegangen. Wenn Sie mehr über „Deep Learning“ erfahren möchten, können Sie sich auch den Einführungskurs zur KI ansehen – „Intel® OpenVINO™ Tool Suite Elementary Course“. Es beginnt mit den Grundkonzepten der KI, führt in relevantes Wissen über künstliche Intelligenz und Bildverarbeitungsanwendungen ein und hilft Benutzern, die Grundkonzepte und Anwendungsszenarien der Intel® OpenVINO™-Tool-Suite schnell zu verstehen. Der gesamte Kurs umfasst Videoverarbeitung, Kenntnisse im Zusammenhang mit Deep Learning, Inferenzbeschleunigung für Anwendungen der künstlichen Intelligenz und Demo-Demonstrationen der Intel® OpenVINO™-Tool-Suite. Er führt Sie Schritt für Schritt durch die Beherrschung von Deep Learning von der oberflächlichen zur tieferen Ebene.

5. Typische Aufgaben der Computer Vision

Die Bildklassifizierung besteht darin, verschiedene Kategorien von Bildern anhand ihrer semantischen Informationen zu unterscheiden. Sie ist der Kern der Computer Vision und dient der Objekterkennung, Bildsegmentierung und Objektverfolgung sowie Verhaltensanalyse, Gesichtserkennung und andere anspruchsvolle visuelle Aufgaben. Im Bild unten erkennt der Computer beispielsweise durch Bildklassifizierung Personen, Bäume, Gras und Himmel im Bild.

Die Bildklassifizierung wird in vielen Bereichen häufig verwendet, beispielsweise bei der Gesichtserkennung und intelligenten Videoanalyse im Sicherheitsbereich, bei der Erkennung von Verkehrsszenen im Transportbereich, bei der inhaltsbasierten Bildabfrage und bei der automatischen Klassifizierung von Fotoalben im Internet Bereich, Bilderkennung im medizinischen Bereich usw. Ein Artikel zum Verständnis von Computer Vision, voller nützlicher Informationen

Objekterkennung

Das Ziel der Objekterkennungsaufgabe besteht darin, ein Bild oder einen Videorahmen zu erstellen und den Computer die Positionen aller darin enthaltenen Objekte ermitteln zu lassen und Geben Sie für jedes Ziel spezifische Kategorien an. Wie in der folgenden Abbildung dargestellt, werden am Beispiel der Erkennung und Erkennung von Personen die Ränder verwendet, um die Positionen aller Personen im Bild zu markieren.