G06V 10/25

Definition

Diese Klassifikationsstelle umfasst:

Verfahren oder Einrichtungen zur Identifizierung von Bereichen in zweidimensionalen Bildern oder von Volumina in dreidimensionalen Punktwolkendatensätzen, die für die Erkennung relevante Informationen enthalten.

Identifizierung von Bereichen oder Volumina von Interesse in einem Bild, einer Punktwolke oder einer Abstandskarte [Distance Map], die wahrscheinlich zu einer erfolgreichen Objekterkennung führen.

Anmerkungen – technischer Hintergrund

Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:

Ein Bereich oder ein Volumen von Interesse ( ROI oder VOI) kann z.B. ein menschliches Gesicht (im Falle eines CCTV-Systems), ein Fahrzeug oder einen Fußgänger (im Falle eines kamerabasierten Verkehrsüberwachungssystems), ein Hindernis auf der Straße (im Falle eines Fahrerassistenzsystems) oder einen Gegenstand auf einem Förderband (im Falle eines industriellen Automatisierungssystems) umfassen.

Die Bestimmung eines Bereichs oder eines Volumens von Interesse ist im Wesentlichen eine Aufgabe der Objektdetektion, d.h. der Erkennung des Vorhandenseins einer bestimmten Art von Objekten in Bildern und der Lokalisierung des oder der Objekte.

Die Notwendigkeit, ein Objekt zu lokalisieren und insbesondere die Position und die räumliche Ausdehnung des Objekts zu beschreiben (z.B. durch Ausgabe eines minimal umgebenden Rechtecks [Bounding Box] um das Objekt), unterscheidet “Objektdetektionsalgorithmen [Object Detection Algorithms]” von “Objekterkennungsalgorithmen [Object Recognition Algorithms]”. Denn ein “Objektdetektionsalgorithmus” bewertet lediglich, ob ein bestimmtes visuelles Objekt an einer bestimmten Bildposition vorhanden ist. Dieser Algorithmus kann automatisch ein minimal umgebendes Rechteck (z.B. um Unkraut in einem Gemüsefeld) erstellen, ohne das Problem der “Objektklassifizierung” zu lösen (z.B. die Analyse eines Bildes eines Unkrauts, um seine Art zu bestimmen und seinen botanischen Namen auszugeben).

Algorithmen zur Erkennung von ROI oder VOI in Videosequenzen verwenden in der Regel Frame-Differenzierung [Frame Differencing] oder fortgeschrittenere Optischer-Fluss-Verfahren zur Erkennung bewegter Objekte.

Algorithmen zur Bestimmung eines ROI oder VOI können visuelle Anhaltspunkte nutzen, um die Lage eines minimal umgebenden Rechtecks zu bestimmen, z.B. durch Auswertung von Merkmalen wie Farbverteilungen oder lokalen Texturen.

Die Bestimmung eines ROI oder VOI kann durch eine spezielle Beleuchtung erleichtert werden, z.B. indem Licht in eine bestimmte Richtung geworfen wird, in der ein Objekt beim autonomen Fahren zu erwarten ist, oder indem die Bilder von Proben mit einer speziellen Färbung behandelt werden, wie es bei der Klassifizierung von Objekten in mikroskopischen Bildern der Fall ist.

Neuere Algorithmen verwenden neuronale Netze (NN), die Objektdetektion [Object Detection] und Objekterkennung [Object Recognition] integrieren. Ein Beispiel ist das region-basierte neuronale Faltungsnetzwerk [Region-Based Convolutional Neural Network, R-CNN], welches Segmentierungsalgorithmen für die Aufteilung des Bildes in einzelne Segmente verwendet, um mögliche ROI zu finden, und anschließend jede ROI als Eingabe an einen Klassifikator für die anschließende Objekterkennung übergibt.

Andere Lösungen wie You Only Look Once ( YOLO), Region-Proposal-Netze ( RPN) oder Single Shot Detector ( SSD) integrieren die ROI-Erkennung in den eigentlichen Objekterkennungsschritt.

Beispiele

Bildreferenz:G06V0010250000_0

Verwendung einer gemischten Architektur auf der Grundlage von Region-Proposal-Faltungsnetzwerk ( R-CNN oder RPN) zum Definieren eines ROI und dessen Klassifizierung durch ein anderes gemischtes neuronales Faltungsnetzwerk ( CNN) unter Verwendung von 2D- und 3D-Informationen.

Beziehungen zu anderen Klassifikationsstellen

Die Bestimmung einer ROI für die Zeichenerkennung wird in die Gruppe G06V 30/146 klassifiziert.

Querverweise

Nichteinschränkende Querverweise in anwendungsorientierte Klassifikationsstellen

Vorrichtungen zur Strahlendiagnostik	A61B 6/00
Diagnosesysteme, die Ultraschall, Schall oder Infraschall verwenden	A61B 8/00
Computergestützte Diagnosesysteme	G16H 50/20

Informative Querverweise

Bildanalyse mit regionenbasierter Segmentierung

G06T 7/11

Glossar

AOI	Fläche von Interesse, Synonym für ROI.
FOV	Sichtfeld [Field of View], der Bereich der Umgebung, den ein Bildsensor wahrnimmt.
R-CNN	ein neuronales Faltungsnetzwerk mit einem Bereichsvorschlag-Algorithmus zur Objektdetektion (Varianten: schnelles R-CNN [Fast R-CNN], schnelleres R-CNN [Faster R-CNN], Cascade R-CNN).
ROI	Bereich von Interesse [Region of Interest], ein Bildbereich, der wahrscheinlich relevante Informationen über ein zu detektierendes und zu erkennendes Objekt enthält.
RPN	Region-Proposal-Netz, eine Architektur von künstlichen neuronalen Netzen zur Festlegung eines ROI.
SSD	Single Shot (Multibox) Detector, ein neuronales Netz zur Objektdetektion.
VOI	Volumen von Interesse, ein Quader, der dreidimensionale Datenpunkte umschließt, die wahrscheinlich relevante Informationen über ein zu detektierendes und zu erkennendes Objekt darstellen.
YOLO	You Only Look Once, ein künstliches neuronales Netz zur Objektdetektion (gibt es in verschiedenen Versionen: YOLO v2, YOLO v3 usw.).