G06V 10/62

Definition

Diese Klassifikationsstelle umfasst:

Techniken zur zeitbezogenen Merkmalsextraktion und Musterverfolgung zum Erkennen oder Verstehen von Bildern oder Videos. Solche Techniken umfassen:

Anmerkungen – technischer Hintergrund

Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:

1. Die Verfolgung kann mit einer einzigen Kamera oder mit einem System aus mehreren Kameras erfolgen, wobei sich die Sichtfelder ( FOV) überschneiden können.

2. Bei der zeitbezogenen Merkmalsextraktion und Musterverfolgung können die aus dem Video extrahierten Merkmale auf niedriger Ebene (z.B. Pixelfarben, Gradienten, Bewegungshinweise), auf mittlerer Ebene (z.B. Kanten, Ecken, Interessenpunkte, Regionen usw.) oder auf hoher Ebene (z.B. geometrische Anordnungen von Teilen eines Objekts) liegen. Bei der Verfolgung wird häufig eine Vordergrund-Hintergrund-Segmentierung oder eine Hintergrundmodellierung vorgenommen, um sich nur auf die Objekte von Interesse zu konzentrieren und die Gesamtkomplexität zu verringern. Zielrepräsentationen sind Modelle der Objekte von Interesse, die sich auf visuelle Anhaltspunkte wie Form, Textur und Farbe stützen. Es gibt starre Modelle (z.B. Bereiche oder Volumen von Interesse), gelenkige Modelle (z.B. kinematische Ketten [Cinematic Chains]) oder verformbare Modelle (z.B. Flüssigkeitsmodelle [Fluid Models], Punktverteilungen [Point Distributions], Erscheinungsmodelle [Appearance Models]).

Ein inhärentes Problem bei der Verfolgung ist die Lokalisierung, welche in der Regel wie folgt durchgeführt wird:

Zu den Modellen, die bei der Verfolgung eingesetzt werden, gehören probabilistische graphische Modelle (z.B. Markow-Modelle), auf Graphenabgleich [Graph Matching] basierende Verfahren, Camera-Link-Modelle [ CLM] oder statistische Modelle wie die Maximum-a-posteriori-Schätzung [ MAP].

Häufig auftretende Probleme betreffen die Kontextmodellierung (z.B. Änderungen des Hintergrunds, Stördaten [Clutter], Dauer der Verfolgungsereignisse) oder, bei einem Multikamerasystem, die Wiedererkennung, d.h. die Erkennung desselben Objekts im Sichtfeld der verschiedenen Kameras.

In letzter Zeit wurden neuronale Netze auf das Problem der Verfolgung angewandt, z.B.: Generic Object Tracking Using Regression Networks [GOTURN], Multi-Domain-Netze [MDNet], Long-Short-Term-Memory-Netze [ LSTM], Recurrent-You-Only-Look-Once-Netze [ROLO].

Beispiele

Bildreferenz:G06V0010620000_0



Verfolgung und Wiedererkennung von Personen in einem Multikamerasystem.

Querverweise

Informative Querverweise

Image Bildvorverarbeitung zum Erkennen oder Verstehen von Bildern oder Videos, wobei ein Bereich von Interesse [Region of Interest, ROI] oder ein Volumen von Interesse [Volume of Interest, VOI] bestimmt wird
G06V 10/25
Globale Merkmalsextraktion durch Analyse des gesamten Musters
G06V 10/42
Formdeskriptoren, Kontur- oder punktbezogene Deskriptoren, z.B. SIFT
G06V 10/46
Lokale Merkmalsextraktion durch Operationen innerhalb von Bildblöcken oder unter Verwendung von Histogrammen
G06V 10/50
Merkmalsextraktion betreffend die Textur
G06V 10/54
Merkmalsextraktion betreffend die Farbe
G06V 10/56
Mustererkennung oder maschinelles Lernen zum Erkennen oder Verstehen von Bildern oder Videos unter Verwendung probabilistischer grafischer Modelle
G06V 10/84
Bewegungsanalyse in Bildern
G06T 7/20

Glossar

CLM

Camera-Link-Modell.

FOV

Sichtfeld [Field of View].

GM

Graphenabgleich [Graph Matching].

KF

Kalman-Filter.

KT

Kernel-Tracking.

MAP

Maximum-a-posteriori-Schätzung.

MHT

Multi-Hypothesen-Tracking.

PF

Partikel-Filter.

G06V 10/62

Definition Statement

This place covers:

Techniques involving time-related feature extraction and pattern tracking for image or video recognition or understanding. Such techniques include:

Notes – technical background

These notes provide more information about the technical subject matter that is classified in this place:

1. Tracking may be implemented using a single camera or a system with multiple cameras, with possibly overlapping field of views (FOV).

2. In time-related feature extraction and pattern tracking, the features extracted from the video can be low-level (e.g. pixel colours, gradient, motion cues), mid-level (e.g. edges, corners, interest points, regions, etc.) or high-level (e.g. geometrical arrangements of parts of an object). The tracking often involves the foreground-background segmentation or background modelling in order to focus only on the objects of interest and reduce the overall complexity. Target representations are models of the objects of interest which rely on visual cues such as shape, texture, colour. There are rigid models (e.g. regions or volumes of interest), articulated models (e.g. kinematic chains) or deformable models (e.g. fluid models, point-distributions, appearance models).

An inherent problem during tracking is that of localisation, which is usually solved:

Models employed during tracking include graphical models (e.g. Markov models), graph-matching based tracking, camera-link model (CLM) or statistical models such as maximum a-posteriori estimation (MAP).

Problems frequently occurring are that of context modelling (e.g. changes in background, clutter, duration of the tracking events), or in the case of a multiple camera system, that of re-identification, i.e. detection of the same object in the field of view of these cameras.

Neural networks have been more recently applied to the problem of tracking, examples of architectures include: generic object tracking using regression networks (GOTURN), multi-domain network (MDNet), long short term memory (LSTM) networks, recurrent you only look once (ROLO) networks.

Examples

Bildreferenz:G06V0010620000_0



Tracking, person re-identification in a multiple camera system

References

Informative references

Image preprocessing for image or video recognition or understanding involving the determination of a region or volume of interest [ROI, VOI]
G06V 10/25
Global feature extraction by analysis of the whole pattern
G06V 10/42
Descriptors for shape, contour or point-related descriptors, e.g. SIFT
G06V 10/46
Local feature extraction by performing operations within image blocks or by using histograms
G06V 10/50
Feature extraction related to texture
G06V 10/54
Feature extraction related to colour
G06V 10/56
Pattern recognition or machine learning for image or video recognition or understanding using probabilistic graphical models
G06V 10/84
Analysis of motion in images
G06T 7/20

Glossary

CLM

camera link model

FOV

field of view

GM

graph matching

KF

Kalman filter

KT

kernel tracking

MAP

maximum a-posteriori estimation

MHT

multiple hypothesis tracking

PF

particle filtering