G06V 10/62

Definition

Diese Klassifikationsstelle umfasst:

Techniken zur zeitbezogenen Merkmalsextraktion und Musterverfolgung zum Erkennen oder Verstehen von Bildern oder Videos. Solche Techniken umfassen:

generative Verfahren wie Kernel-Based Tracking [ KT], Kalman-Filter [ KF], Partikel-Filter [ PF];
diskriminative Verfolgungsverfahren wie Joint Probabilistic Data Association Filter [JPDAF], Multi-Hypothesen-Tracking [ MHT], Flow Network Framework [FNF].

Anmerkungen – technischer Hintergrund

Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:

1. Die Verfolgung kann mit einer einzigen Kamera oder mit einem System aus mehreren Kameras erfolgen, wobei sich die Sichtfelder ( FOV) überschneiden können.

2. Bei der zeitbezogenen Merkmalsextraktion und Musterverfolgung können die aus dem Video extrahierten Merkmale auf niedriger Ebene (z.B. Pixelfarben, Gradienten, Bewegungshinweise), auf mittlerer Ebene (z.B. Kanten, Ecken, Interessenpunkte, Regionen usw.) oder auf hoher Ebene (z.B. geometrische Anordnungen von Teilen eines Objekts) liegen. Bei der Verfolgung wird häufig eine Vordergrund-Hintergrund-Segmentierung oder eine Hintergrundmodellierung vorgenommen, um sich nur auf die Objekte von Interesse zu konzentrieren und die Gesamtkomplexität zu verringern. Zielrepräsentationen sind Modelle der Objekte von Interesse, die sich auf visuelle Anhaltspunkte wie Form, Textur und Farbe stützen. Es gibt starre Modelle (z.B. Bereiche oder Volumen von Interesse), gelenkige Modelle (z.B. kinematische Ketten [Cinematic Chains]) oder verformbare Modelle (z.B. Flüssigkeitsmodelle [Fluid Models], Punktverteilungen [Point Distributions], Erscheinungsmodelle [Appearance Models]).

Ein inhärentes Problem bei der Verfolgung ist die Lokalisierung, welche in der Regel wie folgt durchgeführt wird:

als Einzelhypothesen-Lokalisierung, wobei eine Schätzung nur eines Spurkandidaten über die Zeit ausgewertet wird, z.B. gradientenbasierte Tracker wie Kanade-Lucas-Tomasi [ KLT], Mean-Shift-Tracker [MS], Bayes-Tracker, Kalman-Filter; oder
als Multi-Hypothesen-Lokalisierung, wobei mehrere Spuren gleichzeitig ausgewertet werden, z.B. Grid Sampling, Partikel-Filter, hybride Methoden wie der Hybrid Particle Mean-Shift Tracker.

Zu den Modellen, die bei der Verfolgung eingesetzt werden, gehören probabilistische graphische Modelle (z.B. Markow-Modelle), auf Graphenabgleich [Graph Matching] basierende Verfahren, Camera-Link-Modelle [ CLM] oder statistische Modelle wie die Maximum-a-posteriori-Schätzung [ MAP].

Häufig auftretende Probleme betreffen die Kontextmodellierung (z.B. Änderungen des Hintergrunds, Stördaten [Clutter], Dauer der Verfolgungsereignisse) oder, bei einem Multikamerasystem, die Wiedererkennung, d.h. die Erkennung desselben Objekts im Sichtfeld der verschiedenen Kameras.

In letzter Zeit wurden neuronale Netze auf das Problem der Verfolgung angewandt, z.B.: Generic Object Tracking Using Regression Networks [GOTURN], Multi-Domain-Netze [MDNet], Long-Short-Term-Memory-Netze [ LSTM], Recurrent-You-Only-Look-Once-Netze [ROLO].

Beispiele

Bildreferenz:G06V0010620000_0

Verfolgung und Wiedererkennung von Personen in einem Multikamerasystem.

Querverweise

Informative Querverweise

Image Bildvorverarbeitung zum Erkennen oder Verstehen von Bildern oder Videos, wobei ein Bereich von Interesse [Region of Interest, ROI] oder ein Volumen von Interesse [Volume of Interest, VOI] bestimmt wird	G06V 10/25
Globale Merkmalsextraktion durch Analyse des gesamten Musters	G06V 10/42
Formdeskriptoren, Kontur- oder punktbezogene Deskriptoren, z.B. SIFT	G06V 10/46
Lokale Merkmalsextraktion durch Operationen innerhalb von Bildblöcken oder unter Verwendung von Histogrammen	G06V 10/50
Merkmalsextraktion betreffend die Textur	G06V 10/54
Merkmalsextraktion betreffend die Farbe	G06V 10/56
Mustererkennung oder maschinelles Lernen zum Erkennen oder Verstehen von Bildern oder Videos unter Verwendung probabilistischer grafischer Modelle	G06V 10/84
Bewegungsanalyse in Bildern	G06T 7/20

Glossar

CLM	Camera-Link-Modell.
FOV	Sichtfeld [Field of View].
GM	Graphenabgleich [Graph Matching].
KF	Kalman-Filter.
KT	Kernel-Tracking.
MAP	Maximum-a-posteriori-Schätzung.
MHT	Multi-Hypothesen-Tracking.
PF	Partikel-Filter.

G06V 10/62

Definition Statement

This place covers:

Techniques involving time-related feature extraction and pattern tracking for image or video recognition or understanding. Such techniques include:

generative methods, such as kernel-based tracking (KT), Kalman filtering (KF), particle filtering (PF);
discriminative tracking methods, such as joint probability data association filtering (JPDAF), multiple-hypothesis tracking (MHT), flow network framework (FNF).

Notes – technical background

These notes provide more information about the technical subject matter that is classified in this place:

1. Tracking may be implemented using a single camera or a system with multiple cameras, with possibly overlapping field of views (FOV).

2. In time-related feature extraction and pattern tracking, the features extracted from the video can be low-level (e.g. pixel colours, gradient, motion cues), mid-level (e.g. edges, corners, interest points, regions, etc.) or high-level (e.g. geometrical arrangements of parts of an object). The tracking often involves the foreground-background segmentation or background modelling in order to focus only on the objects of interest and reduce the overall complexity. Target representations are models of the objects of interest which rely on visual cues such as shape, texture, colour. There are rigid models (e.g. regions or volumes of interest), articulated models (e.g. kinematic chains) or deformable models (e.g. fluid models, point-distributions, appearance models).

An inherent problem during tracking is that of localisation, which is usually solved:

using single-hypothesis localisation in which only one track candidate estimate is evaluated over time, e.g. gradient-based trackers such as Kanade-Lucas-Tomasi (KLT), mean-shift (MS) tracker, Bayes tracker, Kalman filtering; or
a multiple-hypothesis localisation where multiple tracks are evaluated simultaneously, e.g. grid sampling, particle filter, hybrid methods such as hybrid particle mean shift tracker.

Models employed during tracking include graphical models (e.g. Markov models), graph-matching based tracking, camera-link model (CLM) or statistical models such as maximum a-posteriori estimation (MAP).

Problems frequently occurring are that of context modelling (e.g. changes in background, clutter, duration of the tracking events), or in the case of a multiple camera system, that of re-identification, i.e. detection of the same object in the field of view of these cameras.

Neural networks have been more recently applied to the problem of tracking, examples of architectures include: generic object tracking using regression networks (GOTURN), multi-domain network (MDNet), long short term memory (LSTM) networks, recurrent you only look once (ROLO) networks.

Examples

Bildreferenz:G06V0010620000_0

Tracking, person re-identification in a multiple camera system

References

Informative references

Image preprocessing for image or video recognition or understanding involving the determination of a region or volume of interest [ROI, VOI]	G06V 10/25
Global feature extraction by analysis of the whole pattern	G06V 10/42
Descriptors for shape, contour or point-related descriptors, e.g. SIFT	G06V 10/46
Local feature extraction by performing operations within image blocks or by using histograms	G06V 10/50
Feature extraction related to texture	G06V 10/54
Feature extraction related to colour	G06V 10/56
Pattern recognition or machine learning for image or video recognition or understanding using probabilistic graphical models	G06V 10/84
Analysis of motion in images	G06T 7/20

Glossary

CLM	camera link model
FOV	field of view
GM	graph matching
KF	Kalman filter
KT	kernel tracking
MAP	maximum a-posteriori estimation
MHT	multiple hypothesis tracking
PF	particle filtering