Techniken zur zeitbezogenen Merkmalsextraktion und Musterverfolgung zum Erkennen oder Verstehen von Bildern oder Videos. Solche Techniken umfassen:
Anmerkungen – technischer Hintergrund
Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:
1. Die Verfolgung kann mit einer einzigen Kamera oder mit einem System aus mehreren Kameras erfolgen, wobei sich die Sichtfelder ( FOV) überschneiden können.
2. Bei der zeitbezogenen Merkmalsextraktion und Musterverfolgung können die aus dem Video extrahierten Merkmale auf niedriger Ebene (z.B. Pixelfarben, Gradienten, Bewegungshinweise), auf mittlerer Ebene (z.B. Kanten, Ecken, Interessenpunkte, Regionen usw.) oder auf hoher Ebene (z.B. geometrische Anordnungen von Teilen eines Objekts) liegen. Bei der Verfolgung wird häufig eine Vordergrund-Hintergrund-Segmentierung oder eine Hintergrundmodellierung vorgenommen, um sich nur auf die Objekte von Interesse zu konzentrieren und die Gesamtkomplexität zu verringern. Zielrepräsentationen sind Modelle der Objekte von Interesse, die sich auf visuelle Anhaltspunkte wie Form, Textur und Farbe stützen. Es gibt starre Modelle (z.B. Bereiche oder Volumen von Interesse), gelenkige Modelle (z.B. kinematische Ketten [Cinematic Chains]) oder verformbare Modelle (z.B. Flüssigkeitsmodelle [Fluid Models], Punktverteilungen [Point Distributions], Erscheinungsmodelle [Appearance Models]).
Ein inhärentes Problem bei der Verfolgung ist die Lokalisierung, welche in der Regel wie folgt durchgeführt wird:
Zu den Modellen, die bei der Verfolgung eingesetzt werden, gehören probabilistische graphische Modelle (z.B. Markow-Modelle), auf Graphenabgleich [Graph Matching] basierende Verfahren, Camera-Link-Modelle [ CLM] oder statistische Modelle wie die Maximum-a-posteriori-Schätzung [ MAP].
Häufig auftretende Probleme betreffen die Kontextmodellierung (z.B. Änderungen des Hintergrunds, Stördaten [Clutter], Dauer der Verfolgungsereignisse) oder, bei einem Multikamerasystem, die Wiedererkennung, d.h. die Erkennung desselben Objekts im Sichtfeld der verschiedenen Kameras.
In letzter Zeit wurden neuronale Netze auf das Problem der Verfolgung angewandt, z.B.: Generic Object Tracking Using Regression Networks [GOTURN], Multi-Domain-Netze [MDNet], Long-Short-Term-Memory-Netze [ LSTM], Recurrent-You-Only-Look-Once-Netze [ROLO].
Beispiele
Verfolgung und Wiedererkennung von Personen in einem Multikamerasystem.
Image Bildvorverarbeitung zum Erkennen oder Verstehen von Bildern oder Videos, wobei ein Bereich von Interesse [Region of Interest, ROI] oder ein Volumen von Interesse [Volume of Interest, VOI] bestimmt wird | G06V 10/25 |
Globale Merkmalsextraktion durch Analyse des gesamten Musters | G06V 10/42 |
Formdeskriptoren, Kontur- oder punktbezogene Deskriptoren, z.B. SIFT | G06V 10/46 |
Lokale Merkmalsextraktion durch Operationen innerhalb von Bildblöcken oder unter Verwendung von Histogrammen | G06V 10/50 |
Merkmalsextraktion betreffend die Textur | G06V 10/54 |
Merkmalsextraktion betreffend die Farbe | G06V 10/56 |
Mustererkennung oder maschinelles Lernen zum Erkennen oder Verstehen von Bildern oder Videos unter Verwendung probabilistischer grafischer Modelle | G06V 10/84 |
Bewegungsanalyse in Bildern | G06T 7/20 |
Techniques involving time-related feature extraction and pattern tracking for image or video recognition or understanding. Such techniques include:
Notes – technical background
These notes provide more information about the technical subject matter that is classified in this place:
1. Tracking may be implemented using a single camera or a system with multiple cameras, with possibly overlapping field of views (FOV).
2. In time-related feature extraction and pattern tracking, the features extracted from the video can be low-level (e.g. pixel colours, gradient, motion cues), mid-level (e.g. edges, corners, interest points, regions, etc.) or high-level (e.g. geometrical arrangements of parts of an object). The tracking often involves the foreground-background segmentation or background modelling in order to focus only on the objects of interest and reduce the overall complexity. Target representations are models of the objects of interest which rely on visual cues such as shape, texture, colour. There are rigid models (e.g. regions or volumes of interest), articulated models (e.g. kinematic chains) or deformable models (e.g. fluid models, point-distributions, appearance models).
An inherent problem during tracking is that of localisation, which is usually solved:
Models employed during tracking include graphical models (e.g. Markov models), graph-matching based tracking, camera-link model (CLM) or statistical models such as maximum a-posteriori estimation (MAP).
Problems frequently occurring are that of context modelling (e.g. changes in background, clutter, duration of the tracking events), or in the case of a multiple camera system, that of re-identification, i.e. detection of the same object in the field of view of these cameras.
Neural networks have been more recently applied to the problem of tracking, examples of architectures include: generic object tracking using regression networks (GOTURN), multi-domain network (MDNet), long short term memory (LSTM) networks, recurrent you only look once (ROLO) networks.
Examples
Tracking, person re-identification in a multiple camera system
Image preprocessing for image or video recognition or understanding involving the determination of a region or volume of interest [ROI, VOI] | G06V 10/25 |
Global feature extraction by analysis of the whole pattern | G06V 10/42 |
Descriptors for shape, contour or point-related descriptors, e.g. SIFT | G06V 10/46 |
Local feature extraction by performing operations within image blocks or by using histograms | G06V 10/50 |
Feature extraction related to texture | G06V 10/54 |
Feature extraction related to colour | G06V 10/56 |
Pattern recognition or machine learning for image or video recognition or understanding using probabilistic graphical models | G06V 10/84 |
Analysis of motion in images | G06T 7/20 |
CLM | camera link model |
FOV | field of view |
GM | graph matching |
KF | Kalman filter |
KT | kernel tracking |
MAP | maximum a-posteriori estimation |
MHT | multiple hypothesis tracking |
PF | particle filtering |