G06V 10/46

Definition

Diese Klassifikationsstelle umfasst:

Merkmalsextraktionsverfahren, bei denen zusätzliche (unveränderliche) Informationen aus bestimmten Bildregionen, Bildbereichen oder an bestimmten Punkten berechnet werden, die beim Vergleich oder Abgleich visuell relevanter sind.

Merkmalsextraktionsverfahren, bei denen Informationen aus mehreren lokalen Bildbereichen durch einen als “Bag of Features” (nach seinem Ursprung im Textdokumentenabgleich), “Bag of Visual Features” oder “Bag of Visual Words” bezeichneten Ansatz zu einem gemeinsamen Deskriptor kombiniert werden können.

Anmerkungen – technischer Hintergrund

Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:

1. Die an dieser Stelle erwähnten Bildregionen werden als “saliente Regionen” [Salient Regions] bezeichnet, und die Punkte werden als “Schlüsselpunkte” [Keypoints], “Interessenpunkte” [Interest Points] oder “saliente Punkte” [Salient Points] bezeichnet. Die diesen Regionen oder Punkten zugeordnete Information wird aufgrund des inhärenten Aspekts der Lokalität bei der Bildanalyse als lokaler Deskriptor bezeichnet.

Ein lokaler Deskriptor sollte invariant gegenüber Transformationen des abgebildeten Bildobjekts sein (z.B. invariant gegenüber affinen Transformationen, Objektverformungen oder Änderungen der Aufnahmebedingungen wie Kontrast oder Szenenbeleuchtung).

Ein lokaler Deskriptor kann Bildeigenschaften über verschiedene Maßstäbe hinweg erfassen, um Objekte in unterschiedlichen Größen, Abständen oder Auflösungen zuverlässig zu erkennen.

Typische Deskriptoren dieser Art sind:

Blob-Detektoren (z.B. SIFT, SURF);
Regionen-Detektoren (z.B. MSER, Superpixel).

Die Pixel in der unmittelbaren Umgebung eines salienten Punktes haben visuelle Merkmale, die sich von denen der großen Mehrheit der anderen Pixel unterscheiden. Das visuelle Erscheinungsbild von Bereichen um einen salienten Punkt ist daher in gewisser Weise einzigartig; diese Einzigartigkeit erhöht die Chance, einen ähnlichen Bereich in anderen Bildern zu finden, die dasselbe Objekt zeigen.

Saliente Punkte sind im Allgemeinen an den Rändern von Objekten und in anderen Bildbereichen mit starkem Kontrast zu erwarten.

2. Ein “Bag of Visual Words” ist ein Histogramm, das die Häufigkeit von Bildbereichen mit bestimmten visuellen Eigenschaften angibt; diese visuellen Eigenschaften werden durch ein Codebuch ausgedrückt, das üblicherweise durch Clustering einer Sammlung typischer Merkmalsdeskriptoren (z.B. SIFT-Merkmale) im Merkmalsraum erhalten wird; jede Klasse des Histogramms entspricht einem bestimmten Cluster im Codebuch.

Der Prozess der Erstellung eines Bag of Visual Words umfasst in der Regel folgende Schritte:

Eine Trainingsphase, umfassend:

Extraktion lokaler Merkmale (z.B. SIFT) aus einer Menge von Trainingsbildern;
Clustering dieser Merkmale zu visuellen Wörtern (z.B. mit k-Means).

Und eine Betriebsphase, umfassend:

Extraktion lokaler Merkmale aus einem Zielbild;
Verknüpfung jedes Merkmals mit dem nächstliegenden visuellen Wort;
Erstellung eines Histogramms der visuellen Wörter über das gesamte Bild und Abgleich mit den Vorlagen mithilfe eines statistischen Distanzmaßes (z.B. Mahalanobis-Abstand).

Beispiele

Bildreferenz:G06V0010460000_0

Definieren von Schlüsselbereichen für verschiedene Objektklassen aus einem Trainingssatz, Berechnen von Merkmalen daraus und Erkennen dieser Objekte in neuen Bildern mittels einer Gruppe von Support-Vector-Machine-Klassifikatoren [ SVM].

Querverweise

Einschränkende Querverweise

Diese Klassifikationsstelle umfasst nicht:

Extraktion von Farbmerkmalen

G06V 10/56

Informative Querverweise

Bildvorverarbeitung zum Erkennen oder Verstehen von Bildern oder Videos, wobei ein Bereich von Interesse [Region of Interest, ROI] oder ein Volumen von Interesse [Volume of Interest, VOI] bestimmt wird	G06V 10/25
Globale Merkmalsextraktion, globale invariante Merkmale [Global Invariant Features] (z.B. GIST)	G06V 10/42
Lokale Merkmalsextraktion; Extraktion spezifischer Formprimitive, z.B. Ecken, Schnittpunkte; Berechnung von Salienzkarten [Saliency Maps] mit Interaktionen wie Verstärkung oder Hemmung	G06V 10/44
Lokale Merkmalsextraktion; Deskriptoren, die durch Operationen innerhalb von Bildblöcken berechnet werden (z.B. HOG, LBP)	G06V 10/50
Organisation der Abgleichprozesse; Grob-Fein-Ansätze, z.B. Multiskalen-Ansätze; unter Verwendung einer Kontextanalyse; Auswahl von Referenzverzeichnissen	G06V 10/75
Erzeugung von Trainingsmustersätzen, z.B. Bagging	G06V 10/774
Extraktion salienter Merkmale für die Zeichenerkennung	G06V 30/18
Systeme zum Wiederauffinden von Bildern mittels Metadaten	G06F 16/583

Spezielle Klassifizierungsregeln

Die vorliegende Gruppe umfasst keine biologisch inspirierten Ansätze zur Merkmalsextraktion, die auf der Modellierung der rezeptiven Felder visueller Neuronen beruhen, wie z.B. Gabor-Filter und neuronale Faltungsnetzwerke [ CNN].

Die Verwendung neuronaler Netze zum Erkennen oder Verstehen von Mustern in Bildern oder Videos wird in die Gruppe G06V 10/82 klassifiziert.

Wenn ein Dokument Einzelheiten zu einem Stichprobenverfahren und einem Clustering-Verfahren (Bagging) enthält, sollte es auch in die Gruppe G06V 10/774 klassifiziert werden.

Bei den klassischen “Bag of Words”-Verfahren werden die meisten Bildlokalisierungsinformationen (Geometrie) entfernt.

Wenn lokale Merkmale direkt zwischen zwei Bildern abgeglichen werden, ohne dass ein Bagging-Verfahren zum Einsatz kommt (und dadurch geometrische Informationen erhalten bleiben), z.B. wenn Tripel von Merkmalen unter Verwendung einer geometrischen Transformation mit einem RANSAC-Algorithmus abgeglichen werden, dann sollte das Dokument auch in die Gruppe G06V 10/75 klassifiziert werden.

Glossar

BOF	Bag of Features, siehe BOW.
BOVF	Bag of Visual Features, siehe BOW.
BOVW	Bag of Visual Words, siehe BOW.
BOW	Bag of Words, ein ursprünglich für die Verarbeitung natürlicher Sprache entwickeltes Modell; auf Bilder angewandt, stellt es ein Bild durch ein Histogramm "visueller Wörter" dar, wobei jedes "visuelle Wort" einen bestimmten Teil des Merkmalsraums repräsentiert.
MSER	Maximally Stable External Regions, ein Verfahren zur Blob-Erkennung.
RANSAC	Random Sample Consensus, ein beliebter Regressionsalgorithmus.
SIFT	skaleninvariante Merkmalstransformation [Scale-Invariant Feature Transform].
Superpixel	Pixelgruppen, die durch Aufteilung eines digitalen Bildes für die Bewertung der Salienz [Saliency] erhalten werden.
SURF	Speeded Up Robust Features.

G06V 10/46

Definition Statement

This place covers:

Feature extraction techniques in which additional (invariant) information is calculated from certain image regions or patches or at certain points, which are visually more relevant in the process of comparison or matching.

Feature extraction techniques in which information from multiple local image patches can be combined into a joint descriptor by using an approach called “bag of features” (from its origin in text document matching), “bag of visual features”, or “bag of visual words”.

Notes – technical background

These notes provide more information about the technical subject matter that is classified in this place:

1. The image regions referred to in this place are called “salient regions”, and the points are called “keypoints”, “interest points” or “salient points”. The information assigned to these regions or points is referred to as a local descriptor due to the inherent aspect of locality in the image analysis.

A local descriptor aims to be invariant to transformations of the depicted image object (e.g., invariant to affine transforms, object deformations, or changes in image capturing conditions such as contrast or scene illumination, etc.).

A local descriptor may capture image characteristics across different scales for reliably detecting objects at different sizes, distances, or resolutions. Typical descriptors of this kind include:

Blob detectors (e.g. SIFT, SURF);
Region detectors (e.g. MSER, SuperPixels).

At a salient point, the pixels in its immediate neighbourhood have visual characteristics, which are different from those of the vast majority of the other pixels. The visual appearance of patches around a salient point is, therefore, somewhat unique; this uniqueness increases the chance of finding a similar patch in other images showing the same object.

Generally, salient points can be expected to be located at boundaries of objects and at other image regions having a strong contrast.

2. A “bag of visual words” is a histogram, which indicates the frequencies of patches with particular visual properties; these visual properties are expressed by a codebook, which is commonly obtained by clustering a collection of typical feature descriptors (e.g. SIFT features) in the feature space; each bin of the histogram corresponds to one specific cluster in the codebook.

The process of generating a bag of features typically involves:

A training phase comprising:

Extracting local features (e.g. SIFT) from a set of training images;
Clustering these features into visual words (e.g. with k-means).

And an operating phase comprising:

Extracting local features from a target image;
Associating each feature with its closest visual word;
Building a histogram of visual words over the whole image and match them with templates using a statistical distance (e.g. Mahalanobis distance).

Examples

Bildreferenz:G06V0010460000_0

Defining key-patches for different objects classes from a training set, computing features from them and using a set of support vector machine (SVM) classifiers to detect those objects in new images.

References

Limiting references

This place does not cover:

Colour feature extraction

G06V 10/56

Informative references

Image preprocessing for image or video recognition or understanding involving the determination of a region or volume of interest [ROI, VOI]	G06V 10/25
Global feature extraction, global invariant features (e.g. GIST)	G06V 10/42
Local feature extraction; Extracting of specific shape primitives, e.g. corners, intersections; Computing saliency maps with interactions such as reinforcement or inhibition	G06V 10/44
Local feature extraction, descriptors computed by performing operations within image blocks (e.g. HOG, LBP)	G06V 10/50
Organisation of the matching process; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries	G06V 10/75
Obtaining sets of training patterns, e.g. bagging	G06V 10/774
Extracting salient feature points for character recognition	G06V 30/18
Image retrieval systems using metadata	G06F 16/583

Special rules of classification

The present group does not cover biologically inspired approaches of feature extraction based on modelling the receptive fields of visual neurons, such as Gabor filters, and convolutional neural networks (CNN).

The use of neural networks for image or video pattern recognition or understanding is classified in group G06V 10/82.

When a document presents details on a sampling technique and a clustering technique (bagging), then it should also be classified in group G06V 10/774.

Classical “bag of words” techniques remove most image localisation information (geometry).

When local features are matched directly from one image to another without involving a bagging technique (and thereby retaining geometric information), e.g. when triplets of features are matched using a geometric transformation with a RANSAC algorithm, then the document should also be classified in group G06V 10/75.

Glossary

BOF	bag of features, see BOW
BOVF	bag of visual features, see BOVF
BOVW	bag of visual words, see BOW
BOW	bag of words, a model originally developed for natural language processing; when applied to images, it represents an image by a histogram of visual words, each visual word representing a specific part of the feature space.
MSER	maximally stable extremal regions, a technique used for blob detection
RANSAC	random sample consensus, a popular regression algorithm
SIFT	scale-invariant feature transform
superpixels superpixel	sets of pixels obtained by partitioning a digital image for saliency assessment
SURF	speeded up robust features