G06V 10/46

Definition

Diese Klassifikationsstelle umfasst:

Merkmalsextraktionsverfahren, bei denen zusätzliche (unveränderliche) Informationen aus bestimmten Bildregionen, Bildbereichen oder an bestimmten Punkten berechnet werden, die beim Vergleich oder Abgleich visuell relevanter sind.

Merkmalsextraktionsverfahren, bei denen Informationen aus mehreren lokalen Bildbereichen durch einen als “Bag of Features” (nach seinem Ursprung im Textdokumentenabgleich), “Bag of Visual Features” oder “Bag of Visual Words” bezeichneten Ansatz zu einem gemeinsamen Deskriptor kombiniert werden können.

Anmerkungen – technischer Hintergrund

Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:

1. Die an dieser Stelle erwähnten Bildregionen werden als “saliente Regionen” [Salient Regions] bezeichnet, und die Punkte werden als “Schlüsselpunkte” [Keypoints], “Interessenpunkte” [Interest Points] oder “saliente Punkte” [Salient Points] bezeichnet. Die diesen Regionen oder Punkten zugeordnete Information wird aufgrund des inhärenten Aspekts der Lokalität bei der Bildanalyse als lokaler Deskriptor bezeichnet.

Ein lokaler Deskriptor sollte invariant gegenüber Transformationen des abgebildeten Bildobjekts sein (z.B. invariant gegenüber affinen Transformationen, Objektverformungen oder Änderungen der Aufnahmebedingungen wie Kontrast oder Szenenbeleuchtung).

Ein lokaler Deskriptor kann Bildeigenschaften über verschiedene Maßstäbe hinweg erfassen, um Objekte in unterschiedlichen Größen, Abständen oder Auflösungen zuverlässig zu erkennen.

Typische Deskriptoren dieser Art sind:

Die Pixel in der unmittelbaren Umgebung eines salienten Punktes haben visuelle Merkmale, die sich von denen der großen Mehrheit der anderen Pixel unterscheiden. Das visuelle Erscheinungsbild von Bereichen um einen salienten Punkt ist daher in gewisser Weise einzigartig; diese Einzigartigkeit erhöht die Chance, einen ähnlichen Bereich in anderen Bildern zu finden, die dasselbe Objekt zeigen.

Saliente Punkte sind im Allgemeinen an den Rändern von Objekten und in anderen Bildbereichen mit starkem Kontrast zu erwarten.

2. Ein “Bag of Visual Words” ist ein Histogramm, das die Häufigkeit von Bildbereichen mit bestimmten visuellen Eigenschaften angibt; diese visuellen Eigenschaften werden durch ein Codebuch ausgedrückt, das üblicherweise durch Clustering einer Sammlung typischer Merkmalsdeskriptoren (z.B. SIFT-Merkmale) im Merkmalsraum erhalten wird; jede Klasse des Histogramms entspricht einem bestimmten Cluster im Codebuch.

Der Prozess der Erstellung eines Bag of Visual Words umfasst in der Regel folgende Schritte:

Eine Trainingsphase, umfassend:

Und eine Betriebsphase, umfassend:

Beispiele

Bildreferenz:G06V0010460000_0



Definieren von Schlüsselbereichen für verschiedene Objektklassen aus einem Trainingssatz, Berechnen von Merkmalen daraus und Erkennen dieser Objekte in neuen Bildern mittels einer Gruppe von Support-Vector-Machine-Klassifikatoren [ SVM].

Querverweise

Einschränkende Querverweise

Diese Klassifikationsstelle umfasst nicht:
Extraktion von Farbmerkmalen
G06V 10/56

Informative Querverweise

Bildvorverarbeitung zum Erkennen oder Verstehen von Bildern oder Videos, wobei ein Bereich von Interesse [Region of Interest, ROI] oder ein Volumen von Interesse [Volume of Interest, VOI] bestimmt wird
G06V 10/25
Globale Merkmalsextraktion, globale invariante Merkmale [Global Invariant Features] (z.B. GIST)
G06V 10/42
Lokale Merkmalsextraktion; Extraktion spezifischer Formprimitive, z.B. Ecken, Schnittpunkte; Berechnung von Salienzkarten [Saliency Maps] mit Interaktionen wie Verstärkung oder Hemmung
G06V 10/44
Lokale Merkmalsextraktion; Deskriptoren, die durch Operationen innerhalb von Bildblöcken berechnet werden (z.B. HOG, LBP)
G06V 10/50
Organisation der Abgleichprozesse; Grob-Fein-Ansätze, z.B. Multiskalen-Ansätze; unter Verwendung einer Kontextanalyse; Auswahl von Referenzverzeichnissen
G06V 10/75
Erzeugung von Trainingsmustersätzen, z.B. Bagging
G06V 10/774
Extraktion salienter Merkmale für die Zeichenerkennung
G06V 30/18
Systeme zum Wiederauffinden von Bildern mittels Metadaten
G06F 16/583

Spezielle Klassifizierungsregeln

Die vorliegende Gruppe umfasst keine biologisch inspirierten Ansätze zur Merkmalsextraktion, die auf der Modellierung der rezeptiven Felder visueller Neuronen beruhen, wie z.B. Gabor-Filter und neuronale Faltungsnetzwerke [ CNN].

Die Verwendung neuronaler Netze zum Erkennen oder Verstehen von Mustern in Bildern oder Videos wird in die Gruppe G06V 10/82 klassifiziert.

Wenn ein Dokument Einzelheiten zu einem Stichprobenverfahren und einem Clustering-Verfahren (Bagging) enthält, sollte es auch in die Gruppe G06V 10/774 klassifiziert werden.

Bei den klassischen “Bag of Words”-Verfahren werden die meisten Bildlokalisierungsinformationen (Geometrie) entfernt.

Wenn lokale Merkmale direkt zwischen zwei Bildern abgeglichen werden, ohne dass ein Bagging-Verfahren zum Einsatz kommt (und dadurch geometrische Informationen erhalten bleiben), z.B. wenn Tripel von Merkmalen unter Verwendung einer geometrischen Transformation mit einem RANSAC-Algorithmus abgeglichen werden, dann sollte das Dokument auch in die Gruppe G06V 10/75 klassifiziert werden.

Glossar

BOF

Bag of Features, siehe BOW.

BOVF

Bag of Visual Features, siehe BOW.

BOVW

Bag of Visual Words, siehe BOW.

BOW

Bag of Words, ein ursprünglich für die Verarbeitung natürlicher Sprache entwickeltes Modell; auf Bilder angewandt, stellt es ein Bild durch ein Histogramm "visueller Wörter" dar, wobei jedes "visuelle Wort" einen bestimmten Teil des Merkmalsraums repräsentiert.

MSER

Maximally Stable External Regions, ein Verfahren zur Blob-Erkennung.

RANSAC

Random Sample Consensus, ein beliebter Regressionsalgorithmus.

SIFT

skaleninvariante Merkmalstransformation [Scale-Invariant Feature Transform].

Superpixel

Pixelgruppen, die durch Aufteilung eines digitalen Bildes für die Bewertung der Salienz [Saliency] erhalten werden.

SURF

Speeded Up Robust Features.

G06V 10/46

Definition Statement

This place covers:

Feature extraction techniques in which additional (invariant) information is calculated from certain image regions or patches or at certain points, which are visually more relevant in the process of comparison or matching.

Feature extraction techniques in which information from multiple local image patches can be combined into a joint descriptor by using an approach called “bag of features” (from its origin in text document matching), “bag of visual features”, or “bag of visual words”.

Notes – technical background

These notes provide more information about the technical subject matter that is classified in this place:

1. The image regions referred to in this place are called “salient regions”, and the points are called “keypoints”, “interest points” or “salient points”. The information assigned to these regions or points is referred to as a local descriptor due to the inherent aspect of locality in the image analysis.

A local descriptor aims to be invariant to transformations of the depicted image object (e.g., invariant to affine transforms, object deformations, or changes in image capturing conditions such as contrast or scene illumination, etc.).

A local descriptor may capture image characteristics across different scales for reliably detecting objects at different sizes, distances, or resolutions. Typical descriptors of this kind include:

At a salient point, the pixels in its immediate neighbourhood have visual characteristics, which are different from those of the vast majority of the other pixels. The visual appearance of patches around a salient point is, therefore, somewhat unique; this uniqueness increases the chance of finding a similar patch in other images showing the same object.

Generally, salient points can be expected to be located at boundaries of objects and at other image regions having a strong contrast.

2. A “bag of visual words” is a histogram, which indicates the frequencies of patches with particular visual properties; these visual properties are expressed by a codebook, which is commonly obtained by clustering a collection of typical feature descriptors (e.g. SIFT features) in the feature space; each bin of the histogram corresponds to one specific cluster in the codebook.

The process of generating a bag of features typically involves:

A training phase comprising:

And an operating phase comprising:

Examples

Bildreferenz:G06V0010460000_0



Defining key-patches for different objects classes from a training set, computing features from them and using a set of support vector machine (SVM) classifiers to detect those objects in new images.

References

Limiting references

This place does not cover:
Colour feature extraction
G06V 10/56

Informative references

Image preprocessing for image or video recognition or understanding involving the determination of a region or volume of interest [ROI, VOI]
G06V 10/25
Global feature extraction, global invariant features (e.g. GIST)
G06V 10/42
Local feature extraction; Extracting of specific shape primitives, e.g. corners, intersections; Computing saliency maps with interactions such as reinforcement or inhibition
G06V 10/44
Local feature extraction, descriptors computed by performing operations within image blocks (e.g. HOG, LBP)
G06V 10/50
Organisation of the matching process; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
G06V 10/75
Obtaining sets of training patterns, e.g. bagging
G06V 10/774
Extracting salient feature points for character recognition
G06V 30/18
Image retrieval systems using metadata
G06F 16/583

Special rules of classification

The present group does not cover biologically inspired approaches of feature extraction based on modelling the receptive fields of visual neurons, such as Gabor filters, and convolutional neural networks (CNN).

The use of neural networks for image or video pattern recognition or understanding is classified in group G06V 10/82.

When a document presents details on a sampling technique and a clustering technique (bagging), then it should also be classified in group G06V 10/774.

Classical “bag of words” techniques remove most image localisation information (geometry).

When local features are matched directly from one image to another without involving a bagging technique (and thereby retaining geometric information), e.g. when triplets of features are matched using a geometric transformation with a RANSAC algorithm, then the document should also be classified in group G06V 10/75.

Glossary

BOF

bag of features, see BOW

BOVF

bag of visual features, see BOVF

BOVW

bag of visual words, see BOW

BOW

bag of words, a model originally developed for natural language processing; when applied to images, it represents an image by a histogram of visual words, each visual word representing a specific part of the feature space.

MSER

maximally stable extremal regions, a technique used for blob detection

RANSAC

random sample consensus, a popular regression algorithm

SIFT

scale-invariant feature transform

superpixels
superpixel

sets of pixels obtained by partitioning a digital image for saliency assessment

SURF

speeded up robust features