Merkmalsextraktionsverfahren, bei denen zusätzliche (unveränderliche) Informationen aus bestimmten Bildregionen, Bildbereichen oder an bestimmten Punkten berechnet werden, die beim Vergleich oder Abgleich visuell relevanter sind.
Merkmalsextraktionsverfahren, bei denen Informationen aus mehreren lokalen Bildbereichen durch einen als “Bag of Features” (nach seinem Ursprung im Textdokumentenabgleich), “Bag of Visual Features” oder “Bag of Visual Words” bezeichneten Ansatz zu einem gemeinsamen Deskriptor kombiniert werden können.
Anmerkungen – technischer Hintergrund
Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:
1. Die an dieser Stelle erwähnten Bildregionen werden als “saliente Regionen” [Salient Regions] bezeichnet, und die Punkte werden als “Schlüsselpunkte” [Keypoints], “Interessenpunkte” [Interest Points] oder “saliente Punkte” [Salient Points] bezeichnet. Die diesen Regionen oder Punkten zugeordnete Information wird aufgrund des inhärenten Aspekts der Lokalität bei der Bildanalyse als lokaler Deskriptor bezeichnet.
Ein lokaler Deskriptor sollte invariant gegenüber Transformationen des abgebildeten Bildobjekts sein (z.B. invariant gegenüber affinen Transformationen, Objektverformungen oder Änderungen der Aufnahmebedingungen wie Kontrast oder Szenenbeleuchtung).
Ein lokaler Deskriptor kann Bildeigenschaften über verschiedene Maßstäbe hinweg erfassen, um Objekte in unterschiedlichen Größen, Abständen oder Auflösungen zuverlässig zu erkennen.
Typische Deskriptoren dieser Art sind:
Die Pixel in der unmittelbaren Umgebung eines salienten Punktes haben visuelle Merkmale, die sich von denen der großen Mehrheit der anderen Pixel unterscheiden. Das visuelle Erscheinungsbild von Bereichen um einen salienten Punkt ist daher in gewisser Weise einzigartig; diese Einzigartigkeit erhöht die Chance, einen ähnlichen Bereich in anderen Bildern zu finden, die dasselbe Objekt zeigen.
Saliente Punkte sind im Allgemeinen an den Rändern von Objekten und in anderen Bildbereichen mit starkem Kontrast zu erwarten.
2. Ein “Bag of Visual Words” ist ein Histogramm, das die Häufigkeit von Bildbereichen mit bestimmten visuellen Eigenschaften angibt; diese visuellen Eigenschaften werden durch ein Codebuch ausgedrückt, das üblicherweise durch Clustering einer Sammlung typischer Merkmalsdeskriptoren (z.B. SIFT-Merkmale) im Merkmalsraum erhalten wird; jede Klasse des Histogramms entspricht einem bestimmten Cluster im Codebuch.
Der Prozess der Erstellung eines Bag of Visual Words umfasst in der Regel folgende Schritte:
Eine Trainingsphase, umfassend:
Und eine Betriebsphase, umfassend:
Beispiele
Definieren von Schlüsselbereichen für verschiedene Objektklassen aus einem Trainingssatz, Berechnen von Merkmalen daraus und Erkennen dieser Objekte in neuen Bildern mittels einer Gruppe von Support-Vector-Machine-Klassifikatoren [ SVM].
Extraktion von Farbmerkmalen | G06V 10/56 |
Bildvorverarbeitung zum Erkennen oder Verstehen von Bildern oder Videos, wobei ein Bereich von Interesse [Region of Interest, ROI] oder ein Volumen von Interesse [Volume of Interest, VOI] bestimmt wird | G06V 10/25 |
Globale Merkmalsextraktion, globale invariante Merkmale [Global Invariant Features] (z.B. GIST) | G06V 10/42 |
Lokale Merkmalsextraktion; Extraktion spezifischer Formprimitive, z.B. Ecken, Schnittpunkte; Berechnung von Salienzkarten [Saliency Maps] mit Interaktionen wie Verstärkung oder Hemmung | G06V 10/44 |
Lokale Merkmalsextraktion; Deskriptoren, die durch Operationen innerhalb von Bildblöcken berechnet werden (z.B. HOG, LBP) | G06V 10/50 |
Organisation der Abgleichprozesse; Grob-Fein-Ansätze, z.B. Multiskalen-Ansätze; unter Verwendung einer Kontextanalyse; Auswahl von Referenzverzeichnissen | G06V 10/75 |
Erzeugung von Trainingsmustersätzen, z.B. Bagging | G06V 10/774 |
Extraktion salienter Merkmale für die Zeichenerkennung | G06V 30/18 |
Systeme zum Wiederauffinden von Bildern mittels Metadaten | G06F 16/583 |
Die vorliegende Gruppe umfasst keine biologisch inspirierten Ansätze zur Merkmalsextraktion, die auf der Modellierung der rezeptiven Felder visueller Neuronen beruhen, wie z.B. Gabor-Filter und neuronale Faltungsnetzwerke [ CNN].
Die Verwendung neuronaler Netze zum Erkennen oder Verstehen von Mustern in Bildern oder Videos wird in die Gruppe G06V 10/82 klassifiziert.
Wenn ein Dokument Einzelheiten zu einem Stichprobenverfahren und einem Clustering-Verfahren (Bagging) enthält, sollte es auch in die Gruppe G06V 10/774 klassifiziert werden.
Bei den klassischen “Bag of Words”-Verfahren werden die meisten Bildlokalisierungsinformationen (Geometrie) entfernt.
Wenn lokale Merkmale direkt zwischen zwei Bildern abgeglichen werden, ohne dass ein Bagging-Verfahren zum Einsatz kommt (und dadurch geometrische Informationen erhalten bleiben), z.B. wenn Tripel von Merkmalen unter Verwendung einer geometrischen Transformation mit einem RANSAC-Algorithmus abgeglichen werden, dann sollte das Dokument auch in die Gruppe G06V 10/75 klassifiziert werden.
Feature extraction techniques in which additional (invariant) information is calculated from certain image regions or patches or at certain points, which are visually more relevant in the process of comparison or matching.
Feature extraction techniques in which information from multiple local image patches can be combined into a joint descriptor by using an approach called “bag of features” (from its origin in text document matching), “bag of visual features”, or “bag of visual words”.
Notes – technical background
These notes provide more information about the technical subject matter that is classified in this place:
1. The image regions referred to in this place are called “salient regions”, and the points are called “keypoints”, “interest points” or “salient points”. The information assigned to these regions or points is referred to as a local descriptor due to the inherent aspect of locality in the image analysis.
A local descriptor aims to be invariant to transformations of the depicted image object (e.g., invariant to affine transforms, object deformations, or changes in image capturing conditions such as contrast or scene illumination, etc.).
A local descriptor may capture image characteristics across different scales for reliably detecting objects at different sizes, distances, or resolutions. Typical descriptors of this kind include:
At a salient point, the pixels in its immediate neighbourhood have visual characteristics, which are different from those of the vast majority of the other pixels. The visual appearance of patches around a salient point is, therefore, somewhat unique; this uniqueness increases the chance of finding a similar patch in other images showing the same object.
Generally, salient points can be expected to be located at boundaries of objects and at other image regions having a strong contrast.
2. A “bag of visual words” is a histogram, which indicates the frequencies of patches with particular visual properties; these visual properties are expressed by a codebook, which is commonly obtained by clustering a collection of typical feature descriptors (e.g. SIFT features) in the feature space; each bin of the histogram corresponds to one specific cluster in the codebook.
The process of generating a bag of features typically involves:
A training phase comprising:
And an operating phase comprising:
Examples
Defining key-patches for different objects classes from a training set, computing features from them and using a set of support vector machine (SVM) classifiers to detect those objects in new images.
Colour feature extraction | G06V 10/56 |
Image preprocessing for image or video recognition or understanding involving the determination of a region or volume of interest [ROI, VOI] | G06V 10/25 |
Global feature extraction, global invariant features (e.g. GIST) | G06V 10/42 |
Local feature extraction; Extracting of specific shape primitives, e.g. corners, intersections; Computing saliency maps with interactions such as reinforcement or inhibition | G06V 10/44 |
Local feature extraction, descriptors computed by performing operations within image blocks (e.g. HOG, LBP) | G06V 10/50 |
Organisation of the matching process; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries | G06V 10/75 |
Obtaining sets of training patterns, e.g. bagging | G06V 10/774 |
Extracting salient feature points for character recognition | G06V 30/18 |
Image retrieval systems using metadata | G06F 16/583 |
The present group does not cover biologically inspired approaches of feature extraction based on modelling the receptive fields of visual neurons, such as Gabor filters, and convolutional neural networks (CNN).
The use of neural networks for image or video pattern recognition or understanding is classified in group G06V 10/82.
When a document presents details on a sampling technique and a clustering technique (bagging), then it should also be classified in group G06V 10/774.
Classical “bag of words” techniques remove most image localisation information (geometry).
When local features are matched directly from one image to another without involving a bagging technique (and thereby retaining geometric information), e.g. when triplets of features are matched using a geometric transformation with a RANSAC algorithm, then the document should also be classified in group G06V 10/75.