G06V 10/40

Definition

Diese Klassifikationsstelle umfasst:

Verfahren und Einrichtungen zur Extraktion von visuellen Merkmalen, die anschließend in einen Objekterkennungsalgorithmus eingegeben werden.

Anmerkungen – technischer Hintergrund

Diese Anmerkungen liefern weitere Informationen über die technischen Sachverhalte, die in diese Stelle klassifiziert werden:

Früher spielte die Wahl geeigneter Algorithmen zur Merkmalsextraktion eine entscheidende Rolle bei der Entwicklung von Algorithmen zur Mustererkennung. Sie hatte einen starken Einfluss auf die Gesamtleistung. Mit dem Aufkommen von Deep Learning, und besonders bei neuronalen Faltungsnetzwerken, hat sich die Notwendigkeit, dedizierte Merkmalsextraktionsalgorithmen manuell zu entwerfen, zu einem gewissen Grad verringert, da die inneren Schichten der neuronalen Netze darauf trainiert werden, automatisch geeignete Merkmale aus den Trainingsdaten zu finden.

Anmerkungen – andere Klassifikationsstellen

Die Untergruppen der Gruppe G06V 10/40 betreffen schwerpunktmäßig bestimmte Arten von Merkmalsextraktionsverfahren. Dazu gehören:

Merkmale, die Eigenschaften des gesamten Bildes oder eines ganzen Objekts beschreiben (Gruppe G06V 10/42);

Anmerkung: Globale Merkmalsextraktionsverfahren beinhalten oft Bereichstransformationen, wie z.B. die Transformation in den Frequenzbereich. Die globalen Deskriptoren enthalten numerische Daten wie Vektoren oder Matrizen, können aber auch das Bild oder das Objekt in abstrakter Form als eine Folge von Symbolen aus einem vorgegebenen Alphabet darstellen, die mit Hilfe einer Grammatik integriert werden (Gruppe G06V 10/424).

Graphenstrukturen mit Knoten und Kanten (z.B. gerichtete attributierte Graphen oder Bäume) sind eine weitere Möglichkeit, Muster in Bildern darzustellen; die Knoten solcher Graphenstrukturen stellen qualitative oder quantitative Merkmalsmaße dar; die Kanten stellen Beziehungen zwischen ihnen dar (Gruppe G06V 10/426);
Lokale Merkmale (Gruppe G06V 10/44) bilden Darstellungen des lokalen Bildinhalts. Beispiele für lokale Merkmale sind Luminanzwerte oder Farbeigenschaften, möglicherweise aus mehr als drei Farbkanälen, lokale Kanten, Ecken, Gradienten und Textur. Kanten können durch Faltung mit speziell entwickelten Filtermasken (z.B. Prewitt, Sobel) oder durch Faltung mit einem numerischen Filter, z.B. Wavelet-Filter (Haar, Daubechies), oder durch Difference-of-Gaussians-, Laplacian-of-Gaussian-, Gabor-Filter usw. extrahiert werden. Lokale Merkmale wie Kanten und Ecken, die durch Anwendung eines vordefinierten Bildoperators extrahiert werden können, werden auch als Merkmale niedriger Ebene [Low-Level Features] bezeichnet, um sie von Merkmalen wie Objekten oder Ereignissen zu unterscheiden, die mit Hilfe eines maschinellen Lernalgorithmus extrahiert werden;
Merkmale höherer Ebene, die z.B. durch die Erkennung von Silhouetten von Formen und deren Beschreibung, z.B. mit Hilfe eines Kettencodes, durch eine Fourierreihe der Kontur, durch eine Krümmungsskalenraum-Analyse [Curvature Scale-Space Analysis] oder durch die Abtastung von Punkten entlang der Objektgrenzen und die Quantifizierung ihrer relativen Lage, gewonnen werden;
Algorithmen zur Bewertung der Salienz [Saliency] lokaler Bildregionen; Auswahl salienter Punkte als Schlüsselpunkte (Gruppe G06V 10/46);
Methoden zur Umwandlung von Bild- oder Videodaten in einen anderen Parameterraum zum Zwecke der Merkmalsextraktion, z.B. die Verwendung einer Hough-Transformation zur Erkennung linearer Strukturen in Bildern oder eine Umwandlung vom räumlichen Bereich in den Frequenzbereich oder umgekehrt (Gruppe G06V 10/48);
Methoden zur Kombination einzelner Merkmale niedriger Ebene zu Merkmalsvektoren, indem zunächst lokale Statistiken von Bildmerkmalen niedriger Ebene in einem Pixelblock berechnet werden und anschließend Histogramme erzeugt oder andere statistische Maße in einer lokalen Umgebung abgeleitet werden (Gruppe G06V 10/50);
Multiskalen-Merkmalsextraktionsalgorithmen für die Analyse von Bild- oder Videodaten bei unterschiedlichen Auflösungen; Skalenraum-Analyse, z.B. Wavelet-Zerlegungen (Gruppe G06V 10/52);
Methoden zur Beschreibung von Texturen, wie z.B. die Faltung mit Gabor-Wavelets, Grauwertematrizen [Grey-Level Co-occurrence Matrix] oder Kantenhistogramme [Edge Histogram] (Gruppe G06V 10/54);
Deskriptoren, die Farbeigenschaften des Bildes erfassen, z.B. Farbhistogramme, möglicherweise nach Konvertierung in einen geeigneten Farbraum (Gruppe G06V 10/56);
Deskriptoren, die speziell für mehr als drei Farbkanäle ausgelegt sind, insbesondere für hyperspektrale Bilder, die Sensormesswerte in einer Vielzahl verschiedener, nicht auf das visuelle Spektrum beschränkter Wellenlängen enthalten (Gruppe G06V 10/58);
Deskriptoren, die durch Integration von Informationen über die Bildgebungsbedingungen gewonnen werden, wie etwa die Position, die Ausrichtung und die spektralen Eigenschaften von Lichtquellen, diffuse oder spiegelnde Reflexionen an Objektoberflächen usw. (Gruppe G06V 10/60);
Zeitliche Deskriptoren, die von Objektbewegungen abgeleitet sind, z.B. optischer Fluss (Gruppe G06V 10/62).

Beispiele

Bildreferenz:G06V0010400000_0

Bildreferenz:G06V0010400000_1

Quantifizierung lokaler Bildeigenschaften, insbesondere des lokalen Gradienten, mittels einer lokalen Abtastung.

Bildreferenz:G06V0010400000_2

Verschiedene Arten von Merkmalen, die zur Objekterkennung verwendet werden, z.B. Konturen, Liniensegmente, durchgehende Linien.

Querverweise

Nichteinschränkende Querverweise in anwendungsorientierte Klassifikationsstellen

Erkennen von Szenen und szenenspezifischen Elementen	G06V 20/00
Zeichenerkennung; Erkennung digitaler Tinte; dokumentenorientierte bildbasierte Mustererkennung	G06V 30/00
Erkennen oder Verstehen von biometrischen Mustern, sowie Mustern mit Bezug zu Menschen oder Tieren in Bild- oder Videodaten	G06V 40/00
Erkennen von Fingerabdrücken oder Handabdrücken	G06V 40/12
Erkennen von Gefäßmustern	G06V 40/14
Erkennen von menschlichen Gesichtern, z.B. von Gesichtsteilen, Gesichtsskizzen oder Gesichtsausdrücken, in Bild- oder Videodaten	G06V 40/16
Erkennen von Merkmalen der Augen in Bild- oder Videodaten, z.B. der Iris	G06V 40/18

Informative Querverweise

Spektrometrie, Farbmessung	G01J 3/46
Bildanalyse mit merkmalsbasierten Methoden, insbesondere zur Bestimmung von Transformations-Parametern zum Ausrichten von Bildern zueinander	G06T 7/33
Bildanalyse zum Ermitteln der Tiefe oder der Form	G06T 7/50
Codierung der Bildumrisse, z.B. durch Erkennung der Kanten	G06T 9/20

Glossar

BoW	Bag of Words, ein ursprünglich für die Verarbeitung natürlicher Sprache entwickeltes Modell; auf Bilder angewandt, stellt es ein Bild durch ein Histogramm "visueller Wörter" dar, wobei jedes "visuelle Wort" einen bestimmten Teil des Merkmalsraums repräsentiert.
Kante	eine Bildregion, in der das Bild einen starken Luminanzgradienten aufweist.
GLCM	Grauwertematrix [Grey-Level Co-occurrence Matrix].
HOG	Histogramm orientierter Gradienten, ein von N. Dalal und B. Triggs beschriebener Merkmalsdeskriptor.
SIFT	skaleninvariante Merkmalstransformation [Scale-Invariant Feature Transform], ein Algorithmus zur Merkmalserkennung.
SURF	Speeded Up Robust Features, ein Merkmalsdeskriptor.