G06N 3/092

Definition

Diese Klassifikationsstelle umfasst:

Verfahren, die es einem Agenten ermöglichen, in einer interaktiven Umgebung durch Versuch und Irrtum unter Verwendung von Rückmeldungen aus seinen Handlungen und Erfahrungen eine Strategie zu erlernen. Die Strategie optimiert eine Belohnungs-/Wert-/Nutzwertfunktion oder andere Verstärkungssignale. Bestärkendes Lernen wird häufig als Markov-Entscheidungsprozess [Markov Decision Process, MDP] modelliert. Neuronale Netze können z.B. zur Beschreibung der Strategie oder zur näherungsweisen Beschreibung von Verstärkungssignalen verwendet werden.

Typische Beispiele oder Merkmale solcher Lern- oder Trainingsverfahren: Policy-Gradient, Strategie-Optimierung [Policy Optimisation], Strategiesuche [Policy Search], bestärkend lernende Agenten, Multi-Agenten-Systeme, Actor-Critic, Vorteilsfunktionen, Belohnungsfunktionen, Nutzwertfunktionen, Wertfunktionen, Q-Werte, tiefe Q-Netze [Deep Q-Networks, DQN], Q-Lernen, Imitationslernen [Imitation Learning], Lernen mit zeitlicher Differenz [Temporal Difference, TD], mehrarmiger Bandit [Multi-Armed Bandit, MAB], A3C-Algorithmen, DDPG-Algorithmen, Dyna-Algorithmen, PPO-Algorithmen, SARSA-Algorithmen.