Discussion:Temporal difference learning

Autres discussions [liste]

Admissibilité
Neutralité
Droit d'auteur
Article de qualité
Bon article
Lumière sur
À faire
Archives
Commons

Article incohérent : <<Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.>> : donc il n'y a pas de "modèle". Puis << Ces méthodes échantillonnent l'environnement de manière aléatoire, à la manière des méthodes de Monte Carlo et mettent à jour leur modèle>> : donc il y a un modèle. Pourriez vous expliquer? Merci