Discussion:Temporal difference learning

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

Article incohérent : <<Le Temporal Difference (TD) learning est une classe d'algorithmes d'apprentissage par renforcement sans modèle.>> : donc il n'y a pas de "modèle". Puis << Ces méthodes échantillonnent l'environnement de manière aléatoire, à la manière des méthodes de Monte Carlo et mettent à jour leur modèle>> : donc il y a un modèle. Pourriez vous expliquer? Merci