Méthode policy-gradient

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article est orphelin. Moins de trois articles lui sont liés (juin 2022).

Vous pouvez aider en ajoutant des liens vers [[Méthode policy-gradient]] dans les articles relatifs au sujet.

En apprentissage par renforcement, une méthode policy-gradient est un algorithme qui apprend une politique directement en s'intéressant directement à la politique (voir chapitre 13 dans ^[1]).

Un algorithme de ce type optimise de la politique paramétrée par rapport au rendement attendu avec la méthode de descente de gradient. À la fin d'un certain nombre d'itérations, l'objectif est d'obtenir une maximisation de la performance de la politique pour un modèle étudié.

Les méthodes policy-gradients s'opposent donc aux méthodes value-based, qui elles, optimisent des valeurs puis définissent la politique solution selon ces valeurs.

Voir aussi[modifier | modifier le code]

REINFORCE est un algorithme policy-gradient

Notes et références[modifier | modifier le code]

↑ (en) Richard S. Sutton et Andrew G. Barto, Reinforcement Learning: An Introduction, A Bradford Book, coll. « Adaptive Computation and Machine Learning series », 13 novembre 2018 (ISBN 978-0-262-03924-6, lire en ligne)

Portail de l'informatique théorique

[1] (en) Richard S. Sutton et Andrew G. Barto, Reinforcement Learning: An Introduction, A Bradford Book, coll. « Adaptive Computation and Machine Learning series », 13 novembre 2018 (ISBN 978-0-262-03924-6, lire en ligne)

[1]