Discussion:Algorithme du gradient

Autres discussions [liste]

Admissibilité
Neutralité
Droit d'auteur
Article de qualité
Bon article
Lumière sur
À faire
Archives
Commons

Tout ou partie de cet article est issu de la traduction de l'article sous licence CC-BY-SA « (en) Gradient descent » dans sa version du 27 juillet 2008.

Consultez l'historique de la page originale pour connaître la liste de ses auteurs.

Cet article est indexé par le projet Mathématiques.

Les projets ont pour but d’enrichir le contenu de Wikipédia en aidant à la coordination du travail des contributeurs. Vous pouvez modifier directement cet article ou visiter les pages de projets pour prendre conseil ou consulter la liste des tâches et des objectifs.

**Évaluation** de l’article « **Algorithme du gradient** »
Avancement	Importance	pour le projet
Bon début	Faible		Mathématiques (discussion • critères • liste • stats • hist. • comité • stats vues)

Cet article ne comporte pas de liste de tâches suggérées. Vous pouvez saisir une liste de tâches à accomplir (par exemple sous forme d'une liste à puces), puis sauvegarder. Vous pouvez aussi consulter la page d'aide.

Titre[modifier le code]

Le titre de cette page n'est guère approprié. Il faudrait l'appeler Algorithme du gradient, du nom de l'algorithme qui y est décrit (cet algorithme ne s'appelle ni Descente de gradient, ni Flux de gradient, comme suggéré ci-dessous ...). Jean-Charles.Gilbert (d) 7 novembre 2010 à 20:43 (CET)[répondre]

Renommage effectué le 15 novembre 2010. Jean-Charles.Gilbert (d) 15 novembre 2010 à 07:46 (CET)[répondre]

Traduction[modifier le code]

Je me rends compte que la justification de la traduction par l'ip demandeur etait un poil limite voire nulle. Cela dit je m'y mets quand meme car l'article etait quasi vide et les images etaient quasiment toutes repompees de l'article anglais. Donc la traduction fera je pense une bonne base qui pourra (et devra probablement) etre completee par la suite. Oliv9053 (d) 27 juillet 2008 à 05:47 (CEST)[répondre]

Je ne trouve plus la traduction de gradient flow. Je vois parfaitement ce que c'est mais plus moyen de retrouver la traduction... Oliv9053 (d) 27 juillet 2008 à 17:14 (CEST)[répondre]

Peut-être écoulement gradient, trouvé sur TermSciences ? --Playtime (d) 27 juillet 2008 à 20:22 (CEST)[répondre]

C'est bien une notion d'ecoulement. Il y a un article sur le flux donc meme si ca sonne etrange pour moi il semblerait que flux de gradient soit le bon terme. Je continue de regarder... Oliv9053 (d) 27 juillet 2008 à 22:10 (CEST)[répondre]

--LionelMoi (d) 9 août 2010 à 12:26 (CEST) Je pense que "flux de gradient" est la bonne traduction, je m'appuie pour ça sur un mémoire de terminologie que j'ai réalisé sur les techniques de segmentation, pour référence un lien vers une thèse de 2009 traitant de la l'extraction de primitives pour la segmentation vasculaire http://pastel.paristech.org/5908/. Je propose donc de renommer l'article. --LionelMoi (d) 9 août 2010 à 12:26 (CEST)[répondre]

Remodelage[modifier le code]

Juste pour mentionner que je me suis permis de retirer provisoirement le schema dans la section algorithme. Ce n'est pas parce qu'il n'est pas bon. Je pense qu'il pourra probablement retrouver sa place mais comme je suis en train de traduire la version anglaise, je prefere avoir une version entierement traduite et identique a l'anglais avant d'evaluer si ca vaut le coup de remettre le schema (et ou t comment ...). J'espere ne facher personne. Oliv9053 (d) 27 juillet 2008 à 05:16 (CEST)[répondre]

Trouvé ceci, si ça peut être utile. Asram (d) 20 mars 2010 à 00:37 (CET)[répondre]

J'ai largement modifié l'introduction et la première section décrivant l'algorithme, en apportant un peu plus de généralité et en modifiant un bon nombre de points qui m'ont semblé manquer de précision. Il me semble que l'on peut encore apporter des améliorations, par exemple :

en mentionnant les résultats de convergence de l'algorithme,
en donnant un test d'arrêt portant sur le gradient.

Je devrais pouvoir apporter ces contributions dans un avenir proche. On s'écarte ainsi du texte anglais qui est de piètre qualité, certainement pas rédigé par des spécialistes de la discipline. Jean-Charles.Gilbert (d) 7 novembre 2010 à 20:43 (CET)[répondre]

Exemples[modifier le code]

J'ai enlevé l'exemple 1D, car tout est à peu près mauvais dans l'implémentation : le pas est pris constant et petit, le test d'arrêt repose sur la petitesse du déplacement et la fonction est codée à l'intérieur même de l'optimiseur. Jean-Charles.Gilbert (d) 8 novembre 2010 à 08:33 (CET)[répondre]

Direction de plus forte pente[modifier le code]

Toute direction de descente de $f$ en $x$ est l'opposé du gradient de $f$ en $x$ pour un certain produit scalaire. En effet, supposons que $f'(x)\cdot d<0$ et que $\nabla f(x)$ soit le gradient de $f$ en $x$ pour le produit scalaire $(u,v)\mapsto \langle u,v\rangle$ . On considère l'application $\sigma :(u,v)\mapsto \langle Su,v\rangle$ avec

$S:=I-{\frac {\nabla f(x)\otimes \nabla f(x)}{\langle \nabla f(x),d\rangle }}-{\frac {d\otimes d}{\|d\|^{2}}},$

où $I$ est l'identité sur $\mathbb {E}$ et $u\otimes v:\mathbb {E} \to \mathbb {E}$ est l'opérateur défini en $z\in \mathbb {E}$ par $(u\otimes v)z=\langle v,z\rangle u$ (on reconnaît la formule de BFGS directe de mise à jour de l'identité). Comme $S$ est suto-adjoint et défini positif pour le produit scalaire $\langle \cdot ,\cdot \rangle$ , l'application bilinéaire $\sigma$ est un produit scalaire. Par ailleurs, on a $Sd=-\nabla f(x)$ , si bien que le gradient de $f$ pour le produit scalaire $\sigma$ , qui vaut $S^{-1}\nabla f(x)$ , n'est autre que $-d$ , comme annoncé. Jean-Charles.Gilbert (d) 15 novembre 2010 à 17:42 (CET)[répondre]

Intéressant sans doute ; mais à sourcer si cela doit être utilisé ? Asram (d) 15 novembre 2010 à 23:36 (CET)[répondre]

C'est un exercice classique d'optimisation numérique^[1]. Jean-Charles.Gilbert (d) 16 novembre 2010 à 09:13 (CET)[répondre]

Je ne suis pas sûr que ce type de référence soit acceptable ? Ou bien s'agit-il d'une vraie publication ? Enfin, le problème ne se pose pas si cela reste dans cette page de discussion. Asram (d) 17 novembre 2010 à 00:23 (CET)[répondre]

Je partage votre avis. Cette référence non publiée (elle le sera peut-être un jour) ne me paraît acceptable que dans une page de discussion et n'a été ajoutée que parce que vous en demandiez une ; elle disparaîtra le jour où cet échange sera supprimé (pas par nous). En réalité, ce résultat est bien connu de tout spécialiste en optimisation numérique. Il se trouve peut-être dans un autre ouvrage (sous forme d'exercice ?), mais je ne sais où (il n'est pas exclu que je trouve une autre référence à l'avenir ou qu'un autre contributeur en donne une). C'est la raison pour laquelle cette affirmation, faite dans la page discutée, a été démontrée dans cette page de discussion. Par ailleurs, il ne me semble pas souhaitable de la mettre dans la page discutée de manière à ne pas alourdir le texte. Jean-Charles.Gilbert (d) 17 novembre 2010 à 08:33 (CET)[répondre]

L'argument a maintenant été reporté en note de bas de page dans la page discutée. JChG (d) 29 septembre 2012 à 09:31 (CEST)[répondre]

Boîtes colorées[modifier le code]

Remarques sur les boîtes colorées[modifier le code]

Bonjour et merci pour votre travail dont la valeur est évidente. Au sujet de ces grosses boîtes colorées :

Il existe déjà un modèle, à l'origine prévu pour des théorèmes mais également utilisé pour des propositions, lemmes, algorithmes : {{théorème}}.
Pourquoi créez-vous un modèle uniquement pour la couleur et pas pour la boîte toute entière ? Je vous rappelle à cet effet qu'il est important de catégoriser également les modèles.

Cordialement — Florian, le 17 novembre 2010 à 01:13 (CET)[répondre]

Merci de votre intervention. Je suis au courant de l'existence du modèle {{théorème}}, mais ne sais s'il permet d'obtenir les boîtes colorées de la page discutée (du fait de connaissances personnelles lacunaires sur les CSS). Je suis d'ailleurs encore hésitant sur la pertinence de ces boîtes colorées : la possibilité de reconnaître facilement ce qu'est un algorithme, une définition, un résultat me plaît, mais plus de simplicité n'est il pas préférable ? En ce qui concerne le second point, l'important pour moi était de pouvoir modifier les couleurs sur plusieurs pages facilement (on n'est jamais définitivement content des couleurs utilisées). Par ailleurs, je ne sais si les modèles permettraient d'avoir la flexibilité actuelle (plusieurs boîtes concaténées en particulier), ni s'il serait judicieux d'en imposer la couleur (il faudrait donc de toutes façons avoir des modèles couleurs en plus, de manière à ne pas devoir modifier la couleur à tous les endroits où ce modèle de boîte colorée est utilisé). Quant à la catégorisation des modèles, je ne sais comment on fait ...

Je profite de cet échange pour vous poser une question. Savez-vous s'il est possible d'imbriquer des listes (problèmes d'alignement dans la première liste de la section Forme géométrique de l'optimalité au premier ordre, voir aussi la demande de vérification) ? Jean-Charles.Gilbert (d) 17 novembre 2010 à 09:40 (CET)[répondre]

Bonjour,

Votre avis est intéressant, jusqu'ici la doctrine (en tout cas celle qu'on appliquée à la création de ce modèle et de son cousin {{démonstration}}) était l’homogénéité, l'uniformité et la clarté. L'inverse risquerait de nous mener rapidement à une multiplication des couleurs, nous éloignant du but initial qui est la reconnaissance immédiate. Entre ces deux extrêmes, il est tout à fait imaginable d'utiliser un modèle (pas forcément {{théorème}}, rien n'oblige son emploi) identique partout, avec des variations locales (au gré du rédacteur ou normalisées). {{théorème}} permet partiellement d'arriver à votre résultat (on ne peut donner qu'une seule couleur, unie) :

Théorème de Pythagore — Dans un triangle rectangle, le carré de l'hypoténuse est égal à la somme des carrés des deux autres côtés.

mais on peut également imaginer de colorer la bordure ou tout ce que l'imagination ne nous a pas encore suggéré. Ou en rester là, j'en viens alors au point suivant.

Je ne vois nulle part de concaténation (à mon sens) de boîtes, mais un rapide coup d'œil au résultat actuel me permet d'affirmer que c'est possible et sans aucune difficulté. Quitte à créer des modèles, autant qu'ils soient complets. La catégorisation, c'est comme pour les articles : après avoir trouvé le nom de la ou des catégorie(s) qui va (vont) bien (c'est la partie ardue — on y arrive en faisant une recherche dans l'espace de nom catégorie — à priori ici je choisirais catégorie:modèle de formatage), il suffit de le placer en fin d'article dans [[Catégorie:…]].
Oui et non, en fait il ne s'agit pas dans ce cas d'une imbrication de listes. Je vais vous répondre dans l'autre article.

J'en profite pour vous informer que vous n'avez pas besoin de placer vous-même l'espace insécable avant vos points d'interrogation (même si cette attention vous fait honneur), le logiciel (MediaWiki) le fait automatiquement lors de la génération et de l'envoi de la page au navigateur

— Florian, le 18 novembre 2010 à 00:02 (CET)[répondre]

Merci pour ces informations détaillées et très instructives, ainsi que pour avoir passé du temps à me montrer comment résoudre ces problèmes de composition. Il va me falloir un peu de temps pour les comprendre et les pratiquer ... Merci encore.

Réalisation:

formules centrées (c'est mieux).

Jean-Charles.Gilbert (d) 18 novembre 2010 à 08:23 (CET)[répondre]

Annonce de suppression de page[modifier le code]

Une discussion suite à une suppression des boîtes colorées.

Citations[modifier le code]

↑ J. Ch. Gilbert (20xx). Éléments d'Optimisation Différentiable — Théorie et Algorithmes. Syllabus de cours à l'ENSTA, Paris

Refonte de la partie Résultats de convergence[modifier le code]

Bonjour, je pense que la partie "Résultats de convergence" pourrait être élargie, en particulier je propose de la restructurer ainsi :

problèmes convexes, auquel cas il existe un minimum global, avec un résultat de convergence dépendant du conditionnement (et linéaire sous certaines conditions, typiquement les fonctions fortement convexes), et qui a priori généralise le résultat pour les fonctions quadratiques, qui pourrait être un exemple pour illustrer cette partie ;
problèmes non convexes, auquel cas il n'y a pas nécessairement de minimum global, mais on peut quand même donner des résultats de convergence vers un minimum local il me semble.

En fait il semblerait que « Karimi et al, 2020 » établit un résultat de convergence linéaire pour une condition plus faible que la forte convexité, et qui ne nécessite pas l'hypothèse de convexité.

Je ne suis pas complètement certain de comment séparer les résultats, cela pourrait aussi avoir du sens de séparer les cas où l'algorithme converge linéairement et les cas où la convergence est sous-linéaire, auquel cas la convergence peut être établie comme "convergence vers un point optimal" sans que celui-ci soit unique, en précisant qu'il y a unicité dans le cas convexe.

--Pamango (discuter) 15 avril 2021 à 16:28 (CEST)[répondre]

la direction de plus forte pente[modifier le code]

Cette dénomination fait allusion à l"exemple de la fonction altitude: on veut trouver une cuvette! On cherche en un point donné le sens de déplacement qui fournit la pente la plus forte...pente = variation d'altitude/norme du déplacement...choisir cette norme c'est choisir un produit scalaire, et pour ce produit scalaire c'est bien le vecteur gradient qui donne la solution.(formule du cosinus...) 2A01:CB0C:E03:6700:A9BC:9906:F5D9:45F7 (discuter) 14 septembre 2022 à 13:39 (CEST)[répondre]

Bonjour. Quelle est la question ? Kelam (discuter) 14 septembre 2022 à 13:52 (CEST)[répondre]

[1] J. Ch. Gilbert (20xx). Éléments d'Optimisation Différentiable — Théorie et Algorithmes. Syllabus de cours à l'ENSTA, Paris

[1]