Apprentissage auto-supervisé

Un article de Wikipédia, l'encyclopédie libre.

L'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d'apprentissage automatique où le modèle apprend à partir d'échantillons de données non annotées. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. L'apprentissage auto-supervisé est typiquement utilisé sur des architectures à base de réseau de neurones artificiels[1]. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau[2],[3]. Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé[4],[5],[6]. L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale[7]. Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets[8].

Les types[modifier | modifier le code]

Pour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas[9].

SSL contrasté[modifier | modifier le code]

Le SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs[9].

SSL non contrasté (NCSSL)[modifier | modifier le code]

Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible[9].

Comparaison avec d'autres formes d'apprentissage automatique[modifier | modifier le code]

Le SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. Cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données[10]. Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation[8].

Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes[10].

L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage[3].

Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente[11].

Exemples[modifier | modifier le code]

L'apprentissage auto-supervisé est particulièrement adapté à la reconnaissance vocale. Par exemple, Facebook a développé wav2vec, un algorithme auto-supervisé, pour effectuer la reconnaissance vocale à l'aide de deux réseaux de neurones à convolution profonde qui s'appuient l'un sur l'autre[7].

Le modèle BERT ( Bidirectional Encoder Representations from Transformers ) de Google est utilisé pour mieux comprendre le contexte des requêtes de recherche[12].

Le GPT-3 d'OpenAI est un modèle de langage autorégressif qui peut être utilisé dans le traitement du langage. Il peut être utilisé pour traduire des textes ou répondre à des questions, entre autres[13].

Bootstrap Your Own Latent est un NCSSL qui a produit d'excellents résultats sur ImageNet et sur les benchmarks de transfert et semi-supervisés[14].

DirectPred est un NCSSL qui définit directement les poids des prédicteurs au lieu de les apprendre via la mise à jour du gradient[9] .

Références[modifier | modifier le code]

  1. (en) Abshire, « Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? », Medium, (consulté le )
  2. Doersch et Zisserman, « Multi-task Self-Supervised Visual Learning », 2017 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ , p. 2070–2079 (ISBN 978-1-5386-1032-9, DOI 10.1109/iccv.2017.226, arXiv 1708.07860, S2CID 473729, lire en ligne)
  3. a et b Beyer, Zhai, Oliver et Kolesnikov, « S4L: Self-Supervised Semi-Supervised Learning », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ , p. 1476–1485 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00156, arXiv 1905.03670, S2CID 167209887, lire en ligne)
  4. Doersch, Gupta et Efros, « Unsupervised Visual Representation Learning by Context Prediction », 2015 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ , p. 1422–1430 (ISBN 978-1-4673-8391-2, DOI 10.1109/iccv.2015.167, arXiv 1505.05192, S2CID 9062671, lire en ligne)
  5. Zheng, Wang, Wang et Liu, « Fast and robust segmentation of white blood cell images by self-supervised learning », Micron, vol. 107,‎ , p. 55–71 (ISSN 0968-4328, PMID 29425969, DOI 10.1016/j.micron.2018.01.010, lire en ligne)
  6. Gidaris, Bursuc, Komodakis et Perez, « Boosting Few-Shot Visual Learning With Self-Supervision », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ , p. 8058–8067 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00815, arXiv 1906.05186, S2CID 186206588, lire en ligne)
  7. a et b (en) « Wav2vec: State-of-the-art speech recognition through self-supervision », ai.facebook.com (consulté le )
  8. a et b (en) Bouchard, « What is Self-Supervised Learning? | Will machines ever be able to learn like humans? », Medium, (consulté le )
  9. a b c et d (en) « Demystifying a key self-supervised learning technique: Non-contrastive learning », ai.facebook.com (consulté le )
  10. a et b R. et L., « Problem Based Learning a Shift from Teaching Paradigm to the Learning Paradigm », Indian Journal of Dental Education, vol. 10, no 1,‎ , p. 47–51 (ISSN 0974-6099, DOI 10.21088/ijde.0974.6099.10117.6, lire en ligne)
  11. Littwin et Wolf, « The Multiverse Loss for Robust Transfer Learning », 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE,‎ , p. 3957–3966 (ISBN 978-1-4673-8851-1, DOI 10.1109/cvpr.2016.429, arXiv 1511.09033, S2CID 6517610, lire en ligne)
  12. (en) « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », Google AI Blog (consulté le )
  13. Wilcox, Qian, Futrell et Kohita, « Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models », Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Stroudsburg, PA, USA, Association for Computational Linguistics,‎ , p. 4640–4652 (DOI 10.18653/v1/2020.emnlp-main.375, arXiv 2010.05725, S2CID 222291675, lire en ligne)
  14. (en) Auteur inconnu, « Bootstrap your own latent: A new approach to self-supervised Learning », .

Liens externes[modifier | modifier le code]