Apprentissage auto-supervisé

L'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d'apprentissage automatique où le modèle apprend à partir d'échantillons de données non annotées. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. L'apprentissage auto-supervisé est typiquement utilisé sur des architectures à base de réseau de neurones artificiels^[1]. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau^[2]^,^[3]. Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé^[4]^,^[5]^,^[6]. L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale^[7]. Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets^[8].

Les types[modifier | modifier le code]

Pour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas^[9].

SSL contrasté[modifier | modifier le code]

Le SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs^[9].

SSL non contrasté (NCSSL)[modifier | modifier le code]

Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible^[9].

Comparaison avec d'autres formes d'apprentissage automatique[modifier | modifier le code]

Le SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. Cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données^[10]. Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation^[8].

Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes^[10].

L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage^[3].

Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente^[11].

Exemples[modifier | modifier le code]

L'apprentissage auto-supervisé est particulièrement adapté à la reconnaissance vocale. Par exemple, Facebook a développé wav2vec, un algorithme auto-supervisé, pour effectuer la reconnaissance vocale à l'aide de deux réseaux de neurones à convolution profonde qui s'appuient l'un sur l'autre^[7].

Le modèle BERT ( Bidirectional Encoder Representations from Transformers ) de Google est utilisé pour mieux comprendre le contexte des requêtes de recherche^[12].

Le GPT-3 d'OpenAI est un modèle de langage autorégressif qui peut être utilisé dans le traitement du langage. Il peut être utilisé pour traduire des textes ou répondre à des questions, entre autres^[13].

Bootstrap Your Own Latent est un NCSSL qui a produit d'excellents résultats sur ImageNet et sur les benchmarks de transfert et semi-supervisés^[14].

DirectPred est un NCSSL qui définit directement les poids des prédicteurs au lieu de les apprendre via la mise à jour du gradient^[9] .

Références[modifier | modifier le code]

↑ (en) Abshire, « Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? », Medium, 6 avril 2018 (consulté le 9 juin 2021)
↑ Doersch et Zisserman, « Multi-task Self-Supervised Visual Learning », 2017 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2017, p. 2070–2079 (ISBN 978-1-5386-1032-9, DOI 10.1109/iccv.2017.226, arXiv 1708.07860, S2CID 473729, lire en ligne)
↑ ^{a et b} Beyer, Zhai, Oliver et Kolesnikov, « S4L: Self-Supervised Semi-Supervised Learning », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2019, p. 1476–1485 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00156, arXiv 1905.03670, S2CID 167209887, lire en ligne)
↑ Doersch, Gupta et Efros, « Unsupervised Visual Representation Learning by Context Prediction », 2015 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ décembre 2015, p. 1422–1430 (ISBN 978-1-4673-8391-2, DOI 10.1109/iccv.2015.167, arXiv 1505.05192, S2CID 9062671, lire en ligne)
↑ Zheng, Wang, Wang et Liu, « Fast and robust segmentation of white blood cell images by self-supervised learning », Micron, vol. 107,‎ avril 2018, p. 55–71 (ISSN 0968-4328, PMID 29425969, DOI 10.1016/j.micron.2018.01.010, lire en ligne)
↑ Gidaris, Bursuc, Komodakis et Perez, « Boosting Few-Shot Visual Learning With Self-Supervision », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2019, p. 8058–8067 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00815, arXiv 1906.05186, S2CID 186206588, lire en ligne)
↑ ^{a et b} (en) « Wav2vec: State-of-the-art speech recognition through self-supervision », ai.facebook.com (consulté le 9 juin 2021)
↑ ^{a et b} (en) Bouchard, « What is Self-Supervised Learning? | Will machines ever be able to learn like humans? », Medium, 25 novembre 2020 (consulté le 9 juin 2021)
↑ ^{a b c et d} (en) « Demystifying a key self-supervised learning technique: Non-contrastive learning », ai.facebook.com (consulté le 5 octobre 2021)
↑ ^{a et b} R. et L., « Problem Based Learning a Shift from Teaching Paradigm to the Learning Paradigm », Indian Journal of Dental Education, vol. 10, n^o 1,‎ 2017, p. 47–51 (ISSN 0974-6099, DOI 10.21088/ijde.0974.6099.10117.6, lire en ligne)
↑ Littwin et Wolf, « The Multiverse Loss for Robust Transfer Learning », 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE,‎ juin 2016, p. 3957–3966 (ISBN 978-1-4673-8851-1, DOI 10.1109/cvpr.2016.429, arXiv 1511.09033, S2CID 6517610, lire en ligne)
↑ (en) « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », Google AI Blog (consulté le 9 juin 2021)
↑ Wilcox, Qian, Futrell et Kohita, « Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models », Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Stroudsburg, PA, USA, Association for Computational Linguistics,‎ 2020, p. 4640–4652 (DOI 10.18653/v1/2020.emnlp-main.375, arXiv 2010.05725, S2CID 222291675, lire en ligne)
↑ (en) Auteur inconnu, « Bootstrap your own latent: A new approach to self-supervised Learning », .

Liens externes[modifier | modifier le code]

(en) Abshire, « Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? », Toyota Ventures, 6 avril 2018 (consulté le 5 octobre 2021)
Doersch et Zisserman, « Multi-task Self-Supervised Visual Learning », 2017 IEEE International Conference on Computer Vision (ICCV),‎ octobre 2017, p. 2070–2079 (ISBN 978-1-5386-1032-9, DOI 10.1109/ICCV.2017.226, arXiv 1708.07860, S2CID 473729, lire en ligne)
Doersch, Gupta et Efros, « Unsupervised Visual Representation Learning by Context Prediction », 2015 IEEE International Conference on Computer Vision (ICCV),‎ décembre 2015, p. 1422–1430 (ISBN 978-1-4673-8391-2, DOI 10.1109/ICCV.2015.167, arXiv 1505.05192, S2CID 9062671, lire en ligne)
(en) Zheng, Wang, Wang et Liu, « Fast and robust segmentation of white blood cell images by self-supervised learning », Micron, vol. 107,‎ 1^er avril 2018, p. 55–71 (ISSN 0968-4328, PMID 29425969, DOI 10.1016/j.micron.2018.01.010, lire en ligne)
(en-US) Shenwai, « Google AI's New Study Enhance Reinforcement Learning (RL) Agent's Generalization In Unseen Tasks Using Contrastive Behavioral Similarity Embeddings », MarkTechPost, 30 septembre 2021 (consulté le 7 octobre 2021)

[1] (en) Abshire, « Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? », Medium, 6 avril 2018 (consulté le 9 juin 2021)

[2] Doersch et Zisserman, « Multi-task Self-Supervised Visual Learning », 2017 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2017, p. 2070–2079 (ISBN 978-1-5386-1032-9, DOI 10.1109/iccv.2017.226, arXiv 1708.07860, S2CID 473729, lire en ligne)

[auto1-3] {a et b} Beyer, Zhai, Oliver et Kolesnikov, « S4L: Self-Supervised Semi-Supervised Learning », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2019, p. 1476–1485 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00156, arXiv 1905.03670, S2CID 167209887, lire en ligne)

[4] Doersch, Gupta et Efros, « Unsupervised Visual Representation Learning by Context Prediction », 2015 IEEE International Conference on Computer Vision (ICCV), IEEE,‎ décembre 2015, p. 1422–1430 (ISBN 978-1-4673-8391-2, DOI 10.1109/iccv.2015.167, arXiv 1505.05192, S2CID 9062671, lire en ligne)

[5] Zheng, Wang, Wang et Liu, « Fast and robust segmentation of white blood cell images by self-supervised learning », Micron, vol. 107,‎ avril 2018, p. 55–71 (ISSN 0968-4328, PMID 29425969, DOI 10.1016/j.micron.2018.01.010, lire en ligne)

[6] Gidaris, Bursuc, Komodakis et Perez, « Boosting Few-Shot Visual Learning With Self-Supervision », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE,‎ octobre 2019, p. 8058–8067 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00815, arXiv 1906.05186, S2CID 186206588, lire en ligne)

[auto-7] {a et b} (en) « Wav2vec: State-of-the-art speech recognition through self-supervision », ai.facebook.com (consulté le 9 juin 2021)

[auto3-8] {a et b} (en) Bouchard, « What is Self-Supervised Learning? | Will machines ever be able to learn like humans? », Medium, 25 novembre 2020 (consulté le 9 juin 2021)

[:0-9] {a b c et d} (en) « Demystifying a key self-supervised learning technique: Non-contrastive learning », ai.facebook.com (consulté le 5 octobre 2021)

[auto2-10] {a et b} R. et L., « Problem Based Learning a Shift from Teaching Paradigm to the Learning Paradigm », Indian Journal of Dental Education, vol. 10, n^o 1,‎ 2017, p. 47–51 (ISSN 0974-6099, DOI 10.21088/ijde.0974.6099.10117.6, lire en ligne)

[11] Littwin et Wolf, « The Multiverse Loss for Robust Transfer Learning », 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE,‎ juin 2016, p. 3957–3966 (ISBN 978-1-4673-8851-1, DOI 10.1109/cvpr.2016.429, arXiv 1511.09033, S2CID 6517610, lire en ligne)

[12] (en) « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », Google AI Blog (consulté le 9 juin 2021)

[13] Wilcox, Qian, Futrell et Kohita, « Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models », Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Stroudsburg, PA, USA, Association for Computational Linguistics,‎ 2020, p. 4640–4652 (DOI 10.18653/v1/2020.emnlp-main.375, arXiv 2010.05725, S2CID 222291675, lire en ligne)

[14] (en) Auteur inconnu, « Bootstrap your own latent: A new approach to self-supervised Learning », .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]