Discussion:Traitement automatique des langues

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

"Traitement automatique du langage naturel" (incorrect en français)[modifier le code]

"Traitement automatique du langage naturel" (incorrect en français) en titre dans la colonne de droite en haut de l'article est à remplacer par "Traitement automatique des langues naturelles". — Le message qui précède, non signé, a été déposé par 2a01:cb10:8687:6800:ad22:8ecb:4ef0:d74 (discuter), le 26 juillet 2023 à 20:22

Pour des motifs d'exactitude en langue française, l'expression "Traitement automatique du langage naturel" n'est pas employée en TAL : tenter de justifier le contraire par des références à des articles ou thèses qui ne sont pas du domaine du TAL est un contresens. Pour savoir ce que TAL veut dire, il faut consulter (et renvoyer vers) des articles de TAL et pas d'informatique qui est une autre discipline avec d'autres concepts : le TAL emploie l'expression et veut dire "Traitement automatique des langues" ou sous sa forme étendue plus ancienne "Traitement automatique des langues naturelles".

Puisqu'en français, "langage" n'est pas synonymes de "langue", c'est important pour une encyclopédie : si vous avez un doute, pourquoi ne pas consulter simplement quelques dictionnaires. Chercher à unifier les disciplines scientifiques du TAL et de la linguistique informatique parce qu'elles sont très proches, n'est pas le rôle d'une encyclopédie : on ne peut pas unifier des disciplines scientifiques juste par envie.

Une encyclopédie ne devrait-elle pas rendre à chaque discipline son nom, ses concepts et son vocabulaire spécifique, son histoire et ses buts : c'est ce que permet le choix de les mettre sur des pages différentes ou dans des paragraphes différents. Malgré une envie forte et de bonne intentions, on ne peut englober une discipline scientifique autonome dans une autre discipline scientifique autonome : elles partagent beaucoup, mais ont leur propre identité, leurs propres départements scientifiques dans les universités, et leurs propres développements. — Le message qui précède, non signé, a été déposé par 2a01:cb10:8687:6800:2d38:2:e1f7:c7c3 (discuter), le 29 juillet 2023 à 09:32

Occurrences de "traitement automatique du langage naturel" (entre guillemets) dans Scholar. --Elnon (discuter) 29 juillet 2023 à 19:14 (CEST)[répondre]
L'inclusion des articles en anglais et les articles d'informatiques (par exemple, Les Mines c'est une grande école de mathématique) dans l'exemple aurait pu renforcer l'emploi de "langage", et pourtant cette comparaison montre bien que les occurrences de "traitement automatique des langues" sont plus nombreuses sur Scholar. Merci pour cette indication. J'espère que vous arriverez à vous mettre d'accord pour rendre à chaque discipline ses mots. 2A01:CB10:8687:6800:C5AA:559F:C1A:7CAD (discuter) 30 juillet 2023 à 15:53 (CEST)[répondre]

Discussion transférée depuis Wikipédia:Pages à fusionner
Si on en croit les résumés introductifs, c'est la même chose. --Rinaku (d · c) 11 janvier 2013 à 23:58 (CET)[répondre]

Pour. Je confirme, c'est la même chose. --Pierre Rudloff (d) 12 janvier 2013 à 03:42 (CET)[répondre]
Pour Même chose. Je serais favorable à une fusion sous le titre traitement automatique du langage naturel qui est, d'après mon expérience, la formulation la plus usitée, du moins dans le monde académique. --Ænthaüs (d) 18 janvier 2013 à 11:16 (CET)[répondre]
+1, je ne connaissais que cette seconde formulation. --Rinaku (d · c) 19 janvier 2013 à 15:01 (CET)[répondre]
Pour, d'autant que l'association entre Linguistique informatique et Langage informatique me parait artificielle. Bmathis (d) 2 février 2013 à 16:15 (CET).[répondre]
Contre La linguistique computationnelle (ou informatique) est la discipline scientifique qui étudie le phénomène linguistique (grammaire, sémantique, structure) avec des outils informatiques (règles chomskyennes, grammaires formelles, etc). Le Traitement Automatique du Langage Naturel est la discipline scientifique qui utilise des méthodes de traitement automatique au sens large (apprentissage automatique, classification, traitement du signal) pour réaliser des traitements sur le langage naturel (sous forme de corpus textuel ou audio): cela concerne par exemple la transcription (reconnaissance de la parole), la classification (classification de document textuels), l'étiquetage. Certains processus comme la traduction automatique (TA) peuvent être hybrides et utiliser les deux méthodes. Voir pour mieux comprendre la distinction Natural Language Processing (eq TAL) et Computational Linguistic (eq LC) sur Wikipedia en. Bublegun (d) 2 février 2013 à 17:30 (CET)[répondre]
Si c’est vrai, alors le titre de l’article Linguistique informatique ne correspond pas à son contenu qui, lui, traite bien du TAL. Il faudrait donc fusionner le contenu de Linguistique informatique dans TAL mais laisser la page Linguistique informatique à l’état d'ébauche minimaliste. --Rinaku (d · c) 3 février 2013 à 12:06 (CET)[répondre]
Je suis assez d'accord avec cela. Le contenu de Linguistique informatique est effectivement largement hors sujet et l'article mérite une réécriture. Bublegun (d) 4 février 2013 à 21:04 (CET)[répondre]
 Neutre La discussion a déjà eu lieue sur wikipedia en. Pour beaucoup de spécialistes du domaine, les termes sont interchangeables, mais gardent une différenciation historique. Comme indiqué plus haut, le CL a une coloration plus linguistique, mais je doute que des chercheurs de l'un des deux domaines ne puisse pas publier dans l'autre. Dans le domaine académique, on trouve par exemple la conférence CICLing qui traite explicitement des deux domaines. Je me renseigne auprès de spécialistes pour me prononcer pour ou contre. Par contre, il faudra sûrement modifier le contenu pour bien expliciter les liens etre éventuelles différences si on garde les deux articles Xiawi (d) 3 février 2013 à 22:12 (CET)[répondre]
Les conférences majeures sont effectivement souvent indifférenciées (telles Cicling que tu cites mais aussi TALN en France ou ACL) mais il en existe aussi d'autres plus spécialisées (telle CoNLL qui est orientée traitement automatique, ou INLG qui est elle très orientée Computational Linguistics). Et il y a effectivement beaucoup à faire sur ces deux articles (je veux bien aider).Bublegun (d) 4 février 2013 à 21:10 (CET)[répondre]
Contre après discussion avec trois spécialistes du TAL (chercheurs actifs/publiant dans le domaine) je me rallie au point de vue de Bublegun. Si le TAL a grandement « vampirisé » les conférences citées, les deux disciplines se distinguent par leur but: le TAL vise à créer des outil de traitement de la langues pour diverses applications tandis que la linguistique computationnelle (ou informatique) vise à comprendre les langues au moyen d'outils informatiques. Les chercheurs publient dans des conférences plus « linguistique » (peut-être INLG justement, que je ne connais pas). Il faudrait donc revoir nettement l'article linguistique computationnelle afin d'expliciter ce point, et notamment la différencier du TAL dès l'introduction. Xiawi (d) 4 février 2013 à 23:59 (CET)[répondre]
Contre je propose effectivement de regrouper le contenu de l'article linguistique informatique dans l'article TALN, mais d'écrire un article traitant vraiment de la linguistique informatique.

Je me propose de rédiger un nouvel article sur la linguistique informatique, plus complet. Si d'autres personnes ont ce projet à court terme, j'aimerais le savoir. Merci. --Annicolle (d) 8 avril 2013 à 16:38 (CEST)[répondre]

En attendant la réécriture de l’article, je clos la demande. Si rien ne se passe d’ici quelque temps, on pourra toujours relancer la demande. Jerome66 (d) 17 avril 2013 à 13:02 (CEST)[répondre]

L'entrée est un anglicisme[modifier le code]

Cette entrée est fautive. Oui, fautive, car il sagit ici de prescription et pas de description de l'usage, qui en l'occurrence devient d'ailleurs minoritaire, d'où l'étrangeté de cette entrée. La prescription fait bien partie des fonctions attribuées à une encyclopédie : établir la terminologie.

Il faudrait : Traitement automatique des langues (TAL), et pas du langage naturel qui est l'anglicisme visé ici.

C'est un anglicisme qui s'explique par l'imprécision de l'anglais sous deux aspects (eh oui, l'anglais n'est pas forcément plus précis, malgré l'idéologie ambiante). Mieux dit, le français vulgaire et scientifique désambigüise ici sous deux aspects.

1. En anglais, on ne fait pas la différence dans les termes entre langues parlées par les humains et langages de programmation. On use du même terme language, d'où désambigüisation par l'ajout de natural à l'adresse de la communauté informatique pour parler de TAL. Cette distinction est inutile en français puisque l'on parle soit de langue (parlée par les humains) soit de langage (de programmation). Il faut souligner que la communauté du domaine dit bien traitement automatique des langues (TAL). C'est le titre de la revue de l'association ATALA, même si pour des raisons historiques, la conférence annuelle continue d'utiliser TALN pour traitement automatique des langues naturelles, attention ici : pas du langage naturel (voir point suivant).

2. Le second anglicisme regrettable est que par langage naturel, on parle fautivement de langages au lieu de langues. Je redis bien fautivement. Aucun linguiste francophone moderne ne dit « langage français », « langage latin », « langage chinois », etc. [Voir note] En linguistique, les termes font soigneusement la différence entre

  • d'une part les langues (le français, le latin, le chinois, etc.) et
  • d'autre part le langage qui est la faculté qu'ont les êtres humains à parler des langues.

Encore une fois, l'anglais est imprécis ici et ne fait pas la distinction. En français, cette confusion malheureuse est faite par les chercheurs francophones ayant peu de lecture dans leur propre langue, c'est-à-dire ne connaissant bien ni la linguistique ni le TAL ou ayant exclusivement un bagage informatique [désolé et pardon].

Il est normalement du devoir d'une encyclopédie d'utiliser les termes de façon rigoureuse, sinon quelle est son intérêt ? On peut se demander si cette entrée n'a pas été créée sans aucune concertation avec des personnes du domaine.

[Note] Linguiste moderne, car on trouve bien l'expression aux XVIIe et XVIIe ; après tout l'anglais, et en particulier l'anglais scientifique, ne vient pas pour moitié du français pour rien... ; mais à l'époque on parlait de grammairiens et pas de linguistes. — Le message qui précède, non signé, a été déposé par l'IP 133.9.4.12 (discuter), le 21 février 2015 à 02:42‎.

« L'entrée est un anglicisme » : vous ne croyez pas si bien dire, « entrée » est effectivement un anglicisme (an entry), le français employant traditionnellement le terme « article » pour un dictionnaire, une encyclopédie, un répertoire... --Elnon (discuter) 7 mai 2018 à 13:47 (CEST)[répondre]
Pour Je suis aussi pour le renommage de la page en Traitement automatique des langues. Elnon pouvez-vous contre-argumenter ?
Maggyero (discuter) 6 mai 2018 à 22:18 (CEST)[répondre]
Les sources de la page emploient bien l'expression « langage naturel » en français et son équivalent en anglais natural language :
- Note 2 : Marc-Emmanuel Perrin, « Les machines progressent dans leur apprentissage du langage naturel », Mission pour la Science et la Technologie de l'Ambassade de France aux Etats-Unis, 22 septembre 2017 ;
- Note 3 : dans la rubrique « critère de Turing » du Dictionnaire de l'Informatique et de l'Internet 2001, Micro Application, 2000, p. 232 : « Des programmes avec dialogue en langage naturel ont été conçus pour répondre à ce critère » ;
- Note 8 : dans Robert Fenner, « Alibaba's AI Outguns Humans in Reading Text », Bloomberg.com,‎ 15 janvier 2018 : « Its natural language processing AI scored higher than humans » ;
- Note 9 : Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999 ;
- Note 13 : dans Gil Francopoulo, Joseph Mariani et Patrick Paroubek, « NLP4NLP: The Cobbler's Children Won't Go Unshod » : « Our research began by gathering a large corpus of Natural Language Processing (NLP) conferences and journals for both text and speech » ;
- Note 15 : dans Gil Francopoulo, Joseph Mariani, Patrick Paroubek, « A Study of Reuse and Plagiarism in LREC papers » : « the availability of archives allows us to study a vast amount of papers in our domain (i.e. Natural Language Processing, NLP, both for written and spoken materials) » ;
- dans la section 3.5.1, le nom de l'atelier est Rediscovering 60 years of Discoveries in Natural Languages Processing.
Il ne saurait donc être question d'abolir d'un trait de plume dans la page principale les expressions « langage naturel » et « traitement du langage naturel » alors qu'elles sont présentes dans les sources et que leur emploi est attesté depuis plus de cinquante ans. --Elnon (discuter) 7 mai 2018 à 13:32 (CEST)[répondre]
Merci pour l'argumentation Elnon. Pouvez-vous rajouter la balise « Contre » puisque vous êtes contre le renommage ? Il nous faut maintenant d'autres avis pour pouvoir trancher.
Maggyero (discuter) 7 mai 2018 à 19:22 (CEST)[répondre]
J'ajouterai que la proposition anonyme ci-dessus d'aligner le titre et le contenu de cette page de Wikipédia sur l'intitulé du nom de l'Association pour le traitement automatique des langues, me parait relever du POV pushing d'une argumentation personnelle. --Elnon (discuter) 8 mai 2018 à 10:39 (CEST)[répondre]
Pour le renommage également. Citer l’expression en anglais pour montrer que l’expression en français n’est pas un anglicisime me parait un peu absurde. Ce qui ne fait que deux sources dans la liste d’Elnon
Après une rapide recherche web, les Universités Toulouse-2, Paris-3, Paris-7, Lorraine, Toulon et Franche-Comté parlent de TAL. Je n’ai trouvé que l’université de Nantes pour parler de « langage naturel ». Quelques autres sites web universitaires dont le CNRS parlent de TALN, mais toujours comme « langues naturelles » (et pas « langage »). —Pols12 (discuter) 23 avril 2019 à 04:22 (CEST)[répondre]
Contre Le dictionnaire du CNRTL distingue les langages naturels des langages artificiels :
B. − Système de signes vocaux et/ou graphiques
1. Langages naturels : les langues parlées dans le monde
2. Langages artificiels, établis en fonction d'axiomes, de règles d'écriture
Voir http://www.cnrtl.fr/definition/langage --Elnon (discuter) 23 avril 2019 à 09:46 (CEST)[répondre]
Cet article du TLF distingue deux définitions du terme « langage », celui qui est « naturel » et celui qui est « artificiel ». Mais ce n’est pas l’expression « langage naturel » qui est définie, aucun des exemples donnés dans cette acception de « langage » ne parle d’ailleurs de « langage naturel », mais uniquement de « langage » tout court. Ça prouve seulement que le terme de « langage » est dans certains contextes utilisé comme synonyme de « langue ». —Pols12 (discuter) 24 avril 2019 à 13:16 (CEST)[répondre]
Ngram donne également TAL et Traitement automatique des langues bien plus utilisés que leurs homologues. —Pols12 (discuter) 11 mai 2019 à 14:41 (CEST)[répondre]
Occurrences de "traitement automatique du langage naturel" (entre guillemets) dans Scholar. --Elnon (discuter) 29 juillet 2023 à 19:17 (CEST)[répondre]
Et « traitement automatique des langues » dans Scholar donne 5 fois plus de résultats… -- Pols12 (discuter) 28 août 2023 à 18:55 (CEST)[répondre]
Il n'y a là rien de surprenant puisque dans votre cas Google relève les occurrences de « traitement automatique des langues naturelles » comme étant des occurrences de « traitement automatique des langues ».--Elnon (discuter) 19 septembre 2023 à 13:20 (CEST)[répondre]
Bien vu. Mais si on soustrait le nombre de résultats (bien que très approximatif) pour « langues naturelles » à celui pour « langues », cela fait quand même 3 fois plus de résultats que pour « langage naturel ». -- Pols12 (discuter) 20 septembre 2023 à 15:16 (CEST)[répondre]
Pour Bien que dire que l’un est un anglicisme ne soit pas vraiment pertinent, vu qu’on l’utilise quand même, je suis pour le renommage en Traitement automatique des langues étant donné que celui-ci est simplement beaucoup plus fréquent, notamment si on compare « master en traitement automatique du langage naturel » et « master en traitement automatique des langues ». Vu que les deux sont utilisés, les deux devraient être dans l’introduction. --Moyogo/ (discuter) 14 août 2023 à 09:16 (CEST)[répondre]
Dans Scholar, "traitement automatique du langage naturel" donne 2460 résultats, "traitement automatique des langues naturelles" donne 4220 résultats, ce qui fait au total 6680 résultats. Pour sa part, "traitement automatique des langues" donne 10600 résultats, mais comme ce résultat inclut forcément "les langues naturelles", il faut en déduire le chiffre de 4220, ce qui donne 10600 - 4220 = 6380 résultats, soit un avantage de 300 pour "traitement automatique du langage naturel" + "traitement automatique des langue naturelles". Voilà pour le principe de moindre surprise. --Elnon (discuter) 7 février 2024 à 09:25 (CET)[répondre]

Doublon ?[modifier le code]

Cet article ne serait pas un doublon, ou quasi-doublon à fusionner avec Compréhension du langage naturel ? — Vega (discuter) 30 juin 2020 à 13:56 (CEST)[répondre]

Non, je ne pense pas : le TAL inclut la reconnaissance et la synthèse, la compréhension est bien distincte et le l’intro de l’article sur la Compréhension me parait claire en disant « est une sous-rubrique ». Le TAL est une discipline très vaste, il est probable que la plupart des sources un peu pointues se concentrent sur une des dimensions telle que la compréhension, donc je pense que les deux articles sont tout à fait admissibles. --Pols12 (discuter) 30 juin 2020 à 16:40 (CEST)[répondre]
Merci Pols12, j'avais du mal à saisir les liens entre les deux. — Vega (discuter) 30 juin 2020 à 22:58 (CEST)[répondre]

À propos de la dernière modification du titre de la page[modifier le code]

L'argument de l'« anglicisme » que l'on évoque ci-dessus n'est assorti d'aucune référence qui le corrobore.

J'ai regardé dans le livre du lexicographe Jean Tournier Les mots anglais du français (1998), aucune trace de rubrique où l'expression « langage naturel » soit qualifiée d' « anglicisme », de calque de l'anglais natural language. Je suis alors allé voir le Grand dictionnaire terminologique de l'Office québécois de la langue française, et lo and behold, je suis tombé sur la fiche "langage naturel", nulle allusion à un quelconque « anglicisme » dans son contenu :

« Domaines : intelligence artificielle - informatique Auteur : Office québécois de la langue française Définition : Langage humain par opposition aux langages de programmation Note : Cette fiche fait partie du vocabulaire Une intelligence artificielle bien réelle : les termes de l'IA Terme privilégié : langage naturel n. m. Traductions :
* anglais : Auteur : Office québécois de la langue française, 2018 - Termes : natural language - NL
* catalan : Auteur : Universitat Autònoma de Barcelona, 2005 - Terme : llenguatge natural n. m.
* espagnol : Auteurs : Consejo Superior de Investigaciones Cientificas, 2005 - Colegio de México, 2005 - Terme : lenguaje natural s. m.
* portugais : Auteurs : Centro de Linguística da Universidade Nova de Lisboa, 2005 - Universidade de São Paulo, 2005 - Note : Subárea da inteligência artificial: processamento de linguagem natural - Terme : linguagem natural s. f. »

.

Aligner le titre de la page sur celui de l'Association pour le traitement automatique des langues, société savante organisatrice de colloques (à ne pas confondre avec un institut de recherche), c'est permettre à celle-ci de prendre en main la page en français et de la conformer à sa lubie lexicale (remplacement de TALN par TAL et d'ATALA par ATAL). Le renommage ne manquera pas de créer une rupture avec les interwikis en anglais, espagnol, catalan, italien, portugais, roumain et autres.

Au passage, on peut s'interroger sur l'aptitude de cette association loi 1901 à avoir sa propre page dans WP : aucune source secondaire, uniquement de l'autosourçage et de l'autopromotion, et rien dans les interwikis. --Elnon (discuter) 3 février 2024 à 13:20 (CET)[répondre]