Discussion:Exploration de données

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.
Autres discussions [liste]

Dans l'anecdote, l'exemple célébre cité est bien la corrélation entre l'achat de couches et de bières le samedi aprés-midi (et pas les autres jours) dans les supers-marchés américains et pas la corrélation couches - petits pots. Le correction est utile dans le sens où l'exemple exprime bien la puissance de découverte de ces algorithmes : pas besoin d'un ordinateur pour savoir que des gens qui achètent des couches acheterons trés probablement des petits pots... Par contre, il est difficile d'imaginer à l'avance que le Samedi les jeunes couples vont faire les courses ensemble ce qui permet au mari d'acheter la bière qu'il boira devant son match le dimanche aprés-midi. Glm 16 fev 2005 à 19:48 (CET)

  • Cet eclaircissement mériterait de figurer dans l'article lui-même !

Datawolf 28 septembre 2007 à 13:20

    • Cet "exemple" (Wal-Mart & les couches et la bière est une légende urbaine! Ca serait bien de le preciser car en l'etat si on en croit l'article c'est un fait! (l'absence de date et de precision met la puce à l'oreille mais il serait bien de dire que c'est une illustration qui ne repose sur rien de tangible!
Les premières corrélations mises en évidence furent pourtant bien du genre (couches - petits pots) et c'est parfaitement normal, puisque c'est la corrélation la plus grande. Qu'elle soit triviale quand on remote à l'interprétation n'a pas à entrer en ligne de compte, car au niveau du data mining, il est juste question de corrélation entre des choses qui se nomment par exemple item 16325 et item 25321. « Il est difficile d'imaginer à l'avance que le Samedi les jeunes couples vont faire les courses ensemble » ? Eh, parbleu, c'est justement là l'intérêt du data mining : il n'y a pas besoin d'« imaginer » quoi que ce soit au départ, pas besoin d'hypothèse(s). C'est précisément là sa différence avec les statistiques. Pour la petite histoire, l'ancêtre du data mining dès 1970 se nommait "projet DIANA" (Data Investigation and Analysis et avait été entrepris pour une banque, la BNP (ex-BNCI), je crois. 212.198.139.139 (d) 5 mai 2008 à 06:49 (CEST)[répondre]

Fouille de données[modifier le code]

Personnellement j'ai eu des cours de fouille de données quand j'étais à l'école. D'ailleurs une recherche dans Google renvoit 15200 pages avec fouille de données, et seulement 1470 avec exploration de données. Je ne change pas le titre, mais je pense qu'il faudrait le changer.--Greguar 18 mar 2005 à 10:45 (CET)

Selon le Grand dictionnaire terminologique, fouille, exploration, forage et prospection de données sont des synonymes acceptables. Donc, je ne crois pas que ce soit nécessaire de changer le titre. Pfv2 3 octobre 2005 à 18:39 (CEST)[répondre]
Les mots cités sont peut-être synonymes dans un dictionnaire cela n'empêche pas qu'ils ont en fait un sens très différent. Le terme utilisé dans le milieu de la recherche est définitivement Fouille de données. Je peux citer en source deux conférences renommées dans le domaine, regardez les thématiques : http://afia2007.imag.fr/ic/ et http://www.info.fundp.ac.be/egc2007/appel.php . Il y a ensuite une grande confusion dans l'article entre l'Extraction de Connaissances à partir des Données (ECD), qui est un processus global composé de différentes phases, et l'exploration des données et la fouille des données qui en sont 2 de des phases. Pour cela on peut se référer au guide CRISP-DM qui est un standard reconnu : http://www.crisp-dm.org/CRISPWP-0800.pdf --Laurent 20 mar à 14:21 (CET)

Rendons l'article bien indigeste[modifier le code]

"On peut relever parmi les utilisations du datamining :

  • l'analyse comportementale des consommateurs (...)
  • la prédiction de réponse à un mailing (...)
  • la prédiction de l'attrition (...)
  • la détection de comportements anormaux ou frauduleux (...))
  • la recherche des critères qui permettront d'établir ensuite (...)"

Qu'est-ce que c'est que ce langage administratif ampoulé ? Ne peut-on pas parler directement d'utiliser, d'analyser, de prédire, de rechercher et de détecter ? Ca vous fait peur, les verbes, ou bien vous craignez que l'article en devienne plus vivant et trop agréable à lire ? 81.65.27.14 22 septembre 2005 à 16:36 (CEST) (pas content du tout)[répondre]

Lien externe publicitaire[modifier le code]

A mon avis, la présence de ce lien dans l'article est très discutable ; je le met ici si je suis le seul à être de cet avis.

  • site de la société française Soft Computing (avec un livre blanc sur le datamining) qui propose notamment du "traitement à façon" (avec ses propres statisticiens) à partir des données fournies par ses clients
j'avais inscrit ce "lien externe" parce qu'il donnait des infos utiles (dont le livre blanc) mais je n'ai aucun lien, ni de près ni de loin, avec la sté citée !!! BMR 26 mars 2006 à 19:48 (CEST)[répondre]
OK, c'est déja une information utile. Disons que ça me gène de mettre le site d'une société comme référence sur un sujet qui a dû connaitre des dizaines de travaux universitaires, etc. Rien de nous oblige à mettre des liens externes... Arnaudus 26 mars 2006 à 20:54 (CEST)[répondre]

interrogation...[modifier le code]

je cite, du paragraphe Principe et spécificité : Le data mining a une approche très différente de la méthode statistique  ?? sachant que pas mal de méthode de data mining sont statistiques je m'interroge sur cette phrase. et je m'interroge encore plus lorsque je lis la suite: "cette dernière exige en effet qu'on se fixe une hypothèse, que les données vont confirmer ou non."  ?? ah bon ?? je pense que cela nécesite une reformulation soigneuse ou alors un grand coup de balai ;-) Sylenius 11 juillet 2006 à 22:07 (CEST)[répondre]

  • je crois que le principe de cette encyclopédie est de partager le savoir de chacun... Je vous incite donc à proposer les modifications qui vous paraissent nécessaires... Pour information, meme si la formulation précédente reste approximatiev, sachez que je suis ok avec le principe selon lequel le datamining déborde largement le cadre de la statistique, et propose une méthjodologie axée sur la performance pratique (et non théorique) des analyses, ce qui n'est pas le cas des méthodes statistiques, en tout cas si l'on se réfère au monde de la stat paramétrique... Franck1974 9 septembre 2006 à 12:10
  • Le data mining découvre des règles, un modèle. Est-ce le cas des statistiques ?

Datawolf 28 septembre 2007 à 13:20

  • je cite le Data Mining ne nécessite jamais que l'on établisse une hypothèse de départ qu'il s'agira de vérifier, on a vraiment l'impression que le data mining résout tous les problèmes. Beaucoup d'hypothèses sont posés pour n'importe quelle méthode de data mining afin de réduire l'espace de recherche: on parle dans ce cas de biais. Il s'agit au contraire de les identifier et de se poser la question si les données satisfont ces hypothèses. C'est des données elles-mêmes que se dégageront les corrélations intéressantes : le jour où la machine universelle du data mining sera créé : ok mais pour l'instant les hypothèses (modèles) intéressantes viennent surtout d'un utilisateur et de l'application de différentes méthode de fouille de données.

AlexVaut 24 octobre 2007 à 18:30

Je cite aussi: Plus qu'une théorie normalisée, le Data Mining est un processus d'extraction de connaissances métiers. Je ne suis pas sûr qu'un processus d'extraction de connaissances métiers puisse être considéré comme plus qu'une théorie normalisée. Dans la section Principe le texte s'efforce par tous les moyens de se distinguer des aspects théoriques pour insister sur le fait qu'il faut que ça marche et qui plus est vite. Or le fait qu'une techno soit efficace n'interdit pas qu'elle repose sur une théorie solide, bien au contraire. La plupart des algorithmes et techniques cités sont directement issus de théorie connues et étudiées depuis un certain temps: statistique, analyse de données, intelligence artificielle. Bref, n'a-t-on pas affaire à des Monsieur Jourdain des théories statistiques? Je comprends le commentaires ci-dessus proposant des formulations plus soigneuses ou un "grand coup de balai". Pour aller plus loin, je pense qu'il faudrait préciser les choses en introduction avec renvoi vers les articles théoriques correspondant. Je m'y emploierai... Xiawi (d) 1 juin 2008 à 03:23 (CEST)[répondre]

Références vers logiciels payants[modifier le code]

Voici les raisons pour lesquelles cet article contient des références vers des logiciels professionnels payants : 1. Le Datamining est une technologie née du rapprochement de plusieurs disciplines - statistiques, intelligence artificielle, base de données, linguistique, ... - pour répondre à des besoins pratiques de traitement de données, doublés de contraintes de temps fortes. En d'autres termes, le DataMining est né en entreprise, pour aider à générer de la valeur (économique) (c'est dit, autrement je te l'accorde, dans l'article dont il est ici question). Il me paraît donc normal de proposer des liens vers des logiciels que ces entreprises pourront choisir d'acquérir pour leurs besoins propres. 2. La liste proposée est quasi exhaustive, considérant la réalité du marché français du DataMining. L'idée est de ne favoriser aucun intérêt profesionnel spécifique. Mais il se peut bien sur que certains logiciels professionnels ait été oubliés dans la liste... (au passage sache que j'ai bataillé pour que la liste soit la plus complète possible, certains utilisateurs "s'amusant" à ne laisser qu'un lien professionnel vers un logiciel, ou encore à mettre en évidence un logiciel payant en particulier...) Tu noteras également que des liens vers des ressources libres existent, et qu'ils sont même individualisés... Il me semble ainsi que cela serait passer à côté de la réalité du Datamining que de ne pas faire ce type de renvois vers des logiciels professionnels.

Cela étant, il serait peut-être intéressant d'insister de clarifier ces aspects dans l'article... J'essaye de m'y coller !

Formulation un peu trop ambitieuse (amha)[modifier le code]

Par exemple, on utilisera ce type de méthode lorsque l'on cherchera à comprendre pourquoi un individu a acheté un produit plutôt qu'un autre, pourquoi un individu à répondu favorablement à une opération de marketing direct, pourquoi un individu a contracté une maladie particulière, pourquoi un individu a visité une page d'un site web de manière répétée, pourquoi la durée de vie après la contraction d'une maladie varie selon les malades...

C'est sans doute faire espérer un peu trop du data mining au lecteur non averti. Nous sommes déjà très contents quand nos moulinettes nous indiquent comment des facteurs observables (et lesquels) sont corrélés à un comportement ultérieur non observable à ce moment-là (et comment). Bref,nous n'en sommes pas au "pourquoi", mais juste au "comment".

Si j'osais une comparaison avec la physique, je dirais que le data mining remplit déjà bien son contrat quand il fait découvrir des lois descriptives, et que c'est ensuite éventuellement aux psychologues, voire aux sociologues, qu'on passera le bébé pour qu'il découvre éventuellement un "pourquoi", qui n'est absolument pas dans notre rayon. En d'autres termes, le data mining cherche des lois descriptives du type de celles de Képler - justement elle-même fondée sur la compilation d'une masse immense de données - et n'a pas pour le moment la prétention de faire le travail ultérieur d'un Newton puis d'un Einstein qui passent à des lois de plus en plus, elles, explicatives.

Je ne dis pas que ce ne sera pas un jour le cas, mais j'ai comme l'impression que comme cela se situera alors à un tout autre niveau - sans doute celui de manipulation de symboles plutôt que de chiffres - il ne s'agira déjà plus de la même discipline. Si pour ma part de disais autre chose à mes clients, j'aurais l'impression de leur mentir comme un vulgaire commercial :-) 212.198.139.69 (d) 2 avril 2008 à 02:35 (CEST)[répondre]

Tout à fait d'accord. Dans l'ensemble, je pense que cet article n'est pas très bon, et qu'il est nécessaire que des spécialistes jettent un oeil dessus. Arnaudus (d) 2 avril 2008 à 10:30 (CEST)[répondre]
Pour ce qui est du fond, j'ai un collègue statisticien qui parle de "shallow model" pour un modèle statistique descriptif, et de "deep model" pour un modèle explicatif (scientifique). Il doit bien exister quelque part une terminologie plus ou moins officielle, non? Arnaudus (d) 2 avril 2008 à 10:31 (CEST)[répondre]

Article doublon ?[modifier le code]

Sans être spécialiste de cette question, je trouve des similitudes plus que troublantes entre le présent article et cet article Fouille de textes. --alain darles (d) 20 octobre 2008 à 14:42 (CEST)[répondre]

Extraction de données[modifier le code]

Les recommandations officielles en France et au Canada pour la traduction de data mining sont exploration de données, comme le titre de l'article. Néanmoins, l'expression « extraction de données » est plus fréquente sur internet (deux fois plus de résultats dans une recherche Google). D'autre part, « extraction » me paraît mieux exprimer l'idée contenue dans le mot anglais mining.Pautard (d) 28 mars 2010 à 15:52 (CEST)[répondre]

Suppression de paragraphes[modifier le code]

Je viens de supprimer les paragraphes

  • Anecdotes
  • Définition générale
  • Principe et spécificité
  • Principe

Si ça ennuie quelqu'un, je les remettrai, il suffit de le dire (:->).--Jackverr (d) 1 novembre 2010 à 17:27 (CET)[répondre]

Demande d'autorisation d'utiliser deux tableaux[modifier le code]

j'utilise deux tableaux dont l'auteur est le professeur Stéphane Tufféry. je viens d'envoyer le mail de demande d'autorisation ci-dessous. J'attends la réponse du professeur. Ne pas supprimer les tableaux svp. --Jackverr (d) 6 novembre 2010 à 15:33 (CET)[répondre]
__________________________________________________________________________
Bonjour M.Tufféry, je suis en train de compléter l’article Data Mining sur le Wikipédia français. J’aimerais utiliser – en fait je les utilise déjà , désolé, ils seront retirés si vous ne me donnez pas votre accord - deux de vos tableaux que vous avez publier sur internet dans les Pdf mis à disposition sur votre site, et pages 159, 161 de votre livre "DM et statistique décisionnelle". Est-ce que vous pouvez me donner l’autorisation de les utiliser? Avant de me transmettre votre décision, vous devez savoir que les textes sont publiés sous la licence Creative Commons BY-SA-3.0 qui autorisera n'importe qui (pas uniquement Wikipedia) d'utiliser, de copier, voire de vendre vos travaux. Cela signifie que demeurant l'auteur de votre travail, vous le partagez librement. Vous pouvez lire la licence ici: <http://creativecommons.org/licenses/by-sa/3.0/deed.fr>. Soyez assuré que si vous ne nous donnez pas votre permission, votre texte ne sera pas utilisé par Wikipédia . Sur Wikipédia, nous avons en effet une politique très stricte vis à vis du respect du droit d'auteur. Cordialement, xxxxxxxxxx (ma page d'utilisateur Wikipédia: http://fr.wikipedia.org/wiki/Utilisateur:Jackverr =

Si vous en citez la source, vous n'avez pas besoin de l'autorisation de reproduire ces tableaux. Il n'y a pas de violation du copyright si vous n'utilisez que l'information (et non une copie de l'image du tableau mis en page), c'est ce qui est fait dans les publications scientifiques tous les jours. D'ailleurs, les droits ont peut-être été cédé à l'éditeur, non? De plus, sur WP, ils seront vite modifiés et complétés. Xiawi (d) 13 novembre 2010 à 17:01 (CET)[répondre]
Merci pour cette précision--Jackverr (d) 13 novembre 2010 à 21:09 (CET)[répondre]

Remarque par rapport à la relecture[modifier le code]

J'expose ici les remarques que j'ai a faire pendant ma relecture de l'article afin de peaufiner l'article :

  • Parenthèses trop nombreuses, il faut mieux éviter les remarques entre parenthèses et plutôt les inclure dans le texte lui-même (sauf bien entendu les traduction ou les synonymes.)

--Boungawa (Discuter) 19 mai 2011 à 09:24 (CEST)[répondre]

j'ai enlevé les parenthèses en trop, mais j'ai 2 questions : pourquoi enlevez-vous (PDF) dans les références alors que c'est dans les bonnes pratiques http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Atelier_accessibilit%C3%A9/Bonnes_pratiques ? et pourquoi mettez-vous à plat les {{lien web? c'est juste pour ma gouverne.--Jackverr (d) 19 mai 2011 à 22:49 (CEST)[répondre]
Je n'enlève pas (PDF) je met devant le modèle [PDF] je les mets à plat pour un soucis de lecture^^ c'est personnel mais ça ne change rien--Boungawa (Discuter) 20 mai 2011 à 07:36 (CEST)[répondre]
  • Le pronom "on" est trop utilisé, l'article doit être encore plus général en tournant les phrases de façon indirecte.
  • Le modèle {{harvsp| est à utiliser, surtout (peut-être même uniquement) pour l'ouvrage de Stéphane Tufféry.
j'ai remplacé les tournures dont le sujet est "on", j'en ai laissé trois ou quatre. j'ai utilisé le modèle {{harvsp| pour trois ouvrages. Je me demande s'il faut mettre ces références dans un autres groupe, pour les isoler?--Jackverr (d) 22 mai 2011 à 10:54 (CEST)[répondre]
  • Il serait parfois (pas tout le temps) mieux de mettre les références à la fin de la phrase plutôt qu'au début.
C'est assez difficile de faire ça car j'essaie de mettre la référence au plus près de la partie du texte qui a besoin d'un complément ou d'une justification de l'affirmation. Mais c'est vrai que le lecteur est moins “déconcentré” par une référence en fin de phrase.
Les parenthèses dans l'introduction ont été supprimées, l'introduction a été rédigée un peu différemment, et j'ai réécrit la phrase qui était incompréhensible.--Jackverr (d) 24 mai 2011 à 22:40 (CEST)[répondre]

Label BA ?[modifier le code]

Je n'ai pas eu le temps de voter pour le BA (trop occupé à le relire :-), mais il le mérite. Cantons-de-l'Est 14 juin 2011 à 02:35 (CEST)[répondre]
OK...peut-être pour le vote en AdQ, si vous pensez qu'il le mérite aussi?Émoticône sourire--Jackverr (d) 14 juin 2011 à 20:00 (CEST)[répondre]
Mes tripes me disent qu'il ne passera probablement pas. Rapidement, certaines parties sont sur-développées comparativement à d'autres. La partie sur les logiciels jure avec les autres parties. Cantons-de-l'Est 16 juin 2011 à 03:11 (CEST)[répondre]
Même avis, je pense que ça ne passera pas l'AdQ. Sylenius (d) 16 juin 2011 à 09:13 (CEST)[répondre]
Pour le contenu ou pour la forme? Est-ce que c'est un problème d'équilibre de l'article? Vous pensez que le paragraphe sur les logiciels (jure?) est trop important par rapport aux autres? en ce qui concerne les algorithmes ça doit être pareil! et le fait que l'article soit technique, est-ce que c'est un handicap? qu'est-ce que vous en pensez?!--Jackverr (d) 16 juin 2011 à 20:45 (CEST)[répondre]
L'article est de nature technique et doit le rester. Je suis le principal rédacteur d'Histoire du procédé Haber-Bosch et la technique y est omniprésente. Il m'était très difficile de vulgariser plus et pourtant un des votants m'a mentionné que le sujet était difficile à comprendre, mais il a quand même voté pour car il savait que le sujet était exploré au mieux des connaissances actuelles.

Le déplacement de la section sur les logiciels dans un article dédié améliore l'article. J'ai observé que vous avez continué à le modifier, ce qui est bien. Quant à dire s'il est AdQ, il me faudra le relire. Je vous suggère de laisser passer du temps avant de le proposer au label AdQ (un, voire deux mois) : un peu de distance permet de le lire d'un oeil plus neutre et donne l'occasion à d'autres de se faire un idée ou d'y apporter des améliorations. J'imagine que vous avez réagi à toutes les demandes de la « liste de tâches suggérées » ? Dans quelques semaines, apposez un bandeau pour signifier votre intention de le proposer au label AdQ : des contributeurs expérimentés passeront probablement le voir pour y apporter des améliorations/modifications : l'article n'en sera que meilleur. Bon succès ! Cantons-de-l'Est 20 juin 2011 à 19:36 (CEST)[répondre]

Merci pour ces conseils. Je vais le laisser mûrir et le proposer sans doute en AdQ en Septembre.--Jackverr (d) 20 juin 2011 à 20:07 (CEST)[répondre]

Pourquoi est-il important de consevoir une solution informatique(algorithme) indépendamment d'un ordinateur? — Le message qui précède, non signé, a été déposé par 41.205.25.120 (discuter)

Les algorithmes "classiques" sont conçus pour être implémentés sur des machines serveurs qu'on trouve en entreprise. Par contre, en fouille de flots de données les algorithmes sont adaptés à la forte contrainte imposé par l'appareil qui accueille la fouille du flot. La conception de l'algorithme est indépendante de la machine, son implémentation impose parfois des adaptations conceptuelles pour répondre aux contraintes techniques.--Jackverr (d) 15 octobre 2011 à 17:53 (CEST)[répondre]

Soulignements gênant la lecture[modifier le code]

Autant il est tout à fait pertinent de rendre actifs les mots en rapport direct avec le sujet d'un article, autant faire la même chose pour ceux qui ne concernent que son illustration (par exemple chiffre d'affaires) semblent plutôt contre-performants qu'autre chose. Il en irait différemment si les liens actifs ne se signalaient que par une couleur pas trop éloignée de celle du texte, mais le soulignement possède sa sémantique propre qui est d'amener à ralentir la lecture, ce qui n'est nullement souhaité pour les choses annexes. Non ? François-Dominique (discuter) 9 septembre 2015 à 07:32 (CEST)[répondre]

François-Dominique : Le soulignement que vous mentionnez est seulement appliqué à une phrase qu'un contributeur juge douteuse ; il exige donc une référence pour appuyer l'information. Par ailleurs, le soulignement est fortement déconseillé sur Wikipédia. — Cantons-de-l'Est discuter 10 septembre 2015 à 01:50 (CEST)[répondre]
Je crains que nous ne parlions pas de la même chose. Le soulignement dont je parle ici, qui est celui des liens actifs, n'est pas déconseillé par la Wikipédia, mais bien créé par la Wikipédia, ou plus précisément par Médiawiki. Je questionnais sur l'opportunité de rendre les liens non directement liés au sujet de l'article actifs au détriment de la lisibilité des phrases où ils se trouvent.
Pour prendre un exemple, dans un article sur l'enseignement de l'anglais où se trouverait la phrase Mon tailleur est riche, il ne semble pas évident que l'écrire : Mon tailleur est riche apporte quelque chose à l'utilisateur, et il me semble même que l'effet sera probablement inverse. En revanche, dire que cet exemple vient de la méthode Assimil justifie parfaitement d'un lien actif et donc souligné, puisqu'on est là dans le coeur de propos de l'article. François-Dominique (discuter) 10 septembre 2015 à 08:24 (CEST)[répondre]