Discussion utilisateur:Rsommerard/Brouillon

Le contenu de la page n’est pas pris en charge dans d’autres langues.
Une page de Wikipédia, l'encyclopédie libre.

Relecture de LorneMalvoo (d · c · b) (Jean-Baptiste)[modifier le code]

Bonjour,

Votre article traite d'un sujet intéressant et est plutôt bien présenté autant sur le fond que sur la forme. L'article est bien structuré, clair, relativement facile à lire et bien illustré.

Cependant, j'ai relevé ci dessous quelques changements, qui de mon point de vue, pourraient être intéressant à apporter.

Problématique[modifier le code]

Les problèmes liés au nettoyage de données sont apparues au début des années 2000 avec l'arrivée d'Internet et des entrepôts de données.
=> au début des années 2000, se serait plutôt l'explosion d'internet que l'arrivée
=> ok

Erreurs de duplication[modifier le code]

Les erreurs de duplication surviennent lorsque plusieurs occurrences de la même donnée sont stockées.

Les erreurs de duplication peuvent être vues comme un cas spécifique des erreurs de contradiction.
=> éviter de commencer deux phrases de suites de la même façon
=> ok

Méthodes existantes[modifier le code]

  • Celles des scientifiques, qui explorent de nouveaux moyens d'automatisation à l'aide de techniques basées sur le crowdsourcing, l'apprentissage automatique, les contraintes fonctionnelles ou encore les statistiques. Ces approches se basent sur les contraintes d'intégrité, les statistiques, l'apprentissage automatique ou encore le crowdsourcing.

=> Répétition de la phrase précédente
=> ok

Le nettoyage de données se décompose en 3 phases :

  • Analyser les données afin de detecter les potentielles problèmes

=> "détecter les potentiels problèmes"
=> ok

Méthode statistique[modifier le code]

Malgré les recherches faites sur les contraintes d'intégrité ainsi que d'autres méthodes visant à améliorer la qualité des données, les bases de données peuvent encore contenir un certain nombre d'erreurs subtiles, syntaxiques ou sémantiques, qu'il est difficile voire impossible d'exprimer (et détecter) en utilisant les contraintes générales offertes dans les SGBD actuels.
=> plutot dire "ainsi que sur d'autres méthodes"
=> ok

Crowdsourcing[modifier le code]

Une approche basée sur le crowdsourcing permet d'utiliser des bases de connaissance externes qui permettent d'identifier plus d'erreurs automatiquement.
=> lien "bases de connaissance" qui pointe sur une page wiki vide
=> ok

Solutions existantes[modifier le code]

La recherche permet d'apporter de nouvelles solutions qui utilisent les approches citées précédemment. En voici quelque unes :
=> "quelques unes"
=> ok

Potter's Wheel[modifier le code]

Potter's wheel est une méthode de nettoyage de données interactive qui permet la détection et la transformation de données.
=> "interactives"
=> une méthode interactive

Cette solution permet à l'utilisateur de construire des transformations lorsque celle-ci se présente et d'ainsi améliorer itérativement la détection et la transformation. Ceci sans écrire de programmes complexes ou de perdre du temps de développement.
=> "celles-ci se présentent"
=> ok

AJAX est un framework qui tente de séparer la partie logique (design et spécification du workflow) de la partie physique (implémentation). AJAX modélise la logique de nettoyage de données par un graphe orienté de transformations. Il prend comme entrée des données contenant des erreurs, revoie des données propres.
=> "et renvoie"
=> ok

Le but majeur est de transformer des données existantes venant d'une ou plusieurs collections en un schéma cible tout en éliminant les doublons pendant le processus. Le processus se décompose en 5 transformations : mapping, view, matching, clustering et merging. Le matching operator est notamment important dans la détection des doublons.
=> il serait intéressant d'expliquer d'avantage les 5 transformations
=> pour plus d'informations, voir la ref ?

Ce langage consiste en des requêtes SQL enrichies par des primitives spécifiques. Son aspects déclaratif est hérité du SQL et garantit un déploiement ainsi qu'une maintenance facile des programmes de nettoyage de données. Il n'est cependant pas complètement déclaratif de par la présence de code impératif servant à la customisation pour un programme particulier si besoin.
=> "aspect"
=> ok

IntelliClean [modifier le code]

Cette solution consiste en 3 étapes :

  • Pré-processing : élimination des erreurs syntaxiques, standardisation des formats et abréviations utilisées.
  • Processing : évaluation des règles de nettoyage sur les données qui spécifient une action à effectuer sous certaine condition.

=> "spécifie"
=> ok

  • Human Verification/Validation : les deux premières étapes produises des logs de leur exécution qui permettent lors de la troisième étape à des humains de les étudier afin de vérifier et/ou corriger les précédentes actions effectuées.

=> "produisent"
=> ok

Il y a 4 types de règles pour l'étape Processing :

  • Update Rules : ces règles indiquent comment les données doivent être gérées dans certaines conditions, elles permettent notamment la spécification de règles de renforcement des contraintes d'intégrité ou indiquant la manière dont les valeurs manquantes doivent être remplies.

=> "en indiquant"?
=> ok

Les comportements qu'il est possible d'associer à une erreur sont IGNORE, qui ne va pas marquer le tuple comme erroné, DELETE, WRITE TO FILE et INSERT TO TABLE avec la sémantique attendue. Seuls les deux derniers permettent une interaction avec l'utilisateur.
=> phrase pas très clair, à reformuler
=> pour plus d'informations, voir la ref ?