Data profiling

Un article de Wikipédia, l'encyclopédie libre.

Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.

Objectifs[modifier | modifier le code]

Le profiling a pour objectif :

  • d'identifier les données réutilisables pour d'autres fins ;
  • d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise ;
  • d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications ;
  • d'évaluer si les métadonnées décrivent correctement les données sources ;
  • d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet, ex. : avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels…
  • d'avoir une vue globale des données pour permettre la gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.

Notes et références[modifier | modifier le code]

Lien externe[modifier | modifier le code]