Data profiling

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.

Objectifs[modifier | modifier le code]

Le profiling a pour objectif :

d'identifier les données réutilisables pour d'autres fins ;
d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise ;
d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications ;
d'évaluer si les métadonnées décrivent correctement les données sources ;
d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet, ex. : avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels…
d'avoir une vue globale des données pour permettre la gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.