Chapitre 10
Par Dyanna Gregory
Adapté par Laurent Nepveu
Maintenant que nous avons déterminé pourquoi on utilise le nettoyage de données, ainsi que les méthodes et approches à notre disposition pour donner forme à notre jeu de données, demeure la question de ce que l'on peut et ne peut pas faire avec le nettoyage de données.
La règle générale pour nettoyer un jeu de données dont chaque colonne est une variable et chaque rangée est un enregistrement est:
À noter que l'exclusion de variables ou d'enregistrements ne veut pas dire que l'on supprime ceux-ci de nos données. Les variables et enregistrements exclus d'une analyse devraient être placées dans un jeu de données à part. Si les données sont supprimées, on ne peut les récupérer, même si une manière de corriger une donnée manquante ou erronnée devait être trouvée ultérieurement. Ne supprimez donc des données que si vous êtes absolument certains qu'elles ne pourront être utilisées.
Dans les précédents chapitres, nous avons discuté de plusieurs techniques de nettoyage de données, ainsi que des différents types de problèmes que ces techniques permettent d'identifier et de solutionner. Ces types de problèmes sont:
Ce que nous n'avons pas encore abordé est le fait que certaines erreurs ne peuvent tout simplement pas être corrigées par les processus de nettoyage de données. Il est possible que vos données contiennent des valeurs incorrectes tout en étant cohérentes avec le jeu de données et les plages de valeurs admissibles. Par exemple, si quelqu'un a entré la valeur 45 plutôt que 54 dans une variable pouvant contenir des valeurs de 0 à 100, il ne sera pas possible de détecter cette erreur, à moins que cette variable ne puisse être validée d’une autre manière (utilisation d’une autre source, lien avec une autre variable, etc).
De la même façon, il est possible que vous ayez à traiter de données de questionnaires en-ligne et qu'un répondant ait choisi la réponse "Fortement en accord", alors qu'il voulait plutôt indiquer "Fortement en désaccord". Là également, si cette réponse ne peut être contre-validée avec une autre variable ou une autre source, il n'y a aucune façon de détecter cette erreur. Et ce type d'erreur peut parfois être critique. Si un répondant choisit "Fortement en accord", plutôt que "En accord" dans un sondage d'opinion, l'impact sur l'analyse sera minime. Par contre, si un répondant indique le mauvais genre dans un questionnaire de recherche médicale utilisant justement cette variable pour différencier les traitements à appliquer, les conséquences peuvent être plus importantes.
Le nettoyage de données ne permet pas non plus de déterminer si une valeur manquante est véritablement manquante (on a oublié de répondre ou la réponse n'a pas été recueillie) ou si le répondant s'est volontairement abstenu de répondre (en supposant que l'option "Ne souhaite pas répondre" n'ait pas été présentée). Bien que dans certaines analyses, les deux cas de figure puissent être traités de manière identique (valeur manquante), la différence entre réponse manquante et réponse non renseignée peut parfois être importante (par exemple dans le cas de recherches démographiques). C'est pourquoi il est suggéré d'inclure une option "Ne souhaite pas répondre" lorsque vous désirez spécifiquement savoir si le répondant s'abstient de répondre à une question, en particulier si les questions sont d'ordre racial, ethnique, financier, politique, etc.