Chapitre 2

Agréger Les Données

Par Alistair Croll
Adapté par Arnaud Flan

Quand on souhaite transformer des données en information, le choix des données par lesquelles vous allez commencer est primordial. Les données peuvent être de simples faits — résultat de l’analyse d’un autre contributeur — ou des données brutes. Dans ce cas, tout le travail d’exploration est laissé à l’utilisateur final.

Raw vs. Aggregated Data
Niveau d’agrégation Nombre de métriques Description
Fait Information (contexte maximal) Information ponctuelle; Pas de possibilité d’aller plus loin
Série Une seule mesure suivant un axe d’analyse Permet d’analyser l’évolution
Séries multiples Plusieurs mesures ayant au moins un axe en commun Permet d’analyser l’évolution et la corrélation entre les mesures
Séries multiples sommables Plusieurs mesures ayant au moins un axe en commun Permet d’analyser l’évolution et la corrélation entre les mesures. Permet de comparer les pourcentages par rapport au total
Données résumées Un enregistrement pour chaque item de la série ; Les mesures sont agrégées Les items peuvent être comparés entre eux
Enregistrements individuels Un enregistrement par événement Pas d’agrégation. Analyse jusqu’au niveau le plus fin

La plupart des données correspondent à un des niveaux définis ci-dessus. Si nous savons par quel type de données nous commençons, nous pouvons grandement simplifier le travail pour obtenir une bonne première visualisation de ces données.

Regardons un par un ces types d’agrégation, en les illustrant par notre exemple sur la consommation de café. Supposons qu’un bar liste chaque tasse de café vendue et enregistre deux informations liées à la vente : le sexe du l’acheteur et le type de café (café noir, décaféiné, ou mocaccino).

Le tableau de données, par année, ressemble à ceciCes données sont des données fictives.:

Année 2000 2001 2002 2003 2004 2005 2006 2007 2008
Total des ventes 19 795 23 005 31 711 40 728 50 440 60 953 74 143 93 321 120 312
Homme 12 534 16 452 19 362 24 726 28 567 31 110 39 001 48 710 61 291
Femme 7 261 6 553 12 349 16 002 21 873 29 843 35 142 44 611 59 021
Café noir 9 929 14 021 17 364 20 035 27 854 34 201 36 472 52 012 60 362
Décaféiné 6 744 6 833 10 201 13 462 17 033 19 921 21 094 23 716 38 657
Mocaccino 3 122 2 151 4 146 7 231 5 553 6 831 16 577 17 593 21 293

Fait

Un fait est une information. Il est défini à partir des données, mais choisit de mettre l'accent sur un point particulier.

Exemple: en 2000, 36,7% du café a été consommé par des femmes.

Série

Il s’agit d’une information (la variable dépendante) comparée à une autre (la variable indépendante). Souvent, la variable indépendante est le temps.

Année 2000 2001 2002 2003
Total des ventes 19 795 23 005 31 711 40 728

Dans cet exemple, le total des ventes de café dépend de l’année. Ici, l’année est indépendante (« prenez une année, n’importe laquelle ») et le total des ventes est dépendant (« basé sur cette année, la consommation de tasses de café est de 23 005 tasses »).

Une série peut aussi être composée de données continues, comme des températures. Considérons ce tableau qui montre le temps pour un adulte avant de souffrir d’une brûlure du premier degré selon la température de l’eau. Ici, la température de l’eau est la variable indépendante.Hémorandum du Gouvernement américain, Commission de Sécurité des Produits de consommation, Peter L. Armstrong, 15 Sept. 1978.:

Température de l’eau °C (°F) Délai avant de souffrir d’une brûlure du premier degré
46,7 (116) 35 minutes
50 (122) 1 minute
55 (131) 5 secondes
60 (140) 2 secondes
65 (149) 1 second
67,8 (154) Instantané

Il peut aussi s’agir d’une série de données non contiguës reliées entre elles par une catégorie comme des marques de voitures, des races de chiens, des légumes ou des planètes du système solaireCentre national de Données de Science Spatial, NASA http://nssdc.gsfc.nasa.gov/planetary/factsheet/planet_table_ratio.html:

Planète Masse relative par rapport à la Terre
Mercure 0,0553
Venus 0,815
Terre 1
Mars 0,107
Jupiter 317,8
Saturne 95,2
Uranus 14,5
Neptune 17,1

Dans ces cas, les séries ont une et une seule variable dépendante pour chaque variable indépendante. En d’autres termes, il n’y a qu’un seul total des ventes de café pour chaque année. On les représente généralement en diagramme à barres, en série temporelle, ou en histogramme.

Total des ventes

Quand il y a plusieurs variables dépendantes pour chaque variable indépendante, on représente souvent l’information sous forme de nuages de point ou de carte des températures, (aussi appelée carte thermique), ou alors on retravaille les données (calcul d’une moyenne par exemple) pour simplifier ce qu’elles représentent. Nous reviendrons sur ce point plus tard dans ce chapitre dans la section intitulée « Utiliser la visualisation pour révéler les variations cachées ».

Séries multiples

Un jeu de données d’une série multiple se compose de plusieurs variables dépendantes et d’une variable indépendante. Ici, les données concernant l’exposition à l’eau chaude avec des données complémentaires:Hémorandum du Gouvernement américain, Commission de Sécurité des Produits de consommation, Peter L. Armstrong, 15 Sept. 1978.:

Température de l’eau °C (°F) Délai avant de souffrir d’une brûlure du premier degré Délai avant de souffrir d’une brûlure du 2ème et 3ème degré
46,7 (116) 35 minutes 45 minutes
50 (122) 1 minute 5 minutes
55 (131) 5 secondes 25 secondes
60 (140) 2 secondes 5 secondes
65 (149) 1 second 2 secondes
67,8 (154) Instantané 1 second

Ou, en reprenant notre exemple sur le café, voici plusieurs séries:

Année 2000 2001 2002 2003 2004 2005
Homme 12 534 16 452 19 362 24 726 28 567 31 110
Café noir 9 929 14 021 17 364 20 035 27 854 34 201

Ce jeu de données nous indique plusieurs choses sur l’année 2001. Nous savons que 16 452 tasses de café ont été servies à des hommes et que 14 021 tasses de café servies étaient des tasses de café noir (avec caféine, crème ou lait, et sucre).

Nous ne savons toutefois pas comment combiner ces informations dans la mesure où elles ne sont pas reliées entre elles. Nous ne pouvons pas déterminer quel pourcentage des tasses de café noir ont été servies à des hommes ou combien de tasses ont été servies à des femmes.

En d’autres termes, les données de séries multiples sont simplement plusieurs séries présentées dans un seul diagramme ou un seul tableau. On peut les représenter ensemble mais on ne peut pas les comparer ou les combiner.

Line chart, Homme and Café noir Coffee

Séries multiples sommables

Comme leur nom l’indique, les séries multiples sommables sont des séries particulières car segmentées en sous-groupe (genre, type de café).

Année 2000 2001 2002 2003 2004 2005 2006 2007 2008
Homme 12 534 16 452 19 362 24 726 28 567 31 110 39 001 48 710 61 291
Femme 7 261 6 553 12 349 16 002 21 873 29 843 35 142 44 611 59 021

Puisque nous savons qu’un buveur de café est soit un homme, soit une femme, nous pouvons additionner ces 2 séries pour faire des observations plus larges sur la consommation totale de café. Tout d’abord, nous pouvons calculer des pourcentages.

Pie chart, Consommation de café par sexe en 2001

Ensuite, nous pouvons additionner ces données pour en définir le total:

Area chart, Total coffee consumption by gender

Un défi avec les données des séries multiples sommables est de savoir quelles séries vont ensemble. Regardons les séries suivantes:

Année 2000 2001 2002 2003 2004
Homme 12 534 16 452 19 362 24 726 28 567
Femme 7 261 6 553 12 349 16 002 21 873
Café noir 9 929 14 021 17 364 20 035 27 854
Décaféiné 6 744 6 833 10 201 13 462 17 033
Mocaccino 3 122 2 151 4 146 7 231 5 553

Intrinsèquement, rien dans ces données ne nous dit comment nous pouvons les combiner. C’est l’interprétation humaine des données qui nous permet de savoir que Hommes + Femmes = l’ensemble de la population des buveurs de café et que Café noir + Décaféiné + Mocaccino = tous les cafés (de ce jeu de données). Sans cette connaissance, nous ne pouvons pas combiner ces données ou au pire, nous les combinerions mal.

Il est difficile d’explorer des données résumées

Même si nous connaissons la signification de ces données et que nous réalisons qu’il s’agit de 2 séries multiples séparées (une selon le sexe des consommateurs et l’autre selon le type de café), nous ne pouvons pas les explorer en profondeur. Par exemple, nous ne pouvons pas savoir combien de femmes ont bu un café noir en 2000.

Une erreur commune (mais importante) serait de dire:

  • 36,7% des tasses de café ont été vendues à des femmes en 2000.
  • Et il y a eu 9 929 tasses de café noir ont été vendues en 2000.
  • Donc, 3 642,5 tasses de café noir ont été vendues à des femmes.

Mais c’est faux. Ce type de conclusion ne peut être fait que quand vous savez qu’une catégorie (type de café) est répartie uniformément par rapport à l’autre (sexe). Le fait que le résultat ne soit pas un nombre entier nous rappelle qu’on ne peut pas procéder ainsi (on ne vend pas de demi-tasse de café).

La seule façon de vraiment explorer les données et répondre à de nouvelles questions (comme “Combien de tasses de café noir ont été vendues à des femmes en 2000?”) est de disposer des données brutes. Ensuite, il suffit de savoir comment les agréger de façon appropriée.

Données résumées

Le tableau de données résumées ressemble à ce qu’un point de vente de café pourrait produire. Il présente une colonne d’information catégorielle (genre, H/F) et un sous-total pour chaque type de café. Il inclut également le total de chaque type de café.

Name Sexe Café noir Décaféiné Mocaccino Total
Robert Durand H 2 3 1 6
Marie Sante F 4 0 0 4
Philippe Hartin H 1 2 4 7
Marie Brasseur F 3 1 0 4
Béatrice Condrier F 1 0 0 1
Jean Dupond H 2 1 3 6
Damien Courtier H 3 1 0 4
Suzanne Tremblay H 0 0 1 1
Total 5H, 3F 16 8 9 33

Ce type de tableau est assez familier pour toute personne ayant déjà réalisé une exploration basique de données dans un outil comme Excel. On peut ajouter des totaux :

Mais plus important encore, on peut croiser les données pour répondre à davantage de questions exploratoires. Par exemple : Est-ce que les femmes préfèrent un type de café en particulier ? Excel excelle à faire ce genre de choses, souvent en utilisant un outil appelé tableau croisé dynamique.

Ici un tableau présentant la moyenne du nombre de tasses de Café noir, Décaféiné et Hocaccino consommées par les hommes et les femmes :

Etiquettes de lignes Moyenne de café noir Moyenne de décaféiné Average of Mocaccino
F 2,67 0,33 0,00
H 2,00 1,75 2,00
Moyenne pondérée 2,29 1,14 1,14

En regardant ce tableau, on peut voir clairement que les femmes préfèrent le Café noir et que les hommes se répartissent de façon relativement équitable sur les trois catégoriesLes données ne sont pas suffisantes pour valider statistiquement cette affirmation. Mais ces données sont, de toute façon fictives, alors arrêtez de penser autant à la consommation de café..

Cependant le problème avec ces données, c’est qu’elles sont toujours agrégées d'une façon ou d'une autre. Nous avons résumé les données selon plusieurs dimensions – sexe et type de café – en les agrégeant par nom de client. Bien que ce ne soit pas des données brutes, nous n’en sommes pas éloignés.

Un des bons côtés de l’agrégation est qu’elle permet de conserver des ensembles de données de petite taille. Cela suggère également la façon dont les données peuvent être exploitées. Il est assez courant de trouver des données d’enquête ou de sondage sous cette forme : par exemple, un formulaire Google qui dirait ceci pourrait produire ce type de données :

Google form

Ce qui permettra de produire les données suivantes dans le tableau Google ci-dessous :

Date / Heure Quel est votre nom? Sexe? Café noir Décaféiné Mocaccino
17/01/2014 11:12:47 Robert Durand Homme 4 3

Utiliser la visualisation pour reveler les variations cachees

Lorsque vous disposez de données résumées ou de données brutes, il est courant de les agréger pour les présenter facilement. En présentant le nombre total de cafés consommés (en sommant les colonnes) ou la moyenne du nombre de tasses par client (moyenne de chaque colonne) on rend les données plus faciles à comprendre.

Prenons le tableau ci-dessous :

Name Café noir Décaféiné Mocaccino
Robert Durand 2 3 1
Marie Sante 4 0 0
Philippe Hartin 1 2 4
Marie Brasseur 3 1 0
Béatrice Condrier 1 0 0
Jean Dupond 2 1 3
Damien Courtier 3 1 0
Suzanne Tremblay 0 0 1
Total 16 8 9
Moyenne 2 1 1,125

On peut présenter la moyenne de tasses de café consommées de chaque type de café sous la forme d’un graphique de ce type :

Moyenne de tasses consommées

Mais les moyennes cachent des choses. Peut-être que certaines personnes ont consommées une seule tasse et d’autres plusieurs. Il y a plusieurs façons de visualiser la distribution ou la variance de données qui montrent l’information sous-jacente. Parmi celles-ci mentionnons les cartes de températures, les histogrammes, et les nuages de points. En conservant les données sous-jacentes, vous pouvez vous retrouver avec plus d'une variable dépendante pour chaque variable indépendante.

Une meilleure visualisation (par exemple sous forme d'histogramme, qui compte combien de personnes entrent dans chaque plage de valeurs qui composent la moyenne) pourrait révéler que quelques personnes boivent beaucoup de café, et un grand nombre de personnes en boivent en petite quantité.

Prenons cet histogramme du nombre de tasses par client. Tout ce que nous avons fait a été de dénombrer combien de personnes avaient consommé une tasse, combien en avaient consommé deux, combien en avaient consommé trois, et ainsi de suite. Puis nous avons tracé la fréquence de chaque nombre, ce qui explique pourquoi ce type de graphique s’appelle un histogramme de fréquence.

Mean vs. Mode

Le nombre moyen de tasses dans cet ensemble de données est d'environ 3. Et lemode, ou nombre le plus fréquent, est de 2 tasses. Mais comme le montre l'histogramme, il existe trois grands consommateurs de café qui ont chacun consommé 7 tasses, poussant la moyenne vers le haut.

En d'autres termes, lorsque vous avez des données brutes, vous pouvez voir les exceptions et les valeurs aberrantes et vous racontez une histoire plus précise.

Même ces données, verbeuses et informatives, ne sont pas des données brutes : elles sont toujours agrégées.

L'agrégation se produit dans de nombreux cas. Par exemple, un reçu de restaurant regroupe habituellement les commandes par table. Il n'y a pas moyen de connaitre ce qu'un individu à la table a commandé pour le dîner, seulement les plats qui ont été servis à la table et ce qu'ils coûtent. Pour réaliser une exploration vraiment détaillée, nous avons besoin de données au niveau de la transaction.

Enregistrements individuels

Chaque enregistrement de transactions « capture » des informations sur un événement spécifique. Il n'y a pas d'agrégation des données quel que soit la dimension comme le nom du client (même si son nom peut ne pas être « capturé »). Il n’est pas modifié au fil du temps; c’est un instantané.

Date / Heure Name Sexe Coffee
17:00 Robert Durand H Café noir
17:01 Marie Sante F Café noir
17:02 Philippe Hartin H Mocaccino
17:03 Marie Brasseur F Décaféiné
17:04 Béatrice Condrier F Café noir
17:05 Jean Dupond H Café noir
17:06 Damien Courtier H Café noir
17:07 Suzanne Tremblay H Mocaccino
17:08 Robert Durand H Café noir
17:09 Marie Sante F Café noir
17:10 Philippe Hartin H Mocaccino
17:11 Marie Brasseur F Café noir
17:12 Jean Dupond H Décaféiné
17:13 Damien Courtier H Café noir

Ces enregistrements peuvent être agrégés selon chacune de ces colonnes. Les données temporelles peuvent également être regroupées (par heure, jour ou année). En fin de compte, l'ensemble de données initiales de la consommation de café par année que nous avons vu résulte de ces données brutes.

Décider comment agréger

Lorsque nous regroupons des données dans des catégories ou que nous les transformons de quelque façon qu’il soit, nous enlevons de l’information brute. Par exemple, quand nous avons transformé les transactions brutes en totaux annuels:

Chacune de ces données aurait pu nous montrer que quelqu'un était un grand buveur de café (en se basant sur la quantité de café consommée par une personne, ou sur la base du niveau de consommation par jour). Alors que nous ne pensons pas aux conséquences de nos données sur la consommation de café, supposons que les données se rapportent plutôt à la consommation d'alcool ? Aurions-nous une obligation morale de prévenir quelqu'un si l’exploitation des données montrait qu'une personne boit habituellement beaucoup d'alcool ? Que faire si cette personne tue quelqu'un alors qu'il conduit en état d'ébriété ? Est-ce que les données sur la consommation d'alcool sont sujettes à des contraintes juridiques différentes des données sur la consommation de café ? Sommes-nous autorisés à regrouper certains types de données, mais pas d'autres ?

Peut-on traiter les biais inhérents à la manière d’agréger les données avant de les présenter ?

Le mouvement autour du stockage massif de données (Big Data) va résoudre certains de ces biais. En premier lieu, stocker toutes les transactions brutes était techniquement très compliqué. Nous avions à décider comment agréger les choses au moment de la collecte et jeter l'information brute. Mais les progrès dans le stockage, les traitements massivement parallèles, et l'informatique en nuage (cloud computing) font de l’agrégation à la volée de vastes ensembles de données une réalité, qui devrait surmonter un certain nombre de biais d'agrégation.