Chapitre 12

Choisir ses données et la manière de les présenter

Par Margie Henry
Adapté par Geneviève Boucher

Pour créer une visualisation graphique réussie de ses données, il faut d’abord préparer le terrain. Si elle est exécutée soigneusement, cette étape préparatoire nous aide à déterminer quels aspects de nos données visualiser et comment bien le faire. Pour bien préparer le terrain, il faut commencer par un petit remue-méninge. Vous pouvez le faire seul dans un moment de calme ou bien en équipe. L’exercice vise deux objectifs : définir votre message et identifier votre public cible. La séquence n’est pas importante. Vous pouvez commencer par l’un ou l’autre mais les deux sujets sont à traiter !

Définir votre message

Avant de s’attaquer à la façon de présenter les données, prenez quelques minutes pour décider de ce que vous voulez dire. Oubliez un instant vos réseaux sociaux, éloignez-vous de votre ordinateur et considérer le message précis que vous voulez communiquer. Demandez-vous : “Qu’est-ce que je sais? Qu’est-ce que cela signifie? Et pourquoi est-ce que je crois que c’est important?”.

Considérons un jeu de données contenant des observations sur les effets de la consommation de différents types de boissons caféinées. Ne vous arrêtez pas à “la caféine affecte le corps”. Vous ne voulez jamais présenter des données qui mèneraient à la question : “Mais encore?”. Il faut creuser un peu plus. Soyez plus précis. Que disent vos données à propos de la façon dont la caféine affecte le corps? Est-ce que les effets sont tous mauvais? Ou tous bons? Est-ce une combinaison des deux? Est-ce que les effets diffèrent selon l’âge ou le sexe de la personne? Est-ce que certaines boissons sont meilleures ou pires que d’autres pour la santé? Est-ce que cela dépend seulement du taux de caféine? Votre réponse doit être concise, claire et aller droit au but. Une affirmation telle que “une consommation modérée de café permet de réduire le risque de développer certaines maladies car le café contient des antioxydants” va beaucoup plus loin que notre affirmation originale statuant que “la caféine affecte le corps”. Mieux encore, notre seconde affirmation définit un axe clair pour orienter nos représentations graphiques en plus de mettre en place le langage à utiliser pour communiquer notre message à notre public.

Est-ce que des souvenirs de vos cours de rédaction commencent à remonter à la surface? On y apprenait que pour écrire un bon texte, on devait d’abord définir notre message et organiser nos idées. La création d’un graphique clair s’apparente beaucoup à la rédaction d’un texte. Et si vous ne pouvez pas résumer votre message en seulement quelques phrases concises, c’est probablement parce que vous ne maîtriser pas assez votre sujet. C’est un peu dur comme affirmation, mais pas autant que de présenter nos graphiques à un public perdu qui se désintéresse tranquillement. Combattez l’envie de sauter cette étape! Si vous êtes le type papier-crayon, allez-y, écrivez votre message dans votre bloc-notes. Vous pourrez vous y référer à tout moment durant votre processus de création de représentations de données.

Pour résumer simplement, vos chances de créer une représentation convaincante, captivante et bien organisée sont infiniment plus élevées si vous vous basez sur un message clair et ciblé.

Comprendre votre public cible

Vous avez déterminé votre message. Considérons maintenant l’importance de bien comprendre son public. Cela vous aidera grandement à déterminer quelles données utiliser et comment les illustrer.

Le public de vos représentations graphiques peut être de différentes natures. Vous présenterez peut-être vos graphiques dans le cadre d’une présentation orale ou peut-être que vos graphiques seront publiés dans une revue ou sur le web. Peu importe si votre public est un auditoire ou des lecteurs, prenez un moment pour vous demander : “ Quelle information a le plus de valeur pour mon public?”, “Quel rôle ma représentation visuelle jouera dans ce dialogue entre lui et moi?” et “Quelle(s) réaction(s)/action(s) ai-je envie de provoquer?”. Prendriez-vous le temps d’expliquer des notions élémentaires de mathématiques à des ingénieurs? En principe, la bonne réponse est non. Vous perdriez un peu votre temps. Plus vous connaitrez votre public cible, plus grandes seront vos chances de créer une présentation visuelle réussie et appréciée.

Imaginons que vous présentiez des données sur “La protection de l’environnement au nouveau millénaire” dans trois situations différentes : (1) sur un blog visité principalement par des environnementalistes; (2) dans une salle de classe; (3) lors d’un événement de levée de fonds pour une fondation oeuvrant pour la protection de l’environnement. Est-ce que vous utiliseriez les mêmes données et les mêmes explications pour ces trois publics? Les présenteriez-vous de la même façon? Espérons que non! Vous devriez être en mesure d’évaluer ce qui est le plus pertinent de présenter à votre public même si vous n’avez jamais rencontré personnellement ses membres.

Dans notre premier scénario, nous pouvons supposer que les visiteurs du blog sont déjà intéressés par votre sujet : la protection de l’environnement. Ils ont peut-être eux-mêmes passé du temps à se documenter sur ce sujet. On peut supposer qu’une partie de ces visiteurs sont des visiteurs réguliers qui veulent connaître votre point de vue; ils vous voient peut-être comme un expert. Votre blog n’est probablement pas le seul site qu’ils visitent pour s’informer sur le sujet, mais celui-ci pourrait devenir un jour leur préféré! Nous pouvons au moins considérer qu’ils sont arrivés sur votre blog de façon intentionnelle (et non pas à cause d’une erreur de leur moteur de recherche préféré!). Dans un tel cas, l’ampleur et la profondeur du contenu sont primordiales. Vous pouvez prendre plus de temps pour explorer, déconstruire et restructurer les données. Si votre site a pour but d’inciter les visiteurs à aller plus loin dans leur réflexion, vous pouvez présenter des éléments visuels qui posent des questions ou qui forcent les visiteurs à remettre en question leurs propres croyances.

Le scénario de la salle de classe est un peu différent. Vous pouvez a priori supposer que votre public possède très peu de connaissances sur le sujet (même si, comme toujours, certains en connaîtront toujours plus sur votre sujet que d’autres). Aussi, la présence des étudiants est peut-être obligatoire et non volontaire. Dans un tel cas, garder leur intérêt représentera un défi. Vous voudrez présenter des graphiques captivants, vulgarisant les concepts, captant l’attention et traitant des problèmes environnementaux les plus urgents afin de les interpeller. Vous devrez porter une attention particulière à votre vocabulaire : expliquez les mots les plus techniques et incluez davantage d’indicateurs visuels qualitatifs (bon/mauvais, positif/négatif) que quantitatifs. Votre représentation graphique a pour but d’insister sur l’importance de protéger l’environnement, elle doit laisser peu de place aux doutes.

Enfin, dans notre troisième scénario, vous présentez vos données devant un public lors d’une levée de fonds. Cette audience a besoin de sentir que la protection de l’environnement est une cause qui mérite leur support financier. Nous pouvons supposer que ce public sera composé de toutes sortes de gens : des donateurs intéressés, leurs accompagnateurs désintéressés (qui sont là pour les boissons et la nourriture gratuites), des experts du domaine, des employés, des stagiaires... Vous pouvez supposer qu’ils s’attendront à un discours équilibré entre les sentiments (principalement l’urgence d’agir) et les faits (qui se doivent d’être solides). Comme nous avons présumé que cette foule est composée d’une panoplie de gens aux attentes différentes, vous voudrez utiliser un langage qui est à la fois familier et facile à comprendre sans toutefois paraître condescendant. Ce public s’attend à ce que leur intérêt pour la protection de l’environnement soit confirmé et vos représentations graphiques devraient aller en ce sens. Comme pour le groupe d’étudiants, aucune question évidente ne doit rester sans réponse.

Présenter du contenu basé sur les sentiments ne signifie pas qu’il faut laisser de côté des faits majeurs parce qu’ils ne s’inscrivent pas bien dans notre histoire idéale ou n’appuient pas notre message. Soyez très vigilant et même si vous êtes motivé par une cause, faites de votre mieux pour vous assurer que vos valeurs n’interfèrent pas avec une présentation exacte des données.

Maintenant que nous avons discuté de l’importance de définir un message clé et de celle de bien identifier son public, il est temps de se demander quelles données doivent être illustrées.

Quelles données illustrer?

Si vous devez présenter plusieurs graphiques devant un public, il faut vous servir de chaque graphique pour faire progresser une histoire. Comme les pages d’un roman policier qui nous conduisent progressivement vers la résolution de l’énigme. Le but est de présenter une séquence ou un ensemble de faits qui conduiront graduellement votre public vers votre message clé. Les données que vous choisissez d’illustrer doivent définir le contexte, établir les principaux points d’intérêt et expliquer comment ces éléments sont reliés entre eux. Choisissez ce que vous présentez avec attention pour appuyer votre histoire, mais ne censurez jamais de données pour prouver un point de vue. L’histoire que vous racontez par l’intermédiaire de vos graphiques doit être basée sur ce que les données ont à dire, pas seulement sur ce que vous voulez dire.

Prenez, par exemple, le tableau suivant présentant les scores de Q.I d’enfants adoptés en bas âge et le statut socioéconomique (basé sur le revenu et la profession) de leurs parents adoptifs et biologiques. Ces données sont tirées de l’article “Children’s IQs and SES of Biological and Adoptive Parents in a Balanced Cross-Fostering Study” (Capron, C. et Duyme, M., 1989).

Q.I. Adoptif Parent SES SSE des parents biologiques
136 Élevé Élevé
99 Élevé Élevé
121 Élevé Élevé
133 Élevé Élevé
125 Élevé Élevé
131 Élevé Élevé
103 Élevé Élevé
115 Élevé Élevé
116 Élevé Élevé
117 Élevé Élevé
94 Élevé Bas
103 Élevé Bas
99 Élevé Bas
125 Élevé Bas
111 Élevé Bas
93 Élevé Bas
101 Élevé Bas
94 Élevé Bas
125 Élevé Bas
91 Élevé Bas
98 Bas Élevé
99 Bas Élevé
91 Bas Élevé
124 Bas Élevé
100 Bas Élevé
116 Bas Élevé
113 Bas Élevé
119 Bas Élevé
92 Bas Bas
91 Bas Bas
98 Bas Bas
83 Bas Bas
99 Bas Bas
68 Bas Bas
76 Bas Bas
115 Bas Bas
86 Bas Bas
116 Bas Bas

On peut raconter deux histoires à partir de ce jeu de données: “L’intelligence des enfants est limitée par le statut socio-économique des parents adoptifs” et “L’intelligence des enfants adoptés est influencée par le statut socio-énomique des parents adoptifs et biologiques”.

L’intelligence des enfants est limitée par le statut socio-économique (SSE) des parents adoptifs

En ne regardant que le SSE des parents adoptifs, nous pouvons affirmer sans que ce soit faux que l’intelligence des enfants est limitée par le statut socio-économique des parents adoptifs. En effet, les enfants des familles adoptives au SSE élevé ont un Q.I. moyen de près de 112 tandis que les enfants adoptés par des familles dont le SSE est bas ont un Q.I. moyen de 99. Cependant, cette histoire n’utilise que la moitié des informations pertinentes et disponibles : toutes les données concernant le SES des parents biologiques sont laissées de côté. Pourtant, il est logique de penser que le SES des parents biologiques joue un rôle tout aussi important que celui de la famille adoptive. Pensons, par exemple, à l’impact de la qualité et du niveau des soins prénataux qui affectent le développement de l’enfant in utero.

IQ by adoptive parent SES

L’intelligence des enfants adoptés est influencée par le statut socio-économique des parents biologiques et adoptifs

Un titre un petit peu moins accrocheur, mais tellement plus exact. Quand nous incluons à la fois les données concernant les parents biologiques et les parents adoptifs, nous obtenons une image plus précise de l’impact que chacun a pu avoir sur le Q.I. de l’enfant. En effet, en regardant les données suivantes :

Élevé and low IQ scores

Il est plus correct d’affirmer que le Q.I. d’un enfant dépend à la fois du statut socioéconomique de ses parents biologiques et de celui de ses parents adoptifs. Quand les deux présentent un SSE élevé, le Q.I. de l’enfant a tendance à être le plus élevé. Si un des deux a un SSE élevé et l’autre un SSE bas (peu importe lequel), l’enfant a typiquement un Q.I. dans la moyenne. Enfin, si les deux couples de parents ont un SSe bas, l’enfant aura tendance à avoir un Q.I. en dessous de la moyenne.

Notre première affirmation est un exemple de ce qui peut arriver quand on crée une histoire basée sur ce qu’on veut dire et non pas sur ce que les données ont à dire. Malheureusement, ce genre de situation où l’on manipule les données pour leur faire dire ce qui nous plait, n’est ni rare ni invraisemblable. Il suffit de regarder les journaux pour trouver des exemples. Cela se produit même parfois lors de conversations anodines entre amis ou collègues. L’omission de faits majeurs et des variables qui y sont reliées crée une image remplie de désinformation. Cela manque de crédibilité et montre des biais évidents. Notre seconde affirmation présente beaucoup moins de biais tout en constituant une histoire plausible basée sur l’ensemble des données disponibles. Elle présente le contexte, introduit toutes les variables et explique comment ces variables sont reliées entre elles. Même si le résultat ne mène pas à un titre aussi sensationnaliste, la présentation de toute l’information pertinente est le seul moyen de maintenir sa crédibilité et de prouver son point de vue de façon irréfutable.

Combien de données illustrer ?

Dans les paragraphes précédents, nous avons vu comment définir son message clé, que l’identification de son public était primordiale et nous avons défini un processus pour isoler les faits à illustrer. Nous sommes maintenant prêts à déterminer combien de données nous avons besoin d’utiliser.

Si mettre les données en image suppose de rendre l’information plus digeste, il faut faire attention à ne pas présenter plus de données qu’il n’en faut. Pas plus qu’attendues par le public ou plus que ce dont il a besoin pour comprendre notre message. Pendant que vous décidez de la quantité de données à illustrer, gardez en tête que quantité n’est pas toujours synonyme de qualité à moins que ce soit pertinent et présenté de façon à soutenir le message clé. Dans la plupart des cas, vos images feront partie d’une trame narrative et/ou se retrouveront dans un “entrepôt de contenu”.

Tel que présentée précédemment, une trame narrative est simplement une histoire présentée en une séquence de faits qui mène progressivement le public vers le message clé. Quand vous pensez à une trame narrative, pensez à un rapport écrit, une présentation PowerPoint ou à des articles de journaux ou de magazines. Vous voulez illustrer juste assez de données pour que le public arrive facilement à identifier et comprendre votre point de vue sans s’épuiser. Chaque graphique devrait avoir un but spécifique. Éviter d’inclure des représentations seulement parce qu’elles sont impressionnantes. Pour faire un test, essayer d’enlever une ou plusieurs graphiques ou de réorganiser l’ordre de votre présentation. Est-ce que votre trame narrative a encore un sens? Chaque représentation visuelle devrait pouvoir être présentée seule sans trop d’explications orales ou écrites. Mais si elle n’ajoute rien à la compréhension de votre public, elle n’est probablement pas nécessaire!

Pour les membres du public qui en voudraient davantage, vous pouvez toujours ajouter des liens et des références vers des représentations additionnelles de vos données comportant des commentaires plus détaillés pour approfondir le contexte et expliquer davantage l’information traitée. Si vous voulez impressionner les membres techniques de votre public, un appendix graphique peut même être partagé dans un répertoire GitHub et du code organisé dans une galerie gists comme sur bl.ocks.org.

Un entrepôt de contenu, d’un autre côté, peut être vu comme un entrepôt d’information. Normalement constitué de plusieurs trames narratives et de contenu indépendant, c’est un cas où en faire plus peut être synonyme de mieux. Contrairement au public des trames narratives, les visiteurs des entrepôts sont moins susceptibles de s’épuiser à explorer des données. Ils sont à l’aise face à une grande quantité de données car ils s’attendent à passer beaucoup de temps à développer ou améliorer leur compréhension d’un sujet. L’entrepôt n’a pas besoin de se focaliser sur un seul message. Son audience recherche de nouvelles façons de traiter les données, une diversité de points de vue et différentes descriptiosn d’un même sujet. Dans le scénario de l’entrepôt, le critère principal pour décider combien de données illustrer devrait être la création de redondance. Si votre représentation n’arrive pas à ajouter quelque chose de nouveau au contenu déjà présent ou ne permet pas d’approfondir ou d’étendre le sujet, elle peut probablement être laissée de côté.

Pour imager le tout, imaginer un cinéphile et un gérant de magasin. Ces deux personnes parcourent un blog présentant les dates des films à venir, des critiques des réalisateurs et des commentaires. Le cinéphile passe des heures sur le site, étudie chaque illustration et le contenu qui s’y rattache. Le gérant veut simplement savoir quels films populaires commander pour la prochaine saison des fêtes de fin d’année. Pour notre cinéphile, plus équivaut à mieux, pour le manager, c’est le contraire.: c’est moins qui est mieux.

Édition et révision

Vous avez fait votre remue-méninges, fait un tas de représentations graphiques et choisi le meilleur sous-ensemble à inclure dans votre projet. Vous avez fait attention pour ne pas submerger votre auditoire et vous vous êtes assuré que vos illustrations couvraient les points les plus importants sans être redondants.

C’est alors que des questions vous sont posées lors d’une présentation ou que vous lisez des commentaires à la suite d’un article qui touchent précisément les représentations que vous avez laissées de côté! Un peu frustrant et exaspérant!! Dans tous les cas, si vous commencez à douter de vous, résistez à l’envie d’argumenter avec la personne ayant posé la question, serrer les dents et continuer.

Cela arrive fréquemment et c’est tout à fait normal. Si vous faites un bon travail et que vous captivez votre public, il sera naturellement curieux et voudra en savoir plus. Votre public voudra peut-être voir les mêmes données présentées différemment, aller plus loin ou avoir une vue plus globale. Si ces questions suivent les décisions que vous avez prises dans votre processus de sélection, c’est une bonne nouvelle! Cela signifie que vous êtes sur la même longueur d’ondes que les gens que vous cibliez et qu’ils sont intéressés par l’histoire que vos données racontent.

Il y a plusieurs moyens de garder (mais sans les mettre à l’avant-plan) les représentations qui n’ont pas été choisies dans votre présentation principale. Dans une présentation orale, il est courant d’avoir une collection de diapos en plus que l’on garde après le “Merci” usuel ou après la diapo de conclusion. Ces diapos additionnelles contiennent généralement de l’information qui pourrait être intéressante mais qui ne pouvait être présentée à cause de la restriction de temps. “Oui, Monsieur, pour répondre à votre question, j’ai justement effectué la comparaison par [industrie, année, pays, genre]. Je peux vous montrer cela tout de suite”. Voilà ce que vous répondez avec confiance si vous conservez la matière qui a été mise de côté.

Une autre façon de faire cela serait de publier des versions interactives de vos représentations graphiques qui permettent aux visiteurs d’approfondir et d’explorer l’information eux-mêmes. Si vous êtes capable de partager les jeux de données brutes, c’est encore mieux! De cette façon, ceux qui veulent creuser les données et les comprendre de différentes façons en utilisant de nouvelles perspectives, auront l’option de le faire. Nous discuterons plus en détails des graphiques statiques et interactifs dans le chapitre 16.

Pour terminer, si vous voulez recevoir des commentaires et que vous ne savez pas vers qui vous tournez, vous pouvez jeter un coup d’oeil au site HelpMeViz. HelpMeViz est une communauté web où il est possible de publier les graphiques sur lesquels vous travaillez pour recevoir des suggestions amicales expliquant comment les améliorer. Recevoir des commentaires sur vos représentations de la part de votre public cible pour mieux répondre à leurs besoins fait partie du processus!