Nous sommes entourés de données et cela depuis toujours. À travers l'Histoire, il a toujours été possible de tout quantifier. Il était ainsi théoriquement possible de tout compter : chaque être humain, chaque battement de cœur, chaque mesure prise, chaque étoile ayant rayonné, chaque mot prononcé ou écrit. Chacun de ces éléments collectifs peut être représenté par un nombre. Or, c'est seulement depuis peu que la technologie permet de mettre sur le devant de la scène ces nombres cachés avec efficacité et d'améliorer notre connaissance de la condition humaine.
Mais qu'est-ce que cela signifie exactement ? Quels sont les effets culturels de la facilité d'accès aux données ? Cela signifie, d'une part, qu'il faut que nous soyons mieux au fait de nos données. Cela signifie aussi que nous devons être davantage conscients de leur design. Selon le vieil adage, les statistiques mentent. Eh bien, les visualisations de données mentent également. Comment est-il d'abord possible de lire efficacement des visualisations de données et, ensuite, d'en concevoir de manière à ce qu'elles transmettent l'histoire inhérente aux données ?
Au croisement de l'art et de l'algorithmique, la visualisation des données résume schématiquement l'information pour approfondir la connaissance de ces données en l'enveloppant dans une sorte de respect mêlé d'admiration.
Ma description préférée de la visualisation des données est celle de la blogueuse très inspirée Maria Popova selon laquelle la visualisation des données est « au croisement de l'art et de l'algorithmique ». Apprendre l'histoire de la visualisation des données, c'est un peu devenir un cartographe, un explorateur et un statisticien de salon.
Les premières explorations visuelles des données se sont principalement concentrées sur de petits bouts de données collectées pour renforcer les connaissances humaines en matière de géographie, essentiellement par l'intermédiaire de la cartographie. À partir des premières cartes consacrées du monde au 13ème siècle, les scientifiques, les mathématiciens, les philosophes et les marins se sont servis des mathématiques pour visualiser l'invisible. Les étoiles et les soleils ont été identifiés, tandis que les cartes des côtes et des voies de navigation ont été établies. Par essence, la visualisation des données a permis de tracer les lignes, les points et les coordonnées qui ont donné forme au monde physique et à notre place en son sein. Elle permettait de répondre à des questions telles que : « Où suis-je ? », « Comment me rendre à tel endroit ? » et « Est-ce loin ? ».
Ces premières visualisations de données ont aussi servi à répondre aux questions de santé publique. La carte du choléra à Londres en 1854 de l'épidémiologiste John Snow a été dressée pour enregistrer les cas de choléra dans un quartier de Londres afin de pouvoir remonter jusqu'au puits à l'origine de l'épidémie. Les renseignements tirés des listes de noms, de numéros et de lieux ont alors permis de convaincre la population londonienne d'installer des réseaux d'égouts pour réduire la prolifération et la propagation de la maladie. Le cerveau humain est particulièrement doué pour reconnaître les modèles. Une bonne visualisation des données, comme celle de Snow, optimise les représentations de ces modèles en faisant un usage efficace de la théorie de la forme de la Gestalt, des principes du design et de la couleur (ou son absence, selon le cas).
La visualisation de Snow et son absence de couleur optimise les théories de la perception visuelle de la Gestalt, plus particulièrement « la Proximité » et « la Figure et le Fond ». Les petits points noirs, chacun représentant un cas de choléra, sont de petites formes noires en contraste avec l'arrière-plan : sur cette carte, les lignes et les espaces blancs représentent les rues. La proximité de ces points autour du puits contaminé est ce qui a permis à Snow de déterminer l'origine exacte de l'épidémie. De nos jours, même avec nos systèmes informatiques avancés et nos outils perfectionnés de création de visualisation de données, la marge de manœuvre pour améliorer l'efficacité de cette carte demeure faible. Elle est simple, belle et réaliste. Bref, c'est une visualisation de données qui a sauvé des vies.
Florence Nightingale, plus célèbre pour ses talents d'infirmière que pour ses compétences d'analyse, n'en demeure pas moins une data scientist et une narratrice émérite. Grâce aux données présentées à l'aide de son diagramme dit de Coxcomb (également connu sous l'appellation de diagramme polaire ou diagramme de rose), elle a convaincu l'armée britannique d'adopter des mesures sanitaires en montrant que la majorité des morts de la guerre de Crimée avait succombé à des maladies évitables causées par les effroyables conditions sanitaires régnant dans les hôpitaux. « Pourquoi sommes-nous malades ? », s'est-elle demandé avant de répondre elle-même à cette question en effectuant une présentation visuelle des données.
Lorsqu'on observe ce diagramme, il est clair que les maladies évitables surpassent en nombre toutes les autres causes de décès. La zone bleue représente les décès dus aux maladies évitables mesurés depuis le centre, la zone rouge ceux résultant de blessures et la zone noire ceux imputables à toutes les autres causes. Parmi les principes de conception employés ici figure l'ajout de couleurs afin de tirer parti de davantage de principes de la Gestalt : la « similarité » et la « continuité ». La couleur facilite le rattachement des segments aux différentes catégories. Elle permet aussi d'attirer l'attention sur une trajectoire continue autour du graphique, facilitant ainsi la lecture.
Il règne toutefois un débat sur la qualité de ce diagramme. Certains prétendent que c'est l'une des meilleures et des plus mémorables visualisations jamais créées, pas seulement en raison de sa puissance de communication visuelle. On s'en souvient en raison du changement qu'elle a inspiré. D'autres la tournent en dérision en affirmant qu'il s'agit seulement d'un superbe graphique en secteurs, souffrant de la même représentation trompeuse de l'information du fait de la déformation des données : en termes de perception visuelle, il est difficile pour un être humain de juger précisément des mesures représentées par les différences de zone. Malgré leur omniprésence, les graphiques en secteurs sont, pour cette raison même, un moyen incroyablement peu adapté à la visualisation des données. Un graphique à barres empilées avec des lignes de référence, même s'il n'est pas aussi beau ou visuellement intriguant, aurait fait passer un message de manière bien plus efficace et aurait faciliter la lecture.
Nous continuons de poser les mêmes types de questions que celles posées par Snow et Nightingale, et, en tant qu'êtres humains doués de curiosité, nous continuerons toujours probablement. Mais, les principales différences aujourd'hui résident dans le fait que nous disposons de moyens permettant de collecter des ensembles de données bien plus importants et d'une plus grande richesse. Et nous avons aussi les outils pour automatiser la visualisation de nos données.
Cela ne veut pas dire que les petits ensembles de données, comme ceux étudiés par Nightingale et Snow, présentent moins de valeur ou sont moins intéressants. Grâce aux technologies de collecte de données et aux avancées de l'informatique embarquée (wearable computing) et de l'Internet des objets (Internet of Things), c'est tout le contraire. Mon ami Jen Lowe, data scientist et artiste vivant à New York, a récemment publié les battements de son cœur sur Internet. En représentation statique, ils seraient beaux, mais pas spécialement informatifs. Or, en ajoutant de l'interactivité et des flux de données en direct de ses battements cardiaques au moyen de capteurs portables et d'appels d'API, son rythme cardiaque se transforme en une créature numérique vivante visible par n'importe quel internaute, de n'importe où et à tout moment. On obtient alors un aperçu d'un autre être humain comme jamais auparavant.
Cet aperçu unique est l'essence-même des données, qu'elles soient de petite ou de grande taille, et du résultat des outils permettant d'y avoir accès, de les sonder, de les fouiller, de les disséquer, de les visualiser et, avec un peu de chance, d'en saisir la signification. Des outils qui, par la démocratisation de la visualisation des données, nous permettent de changer notre regard sur le monde, en créant des images de l'humanité selon différentes perspectives et en mettant l'accent sur des histoires à propos des hommes et du monde qui passaient auparavant inaperçues pour nous permettre de mieux nous connaître comme jamais auparavant.
Callie Neylan
Senior Designer, Microsoft