Chapitre 6

Trouver des données externes

Par Jane Foo
Adapté par Nadia Belnet

Réaliser votre propre étude pour collecter des données n’est pas le seul ou le meilleur moyen de démarrer votre analyse de données. Utiliser le jeu de données de quelqu’un d’autre et partager ses données se fait de plus en plus souvent et a aidé à avancer la plupart des recherches récentes. Utiliser des données externes offre plusieurs avantages différents :

Temps / Coût Peut réduire le travail requis pour collecter les données et les préparer pour l’analyse
Accès Peut vous permettre de travailler avec des données qui requièrent pour leur collecte plus de ressources que vous n’en avez, ou bien des données auxquelles vous n’auriez pas du tout accès autrement
Communauté Favorise de nouvelles idées et des collaborations intéressantes en vous connectant à des personnes intéressées par le même sujet

Où trouver des données externes

Tous ces bénéfices parlent d’eux-mêmes ! Alors comment trouver des données externes ? Pour vous aider à réduire votre recherche, posez-vous les questions suivantes :

Périmètre Quel est le périmètre des données que vous recherchez ? Quels sont les :
  • frontières géographiques ?
  • attributs de données spécifiques (comme les tranches d’âge) ?
  • périodes de temps ?
Type Quel type de données cherchez-vous ? Avez-vous besoin de :
  • statistiques ?
  • données de recherche ?
  • données brutes ?
  • données qui ont été collectées en utilisant une méthode spécifique ?
Contribution Comment les données contribuent à votre analyse de données actuelle ?
Avez-vous besoin de plusieurs jeux de données externes pour compléter votre analyse ?

Données publiques

Une fois que vous avez une idée claire de ce que vous recherchez dans un jeu de données externe, vous pouvez commencer votre recherche au sein des sources de données publiques qui vous sont rendues disponibles, grâce au mouvement contenu ouvert et accès qui a gagné en popularité sur Internet. De nombreuses institutions gouvernements et organisations ont établi des politiques qui favorisent la diffusion des données au public afin de fournir plus de transparence et de responsabilité et d'encourager le développement de nouveaux produits et services. Voici une liste de sources de données publiques par catégorie:

Source Exemples
Moteurs de recherche Google
Référentiels de données re3data.org
DataBib
DataCite
Dryad
DataCatalogs.org
Open Accès Directory
Gapminder
Google Données publiques Explorer
IBM Many Eyes
Knoema
Jeux de données gouvernementaux World Bank
United Nations
Open Data Index
Open Data Barometer
U.S. Government Data
Kenya’s Open Data Initiative
Institutions de recherche Academic Torrents
American Psychological Association
Autres associations professionnelles
Institutions académiques

Si vous décidez d’utiliser un moteur de recherche (tel que Google) pour rechercher des jeux de données, n’oubliez pas que vous ne trouverez que des choses qui sont indexées par le moteur de recherche. Parfois un site web (et les ressources associées) ne sera visible que pour les utilisateurs authentifiés et sera paramétré pour bloquer le moteur de recherche, donc ces types de site web n’apparaîtront pas dans les résultats de la recherche. Internet est un grand terrain de jeu, épargnez-vous la fastidieuse tâche de faire défiler de nombreux résultats de recherche non pertinents en étant clair et précis sur ce que vous recherchez.

Si vous ne savez pas trop quoi faire d’un type particulier de données, essayez de naviguer à travers le site Information is Beautiful awards pour inspiration. Vous pouvez également assister à des événements tels que l’Open Data Day pour voir ce que d’autres ont fait avec les données ouvertes.

Les référentiels de données ouvertes bénéficient à la fois aux contributeurs et aux utilisateurs en fournissant un forum pour partager et réfléchir aux moyens d’étudier et discuter des données. Dans certains cas, la production participative de données (data crowdsourcing) a conduit à de nouvelles conclusions qui se seraient développées à un rythme beaucoup plus lent ou n’auraient pas été possibles en premier lieu. L’un des projets de production participative de données les plus médiatisés est Foldit de l’Université de Washington, un jeu de puzzle en ligne permettant à n’importe qui de présenter des variations de repliement de protéines qui sont utilisés par les scientifiques pour construire de nouvelles solutions innovantes en bioinformatique et en médecine. Et récemment, la Recherche contre le Cancer du Royaume-Uni a publié un jeu mobile appelé Genes in Space qui assigne aux utilisateurs la tâche d’identifier des cellules cancéreuses dans les diapositives de biopsies ce qui en retour aide les chercheurs à réduire le temps d’analyse de données.

Données non publiques

Bien sûr, toutes les données ne sont pas publiques. Il peut arriver un moment où vous avez accès à une collection spéciale de données en raison de votre statut au sein d'un réseau particulier ou par une relation existante. Ou bien peut-être êtes-vous tombé sur un jeu de données que vous pouvez acheter. Dans les deux cas, vous devez généralement accepter et signer une licence pour obtenir les données, vous devez donc vous assurer d’avoir passé en revue les Termes d’Utilisation avant d’acheter. Si aucune condition n’est fournie, insistez sur le fait d’avoir une autorisation écrite pour utiliser le jeu de données.

Évaluer les données externes

Disons que vous avez trouvé un jeu de données qui correspond à vos critères. Mais est-ce que la qualité est suffisamment bonne ?

Evaluer la qualité des données consiste à examiner tous les détails fournis à propos des données (notamment les metadonnées, ou les “données à propos des données”, telles que l’heure et la date de création) et le contexte dans lequel celles-ci sont présentées. Les bons jeux de données fourniront des détails à propos de la finalité du jeu de données, la propriété (appartenance), les méthodes, le périmètre, les dates et d’autres informations. Pour les jeux de données en ligne, vous trouverez souvent ces informations en consultant les pages web “A propos” ou “Plus d’information” ou en suivant un lien de type “Documentation”.

N’hésitez pas à utiliser les techniques générales d’évaluation de l’information lors de l’examen des données. Par exemple, une méthode populaire utilisée par les bibliothèques universitaires est le test CRAAP, qui est un jeu de questions vous aidant à déterminer la qualité d’un texte. L’acronyme signifie : Période de validité, Pertinence, Auteurity, Précision, Finalité.

riode de validité L’information est-elle à jour ? Quand a-t-elle été collectée / publiée / mise à jour ?
Pertinence Est-ce que l’information est adaptée à l’usage auquel vous la destinez ? Répond-elle à votre question de recherche ? Y’a-t-il d’autres (meilleures) informations ?
Auteurity Le créateur de l’information est-il réputé et a-t-il les crédits/pouvoirs nécessaires ? Pouvez-vous faire confiance à l’information ?
Précision Voyez-vous des erreurs ? Quelle est la source de l’information ? Y’a-t-il d’autres données ou recherches qui pourraient corroborer cette information ?
Finalité Quel était le but de l’information collectée ? Y’a-t-il d’autres usages potentiels identifiés ?

Enfin, lorsque vous passez en revue le jeu de données dans le détail, faites attention aux drapeaux rouges suivants :

Utiliser des données externes

Donc maintenant vous avez un jeu de données de qualité qui répond à vos critères, et vous avez la permission de l’utiliser. Que devriez-vous envisager avant de commencer à travailler ?

Liste de contrôle
Avez-vous eu tous les détails nécessaires à propos des données ? N’oubliez pas d’obtenir les spécifications des variable, les dictionnaires de données externes, et les ouvrages de référence.
Les données font-elles partie d’un jeu de données plus large ou du contenu d’une recherche ? Si oui, cherchez les spécifications pertinentes ou les notes du plus grand jeu de données.
Le jeu de données a-t-il été utilisé auparavant ? S’il l’a été et que vous utilisez les données pour une analyse, assurez-vous que votre analyse apporte de nouveaux enseignements par rapport à ce que vous savez avoir déjà été fait avec ces données.
Comment documentez-vous votre process et utilisation des données ? Assurez-vous de garder une trace des droits de licence, des communications avec les propriétaires des données, du stockage et de l’archivage des données, si cela est applicable.
Prévoyez-vous de partager vos résultats et enseignements dans le futur ? Si oui, il vous faudra inclure le dictionnaire des données et une liste des sources de données additionnelles.

Vos réponses à ces questions peuvent changer le périmètre de votre analyse ou vous amener à rechercher des données supplémentaires. Elles peuvent même vous amener à penser à un tout nouvel angle de recherche.

La liste de contrôle vous encourage à documenter (beaucoup). Une documentation minutieuse est importante pour deux grandes raisons. D’abord, dans le cas où vous avez à refaire votre analyse, votre documentation vous aidera à retracer ce que vous avez fait. Ensuite, votre documentation fournira des preuves aux autres chercheurs que votre analyse a été correctement menée et leur permettra de construire sur les enseignements issus de vos données.

Créditer les sources de données externes

Dit autrement, créditer les sources de données externes est la bonne chose à faire. Elle est également obligatoire. Les directives éthiques de recherche indiquent que le crédit des sources est nécessaire pour tout type de recherche. Donc assurez-vous toujours de créditer correctement les données extérieures que vous utilisez en fournissant leur référence.

De bonnes références donnent au lecteur suffisamment d’information pour trouver les données auxquelles vous avez eu accès et que vous avez utilisées. Vous vous demandez à quoi ressemble une bonne référence ? Essayez d’utiliser un manuel de style de référence existant provenant de APA, MLA, Chicago, Turabian, ou Harvard. Contrairement aux références pour des éléments publiés (tels que des livres), les références pour un jeu de données varient énormément d’un style à l’autre.

En règle générale, tous les styles exigent l’auteur et le titre. En plus de cela, l’éditeur, le producteur ou le distributeur de l’information (lieu, date de publication), la date d’accès (lorsque vous avez vu la première fois les données), les détails à propos du jeu de données (identifiant unique, édition, support), et l’URL peuvent être nécessaires. Pour les jeux de données gouvernementaux, utilisez le nom du département, du comité ou de l’organisme comme nom d’auteur groupe ou institutionnel.

Par exemple, disons que vous utilisez U.S. Census Annual Survey of Public Employment and Payroll (enquête annuelle des Etats-Unis de recensement de l’emploi et de la paie).

Le manuel de style APA (Manuel de Publication de l’Association Américaine de Psychologie, 6ème édition) vous citerait de la manière suivante :

APA citation

alors que le manuel de style MLA (Manuel MLA pour les Ecrivains-Chercheurs, 7ème édition) référence les même données de recensement comme :

MLA citation

Les répertoires de données et les organisations ont souvent leurs propres directives de référence et fournissent des références prêtes à l’emploi que vous pouvez utiliser “telles quelles”. Le Consortium Interuniversitaire pour la Recherche Politique et Sociale (The Interuniversity Consortium for Political and Social Research (ICPSR)), le Centre National des Statistiques de Santé (The National Center for Health Statistics), Dryad, Dryad, PANGAEA, et le Centre de Données Roper (Roper Center Data) fournissent tous des directives pour faire référence à leurs jeux de données.

Ce chapitre vous a donné un bref aperçu des données externes : la chose importante à retenir, c’est que nous ne sommes qu’au début d’une croissance significative des données grâce aux technologies qui rendent désormais le stockage et le traitement de données massives une réalité abordable. Les jeux de données ouvertes en particulier ont le potentiel pour devenir la norme de facto pour toute personne cherchant des données à analyser.