diff in diff - bases 2
Pour cette seconde note “rapide” sur la méthode Difference-in-Difference, nous allons considérer un exemple tiré du chapitre 18 du livre The Effect de Nick Huntinghton-Klein, que vous trouverez ici (mais qui est également disponible en version papier dans toutes les bonnes librairies). Il s’agit d’une réplication d’une étude réalisée par Kessler and Roth (2014) plus spécifiquement d’une partie du tableau 2 que l’on peut trouver à la page 9.
Les strip plot GT24
Enchaînons sur la série GT avec les strip plot. Il s’agit ici, non plus comme avec les histogrammes de figurer les observations au travers d’objets dont la taille et la forme varie en fonction de la fréquence d’une valeur, mais plus directement de montrer les données. Pour ce faire, chaque observation est représentée par un point placé en fonction de sa valeur le long d’un axe vertical ou horizontal unique.
Les graphes en pyramides GT23
Venons-en à notre second post de la sous-série de GT consacrée à l’illustration distribution des variables quantitatives. Il s’agit ici de traiter des histogrammes en pyramide. Ceux-ci permettent de faciliter la comparaison de la distribution d’une variable entre deux groupes d’observations. Ils sont souvent mobilisés en démographie pour mettre en regard les effectifs des différences classes d’âge pour chaque sexe (pour une zone géographique et à une date donnée). Le principe du graphe est simple.
Les histogrammes GT22
Ce post ouvre une nouvelle partie de la série GT. Après avoir traité des représentations utilisées pour rendre compte des variables discrètes et de celles utilisées pour les séries temporelles, nous traitons maintenant de la manière de représenter les distributions de variables continues. Le premier type de graphe que nous aborderons est un grand classique. Il s’agit de l’histogramme. Celui consiste en une série de barres accolées à la manière d’un bar plot classique.
Les slope charts GT21
Dans ce dernier post consacré aux graphes destinés à illustrer l’évolution d’une ou plusieurs variables dans le temps, nous allons nous intéresser aux diagrammes de pentes ou slope charts. Il s’agit de la combinaison de lignes horizontales dont le degré d’inclinaison représente l’évolution d’une variable quantitative entre deux dates pour différents individus ou groupes, et de points marquant les valeurs de départ et d’arrivé de manière à mettre en avant des proximités (clustering) et des éloignements (outliers).
Gérer et manipuler les dates (2)
Continuons notre point sur la manipulation des données de dates. Traitons ici de la mise en forme de l’axe décrivant le temps dans les graphes de séries temporelles. Comme toujours (ou presque), nous travaillerons à partir de ggplot2.
Commençons par charger les packages, ceux permettant d’établir le graphe (tidyverse et scales) et autre pour les obtenir les données. Ici, nous utiliserons des données de cotations d’actions. Nous les chargerons à partir de l’API de yahoo finance à partir des tickers correspondant.
Gérer et manipuler les dates (1)
Le premier semestre s’avance et les cours s’enchaînent, le temps passe et ne laisse que peu d’opportunité de bloguer. Mais enseigner n’a pas que des désavantages… Outre que cela permet de parler et d’avoir des échanges sur des sujets que je trouves intéressant parfois passionnant, cela permet à l’occasion de mettre le doigt sur quelque chose qui mérite approfondissement et réflexion. Certaines questions, peuvent clairement vous faire voir en problème, ou une pratique, sous un nouvel angle.
Le nuage de points connectés GT20
Dans cet avant dernier post consacré à la représentation des séries temporelles, nous revenons sur la question de l’évolution du lien entre deux variables dans le temps. Nous l’avions déjà aborder lorsque nous avions traité des graphes à doubles ordonnées (dual axis plot). J’avais alors émis certaines réserves concernant cette représentation, qui peut donner l’illusion d’une corrélation voir d’une causalité. J’avais alors indiqué ma préférence pour les nuages de points quitte à marquer le temps à l’aide d’une progression de couleurs.
Les stream graph GT19
Enchaînons avec une catégorie de graphes, à mon avis, plus spectaculaire: les stream graph (en français graphes de flux). Il s’agit d’une forme d’aera charts superposés et articulés autour d’un axe central. Il présente un aspect organique qui engage le lecteur à en déchiffrer les informations. Celles-ci sont simplement plusieurs séries temporelles exprimées dans la même unités. L’objectif ici est plus d’illustrer l’évolution relative des quantités représentées dans le temps que leur valeur exacte qui apparaît difficile à lire.
Les diagrammes de Gantt GT18
Après une pose d’un peu plus d’un mois due aux cycles des congrès et à la fin de l’année universitaire, revenons à notre série GT. Continuons la sous-série des graphes présentant dans séries temporelles avec le diagramme de Gantt. Celui-ci est principalement utilisé dans le cadre d’outils de gestion de projets avec les réseaux PERT. Il est néanmoins possible d’être créatif et d’étendre son application à d’autres contextes. A la base, il s’agit simplement, dans un repaire avec un axe reprenant une mesure de temps et un axe autre présentant différents individus (ou tâches…), de séries de segments marquant et positionnant dans le temps un état défini (la participation à un projet…).