Quantitative Methods WRDS (1)
La rentrée universitaire est là. Et avec elle vient son lot de nouveaux cours d’autant que j’intègre une nouvelle université. Bref, les projets de l’été (ou du moins ceux commencés cet été) et les data visualisations vont ralentir au moins un moment. Néanmoins, cela me donne l’occasion de partager d’autres types de contenu où j’utilise R. C’est la cas du cours de “Quantitative Methods” dans lequel je présente aux étudiants les bases de données qu’ils pourront utiliser pour leur futur mémoire ainsi que les outils/techniques disponibles pour les exploiter.
Données de panel choix de modèle (digression variabilité) - pan3
By Ludovic Vigneron
| Jul 22, 2022
| panel, r
Bon! J’aurais peut-être dû commencer par là. Les données de panel présentent une structure particulière. La répétition des observations dans le temps permet d’appréhender à la fois des différences entre individus et entre périodes, mais aussi des différences pour un même individu observé à différents point du temps ou pour un point du temps donné des différences entre individus… Cela se concrétise par des tendances au niveau de données, plus précisément au niveau de la variation de leur valeurs.
Données de panel choix de modèle (suite) - pan2
By Ludovic Vigneron
| Jul 16, 2022
| panel, r
Continuons sur la lancé du post précédent. Pour rappel, il s’agissait de faire quelques rappels pratiques concernant les données de panels à partir du jeu de données wages du package panelr. Le modèle que nous avions envisagé expliqué le montant des salaires sur différentes périodes (lwage) par le nombre de semaines travaillées durant ces mêmes périodes (wk). Il était question de la potentiel prise en compte d’effets individuels. Après une série de tests, nous avions conclu que le meilleure modèle à considérer pour estimation était le modèle à effets fixes individuels.
Données de panel choix de modèle - pan1
By Ludovic Vigneron
| Jul 14, 2022
| panel, r
Entamer l’écriture un nouveau papier est l’occasion de revenir sur des méthodes que j’ai déjà utiliser et d’en découvrir de nouvelles. J’en profites pour réviser et partager quelques réflexions techniques. Il s’agit de travailler des données des panels. Bon rien d’original ici. La grande majorité de mes travaux utilisent ce type d’informations notamment au travers de modèles à effets fixes. Le défaut de la méthode est qu’elle nécessite que l’ensemble des informations traitées varies à la fois entre les individus et dans le temps.
Le diagramme en chute d'eau GT12
Terminons ici la première partie (consacrée à la comparaison de catégories) de notre série GT par un type de graphe plus récent, le diagramme en chute d’eau (ou waterfall chart). Il a été popularisé par le cabinet Mc Kinsey. Il permet d’illustrer comment une valeur de départ devient une valeur finale au travers d’une série d’étapes intermédiaires. On a ainsi une forme de diagramme à barres empilées déconstruit en différents segments ordonnés et mis en forme pour mettre en évidences les impacts positifs et négatifs des différents éléments permettant le passage de la valeur de départ à la valeur finale.
Le diagramme de Sankey GT11
Nous allons ici nous pencher sur un type graphe unique (ou du moins présentant moins de différentes formes que ceux présentés jusqu’ici). Il permet de montrer à la fois comment les effectifs de différentes catégories se comparent entre eux dans un état et comment elles se transforment, se recombinent, pour former d’autres catégories dans un autre état voir plusieurs autres états. Il s’agit du diagramme de Sankey inventé en 1898 par un ingénieur irlandais du même nom.
Bulles de comparaison et bulle intriquée GT10
Il n’est pas toujours facile de donner du sens à une valeur numérique, notamment lorsque celle-ci est soit très grande, soit très petite. En dehors d’un spectre restreint, nous sommes rapidement confronté à un manque de référence. Il nous est difficile, voir impossible, d’avoir une image mentale du nombre considéré. Aussi, pour palier à cette difficulté, on recourt à la comparaison. Il s’agit dans un graphe d’associer la valeur à un marqueur visuel et d’offrir des marqueurs de même forme mais de tailles différentes pour d’autres valeurs qui vont servir de points de références.
Bullet chart et gauge chart GT9
Il s’agit ici de travailler des graphes permettant de montrer pour une variable la distance entre une ou plusieurs valeurs relevées et une valeur de référence. Pour cela, nous utiliserons deux types de représentation: une proche du diagramme à bâtons, le “bullet chart”, et une plus imagée répliquant une jauge comme celle que l’on peut trouver pour les compteurs de vitesse de véhicule, le “gauge chart”.
Les heatmap et les calendar heatmap GT8
Dans ce nouveau post, nous allons traiter d’une forme de visualisation hybride entre le tableau et le graphe: la heatmap (ou en français carte thermique). Celle-ci permet de présenter en un unique visuel une grande quantité de données et autorise de fait la réalisation de comparaisons multiples. Son point de départ est un tableau à deux dimensions établis pour stocker les valeurs à illustrer.
Mes premieres videos de codage de graphes
Le cours de datavisualisation à l’UPHF que je donne sous la forme d’un module polytechnique (dont le nom est “présenter une donnée”) a commencé début février. Il s’organise en distanciel asynchrone. Tous les quinze jours, les étudiants ont accès à de nouveaux contenus (textes, vidéos, données…) que je met à leur disposition via le campus virtuel. L’idée est de les amener assez vite à pouvoir être à l’aise avec les outils de manière à produire leurs propres graphes.