Les graphes en pyramides GT23
Venons-en à notre second post de la sous-série de GT consacrée à l’illustration distribution des variables quantitatives. Il s’agit ici de traiter des histogrammes en pyramide. Ceux-ci permettent de faciliter la comparaison de la distribution d’une variable entre deux groupes d’observations. Ils sont souvent mobilisés en démographie pour mettre en regard les effectifs des différences classes d’âge pour chaque sexe (pour une zone géographique et à une date donnée). Le principe du graphe est simple.
Les histogrammes GT22
Ce post ouvre une nouvelle partie de la série GT. Après avoir traité des représentations utilisées pour rendre compte des variables discrètes et de celles utilisées pour les séries temporelles, nous traitons maintenant de la manière de représenter les distributions de variables continues. Le premier type de graphe que nous aborderons est un grand classique. Il s’agit de l’histogramme. Celui consiste en une série de barres accolées à la manière d’un bar plot classique.
Les slope charts GT21
Dans ce dernier post consacré aux graphes destinés à illustrer l’évolution d’une ou plusieurs variables dans le temps, nous allons nous intéresser aux diagrammes de pentes ou slope charts. Il s’agit de la combinaison de lignes horizontales dont le degré d’inclinaison représente l’évolution d’une variable quantitative entre deux dates pour différents individus ou groupes, et de points marquant les valeurs de départ et d’arrivé de manière à mettre en avant des proximités (clustering) et des éloignements (outliers).
Gérer et manipuler les dates (2)
Continuons notre point sur la manipulation des données de dates. Traitons ici de la mise en forme de l’axe décrivant le temps dans les graphes de séries temporelles. Comme toujours (ou presque), nous travaillerons à partir de ggplot2.
Commençons par charger les packages, ceux permettant d’établir le graphe (tidyverse et scales) et autre pour les obtenir les données. Ici, nous utiliserons des données de cotations d’actions. Nous les chargerons à partir de l’API de yahoo finance à partir des tickers correspondant.
Le nuage de points connectés GT20
Dans cet avant dernier post consacré à la représentation des séries temporelles, nous revenons sur la question de l’évolution du lien entre deux variables dans le temps. Nous l’avions déjà aborder lorsque nous avions traité des graphes à doubles ordonnées (dual axis plot). J’avais alors émis certaines réserves concernant cette représentation, qui peut donner l’illusion d’une corrélation voir d’une causalité. J’avais alors indiqué ma préférence pour les nuages de points quitte à marquer le temps à l’aide d’une progression de couleurs.
Les stream graph GT19
Enchaînons avec une catégorie de graphes, à mon avis, plus spectaculaire: les stream graph (en français graphes de flux). Il s’agit d’une forme d’aera charts superposés et articulés autour d’un axe central. Il présente un aspect organique qui engage le lecteur à en déchiffrer les informations. Celles-ci sont simplement plusieurs séries temporelles exprimées dans la même unités. L’objectif ici est plus d’illustrer l’évolution relative des quantités représentées dans le temps que leur valeur exacte qui apparaît difficile à lire.
Les diagrammes de Gantt GT18
Après une pose d’un peu plus d’un mois due aux cycles des congrès et à la fin de l’année universitaire, revenons à notre série GT. Continuons la sous-série des graphes présentant dans séries temporelles avec le diagramme de Gantt. Celui-ci est principalement utilisé dans le cadre d’outils de gestion de projets avec les réseaux PERT. Il est néanmoins possible d’être créatif et d’étendre son application à d’autres contextes. A la base, il s’agit simplement, dans un repaire avec un axe reprenant une mesure de temps et un axe autre présentant différents individus (ou tâches…), de séries de segments marquant et positionnant dans le temps un état défini (la participation à un projet…).
Les Area chart GT17
Revenons sur nos graphes présentant des séries temporelles. Leur représentation la plus classique, nous l’avons vu, consiste à établir une courbe associant en ordonnées les valeurs aux dates de mesure en abscisses. Cela permet d’obtenir une vision claire des tendances mais laisse généralement peu de place à la mise en valeur des effets cumulés des évolutions. Une possibilité pour remédier à cette relative faiblesse est de mettre en avant l’aire sous la courbe.
Le Cycle plot GT16
Laissons de côté les données de classement et revenons à des séries temporelles plus classiques. Ces séries sont généralement caractérisées de deux éléments structurant se cumulant avec la dimension aléatoire: une saisonnalité et une tendance de long terme. Si ces dimensions peuvent être observées sur les courbes des séries. Néanmoins, sauf cas particuliers où les choses sont fort marquées, le visuel classique trouve rapidement ses limites. Cela conduit généralement à travailler à partir de décomposition des séries en trois courbes (effet saisonnier, tendance, aléa).
Le Bump chart GT15
Allez, on enchaîne avec le bump chart. Il s’agit d’un graphe qui permet de rendre compte de l’évolution d’un classement dans le temps. On a ainsi trois variables illustrées: une définissant les individus ou groupes classés (un identifiant), une, ordinale, indiquant le classement de ces derniers relevé à un moment donné et une temporelle indiquant la date de chacun de ces relevés de positions. Une ligne relie pour chaque individu sa position dans le classement à différents instant, position qui est généralement marquée par un point.