Courspython

Cours 3 : Python

CHAPITRE IV : VISUALISATION DES DONNEES

On peut définir la visualisation comme la représentation de l’information à travers des graphes. On communique l’information par des images, ce qui est très pratique en analyse de données.

  • Python offre plusieurs framework pour la visualisation. On peut citer : Matplotlib, Pandas visualisation, Seaborn, ggplot, plotly, Brokeh, Altair.
  • Matplotlib est la librairie la plus populaire pour la visualisation de données en python. Elle est rapide et puissante, portable, produit des graphiques de bonnes qualité, permet de faire une bonne mise en forme.
  • Pour utiliser matplotlib, il faut l’importer. Pour le faire, la syntaxe est : import matplotlib.pyplot as plt. Il y’a beaucoup de sous module dans matplotlib, nous utilisons pyplot.
  1. Les graphiques

Les graphes de matplotlib ont deux parties principales :

  • Les axes : les lignes qui délimitent la surface du graphique.
  • Où nous dessinons les axes, le titre et les autres éléments qui sortent de la zone de l’axe.

On distingue 5 types de graphiques sur matplotlib. Le choix de l’un ou l’autre se faisant par rapport au type de la variable dont on souhaite faire la représentation.

On a : le scatter plot (nuage de point), line plot (graphique en ligne), Histogram (Histogramme), le bar plot (Diagramme en bar) et le pie plot (Diagramme en secteur).

  • L’histogramme

Il est utilisé pour visualiser la distribution d’une variable continue. Il est représenté par des rectangles dont la largeur dépend de l’intervalle et la longueurs l’effectif.

On utilise la méthode hist de matplotlib.pyplot qui prend en paramètre la variable.

La on voit la distribution des notes de Maths des individus de la base exam_scores.

On peut remarquer qu’on a plus d’individus ayant plus de 50/100 que ceux ayant moins de 50/100

  • Le scatter plot (nuage de point)

Il est utilisé pour visualiser la relation entre deux variables continues. Pour créer un nuage de point, on utilise la méthode scatter() de matplotlib.pyplot.

plt.xlabel() et plt.ylabel() permettent d’ajouter les axes de abscisses et ordonnées.

plt.title() permet de mettre un titre au graphique.

plt.show() permet d’afficher le graphique

  • Le line plot

Un graphique linéaire est utilisé pour représenter des variables continues. Il est généralement utilisé pour montrer la tendance de la variable dans le temps. Les valeurs des données sont représentées sous forme de points reliés par des segments de ligne.

On peut également tracer deux line plots sur un même graphique dans le but de faire des comparaisons.

Ici, color nous permet de mettre une couleur pour chaque pays, et label permet de marquer chaque graphique pour la légende.

  • Bar plot

Le bar plot est utilisé pour représenter des variables qualitatives ou discrète. Les barres ont la même largeur et la longueur représente l’effectif de la modalité

  • pie plot

Le bar plot est utilisé pour représenter des variables qualitatives ou discrète. Les modalités sont représentées par différentes couleurs et la surface de secteur représente l’effectif.

Dans cet exemple, explode permet de séparer le graphique par modalité et autopct permet d’arrondir les effectifs à l’unité.

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *