Introduction aux données Tidy et au Tidyverse

FAS1002 - Automne 2022

Samuel Guay

Plan de la séance

  1. Utilisation de packages | ⏲ ~30min

  2. Introduction au Tidyverse et aux données Tidy | ⏲ ~ 60min

  3. Introduction convention de nommage et bonnes pratiques | ⏲ ~60min

Packages

R est un logiciel à plusieurs composantes:

  • R de base (Base R)
    • Tout ce que nous avons vu première partie du cours était du Base R.

    • Il s’agit des les fonctions qui viennent avec R lorsque nous l’installons pour la première fois.

    • Syntaxe un peu plus singulière

      • Chaque fonction et arguments s’écrivent selon les préférences de la personne qui les ont créés.

Exemples de singularités:

sub(pattern, replacement, x, ...)
gsub(pattern, replacement, x, ...)
grep(pattern, x, ...)
regexpr(pattern, text, ...)
subset(x, ...)
  • x et text sont le même argument (l’input), mais s’appelle différemment et n’a pas toujours la même position.

  • pattern est le même argument et à la même position pour les quatre premières fonctions

  • Que représente x?

  • Différence entre sub() et gsub() et subset()?

R est un logiciel à plusieurs composantes:

  • Les packages
    • Ces packages sont en fait des extensions qui augmentent les capacités de Base R.

    • Un package est un ensemble de fonctions documentées visant à la réalisation d’une tâche particulière que nous pouvons installer et importer dans R.

    • Ces package sont utiles, car nous pouvons construire nos scripts avec ces fonctions au lieu de les inventer nous-mêmes!

CRAN

  • Répertoire de package officiel s’appelle CRAN pour Comprehensive R Archive Network;

    • Il y a > 18 000 packages, ce qui étend ses capacités, en plus de permettre aux gens de créer des nouveaux packages - donnant à R des possibilités infinies.
  • Nous pouvons en trouvons aussi ailleurs, sur GitHub par exemple.

  • N’importe qui peut créer et partager un nouveau package.

CRAN

Démo installations + questions

10:00

Comment installer un package seulement disponible sur GitHub?

Qu’est-ce qu’un addins?

Comment mettre à jour un ou des packages?

Plan de la séance

  1. Utilisation de packages | ⏲ ~30min

  2. Introduction au Tidyverse et aux données Tidy | ⏲ ~ 60min

  3. Introduction convention de nommage et bonnes pratiques | ⏲ ~60min

Introduction au Tidyverse

Un des objectifs du cours

Connaître les différents packages du Tidyverse

The tidyverse is an opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures.

- Tidyverse.org

Tidy + Universe = Tidyverse

Bien rangé” + Univers = Grande collection de packages conçus pour travailler ensemble dans le but de:

  • Importer des données, de les nettoyer, manipuler, transformer, convertir, analyser, visualiser, etc.

Procédure typique en analyse de données - Image tirée R for Data Science (CC-BY-ND-NC)

Visite de tidyverse.org

Données tidy

Les illustrations suivantes sont tirées du billet d’Openscapes intitulé Tidy Data for reproducibility, efficiency, and collaboration par Julia Lowndes et Allison Horst (CC-BY).

Exemples

https://tidyr.tidyverse.org/articles/tidy-data.html

Démo + Questions:

20:00

https://r4ds.had.co.nz/tidy-data.html

Plan de la séance

  1. Utilisation de packages | ⏲ ~30min

  2. Introduction au Tidyverse et aux données Tidy | ⏲ ~ 60min

  3. Introduction convention de nommage et bonnes pratiques | ⏲ ~60min

C’est tout!