Objectif du challenge

Dans le cadre de ce module d’analyse de donnĂ©es, vous allez vous intĂ©resser Ă  une nouvelle approche du traitement des donnĂ©es, la “Data Visualisation”.

Votre objectif consistera Ă  analyser, en Ă©quipe, un jeu de donnĂ©es et Ă  raconter une histoire avec des graphiques Ă  partir d’un jeu de donnĂ©es original comme vous le feriez pour un concours de “Data Visualisation” (ou “DataViz”).

L’objectif n’est pas de faire de grandes dĂ©monstrations “mathĂ©matiques” mais de raconter une histoire comprĂ©hensible et intĂ©ressante pour tou(te)s. Accordez donc une importance particuliĂšre Ă  cette “histoire”, que vous allez raconter, et au design de vos graphiques et supports.

Descriptif du challenge

Le tourisme dans la région Occitanie en 2018

Tout au long de l’annĂ©e, des milliers de touristes dorment dans notre belle rĂ©gion.

Vous trouverez ici un jeu de données unique qui les localise et les compte par nuitée.
Vous connaissez :

  • Les capacitĂ©s d’hĂ©bergement (hĂŽtel, camping,..) de chaque dĂ©partement
  • La provenance des touristes, que ce soit d’un dĂ©partement Français ou de l’étranger
  • Le temps qu’il faisait et les principaux Ă©vĂ©nements culturels pour chaque journĂ©e

Quelques rĂšgles du jeu

  • Vous pouvez utiliser tous les outils qu’ils souhaitent pour explorer ces donnĂ©es et en proposer une reprĂ©sentation visuelle Ă  base de graphique tels que Excel, SPSS, PSPP, Tableau (https://www.tableau.com/), Observabke HQ (https://observablehq.com/) et toutes les bibliothĂšques Python ainsi que tout support de prĂ©sentation de vos rĂ©sultats tels que PowerPoint, Canva, Adobe PDF… 
  • Vous devez fournir la liste des outils utilisĂ©s pour la rĂ©alisation des graphiques
  • Vous pouvez utiliser tout type d’outil d’analyse de donnĂ©es tels que 
  • Vous pouvez effectuer tous types de calcul Ă  partir de ce jeu de donnĂ©es
  • Le format de restitution de cette analyse visuelle est laissĂ© Ă  votre libre choix. Vous pouvez utiliser un format pdf (Ă©quivalent de 2 pages A4) aussi bien qu’un site web (Ă©quivalent de 3 captures d’écran) ou des reprĂ©sentations avec PowerBI, Tableau ou d’autres logiciels d’analyse et de reprĂ©sentation.
  • Vous ajouterez tous les Ă©lĂ©ments contextuels nĂ©cessaires pour commenter le ou les graphiques.
  • Vous n’ĂȘtes pas dans l’obligation d’utiliser toutes les donnĂ©es.
  • Hormis des fonds de carte, vous n’ĂȘtes pas autorisĂ©(e)s Ă  utiliser d’autres donnĂ©es que celles fournies.

Les données du challenge

Les sources des jeux de données

  • Les volumes de nuitĂ©es ont Ă©tĂ© construites par un opĂ©rateur de tĂ©lĂ©phonie mobile Ă  partir des bornages tĂ©lĂ©phoniques. Ces donnĂ©es ont Ă©tĂ© fournies par le ComitĂ© RĂ©gional du Tourisme (CRT)
  • Les donnĂ©es concernant les capacitĂ©s d’hĂ©bergement ont Ă©tĂ© construites par TDV Ă  partir de donnĂ©es fournies par le ComitĂ© RĂ©gional du Tourisme (CRT).
  • Les donnĂ©es concernant les Ă©vĂ©nements ont Ă©tĂ© construites par TDV Ă  partir de donnĂ©es fournis par le ComitĂ© RĂ©gional du Tourisme (CRT)
  • Les donnĂ©es mĂ©tĂ©o proviennent d’un site internet fournissant l’historique des donnĂ©es mĂ©tĂ©o pour un grand nombre de villes en France et dans le monde
  • Les donnĂ©es de gĂ©omĂ©trie des dĂ©partements sont incluses uniquement dans le fichier geojson. Ce format est adaptĂ© pour ceux qui souhaitent utiliser des outils de cartographie tels que le logiciel libre QGIS ou des librairies javascript telles que d3.js.
  • Les donnĂ©es de bornage tĂ©lĂ©phonique ne sont pas des donnĂ©es brutes mais le rĂ©sultat d’un travail de traitement innovant (redressement, segmentation, anonymisation ) rĂ©alisĂ© par l’opĂ©rateur de tĂ©lĂ©phonie avec la participation d’acteurs du tourisme. Les donnĂ©es “volume de nuitĂ©es” sont donc des estimations statistiques.
  • Les jeux de donnĂ©es sont utilisables dans ce cadre de ce module suite Ă  l’obtention de l’accord de Monsieur Alain Otteinheimer, PrĂ©sident de l’association Toulouse Dataviz, dirigeant de DataSens.

Le descriptif exhaustif des donnĂ©es peut ĂȘtre trouvĂ© sur le dĂ©pĂŽt Github suivant : https://github.com/ToulouseDataViz/Hackaviz2020/blob/master/README.md

Les données comprennent plusieurs fichiers :


Des donnĂ©es synthĂ©tiques et facile d’accĂšs : NuitĂ©es.xls et .CSV

  • 365 lignes et 15 colonnes
  • NuitĂ©es par jour en synthĂšse par dĂ©partement

Le plus dĂ©taillĂ© mais pas le plus simple Ă  exploiter : par_origines.xlsx et .csv

  • 493 235 lignes et 8 colonnes
  • par jour avec tous les dĂ©tails

Croisement capacités x nuités : Sert de complément optionnel aux autres

  • capacites.xlsx, .csv et .geojson
  • 13 lignes et 61 colonnes
  • par semaine en catĂ©gories de nuitĂ©es par dĂ©partement

Il est possible de faire de belles visualisations Ă  partir d’un seul de ces trois fichiers de donnĂ©es, le plus simple Ă©tant nuitees qui est un aggrĂ©gat de par_origines. 

Les plus experts arriveront Ă  combiner les trois, mais il n’est pas certain que la plus belle histoire ait besoin de toutes ces donnĂ©es. 

L’important est de raconter une belle histoire avec des graphiques de qualitĂ©.

DĂ©tails des fichiers et tĂ©lĂ©chargement 

Nuitées

Regroupement des donnĂ©es Ă  partir du fichier par_origines. Pour chaque jour de l’annĂ©e (365 lignes / 15 colonnes)

  • Date
  • Nombre de nuitĂ©es dans le dĂ©partement 09
  • Nombre de nuitĂ©es dans le dĂ©partement 11
  • Nombre de nuitĂ©es dans le dĂ©partement 12
  • Nombre de nuitĂ©es dans le dĂ©partement 30
  • Nombre de nuitĂ©es dans le dĂ©partement 31
  • Nombre de nuitĂ©es dans le dĂ©partement 32
  • Nombre de nuitĂ©es dans le dĂ©partement 34
  • Nombre de nuitĂ©es dans le dĂ©partement 46
  • Nombre de nuitĂ©es dans le dĂ©partement 48
  • Nombre de nuitĂ©es dans le dĂ©partement 65
  • Nombre de nuitĂ©es dans le dĂ©partement 66
  • Nombre de nuitĂ©es dans le dĂ©partement 81
  • Nombre de nuitĂ©es dans le dĂ©partement 82
  • Nombre de nuitĂ©es dans la rĂ©gion Occitanie

par_origines

Pour chaque jour de l’annĂ©e 2018 (532 399 lignes / 8 colonnes) :

  • Date
  • DĂ©partement ou pays d’origine des touristes
  • DĂ©partement de destination en Occitanie
  • Volume de nuitĂ©es dans le dĂ©partement de destination
  • Statut des vacances du dĂ©partement d’origine
  • TempĂ©rature Ă  midi (solaire) du dĂ©partement de destination :
    • 0 : pas en vacances,
    • 1 : en vacances,
    • 2 : non renseignĂ©
  • Statut qualificatif de la mĂ©tĂ©o du dĂ©partement de destination :
    • 0 : mĂ©tĂ©o trĂšs dĂ©favorable,
    • 1 : mĂ©tĂ©o dĂ©favorable,
    • 2 : mĂ©tĂ©o correcte,
    • 3 : mĂ©tĂ©o favorable,
    • 4 : mĂ©tĂ©o idĂ©ale
  • Nombre d’évĂ©nements majeurs dans le dĂ©partement de destination

capacités

Pour chaque département (13 lignes / 61 colonnes)

  • DĂ©partement
  • Nom du dĂ©partement
  • Population du dĂ©partement
  • Nombre de places (personnes) en hĂ©bergement collectif
  • Nombre de places (personnes) en hĂ©bergement locatif
  • Nombre de places (personnes) en hĂ©bergement de plein air
  • Nombre de places (personnes) en hĂ©bergement hĂŽtellier
  • Nombre de places (personnes) total
  • Nombre de nuitĂ©es pour la semaine 1
  • Nombre de nuitĂ©es pour la semaine 53

Donnés complémentaires :

  • codage des dĂ©partements, codage des pays et liste des Ă©vĂ©nements.

ModalitĂ©s d’examen :

Votre travail sera Ă©valuĂ© par le biais d’une des deux solutions laissĂ©e Ă  votre libre choix :

  • une prĂ©sentation orale par groupe d’une durĂ©e de 10 minutes maximum
  • OU
  • une vidĂ©o de prĂ©sentation de votre DataViz, incluant vos commentaires, d’une durĂ©e de 10 minutes maximum dont le lien doit m’ĂȘtre envoyĂ© par mail la vieille de la date de l’examen dernier dĂ©lai.

Dans les deux cas, la présentation orale ou le visionnage de la vidéo, sera suivi(e) de questions pour une durée maximale de 5 minutes.

CritĂšres d’Ă©valuation :

Les travaux seront évaluées en fonction de différents critÚres dont les suivants :

Attention, il ne s’agit pas d’une “performance statistique” mais bien d’une Ă©preuve de crĂ©ativitĂ©, d’originalitĂ© et de recherche de la meilleure maniĂšre “d’Ă©clairer” les donnĂ©es.
Si vous avez tentĂ© une analyse complexe sans y aboutir, prĂ©sentez tout de mĂȘme Ă  la fin de votre prĂ©sentation ce que vous vouliez faire et comment vous avez essayĂ© de vous y prendre.

Horaires passage oral

Les passages Ă  l’oral seront dĂ©finis ultĂ©rieurement.

Sources d’inspiration

https://www.dataviz-inspiration.com/

https://www.data-to-viz.com/

https://datavizproject.com/

https://www.awwwards.com/websites/data-visualization/

https://viz.wtf/

Quelques outils

https://www.tableau.com/fr-fr/academic/teaching

https://observablehq.com/pricing

Python et quelques bibliothĂšques

https://www.python.org/

https://geopandas.org/en/stable/

https://python-visualization.github.io/folium/

https://pandas.pydata.org/

https://matplotlib.org/

https://seaborn.pydata.org/

Quelques tutos 😉

Dessiner une carte en Python

Dessiner un Sankey en Python

Amusez-vous !

Ce challenge est publiĂ© avec l’autorisation de l’association Toulouse Dataviz (https://toulouse-dataviz.fr/)