Stelvyo·learning

Analyse de données

Challenge "Dataviz"

Dans le cadre de ce module d'analyse de données, vous allez vous intéresser à une nouvelle approche du traitement des données, la "Data Visualisation". C’est quoi, une dataviz ? Une dataviz , ou visualisation de données…

13 min de lecture2 963 motsPublié le 28 novembre 2022

Dans le cadre de ce module d'analyse de données, vous allez vous intéresser à une nouvelle approche du traitement des données, la "Data Visualisation".

C’est quoi, une dataviz ?

Une dataviz , ou visualisation de données , consiste à transformer des données brutes en une représentation visuelle — carte, graphique, tableau de bord ou schéma — pour rendre visible ce qui, autrement, resterait abstrait. Elle sert à faire parler les données, à détecter des tendances ou des anomalies, et à comprendre en quelques secondes ce qu’un tableau de chiffres mettrait des pages à exprimer. Dans le domaine du tourisme, une dataviz permet par exemple de visualiser d’où viennent les touristes, à quelles périodes de l’année ils voyagent, combien de nuitées ils effectuent ou encore dans quels départements ils séjournent le plus. En un coup d’œil, elle offre une lecture immédiate de phénomènes complexes : la saisonnalité, les comportements de déplacement, ou la répartition géographique de la fréquentation. https://www.anychart.com/blog/wp-content/uploads/2019/08/Routitude.png https://www.researchgate.net/publication/307773197/figure/fig1/AS%3A610332959592458%401522526125659/Flow-Map-International-Tourist-Movements-to-Langkawi-in-2010.png Mais la dataviz n’est pas qu’un outil de synthèse : c’est une véritable forme de récit visuel. Elle raconte une histoire à partir des données, comme un reportage chiffré où chaque graphique illustre une idée. En cela, elle dépasse la simple présentation statistique pour devenir un outil de compréhension et de décision. Les chiffres cessent d’être des entités froides pour devenir les acteurs d’une narration : celle du territoire, de ses visiteurs et de son évolution.

La visualisation permet de dépasser les chiffres « nus » pour devenir un outil de décision , un « récit visuel ».

Changements d’occupation des sols à Sóller (1990–2018) : carte et graphiques CORINE Land Cover Source : CORINE Land Cover (1990–2018). Visualisation : changement d’occupation des sols à Sóller (Majorque). Cette dataviz illustre comment un territoire peut être raconté visuellement. À partir des données du programme CORINE Land Cover (1990–2018) , elle montre l’évolution de l’occupation des sols à Sóller, sur l’île de Majorque. En un regard, on perçoit trois dynamiques : une urbanisation en forte hausse (+181 ha), un recul marqué des terres agricoles (–802 ha) et une progression des zones forestières et naturelles (+618 ha). Les graphiques et la carte combinés permettent de comprendre que le paysage se transforme : l’espace urbain s’étend, l’agriculture régresse et la forêt regagne du terrain. Cette visualisation illustre la puissance de la dataviz : elle fait voir une tendance, une tension et une histoire territoriale, sans nécessiter de longues explications.

🎯 Pourquoi c’est utile (et pourquoi pour vous)

Pour les étudiants en tourisme , la dataviz est avant tout un langage visuel qui permet de montrer plutôt que de simplement décrire. Dire que la fréquentation baisse en hiver est une affirmation ; le montrer avec une courbe saisonnière rend cette réalité tangible. La dataviz vous apprend donc à communiquer efficacement une observation et à donner à vos interlocuteurs les moyens de la comprendre instantanément. C’est un outil de diagnostic, mais aussi de persuasion. Pour les étudiants en technologies de l’information et de la communication , la dataviz représente une application concrète de vos compétences numériques. Elle permet de manipuler des jeux de données réelles, d’utiliser des outils de traitement et de visualisation comme Excel , Power BI ou Python , et d’en tirer un résultat immédiatement interprétable. Contrairement à des exercices purement techniques, ici la donnée prend sens dans un contexte métier réel : celui du tourisme régional et de ses enjeux économiques, sociaux et environnementaux. Dans vos futurs métiers , cette compétence fera la différence. Les acteurs du tourisme — offices, agences, collectivités, chaînes hôtelières, gestionnaires de destinations — utilisent de plus en plus la visualisation pour orienter leurs décisions. Les données de fréquentation, de satisfaction, de mobilité ou de durabilité sont désormais au cœur des stratégies. Une dataviz claire et pertinente peut influencer un choix d’investissement, guider une politique de communication, ou révéler un potentiel inexploité. Savoir concevoir une visualisation de données, même simple, vous rendra donc plus autonomes dans l’analyse , plus crédibles dans vos argumentations et plus attractifs sur le marché du travail. Vous serez capables non seulement de lire les chiffres, mais aussi de les interpréter, de les traduire et de les mettre en récit. C’est exactement ce que les entreprises recherchent aujourd’hui : des professionnels capables de donner du sens à l’information. https://youtu.be/GgmSehds3tk

Objectif du challenge

Votre objectif consistera à analyser, en équipe, un jeu de données et à raconter une histoire avec des graphiques à partir d’un jeu de données original comme vous le feriez pour un concours de "Data Visualisation" (ou "DataViz"). Cette activité va vous amener à comprendre comment les données façonnent les représentations du tourisme et comment leur visualisation peut devenir un levier stratégique. À travers ce challenge, vous allez développer une compétence recherchée : la capacité à traduire des données en décisions, à relier des faits à des enjeux concrets, et à construire une narration qui donne envie d’agir. Ne cherchez pas à faire de grandes démonstrations "mathématiques" mais plutôt à raconter une histoire compréhensible et intéressante pour tou(te)s. Accordez donc une importance particulière à cette "histoire", que vous allez raconter, et au design de vos graphiques et supports. Vous ne produirez pas seulement des graphiques : vous écrirez, avec des chiffres et des couleurs, une histoire du tourisme en Occitanie. Une histoire rigoureuse, mais vivante. Une histoire qui, comme le territoire qu’elle raconte, invite à la découverte.

Descriptif du challenge

🌍 Raconter le tourisme en Occitanie à travers les données

Chaque chiffre raconte une histoire. Derrière les millions de nuitées, les flux de visiteurs, les pics de fréquentation ou les variations saisonnières, il y a des comportements, des choix, des envies humaines. Le tourisme n’est pas seulement une série de statistiques : c’est un mouvement vivant , celui des personnes qui voyagent, découvrent, reviennent, consomment, ou choisissent de rester. En donnant vie à ces chiffres, la dataviz permet de raconter le territoire autrement , d’en dévoiler les rythmes et les contrastes. L’Occitanie est une région d’une richesse exceptionnelle. Des plages de la Méditerranée aux cimes des Pyrénées, des villages du Gers aux métropoles de Toulouse et Montpellier, elle offre une diversité rare. Pourtant, cette diversité ne se lit pas toujours dans les discours : elle se découvre dans les données. En étudiant les flux touristiques, on comprend que le tourisme n’est pas uniforme. Certains départements attirent une clientèle internationale, d’autres vivent du tourisme local ou saisonnier. Certains espaces sont saturés en été, d’autres conservent une fréquentation stable toute l’année. Les données permettent de visualiser ces dynamiques et d’en tirer des enseignements concrets. Raconter le tourisme en Occitanie à travers les données, c’est aussi mettre en lumière les tendances qui se cachent derrière les moyennes. Par exemple, une hausse globale du nombre de visiteurs peut masquer des réalités opposées : une forte croissance sur le littoral, mais un déclin dans l’arrière-pays. Grâce à la dataviz, ces nuances deviennent visibles. Vous pouvez montrer comment les événements culturels, la météo, ou les politiques locales influencent la fréquentation. Vous pouvez aussi révéler les évolutions de long terme : la montée du tourisme durable, l’impact du transport ferroviaire, ou la redécouverte du tourisme de proximité depuis la crise sanitaire. L’intérêt de ce travail est double : il est analytique et créatif. Analytique, car vous allez apprendre à explorer des jeux de données réels sur le tourisme en Occitanie : fréquentation hôtelière, hébergements, provenance des visiteurs, conditions météorologiques, événements, etc. Créatif, car vous devrez transformer ces chiffres en un récit visuel que chacun peut comprendre, sans jargon statistique. Votre mission n’est pas de “faire des calculs”, mais de faire parler les chiffres pour qu’ils deviennent un outil de compréhension du territoire. Raconter le tourisme par la donnée, c’est enfin prendre position en tant qu’observateur et interprète. Vous allez choisir un angle, poser des hypothèses, croiser des informations. Ce choix est essentiel : il montre que derrière la visualisation, il y a une réflexion. Vous ne cherchez pas à prouver, mais à comprendre. Vous ne cherchez pas à convaincre, mais à faire voir autrement. Le tourisme dans la région Occitanie en 2018 Tout au long de l’année, des milliers de touristes dorment dans notre belle région. Vous trouverez ici un jeu de données unique qui les localise et les compte par nuitée.
Vous connaissez :

  • Les capacités d’hébergement (hôtel, camping,..) de chaque département
  • La provenance des touristes, que ce soit d’un département Français ou de l’étranger
  • Le temps qu’il faisait et les principaux événements culturels pour chaque journée

Quelques règles du jeu

  • Vous pouvez utiliser tous les outils qu’ils souhaitent pour explorer ces données et en proposer une représentation visuelle à base de graphique tels que Excel, SPSS, PSPP, Tableau (https://www.tableau.com/), Observabke HQ (https://observablehq.com/) et toutes les bibliothèques Python ainsi que tout support de présentation de vos résultats tels que PowerPoint, Canva, Adobe PDF... 
  • Vous devez fournir la liste des outils utilisés pour la réalisation des graphiques
  • Vous pouvez utiliser tout type d'outil d'analyse de données tels que 
  • Vous pouvez effectuer tous types de calcul à partir de ce jeu de données
  • Le format de restitution de cette analyse visuelle est laissé à votre libre choix. Vous pouvez utiliser un format pdf (équivalent de 2 pages A4) aussi bien qu'un site web (équivalent de 3 captures d’écran) ou des représentations avec PowerBI, Tableau ou d'autres logiciels d'analyse et de représentation.
  • Vous ajouterez tous les éléments contextuels nécessaires pour commenter le ou les graphiques.
  • Vous n'êtes pas dans l’obligation d’utiliser toutes les données.
  • Hormis des fonds de carte, vous n'êtes pas autorisé(e)s à utiliser d’autres données que celles fournies.

Les données du challenge

Les sources des jeux de données

  • Les volumes de nuitées ont été construites par un opérateur de téléphonie mobile à partir des bornages téléphoniques. Ces données ont été fournies par le Comité Régional du Tourisme (CRT)
  • Les données concernant les capacités d’hébergement ont été construites par TDV à partir de données fournies par le Comité Régional du Tourisme (CRT).
  • Les données concernant les événements ont été construites par TDV à partir de données fournis par le Comité Régional du Tourisme (CRT)
  • Les données météo proviennent d’un site internet fournissant l’historique des données météo pour un grand nombre de villes en France et dans le monde
  • Les données de géométrie des départements sont incluses uniquement dans le fichier geojson. Ce format est adapté pour ceux qui souhaitent utiliser des outils de cartographie tels que le logiciel libre QGIS ou des librairies javascript telles que d3.js.
  • Les données de bornage téléphonique ne sont pas des données brutes mais le résultat d’un travail de traitement innovant (redressement, segmentation, anonymisation ) réalisé par l’opérateur de téléphonie avec la participation d’acteurs du tourisme. Les données “volume de nuitées” sont donc des estimations statistiques.
  • Les jeux de données sont utilisables dans ce cadre de ce module suite à l'obtention de l'accord de Monsieur Alain Otteinheimer, Président de l'association Toulouse Dataviz, dirigeant de DataSens.

Le descriptif exhaustif des données peut être trouvé sur le dépôt Github suivant : https://github.com/ToulouseDataViz/Hackaviz2020/blob/master/README.md Les données comprennent plusieurs fichiers : Télécharger les données du challenge Download

Des données synthétiques et facile d’accès : Nuitées.xls et .CSV

  • 365 lignes et 15 colonnes
  • Nuitées par jour en synthèse par département

**Le plus détaillé mais pas le plus simple à exploiter :  **par_origines.xlsx et .csv

  • 493 235 lignes et 8 colonnes
  • par jour avec tous les détails

Croisement capacités x nuités : Sert de complément optionnel aux autres

  • capacites.xlsx, .csv et .geojson
  • 13 lignes et 61 colonnes
  • par semaine en catégories de nuitées par département

Il est possible de faire de belles visualisations à partir d’un seul de ces trois fichiers de données, le plus simple étant nuitees qui est un aggrégat de par_origines.  Les plus experts arriveront à combiner les trois, mais il n’est pas certain que la plus belle histoire ait besoin de toutes ces données.  L’important est de raconter une belle histoire avec des graphiques de qualité. **Détails des fichiers et téléchargement  ** Nuitées Regroupement des données à partir du fichier par_origines. Pour chaque jour de l’année (365 lignes / 15 colonnes)

  • Date
  • Nombre de nuitées dans le département 09
  • Nombre de nuitées dans le département 11
  • Nombre de nuitées dans le département 12
  • Nombre de nuitées dans le département 30
  • Nombre de nuitées dans le département 31
  • Nombre de nuitées dans le département 32
  • Nombre de nuitées dans le département 34
  • Nombre de nuitées dans le département 46
  • Nombre de nuitées dans le département 48
  • Nombre de nuitées dans le département 65
  • Nombre de nuitées dans le département 66
  • Nombre de nuitées dans le département 81
  • Nombre de nuitées dans le département 82
  • Nombre de nuitées dans la région Occitanie

Attention  : pour les 2018-12-03 et le 2018-08-29, le nombre de nuitées est égal à zéro à cause d’un problème de récupération de données pour ces jours-là. par_origines Pour chaque jour de l’année 2018 (532 399 lignes / 8 colonnes) :

  • Date
  • Département ou pays d’origine des touristes
  • Département de destination en Occitanie
  • Volume de nuitées dans le département de destination
  • Statut des vacances du département d’origine
  • Température à midi (solaire) du département de destination :
    • 0 : pas en vacances,
    • 1 : en vacances,
    • 2 : non renseigné
  • Statut qualificatif de la météo du département de destination :
    • 0 : météo très défavorable,
    • 1 : météo défavorable,
    • 2 : météo correcte,
    • 3 : météo favorable,
    • 4 : météo idéale
  • Nombre d’événements majeurs dans le département de destination

capacités Pour chaque département (13 lignes / 61 colonnes)

  • Département
  • Nom du département
  • Population du département
  • Nombre de places (personnes) en hébergement collectif
  • Nombre de places (personnes) en hébergement locatif
  • Nombre de places (personnes) en hébergement de plein air
  • Nombre de places (personnes) en hébergement hôtellier
  • Nombre de places (personnes) total
  • Nombre de nuitées pour la semaine 1
  • Nombre de nuitées pour la semaine 53

Donnés complémentaires :

  • codage des départements, codage des pays et liste des événements.

Modalités d'examen :

Ce challenge ne consiste pas seulement à produire un graphique : il s’agit de raconter une histoire visuelle complète et de la présenter comme un véritable projet professionnel. Vous devrez montrer que vous savez sélectionner des données pertinentes, les transformer en une représentation claire et esthétique, et surtout, expliquer ce que cela signifie pour le tourisme en Occitanie. Votre travail devra prendre la forme d’une dataviz commentée accompagnée d’une présentation orale ou d’une vidéo explicative. L’objectif est de convaincre votre public que votre analyse éclaire un phénomène réel. Le format exact est libre : vous pouvez présenter votre production sous la forme d’un document PDF, d’un diaporama, d’un mini-site web ou d’une courte capsule vidéo. Ce qui importe n’est pas la technologie utilisée, mais la cohérence et la force du message. Chaque projet doit comporter quatre éléments essentiels.
D’abord, une courte introduction présentant la question de départ : qu’avez-vous voulu comprendre ou montrer ? Cette question guidera tout votre travail. Ensuite, une ou plusieurs visualisations (carte, graphique, diagramme…) créées à partir de vos données et accompagnées d’un texte d’analyse clair. Ce texte doit indiquer ce que montre le graphique, pourquoi c’est intéressant, et quelles hypothèses ou explications vous en tirez. Troisième élément : la mention des outils utilisés (Excel, Power BI, Tableau, Python…). Enfin, une conclusion synthétique, qui résume les principaux enseignements de votre dataviz et les éventuelles limites de votre travail. Le ton attendu est professionnel mais accessible. Vous n’écrivez pas pour un statisticien, mais pour un lecteur curieux, un décideur ou un acteur du tourisme. Cherchez à rendre visible l’invisible : une tendance qui passe inaperçue, un écart entre deux territoires, une relation inattendue entre météo et fréquentation. La valeur ajoutée de votre travail réside dans votre capacité à donner du sens aux chiffres et à proposer une lecture nouvelle des dynamiques touristiques. La créativité est encouragée, à condition qu’elle serve la clarté. Vous pouvez insérer des cartes interactives, des tableaux de bord dynamiques, ou simplement des visuels fixes bien construits. Ce qui compte, c’est la justesse du regard et la cohérence du propos. Un projet simple mais bien pensé vaut mieux qu’une démonstration technique confuse. La rigueur scientifique – vérification des données, transparence des sources, neutralité du ton – reste indispensable. La présentation orale ou la vidéo doit durer environ dix minutes. Elle vise à valoriser votre démarche : expliquez vos choix, vos difficultés, vos découvertes, et montrez comment vous avez donné vie à vos données. L’objectif n’est pas d’impressionner, mais de faire comprendre. Dans les deux cas, la présentation orale ou le visionnage de la vidéo, sera suivi(e) de questions pour une durée maximale de 5 minutes. Critères d'évaluation : Les travaux seront évaluées en fonction de différents critères dont les suivants : Attention, il ne s'agit pas d'une "performance statistique" mais bien d'une épreuve de créativité, d'originalité et de recherche de la meilleure manière "d'éclairer" les données.
Si vous avez tenté une analyse complexe sans y aboutir, présentez tout de même à la fin de votre présentation ce que vous vouliez faire et comment vous avez essayé de vous y prendre.

Horaires passage oral

Les passages à l'oral seront définis ultérieurement.

Sources d'inspiration

https://youtu.be/laTL5oSTLPQ https://www.dataviz-inspiration.com/ https://www.data-to-viz.com/ https://datavizproject.com/ https://www.awwwards.com/websites/data-visualization/ https://viz.wtf/

Quelques outils

https://www.tableau.com/fr-fr/academic/teaching https://observablehq.com/pricing

Python et quelques bibliothèques

https://www.python.org/ https://geopandas.org/en/stable/ https://python-visualization.github.io/folium/ https://pandas.pydata.org/ https://matplotlib.org/ https://seaborn.pydata.org/ 📚 Cours gratuit – Tableau Public : Getting Started
https://public.tableau.com/app/learn
Découvrez comment créer facilement vos premiers graphiques interactifs. 🌐 Data to Viz : What chart to use when
https://www.data-to-viz.com/
Le guide visuel parfait pour choisir le bon type de graphique. 🐍 Tutoriel Python débutant – Visualiser des données avec Matplotlib
https://www.w3schools.com/python/matplotlib_intro.asp
Pour ceux qui veulent découvrir Python sans prise de tête. 💻 Tutoriel Power BI – Premiers pas
https://learn.microsoft.com/fr-fr/power-bi/fundamentals/power-bi-overview
Le guide officiel de Microsoft, clair et progressif.

Quelques tutos ;-)

Google Colaboratory & PandasDownload Dessiner une carte en Python Dessiner un Sankey en Python

Amusez-vous !

Ce challenge est publié avec l'autorisation de l'association Toulouse Dataviz (https://toulouse-dataviz.fr/)