De quel département êtes-vous ?

Vos informations générales

Quel est votre objectif ?

Quel est le nombre d'utilisateurs
pour votre projet ?

A quelle étape vous trouvez-vous actuellement ?

Quel est le délais de mise en place que vous souhaitez ?

Précédent

Déclenchez le signal !
Nous sommes les héros de Tableau Software, Microsoft Power BI et Alteryx ? Découvrez quelques unes de nos réalisations Let's rock ! Led Zeppelin et le basketball français en statistiques.

Maîtrisez votre temps !
Nous travaillons avec les outils Snowflake, Gathering Tools et Alteryx. Découvrez le retour de nos clientsOney Data et Keolis

Votre futur vous attend !

Découvrez notre Data Driven Journey et la solution Alteryx.

Rassemblons vos forces !

Découvrez notre Data Driven Journey et notre communauté. Renseignez-vous sur nos formation au Data-Universe.

Drive your insights!

Découvrez notre Communauté et nos réalisations Let's rock ! Led Zeppelin et la gestion d'une équipe de basketball en statistiques.

Évoluez à l'infini et au-delà !

Découvrez notre méthode exclusive : Data Driven Journey. Accédez à notre panel de formations.

06 Mai 2020.

Parfaire ses connaissances sur l’Univers de la data

Parfaire ses connaissances sur l’Univers de la data

Le confinement a changé nombre de nos habitudes. De la mise en place express du télétravail à l’approximation des règles de dé-confinement, vous vous dîtes qu’il pourrait être intéressant pour vous de développer votre savoir-faire, d’aiguiser vos connaissances voire d’ajouter de nouvelles cordes à votre arc.

Depuis plusieurs semaines déjà, les médias n’ont de cesse d’attirer votre attention à coup de cartes et de graphiques relatifs à la pandémie. De nature curieuse, vous décidez d’en apprendre davantage sur le monde des données informatiques : comment celles-ci sont stockées, transformées puis analysées pour répondre à une question précise. Aussi, vous convenez d’embarquer sur un vol pour la planète Data.

Vos recherches sur le sujet, qui s’annonçaient de prime abord longues et fastidieuses, vous mènent finalement à cet article publié sur le blog d’Actinvision.

Que vous soyez expert ou débutant, cet article a pour ambition de rassembler en un même lieu des liens utiles sur trois grandes thématiques propres à la Data :

Le stockage des données
qu’est-ce que le stockage Cloud ?

La préparation des données
comment rendre exploitable mes données ?

L’analyse des données
comment visualiser mes données ?

 

Dans la mesure du possible, nous vous proposerons des liens pour vous informer, vous former, vous challenger et, si possible, vous certifier.

Mesdames, Messieurs, embarquement immédiat pour la planète Data.

Partie 1
Stockage des données

 

D’après la définition de la Hewlett Packard Company, « le stockage de données est la conservation d’informations à l’aide d’une technologie spécialement conçue pour conserver ces données et les rendre disponibles à la demande ».

Depuis les années 1890, existant alors sous forme de cartes perforées, les systèmes de stockage ont fortement évolué, passant des disquettes des années 1980 aux disques durs mécaniques à disques rotatifs, puis aux Compact Disc (CD) pour finalement aboutir aux systèmes de stockage à mémoire flash tels que les disques durs SSD et les clés USB désormais largement généralisés.

Aujourd’hui, le stockage s’invite également dans ce que l’on nomme « le Cloud », c’est-à-dire d’énormes entrepôts de disques durs bien physiques, situés à l’autre bout du monde et accessible via une connexion internet. Autrement dit, vous n’accédez plus à vos fichiers et bases de données depuis votre propre disque dur ni à partir de matériel directement relié à votre ordinateur mais à travers une interface connectée au web.

Les principaux fournisseurs de stockage dans le cloud sont actuellement Amazon, Microsoft et Google.

 

Pour en savoir plus à propos du stockage des données et du cloud, Actinvision vous suggère un article des plus complet mis en ligne par le média numérique futura-sciences : le stockage des données informatiques .

 

Par ailleurs, les grands fournisseurs précédemment cités proposent divers services de découverte et d’apprentissage de leurs plateformes :

 

Partie 2 
La préparation de données

 

Parce que toute visualisation réussie s’appuie sur une base de données savamment orchestrée, la préparation des données en vue de leur intégration est l’étape la plus essentielle du processus pour une analyse à forte valeur ajoutée. 

Il s’agit d’outils permettant d’effectuer des tâches habituellement fastidieuses et répétitives de manière simplifiée en offrant une ergonomie agréable menant à un réel confort d’utilisation.

Globalement, ces outils permettent de réaliser efficacement des opérations d’import, d’analyses primaires, de sélection, de nettoyage, d’enrichissement, de transformation, de regroupement et de publication.

Parmi ces outils se trouvent notamment Matillion, Tableau Prep ou encore Alteryx.

 

Pour en savoir plus sur cette étape de préparation des données et pour comprendre en quoi elle est essentielle, nous vous proposons cet article de l’éditeur Tableau Software qui détail notamment quatre problèmes courants de la préparation des données et leurs solutions : les défis de la préparation de données .

 

  • Pour vos premiers pas, une formation, ou une certification sur le logiciel Alteryx, la Alteryx Academy dispose des ressources qu’il vous faut (en anglais) :
    Alteryx Academy .
  • Le site de l’éditeur propose également des défis hebdomadaires pour ceux qui souhaitent pratiquer ou exercer leurs talents :
    Alteryx weekly challenge .
  • Pour une découverte de leur outil de « data prep », l’équipe Tableau a mis au point un tutoriel d’apprentissage disponible à l’adresse ci-dessous. Il est nécessaire de télécharger le logiciel sur votre ordinateur pour suivre ce tutoriel. Il est par ailleurs possible de bénéficier d’un essai gratuit pendant deux semaines.
    Prise en main de Tableau Prep .

  • Pour vous challenger sur cet outil, vous trouverez chaque semaine de petits défis avec leurs solutions à l’adresse suivante :
    Preppindata .

 

Alors que les deux logiciels précédemment cités appartiennent à la famille des outils de « data wrangling », Matillion est, pour sa part, un ETL (Extract Transform Load). La principale différence réside dans les utilisateurs auxquels ces solutions s’adressent. Si les outils de « data wrangling », par leur ergonomie et simplicité d’utilisation, s’adressent à des utilisateurs métiers, les ETL s’adressent d’abord à des experts.

Trifacta, leader dans la préparation des données en 2018, nous explique plus en détail ce qu’est le « data wrangling » :
Qu’est-ce que le data wrangling ?

 

Partie 3
L’analyse des données

 

Bien que la préparation des données soit fondamentale et occupe 70% du temps d’un Data Analyst, celle-ci s’avère vide de sens dès lors que l’on ne sait maîtriser la mise en valeur des informations à l’aide de visualisations adaptées.

C’est là qu’intervient la « Data Visualisation », technique qui consiste à communiquer des chiffres ou des informations en les transformant en représentations visuelles parce que, c’est bien connu, « une image vaut mille mots ».

Un objet visuel est en effet le meilleur moyen d’assimiler rapidement une grande quantité d’informations, encore faut-il maîtriser cet art.

Pour vous y aider, voici une sélection d’articles sur le sujet.

  • Pour vous guider dans le choix d’un graphique adapté à votre besoin, l’éditeur ToucanToco a dressé une liste des différentes visualisations et de leur utilisation : 
    Comment choisir le bon graphique pour ses données .

  • Parce que les couleurs sont intrinsèquement liées au message que vous souhaitez faire passer, il est important de ne pas les négliger. Certaines couleurs sont communément associées à des groupes, des catégories ou des zones géographiques. Par exemple, il est d’usage d’utiliser un vert pour signifier une croissance, et un rouge pour signifier une décroissance.
    Pour faciliter le choix de couleurs harmonieuses, il existe des générateurs tels que celui-ci : 
    Coolors.co .

 

Enfin, le marché étant en pleine expansion, il existe aujourd’hui nombre de solutions de « dataviz ». Parmi les leaders du domaine, on peut notamment citer Tableau, Power BI et Google Data Studio, chacun pourvu de nombreuses aides et tutoriels en ligne.

Si Tableau Desktop et Power BI propose tous deux une période d’essai gratuite de deux semaines donnant accès à l’ensemble de leurs fonctionnalités, Google Data Studio est, pour sa part, entièrement gratuit pour peu de disposer d’une adresse gmail.

Fort d’une communauté particulièrement importante et active, de nombreuses ressources sont accessibles sur la toile pour Tableau Software.
Par exemple, le blog des frères Flerlage (en anglais) foisonne d’astuces et de visualisations démontrant les capacités du logiciel :
Flerlagetwins.com

 

Partie 4 
Pour aller plus loin

 

Que ce soit sur l’évolution du prix des avocats ou pour tenter de répondre à l’épineuse question de savoir si l’ananas est une garniture acceptable sur une pizza, vous trouverez à l’adresse suivante des jeux de données en accès public. Il ne tient plus qu’à vous de repérer un sujet qui éveil votre intérêt et de vous lancer !
Makeovermonday .

 

Vous êtes déjà un esthète de la « dataviz » et vous souhaitez vous challenger ? Workout-wednesday vous met au défi chaque semaine :
Workout-Wednesday.com .

 

Vous souhaitez explorer et découvrir les créations de passionnées de la Data et trouver l’inspiration ? La galerie Tableau Public vous attend !
Galerie Tableau Public .

 

Enfin, si vous souhaitez apprendre, vous entraîner, vous défier sur un sujet d’actualité, les données des urgences hospitalières et de SOS médecins relatives à l’épidémie de COVID-19 sont disponible sur le site du gouvernement :
Data.gouv.fr .

 

Vous aussi, laissez libre court à votre imagination et créez enfin vos propres visualisations !

A propos de l’auteur

Cyril Krieguer / Analytics Consultant Actinvision