Fermer

    De quel département êtes-vous ?

    Vos informations générales

    Quel est votre objectif ?

    Quel est le nombre d'utilisateurs
    pour votre projet ?

    A quelle étape vous trouvez-vous actuellement ?

    Quel est le délais de mise en place que vous souhaitez ?

    Précédent

    Déclenchez le signal !
    Nous sommes les héros de Tableau Software, Microsoft Power BI et Alteryx ? Découvrez quelques unes de nos réalisations Let's rock ! Led Zeppelin et le basketball français en statistiques.

    Maîtrisez votre temps !
    Nous travaillons avec les outils Snowflake, Gathering Tools et Alteryx. Découvrez le retour de nos clientsOney Data et Keolis

    Votre futur vous attend !

    Découvrez notre Data Driven Journey et la solution Alteryx.

    Rassemblons vos forces !

    Découvrez notre Data Driven Journey et notre communauté. Renseignez-vous sur nos formation au Data-Universe.

    Drive your insights!

    Découvrez notre Communauté et nos réalisations Let's rock ! Led Zeppelin et la gestion d'une équipe de basketball en statistiques.

    Évoluez à l'infini et au-delà !

    Découvrez notre méthode exclusive : Data Driven Journey. Accédez à notre panel de formations.

    Data Preparation
    Vs Data Integration

    La gestion des données est aujourd’hui considérée comme répondant à un besoin critique de rendre la donnée le plus largement accessible au sein des organisations. Les technologies ETL (et nouvellement ELT), gérées quasi exclusivement par le département informatique, étaient jusqu’à récemment le principal outil pour combiner, traiter et prendre les bonnes décisions à partir de données issues de sources diverses et variées. Cependant, avec l’avènement de la préparation de données en libre-service (ou « Data Wrangling »), les utilisateurs finaux, i.e. les décideurs, peuvent à présent chercher les données et les manipuler eux-mêmes, de façon autonome, afin d’en extraire les informations et les connaissances sous-jacentes. Pour autant, cela est loin de signifier que l’ETL est en voie de disparition. S’il existe effectivement des similitudes entre intégration de la donnée (ETL/ELT) et préparation de la donnée, des différences notables font que les deux approches conservent chacune leurs raisons d’être.

    Une ressemblance certaine…

    D’aucuns supposent que ETL et préparation des données sont la même chose puisque sur le plan conceptuel, ils sont similaires et apportent tous les deux la même solution. En effet, les données, dans leur format brut, ne sont que très rarement prêtes pour l’analyse ou l’apprentissage automatique. Les deux outils que sont l’intégration et la préparation ont pour objectif commun de transformer et formater les données, de faire en sorte qu’elles se présentent sous la forme d’une source unique, d’une structure singulière.

    Mais des différences existentielles

    Persona

    Si les outils d’intégration de type ETL ont été créés il y a plus de 25 ou 30 ans pour les utilisateurs techniques, les outils de préparation de la donnée sont quant à eux bien plus récents et sont destinés aux utilisateurs finaux, les « End-Users », tels que les Data Analysts ou les Data Scientists. En d’autres termes, c’est la personne exploitant la donnée en bout de chaîne qui va en amont la transformer / la formater. Il est à noter qu’historiquement, ce travail de préparation résultait le plus souvent de tâches manuelles, de processus informels, lesquels étaient basés sur des outils à usage général comme des feuilles de calcul.

    Généralement, là où les outils d’intégration de la donnée de type ETL sont plutôt complexes à appréhender et requirent a fortiori des compétences techniques avancées, les outils de préparation de la donnée présentent eux une utilisation aisée, très « User Friendly ». Ainsi, une forme visuelle de présentation des données simple est adoptée, et l’utilisateur non technique peut à tout instant facilement enquêter sur la qualité de ses données, les valider et voir comment elles évoluent à chaque étape de transformation (filtres, règles, calculs, etc.) de son flux de travail (ou « Workflow »).

    Paradigme

    L’ETL s’appuie sur un ensemble prédéterminé de règles et de flux de travail. Les architectures mises en place ont pour vocation l’intégration / l’alimentation automatisée en données de bases de type Data Warehouse (DWH). Bill Inmon, père du Data Warehouse, définit son fils comme « une collection de données orientées sujet, intégrées, non volatiles et historisées ». Cette définition est tout sauf anodine puisqu’elle met parfaitement en exergue une des différences majeures entre intégration et préparation : la cible, autrement dit la destination des données. L’intégration est un processus continu, massif et hautement structuré qui vise l’alimentation en flux régulier d’un DWH (ou d’un Data Lake). Ce DWH se présentera alors comme un grand panier de données ou la masse des utilisateurs pourra se connecter pour piocher les informations qui les intéressent en vue d’actions de Reporting ou de Dashboarding (Business Intelligence). D’une manière générale, le design d’un DWH est dicté par les décisions métiers qui doivent être prises. Un tel processus est relativement long et implique le recueil du besoin fonctionnel avant d’attaquer la partie purement technique d’implémentation.

    A contrario, la préparation de donnée, plus flexible, émerge généralement de la volonté d’un utilisateur final de répondre ponctuellement, rapidement et de façon autonome à une question métier donnée – la cible de sa « cuisine maison » pourra alors être un fichier Excel, voire une table simple et unique en base. L’idée est aussi que la personne la plus proche des données, et donc celle qui fonctionnellement les comprend le mieux, soit celle qui les extrait et les prépare. In fine, si le résultat fruit de la préparation et de l’analyse pourra facilement être partagé, la pérennité du processus et l’historisation des données ne sont ici pas garantis.

    Utilisation

    Avec ses processus formels d’accès, de transport, de vérification et de nettoyage des données, l’ETL est le mieux adapté pour traiter des données structurées, semi-structurées ou non structurées provenant de sources diverses telles que des bases de données, des applications ERP et CRM, ou encore des API / Web Services. Les systèmes ETL et ELT étant mis en œuvre et gérés par des professionnels qualifiés, ils produisent de manière automatisée et fiable des données de haute qualité. Le champ des possibilités offert permet la mise en place de traitements et d’algorithmes relativement complexes. De plus, à l’instar de la solution Talend, il est commun que des outils supplémentaires viennent compléter l’acquisition d’une solution d’intégration (e.g. outil Big Data, modules MDM et Data Quality, etc.). Revers de la médaille, la rigidité toute relative qui garantit la qualité des données peut réduire la capacité d’un système d’intégration de type ETL à traiter rapidement de nouveaux besoins métiers en temps opportun.

    La force technique de la préparation de données réside dans son agilité et sa flexibilité. Alors qu’un système ETL ou ELT sera le moteur de l’environnement de production de l’entrepôt de données (DWH) d’une entreprise, la préparation de données permet aux utilisateurs individuels d’obtenir rapidement les réponses dont ils ont besoin. Ainsi, une petite équipe d’analystes pourrait par exemple utiliser un jeu de données pour évaluer rapidement une série de scénarios hypothétiques en extrayant et en analysant diverses combinaisons de données provenant de sources disparates. Dans de telles situations, la précision absolue peut être moins importante que la capacité d’accéder rapidement à l’information. En outre, les solutions de préparation de la donnée du marché proposent aussi des outils plus que pratiques permettant par exemple de réaliser très facilement des analyses spatiales ou d’accéder très aisément à la Data Science – et ceci sans taper une seule ligne de code ; citons à ce titre l’excellente plateforme analytique Alteryx.​​​​​

    Où l’intégration côtoie la préparation

    La préparation de données et l’intégration cultivent leurs différences et partagent de nombreuses similitudes. Ainsi, bon nombre d’outils ETL sont en mesure de faire de la préparation de données ; inversement, il est envisageable – mais pas vraiment raisonnable – d’intégrer de la donnée au moyen d’un outil de préparation de la donnée. Si l’un et l’autre des outils sont en mesure de s’aventurer sur un terrain d’expertise qui n’est pas le leur, ils ne seront jamais en mesure d’exceller et de pleinement satisfaire le professionnel.

    A mon sens, la zone d’intersection pour les outils de préparation de la donnée se situe entre les outils ETL et ceux de restitution / visualisation. Les outils d’intégration et ceux de préparation sont complémentaires et ils viennent chacun répondre à une problématique bien précise. D’un côté, les outils ETL sont le meilleur choix quand il s’agit d’intégrer quotidiennement et automatiquement des volumes de données conséquents destinés à être transformés et chargés au sein d’entrepôts de données (DWH). Ces tâches prévisibles et reproductibles doivent passer par les flux de travail ETL. De l’autre côté, les outils de préparation de la donnée viennent combler le vide laissé entre les entrepôts de données et les solutions de restitution / de DataViz. Ils viennent répondre aux besoins d’investigation et de préparation des données des utilisateurs non experts ayant une appétence pour la Data, mais n’appartenant pas au département IT de l’entreprise. Les solutions Tableau Prep (Tableau Software) et PowerBI (Microsoft) illustrent parfaitement ce positionnement. Les deux solutions sont en effet des outils de restitution / de DataViz dotées de puissantes fonctionnalités permettant de savamment préparer la donnée et pleinement conditionner cette dernière avant analyse.

    ​​​​​​​

    Si l’intégration de données représentée par les outils ETL a encore de très beaux jours devant elle, les outils de préparation de la donnée trouvent une place de choix à l’heure de la démocratisation et de la donnée pour tous, où l’implication de toutes les parties prenantes de l’entreprise est un élément clé du succès de tout projet Data.

    A propos de l’auteur

    Eric Moss

    Consultant Actinvision
    Spécialiste Data intégration / préparation