De quel département êtes-vous ?

Vos informations générales

Quel est votre objectif ?

Quel est le nombre d'utilisateurs
pour votre projet ?

A quelle étape vous trouvez-vous actuellement ?

Quel est le délais de mise en place que vous souhaitez ?

Précédent

Déclenchez le signal !
Nous sommes les héros de Tableau Software, Microsoft Power BI et Alteryx ? Découvrez quelques unes de nos réalisations Let's rock ! Led Zeppelin et le basketball français en statistiques.

Maîtrisez votre temps !
Nous travaillons avec les outils Snowflake, Gathering Tools et Alteryx. Découvrez le retour de nos clientsOney Data et Keolis

Votre futur vous attend !

Découvrez notre Data Driven Journey et la solution Alteryx.

Rassemblons vos forces !

Découvrez notre Data Driven Journey et notre communauté. Renseignez-vous sur nos formation au Data-Universe.

Drive your insights!

Découvrez notre Communauté et nos réalisations Let's rock ! Led Zeppelin et la gestion d'une équipe de basketball en statistiques.

Évoluez à l'infini et au-delà !

Découvrez notre méthode exclusive : Data Driven Journey. Accédez à notre panel de formations.

17 Déc 2019.

Episode 2 / Azure Data Factory

Episode 2 / Azure Data Factory
Actinvision
Actinvision
Présentation du service

Azure Data Factory est le service cloud pour la gestion de flux de données structurées ou non. Ce service entièrement géré sur Azure permet de créer des projets de toute envergure de type ETL ou ELT.

Azure Data Factory

Pas moins de 80 connecteurs préconfigurés sont disponibles pour récupérer vos données. Bien sûr on retrouve les bases de données classiques comme SQL Server, Oracle, MySQL, Amazon Redshift, Vertica, Teradata … mais également des sources de données de type fichiers sur Amazon S3, FTP, HDFS … Pour avoir plus de détails sur les connecteurs disponibles, je vous invite à consulter ces liens page Supported Data Stores And Format .

Azure Data Factory permet également d’exécuter des flux SSIS et ainsi de s’affranchir d’une installation « On Premise » d’un server SSIS.
En quelques clics Azure Data Factory permet de mettre en production des flux de données sans aucunes lignes de codes et sans gérer une infrastructure de servers. ADF vous permet de déplacer vos données « On Premise » vers le cloud et ainsi bénéficier de toute la puissance que peut offrir une architecture cloud.

Un peu de vocabulaire

Data Set : source de données utilisées dans les flux (source ou destination).

Azure Data Factory

Activité : une activité représente une action à effectuer sur les données. Par exemple la copie de fichiers, ou encore la transformation de données.

Pipeline : une fabrique de données peut avoir un ou plusieurs pipelines. Un pipeline est un regroupement d’activités qui exécutent une tâche.

ETL: Extract, Transform and Load. Ce processus récupère les données sources, les transforme avant de les charger dans un environnement cible.

ELT : Extract, Load and Transform. Ce processus a pour objectif de récupérer les données provenant de plusieurs sources de données pour les déplacer à un endroit en vue de leur transformation.

La différence entre l’ETL et l’ELT est le moment et l’endroit où la transformation des données est effectuée.

Cas d’usage

Voici un exemple de cas d’usage d’Azure Data Factory qui inclut différentes sources de données « On Premise » ou cloud, structurées ou non.

Azure Data Factory
Pour chaque source de données, des mises à jour sont exportées régulièrement dans une zone de transit du stockage d’objets blob Azure.

Data Factory charge de façon incrémentielle les données provenant du stockage d’objets blob dans des tables de mise en lots de SQL Data Warehouse. Les données sont nettoyées et transformées pendant ce processus. La technologie PolyBase peut paralléliser le processus pour des jeux de données volumineux.

À l’issue du chargement d’un nouveau lot de données dans l’entrepôt, un modèle tabulaire Analysis Services créé précédemment est actualisé. Ce modèle sémantique simplifie l’analyse des données d’entreprise et des relations.

Les analystes d’entreprise utilisent Microsoft Power BI pour analyser les données en entrepôt via le modèle sémantique Analysis Services.

Source : https://docs.microsoft.com/fr-fr/azure/architecture/example-scenario/data/data-warehouse

Tarification

La facturation de Azure Data Factory est basée sur deux principes :

L’orchestration
Le nombre d’exécutions d’activités => 0,844 € / 1000 exécutions
Utilisation du runtime auto-hébergé => 1,265 € / 1000 exécutions

L’exécution
Il s’agit de l’infrastructure de calcul utilisée par ADF pour l’intégration de données entre différents environnements réseau.

Data Factory propose trois types de runtime d’intégration :

Azure Data Factory
Des tarifs spécifiques s’appliquent en fonction du runtime :

Azure Data Factory

Le runtime Azure SSIS est utilisé dans le cas d’exécution de package SSIS. Pour ce service la tarification se fait à l’heure et est en fonction de la configuration de l’instance choisie.

A titre d’exemple, pour une instance de type 4 cœurs, 8 Go de RAM et 40 Go de disques, Microsoft nous facture 0,7081€/heure. Donc pour une utilisation de 3h/jours, le tarif est d’environ 65€/mois.

Ce service peut être démarré ou arrêté à la demande. A noter qu’il est possible de planifier le démarrage du runtime via des script PowerShell ou directement dans un pipeline de Data Factory.
https://docs.microsoft.com/fr-fr/azure/data-factory/how-to-schedule-azure-ssis-integration-runtime

D’autres coûts liés à l’exécution des Data Flow, au debugging ou encore au monitoring et à la surveillance peuvent s’appliquer.

Pour en savoir plus :
https://azure.microsoft.com/fr-fr/pricing/details/data-factory/data-pipeline/

Pour aller plus loin :
https://docs.microsoft.com/fr-fr/azure/data-factory/