Fermer

    De quel département êtes-vous ?

    Vos informations générales

    Quel est votre objectif ?

    Quel est le nombre d'utilisateurs
    pour votre projet ?

    A quelle étape vous trouvez-vous actuellement ?

    Quel est le délais de mise en place que vous souhaitez ?

    Précédent

    Déclenchez le signal !
    Nous sommes les héros de Tableau Software, Microsoft Power BI et Alteryx ? Découvrez quelques unes de nos réalisations Let's rock ! Led Zeppelin et le basketball français en statistiques.

    Maîtrisez votre temps !
    Nous travaillons avec les outils Snowflake, Gathering Tools et Alteryx. Découvrez le retour de nos clientsOney Data et Keolis

    Votre futur vous attend !

    Découvrez notre Data Driven Journey et la solution Alteryx.

    Rassemblons vos forces !

    Découvrez notre Data Driven Journey et notre communauté. Renseignez-vous sur nos formation au Data-Universe.

    Drive your insights!

    Découvrez notre Communauté et nos réalisations Let's rock ! Led Zeppelin et la gestion d'une équipe de basketball en statistiques.

    Évoluez à l'infini et au-delà !

    Découvrez notre méthode exclusive : Data Driven Journey. Accédez à notre panel de formations.

     

    Article

    Snowflake Snowday 2022

    Rédigé par Etienne Cizeau et Rudy Krauffel – Consultants BI Actinvision

    Ça y est ! C’est bientôt l’hiver, les nuits s’allongent, le mercure redescend… Mais c’est également le temps des flocons puisque Snowflake en a profité pour organiser ce 7 novembre son événement annuel de fin d’année, le Snowflake Snowday 2022.

    Au programme, un certain nombre de nouveautés concernant les technologies phares de Snowflake : Snowpark pour Python, Unistore et Snowpipe. C’est parti pour un petit tour des différentes annonces de l’événement !

    Snowpark for Python en GA

     

    Le framework de Snowflake, auquel nous avons déjà consacré un article , est désormais disponible en GA. Il s’est vu offrir un certain nombre d’ajouts utiles à tous les data scientistes désireux de déployer leurs projets sur le cloud de l’entreprise. Parmi ceux-ci, on notera principalement l’ajout d’un nouveau type de virtual warehouse, les Snowpark Optimized Warehouse. Ces warehouses permettront de déployer des projets de data science plus ambitieux et d’entrainer des modèles inférentiels bien plus complexes, puisqu’elles disposent de 16 fois plus de mémoire vive, et de 10 fois plus de cache qu’un warehouse standard en taille XS. La tarification est majorée de 50% par rapport aux warehouses de type standard.

    Tailles de Snowpark Optimized Warehouses

    Les différentes tailles de Snowpark-Optimized Warehouses (source : Snowflake Snowday 2022)

    Enfin, Snowflake confirme sa volonté de proposer un maximum d’outils aux data scientistes en assurant l’ajout de nouvelles bibliothèques Python comme le modèle Prophet, et la mise à jour de bibliothèques déjà disponibles. Le référentiel des bibliothèques est disponible ici .

     

    Replay Snowflake Titanic bannière

    Unistore

     

    Avec l’annonce de Unistore, Snowflake consolide sa volonté de favoriser le développement d’application entièrement au sein de Snowflake. Pour ce faire, un nouveau type de table, les Tables hybrides. Annoncé en début 2022, Unistore donne naissance à une architecture unique en combinant un stockage en colonne et un stockage en ligne pour répondre aux deux usages analytics et transactionnel, et ceci de manière complètement transparente pour l’utilisateur. Le moteur d’optimisation des requêtes de Snowflake se charge alors de choisir le meilleur format selon le besoin de la requête.

    Les applications dans le cloud Snowflake

     

    Le rachat en début d’année de Streamlit offre également la possibilité aux équipes utilisant Snowflake de créer de puissantes applications en quelques lignes de Python sans avoir à manipuler des langages web complexes comme HTML, CSS ou JavaScript. L’accès à Streamlit reste toutefois en phase de test privée.

    Snowpipe Streaming

     

    Le besoin croissant pour l’analyse rapide de données fraiches trouve déjà dans Snowflake une solution technique grâce aux Snowpipes.  Cet outil permet l’automatisation de l’ingestion de fichier depuis le cloud directement dans Snowflake dans des délais courts : on parle ici d’un temps de l’ordre de 30 secondes.

    Lors de l’utilisation d’une plateforme de streaming de données telle que Kafka, on utilisait typiquement jusqu’à maintenant un connecteur “Sink”, qui s’appuyait sur un snowpipe: une fois le buffer ou le délai de flush atteint, les messages sont placés dans un stage, puis un snowpipe les détecte et les intègre. Là aussi, on observe un délai d’intégration qui va parfois jusqu’à la minute.

    Snowflake présente désormais une nouvelle façon de faire du streaming sur sa plateforme.

    Le snowpipe de streaming est un composant, ou plutôt une interface, permettant une réactivité quasi-instantanée entre l’arrivée des messages sur Kafka ou un autre message broker, et leur intégration dans Snowflake. L’intégration se fait directement via https sans passer par un pipe classique, et supporte des débits atteignant plusieurs Go/s, tout en contrôlant les coûts même dans les scénarios les plus extrêmes. La configuration se résume à un JSON côté Kafka.

    Snowpipe streaming avant Snowpipe streaming après

    Cette nouvelle capacité de Snowflake va sûrement faire beaucoup d’heureux et permettre de nouvelles utilisations de la plateforme.

    Tables dynamiques

     

    Autre nouveauté au tableau et pas des moindres, les tables dynamiques font leur apparition. Conceptuellement proches des vues matérialisées, elles permettent toutefois d’être explicite sur la période de rafraichissement souhaitée grâce un paramètre “lag”. Requêter les données d’une table dynamique garantit une fraicheur dans la limite de ce “lag”, qu’il soit d’une heure, ou d’une minute.

    La mise à jour de ces tables est purement incrémentale: seules les données qui ont changé sont rafraichies. Cela permet des économies de temps et de ressource.

    La maintenance d’une table dynamique est intégralement gérée par Snowflake après sa définition, et son coût sera lié à l’utilisation du virtual warehouse spécifié à sa création.

    Autres nouveautés

     

    Snowflake a aussi lors de ce Snowday présenté leur nouveau Task Graph Viewer, un outil de visualisation des tâches et de leur hiérarchie entre elles, dans Snowsight. Ce graphique permet en un coup d’œil de comprendre les dépendances et conditions d’exécutions de pipelines de tâches complexes.

    Task Graph Viewer SnowflakeSource : Snowflake Snowday 2022

    Au rang des nouveautés, on retrouve aussi la Schema Inference. Pour les données en perpetuelle évolution, cette fonctionnalité de détection de schéma permet aux tables de s’adapter aux données et non l’inverse. La détection du schéma est déjà disponible (GA) pour les données en PARQUET, ORC et AVRO. La détection du JSON et du CSV sont pour l’instant en PrPr, de même que l’évolution automatique des colonnes.

    Schema Inference Snowflake

    Source : Snowflake Snowday 2022

    Avec toutes ces annonces, Snowflake prouve sa volonté de développer un véritable Data Cloud unifiant tous les usages et tous les métiers de la donnée.

    Le prochain grand rendez-vous de Snowflake sera le Snowflake Summit 2023. Nous vous donnons donc rendez-vous en juin 2023 pour en savoir plus sur les prochaines innovations du Data Cloud.