Intégration de données et ELT

BigQuery, la plate-forme de données entièrement gérée de Google Cloud, est une solution économique et évolutive pour l'intégration et l'analyse de données.

Présentation

Intégration de données et ELT avec BigQuery

ELT (extraction, chargement, transformation) est le modèle recommandé par Google Cloud pour l'intégration de données. L'extraction, le chargement et la transformation consiste à extraire les données des systèmes sources, à les charger dans BigQuery, puis à les transformer dans le format souhaité pour analyse. Contrairement à l'approche ETL (extraction, transformation, chargement), qui consiste à transformer les données avant de les charger dans un entrepôt de données, l'approche ELT permet à tout utilisateur SQL d'exploiter toute la puissance de BigQuery pour effectuer des transformations de données et de développer efficacement des pipelines d'intégration de données.

Réduction du délai de mise sur le marché et des coûts grâce à l'approche ELT

L'approche ELT accélère le délai de mise sur le marché en proposant un framework familier centré sur les données qui minimise la courbe d'apprentissage. Elle élimine également le besoin d'une infrastructure ETL distincte, ce qui réduit les coûts associés à la transformation des données avant le chargement.

Évolutivité et performances grâce à la gouvernance intégrée

L'architecture de BigQuery offre une très grande évolutivité et un traitement parallèle, ce qui permet de gérer efficacement les ensembles de données volumineux et les transformations complexes. ELT facilite la gouvernance des données en les centralisant dans BigQuery, permettant ainsi l'application de règles de sécurité et de qualité des données cohérentes qui sont intégrées à la plate-forme.

Intégration de données offrant du choix et de la flexibilité

BigQuery est compatible avec différents formats et sources de données, y compris Apache Iceberg, ce qui offre une grande flexibilité pour intégrer des données variées. Vous pouvez également choisir la langue et les données. L'un des principaux avantages de l'approche ELT est que SQL s'intègre dans un certain nombre de pipelines SDLC.


Intégrer des données dans BigQuery

Intégrer des données dans BigQueryProcessus d'intégration des données de BigQuery avec ELT
ÉtapeSolution

Extraction et chargement

Chargement par lot : le service de transfert de données BigQuery (DTS) automatise le chargement groupé de données dans BigQuery à partir de sources de données compatibles.

Chargement par flux : les abonnements BigQuery Pub/Sub écrivent les messages Pub/Sub dans une table BigQuery existante à mesure qu'ils sont reçus.

Capture de données modifiées (CDC) : Datastream permet de capturer de manière non intrusive les données modifiées des bases de données dans BigQuery.

Fédération avec des sources de données externes : BigQuery accepte la fédération avec un certain nombre de sources de données externes qui ne nécessitent pas de transfert de données.

Transformer

Les capacités de transformation de BigQuery sont basées sur Dataform, un outil permettant de créer, de tester et de documenter de manière collaborative la transformation de données SQL à l'aide du langage de manipulation de données (LMD) de BigQuery. Pour vous aider à transformer plus facilement les données, nous avons créé deux expériences puissantes qui exploitent Dataform :

Transformation des données basée sur l'IA : la préparation de données BigQuery (preview) propose des suggestions intelligentes pour nettoyer, transformer et enrichir des données, ce qui peut réduire le temps et les efforts nécessaires pour les tâches de préparation de données.

Transformation visuelle des données basée sur SQL : les workflows BigQuery (preview) offrent une expérience utilisateur visuelle permettant de créer des workflows simples de manière interactive.

Migration de données à grande échelle

En plus des modèles décrits ci-dessus, les migrations vers Google Cloud peuvent impliquer des migrations de données massives d'entrepôts de données existants vers BigQuery. Le service de migration BigQuery est un service entièrement géré qui permet aux clients de charger des entrepôts de données existants dans BigQuery pour analyser les données de manière plus approfondie.

Intégrer des données dans BigQuery

Processus d'intégration des données de BigQuery avec ELT

Extraction et chargement

Solution

Chargement par lot : le service de transfert de données BigQuery (DTS) automatise le chargement groupé de données dans BigQuery à partir de sources de données compatibles.

Chargement par flux : les abonnements BigQuery Pub/Sub écrivent les messages Pub/Sub dans une table BigQuery existante à mesure qu'ils sont reçus.

Capture de données modifiées (CDC) : Datastream permet de capturer de manière non intrusive les données modifiées des bases de données dans BigQuery.

Fédération avec des sources de données externes : BigQuery accepte la fédération avec un certain nombre de sources de données externes qui ne nécessitent pas de transfert de données.

Transformer

Solution

Les capacités de transformation de BigQuery sont basées sur Dataform, un outil permettant de créer, de tester et de documenter de manière collaborative la transformation de données SQL à l'aide du langage de manipulation de données (LMD) de BigQuery. Pour vous aider à transformer plus facilement les données, nous avons créé deux expériences puissantes qui exploitent Dataform :

Transformation des données basée sur l'IA : la préparation de données BigQuery (preview) propose des suggestions intelligentes pour nettoyer, transformer et enrichir des données, ce qui peut réduire le temps et les efforts nécessaires pour les tâches de préparation de données.

Transformation visuelle des données basée sur SQL : les workflows BigQuery (preview) offrent une expérience utilisateur visuelle permettant de créer des workflows simples de manière interactive.

Migration de données à grande échelle

Solution

En plus des modèles décrits ci-dessus, les migrations vers Google Cloud peuvent impliquer des migrations de données massives d'entrepôts de données existants vers BigQuery. Le service de migration BigQuery est un service entièrement géré qui permet aux clients de charger des entrepôts de données existants dans BigQuery pour analyser les données de manière plus approfondie.

Fonctionnement

BigQuery offre aux ingénieurs de données et aux développeurs d'applications un large éventail de produits et de fonctionnalités pour créer, planifier et gérer des pipelines. La large gamme d'offres vous permet de choisir entre les paradigmes ETL et ELT.


Comparaison des approches ETL et ELT
Regardez cette vidéo pour découvrir la différence entre ELT et ETL

Utilisations courantes

Intégration des données de bout en bout avec BigQuery

Architecture d'intégration de données

BigQuery est une plate-forme de données unifiée compatible avec l'IA qui vous permet d'associer toutes vos données d'entreprise à l'IA. BigQuery ingère des données issues de différentes sources (messagerie, bases de données, etc.) par lot, en continu ou via la capture de données modifiées (CDC, Change Data Capture). BigQuery stocke, calcule et gère les données avec une couche de transformation basée sur l'IA et une expérience utilisateur unifiée pour l'analyse.


Architecture d'intégration de données BigQuery

    Architecture d'intégration de données

    BigQuery est une plate-forme de données unifiée compatible avec l'IA qui vous permet d'associer toutes vos données d'entreprise à l'IA. BigQuery ingère des données issues de différentes sources (messagerie, bases de données, etc.) par lot, en continu ou via la capture de données modifiées (CDC, Change Data Capture). BigQuery stocke, calcule et gère les données avec une couche de transformation basée sur l'IA et une expérience utilisateur unifiée pour l'analyse.


    Architecture d'intégration de données BigQuery

      Créer un pipeline ELT

      Créer un pipeline ELT évolutif avec Google Cloud

      Créez un pipeline ELT puissant sur Google Cloud :

      1. Choisir les sources de données : sur site, applications cloud ou autres.
      2. Ingérer des données : utilisez Datastream pour les chargements en temps réel ou le service de transfert de données BigQuery pour les chargements complets.
      3. Transformer les données : nettoyez les données en les préparant ou créez des pipelines avec Dataform.
      4. Visualiser avec Looker Studio : créez des rapports et des tableaux de bord.

      Cette configuration offre de l'évolutivité, des fonctionnalités en temps réel et une transformation efficace des données pour une analyse complète.

      Créer une architecture de pipeline ELT

        Créer un pipeline ELT évolutif avec Google Cloud

        Créez un pipeline ELT puissant sur Google Cloud :

        1. Choisir les sources de données : sur site, applications cloud ou autres.
        2. Ingérer des données : utilisez Datastream pour les chargements en temps réel ou le service de transfert de données BigQuery pour les chargements complets.
        3. Transformer les données : nettoyez les données en les préparant ou créez des pipelines avec Dataform.
        4. Visualiser avec Looker Studio : créez des rapports et des tableaux de bord.

        Cette configuration offre de l'évolutivité, des fonctionnalités en temps réel et une transformation efficace des données pour une analyse complète.

        Créer une architecture de pipeline ELT
          Générer une solution
          Quel problème essayez-vous de résoudre ?
          What you'll get:
          Guide par étapes
          Architecture de référence
          Solutions pré-intégrées disponibles
          Ce service a été créé avec Vertex AI. Vous devez avoir au moins 18 ans pour l'utiliser. Ne saisissez pas d'informations sensibles, confidentielles ni personnelles.

          Commencer votre démonstration de faisabilité

          Premiers pas avec BigQuery

          Vous avez un projet volumineux ?

          Intégration de données avec Google Cloud

          Approche d'intégration de données ETL

          Découvrir les partenaires d'intégration de données

          • Faites des économies grâce à notre approche transparente concernant la tarification
          • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
          Google Cloud