BigQuery, la plate-forme de données entièrement gérée de Google Cloud, est une solution économique et évolutive pour l'intégration et l'analyse de données.
Présentation
ELT (extraction, chargement, transformation) est le modèle recommandé par Google Cloud pour l'intégration de données. L'extraction, le chargement et la transformation consiste à extraire les données des systèmes sources, à les charger dans BigQuery, puis à les transformer dans le format souhaité pour analyse. Contrairement à l'approche ETL (extraction, transformation, chargement), qui consiste à transformer les données avant de les charger dans un entrepôt de données, l'approche ELT permet à tout utilisateur SQL d'exploiter toute la puissance de BigQuery pour effectuer des transformations de données et de développer efficacement des pipelines d'intégration de données.
L'approche ELT accélère le délai de mise sur le marché en proposant un framework familier centré sur les données qui minimise la courbe d'apprentissage. Elle élimine également le besoin d'une infrastructure ETL distincte, ce qui réduit les coûts associés à la transformation des données avant le chargement.
L'architecture de BigQuery offre une très grande évolutivité et un traitement parallèle, ce qui permet de gérer efficacement les ensembles de données volumineux et les transformations complexes. ELT facilite la gouvernance des données en les centralisant dans BigQuery, permettant ainsi l'application de règles de sécurité et de qualité des données cohérentes qui sont intégrées à la plate-forme.
BigQuery est compatible avec différents formats et sources de données, y compris Apache Iceberg, ce qui offre une grande flexibilité pour intégrer des données variées. Vous pouvez également choisir la langue et les données. L'un des principaux avantages de l'approche ELT est que SQL s'intègre dans un certain nombre de pipelines SDLC.
Intégrer des données dans BigQuery
Intégrer des données dans BigQuery | Processus d'intégration des données de BigQuery avec ELT |
---|---|
Étape | Solution |
Extraction et chargement | Chargement par lot : le service de transfert de données BigQuery (DTS) automatise le chargement groupé de données dans BigQuery à partir de sources de données compatibles. Chargement par flux : les abonnements BigQuery Pub/Sub écrivent les messages Pub/Sub dans une table BigQuery existante à mesure qu'ils sont reçus. Capture de données modifiées (CDC) : Datastream permet de capturer de manière non intrusive les données modifiées des bases de données dans BigQuery. Fédération avec des sources de données externes : BigQuery accepte la fédération avec un certain nombre de sources de données externes qui ne nécessitent pas de transfert de données. |
Transformer | Les capacités de transformation de BigQuery sont basées sur Dataform, un outil permettant de créer, de tester et de documenter de manière collaborative la transformation de données SQL à l'aide du langage de manipulation de données (LMD) de BigQuery. Pour vous aider à transformer plus facilement les données, nous avons créé deux expériences puissantes qui exploitent Dataform : Transformation des données basée sur l'IA : la préparation de données BigQuery (preview) propose des suggestions intelligentes pour nettoyer, transformer et enrichir des données, ce qui peut réduire le temps et les efforts nécessaires pour les tâches de préparation de données. Transformation visuelle des données basée sur SQL : les workflows BigQuery (preview) offrent une expérience utilisateur visuelle permettant de créer des workflows simples de manière interactive. |
Migration de données à grande échelle | En plus des modèles décrits ci-dessus, les migrations vers Google Cloud peuvent impliquer des migrations de données massives d'entrepôts de données existants vers BigQuery. Le service de migration BigQuery est un service entièrement géré qui permet aux clients de charger des entrepôts de données existants dans BigQuery pour analyser les données de manière plus approfondie. |
Intégrer des données dans BigQuery
Processus d'intégration des données de BigQuery avec ELT
Extraction et chargement
Chargement par lot : le service de transfert de données BigQuery (DTS) automatise le chargement groupé de données dans BigQuery à partir de sources de données compatibles.
Chargement par flux : les abonnements BigQuery Pub/Sub écrivent les messages Pub/Sub dans une table BigQuery existante à mesure qu'ils sont reçus.
Capture de données modifiées (CDC) : Datastream permet de capturer de manière non intrusive les données modifiées des bases de données dans BigQuery.
Fédération avec des sources de données externes : BigQuery accepte la fédération avec un certain nombre de sources de données externes qui ne nécessitent pas de transfert de données.
Transformer
Les capacités de transformation de BigQuery sont basées sur Dataform, un outil permettant de créer, de tester et de documenter de manière collaborative la transformation de données SQL à l'aide du langage de manipulation de données (LMD) de BigQuery. Pour vous aider à transformer plus facilement les données, nous avons créé deux expériences puissantes qui exploitent Dataform :
Transformation des données basée sur l'IA : la préparation de données BigQuery (preview) propose des suggestions intelligentes pour nettoyer, transformer et enrichir des données, ce qui peut réduire le temps et les efforts nécessaires pour les tâches de préparation de données.
Transformation visuelle des données basée sur SQL : les workflows BigQuery (preview) offrent une expérience utilisateur visuelle permettant de créer des workflows simples de manière interactive.
Migration de données à grande échelle
En plus des modèles décrits ci-dessus, les migrations vers Google Cloud peuvent impliquer des migrations de données massives d'entrepôts de données existants vers BigQuery. Le service de migration BigQuery est un service entièrement géré qui permet aux clients de charger des entrepôts de données existants dans BigQuery pour analyser les données de manière plus approfondie.
Fonctionnement
BigQuery offre aux ingénieurs de données et aux développeurs d'applications un large éventail de produits et de fonctionnalités pour créer, planifier et gérer des pipelines. La large gamme d'offres vous permet de choisir entre les paradigmes ETL et ELT.
Utilisations courantes
BigQuery est une plate-forme de données unifiée compatible avec l'IA qui vous permet d'associer toutes vos données d'entreprise à l'IA. BigQuery ingère des données issues de différentes sources (messagerie, bases de données, etc.) par lot, en continu ou via la capture de données modifiées (CDC, Change Data Capture). BigQuery stocke, calcule et gère les données avec une couche de transformation basée sur l'IA et une expérience utilisateur unifiée pour l'analyse.
BigQuery est une plate-forme de données unifiée compatible avec l'IA qui vous permet d'associer toutes vos données d'entreprise à l'IA. BigQuery ingère des données issues de différentes sources (messagerie, bases de données, etc.) par lot, en continu ou via la capture de données modifiées (CDC, Change Data Capture). BigQuery stocke, calcule et gère les données avec une couche de transformation basée sur l'IA et une expérience utilisateur unifiée pour l'analyse.
Créez un pipeline ELT puissant sur Google Cloud :
Cette configuration offre de l'évolutivité, des fonctionnalités en temps réel et une transformation efficace des données pour une analyse complète.
Créez un pipeline ELT puissant sur Google Cloud :
Cette configuration offre de l'évolutivité, des fonctionnalités en temps réel et une transformation efficace des données pour une analyse complète.