Formats optimaux de données et de métadonnées pour les lakehouses
Ce document vous guide à travers les formats de données et de métadonnées optimaux lorsque vous concevez votre lakehouse de données avec BigLake.
Un data lakehouse est une architecture de données qui combine la structure d'un entrepôt de données avec la flexibilité des données brutes d'un lac de données. Cette architecture offre flexibilité et évolutivité pour un large éventail de cas d'utilisation des données. La solution de data lakehouseGoogle Cloud s'appelle BigLake. Elle connecte les services Google Cloud et Open Source pour créer une interface unifiée pour l'analyse et l'IA. Un data lakehouse créé avec BigLake comprend les composants clés suivants :
- Capacités de stockage : Cloud Storage ou BigQuery, avec Apache Iceberg comme format de table ouvert recommandé
- Un metastore : BigLake Metastore
- Un moteur de requête : BigQuery, Apache Spark, Apache Flink, Trino ou d'autres moteurs Open Source
- Un outil d'écriture et d'analyse de données : diverses connexions BigQuery et Open Source
BigLake regroupe tous ces composants dans une seule expérience avec une gouvernance uniforme. Pour en savoir plus sur l'architecture et les innovations de BigLake, consultez BigLake : une évolution.
Sélectionner un metastore
Pour votre metastore, nous vous recommandons d'utiliser BigLake Metastore. BigLake Metastore est un metastore entièrement géré et sans serveur pour votre lakehouse sur Google Cloud. Il fournit une source unique de vérité pour les métadonnées provenant de plusieurs sources et est accessible depuis BigQuery et divers moteurs de traitement de données ouverts. Il n'est donc plus nécessaire de copier et de synchroniser les métadonnées entre différents dépôts à l'aide d'outils personnalisés. Le métastore BigLake est compatible avec Dataplex Universal Catalog, qui fournit des contrôles d'accès unifiés et précis sur tous les moteurs compatibles, et permet une gouvernance de bout en bout incluant des fonctionnalités complètes de traçabilité, de qualité des données et de visibilité.
Sélectionner un format de tableau
Avec BigLake Metastore comme metastore pour votre lakehouse ouvert, vous avez le choix entre les formats de table suivants :
- Choisissez les tables BigQuery standards pour les données gérées dans BigQuery. Ces tables sont entièrement gérées par BigQuery et disposent des fonctionnalités d'analyse et de gestion des données les plus avancées. Vous pouvez toujours connecter ces tables au metastore BigLake. Choisissez cette option pour les tables non-Iceberg.
- Choisissez Tables BigLake Iceberg dans BigQuery pour une expérience entièrement gérée dans BigQuery. Il s'agit de tables Iceberg que vous créez à partir de BigQuery et que vous stockez dans Cloud Storage. Comme toutes les tables qui utilisent BigLake Metastore, elles peuvent être lues par des moteurs Open Source ou BigQuery. Toutefois, BigQuery est le seul moteur capable d'écrire directement dans ces tables. Choisissez cette option si vous souhaitez que votre workflow d'extraction, de transformation et de chargement (ETL) soit géré par BigQuery.
- Choisissez Tables BigLake Iceberg pour une expérience semi-gérée sur Google Cloud. Il s'agit de tables Iceberg que vous créez à partir de moteurs Open Source et que vous stockez dans Cloud Storage. Comme toutes les tables qui utilisent le métastore BigLake, elles peuvent être lues par des moteurs Open Source ou BigQuery. Toutefois, seul le moteur Open Source qui a créé le tableau peut y écrire. Choisissez cette option si vous souhaitez que votre workflow ETL soit géré par le moteur Open Source.
- Choisissez Tables externes pour les tables en dehors du metastore BigLake. Les données et les métadonnées de ces tables sont entièrement autogérées. Vous vous appuyez donc entièrement sur les fonctionnalités des formats de table ouverts (tels qu'Iceberg, Apache Hudi ou Delta Lake). BigQuery ne peut que lire ces tables. Choisissez cette option pour les données et les métadonnées que vous souhaitez gérer vous-même dans un catalogue tiers.
Utilisez le tableau suivant pour comparer les options de format de tableau :
Tables externes | Tables BigLake Iceberg | Tables BigLake Iceberg dans BigQuery | Tables BigQuery standards | |
---|---|---|---|---|
Metastore | Métastore externe ou autohébergé | BigLake Metastore | BigLake Metastore | BigLake Metastore |
Stockage | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
Gestion | Client ou tiers | Google (expérience hautement gérée) | Google (expérience la plus gérée) | |
Lecture / Écriture |
Moteurs Open Source (lecture/écriture) BigQuery (lecture seule) |
Moteurs Open Source (lecture/écriture) BigQuery (lecture seule) |
Moteurs Open Source (lecture seule avec les bibliothèques Iceberg, interopérabilité en lecture/écriture avec l'API BigQuery Storage)
BigQuery (lecture/écriture) |
Moteurs Open Source (interopérabilité en lecture/écriture avec l'API BigQuery Storage) BigQuery (lecture/écriture) |
Cas d'utilisation | Migrations, tables de préproduction pour les chargements BigQuery, autogestion | Lakehouse ouvert | Lakehouse ouvert, stockage de niveau entreprise pour l'analyse, le streaming et l'IA | Stockage de niveau Enterprise pour l'analyse, le streaming et l'IA |
Étapes suivantes
- En savoir plus sur BigLake Metastore