Formatos óptimos de datos y metadatos para lakehouses

En este documento se describen los formatos de datos y metadatos óptimos para diseñar tu lakehouse de datos con BigLake.

Un data lakehouse es una arquitectura de datos que combina la estructura de un almacén de datos con la flexibilidad de los datos sin procesar de un data lake. Esta arquitectura proporciona flexibilidad y escalabilidad para una amplia gama de casos prácticos de datos. La solución de lakehouse de datos se llama BigLake, que conecta servicios deGoogle Cloud datos Google Cloud y de código abierto para crear una interfaz unificada para las analíticas y la IA. Un data lakehouse creado con BigLake consta de los siguientes componentes clave:

  • Funciones de almacenamiento: Cloud Storage o BigQuery, con Apache Iceberg como formato de tabla abierta recomendado
  • Un metastore: metastore de BigLake
  • Un motor de consultas: BigQuery, Apache Spark, Apache Flink, Trino u otros motores de código abierto
  • Una herramienta para escribir y analizar datos: varias conexiones de BigQuery y de código abierto

BigLake incluye todos estos componentes en una única experiencia con una gobernanza uniforme. Para obtener más información sobre la arquitectura y las innovaciones de BigLake, consulta BigLake evolved (BigLake evolucionado).

Selecciona un metastore

En el caso de los metastores, recomendamos usar BigLake Metastore. El metastore de BigLake es un metastore sin servidor y totalmente gestionado para tu lakehouse en Google Cloud. Proporciona una única fuente fiable de metadatos de varias fuentes y se puede acceder a ella desde BigQuery y varios motores de procesamiento de datos abiertos, lo que elimina la necesidad de copiar y sincronizar metadatos entre diferentes repositorios con herramientas personalizadas. El metastore de BigLake es compatible con el catálogo universal de Dataplex, que proporciona controles de acceso unificados y pormenorizados en todos los motores compatibles, y permite un gobierno integral que incluye funciones de linaje, calidad y visibilidad de los datos.

Seleccionar un formato de tabla

Con BigLake Metastore como metastore de tu lakehouse abierto, tienes las siguientes opciones para el formato de tus tablas:

  • Elige tablas estándar de BigQuery para los datos gestionados en BigQuery. BigQuery gestiona estas tablas por completo y tienen las funciones de gestión y analíticas de datos más avanzadas. Puedes seguir conectando estas tablas a BigLake Metastore. Elige esta opción para las tablas que no sean Iceberg.
  • Elige tablas de BigLake Iceberg en BigQuery para disfrutar de una experiencia totalmente gestionada en BigQuery. Estas tablas son tablas de Iceberg que se crean desde BigQuery y se almacenan en Cloud Storage. Al igual que todas las tablas que usan el metastore de BigLake, los buscadores de código abierto o BigQuery pueden leerlas. Sin embargo, BigQuery es el único motor que puede escribir directamente en ellos. Elige esta opción si quieres que BigQuery gestione tu flujo de trabajo de extracción, transformación y carga (ETL).
  • Elige tablas de Iceberg de BigLake para disfrutar de una experiencia semigestionada en Google Cloud. Estas tablas son tablas de Iceberg que creas a partir de motores de código abierto y que almacenas en Cloud Storage. Al igual que todas las tablas que usan el almacén de metadatos de BigLake, los motores de código abierto o BigQuery pueden leerlas. Sin embargo, el motor de código abierto que creó la tabla es el único que puede escribir en ella. Elige esta opción si quieres que el motor de código abierto gestione tu flujo de trabajo de ETL.
  • Elige tablas externas para las tablas que no estén en el metastore de BigLake. Los datos y los metadatos de estas tablas se gestionan por completo de forma autónoma, por lo que dependes totalmente de las funciones de los formatos de tabla abiertos (como Iceberg, Apache Hudi o Delta Lake). BigQuery solo puede leer datos de estas tablas. Elige esta opción para los datos y los metadatos que quieras gestionar por tu cuenta en un catálogo de terceros.

Usa la siguiente tabla para comparar las opciones de formato de tabla:

Tablas externas Tablas de Iceberg de BigLake Tablas Iceberg de BigLake en BigQuery Tablas estándar de BigQuery
Metastore Metastore externo o alojado en servidor propio Metastore de BigLake Metastore de BigLake Metastore de BigLake
Almacenamiento Cloud Storage, Amazon S3 y Azure Cloud Storage Cloud Storage BigQuery
Gestión Cliente o tercero Google Google (experiencia altamente gestionada) Google (experiencia más gestionada)
Lectura/escritura Motores de código abierto (lectura y escritura)

BigQuery (solo lectura)
Motores de código abierto (lectura y escritura)

BigQuery (solo lectura)
Motores de código abierto (solo lectura con bibliotecas de Iceberg, interoperabilidad de lectura y escritura con la API Storage de BigQuery)

BigQuery (lectura y escritura)

Motores de código abierto (interoperabilidad de lectura y escritura con la API Storage de BigQuery)

BigQuery (lectura y escritura)

Use cases Migraciones, tablas de almacenamiento provisional para cargas de BigQuery y gestión automática Lakehouse abierto Lakehouse abierto y almacenamiento de nivel empresarial para analíticas, streaming e IA Almacenamiento de nivel empresarial para analíticas, streaming e IA

Siguientes pasos