Introducción al metastore de BigQuery

El metastore de BigQuery es un metastore completamente administrado para productos de análisis de datos en Google Cloud. Proporciona una única fuente de información para administrar los metadatos de varias fuentes. Se puede acceder al metastore desde BigQuery y varios motores de procesamiento de datos abiertos, por lo que es una herramienta útil para los ingenieros y analistas de datos.

Por ejemplo, puedes usar el metastore de BigQuery como catálogo con motores de consultas de código abierto, como Apache Spark. Las tablas creadas con Spark se pueden consultar con BigQuery sin necesidad de sincronizar tus metadatos.

Beneficios

BigQuery Metastore ofrece varias ventajas para la administración y el análisis de datos:

  • Arquitectura sin servidores. El almacén de metadatos de BigQuery proporciona una arquitectura sin servidores, lo que elimina la necesidad de administración de servidores o clústeres. Esto ayuda a reducir la sobrecarga operativa, simplifica la implementación y permite el ajuste de escala automático según la demanda.
  • Interoperabilidad del motor. BigQuery Metastore te proporciona acceso directo a las tablas en BigQuery, lo que te permite consultar tablas de formato abierto almacenadas en BigQuery sin configuración adicional. Por ejemplo, puedes crear una tabla en Spark y, luego, consultarla directamente en BigQuery. Esto ayuda a optimizar tu flujo de trabajo de análisis y reduce la necesidad de realizar procesos complejos de ETL o de transferencia de datos.
  • Experiencia del usuario unificada. BigQuery Metastore proporciona un flujo de trabajo unificado en BigQuery y BigQuery Studio. Esto te permite usar Spark directamente en BigQuery y BigQuery Studio. Por ejemplo:

    Primero, puedes crear una tabla en Spark con un notebook de BigQuery Studio.

    Crea una tabla en BQMS

    A continuación, puedes consultar la misma tabla de Spark en la consola de Google Cloud .

    Consulta una tabla en BQMS

Integraciones admitidas

Puedes usar el metastore de BigQuery con la consola de Google Cloud , gcloud CLI o las APIs de REST de BigQuery.

El metastore de BigQuery admite las siguientes integraciones:

Diferencias con BigLake Metastore

El metastore de BigQuery es el metastore recomendado en Google Cloud.

Las diferencias principales entre el metastore de BigQuery y BigLake Metastore incluyen los siguientes detalles:

  • BigLake Metastore es un servicio de almacén de metadatos independiente que es distinto de BigQuery y solo admite tablas de Iceberg. Tiene un modelo de recursos de tres partes diferente. Las tablas de BigLake no se descubren automáticamente desde BigQuery.

  • El metastore de BigQuery se basa en el catálogo de BigQuery y se integra directamente en BigQuery. Las tablas de BigQuery Metastore son mutables desde varios motores de código abierto, y las mismas tablas se pueden consultar desde BigQuery. Cuando usas BigQuery, solo hay una fuente de información para tus metadatos. Por ejemplo, el metastore de BigQuery admite la integración directa con Spark. Esta integración proporciona un flujo de trabajo más fluido y ayuda a reducir la redundancia cuando se almacenan metadatos y se ejecutan trabajos.

¿Qué sigue?