Descripción general de Dataproc Metastore

Dataproc Metastore es un repositorio de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un (HMS) es el estándar establecido en el ecosistema de macrodatos de código abierto para administrar metadatos técnicos, como esquemas, particiones y estadísticas de columnas en una base de datos relacional.

Dataproc Metastore cuenta con alta disponibilidad, reparación automática y sin servidores. Úsalo para administrar los metadatos del data lake y proporcionar interoperabilidad entre los diversos motores de procesamiento de datos y herramientas que usas.

Cómo funciona Dataproc Metastore

Puedes usar un servicio de Dataproc Metastore si lo conectas a un clúster de Dataproc. Un clúster de Dataproc incluye componentes que dependen de un HMS para impulsar la planificación y ejecución de las consultas.

Esta integración te permite mantener la información de la tabla entre trabajos o hacer que los metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un almacén de metadatos podría ayudarte a designar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de archivo. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Después, puedes conectarlo a un clúster de Dataproc y consultar la tabla para obtener información con Hive, Spark SQL o algún otro servicio de consultas.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes elegir usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

Casos de uso habituales

Todos los casos de uso enumerados en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asigna significado a tus datos. Crear un repositorio de metadatos centralizado compartido entre muchos clústeres efímeros de Dataproc. Usa diferentes motores de software de código abierto (OSS), como Apache Hive, Apache Spark y Presto.

  • Crea una vista unificada de tus datos. Proporcionar interoperabilidad entre los servicios de Google Cloud, como Dataproc, Dataplex y BigQuery, o usar otras ofertas de socios basadas en código abierto en Google Cloud.

Características y beneficios

Todas las funciones que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS. Conéctate a tus motores de procesamiento de datos existentes, como Apache Hive, Apache Spark y Presto.

  • Administración. Crea o actualiza un almacén de metadatos en cuestión de minutos, con tareas de supervisión y operación completamente configuradas.

  • Integración. Integrar otros productos de Google Cloud, por ejemplo, usar BigQuery como fuente de metadatos para un clúster de Dataproc

  • Seguridad integrada. Usa los protocolos de seguridad de Google Cloud establecidos, como la administración de identidades y accesos (IAM) y la autenticación de Kerberos.

  • Importación simple. Importar los metadatos existentes almacenados en un almacén de metadatos de Hive Metastore a un servicio de Dataproc Metastore

  • Copias de seguridad automáticas. Configura las copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento Configura niveles de rendimiento para responder de forma dinámica a cargas de trabajo y picos muy intensivos, sin preparación previa ni almacenamiento en caché.

  • Alta disponibilidad (HA).

    • Dataproc Metastore 2. Proporciona alta disponibilidad (HA) zonal sin necesidad de ninguna configuración específica ni administración continua. Esto se logra mediante la replicación automática de las bases de datos de backend y los servidores HMS en varias zonas de la región que elijas. Además de la alta disponibilidad zonal, Dataproc Metastore 2 admite la alta disponibilidad regional y la recuperación ante desastres (DR).
    • Dataproc Metastore 1. De forma predeterminada, proporciona alta disponibilidad (HA) zonal sin necesidad de ninguna configuración específica ni administración continua. Esto se logra replicando de forma automática las bases de datos de backend y los servidores HMS en varias zonas de la región que elijas
  • Escalabilidad:

    • Dataproc Metastore 2. Usa un factor de escalamiento horizontal para determinar cuántos recursos necesita usar tu servicio en un momento determinado.
    • Dataproc Metastore 1. Elige entre un nivel de desarrollador o un nivel empresarial cuando configures tu servicio. Este nivel determina cuántos recursos necesita usar tu servicio en un momento determinado.
  • Asistencia. Benefíciate de los ANS estándar y los canales de asistencia de Google Cloud.

Integraciones en Google Cloud

Todas las integraciones enumeradas en esta sección son compatibles con Dataproc Metastore 1 y Dataproc Metastore 2, a menos que se indique lo contrario.

  • Dataproc: Conéctate a un clúster de Dataproc para entregar metadatos en cargas de trabajo de macrodatos de OSS.
  • BigQuery: Consultar conjuntos de datos de BigQuery en tus cargas de trabajo de Dataproc
  • Dataplex Consulta datos estructurados y semiestructurados descubiertos en un dataplex lake.
  • Data Catalog: Sincronizar Dataproc Metastore con Data Catalog para habilitar la búsqueda y el descubrimiento de metadatos.
  • Logging y Monitoring. Integra Dataproc Metastore en los productos de Cloud Monitoring y Logging.
  • IAM y autenticación: Confía en la autenticación de OAuth estándar que usan otros productos de Google Cloud, que admite el uso de funciones detalladas de Identity and Access Management para habilitar el control de acceso a recursos individuales.

Próximos pasos