Descripción general de Dataproc Metastore

Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un HMS es el estándar establecido en el ecosistema de big data de código abierto para administrar metadatos técnicos, como esquemas, particiones y estadísticas de columnas en una base de datos relacional.

Dataproc Metastore tiene alta disponibilidad, reparación automática y no requiere servidores. Úsalo para administrar los metadatos del data lake y proporcionar interoperabilidad entre los distintos motores de procesamiento de datos y herramientas que usas.

Cómo funciona Dataproc Metastore

Para usar un servicio de Dataproc Metastore, conéctalo a un clúster de Dataproc. Un clúster de Dataproc incluye componentes que dependen de un HMS para impulsar la planificación y ejecución de consultas.

Esta integración te permite mantener la información de tu tabla entre trabajos o hacer que los metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un metastore podría ayudarte a designar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de archivo. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Luego, puedes conectarlo a un clúster de Dataproc y consultar la tabla para obtener información con Hive, Spark SQL o cualquier otro servicio de consulta.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

  • Dataproc Metastore 2 es la nueva generación del servicio que ofrece escalabilidad horizontal, además de las funciones de Dataproc Metastore 1. Para obtener más información, consulta Funciones y beneficios.

  • Dataproc Metastore 2 tiene un plan de precios diferente al de Dataproc Metastore. Para obtener más información, consulta los planes de precios y las configuraciones de escalamiento.

Casos de uso habituales

Todos los casos de uso que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asignar significado a tus datos Crea un repositorio de metadatos centralizado que se comparta entre muchos clústeres efímeros de Dataproc. Usa diferentes motores de software de código abierto (OSS), como [Apache Hive](https://hive.apache.org), Apache Spark y Presto.

  • Crea una vista unificada de tus datos. Proporciona interoperabilidad entre servicios de Google Cloud, como Dataproc, Dataplex y BigQuery, o usa otras ofertas de socios basadas en código abierto en Google Cloud.

Características y beneficios

Todas las funciones que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS. Conéctate a tus motores de procesamiento de datos existentes, como Apache Hive, Apache Spark y Presto.

  • Administración. Crea o actualiza un metastore en minutos, con tareas de supervisión y operación totalmente configuradas.

  • Integración. Integrarse en otros productos de Google Cloud, como usar BigQuery como la fuente de metadatos para un clúster de Dataproc

  • Seguridad integrada. Usa protocolos de seguridad establecidos de Google Cloud, como la administración de identidades y accesos (IAM) y la autenticación de Kerberos.

  • Importación simple. Importa metadatos existentes almacenados en un almacén de metadatos externo de Hive a un servicio de Dataproc Metastore.

  • Copias de seguridad automáticas: Configura copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento. Establece niveles de rendimiento para responder de forma dinámica a cargas de trabajo y aumentos repentinos de alta intensidad, sin preparación previa ni almacenamiento en caché.

  • Alta disponibilidad (HA).

    • Dataproc Metastore 2. Proporciona alta disponibilidad (HA) zonal sin requerir ninguna configuración específica ni administración continua. Para ello, se replican automáticamente las bases de datos de backend y los servidores HMS en varias zonas de la región que elijas. Además de la HA zonal, Dataproc Metastore 2 admite la HA regional y la recuperación ante desastres (DR).
    • Dataproc Metastore 1. De forma predeterminada, proporciona alta disponibilidad (HA) zonal sin requerir ninguna configuración específica ni administración continua. Esto se logra replicando automáticamente las bases de datos del backend y los servidores HMS en varias zonas de la región que elijas.
  • Escalabilidad.

    • Dataproc Metastore 2. Usa un factor de escalamiento horizontal para determinar cuántos recursos debe usar tu servicio en un momento determinado. El factor de escalamiento se puede controlar de forma manual o configurar para que se ajuste automáticamente cuando sea necesario.
    • Dataproc Metastore 1. Elige entre un nivel para desarrolladores o un nivel empresarial cuando configures tu servicio. Este nivel determina cuántos recursos debe usar tu servicio en un momento determinado.
  • Asistencia. Aprovecha los ANS y los canales de asistencia estándar de Google Cloud.

Integraciones con Google Cloud

Todas las integraciones que se enumeran en esta sección son compatibles con Dataproc Metastore 1 y Dataproc Metastore 2, a menos que se indique lo contrario.

  • Dataproc. Conéctate a un clúster de Dataproc para poder entregar metadatos para cargas de trabajo de macrodatos de OSS.
  • BigQuery. Consulta conjuntos de datos de BigQuery en tus cargas de trabajo de Dataproc.
  • Dataplex. Consulta datos estructurados y semiestructurados descubiertos en un lago de Dataplex.
  • Data Catalog. Sincroniza Dataproc Metastore con Data Catalog para habilitar la búsqueda y el descubrimiento de metadatos.
  • Registros y supervisión. Integra Dataproc Metastore con productos de Cloud Monitoring y Logging.
  • Autenticación y IAM. Usa la autenticación de OAuth estándar que usan otros productos de Google Cloud, que admite el uso de roles detallados de Identity and Access Management para habilitar el control de acceso de recursos individuales.

Próximos pasos