Descripción general de Dataproc Metastore

Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un HMS es el estándar establecido en el ecosistema de macrodatos de código abierto para administrar metadatos técnicos, como esquemas, particiones y estadísticas de columnas en una base de datos relacional.

Dataproc Metastore tiene alta disponibilidad, reparación automática y no requiere servidores. Úsalo para administrar los metadatos del data lake y proporcionar interoperabilidad entre los distintos motores de procesamiento de datos y las herramientas que usas.

Cómo funciona Dataproc Metastore

Puedes usar un servicio de Dataproc Metastore conectándolo a un clúster de Dataproc. Un clúster de Dataproc incluye componentes que dependen de un HMS para impulsar la planificación y la ejecución de consultas.

Esta integración te permite conservar la información de la tabla entre trabajos o hacer que los metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un metastore podría ayudarte a designar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de los archivos. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Luego, puedes conectarlo a un clúster de Dataproc y consultar la tabla para obtener información con Hive, Spark SQL o cualquier otro servicio de consultas.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes elegir usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

Casos de uso habituales

Todos los casos de uso que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asigna significado a tus datos. Crea un repositorio de metadatos centralizado que se comparta entre muchos clústeres efímeros de Dataproc. Usar diferentes motores de software de código abierto (OSS), como Apache Hive, Apache Spark y Presto

  • Crea una vista unificada de tus datos. Proporciona interoperabilidad entre los servicios deGoogle Cloud , como Dataproc, Dataplex Universal Catalog y BigQuery, o usa otras ofertas de socios basadas en código abierto enGoogle Cloud.

Características y beneficios

Todas las funciones que se indican en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS Conéctate a tus motores de procesamiento de datos existentes, como Apache Hive, Apache Spark y Presto.

  • Administración. Crea o actualiza un metastore en minutos, con tareas de supervisión y operación totalmente configuradas.

  • Integración. Integrarse con otros Google Cloud productos, como usar BigQuery como fuente de metadatos para un clúster de Dataproc

  • Seguridad integrada. Usa protocolos de seguridad Google Cloud establecidos, como Identity and Access Management (IAM) y autenticación de Kerberos.

  • Importación sencilla. Importa los metadatos existentes almacenados en un almacén de metadatos externo de Hive Metastore a un servicio de Dataproc Metastore.

  • Copias de seguridad automáticas Configura copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento Establece niveles de rendimiento para responder de forma dinámica a cargas de trabajo y picos de uso muy intensos, sin preparación previa ni almacenamiento en caché.

  • Alta disponibilidad (HA)

    • Dataproc Metastore 2 Proporciona alta disponibilidad (HA) zonal sin necesidad de ninguna configuración específica ni administración continua. Esto se logra replicando automáticamente las bases de datos de backend y los servidores de HMS en varias zonas de la región que elijas. Además de la HA zonal, Dataproc Metastore 2 admite la HA regional y la recuperación ante desastres (DR).
    • Dataproc Metastore 1. De forma predeterminada, proporciona alta disponibilidad (HA) zonal sin requerir ninguna configuración específica ni administración continua. Esto se logra replicando automáticamente las bases de datos de backend y los servidores de HMS en varias zonas de la región que elijas.

    Para obtener más información sobre las consideraciones específicas de la región, consulta Geografía y regiones.

  • Escalabilidad.

    • Dataproc Metastore 2 Usa un factor de ajuste de escala horizontal para determinar cuántos recursos debe usar tu servicio en un momento determinado. El factor de ajuste de escala se puede controlar de forma manual o configurar para que se ajuste automáticamente cuando sea necesario.
    • Dataproc Metastore 1. Cuando configures tu servicio, elige entre un nivel para desarrolladores o un nivel empresarial. Este nivel determina cuántos recursos debe usar tu servicio en un momento determinado.
  • Asistencia. Benefíciate de los Google Cloud ANS y los canales de asistencia estándar.

Integraciones con Google Cloud

Dataproc Metastore 1 y Dataproc Metastore 2 admiten todas las integraciones que se indican en esta sección, a menos que se indique lo contrario.

  • Dataproc. Conéctate a un clúster de Dataproc para poder entregar metadatos para cargas de trabajo de macrodatos de OSS.
  • BigQuery. Consultar conjuntos de datos de BigQuery en tus cargas de trabajo de Dataproc
  • Dataplex Universal Catalog. Consultar datos estructurados y semiestructurados descubiertos en un lake de Dataplex Universal Catalog
  • Data Catalog. Sincroniza Dataproc Metastore con Data Catalog para habilitar la búsqueda y el descubrimiento de metadatos.
  • Logging y Monitoring. Integra Dataproc Metastore con los productos de Cloud Monitoring y Logging.
  • Autenticación y IAM. Se basa en la autenticación de OAuth estándar que usan otros productos deGoogle Cloud , que admite el uso de roles detallados de Identity and Access Management para habilitar el control de acceso para recursos individuales.

Próximos pasos