Descripción general de Dataproc Metastore

Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un HMS es el estándar establecido en el ecosistema de big data de código abierto para administrar metadatos técnicos, como esquemas, particiones y estadísticas de columnas en una base de datos relacional.

Dataproc Metastore tiene alta disponibilidad, reparación automática y sin servidores. Úsalo para administrar el data lake. metadatos y proporcionan interoperabilidad entre los diversos motores de procesamiento de datos y herramientas que uses.

Cómo funciona Dataproc Metastore

Puedes usar un servicio de Dataproc Metastore conectándolo a un clúster de Dataproc. Un clúster de Dataproc incluye componentes que dependen de un HMS para impulsar la planificación y ejecución de consultas.

Esta integración te permite conservar la información de tu tabla entre trabajos y metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un metastore podría ayudarte a designar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de archivo. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Luego, puedes conectarlo a un clúster de Dataproc y consultar la tabla para obtener información con Hive, Spark SQL o cualquier otro servicio de consulta.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

Casos de uso habituales

Todos los casos de uso que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asigna significado a tus datos Crea un repositorio centralizado de metadatos que se comparte entre muchos clústeres efímeros de Dataproc. Usa diferentes motores de software de código abierto (OSS), como [Apache Hive](https://hive.apache.org), Apache Spark y Presto.

  • Crea una vista unificada de tus datos. Proporcionar interoperabilidad entre Los servicios de Google Cloud, como Dataproc, Dataplex, y BigQuery, o usar otras ofertas de socios basadas en código abierto en en Google Cloud.

Características y beneficios

Todos los atributos enumerados en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS. Conéctate a tus motores de procesamiento de datos existentes, como Apache Hive, Apache Spark y Presto.

  • Administración. Crea o actualiza un almacén de metadatos en cuestión de minutos, con de supervisión y operación completamente configuradas.

  • Integración. Integrarse en otros productos de Google Cloud, como usar BigQuery como la fuente de metadatos para un clúster de Dataproc

  • Seguridad integrada. Usar los protocolos de seguridad establecidos de Google Cloud, como Identity and Access Management (IAM) y la autenticación de Kerberos.

  • Importación simple. Importa metadatos existentes almacenados en un almacén de metadatos externo de Hive a un servicio de Dataproc Metastore.

  • Copias de seguridad automáticas Configura las copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento. Establece niveles de rendimiento para responder de forma dinámica a cargas de trabajo y aumentos repentinos de alta intensidad, sin preparación previa ni almacenamiento en caché.

  • Alta disponibilidad (HA):

    • Dataproc Metastore 2: Proporciona alta disponibilidad (HA) zonal sin requerir ninguna configuración específica ni administración continua. Para ello, se replican automáticamente las bases de datos de backend y los servidores HMS en varias zonas de la región que elijas. Además de la HA zonal, Dataproc Metastore 2 es compatible con la HA y Recuperación ante desastres (DR).
    • Dataproc Metastore 1. De forma predeterminada, proporciona zonas altas alta disponibilidad (HA) sin requerir ninguna configuración específica y administración de posturas. Esto se logra replicando automáticamente las bases de datos del backend y los servidores de HMS en varias zonas de la región que elijas.
  • Escalabilidad.

    • Dataproc Metastore 2. Usa un factor de escalamiento horizontal para determinar cuántos recursos debe usar tu servicio en un momento determinado. El factor de escala se puede controlar de forma manual o se puede configurar para el ajuste de escala automático. cuando sea necesario.
    • Dataproc Metastore 1. Elige entre un nivel de desarrollador o de nivel empresarial cuando configures el servicio. Este nivel determina cuántos recursos debe usar tu servicio en un momento determinado.
  • Asistencia. Benefíciate de los ANS estándar y los canales de asistencia de Google Cloud.

Integraciones con Google Cloud

Todas las integraciones que se enumeran en esta sección son compatibles con Dataproc Metastore 1 y Dataproc Metastore 2, a menos que se indique lo contrario.

  • Dataproc Conéctate a un clúster de Dataproc para poder entregar metadatos para cargas de trabajo de macrodatos de OSS.
  • BigQuery. Consulta conjuntos de datos de BigQuery en tus cargas de trabajo de Dataproc.
  • Dataplex. Consulta datos estructurados y semiestructurados descubiertos en un lago de Dataplex.
  • Data Catalog. Sincroniza Dataproc Metastore con Data Catalog para habilitar la búsqueda y el descubrimiento de metadatos.
  • Registro y supervisión. Integra Dataproc Metastore con Productos de Cloud Monitoring y Logging.
  • IAM y autenticación. Confía en la autenticación de OAuth estándar que usan otros productos de Google Cloud, que admite el uso de roles detallados de Identity and Access Management para habilitar el control de acceso para recursos individuales.

Próximos pasos