Descripción general de Dataproc Metastore

Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un (HMS) es el estándar establecido en los macrodatos de código abierto para administrar metadatos técnicos, como esquemas, particiones y columnas estadísticas en una base de datos relacional.

Dataproc Metastore tiene alta disponibilidad, reparación automática y no requiere servidores. Úsalo para administrar el data lake. metadatos y proporcionan interoperabilidad entre los diversos motores de procesamiento de datos y herramientas que uses.

Cómo funciona Dataproc Metastore

Para usar un servicio de Dataproc Metastore, conéctalo a un clúster de Dataproc. Un clúster de Dataproc incluye que dependen de un HMS para impulsar la planificación y ejecución de las consultas.

Esta integración te permite conservar la información de tu tabla entre trabajos y metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un metastore podría ayudarte a designar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de archivo. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore Luego, puedes conectarlo a un clúster de Dataproc y consultar la tabla para obtener información con Hive, Spark SQL o cualquier otro servicio de consulta.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

Casos de uso habituales

Todos los casos de uso que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asigna significado a tus datos Crea un repositorio de metadatos centralizado que se comparta entre muchos clústeres efímeros de Dataproc. Usa diferentes motores de software de código abierto (OSS), como [Apache Hive](https://hive.apache.org) , Apache Spark y Presto.

  • Crea una vista unificada de tus datos. Proporciona interoperabilidad entre servicios de Google Cloud, como Dataproc, Dataplex y BigQuery, o usa otras ofertas de socios basadas en código abierto en Google Cloud.

Características y beneficios

Todas las funciones que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS. Conéctate a tus motores de procesamiento de datos existentes, como Apache Hive, Apache Spark y Presto.

  • Administración. Crea o actualiza un metastore en minutos, con tareas de supervisión y operación totalmente configuradas.

  • Integración. Integrar en otros productos de Google Cloud, como usando BigQuery como fuente de metadatos para Dataproc clúster.

  • Seguridad integrada. Usar los protocolos de seguridad establecidos de Google Cloud, como Identity and Access Management (IAM) y la autenticación de Kerberos.

  • Importación simple. Importa metadatos existentes almacenados en un Metastore de Hive externo Metastore a un servicio de Dataproc Metastore.

  • Copias de seguridad automáticas Configura las copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento. Establece niveles de rendimiento para responder de forma dinámica a cargas de trabajo y aumentos repentinos de alta intensidad, sin preparación previa ni almacenamiento en caché.

  • Alta disponibilidad (HA).

    • Dataproc Metastore 2. Proporciona alta disponibilidad (HA) zonal sin requerir ninguna configuración específica ni administración continua. Para ello, se replican automáticamente las bases de datos de backend y los servidores HMS en varias zonas de la región que elijas. Además de la HA zonal, Dataproc Metastore 2 admite la HA regional y la recuperación ante desastres (DR).
    • Dataproc Metastore 1. De forma predeterminada, proporciona alta disponibilidad (HA) zonal sin requerir ninguna configuración específica ni administración continua. Esto se logra replicando automáticamente las bases de datos de backend y HMS en varias zonas de la región que elijas
  • Escalabilidad.

    • Dataproc Metastore 2. Usa un factor de escalamiento horizontal para determinar cuántos recursos debe usar tu servicio en un momento determinado. El factor de escalamiento se puede controlar de forma manual o configurar para que se ajuste automáticamente cuando sea necesario.
    • Dataproc Metastore 1. Elige entre un nivel para desarrolladores o un nivel empresarial cuando configures tu servicio. Este nivel determina la cantidad de recursos que tu servicio necesita usar en un momento determinado.
  • Asistencia. Aprovecha los ANS y los canales de asistencia estándar de Google Cloud.

Integraciones con Google Cloud

Todas las integraciones que se enumeran en esta sección son compatibles con Dataproc Metastore 1 y Dataproc Metastore 2, a menos que se indique lo contrario.

  • Dataproc Conéctate a un clúster de Dataproc para poder entregar metadatos para cargas de trabajo de macrodatos de OSS.
  • BigQuery. Consulta conjuntos de datos de BigQuery en Dataproc de las cargas de trabajo.
  • Dataplex. Consulta datos estructurados y semiestructurados descubiertos en un lago de Dataplex.
  • Data Catalog. Sincroniza Dataproc Metastore con Data Catalog para permitir la búsqueda y el descubrimiento de metadatos.
  • Registros y supervisión. Integra Dataproc Metastore con productos de Cloud Monitoring y Logging.
  • Autenticación y IAM. Usa la autenticación de OAuth estándar que usan otros productos de Google Cloud, que admite el uso de roles detallados de Identity and Access Management para habilitar el control de acceso de recursos individuales.

Próximos pasos