Descripción general de Dataproc Metastore

Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un (HMS) es el estándar establecido en el ecosistema de macrodatos de código abierto para administrar metadatos técnicos, como esquemas, particiones y estadísticas de columnas en una base de datos relacional.

Dataproc Metastore tiene alta disponibilidad, reparación automática y sin servidores. Úsalo para administrar los metadatos del data lake y proporcionar interoperabilidad entre los distintos motores y herramientas de procesamiento de datos que usas.

Cómo funciona Dataproc Metastore

Para usar un servicio de Dataproc Metastore, puedes conectarlo a un clúster de Dataproc. Un clúster de Dataproc incluye componentes que se basan en un HMS para impulsar la planificación y ejecución de consultas.

Esta integración te permite mantener la información de la tabla entre trabajos o hacer que los metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un almacén de metadatos podría ayudarte a indicar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de realizar un seguimiento manual de los nombres de los archivos. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Luego, puedes conectarlo a un clúster de Dataproc y consultar la tabla para obtener información mediante Hive, Spark SQL o algún otro servicio de consultas.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes elegir usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.

Casos de uso habituales

Todos los casos de uso que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asigna significado a tus datos Crea un repositorio de metadatos centralizado para compartir entre muchos clústeres efímeros de Dataproc. Usa diferentes motores de software de código abierto (OSS), como [Apache Hive](https://hive.apache.org, Apache Spark y Presto).

  • Obtén una vista unificada de tus datos. Proporcionar interoperabilidad entre los servicios de Google Cloud, como Dataproc, Dataplex y BigQuery, o usar otras ofertas de socios basadas en código abierto en Google Cloud

Características y beneficios

Todos los atributos enumerados en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS. Conéctate a tus motores de procesamiento de datos existentes, como Apache Hive, Apache Spark y Presto.

  • Administración. Crea o actualiza un almacén de metadatos en cuestión de minutos, completa con tareas de supervisión y operación completamente configuradas.

  • Integración. Integrar a otros productos de Google Cloud, por ejemplo, usar BigQuery como fuente de metadatos para un clúster de Dataproc.

  • Seguridad integrada. Usa protocolos de seguridad establecidos de Google Cloud, como la administración de identidades y accesos (IAM) y la autenticación de Kerberos.

  • Importación simple. Importar los metadatos existentes almacenados en un almacén de metadatos de Hive Metastore externo a un servicio de Dataproc Metastore.

  • Copias de seguridad automáticas Configura las copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento. Configura niveles de rendimiento para responder de forma dinámica a cargas de trabajo y aumentos muy intensivos, sin preparación previa ni almacenamiento en caché.

  • Alta disponibilidad (HA):

    • Dataproc Metastore 2: Proporciona alta disponibilidad (HA) zonal sin necesidad de ninguna configuración específica ni administración continua. Esto se logra mediante la replicación automática de las bases de datos de backend y los servidores HMS en varias zonas de la región que elijas. Además de la HA zonal, Dataproc Metastore 2 admite la HA y la recuperación ante desastres (DR) regionales.
    • Dataproc Metastore 1. De forma predeterminada, proporciona alta disponibilidad (HA) zonal sin necesidad de ninguna configuración específica ni administración continua. Esto se logra con la replicación automática de bases de datos de backend y servidores HMS
  • Escalabilidad:

    • Dataproc Metastore 2: Usa un factor de escala horizontal para determinar cuántos recursos necesita usar tu servicio en un momento determinado. El factor de escalamiento se puede controlar de forma manual o se puede configurar para el ajuste de escala automático cuando sea necesario.
    • Dataproc Metastore 1. Elige entre un nivel de desarrollador o un nivel empresarial cuando configures el servicio. Este nivel determina cuántos recursos necesita usar tu servicio en un momento determinado.
  • Asistencia. Benefíciate de los ANS estándar y los canales de asistencia de Google Cloud.

Integraciones en Google Cloud

Todas las integraciones que se enumeran en esta sección son compatibles con Dataproc Metastore 1 y Dataproc Metastore 2, a menos que se indique lo contrario.

  • Dataproc Conéctate a un clúster de Dataproc para entregar metadatos en cargas de trabajo de macrodatos de OSS.
  • BigQuery. Consultar conjuntos de datos de BigQuery en tus cargas de trabajo de Dataproc.
  • Dataplex. Consulta datos estructurados y semiestructurados descubiertos en un lake de Dataplex.
  • Data Catalog. Sincronizar Dataproc Metastore con Data Catalog para habilitar la búsqueda y descubrimiento de metadatos.
  • Registros y supervisión. Integrar Dataproc Metastore a los productos de Cloud Monitoring y Logging
  • IAM y autenticación. Confía en la autenticación estándar de OAuth que usan otros productos de Google Cloud, que admite el uso de funciones detalladas de Identity and Access Management para habilitar el control de acceso para recursos individuales.

Próximos pasos