Descripción general de Dataproc Metastore

Dataproc Metastore es un almacén de metadatos de Apache Hive (HMS) completamente administrado que se ejecuta en Google Cloud. Un (HMS) es el estándar establecido en los macrodatos de código abierto para administrar metadatos técnicos, como esquemas, particiones y columnas estadísticas en una base de datos relacional.

Dataproc Metastore tiene alta disponibilidad, reparación automática y sin servidores. Úsalo para administrar el data lake. metadatos y proporcionan interoperabilidad entre los diversos motores de procesamiento de datos y herramientas que uses.

Cómo funciona Dataproc Metastore

Puedes usar un servicio de Dataproc Metastore conectándolo a un clúster de Dataproc. Un clúster de Dataproc incluye que dependen de un HMS para impulsar la planificación y ejecución de las consultas.

Esta integración te permite conservar la información de tu tabla entre trabajos y metadatos estén disponibles para otros clústeres y otros motores de procesamiento.

Por ejemplo, implementar un almacén de metadatos puede ayudarte a indicar que un subconjunto de tus archivos contiene datos de ingresos, en lugar de hacer un seguimiento manual de los nombres de los archivos. En este caso, puedes definir una tabla para esos archivos y almacenar los metadatos en Dataproc Metastore. Luego, puedes conectarla a una clúster de Dataproc y consultar la tabla para obtener información con Hive, Spark SQL y otros servicios de consultas.

Versiones de Dataproc Metastore

Cuando creas un servicio de Dataproc Metastore, puedes elegir usar un servicio de Dataproc Metastore 2 o Dataproc Metastore 1 servicio.

Casos de uso habituales

Todos los casos de uso que se enumeran en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Asigna significado a tus datos Crea un repositorio centralizado de metadatos que se comparte entre muchos clústeres efímeros de Dataproc. Usa diferentes motores de software de código abierto (OSS), como [Apache Hive](https://hive.apache.org) , Apache Spark y Presto.

  • Obtén una vista unificada de tus datos. Proporcionar interoperabilidad entre Los servicios de Google Cloud, como Dataproc, Dataplex, y BigQuery, o usar otras ofertas de socios basadas en código abierto en en Google Cloud.

Características y beneficios

Todos los atributos enumerados en esta sección son compatibles con Dataproc Metastore 2 y Dataproc Metastore 1, a menos que se indique lo contrario.

  • Compatibilidad con OSS. Conéctate a tus motores de procesamiento de datos existentes como Apache Hive, Apache Spark y Presto.

  • Administración. Crea o actualiza un almacén de metadatos en cuestión de minutos, con de supervisión y operación completamente configuradas.

  • Integración. Integrar en otros productos de Google Cloud, como usando BigQuery como fuente de metadatos para Dataproc clúster.

  • Seguridad integrada. Usar protocolos de seguridad establecidos de Google Cloud, como Identity and Access Management (IAM) y la autenticación de Kerberos.

  • Importación simple. Importa metadatos existentes almacenados en un Metastore de Hive externo Metastore a un servicio de Dataproc Metastore.

  • Copias de seguridad automáticas Configura las copias de seguridad automáticas del almacén de metadatos para evitar la pérdida de datos.

  • Supervisión del rendimiento. Establecer niveles de rendimiento para responder de forma dinámica cargas de trabajo muy intensas y aumentos repentinos, sin calentamiento previo ni almacenamiento en caché.

  • Alta disponibilidad (HA):

    • Dataproc Metastore 2: Proporciona alta disponibilidad zonal (HA) sin requerir ninguna configuración específica o administración continua. Este es se logra replicando automáticamente las bases de datos de backend y los servidores HMS en varias zonas de la región que elijas. Además de la HA zonal, Dataproc Metastore 2 es compatible con la HA y Recuperación ante desastres (DR).
    • Dataproc Metastore 1. De forma predeterminada, proporciona zonas altas alta disponibilidad (HA) sin requerir ninguna configuración específica ni y administración de posturas. Esto se logra replicando automáticamente las bases de datos de backend y HMS en varias zonas de la región que elijas
  • Escalabilidad.

    • Dataproc Metastore 2: Usa un factor de escala horizontal para determinar cuántos recursos necesita usar tu servicio en un momento determinado. El factor de escala se puede controlar de forma manual o se puede configurar para el ajuste de escala automático. cuando sea necesario.
    • Dataproc Metastore 1. Elige entre un nivel de desarrollador o de nivel empresarial cuando configures el servicio. Este nivel determina y la cantidad de recursos que tu servicio necesita usar en un momento determinado.
  • Asistencia. Benefíciate de los ANS estándar y los canales de asistencia de Google Cloud.

Integraciones en Google Cloud

Todas las integraciones que se indican en esta sección son compatibles con Dataproc Metastore 1 y Dataproc Metastore 2, a menos que se indique lo contrario.

  • Dataproc Conéctate a un clúster de Dataproc para entregar y metadatos de las cargas de trabajo de macrodatos de OSS.
  • BigQuery. Consulta conjuntos de datos de BigQuery en Dataproc de las cargas de trabajo.
  • Dataplex. Consulta datos estructurados y semiestructurados descubiertos en un Lake de Dataplex.
  • Data Catalog. Sincroniza Dataproc Metastore con Data Catalog para permitir la búsqueda y el descubrimiento de metadatos.
  • Registros y supervisión. Integra Dataproc Metastore con Productos de Cloud Monitoring y Logging.
  • IAM y autenticación. Confía en la autenticación de OAuth estándar que usan otros productos de Google Cloud, que admite el uso de roles detallados de Identity and Access Management para habilitar el control de acceso para recursos individuales.

Próximos pasos