¿Qué es Dataproc Metastore?

Dataproc Metastore es un almacén de metadatos Apache Hive Metate (HMS) sin servidores y completamente administrado y automática que se encuentra en Google Cloud para productos de estadísticas de datos. Admite HMS, sirve como un componente crítico para administrar los metadatos de entidades relacionales y proporciona interoperabilidad entre aplicaciones de procesamiento de datos en el ecosistema de datos de código abierto.

¿Por qué usar Dataproc Metastore?

Casos de uso de Dataproc Metastore

Los casos de uso de Dataproc Metastore incluyen los siguientes:

  • Un repositorio de metadatos centralizado que se puede compartir entre varios clústeres efímeros de Dataproc que ejecutan diferentes motores de código abierto, como Apache Hive, Apache Spark y Presto.

  • Una vista unificada de tus tablas de código abierto en Google Cloud, que proporciona interoperabilidad entre servicios nativos de la nube, como Dataproc, y varias otras ofertas de socios basadas en código abierto en Google Cloud.

Características de Dataproc Metastore

Dataproc Metastore ofrece lo siguiente:

  • Compatibilidad con OSS: Dataproc Metastore ofrece un almacén de metadatos completo compatible con OSS. Se puede integrar sin problemas a tu pila de procesamiento de datos existente, como Apache Hive, Apache Spark y Presto. Esto proporciona más interoperabilidad entre los servicios de Google Cloud y los socios centrados en el código abierto.

  • Administración: Dataproc Metastore facilita la administración de tu HMS. Puedes crear o actualizar una instancia de HMS en minutos con tareas de supervisión y operaciones totalmente configuradas.

  • Integración: Además de simplificar la administración de servicios de HMS, Dataproc Metastore puede integrarse en los productos existentes de Google Cloud, como Cloud Dataproc. Puedes usar un servicio de Dataproc Metastore en ejecución como fuente de metadatos para un clúster de Dataproc.

  • Importación simple: La función de importación te permite importar metadatos existentes almacenados en una base de datos externa a Dataproc Metastore.

  • Seguridad: Puedes proteger los servicios de Dataproc Metastore con las soluciones de seguridad proporcionadas por Google Cloud. También puedes configurar los permisos de Cloud IAM y usar la autenticación de Kerberos.

  • Confiabilidad: Se crea una copia de seguridad del servicio de Dataproc Metastore con regulridad para que no tengas que preocuparte por la durabilidad de tus datos de HMS.

  • Alto rendimiento: Cada nivel proporciona asignaciones de recursos garantizadas para cargas de trabajo de alto contenido que pueden responder a los aumentos repentinos en llamadas de HMS sin requerir preparación previa o almacenamiento en caché.

  • Escalabilidad a medida que el data lake crece: Puedes cambiar de nivel con facilidad cuando tu data lake esté listo o crear rápidamente metadatos nuevos.

  • Reducción de tiempo de inactividad y aumento de la productividad: Google Cloud proporciona ANS y asistencia.

¿Qué se incluye en Dataproc Metastore?

Para obtener información sobre las versiones de código abierto (Apache Hive) compatibles con Dataproc Metastore, consulta la política de versión de Dataproc Metastore.

Primeros pasos con Dataproc Metastore

Para comenzar rápidamente con Dataproc Metastore, consulta la guía de inicio rápido. Puedes acceder a Dataproc Metastore de las siguientes maneras: