Usa los siguientes conceptos para comprender cómo funciona Dataproc Metastore y las diferentes funciones que puedes usar con tu servicio.
Versiones de Dataproc Metastore
Cuando creas un servicio de Dataproc Metastore, puedes usar un servicio de Dataproc Metastore 2 o un servicio de Dataproc Metastore 1.
Dataproc Metastore 2
Dataproc Metastore 2 usa un factor de escalamiento para determinar cuántos recursos usa tu servicio en un momento determinado. Después de crear un Dataproc Metastore 2, puedes escalar el servicio hacia arriba o hacia abajo modificando el factor de escalamiento.
Dataproc Metastore 2 es la nueva generación del servicio que ofrece escalabilidad horizontal, además de las funciones de Dataproc Metastore. Para obtener más información, consulta Funciones y beneficios.
Dataproc Metastore 2 tiene un plan de precios diferente al de Dataproc Metastore. Para obtener más información, consulta los planes de precios y las configuraciones de escalamiento.
Dataproc Metastore 1
Dataproc Metastore 1 usa niveles de servicio para determinar cuántos recursos usa tu servicio en un momento determinado. Los niveles de servicio proporcionan una cantidad predecible y predeterminada de recursos.
Cómo verificar la versión de Dataproc Metastore
Puedes verificar qué versión de Dataproc Metastore estás usando en la consola de Google Cloud.
- Dataproc Metastore 2: La tabla de configuración contiene el siguiente valor: Edition Enterprise - Single Region.
- Dataproc Metastore 1: La tabla de configuración contiene uno de los siguientes valores: Nivel: DEVELOPER o Nivel: ENTERPRISE.
Términos comunes de Dataproc Metastore
Los siguientes términos se usan comúnmente en el ecosistema y la documentación de Metastore de Dataproc.
Servicios
- Apache Hive. Hive es un popular sistema de almacén de datos de código abierto compilado en Apache Hadoop. Hive ofrece un lenguaje de consulta similar a SQL llamado HiveQL, que se usa para analizar grandes conjuntos de datos estructurados.
- Almacén de metadatos de Apache Hive. El almacén de metadatos de Hive conserva los metadatos de las tablas de Hive, como esquemas y ubicaciones.
- Dataproc. Dataproc es un servicio de Google Cloud completamente administrado, rápido y fácil de usar, que sirve para ejecutar cargas de trabajo de Apache Spark y Apache Hadoop de una manera simple y rentable. Después de crear un almacén de metadatos de Dataproc, puedes conectarte a él desde un clúster de Dataproc.
- Clúster de Dataproc. Después de crear un servicio de Dataproc Metastore, puedes conectarte a él desde un clúster de Dataproc. También puedes usar Dataproc Metastore con varios otros clústeres, como clústeres autoadministrados de Apache Hive, Apache Spark o Presto.
- Servicio de Dataproc Metastore. Es el nombre de la instancia del metastore que creas en Google Cloud. Puedes tener uno o varios servicios de metastore diferentes en tu implementación.
- Private Service Connect. Private Service Connect te permite configurar una conexión privada a los metadatos de Dataproc Metastore en redes de VPC. Puedes usarlo para establecer redes como alternativa al intercambio de tráfico entre redes de VPC.
- Controles del servicio de VPC. Los Controles del servicio de VPC mejoran tu capacidad de mitigar el riesgo de robo de datos de los servicios de Google Cloud, ya que te permiten crear perímetros que protegen los recursos y datos de los servicios que especificas de forma explícita.
Conceptos
- Tablas. Todas las aplicaciones de Hive tienen tablas externas internas o no administradas que almacenan tus datos.
- Directorio de almacenes de Hive: Es la ubicación predeterminada en la que se almacenan los datos de las tablas administradas.
- Bucket de artefactos: Un bucket de Cloud Storage que se crea en tu proyecto automáticamente con cada servicio de metastore que crees. Este bucket se puede usar para almacenar los artefactos de tu servicio, como los metadatos exportados y los datos de tablas administrados. De forma predeterminada, el bucket de artefactos almacena el directorio de almacenes predeterminado de tu servicio de Dataproc Metastore.
- Extremos. Un servicio de Dataproc Metastore proporciona a los clientes acceso a los metadatos almacenados de Hive Metastore a través de uno o más extremos de red. Dataproc Metastore proporciona URIs para estos extremos.
- Protocolos de extremo Es el protocolo de red por cable que se usa para la comunicación entre los clientes de Dataproc Metastore y Hive Metastore. Dataproc Metastore admite extremos de Apache Thrift y gRPC.
- Federación de metadatos. Es una función que te permite acceder a los metadatos almacenados en varias instancias de Dataproc Metastore.
- Versiones auxiliares: Es una función que te permite conectar varias versiones de clientes de Hive al mismo servicio de Dataproc Metastore.
Conceptos del almacén de metadatos de Hive
Para usar un servicio de Dataproc Metastore, debes comprender los conceptos básicos del almacén de metadatos de Hive. Para obtener más información, consulta Almacén de metadatos de Hive.
Requisitos de red
El servicio de Dataproc Metastore requiere acceso a la red para funcionar correctamente. Para obtener más información, consulta Configura los requisitos de red.
Parámetros de configuración del proyecto
Hay varias configuraciones de proyecto posibles que puedes usar cuando implementas un clúster de Dataproc y un servicio de Dataproc Metastore. Para obtener más información, consulta Implementación en varios proyectos.