Usa los siguientes conceptos para comprender cómo funciona Dataproc Metastore y las diferentes características que puedes usar con tu servicio.
Versiones de Dataproc Metastore
Cuando creas un servicio de Dataproc Metastore, puedes elegir usar un servicio de Dataproc Metastore 2 o uno de Dataproc Metastore 1.
Dataproc Metastore 2
Dataproc Metastore 2 usa un factor de escalamiento para determinar cuántos recursos usa tu servicio en un momento determinado. Después de crear un Dataproc Metastore 2, puedes modificar el factor de escalamiento para aumentar o disminuir la escala del servicio.
Dataproc Metastore 2 es la nueva generación del servicio que ofrece escalabilidad horizontal, además de las funciones de Dataproc Metastore. Para obtener más información, consulta Funciones y beneficios.
Dataproc Metastore 2 tiene un plan de precios diferente al de Dataproc Metastore. Para obtener más información, consulta los planes de precios y configuraciones de escalamiento.
Dataproc Metastore 1
Dataproc Metastore 1 usa niveles de servicio para determinar cuántos recursos usa tu servicio en un momento determinado. Los niveles de servicio proporcionan una cantidad predeterminada y predecible de recursos.
Verifica tu versión de Dataproc Metastore
Puedes verificar qué versión de Dataproc Metastore usas en la consola de Google Cloud.
- Dataproc Metastore 2: La tabla de configuración contiene el siguiente valor: Edition Enterprise - Single Region.
- Dataproc Metastore 1: La tabla de configuración contiene uno de los siguientes valores: Tier: Developer o Tier: ENTERPRISE.
Términos comunes de Dataproc Metastore
Los siguientes términos se usan con frecuencia en todo el ecosistema y la documentación de Dataproc Metastore.
Servicios
- Apache Hive Hive es un popular sistema de almacén de datos de código abierto compilado en Apache Hadoop. Hive ofrece un lenguaje de consulta similar a SQL llamado HiveQL, que se utiliza para analizar grandes conjuntos de datos estructurados.
- Almacén de metadatos de Apache Hive. El almacén de metadatos de Hive conserva los metadatos de las tablas de Hive, como esquemas y ubicaciones.
- Dataproc. Dataproc es un servicio rápido, fácil de usar y completamente administrado en Google Cloud para ejecutar cargas de trabajo de Apache Spark y Apache Hadoop de forma simple y rentable. Después de crear un Dataproc Metastore, puedes conectarte a él desde un clúster de Dataproc.
- Clúster de Dataproc. Después de crear un servicio de Dataproc Metastore, puedes conectarte a él desde un clúster de Dataproc. También puedes usar Dataproc Metastore con varios otros clústeres, como los clústeres autoadministrados de Apache Hive, Apache Spark o Presto.
- Servicio de Dataproc Metastore. Es el nombre de la instancia de almacén de metadatos que creas en Google Cloud. Puedes tener uno o muchos servicios diferentes de almacén de metadatos en tu implementación.
- Private Service Connect. Private Service Connect te permite configurar una conexión privada a los metadatos de Dataproc Metastore en las redes de VPC. Puedes usarlo para las herramientas de redes como alternativa al intercambio de tráfico entre VPC.
- Controles del servicio de VPC. Los Controles del servicio de VPC mejoran la capacidad de mitigar el riesgo de robo de datos de los servicios de Google Cloud, ya que te permiten crear perímetros que protegen los recursos y datos de los servicios que especifiques de forma explícita.
Conceptos
- Tablas. Todas las aplicaciones de Hive tienen tablas internas o externas administradas que almacenan tus datos.
- Directorio del almacén de Hive. Es la ubicación predeterminada en la que se almacenan los datos de la tabla administrada.
- Bucket de artefactos. Un bucket de Cloud Storage que se crea en tu proyecto de forma automática con cada servicio de almacén de metadatos que creas. Este bucket se puede usar para almacenar los artefactos de servicio, como metadatos exportados y datos de tablas administradas. De forma predeterminada, el bucket de artefactos almacena el directorio de almacén predeterminado de tu servicio de Dataproc Metastore.
- Extremos. Un servicio de Dataproc Metastore proporciona a los clientes acceso a los metadatos almacenados de Hive Metastore a través de uno o más extremos de red. Dataproc Metastore proporciona URI para estos extremos.
- Protocolos de extremos. El protocolo de red por cable que se usa para la comunicación entre los clientes de Dataproc Metastore y Hive Metastore. Dataproc Metastore admite Apache Thrift y los extremos gRPC.
- Federación de metadatos. Una función que te permite acceder a los metadatos almacenados en varias instancias de Dataproc Metastore.
- Versiones auxiliares. Una función que te permite conectar varias versiones de cliente de Hive al mismo servicio de Dataproc Metastore.
Conceptos del almacén de metadatos de Hive
Para usar un servicio de Dataproc Metastore, es necesario que comprendas conceptos básicos del almacén de metadatos de Hive. Para obtener más información, consulta Hive Metastore.
Requisitos de red
El servicio de Dataproc Metastore requiere acceso a las herramientas de redes para funcionar correctamente. Para obtener más información, consulta Configura los requisitos de red.
Configuraciones de proyectos
Hay una serie de parámetros de configuración posibles del proyecto que puedes usar cuando implementas un clúster de Dataproc y un servicio de Dataproc Metastore. Para obtener más información, consulta Implementación entre proyectos.