Se usó la API de Cloud Translation para traducir esta página.

Conecta un clúster de Dataproc o autoadministrado

Después de crear un servicio de Dataproc Metastore, puedes adjuntar cualquiera de los siguientes servicios:

Un clúster de Dataproc
Una instancia autoadministrada de Apache Hive, una instancia de Apache Spark o un clúster de Presto

Después de conectar uno de estos servicios, este usará tu servicio de Dataproc Metastore como su almacén de metadatos de Hive durante la ejecución de la consulta.

Antes de comenzar

Habilita Dataproc Metastore en tu proyecto.
Crea un servicio de Dataproc Metastore.
Comprende los requisitos de redes específicos de tu proyecto.

Funciones requeridas

Para obtener los permisos que necesitas para crear un metastore de Dataproc y un clúster de Dataproc, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para otorgar control total de los recursos de Dataproc Metastore, haz una de las siguientes acciones:
- Editor de Dataproc Metastore (roles/metastore.editor) en la cuenta de usuario o la cuenta de servicio
- Administrador de Dataproc Metastore (roles/metastore.admin) en la cuenta de usuario o la cuenta de servicio
Para crear un clúster de Dataproc, haz lo siguiente: (roles/dataproc.worker) en la cuenta de servicio de VM de Dataproc
Para otorgar permisos de lectura y escritura al directorio del almacén de Hive, haz lo siguiente: (roles/storage.objectAdmin) en la cuenta de servicio de VM de Dataproc

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para crear un metastore de Dataproc y un clúster de Dataproc. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para crear un Dataproc Metastore y un clúster de Dataproc:

Para crear un almacén de metadatos de Dataproc, haz lo siguiente: metastore.services.create en la cuenta de usuario o la cuenta de servicio
Para crear un clúster de Dataproc, haz lo siguiente: dataproc.clusters.create en la cuenta de usuario o la cuenta de servicio
Para acceder al directorio de almacenes de Hive: orgpolicy.policy.get1,resourcemanager.projects.get,resourcemanager.projects.list,storage.objects.*,storage.multipartUploads.* en la cuenta de servicio de VM de Dataproc

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Para obtener más información sobre los roles y permisos específicos de Dataproc Metastore, consulta Administra el acceso con IAM.

Clústeres de Dataproc

Dataproc es un servicio administrado de Apache Spark y Apache Hadoop que te permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, la transmisión y el aprendizaje automático.

Consideraciones

Antes de crear y adjuntar un clúster de Dataproc, verifica qué protocolo de extremo usa tu servicio de Dataproc Metastore. Este protocolo define cómo tus clientes de Hive Metastore acceden a los metadatos almacenados en tu Dataproc Metastore. Esta elección también puede afectar las funciones que puedes integrar y usar con tu servicio.

Apache Thrift

Si usas el protocolo de extremo de Apache Thrift, ten en cuenta los siguientes requisitos de red:

De forma predeterminada, debes crear tu clúster de Dataproc y tu servicio de Dataproc Metastore en la misma red. Tu clúster de Dataproc también puede usar una subred de la red del servicio de Dataproc Metastore.
Si tu clúster de Dataproc pertenece a un proyecto diferente de la red, debes configurar permisos de red compartidos.
Si tu clúster de Dataproc pertenece a un proyecto diferente del servicio de Dataproc Metastore, debes configurar permisos adicionales antes de crear un clúster de Dataproc.

gRPC

Si usas el protocolo de extremo de gRPC, ten en cuenta los siguientes requisitos de red:

Después de crear un almacén de metadatos de Dataproc con el protocolo de extremo de gRPC, debes otorgar funciones de IAM adicionales.
Si usas la autenticación de clúster personal de Dataproc, tu Dataproc Metastore debe usar el protocolo de extremo de gRPC.
Si tu clúster de Dataproc pertenece a un proyecto diferente del servicio de Dataproc Metastore, debes configurar permisos adicionales antes de crear un clúster de Dataproc.

Crea un clúster y adjunta un almacén de metadatos de Dataproc

En las siguientes instrucciones, se muestra cómo crear un clúster de Dataproc y conectarte a él desde un servicio de Dataproc Metastore. En estas instrucciones, se supone que ya creaste un servicio de Dataproc Metastore.

Antes de crear tu clúster de Dataproc, asegúrate de que la imagen de Dataproc que elijas sea compatible con la versión de Hive Metastore que seleccionaste cuando creaste tu Dataproc Metastore. Para obtener más información, consulta la Lista de versiones con imágenes de Dataproc.
Para optimizar la conectividad de red, crea el clúster de Dataproc en la misma región que tu servicio de Dataproc Metastore.

Console

En la Google Cloud consola, abre la página Crear un clúster de Dataproc:

Abrir Crear un clúster
En el campo Cluster Name, ingresa un nombre para tu clúster.
En los menús Región y Zona, selecciona la misma región en la que creaste tu servicio de Dataproc Metastore. Puedes elegir cualquier zona.
Haz clic en la pestaña Personalizar clúster.
En la sección Configuración de red, selecciona la misma red en la que creaste tu servicio de Dataproc Metastore.
En la sección Dataproc Metastore, selecciona el servicio de Dataproc Metastore que deseas adjuntar. Si aún no creaste uno, puedes seleccionar Crear servicio nuevo.

Nota: Si no ves tu servicio de Dataproc Metastore en esta lista, verifica dos veces qué región seleccionaste para tu clúster de Dataproc. Ambos servicios deben configurarse para usar la misma región.
Opcional: Si tu servicio de Dataproc Metastore usa el protocolo de extremo de gRPC, haz lo siguiente:
1. Haz clic en la pestaña Administrar seguridad.
2. En la sección Acceso al proyecto, selecciona Habilita el alcance de la plataforma de nube para este clúster.
Configura las opciones de servicio restantes según sea necesario.
Para crear el clúster, haz clic en Crear.

Tu clúster nuevo aparecerá en la lista de clústeres. El estado del clúster aparece como Aprovisionando hasta que esté listo para usarse. Cuando esté lista para usarse, el estado cambiará a En ejecución.

gcloud CLI

Para crear un clúster y adjuntar un Dataproc Metastore, ejecuta el siguiente comando gcloud dataproc clusters create:

gcloud dataproc clusters create CLUSTER_NAME \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/SERVICE \
    --region=LOCATION \
    --scopes=SCOPES

Reemplaza lo siguiente:

CLUSTER_NAME: Es el nombre del clúster nuevo de Dataproc.
PROJECT_ID: Es el ID del proyecto en el que creaste tu servicio de Dataproc Metastore.
LOCATION: Es la misma región en la que creaste tu servicio de Dataproc Metastore.
SERVICE: Es el nombre del servicio de Dataproc Metastore que adjuntarás al clúster.
SCOPES: (Opcional) Si tu servicio de Dataproc Metastore usa el protocolo de extremo de gRPC, usa cloud-platform.

REST

Sigue las instrucciones de la API para crear un clúster mediante el Explorador de API.

Cómo adjuntar un clúster con propiedades del clúster de Dataproc

También puedes conectar un clúster de Dataproc a un Dataproc Metastore con propiedades de Dataproc. Estas propiedades incluyen ENDPOINT_URI y WAREHOUSE_DIR de Dataproc Metastore.

Usa estas instrucciones si tu servicio de Dataproc Metastore usa Private Service Connect o si deseas adjuntar un clúster de Dataproc a la versión auxiliar de tu servicio de Dataproc Metastore.

Existen dos formas de adjuntar un clúster de Dataproc con las propiedades ENDPOINT_URI y WAREHOUSE_DIR:

Opción 1: Durante la creación de un clúster de Dataproc

Cuando crees un clúster de Dataproc, usa la marca de propiedades con la siguiente configuración de Hive.

gcloud dataproc clusters create CLUSTER_NAME \
     --properties="hive:hive.metastore.uris=ENDPOINT_URI,hive:hive.metastore.warehouse.dir=WAREHOUSE_DIR/hive-warehouse"

Reemplaza lo siguiente:

CLUSTER_NAME: Es el nombre de tu nuevo clúster de Dataproc.
ENDPOINT_URI: Es el URI del extremo de tu servicio de Dataproc Metastore.
WAREHOUSE_DIR: Es la ubicación de tu directorio de almacén de Hive.

Opción 2: Actualiza el archivo `hive-site.xml`

También puedes adjuntar un clúster de Dataproc modificando directamente el archivo hive-site.xml del clúster.

Conéctate al clúster de .*-m con SSH.

Abre el archivo /etc/hive/conf/hive-site.xml y modifica las siguientes líneas:

<property>
   <name>hive.metastore.uris</name>
   <!-- Update this value. -->
   <value>ENDPOINT_URI</value>
</property>
<!-- Add this property entry. -->
<property>
   <name>hive.metastore.warehouse.dir</name>
   <value>WAREHOUSE_DIR</value>
</property>

Reemplaza lo siguiente:

ENDPOINT_URI: Es el URI del extremo de tu servicio de Dataproc Metastore.
WAREHOUSE_DIR: Es la ubicación de tu directorio de almacén de Hive.

Reinicia HiveServer2:

sudo systemctl restart hive-server2.service

Clústeres autoadministrados

Un clúster autoadministrado puede ser una instancia de Apache Hive, una instancia de Apache Spark o un clúster de Presto.

Conecta un clúster autoadministrado

Establece los siguientes valores en tu archivo de configuración del cliente:

hive.metastore.uris=ENDPOINT_URI
hive.metastore.warehouse.dir=WAREHOUSE_DIR

Reemplaza lo siguiente:

ENDPOINT_URI: Es el URI del extremo de tu servicio de Dataproc Metastore.
WAREHOUSE_DIR: Es la ubicación de tu directorio de almacén de Hive.

Conecta un clúster de Dataproc o autoadministrado Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Antes de comenzar

Funciones requeridas

Permisos necesarios

Clústeres de Dataproc

Consideraciones

Apache Thrift

gRPC

Crea un clúster y adjunta un almacén de metadatos de Dataproc

Console

gcloud CLI

REST

Cómo adjuntar un clúster con propiedades del clúster de Dataproc

Opción 1: Durante la creación de un clúster de Dataproc

Opción 2: Actualiza el archivo hive-site.xml

Clústeres autoadministrados

Conecta un clúster autoadministrado

¿Qué sigue?

Conecta un clúster de Dataproc o autoadministrado

Opción 2: Actualiza el archivo `hive-site.xml`