Guía de inicio rápido para implementar Dataproc Metastore

En esta página, se muestra cómo crear un servicio de Dataproc Metastore y un clúster de Dataproc que usa el servicio como su almacén de metadatos de Hive.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  4. Habilita la API Dataproc Metastore.

    Habilita la API

Control de acceso

  • Para crear un servicio, debes tener una función de IAM que contenga el permiso de IAM metastore.services.create. Las funciones específicas roles/metastore.admin y roles/metastore.editor de Dataproc Metastore incluyen permisos de creación.

  • Puedes otorgar permiso para crear a usuarios o grupos mediante las funciones heredadas roles/owner y roles/editor.

Para obtener más información, consulta la IAM y el control de acceso de Dataproc Metastore.

Crea un servicio de Dataproc Metastore

En las siguientes instrucciones, se muestra cómo crear un servicio de Dataproc Metastore con Google Cloud Console, la herramienta de gcloud o la API de Dataproc Metastore.

Console

  1. En Cloud Console, abre la página Crear servicio:

    Abre la página Crear servicio en Cloud Console

    Página Crear servicio
  2. En el campo Nombre del servicio, ingresa example-service.

  3. Selecciona la Ubicación de los datos. Para obtener información sobre cómo seleccionar una región, consulta Regiones disponibles.

  4. Para otras opciones de configuración del servicio, usa los valores predeterminados proporcionados.

  5. Para crear y, luego, iniciar el servicio, haz clic en el botón Enviar.

El nuevo servicio aparecerá en la lista de servicios.

gcloud

Ejecuta el siguiente comando de gcloud metastore services create para crear un servicio:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Reemplaza LOCATION por la región de Compute Engine en la que se creará el servicio. Asegúrate de que Dataproc Metastore esté disponible en la ubicación.

REST

Sigue las instrucciones de la API para crear un servicio mediante el Explorador de API.

Crea un clúster de Dataproc que use el servicio

Después de crear un servicio, puedes crear y adjuntar un clúster de Dataproc que use el servicio como su almacén de metadatos de Hive.

La imagen de Dataproc y la versión de Dataproc Metastore Hive deben ser compatibles. Consulta las siguientes páginas de control de versiones de imágenes para asegurarte de que la versión de Hive sea compatible:

Para obtener más información, consulta Lista de versiones de imágenes de Dataproc.

Console

  1. En Cloud Console, abra la página Crear un clúster de Dataproc:

    Abrir la página Crear un clúster en Cloud Console

  2. En el campo Nombre del clúster, ingresa example-cluster.

  3. En los menús Región y Zona, selecciona una región y zona para el clúster. Puedes seleccionar una región distinta para aislar recursos y ubicaciones de almacenamiento de metadatos dentro de la región especificada. Si seleccionas una región distinta, puedes seleccionar “Sin preferencias” en la zona a fin de permitir que Dataproc elija una zona dentro de la región seleccionada para tu clúster (consulta Posición de la zona automática de Dataproc )

  4. Usa los valores predeterminados para todas las demás opciones.

  5. Haz clic en la pestaña Personalizar clúster.

  6. En la sección Configuración de red, selecciona la misma red especificada durante la creación del servicio de Metastore.

  7. En la sección Dataproc Metastore, selecciona example-service.

  8. Haga clic en Create para generar el clúster.

El clúster nuevo aparecerá en la lista de clústeres. El estado del clúster aparece como “Aprovisionando” hasta que esté listo para usarse. Luego, su estado cambia a "Running".

gcloud

Ejecuta el siguiente comando de gcloud dataproc clusters create para crear un clúster:

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/example-service \
    --region=LOCATION
 

Reemplaza PROJECT_ID por el ID del proyecto en el que creaste el servicio de Dataproc Metastore.

Reemplaza LOCATION por la región que especificaste para el servicio de Dataproc Metastore.

REST

Sigue las instrucciones de la API para crear un clúster mediante el Explorador de API.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. Si el proyecto que deseas borrar está vinculado con una organización, expande la lista Organización en la columna Nombre.
  3. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  4. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Como alternativa, puedes borrar los recursos que se usan en este instructivo de la siguiente manera:

  1. Borra el servicio de Dataproc Metastore.

    Console

    1. En Cloud Console, abre la página de Dataproc Metastore:

      Abre Dataproc Metastore en Cloud Console

    2. A la izquierda del nombre del servicio, marca la casilla para seleccionar example-service.

    3. En la parte superior de la página de Dataproc Metastore, haz clic en Borrar para borrar el servicio.

    4. En el cuadro de diálogo, haz clic en Borrar para confirmar la eliminación.

    Tu servicio ya no aparece en la lista de servicios.

    gcloud

    Usa el siguiente comando de gcloud metastore services delete para borrar un servicio:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Reemplaza LOCATION por la región de Compute Engine donde se creó el servicio.

    REST

    Sigue las instrucciones de la API para borrar un servicio mediante el Explorador de API.

    Todas las eliminaciones se completa de forma exitosa de inmediato.

  2. Borra el bucket de Cloud Storage para el servicio de Dataproc Metastore.

  3. Borra el clúster de Dataproc que usó el servicio de Dataproc Metastore.

¿Qué sigue?