Guía de inicio rápido para implementar Dataproc Metastore

En esta página, se muestra cómo crear un servicio de Dataproc Metastore en Google Cloud Console y cómo crear un clúster de Dataproc que use el servicio como su almacén de metadatos de Hive.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyecto

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  4. Habilita la API Dataproc Metastore.

    Habilita la API

Control de acceso

  • Para crear un servicio, debes tener una función de IAM que contenga el permiso de IAM metastore.services.create. Las funciones específicas de Dataproc Metastore roles/metastore.admin y roles/metastore.editor se pueden usar para otorgar permisos de creación.

  • También puedes otorgar permiso de creación a usuarios o grupos mediante las funciones heredadas roles/owner y roles/editor.

Para obtener más información, consulta la IAM y el control de acceso de Dataproc Metastore.

Crea un servicio de Dataproc Metastore

En las siguientes instrucciones, se muestra cómo crear un servicio de Dataproc Metastore con Google Cloud Console, la herramienta de gcloud o la API de Dataproc Metastore.

Console

  1. En Cloud Console, abre la página Crear servicio:

    Abre la página Crear servicio en Cloud Console

    Página Crear servicio
  2. En el campo Nombre del servicio, ingresa example-service.

  3. Selecciona la Ubicación de los datos. Para obtener información sobre cómo seleccionar una región, consulta Regiones disponibles.

  4. Para otras opciones de configuración del servicio, usa los valores predeterminados proporcionados.

  5. Para crear y, luego, iniciar el servicio, haz clic en el botón Enviar.

El nuevo servicio aparecerá en la lista de servicios.

gcloud

Usa el siguiente comando de gcloud metastore services create para crear un servicio:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Reemplaza LOCATION por la región de Compute Engine en la que se creará el servicio. Asegúrate de que la ubicación que especifiques sea aquella en la que Dataproc Metastore esté disponible.

REST

Sigue las instrucciones de la API para crear un servicio mediante el Explorador de API.

Crea un clúster de Dataproc que use el servicio

Después de crear un servicio, puedes crear y adjuntar un clúster de Dataproc que use el servicio como su almacén de metadatos de Hive.

La imagen de Dataproc y la versión de Hive Metastore deben ser compatibles con las siguientes funciones:

  • Las imágenes de Dataproc 2.x requieren servicios de Dataproc Metastore creados con Hive 3.1.2.

  • Las imágenes de Dataproc 1.x requieren servicios de Dataproc Metastore creados con Hive 2.3.6 o 3.1.2, pero tienen un rendimiento óptimo con 2.3.6.

Para obtener más información sobre las versiones de imagen de Dataproc y saber qué versión de Hive usa una imagen de Dataproc, consulta Control de versiones de Dataproc.

Console

  1. En Cloud Console, abre la página Create a cluster (Crear un clúster) de Dataproc:

    Abrir la página Crear un clúster en Cloud Console

  2. En el campo Nombre del clúster, ingresa example-cluster.

  3. En los menús Región y Zona, selecciona una región y una zona para el clúster. Puedes seleccionar una región distinta para aislar los recursos y las ubicaciones de almacenamiento de metadatos dentro de la región especificada. Si seleccionas una región distinta, puedes seleccionar "Sin preferencia" para la zona a fin de permitir que Dataproc elija una zona dentro de la región seleccionada para tu clúster (consulta Ubicación de zona automática de Dataproc).

  4. Usa los valores predeterminados para todas las demás opciones.

  5. Haga clic en la pestaña Personalizar clúster.

  6. En la sección Configuración de red, selecciona la misma red especificada durante la creación del servicio de almacén de metadatos.

  7. En la sección Dataproc Metastore, seleccione example-service.

  8. Haga clic en Create para generar el clúster.

El nuevo clúster aparece en la lista de clústeres. El estado del clúster aparece como "Provisioning" (Aprovisionándose) hasta que esté listo para usarse y después cambia a "Running" (En ejecución).

gcloud

Usa el siguiente comando de gcloud dataproc clusters create para crear un clúster:

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/example-service \
    --region=LOCATION
 

Reemplaza PROJECT_ID por el ID del proyecto en el que creaste tu servicio de Dataproc Metastore.

Reemplaza LOCATION con la misma región que especificaste antes para el servicio de Dataproc Metastore.

REST

Sigue las instrucciones de la API para crear un clúster mediante el Explorador de API.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. Si el proyecto que deseas borrar está vinculado con una organización, expande la lista Organización en la columna Nombre.
  3. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  4. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Como alternativa, puedes borrar los recursos que se usan en este instructivo de la siguiente manera:

  1. Borra el servicio de Dataproc Metastore.

    Console

    1. En Cloud Console, abre la página de Dataproc Metastore:

      Abre Dataproc Metastore en Cloud Console

    2. A la izquierda del nombre del servicio, marca la casilla para seleccionar example-service.

    3. En la parte superior de la página Dataproc Metastore, haz clic en Borrar para borrar el servicio.

    4. En el cuadro de diálogo, haz clic en Borrar para confirmar la eliminación.

    Tu servicio ya no aparece en la lista de servicios.

    gcloud

    Usa el siguiente comando de gcloud metastore services delete para borrar un servicio:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Reemplaza LOCATION por la región de Compute Engine donde se creó el servicio.

    REST

    Sigue las instrucciones de la API para borrar un servicio mediante el Explorador de API.

    Todas las eliminaciones se completa de forma exitosa de inmediato.

  2. Borra el bucket de Cloud Storage para el servicio de Dataproc Metastore.

  3. Borra el clúster de Dataproc que usó el servicio de Dataproc Metastore.

¿Qué sigue?