Guía de inicio rápido para migrar a Dataproc Metastore

Preparar un almacén de administración automática se puede simplificar mediante el uso de Dataproc Metastore. En esta página, se muestra cómo migrar tu almacén de metadatos externo administrado a MySQL Metastore. Esto se hace mediante la creación de un archivo de volcado de MySQL y la importación de los metadatos a un servicio de Dataproc Metastore existente.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyecto

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  4. Habilita la API Dataproc Metastore.

    Habilita la API

Control de acceso

  • Para crear un servicio, debes tener una función de IAM que contenga el permiso de IAM metastore.services.create. Para importar metadatos, debes tener una función de IAM que contenga el permiso de IAM metastore.imports.create. Las funciones específicas de Dataproc Metastore se pueden usar roles/metastore.admin y roles/metastore.editor para otorgar permisos de creación y de importación.

  • También puedes otorgar permisos de creación y de importación a usuarios o grupos mediante las funciones heredadas roles/owner y roles/editor.

  • El agente de servicio de Dataproc Metastore (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com) y el usuario que importa los metadatos debe tener el permiso storage.objects.get en el objeto de Cloud Storage (archivo de volcado de SQL) que se usa para la importación.

  • Si usas los Controles del servicio de VPC, solo puedes importar datos desde un bucket de Cloud Storage que resida en el mismo perímetro de servicio que el servicio de Dataproc Metastore.

Para obtener más información, consulta la IAM y el control de acceso de Dataproc Metastore.

Crea un servicio de Dataproc Metastore

Antes de que puedas comenzar la migración, debes tener un servicio existente de Dataproc Metastore para migrar.

En las siguientes instrucciones, se muestra cómo crear un servicio de Dataproc Metastore con Google Cloud Console, la herramienta de gcloud o la API de Dataproc Metastore.

Console

  1. En Cloud Console, abre la página Crear servicio:

    Abre la página Crear servicio en Cloud Console

    Página Crear servicio
  2. En el campo Nombre del servicio, ingresa example-service.

  3. Selecciona la Ubicación de los datos. Para obtener información sobre cómo seleccionar una región, consulta Regiones disponibles.

  4. Para otras opciones de configuración del servicio, usa los valores predeterminados proporcionados.

  5. Para crear y, luego, iniciar el servicio, haz clic en el botón Enviar.

El nuevo servicio aparecerá en la lista de servicios.

gcloud

Usa el siguiente comando de gcloud metastore services create para crear un servicio:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Reemplaza LOCATION por la región de Compute Engine en la que se creará el servicio. Asegúrate de que la ubicación que especifiques sea aquella en la que Dataproc Metastore esté disponible.

REST

Sigue las instrucciones de la API para crear un servicio mediante el Explorador de API.

Prepárate para la migración

Debes preparar los metadatos almacenados en tu base de datos del almacén de metadatos de Hive para la importación. Puedes hacerlo si haces un archivo de volcado de MySQL y lo colocas en un depósito de Cloud Storage.

Consulta Prepara la importación a fin de obtener los pasos para preparar la migración.

Importa los metadatos

Ahora que preparaste el volcado, puedes importarlo a tu servicio de Dataproc Metastore con Google Cloud Console, la herramienta de gcloud o la API de Dataproc Metastore.

Consulta Realiza la importación a fin de obtener los pasos para importar tus metadatos a tu example-service.

Después de importar los metadatos a Dataproc Metastore

Después de importar tus metadatos al servicio example-service de Dataproc Metastore, puedes crear y adjuntar un clúster de Dataproc que use el servicio como su almacén de metadatos de Hive.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. Si el proyecto que deseas borrar está vinculado con una organización, expande la lista Organización en la columna Nombre.
  3. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  4. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Como alternativa, puedes borrar los recursos que se usan en este instructivo de la siguiente manera:

  1. Borra el servicio de Dataproc Metastore.

    Console

    1. En Cloud Console, abre la página de Dataproc Metastore:

      Abre Dataproc Metastore en Cloud Console

    2. A la izquierda del nombre del servicio, marca la casilla para seleccionar example-service.

    3. En la parte superior de la página Dataproc Metastore, haz clic en Borrar para borrar el servicio.

    4. En el cuadro de diálogo, haz clic en Borrar para confirmar la eliminación.

    Tu servicio ya no aparece en la lista de servicios.

    gcloud

    Usa el siguiente comando de gcloud metastore services delete para borrar un servicio:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Reemplaza LOCATION por la región de Compute Engine donde se creó el servicio.

    REST

    Sigue las instrucciones de la API para borrar un servicio mediante el Explorador de API.

    Todas las eliminaciones se completa de forma exitosa de inmediato.

  2. Borra el bucket de Cloud Storage para el servicio de Dataproc Metastore.

¿Qué sigue?