Guía de inicio rápido para migrar a Dataproc Metastore

Puedes preparar un almacén de metadatos autoadministrado con solo usar Dataproc Metastore.

En esta página, se muestra cómo migrar tu almacén de metadatos externo de MySQL autoadministrado a Dataproc Metastore mediante la creación de un archivo de volcado de MySQL y la importación de los metadatos a un servicio de Dataproc Metastore existente.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  4. Habilita la API Dataproc Metastore.

    Habilita la API

Control de acceso

  • Para crear un servicio, debes tener una función de IAM que contenga el permiso de IAM metastore.services.create. Para importar metadatos, debes tener una función de IAM que contenga el permiso de IAM metastore.imports.create. Las funciones específicas roles/metastore.admin y roles/metastore.editor de Dataproc Metastore incluyen permisos de creación y de importación.

  • Puedes otorgar permisos de creación y de importación a los usuarios o grupos mediante las funciones heredadas roles/owner y roles/editor.

  • El agente de servicio de Dataproc Metastore (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com) y el usuario que importa los metadatos deben tener el permiso storage.objects.get en el objeto de Cloud Storage (archivo de volcado de SQL) que se usa para la importación.

  • Si usas los Controles del servicio de VPC, solo puedes importar datos desde un bucket de Cloud Storage que resida en el mismo perímetro de servicio que el servicio de Dataproc Metastore.

Para obtener más información, consulta la IAM y el control de acceso de Dataproc Metastore.

Crea un servicio de Dataproc Metastore

En las siguientes instrucciones, se muestra cómo crear un servicio de Dataproc Metastore al que puedes migrar:

Console

  1. En Cloud Console, abre la página Crear servicio:

    Abre la página Crear servicio en Cloud Console

    Página Crear servicio
  2. En el campo Nombre del servicio, ingresa example-service.

  3. Selecciona la Ubicación de los datos. Para obtener información sobre cómo seleccionar una región, consulta Regiones disponibles.

  4. Para otras opciones de configuración del servicio, usa los valores predeterminados proporcionados.

  5. Para crear y, luego, iniciar el servicio, haz clic en el botón Enviar.

El nuevo servicio aparecerá en la lista de servicios.

gcloud

Ejecuta el siguiente comando de gcloud metastore services create para crear un servicio:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Reemplaza LOCATION por la región de Compute Engine en la que planeas crear el servicio. Asegúrate de que Dataproc Metastore esté disponible en la región.

REST

Sigue las instrucciones de la API para crear un servicio mediante el Explorador de API.

Prepárate para la migración

Ahora debes preparar los metadatos almacenados en la base de datos del almacén de metadatos de Hive para importarlos; para ello, crea un archivo de volcado de MySQL y colócalo en un bucket de Cloud Storage.

Consulta Prepara la importación a fin de obtener los pasos para preparar la migración.

Importa los metadatos

Ahora que preparaste el archivo de volcado, impórtalo al servicio de Dataproc Metastore.

Consulta Realiza la importación a fin de conocer los pasos para importar tus metadatos al servicio example-service.

Después de importar los metadatos a Dataproc Metastore

Después de importar los metadatos a tu servicio example-service de Dataproc Metastore, crea y conecta un clúster de Dataproc que use el servicio como su almacén de metadatos de Hive.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. Si el proyecto que deseas borrar está vinculado con una organización, expande la lista Organización en la columna Nombre.
  3. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  4. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Como alternativa, puedes borrar los recursos que se usan en este instructivo de la siguiente manera:

  1. Borra el servicio de Dataproc Metastore.

    Console

    1. En Cloud Console, abre la página de Dataproc Metastore:

      Abre Dataproc Metastore en Cloud Console

    2. A la izquierda del nombre del servicio, marca la casilla para seleccionar example-service.

    3. En la parte superior de la página de Dataproc Metastore, haz clic en Borrar para borrar el servicio.

    4. En el cuadro de diálogo, haz clic en Borrar para confirmar la eliminación.

    Tu servicio ya no aparece en la lista de servicios.

    gcloud

    Ejecuta el siguiente comando de gcloud metastore services delete para borrar un servicio:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Reemplaza LOCATION por la región de Compute Engine en la que creaste el servicio.

    REST

    Sigue las instrucciones de la API para borrar un servicio mediante el Explorador de API.

    Todas las eliminaciones se completa de forma exitosa de inmediato.

  2. Borra el bucket de Cloud Storage para el servicio de Dataproc Metastore.

¿Qué sigue?