Se usó la API de Cloud Translation para traducir esta página.

Importa metadatos a Dataproc Metastore

En esta página, se explica cómo importar metadatos a un servicio de Dataproc Metastore.

La función de importación de metadatos te permite propagar un servicio de Dataproc Metastore existente con metadatos almacenados en un formato de almacenamiento portátil.

Por lo general, estos metadatos portátiles se exportan desde otro servicio de Dataproc Metastore o desde un almacén de metadatos de Hive (HMS) autoadministrado.

Acerca de la importación de metadatos

Puedes importar los siguientes formatos de archivo a Dataproc Metastore:

Es un conjunto de archivos Avro almacenados en una carpeta.
Un solo archivo de volcado de MySQL almacenado en una carpeta de Cloud Storage

Los archivos MySQL o Avro que importes deben generarse a partir de una base de datos relacional.

Si tus archivos están en otro formato, como PostgreSQL, debes convertirlos al formato Avro o MySQL. Después de la conversión, puedes importarlos a Dataproc Metastore.

Avro

Las importaciones basadas en Avro solo son compatibles con las versiones 2.3.6 y 3.1.2 de Hive. Cuando importas archivos Avro, Dataproc Metastore espera una serie de archivos <table-name>.avro para cada tabla de tu base de datos.

Para importar archivos Avro, tu servicio de Dataproc Metastore puede usar el tipo de base de datos MySQL o Spanner.

MySQL

Las importaciones basadas en MySQL son compatibles con todas las versiones de Hive. Cuando importas archivos de MySQL, Dataproc Metastore espera un solo archivo SQL que contenga toda la información de tu tabla. También se admiten los volcados de MySQL obtenidos de un clúster de Dataproc con SQL nativo.

Para importar archivos de MySQL, tu servicio de Dataproc Metastore debe usar el tipo de base de datos MySQL. El tipo de base de datos de Spanner no admite importaciones de MySQL.

Consideraciones para la importación

La importación sobrescribe todos los metadatos existentes almacenados en un servicio de Dataproc Metastore.
La función de importación de metadatos solo importa metadatos. Los datos que crea Apache Hive en tablas internas no se replican en la importación.
La importación no transforma el contenido de la base de datos ni controla la migración de archivos. Si mueves tus datos a una ubicación diferente, debes actualizar de forma manual las ubicaciones de los datos y el esquema de la tabla en tu servicio de Dataproc Metastore.
La importación no restablece ni reemplaza las políticas de IAM detalladas.
Si usas los Controles del servicio de VPC, solo puedes importar datos desde un bucket de Cloud Storage que resida en el mismo perímetro de servicio que el servicio de Dataproc Metastore.

Antes de comenzar

Habilita Dataproc Metastore en tu proyecto.
Comprende los requisitos de redes específicos de tu proyecto.
Crea un servicio de Dataproc Metastore.

Roles requeridos

Para obtener los permisos que necesitas para importar metadatos a Dataproc Metastore, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para importar metadatos, sigue estos pasos:
- Editor de Dataproc Metastore (roles/metastore.editor) en el servicio de metadatos
- Administrador de Dataproc Metastore (roles/metastore.admin) en el proyecto
En el caso de MySQL, para usar el objeto de Cloud Storage (archivo de volcado de SQL) para la importación, haz lo siguiente: Otorga a tu cuenta de usuario y al agente de servicio de Dataproc Metastore el rol de visualizador de objetos de Storage (roles/storage.objectViewer) en el bucket de Cloud Storage que contiene el volcado de metadatos que se importa.
En el caso de Avro, para usar el bucket de Cloud Storage para la importación, otorga a tu cuenta de usuario y al agente de servicio de Dataproc Metastore el rol de visualizador de objetos de almacenamiento (roles/storage.objectViewer) en el bucket de Cloud Storage que contiene el volcado de metadatos que se importa.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para importar metadatos a Dataproc Metastore. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para importar metadatos a Dataproc Metastore:

Para importar metadatos, haz lo siguiente: metastore.imports.create en el servicio de metastore.
En el caso de MySQL, para usar el objeto de Cloud Storage (archivo de volcado de SQL) para la importación, otorga a tu cuenta de usuario y al agente de servicio de Dataproc Metastore: storage.objects.get en el bucket de Cloud Storage que contiene el volcado de metadatos que se importa.
En el caso de Avro, para usar el bucket de Cloud Storage para la importación, otorga a tu cuenta de usuario y al agente de servicio de Dataproc Metastore: storage.objects.get en el bucket de Cloud Storage que contiene el volcado de metadatos que se importa.

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Para obtener más información sobre los roles y permisos específicos de Dataproc Metastore, consulta la Descripción general de IAM de Dataproc Metastore.

Importa tus metadatos

La operación de importación es un proceso de dos pasos. Primero, prepara tus archivos de importación y, luego, impórtalos a Dataproc Metastore.

Cuando inicias una importación, Dataproc Metastore realiza una validación del esquema de metadatos de Hive. Esta validación verifica las tablas en el archivo de volcado de SQL y los nombres de archivo para Avro. Si falta una tabla, la importación falla y se muestra un mensaje de error que describe la tabla faltante.

Para verificar la compatibilidad de los metadatos de Hive antes de una importación, puedes usar el kit de herramientas de Dataproc Metastore.

Prepara los archivos de importación antes de importarlos

Antes de importar tus archivos a Dataproc Metastore, debes copiar tus archivos de volcado de metadatos en Cloud Storage, como tu bucket de Cloud Storage de artefactos.

Mueve tus archivos a Cloud Storage

Crea un volcado de la base de datos externa que deseas importar a Dataproc Metastore.

Si deseas obtener instrucciones para crear una copia de la base de datos, consulta las siguientes páginas:
- Archivos Avro
- Archivo de volcado de MySQL
- Instancia de Cloud SQL para MySQL
  
  Nota: Si exportas tus archivos de volcado desde otro Dataproc Metastore, puedes usar la función de exportación de Dataproc Metastore para generar un conjunto válido de archivos.
Sube los archivos a Cloud Storage.

Asegúrate de anotar la ruta de Cloud Storage a la que subes tus archivos, ya que la necesitarás más adelante para realizar la importación.
- Si importas archivos de MySQL, sube el archivo SQL a un bucket de Cloud Storage.
- Si importas archivos Avro, súbelos a una carpeta de Cloud Storage.
  - Tu importación de Avro debe incluir un archivo Avro para cada tabla de Hive, incluso si la tabla está vacía.
  - Los nombres de los archivos Avro deben seguir el formato <table-name>.avro. El <table-name> debe estar en mayúsculas. Por ejemplo, AUX_TABLE.avro.

Importa los archivos a Dataproc Metastore

Antes de importar metadatos, revisa las consideraciones para la importación.

Mientras se ejecuta una importación, no puedes actualizar un servicio de Dataproc Metastore, por ejemplo, cambiar la configuración. Sin embargo, puedes seguir usándolo para operaciones normales, como acceder a sus metadatos desde clústeres de Dataproc o autoadministrados adjuntos.

Console

En la Google Cloud consola, abre la página Dataproc Metastore:

Abrir Dataproc Metastore
En la página Dataproc Metastore, haz clic en el nombre del servicio al que deseas importar los metadatos.

Se abrirá la página Detalles del servicio.

Figura 1: La página Detalles del servicio de Dataproc Metastore
En la barra de navegación, haz clic en Importar.

Se abrirá el diálogo Importar.
Ingresa el nombre de importación.
En la sección Destino, elige MySQL o Avro.
En el campo URI de destino, haz clic en Explorar y selecciona el URI de Cloud Storage en el que deseas importar tus archivos.

También puedes ingresar manualmente la ubicación de tu bucket en el campo de texto proporcionado. Usa el siguiente formato: bucket/object o bucket/folder/object.
Opcional: Ingresa una descripción de la importación.

Puedes editar la descripción en la página Detalles del servicio.
Para actualizar el servicio, haz clic en Importar.

Una vez que se complete la importación, aparecerá en una tabla en la página Detalles del servicio en la pestaña Importar/Exportar.

gcloud CLI

Para importar metadatos, ejecuta el siguiente comando de gcloud metastore services import gcs:
```
gcloud metastore services import gcs SERVICE_ID \
  --location=LOCATION \
  --import-id=IMPORT_ID \
  --description=DESCRIPTION \
  --dump-type=DUMP_TYPE \
  --database-dump=DATABASE_DUMP
```
Reemplaza lo siguiente:
- SERVICE_ID: Es el ID o el nombre completamente calificado de tu servicio de Dataproc Metastore.
- LOCATION: Es la región Google Cloud en la que reside tu servicio de Dataproc Metastore.
- IMPORT_ID: Es un ID o un nombre completamente calificado para la importación de metadatos. Por ejemplo, import1
- DESCRIPTION: Opcional: Es una descripción de la importación. Podrás editarlo más adelante con gcloud metastore services imports update IMPORT.
- DUMP_TYPE: Es el tipo de base de datos externa que importas. Los valores aceptados incluyen mysql y avro. El valor predeterminado es mysql.
- DATABASE_DUMP: Es la ruta de acceso a Cloud Storage que contiene los archivos de la base de datos. Esta ruta de acceso debe comenzar con gs://. En el caso de Avro, proporciona la ruta de acceso a la carpeta en la que se almacenan los archivos Avro (la carpeta de Cloud Storage). En el caso de MySQL, proporciona la ruta de acceso al archivo de MySQL (el objeto de Cloud Storage).
Verifica que la importación se haya realizado correctamente.

REST

Sigue las instrucciones de la API para importar metadatos a un servicio con el Explorador de API.

Con la API, puedes crear, enumerar, describir y actualizar importaciones, pero no puedes borrarlas. Sin embargo, si borras un servicio de Dataproc Metastore, se borrarán todas las importaciones anidadas almacenadas.

Cuando la importación se realiza con éxito, Dataproc Metastore vuelve automáticamente al estado activo. Si la importación falla, Dataproc Metastore revierte a su estado correcto anterior.

Cómo ver el historial de importaciones

Para ver el historial de importaciones de un servicio de Dataproc Metastore en la consola de Google Cloud , completa los siguientes pasos:

En la Google Cloud consola, abre la página Dataproc Metastore.
En la barra de navegación, haz clic en Importar/Exportar.

Tu historial de importaciones aparecerá en la tabla Historial de importaciones.

El historial muestra hasta las últimas 25 importaciones.

Si borras un servicio de Dataproc Metastore, también se borrará todo el historial de importaciones asociado.

Soluciona los problemas comunes.

Estos son algunos problemas comunes:

Para obtener más ayuda para resolver problemas comunes, consulta Situaciones de error de importación y exportación.