Extraer metadatos de Apache Hive para la migración
En este documento se explica cómo usar la herramienta dwh-migration-dumper
para extraer los metadatos necesarios antes de llevar a cabo una migración de datos o permisos de Apache Hive.
En este documento se explica cómo extraer metadatos de las siguientes fuentes de datos:
- Apache Hive
- Sistema de archivos distribuidos de Apache Hadoop (HDFS)
- Apache Ranger
- Cloudera Manager
- Registros de consultas de Apache Hive
Antes de empezar
Para poder usar la herramienta dwh-migration-dumper
, haz lo siguiente:
Instalar Java
El servidor en el que tienes previsto ejecutar la herramienta dwh-migration-dumper
debe tener instalado Java 8 o una versión posterior. Si no es así, descarga Java desde la página de descargas de Java e instálalo.
Permisos obligatorios
La cuenta de usuario que especifiques para conectar la herramienta dwh-migration-dumper
al sistema de origen debe tener permisos para leer metadatos de ese sistema.
Confirma que esta cuenta tiene la pertenencia al rol adecuada para consultar los recursos de metadatos disponibles para tu plataforma. Por ejemplo, INFORMATION_SCHEMA
es un recurso de metadatos que es común en varias plataformas.
Instalar la herramienta dwh-migration-dumper
Para instalar la herramienta dwh-migration-dumper
, sigue estos pasos:
- En la máquina en la que quieras ejecutar la herramienta
dwh-migration-dumper
, descarga el archivo ZIP del repositorio de GitHub de la herramientadwh-migration-dumper
. Para validar el archivo ZIP de la herramienta
dwh-migration-dumper
, descarga el archivoSHA256SUMS.txt
y ejecuta el siguiente comando:Bash
sha256sum --check SHA256SUMS.txt
Si la verificación falla, consulta la sección Solución de problemas.
Windows PowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Sustituye
RELEASE_ZIP_FILENAME
por el nombre del archivo ZIP descargado de la versión de la herramienta de extracción de línea de comandosdwh-migration-dumper
. Por ejemplo,dwh-migration-tools-v1.0.52.zip
.El resultado
True
confirma que la verificación de la suma de comprobación se ha realizado correctamente.El resultado
False
indica que se ha producido un error de verificación. Asegúrate de que los archivos de suma de comprobación y ZIP se descarguen de la misma versión y se coloquen en el mismo directorio.Extrae el archivo ZIP. El archivo binario de la herramienta de extracción se encuentra en el subdirectorio
/bin
de la carpeta creada al extraer el archivo ZIP.Actualiza la variable de entorno
PATH
para que incluya la ruta de instalación de la herramienta de extracción.
Extraer metadatos para la migración
Seleccione una de las siguientes opciones para saber cómo extraer metadatos de su fuente de datos:
Apache Hive
Sigue los pasos de la sección de Apache Hive Extraer metadatos y registros de consultas de tu almacén de datos para extraer los metadatos de Apache Hive. A continuación, puede subir los metadatos al segmento de Cloud Storage que contenga los archivos de migración.
HDFS
Ejecuta el siguiente comando para extraer metadatos de HDFS
con la herramienta dwh-migration-dumper
.
dwh-migration-dumper \
--connector hdfs \
--host HDFS-HOST \
--port HDFS-PORT \
--output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
--assessment \
Haz los cambios siguientes:
HDFS-HOST
: nombre de host de NameNode de HDFSHDFS-PORT
: número de puerto de NameNode de HDFS. Puedes omitir este argumento si usas el puerto8020
predeterminado.MIGRATION-BUCKET
: el bucket de Cloud Storage que usas para almacenar los archivos de migración.
Este comando extrae metadatos de HDFS a un archivo llamado hdfs-dumper-output.zip
en el directorio MIGRATION-BUCKET
.
Hay varias limitaciones conocidas al extraer metadatos de HDFS:
- Algunas tareas de este conector son opcionales y pueden fallar, registrando un seguimiento de pila completo en la salida. Siempre que las tareas necesarias se hayan completado correctamente y se haya generado el
hdfs-dumper-output.zip
, podrá continuar con la migración de HDFS. - Si el tamaño del grupo de subprocesos configurado es demasiado grande, es posible que el proceso de extracción falle o se ejecute más lento de lo esperado. Si tiene estos problemas, le recomendamos que reduzca el tamaño del grupo de subprocesos con el argumento de línea de comandos
--thread-pool-size
.
Apache Ranger
Ejecuta el siguiente comando para extraer metadatos de Apache Ranger
con la herramienta dwh-migration-dumper
.
dwh-migration-dumper \
--connector ranger \
--host RANGER-HOST \
--port 6080 \
--user RANGER-USER \
--password RANGER-PASSWORD \
--ranger-scheme RANGER-SCHEME \
--output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
--assessment \
Haz los cambios siguientes:
RANGER-HOST
: el nombre de host de la instancia de Apache Ranger.RANGER-USER
: nombre de usuario de Apache RangerRANGER-PASSWORD
: contraseña del usuario de Apache RangerRANGER-SCHEME
: especifica si Apache Ranger usahttp
ohttps
. El valor predeterminado eshttp
.MIGRATION-BUCKET
: el bucket de Cloud Storage que usas para almacenar los archivos de migración.
También puedes incluir las siguientes marcas opcionales:
--kerberos-auth-for-hadoop
: sustituye a--user
y--password
si Apache Ranger está protegido por Kerberos en lugar de por la autenticación básica. Para usar esta marca, debes ejecutar el comandokinit
antes de la herramientadwh-migration-dumper
.--ranger-disable-tls-validation
: incluye esta marca si el certificado https que usa la API está autofirmado. Por ejemplo, al usar Cloudera.
Este comando extrae metadatos de Apache Ranger a un archivo llamado ranger-dumper-output.zip
en el directorio MIGRATION-BUCKET
.
Cloudera
Ejecuta el siguiente comando para extraer metadatos de Cloudera con la herramienta dwh-migration-dumper
.
dwh-migration-dumper \
--connector cloudera-manager \
--url CLOUDERA-URL \
--user CLOUDERA-USER \
--password CLOUDERA-PASSWORD \
--output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
--yarn-application-types APPLICATION-TYPES \
--pagination-page-size PAGE-SIZE \
--assessment \
Haz los cambios siguientes:
CLOUDERA-URL
: la URL de Cloudera ManagerCLOUDERA-USER
: nombre de usuario de ClouderaCLOUDERA-PASSWORD
: contraseña del usuario de ClouderaMIGRATION-BUCKET
: el bucket de Cloud Storage que usas para almacenar los archivos de migración.APPLICATION-TYPES
: (opcional) lista de todos los tipos de aplicaciones existentes de Hadoop YARN. Por ejemplo,SPARK, MAPREDUCE
.PAGE-SIZE
: (Opcional) especifica la cantidad de datos que se obtienen de servicios de terceros, como la API Hadoop YARN. El valor predeterminado es1000
, que representa 1000 entidades por solicitud.
Este comando extrae metadatos de Cloudera a un archivo llamado dwh-migration-cloudera.zip
en el directorio MIGRATION-BUCKET
.
Registros de consultas de Apache Hive
Sigue los pasos de la sección de Apache Hive Extraer registros de consultas con el hook de registro hadoop-migration-assessment
para extraer los registros de consultas de Apache Hive. A continuación, puede subir los registros al segmento de Cloud Storage que contiene los archivos de migración.
Siguientes pasos
Con los metadatos extraídos de Hadoop, puedes usar estos archivos de metadatos para hacer lo siguiente: