Extraer metadatos de Apache Hive para la migración

En este documento se explica cómo usar la herramienta dwh-migration-dumper para extraer los metadatos necesarios antes de llevar a cabo una migración de datos o permisos de Apache Hive.

En este documento se explica cómo extraer metadatos de las siguientes fuentes de datos:

  • Apache Hive
  • Sistema de archivos distribuidos de Apache Hadoop (HDFS)
  • Apache Ranger
  • Cloudera Manager
  • Registros de consultas de Apache Hive

Antes de empezar

Para poder usar la herramienta dwh-migration-dumper, haz lo siguiente:

Instalar Java

El servidor en el que tienes previsto ejecutar la herramienta dwh-migration-dumper debe tener instalado Java 8 o una versión posterior. Si no es así, descarga Java desde la página de descargas de Java e instálalo.

Permisos obligatorios

La cuenta de usuario que especifiques para conectar la herramienta dwh-migration-dumper al sistema de origen debe tener permisos para leer metadatos de ese sistema. Confirma que esta cuenta tiene la pertenencia al rol adecuada para consultar los recursos de metadatos disponibles para tu plataforma. Por ejemplo, INFORMATION_SCHEMA es un recurso de metadatos que es común en varias plataformas.

Instalar la herramienta dwh-migration-dumper

Para instalar la herramienta dwh-migration-dumper, sigue estos pasos:

  1. En la máquina en la que quieras ejecutar la herramienta dwh-migration-dumper, descarga el archivo ZIP del repositorio de GitHub de la herramienta dwh-migration-dumper.
  2. Para validar el archivo ZIP de la herramienta dwh-migration-dumper, descarga el archivo SHA256SUMS.txt y ejecuta el siguiente comando:

    Bash

    sha256sum --check SHA256SUMS.txt

    Si la verificación falla, consulta la sección Solución de problemas.

    Windows PowerShell

    (Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

    Sustituye RELEASE_ZIP_FILENAME por el nombre del archivo ZIP descargado de la versión de la herramienta de extracción de línea de comandos dwh-migration-dumper. Por ejemplo, dwh-migration-tools-v1.0.52.zip.

    El resultado True confirma que la verificación de la suma de comprobación se ha realizado correctamente.

    El resultado False indica que se ha producido un error de verificación. Asegúrate de que los archivos de suma de comprobación y ZIP se descarguen de la misma versión y se coloquen en el mismo directorio.

  3. Extrae el archivo ZIP. El archivo binario de la herramienta de extracción se encuentra en el subdirectorio /bin de la carpeta creada al extraer el archivo ZIP.

  4. Actualiza la variable de entorno PATH para que incluya la ruta de instalación de la herramienta de extracción.

Extraer metadatos para la migración

Seleccione una de las siguientes opciones para saber cómo extraer metadatos de su fuente de datos:

Apache Hive

Sigue los pasos de la sección de Apache Hive Extraer metadatos y registros de consultas de tu almacén de datos para extraer los metadatos de Apache Hive. A continuación, puede subir los metadatos al segmento de Cloud Storage que contenga los archivos de migración.

HDFS

Ejecuta el siguiente comando para extraer metadatos de HDFS con la herramienta dwh-migration-dumper.

dwh-migration-dumper \
  --connector hdfs \
  --host HDFS-HOST \
  --port HDFS-PORT \
  --output gs://MIGRATION-BUCKET/hdfs-dumper-output.zip \
  --assessment \

Haz los cambios siguientes:

  • HDFS-HOST: nombre de host de NameNode de HDFS
  • HDFS-PORT: número de puerto de NameNode de HDFS. Puedes omitir este argumento si usas el puerto 8020 predeterminado.
  • MIGRATION-BUCKET: el bucket de Cloud Storage que usas para almacenar los archivos de migración.

Este comando extrae metadatos de HDFS a un archivo llamado hdfs-dumper-output.zip en el directorio MIGRATION-BUCKET.

Hay varias limitaciones conocidas al extraer metadatos de HDFS:

  • Algunas tareas de este conector son opcionales y pueden fallar, registrando un seguimiento de pila completo en la salida. Siempre que las tareas necesarias se hayan completado correctamente y se haya generado el hdfs-dumper-output.zip, podrá continuar con la migración de HDFS.
  • Si el tamaño del grupo de subprocesos configurado es demasiado grande, es posible que el proceso de extracción falle o se ejecute más lento de lo esperado. Si tiene estos problemas, le recomendamos que reduzca el tamaño del grupo de subprocesos con el argumento de línea de comandos --thread-pool-size.

Apache Ranger

Ejecuta el siguiente comando para extraer metadatos de Apache Ranger con la herramienta dwh-migration-dumper.

dwh-migration-dumper \
  --connector ranger \
  --host RANGER-HOST \
  --port 6080 \
  --user RANGER-USER \
  --password RANGER-PASSWORD \
  --ranger-scheme RANGER-SCHEME \
  --output gs://MIGRATION-BUCKET/ranger-dumper-output.zip \
  --assessment \

Haz los cambios siguientes:

  • RANGER-HOST: el nombre de host de la instancia de Apache Ranger.
  • RANGER-USER: nombre de usuario de Apache Ranger
  • RANGER-PASSWORD: contraseña del usuario de Apache Ranger
  • RANGER-SCHEME: especifica si Apache Ranger usa http o https. El valor predeterminado es http.
  • MIGRATION-BUCKET: el bucket de Cloud Storage que usas para almacenar los archivos de migración.

También puedes incluir las siguientes marcas opcionales:

  • --kerberos-auth-for-hadoop: sustituye a --user y --password si Apache Ranger está protegido por Kerberos en lugar de por la autenticación básica. Para usar esta marca, debes ejecutar el comando kinit antes de la herramienta dwh-migration-dumper.
  • --ranger-disable-tls-validation: incluye esta marca si el certificado https que usa la API está autofirmado. Por ejemplo, al usar Cloudera.

Este comando extrae metadatos de Apache Ranger a un archivo llamado ranger-dumper-output.zip en el directorio MIGRATION-BUCKET.

Cloudera

Ejecuta el siguiente comando para extraer metadatos de Cloudera con la herramienta dwh-migration-dumper.

dwh-migration-dumper \
  --connector cloudera-manager \
  --url CLOUDERA-URL \
  --user CLOUDERA-USER \
  --password CLOUDERA-PASSWORD \
  --output gs://MIGRATION-BUCKET/cloudera-dumper-output.zip \
  --yarn-application-types APPLICATION-TYPES \
  --pagination-page-size PAGE-SIZE \
  --assessment \

Haz los cambios siguientes:

  • CLOUDERA-URL: la URL de Cloudera Manager
  • CLOUDERA-USER: nombre de usuario de Cloudera
  • CLOUDERA-PASSWORD: contraseña del usuario de Cloudera
  • MIGRATION-BUCKET: el bucket de Cloud Storage que usas para almacenar los archivos de migración.
  • APPLICATION-TYPES: (opcional) lista de todos los tipos de aplicaciones existentes de Hadoop YARN. Por ejemplo, SPARK, MAPREDUCE.
  • PAGE-SIZE: (Opcional) especifica la cantidad de datos que se obtienen de servicios de terceros, como la API Hadoop YARN. El valor predeterminado es 1000, que representa 1000 entidades por solicitud.

Este comando extrae metadatos de Cloudera a un archivo llamado dwh-migration-cloudera.zip en el directorio MIGRATION-BUCKET.

Registros de consultas de Apache Hive

Sigue los pasos de la sección de Apache Hive Extraer registros de consultas con el hook de registro hadoop-migration-assessment para extraer los registros de consultas de Apache Hive. A continuación, puede subir los registros al segmento de Cloud Storage que contiene los archivos de migración.

Siguientes pasos

Con los metadatos extraídos de Hadoop, puedes usar estos archivos de metadatos para hacer lo siguiente: