Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Cómo extraer metadatos de Apache Hive para la migración
En este documento, se muestra cómo puedes usar la herramienta dwh-migration-dumper para extraer los metadatos necesarios antes de ejecutar una migración de datos o permisos de Apache Hive.
En este documento, se explica la extracción de metadatos de las siguientes fuentes de datos:
Apache Hive
Sistema de archivos distribuidos de Apache Hadoop (HDFS)
Apache Ranger
Cloudera Manager
Registros de consultas de Apache Hive
Antes de comenzar
Antes de usar la herramienta de dwh-migration-dumper, haz lo siguiente:
Instala Java
El servidor en el que planeas ejecutar la herramienta dwh-migration-dumper debe tener instalado Java 8 o una versión posterior. Si no es así, descarga Java desde la página de descargas de Java y, luego, instálalo.
Permisos necesarios
La cuenta de usuario que especifiques para conectar la herramienta dwh-migration-dumper al sistema de origen debe tener permisos para leer los metadatos de ese sistema.
Confirma que esta cuenta tenga la membresía de rol adecuada para consultar los recursos de metadatos disponibles para tu plataforma. Por ejemplo, INFORMATION_SCHEMA es un recurso de metadatos común en varias plataformas.
Instala la herramienta dwh-migration-dumper
Para instalar la herramienta dwh-migration-dumper, sigue estos pasos:
Reemplaza RELEASE_ZIP_FILENAME por el nombre del archivo ZIP
descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper, por ejemplo,
dwh-migration-tools-v1.0.52.zip.
El resultado True confirma la verificación correcta de la suma de verificación.
El resultado False indica un error de verificación. Asegúrate de que los archivos de suma de comprobación y
ZIP se descarguen de la misma versión de actualización y se coloquen en el
mismo directorio.
Extrae el archivo ZIP. El objeto binario de la herramienta de extracción está en el subdirectorio /bin de la carpeta creada mediante la extracción del archivo ZIP.
Actualiza la variable de entorno PATH para incluir la ruta de instalación para la herramienta de extracción.
Extracción de metadatos para la migración
Selecciona una de las siguientes opciones para obtener información sobre cómo extraer metadatos de tu fuente de datos:
HDFS-PORT: Es el número de puerto de HDFS NameNode. Puedes omitir este argumento si usas el puerto 8020 predeterminado.
MIGRATION-BUCKET: Es el bucket de Cloud Storage que usas para almacenar los archivos de migración.
Este comando extrae metadatos de HDFS a un archivo llamado hdfs-dumper-output.zip en el directorio MIGRATION-BUCKET.
Existen varias limitaciones conocidas cuando se extraen metadatos de HDFS:
Algunas tareas de este conector son opcionales y pueden fallar, lo que genera un registro de seguimiento de pila completo en el resultado. Siempre y cuando las tareas requeridas se hayan completado correctamente y se haya generado el hdfs-dumper-output.zip, puedes continuar con la migración de HDFS.
El proceso de extracción podría fallar o ejecutarse más lento de lo esperado si el tamaño del grupo de subprocesos configurado es demasiado grande. Si tienes estos problemas, te recomendamos que disminuyas el tamaño del grupo de subprocesos con el argumento de la línea de comandos --thread-pool-size.
Apache Ranger
Ejecuta el siguiente comando para extraer metadatos de Apache Ranger con la herramienta dwh-migration-dumper.
RANGER-HOST: Es el nombre de host de la instancia de Apache Ranger.
RANGER-USER: Es el nombre de usuario del usuario de Apache Ranger.
RANGER-PASSWORD: La contraseña del usuario de Apache Ranger
RANGER-SCHEME: Especifica si Apache Ranger usa http o https. El valor predeterminado es http.
MIGRATION-BUCKET: Es el bucket de Cloud Storage que usas para almacenar los archivos de migración.
También puedes incluir las siguientes marcas opcionales:
--kerberos-auth-for-hadoop: Reemplaza a --user y --password si Apache Ranger está protegido por Kerberos en lugar de la autenticación básica. Debes ejecutar el comando kinit antes de la herramienta dwh-migration-dumper para usar esta marca.
--ranger-disable-tls-validation: Incluye esta marca si el certificado https que usa la API está autofirmado. Por ejemplo, cuando se usa Cloudera.
Este comando extrae metadatos de Apache Ranger a un archivo llamado ranger-dumper-output.zip en el directorio MIGRATION-BUCKET.
Cloudera
Ejecuta el siguiente comando para extraer metadatos de Cloudera con la herramienta de dwh-migration-dumper.
CLOUDERA-USER: Es el nombre de usuario del usuario de Cloudera.
CLOUDERA-PASSWORD: La contraseña del usuario de Cloudera
MIGRATION-BUCKET: Es el bucket de Cloud Storage que usas para almacenar los archivos de migración.
APPLICATION-TYPES: (Opcional) Es una lista de todos los tipos de aplicaciones existentes de Hadoop YARN. Por ejemplo, SPARK, MAPREDUCE
PAGE-SIZE: (Opcional) Especifica la cantidad de datos que se recuperan de los servicios de terceros, como la API de Hadoop YARN. El valor predeterminado es 1000, que representa 1,000 entidades por solicitud.
Este comando extrae metadatos de Cloudera a un archivo llamado dwh-migration-cloudera.zip en el directorio MIGRATION-BUCKET.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-09 (UTC)"],[],[],null,["# Extracting metadata from Apache Hive for migration\n==================================================\n\n|\n| **Preview**\n|\n|\n| This feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n| **Note:** To get support or provide feedback for this feature, contact [bigquery-permission-migration-support@google.com](mailto:bigquery-permission-migration-support@google.com).\n\nThis document shows how you can use the `dwh-migration-dumper` tool to extract\nthe necessary metadata before running a Apache Hive data or permissions\nmigration.\n\nThis document covers metadata extraction from the following data sources:\n\n- Apache Hive\n- Apache Hadoop Distributed File System (HDFS)\n- Apache Ranger\n- Cloudera Manager\n- Apache Hive query logs\n\nBefore you begin\n----------------\n\nBefore you can use the `dwh-migration-dumper` tool, do the following:\n\n### Install Java\n\nThe server on which you plan to run `dwh-migration-dumper` tool must have\nJava 8 or higher installed. If it doesn't, download Java from the\n[Java downloads page](https://www.java.com/download/)\nand install it.\n\n### Required permissions\n\nThe user account that you specify for connecting the `dwh-migration-dumper` tool to\nthe source system must have permissions to read metadata from that system.\nConfirm that this account has appropriate role membership to query the metadata\nresources available for your platform. For example, `INFORMATION_SCHEMA` is a\nmetadata resource that is common across several platforms.\n\nInstall the `dwh-migration-dumper` tool\n---------------------------------------\n\nTo install the `dwh-migration-dumper` tool, follow these steps:\n\n1. On the machine where you want to run the `dwh-migration-dumper` tool, download the zip file from the [`dwh-migration-dumper` tool GitHub repository](https://github.com/google/dwh-migration-tools/releases/latest).\n2. To validate the `dwh-migration-dumper` tool zip file, download the\n [`SHA256SUMS.txt` file](https://github.com/google/dwh-migration-tools/releases/latest/download/SHA256SUMS.txt)\n and run the following command:\n\n ### Bash\n\n ```bash\n sha256sum --check SHA256SUMS.txt\n ```\n\n If verification fails, see [Troubleshooting](#corrupted_zip_file).\n\n ### Windows PowerShell\n\n ```bash\n (Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split \" \")[0]\n ```\n\n Replace the \u003cvar translate=\"no\"\u003eRELEASE_ZIP_FILENAME\u003c/var\u003e with the downloaded\n zip filename of the `dwh-migration-dumper` command-line extraction tool release---for example,\n `dwh-migration-tools-v1.0.52.zip`\n\n The `True` result confirms successful checksum verification.\n\n The `False` result indicates verification error. Make sure the checksum and\n zip files are downloaded from the same release version and placed in the\n same directory.\n3. Extract the zip file. The extraction tool binary is in the\n `/bin` subdirectory of the folder created by extracting the zip file.\n\n4. Update the `PATH` environment variable to include the installation path for\n the extraction tool.\n\nExtracting metadata for migration\n---------------------------------\n\nSelect one of the following options to learn how to extract metadata for your\ndata source: \n\n### Apache Hive\n\nPerform the steps in the Apache Hive section [Extract metadata and query logs from your data warehouse](/bigquery/docs/migration-assessment#apache-hive)\nto extract your Apache Hive metadata. You can then upload the metadata\nto your Cloud Storage bucket containing your migration files.\n\n### HDFS\n\nRun the following command to extract extract metadata from HDFS\nusing the `dwh-migration-dumper` tool. \n\n dwh-migration-dumper \\\n --connector hdfs \\\n --host \u003cvar translate=\"no\"\u003eHDFS-HOST\u003c/var\u003e \\\n --port \u003cvar translate=\"no\"\u003eHDFS-PORT\u003c/var\u003e \\\n --output gs://\u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e/hdfs-dumper-output.zip \\\n --assessment \\\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eHDFS-HOST\u003c/var\u003e: the HDFS NameNode hostname\n- \u003cvar translate=\"no\"\u003eHDFS-PORT\u003c/var\u003e: the HDFS NameNode port number. You can skip this argument if you are using the default `8020` port.\n- \u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e: the Cloud Storage bucket that you are using to store the migration files.\n\nThis command extracts metadata from HDFS to a\nfile named `hdfs-dumper-output.zip` in the \u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e\ndirectory.\n\nThere are several known limitations when extracting metadata from HDFS:\n\n- Some tasks in this connector are optional and can fail, logging a full stack trade in the output. As long as the required tasks have succeeded and the `hdfs-dumper-output.zip` is generated, then you can proceed with the HDFS migration.\n- The extraction process might fail or run slower than expected if the configured thread pool size is too large. If you are encountering these issues, we recommend decreasing the thread pool size using the command line argument `--thread-pool-size`.\n\n### Apache Ranger\n\nRun the following command to extract extract metadata from Apache Ranger\nusing the `dwh-migration-dumper` tool. \n\n dwh-migration-dumper \\\n --connector ranger \\\n --host \u003cvar translate=\"no\"\u003eRANGER-HOST\u003c/var\u003e \\\n --port 6080 \\\n --user \u003cvar translate=\"no\"\u003eRANGER-USER\u003c/var\u003e \\\n --password \u003cvar translate=\"no\"\u003eRANGER-PASSWORD\u003c/var\u003e \\\n --ranger-scheme \u003cvar translate=\"no\"\u003eRANGER-SCHEME\u003c/var\u003e \\\n --output gs://\u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e/ranger-dumper-output.zip \\\n --assessment \\\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eRANGER-HOST\u003c/var\u003e: the hostname of the Apache Ranger instance\n- \u003cvar translate=\"no\"\u003eRANGER-USER\u003c/var\u003e: the username of the Apache Ranger user\n- \u003cvar translate=\"no\"\u003eRANGER-PASSWORD\u003c/var\u003e: the password of the Apache Ranger user\n- \u003cvar translate=\"no\"\u003eRANGER-SCHEME\u003c/var\u003e: specify if Apache Ranger is using `http` or `https`. Default value is `http`.\n- \u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e: the Cloud Storage bucket that you are using to store the migration files.\n\nYou can also include the following optional flags:\n\n- `--kerberos-auth-for-hadoop`: replaces `--user` and `--password`, if Apache Ranger is protected by kerberos instead of basic authentication. You must run the `kinit` command before the `dwh-migration-dumper` tool tool to use this flag.\n- `--ranger-disable-tls-validation`: include this flag if the https certificate used by the API is self signed. For example, when using Cloudera.\n\nThis command extracts metadata from Apache Ranger to a\nfile named `ranger-dumper-output.zip` in the \u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e\ndirectory.\n\n### Cloudera\n\nRun the following command to extract metadata from Cloudera\nusing the `dwh-migration-dumper` tool. \n\n dwh-migration-dumper \\\n --connector cloudera-manager \\\n --url \u003cvar translate=\"no\"\u003eCLOUDERA-URL\u003c/var\u003e \\\n --user \u003cvar translate=\"no\"\u003eCLOUDERA-USER\u003c/var\u003e \\\n --password \u003cvar translate=\"no\"\u003eCLOUDERA-PASSWORD\u003c/var\u003e \\\n --output gs://\u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e/cloudera-dumper-output.zip \\\n --yarn-application-types \u003cvar translate=\"no\"\u003eAPPLICATION-TYPES\u003c/var\u003e \\\n --pagination-page-size \u003cvar translate=\"no\"\u003ePAGE-SIZE\u003c/var\u003e \\\n --assessment \\\n\nReplace the following:\n\n- \u003cvar translate=\"no\"\u003eCLOUDERA-URL\u003c/var\u003e: the URL for Cloudera Manager\n- \u003cvar translate=\"no\"\u003eCLOUDERA-USER\u003c/var\u003e: the username of the Cloudera user\n- \u003cvar translate=\"no\"\u003eCLOUDERA-PASSWORD\u003c/var\u003e: the password of the Cloudera user\n- \u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e: the Cloud Storage bucket that you are using to store the migration files.\n- \u003cvar translate=\"no\"\u003eAPPLICATION-TYPES\u003c/var\u003e: (Optional) list of all existing application types from Hadoop YARN. For example, `SPARK, MAPREDUCE`.\n- \u003cvar translate=\"no\"\u003ePAGE-SIZE\u003c/var\u003e: (Optional) specify how much data is fetched from 3rd party services, like the Hadoop YARN API. The default value is `1000`, which represents 1000 entities per request.\n\nThis command extracts metadata from Cloudera to a\nfile named `dwh-migration-cloudera.zip` in the \u003cvar translate=\"no\"\u003eMIGRATION-BUCKET\u003c/var\u003e\ndirectory.\n\n### Apache Hive query logs\n\nPerform the steps in the Apache Hive section [Extract query logs with the `hadoop-migration-assessment` logging hook](/bigquery/docs/migration-assessment#apache-hive)\nto extract your Apache Hive query logs. You can then upload the logs\nto your Cloud Storage bucket containing your migration files.\n\nWhat's next\n-----------\n\nWith your extracted metadata from Hadoop, you can use\nthese metadata files to do the following:\n\n- [Migrate permissions from Hadoop](/bigquery/docs/hadoop-permissions-migration)\n- [Schedule a Hadoop transfer](/bigquery/docs/hadoop-transfer)"]]