Evaluación de la migración

La evaluación de la migración de BigQuery te permite planificar y revisar la migración de tu almacén de datos existente en BigQuery. Puedes ejecutar la evaluación de migración de BigQuery a fin de generar un informe para evaluar el costo de almacenamiento de tus datos en BigQuery, ver cómo BigQuery puede optimizar tu carga de trabajo existente en función del ahorro de costos y preparar un plan de migración en el que se describa el tiempo y el esfuerzo necesarios para completar la migración de tu almacén de datos a BigQuery.

En este documento, se describe cómo usar la evaluación de migración de BigQuery y las diferentes formas en que puedes revisar los resultados de la evaluación. Este documento está dirigido a usuarios que estén familiarizados con la consola de Google Cloud y el traductor de SQL por lotes.

Antes de comenzar

Para preparar y ejecutar una evaluación de migración de BigQuery, sigue estos pasos:

  1. Crea buckets de Cloud Storage.

  2. Extrae metadatos y registros de consultas de tu almacén de datos con la herramienta dwh-migration-dumper.

  3. Sube tus metadatos y registros de consulta a tu bucket de Cloud Storage.

  4. Ejecuta la evaluación de la migración.

  5. Revisa el informe de Looker Studio.

  6. Opcional: Consulta los resultados de la evaluación para encontrar información detallada o específica de la evaluación.

Extrae metadatos y registros de consultas de tu almacén de datos

Tanto los metadatos como los registros de consultas son necesarios para preparar la evaluación con recomendaciones.

A fin de extraer los metadatos y los registros de consultas necesarios para ejecutar la evaluación, selecciona tu almacén de datos:

Teradata

Requisitos

  • Una máquina conectada a tu almacén de datos de Teradata de origen (se admiten Teradata 15 y versiones posteriores)
  • Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
  • Un conjunto de datos de BigQuery vacío para almacenar los resultados.
  • Lee los permisos del conjunto de datos para ver los resultados
  • Recomendado: derechos de acceso a nivel de administrador a la base de datos de origen cuando se usa la herramienta de extracción para acceder a tablas del sistema

Requisito: habilitar el registro

La herramienta dwh-migration-dumper extrae tres tipos de registros: registros de consulta, registros de utilidad y registros de uso de recursos. Debes habilitar el registro de los siguientes tipos de registros para ver estadísticas más detalladas:

Ejecuta la herramienta dwh-migration-dumper

Descargue la herramienta dwh-migration-dumper.

Descarga el archivo SHA256SUMS.txt y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:

Bash

sha256sum --check SHA256SUMS.txt

WindowsPowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Reemplaza RELEASE_ZIP_FILENAME por el nombre del archivo ZIP descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper, por ejemplo, dwh-migration-tools-v1.0.52.zip.

El resultado True confirma la verificación correcta de la suma de verificación.

El resultado False indica un error de verificación. Asegúrate de que los archivos de suma de comprobación y ZIP se descarguen de la misma versión de actualización y se coloquen en el mismo directorio.

Si deseas obtener detalles sobre cómo configurar y usar la herramienta de extracción, consulta Genera metadatos para la traducción y la evaluación.

Usa la herramienta de extracción para extraer registros y metadatos de tu almacén de datos de Teradata como dos archivos ZIP. Ejecuta los siguientes comandos en una máquina con acceso al almacén de datos de origen para generar los archivos.

Genera el archivo ZIP de metadatos:

dwh-migration-dumper \
  --connector teradata \
  --database DATABASES \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Genera el archivo ZIP que contiene los registros de consulta:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD

Reemplaza lo siguiente:

  • DATABASES: Es la lista separada por comas de los nombres de las bases de datos que se extraerán.
  • PATH: Es la ruta absoluta o relativa al archivo JAR del controlador que se usará para esta conexión.
  • VERSION: Es la versión del controlador.
  • HOST: la dirección del host
  • USER: el nombre de usuario que se usará para la conexión de la base de datos
  • PASSWORD: la contraseña que se usará para la conexión a la base de datos.

    Si se deja vacía, se le solicita al usuario su contraseña.

Solo puedes usar la marca --database para el conector teradata. Esta marca te permite extraer los metadatos de una o más bases de datos. Cuando extraes los registros de consulta con el conector teradata-logs, la marca --database no está disponible. Los registros de consultas siempre se extraen para todas las bases de datos.

De forma predeterminada, los registros de consultas se extraen de la vista dbc.QryLogV y de la tabla dbc.DBQLSqlTbl. Si necesitas extraer los registros de consultas de una ubicación alternativa, puedes especificar los nombres de las tablas o vistas mediante las marcas -Dteradata-logs.query-logs-table y -Dteradata-logs.sql-logs-table.

De forma predeterminada, los registros de utilidad se extraen de la tabla dbc.DBQLUtilityTbl. Si necesitas extraer los registros de la utilidad de una ubicación alternativa, puedes especificar el nombre de la tabla con la marca -Dteradata-logs.utility-logs-table.

De forma predeterminada, los registros de uso de recursos se extraen de las tablas dbc.ResUsageScpu y dbc.ResUsageSpma. Si necesitas extraer los registros de uso de recursos de una ubicación alternativa, puedes especificar los nombres de las tablas con las marcas -Dteradata-logs.res-usage-scpu-table y -Dteradata-logs.res-usage-spma-table.

Por ejemplo:

Bash

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \
  -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \
  -Dteradata-logs.log-date-column=LogDate \
  -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \
  -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \
  -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst

WindowsPowerShell

dwh-migration-dumper `
  --connector teradata-logs `
  --driver path\terajdbc4.jar `
  --host HOST `
  --assessment `
  --user USER `
  --password PASSWORD `
  "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" `
  "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" `
  "-Dteradata-logs.log-date-column=LogDate" `
  "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" `
  "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" `
  "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"

De forma predeterminada, la herramienta dwh-migration-dumper extrae los últimos siete días de los registros de consulta. Google recomienda que proporciones al menos dos semanas de registros de consultas para poder ver estadísticas más detalladas. Puedes especificar un intervalo de tiempo personalizado con las marcas --query-log-start y --query-log-end. Por ejemplo:

dwh-migration-dumper \
  --connector teradata-logs \
  --driver path/terajdbc4.jar \
  --host HOST \
  --assessment \
  --user USER \
  --password PASSWORD \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-15 00:00:00"

También puedes generar varios archivos ZIP que contengan registros de consulta que abarquen diferentes períodos y proporcionarlos todos para su evaluación.

Amazon Redshift

Requisitos

  • Una máquina conectada a tu almacén de datos de origen de Amazon Redshift
  • Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
  • Un conjunto de datos de BigQuery vacío para almacenar los resultados.
  • Lee los permisos del conjunto de datos para ver los resultados
  • Recomendado: Acceso de superusuario a la base de datos cuando se usa la herramienta de extracción para acceder a tablas del sistema

Ejecuta la herramienta dwh-migration-dumper

Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper.

Descarga el archivo SHA256SUMS.txt y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:

Bash

sha256sum --check SHA256SUMS.txt

WindowsPowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Reemplaza RELEASE_ZIP_FILENAME por el nombre del archivo ZIP descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper, por ejemplo, dwh-migration-tools-v1.0.52.zip.

El resultado True confirma la verificación correcta de la suma de verificación.

El resultado False indica un error de verificación. Asegúrate de que los archivos de suma de comprobación y ZIP se descarguen de la misma versión de actualización y se coloquen en el mismo directorio.

Para obtener detalles sobre cómo usar la herramienta de dwh-migration-dumper, consulta la página Genera metadatos.

Usa la herramienta dwh-migration-dumper para extraer registros y metadatos de tu almacén de datos de Amazon Redshift como dos archivos ZIP. Ejecuta los siguientes comandos en una máquina con acceso al almacén de datos de origen para generar los archivos.

Genera el archivo ZIP de metadatos:

dwh-migration-dumper \
  --connector redshift \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Genera el archivo ZIP que contiene los registros de consulta:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME

Reemplaza lo siguiente:

  • DATABASE: el nombre de la base de datos a la que te conectarás.
  • PATH: Es la ruta absoluta o relativa al archivo JAR del controlador que se usará para esta conexión.
  • VERSION: Es la versión del controlador.
  • USER: el nombre de usuario que se usará para la conexión de la base de datos
  • IAM_PROFILE_NAME: El nombre del perfil de IAM de Amazon Redshift. Es obligatorio para la autenticación de Amazon Redshift y para el acceso a la API de AWS. Para obtener la descripción de los clústeres de Amazon Redshift, usa la API de AWS.

De forma predeterminada, Amazon Redshift almacena de tres a cinco días de registros de consultas.

De forma predeterminada, la herramienta dwh-migration-dumper extrae los últimos siete días de los registros de consulta.

Google recomienda que proporciones al menos dos semanas de registros de consultas para poder ver estadísticas más detalladas. Es posible que debas ejecutar la herramienta de extracción algunas veces durante dos semanas para obtener los mejores resultados. Puedes especificar un rango personalizado con las marcas --query-log-start y --query-log-end. Por ejemplo:

dwh-migration-dumper \
  --connector redshift-raw-logs \
  --database DATABASE \
  --driver PATH/redshift-jdbc42-VERSION.jar \
  --host host.region.redshift.amazonaws.com \
  --assessment \
  --user USER \
  --iam-profile IAM_PROFILE_NAME \
  --query-log-start "2023-01-01 00:00:00" \
  --query-log-end "2023-01-02 00:00:00"

También puedes generar varios archivos ZIP que contengan registros de consulta que abarquen diferentes períodos y proporcionarlos todos para su evaluación.

Apache Hive

Requisitos

  • Una máquina conectada a tu almacén de datos de origen de Apache Hive (la evaluación de migración de BigQuery admite Hive en Tez y MapReduce, y admite versiones de Apache Hive entre 2.2 y 3.1, inclusive)
  • Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
  • Un conjunto de datos de BigQuery vacío para almacenar los resultados.
  • Lee los permisos del conjunto de datos para ver los resultados
  • Acceso a tu almacén de datos de origen de Apache Hive para configurar la extracción de registros de consultas
  • Estadísticas de tablas, particiones y columnas actualizadas

La evaluación de migración de BigQuery usa tablas, particiones y estadísticas de columnas para comprender tu almacén de datos de Apache Hive mejor y proporcionar estadísticas detalladas. Si la configuración hive.stats.autogather se establece como false en tu almacén de datos de origen de Apache Hive, Google recomienda habilitarla o actualizar las estadísticas de forma manual antes de ejecutar la herramienta de dwh-migration-dumper.

Ejecuta la herramienta dwh-migration-dumper

Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper.

Descarga el archivo SHA256SUMS.txt y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:

Bash

sha256sum --check SHA256SUMS.txt

WindowsPowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Reemplaza RELEASE_ZIP_FILENAME por el nombre del archivo ZIP descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper, por ejemplo, dwh-migration-tools-v1.0.52.zip.

El resultado True confirma la verificación correcta de la suma de verificación.

El resultado False indica un error de verificación. Asegúrate de que los archivos de suma de comprobación y ZIP se descarguen de la misma versión de actualización y se coloquen en el mismo directorio.

Si deseas obtener detalles sobre cómo usar la herramienta dwh-migration-dumper, consulta Genera metadatos para la traducción y la evaluación.

Usa la herramienta dwh-migration-dumper para generar metadatos de tu almacén de datos de Hive como un archivo ZIP.

Sin autenticación

Para generar el archivo ZIP de metadatos, ejecuta el siguiente comando en una máquina que tenga acceso al almacén de datos de origen:

dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --assessment

Con autenticación de Kerberos

Para autenticarte en el almacén de metadatos, accede como un usuario que tenga acceso al almacén de metadatos de Hive y genera un ticket de Kerberos. Luego, genera el archivo ZIP de metadatos con el siguiente comando:

JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \
  dwh-migration-dumper \
  --connector hiveql \
  --database DATABASES \
  --host hive.cluster.host \
  --port 9083 \
  --hive-kerberos-url PRINCIPAL/HOST \
  -Dhiveql.rpc.protection=hadoop.rpc.protection \
  --assessment

Reemplaza lo siguiente:

  • DATABASES: Es la lista separada por comas de los nombres de las bases de datos que se extraerán. Si no se proporciona, se extraen todas las bases de datos.
  • PRINCIPAL: El principal de Kerberos al que se emitió el ticket
  • HOST: Es el nombre de host de Kerberos al que se emite el ticket.
  • hadoop.rpc.protection: Es la calidad de protección (QOP) del nivel de configuración de la capa de seguridad y autenticación simple (SASL), igual al valor del parámetro hadoop.rpc.protection dentro del archivo /etc/hadoop/conf/core-site.xml, con uno de los siguientes valores:
    • authentication
    • integrity
    • privacy

Extrae registros de consultas con el hook de registro hadoop-migration-assessment

Para extraer registros de consultas, sigue estos pasos:

  1. Sube el hook de registro hadoop-migration-assessment.
  2. Configura las propiedades del hook de registro.
  3. Verifica el hook de registro.

Sube el hook de registro hadoop-migration-assessment

  1. Descarga el hook de registro de extracción de registros de consulta hadoop-migration-assessment que contiene el archivo JAR del hook de registro de Hive.

  2. Extrae el archivo JAR.

    Si necesitas auditar la herramienta para asegurarte de que cumpla con los requisitos de cumplimiento, revisa el código fuente del repositorio de GitHub del hook de registro hadoop-migration-assessment y compila tu propio objeto binario.

  3. Copia el archivo JAR en la carpeta de la biblioteca auxiliar en todos los clústeres en los que planeas habilitar el registro de consultas. Según tu proveedor, debes ubicar la carpeta de la biblioteca auxiliar en la configuración del clúster y transferir el archivo JAR a la carpeta de la biblioteca auxiliar en el clúster de Hive.

  4. Establece las propiedades de configuración para el hook de registro hadoop-migration-assessment. Según tu proveedor de Hadoop, debes usar la consola de IU para editar la configuración del clúster. Modifica el archivo /etc/hive/conf/hive-site.xml o aplica la configuración con el administrador de configuración.

Configura propiedades

Si ya tienes otros valores para las siguientes claves de configuración, agrega la configuración mediante una coma (,). A fin de configurar el hook de registro hadoop-migration-assessment, se requiere la siguiente configuración:

  • hive.exec.failure.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.post.hooks : com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.exec.pre.hooks: com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
  • hive.aux.jars.path: incluye la ruta al archivo JAR de hook de registro, por ejemplo, file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.
  • dwhassessment.hook.base-directory: Es la ruta de acceso a la carpeta de salida de los registros de consulta. Por ejemplo, hdfs://tmp/logs/
  • También puedes establecer las siguientes configuraciones opcionales:

    • dwhassessment.hook.queue.capacity: la capacidad de cola para los subprocesos de registro de eventos de consulta. El valor predeterminado es 64.
    • dwhassessment.hook.rollover-interval: la frecuencia con la que se debe realizar la transferencia del archivo. Por ejemplo, 600s El valor predeterminado es 3,600 segundos (1 hora).
    • dwhassessment.hook.rollover-eligibility-check-interval: la frecuencia con la que se activa la verificación de elegibilidad de transferencia de archivos en segundo plano. Por ejemplo, 600s El valor predeterminado es 600 segundos (10 minutos).

Verifica el hook de registro

Después de reiniciar el proceso hive-server2, ejecuta una consulta de prueba y analiza los registros de depuración. Puedes ver el siguiente mensaje:

Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes;
rollover eligibility check is '10' minutes

El hook de registro crea una subcarpeta particionada por fecha en la carpeta configurada. El archivo Avro con eventos de consulta aparece en esa carpeta después del intervalo dwhassessment.hook.rollover-interval o la finalización del proceso hive-server2. Puedes buscar mensajes similares en tus registros de depuración para ver el estado de la operación de desplazamiento:

Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time
is '2023-12-25T10:15:30'

El desplazamiento se produce en los intervalos especificados o cuando cambia el día. Cuando la fecha cambia, el hook de registro también crea una subcarpeta nueva para esa fecha.

Google recomienda que proporciones al menos dos semanas de registros de consultas para poder ver estadísticas más detalladas.

También puedes generar carpetas que contengan registros de consulta de diferentes clústeres de Hive y proporcionarlos a todos para una sola evaluación.

Snowflake

Requisitos

Debes cumplir con los siguientes requisitos para extraer metadatos y registros de consultas de Snowflake:

  • Una máquina que se pueda conectar a tus instancias de Snowflake.
  • Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos.
  • Un conjunto de datos de BigQuery vacío para almacenar los resultados. Como alternativa, puedes crear un conjunto de datos de BigQuery cuando creas el trabajo de evaluación con la IU de la consola de Google Cloud.
  • Acceso al rol de ACCOUNTADMIN en tu instancia de Snowflake, o que un administrador de cuentas te otorgue un rol con los privilegios IMPORTED PRIVILEGES en la base de datos Snowflake.

Ejecuta la herramienta dwh-migration-dumper

Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper.

Descarga el archivo SHA256SUMS.txt y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:

Bash

sha256sum --check SHA256SUMS.txt

WindowsPowerShell

(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]

Reemplaza RELEASE_ZIP_FILENAME por el nombre del archivo ZIP descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper, por ejemplo, dwh-migration-tools-v1.0.52.zip.

El resultado True confirma la verificación correcta de la suma de verificación.

El resultado False indica un error de verificación. Asegúrate de que los archivos de suma de comprobación y ZIP se descarguen de la misma versión de actualización y se coloquen en el mismo directorio.

Para obtener detalles sobre cómo usar la herramienta de dwh-migration-dumper, consulta la página Genera metadatos.

Usa la herramienta dwh-migration-dumper para extraer registros y metadatos del almacén de datos de Snowflake en dos archivos ZIP. Ejecuta los siguientes comandos en una máquina con acceso al almacén de datos de origen para generar los archivos.

Genera el archivo ZIP de metadatos:

dwh-migration-dumper \
  --connector snowflake \
  --host HOST_NAME \
  --database SNOWFLAKE \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --assessment \
  --password PASSWORD

Genera el archivo ZIP que contiene los registros de consulta:

dwh-migration-dumper \
  --connector snowflake-logs \
  --host HOST_NAME \
  --database SNOWFLAKE \
  --user USER_NAME \
  --role ROLE_NAME \
  --warehouse WAREHOUSE \
  --query-log-start STARTING_DATE \
  --query-log-end ENDING_DATE \
  --assessment \
  --password PASSWORD

Reemplaza lo siguiente:

  • HOST_NAME: el nombre de host de tu instancia de Snowflake.
  • USER_NAME: el nombre de usuario que se usará para la conexión a la base de datos, en la que el usuario debe tener los permisos de acceso que se detallan en la sección de requisitos.
  • ROLE_NAME: (Opcional) el rol de usuario cuando se ejecuta la herramienta dwh-migration-dumper, por ejemplo, ACCOUNTADMIN.
  • WAREHOUSE: el almacén que se usa para realizar las operaciones de volcado. Si tienes varios almacenes virtuales, puedes especificar cualquier almacén para realizar esta consulta. La ejecución de esta consulta con los permisos de acceso detallados en la sección de requisitos extrae todos los artefactos del almacén de esta cuenta.
  • STARTING_DATE: (Opcional) se usa para indicar la fecha de inicio en un período de registros de consulta, escrito en el formato YYYY-MM-DD.
  • ENDING_DATE: (Opcional) se usa para indicar la fecha de finalización en un período de registros de consultas, escrito en el formato YYYY-MM-DD.

También puedes generar varios archivos ZIP que contengan registros de consulta que abarquen diferentes períodos y proporcionarlos para su evaluación.

Oracle

Para solicitar comentarios o asistencia para esta función, envía un correo electrónico a bq-edw-migration-support@google.com.

Requisitos

Debes cumplir con los siguientes requisitos para extraer metadatos y registros de consultas de Oracle:

  • Una máquina que se pueda conectar a tus instancias de Oracle.
  • Java 8 o superior
  • Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos.
  • Un conjunto de datos de BigQuery vacío para almacenar los resultados. Como alternativa, puedes crear un conjunto de datos de BigQuery cuando creas el trabajo de evaluación con la IU de la consola de Google Cloud.
  • Un usuario común de Oracle con privilegios de SYSDBA

Ejecuta la herramienta dwh-migration-dumper

Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper.

Descarga el archivo SHA256SUMS.txt y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:

sha256sum --check SHA256SUMS.txt

Para obtener detalles sobre cómo usar la herramienta de dwh-migration-dumper, consulta la página Genera metadatos.

Usa la herramienta dwh-migration-dumper para extraer metadatos y estadísticas de rendimiento al archivo ZIP. De forma predeterminada, las estadísticas se extraen del AWR de Oracle, que requiere el paquete de diagnóstico y optimización de Oracle. Si estos datos no están disponibles, dwh-migration-dumper usa STATSPACK en su lugar.

En el caso de las bases de datos multiusuario, la herramienta dwh-migration-dumper se debe ejecutar en el contenedor raíz. Ejecutarlo en una de las bases de datos conectables hace que se pierdan las estadísticas de rendimiento y los metadatos sobre otras bases de datos conectables.

Genera el archivo ZIP de metadatos:

dwh-migration-dumper \
  --connector oracle-stats \
  --host HOST_NAME \
  --port PORT \
  --oracle-service SERVICE_NAME \
  --assessment \
  --driver JDBC_DRIVER_PATH \
  --user USER_NAME \
  --password

Reemplaza lo siguiente:

  • HOST_NAME: El nombre de host de tu instancia de Oracle.
  • PORT: Es el número de puerto de conexión. El valor predeterminado es 1521.
  • SERVICE_NAME: Es el nombre del servicio de Oracle que se usará para la conexión.
  • JDBC_DRIVER_PATH: Es la ruta de acceso absoluta o relativa al archivo JAR del controlador. Puedes descargar este archivo desde la página de descargas del controlador de JDBC de Oracle. Debes seleccionar la versión del controlador que sea compatible con la versión de la base de datos.
  • USER_NAME: Es el nombre del usuario que se usa para conectarse a tu instancia de Oracle. El usuario debe tener los permisos de acceso que se detallan en la sección de requisitos.

Sube registros de consultas y de metadatos a Cloud Storage

Una vez que hayas extraído los metadatos y los registros de consultas de tu almacén de datos, puedes subir los archivos a un bucket de Cloud Storage para continuar con la evaluación de la migración.

Teradata

Sube los metadatos y uno o más archivos ZIP que contengan registros de consulta a tu bucket de Cloud Storage. Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos. El límite para el tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos es de 50 GB.

Las entradas en todos los archivos ZIP que contienen registros de consultas se dividen en lo siguiente:

  • Archivos de historial de consultas con el prefijo query_history_
  • Archivos de series temporales con los prefijos utility_logs_, dbc.ResUsageScpu_ y dbc.ResUsageSpma_

El límite para el tamaño total sin comprimir de todos los archivos del historial de consultas es de 5 TB. El límite para el tamaño total sin comprimir de todos los archivos de series temporales es de 1 TB.

En caso de que los registros de consultas se archiven en una base de datos diferente, consulta la descripción de las marcas -Dteradata-logs.query-logs-tabley -Dteradata-logs.sql-logs-table antes en esta sección, en la que se explica cómo proporcionar una ubicación alternativa para los registros de consultas.

Amazon Redshift

Sube los metadatos y uno o más archivos ZIP que contengan registros de consulta a tu bucket de Cloud Storage. Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos. El límite para el tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos es de 50 GB.

Las entradas en todos los archivos ZIP que contienen registros de consultas se dividen en lo siguiente:

  • Archivos de historial de consultas con los prefijos querytext_ y ddltext_
  • Archivos de series temporales con los prefijos query_queue_info_, wlm_query_ y querymetrics_

El límite para el tamaño total sin comprimir de todos los archivos del historial de consultas es de 5 TB. El límite para el tamaño total sin comprimir de todos los archivos de series temporales es de 1 TB.

Apache Hive

Sube los metadatos y las carpetas que contienen registros de consulta de uno o varios clústeres de Hive a tu bucket de Cloud Storage. Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos.

El límite para el tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos es de 50 GB.

Puedes usar el conector de Cloud Storage para copiar registros de consulta directamente a la carpeta de Cloud Storage. Las carpetas que contienen subcarpetas con registros de consultas se deben subir a la misma carpeta de Cloud Storage, en la que se sube el archivo ZIP de metadatos.

Las carpetas de registros de consultas tienen archivos del historial de consultas con el prefijo dwhassessment_. El límite para el tamaño total sin comprimir de todos los archivos del historial de consultas es de 5 TB.

Snowflake

Sube los metadatos y los archivos ZIP que contienen registros de consulta y los historiales de uso a tu bucket de Cloud Storage. Cuando subas estos archivos a Cloud Storage, se deben cumplir los siguientes requisitos:

  • El tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos debe ser inferior a 50 GB.
  • El archivo ZIP de metadatos y el archivo ZIP que contiene registros de consulta deben subirse a una carpeta de Cloud Storage. Si tienes varios archivos ZIP con registros de consultas no superpuestos, puedes subirlos todos.
  • Debes subir todos los archivos a la misma carpeta de Cloud Storage.
  • Debes subir todos los archivos ZIP de metadatos y registros de consulta exactamente como los genera la herramienta dwh-migration-dumper. No los descomprimas ni combines o modifiques de ningún modo.
  • El tamaño total sin comprimir de todos los archivos del historial de consultas debe ser inferior a 5 TB.

Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos.

Oracle

Para solicitar comentarios o asistencia para esta función, envía un correo electrónico a bq-edw-migration-support@google.com.

Sube el archivo ZIP que contiene metadatos y estadísticas de rendimiento a un bucket de Cloud Storage. De forma predeterminada, el nombre del archivo ZIP es dwh-migration-oracle-stats.zip, pero puedes personalizarlo si lo especificas en la marca --output. El límite para el tamaño total sin comprimir de todos los archivos dentro del archivo ZIP es de 50 GB.

Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos.

Ejecuta una evaluación de migración de BigQuery

Sigue estos pasos para ejecutar la evaluación de migración de BigQuery. En estos pasos, se supone que subiste los archivos de metadatos a un bucket de Cloud Storage, como se describe en la sección anterior.

Permisos necesarios

Para habilitar el Servicio de migración de BigQuery, necesitas los siguientes permisos de Identity and Access Management (IAM):

  • resourcemanager.projects.get
  • resourcemanager.projects.update
  • serviceusage.services.enable
  • serviceusage.services.get

Para acceder al Servicio de migración de BigQuery y usarlo, necesitas los siguientes permisos en el proyecto:

  • bigquerymigration.workflows.create
  • bigquerymigration.workflows.get
  • bigquerymigration.workflows.list
  • bigquerymigration.workflows.delete
  • bigquerymigration.subtasks.get
  • bigquerymigration.subtasks.list

Para ejecutar el servicio de migración de BigQuery, necesitas los siguientes permisos adicionales.

  • Permiso para acceder a los buckets de Cloud Storage para archivos de entrada y salida, sigue estos pasos:

    • storage.objects.get en el bucket de origen de Cloud Storage
    • storage.objects.list en el bucket de origen de Cloud Storage
    • storage.objects.create en el bucket de destino de Cloud Storage
    • storage.objects.delete en el bucket de destino de Cloud Storage
    • storage.objects.update en el bucket de destino de Cloud Storage
    • storage.buckets.get
    • storage.buckets.list
  • Permiso para leer y actualizar el conjunto de datos de BigQuery en el que el Servicio de migración de BigQuery escribe los resultados:

    • bigquery.datasets.update
    • bigquery.datasets.get
    • bigquery.datasets.create
    • bigquery.datasets.delete
    • bigquery.jobs.create
    • bigquery.jobs.delete
    • bigquery.jobs.list
    • bigquery.jobs.update
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.list
    • bigquery.tables.updateData

Para compartir el informe de Looker Studio con un usuario, debes otorgar los siguientes roles:

  • roles/bigquery.dataViewer
  • roles/bigquery.jobUser

Si quieres personalizar este documento para usar tu propio proyecto y usuario en los comandos, edita estas variables: PROJECT, USER_EMAIL.

Crea un rol personalizado con los permisos necesarios para usar la evaluación de migración de BigQuery:

gcloud iam roles create BQMSrole \
  --project=PROJECT \
  --title=BQMSrole \
  --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get

Otórgale el rol personalizado BQMSrole a un usuario:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=projects/PROJECT/roles/BQMSrole

Otorga los roles necesarios a un usuario con el que deseas compartir el informe:

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.dataViewer

gcloud projects add-iam-policy-binding \
  PROJECT \
  --member=user:USER_EMAIL \
  --role=roles/bigquery.jobUser

Ubicaciones admitidas

La función de evaluación de migración de BigQuery es compatible con dos tipos de ubicaciones:

  • Una región es un lugar geográfico específico, como Londres.

  • Una multirregión es un área geográfica grande, como los Estados Unidos, que contiene dos o más regiones. Las ubicaciones multirregionales pueden proporcionar cuotas más grandes que las regiones individuales.

Para obtener más información sobre las regiones y zonas, consulta Geografía y regiones.

Regiones

En la siguiente tabla, se enumeran las regiones de América en las que está disponible la evaluación de migración de BigQuery.
Descripción de la región Nombre de la región Detalles
Columbus, Ohio us-east5
Dallas us-south1 ícono de hoja CO2 bajo
Iowa us-central1 ícono de hoja CO2 bajo
Carolina del Sur us-east1
Virginia del Norte us-east4
Oregón us-west1 ícono de hoja CO2 bajo
Los Ángeles us-west2
Salt Lake City us-west3
En la siguiente tabla, se enumeran las regiones de Asia-Pacífico en las que está disponible la evaluación de migración de BigQuery.
Descripción de la región Nombre de la región Detalles
Singapur asia-southeast1
Tokio asia-northeast1
En la siguiente tabla, se enumeran las regiones de Europa en las que está disponible la evaluación de migración de BigQuery.
Descripción de la región Nombre de la región Detalles
Bélgica europe-west1 ícono de hoja CO2 bajo
Finlandia europe-north1 ícono de hoja CO2 bajo
Fráncfort europe-west3 ícono de hoja CO2 bajo
Londres europe-west2 ícono de hoja CO2 bajo
Madrid europe-southwest1 ícono de hoja CO2 bajo
Países Bajos europe-west4 ícono de hoja CO2 bajo
París europe-west9 ícono de hoja CO2 bajo
Turín europe-west12
Varsovia europe-central2
Zúrich europe-west6 ícono de hoja CO2 bajo

Multirregiones

En la siguiente tabla, se enumeran las multirregiones en las que está disponible la evaluación de migración de BigQuery.
Descripción de la multirregión Nombre de la multirregión
Centros de datos dentro de los estados miembros de la Unión Europea EU
Centros de datos en Estados Unidos US

Antes de comenzar

Antes de ejecutar la evaluación, debes habilitar la API de BigQuery Migration y crear un conjunto de datos de BigQuery para almacenar los resultados de la evaluación.

Habilita la API de BigQuery Migration

Habilita la API de migración de BigQuery de la siguiente manera:

  1. En la consola de Google Cloud, ve a la página API de BigQuery Migration.

    Ir a la API de BigQuery Migration

  2. Haga clic en Habilitar.

Crea un conjunto de datos para los resultados de la evaluación

La evaluación de migración de BigQuery escribe los resultados de la evaluación en las tablas de BigQuery. Antes de comenzar, crea un conjunto de datos para conservar estas tablas. Cuando compartes el informe de Looker Studio, también debes otorgar permiso a los usuarios para leer este conjunto de datos. Si deseas obtener más información, consulta Haz que el informe esté disponible para los usuarios.

Ejecuta la evaluación de la migración

Consola

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. En el panel de navegación, ve a Evaluación.

  3. Haz clic en Iniciar evaluación.

  4. Completa el cuadro de diálogo de configuración de la evaluación.

    1. En Nombre visible, ingresa el nombre, que puede contener letras, números o guiones bajos. Este nombre solo se usa con fines de visualización y no tiene que ser único.
    2. En la lista Ubicación de los datos, elige una ubicación para el trabajo de evaluación. La tarea de evaluación debe estar en la misma ubicación que el bucket de Cloud Storage de entrada de tus archivos extraídos y el conjunto de datos de BigQuery de salida.

      Sin embargo, si esta ubicación es una multirregión US o EU, la ubicación del bucket de Cloud Storage y la ubicación del conjunto de datos de BigQuery pueden estar en cualquiera de las regiones dentro de esta multirregión. El bucket de Cloud Storage y el conjunto de datos de BigQuery pueden estar ubicados en diferentes ubicaciones dentro de la misma multirregión. Por ejemplo, si seleccionas la multirregión US, el bucket de Cloud Storage puede estar en la región us-central1, mientras que el conjunto de datos de BigQuery puede estar en la región us-east1.

    3. En Fuente de datos de la evaluación, elige tu almacén de datos.

    4. En Ruta de acceso a los archivos de entrada, ingresa la ruta de acceso al bucket de Cloud Storage que contiene los archivos extraídos.

    5. Para elegir cómo se almacenan los resultados de la evaluación, haz una de las siguientes opciones:

      • Mantén seleccionada la casilla de verificación Crea el conjunto de datos de BigQuery nuevo automáticamente para que el conjunto de datos de BigQuery se cree automáticamente. El nombre del conjunto de datos se genera automáticamente.
      • Borra la casilla de verificación Crea el conjunto de datos de BigQuery nuevo automáticamente y elige el conjunto de datos de BigQuery vacío existente con el formato projectId.datasetId o crea un nombre de conjunto de datos nuevo. En esta opción, puedes elegir el nombre del conjunto de datos de BigQuery.

    Opción 1: Generación automática de conjuntos de datos de BigQuery (opción predeterminada) Cuadro de diálogo de configuración de la evaluación.

    Opción 2: Creación manual de un conjunto de datos de BigQuery: Cuadro de diálogo de configuración de la evaluación con creación manual de conjuntos de datos.

  5. Haz clic en Crear. Puedes ver el estado del trabajo en la lista de trabajos de evaluación.

    Mientras se ejecuta la evaluación, puedes verificar su progreso y el tiempo estimado para completarla en la información sobre herramientas del ícono de estado.

    Progreso de la evaluación en la información sobre herramientas

  6. Mientras se ejecuta la evaluación, puedes hacer clic en el vínculo Ver informe en la lista de tareas de evaluación para ver el informe de evaluación con datos parciales en Looker Studio. Es posible que el vínculo Ver informe tarde un poco en aparecer mientras se ejecuta la evaluación. El informe se abrirá en una pestaña nueva.

    El informe se actualiza con datos nuevos a medida que se procesan. Actualiza la pestaña con el informe o vuelve a hacer clic en Ver informe para ver el informe actualizado.

  7. Cuando se complete la evaluación, haz clic en Ver informe para ver el informe de evaluación completo en Looker Studio. El informe se abrirá en una pestaña nueva.

API

Llama al método create con un flujo de trabajo definido.

Luego, llama al método start para iniciar el flujo de trabajo de evaluación.

La evaluación crea tablas en el conjunto de datos de BigQuery que creaste antes. Puedes consultarlos para obtener información sobre las tablas y las consultas que se usan en tu almacén de datos existente. Para obtener información sobre los archivos de salida de la traducción, consulta Traductor de SQL por lotes.

Resultado de la evaluación agregada que se puede compartir

En el caso de las evaluaciones de Amazon Redshift, Teradata y Snowflake, además del conjunto de datos de BigQuery creado anteriormente, el flujo de trabajo crea otro conjunto de datos ligero con el mismo nombre, más el sufijo _shareableRedactedAggregate. Este conjunto de datos contiene datos altamente agregados que se derivan del conjunto de datos de salida y no contiene información de identificación personal (PII).

Para encontrar, inspeccionar y compartir de forma segura el conjunto de datos con otros usuarios, consulta Cómo consultar las tablas de resultados de la evaluación de migración.

La función está activada de forma predeterminada, pero puedes inhabilitarla con la API pública.

Detalles de la evaluación

Para ver la página de detalles de la evaluación, haz clic en el nombre visible en la lista de trabajos de evaluación.

Página de la lista de evaluaciones.

La página de detalles de la evaluación contiene la pestaña Configuración, en la que puedes ver más información sobre un trabajo de evaluación, y la pestaña Errores, en la que puedes revisar los errores que se produjeron durante el procesamiento de la evaluación.

Consulta la pestaña Configuración para ver las propiedades de la evaluación.

Página de detalles de la evaluación: pestaña de configuración

Consulta la pestaña Errors para ver los errores que se produjeron durante el procesamiento de la evaluación.

Página de detalles de la evaluación: pestaña de errores

Revisa y comparte el informe de Looker Studio

Una vez que se completa la tarea de evaluación, puedes crear y compartir un informe de Looker Studio de los resultados.

Revisa el informe

Haz clic en el vínculo Ver informe que se encuentra junto a la tarea de evaluación individual. El informe de Looker Studio se abre en una pestaña nueva, en modo de vista previa. Puedes usar el modo de vista previa para revisar el contenido del informe antes de compartirlo.

El informe es similar a la siguiente captura de pantalla:

Informe de evaluación

Para ver qué vistas se encuentran en el informe, selecciona tu almacén de datos:

Teradata

El informe es una narrativa de tres partes que está precedida por una página de puntos destacados de resumen. Esa página incluye las siguientes secciones:

  • Sistema existente. Esta sección es una instantánea del sistema y el uso de Teradata existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en TB. También se enumeran los esquemas por tamaño y se apunta al posible uso de recursos deficientes (tablas sin escrituras o pocas lecturas).
  • Transformaciones de estado estable de BigQuery (sugerencias). En esta sección, se muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery (y evitar el desperdicio).
  • Plan de migración. En esta sección, se proporciona información sobre el esfuerzo de migración, por ejemplo, pasar del sistema existente al estado estable de BigQuery. Esta sección incluye el recuento de consultas que se tradujeron automáticamente y el tiempo esperado para mover cada tabla a BigQuery.

Los detalles de cada sección incluyen lo siguiente:

Sistema existente

  • Procesamiento y consultas
    • Uso de CPU:
      • Mapa de calor del uso promedio de la CPU por hora (vista general del uso de recursos del sistema)
      • Consultas por hora y día con el uso de CPU
      • Consultas por tipo (lectura/escritura) con uso de CPU
      • Aplicaciones con uso de CPU
      • Superposición del uso de CPU por hora con el rendimiento de consultas por hora promedio y el rendimiento promedio de las aplicaciones por hora
    • Consulta histogramas por tipo y duración de las consultas
    • Vista de detalles de las aplicaciones (app, usuario, consultas únicas, informes y desglose de ETL)
  • Descripción general del almacenamiento
    • Bases de datos por volumen, vistas y tasas de acceso
    • Tablas con tasas de acceso de los usuarios, consultas, escrituras y creación de tablas temporales
  • Aplicaciones: Tasas de acceso y direcciones IP

Transformaciones de estado estable de BigQuery (sugerencias)

  • Cómo unir índices convertidos en vistas materializadas
  • Clúster y partición de candidatos según los metadatos y el uso
  • Consultas de baja latencia identificadas como candidatas para BigQuery BI Engine
  • Columnas configuradas con valores predeterminados que usan la función de descripción de la columna para almacenar valores predeterminados
  • Los índices únicos en Teradata (para evitar filas con claves que no sean únicas en una tabla) usan tablas de etapa de pruebas y una sentencia MERGE para insertar solo registros únicos en las tablas de destino y, luego, descartar los duplicados.
  • Consultas restantes y esquema traducidos tal como están

Plan de migración

  • Vista detallada con consultas traducidas de forma automática
    • Recuento de consultas totales con capacidad para filtrar por usuario, aplicación, tablas afectadas, tablas consultadas y tipo de consulta
    • Buckets de consultas con patrones similares agrupados y se muestran juntos para que el usuario pueda ver la filosofía de traducción por tipos de consulta
  • Consultas que requieren intervención humana
    • Consultas con incumplimientos de estructura léxica de BigQuery
    • Funciones y procedimientos definidos por el usuario
    • Palabras clave reservadas de BigQuery
  • Tablas programadas por escrituras y lecturas (para agruparlas a fin de moverlas)
  • Migración de datos con el Servicio de transferencia de datos de BigQuery: Tiempo estimado de migración por tabla

La sección Sistema existente contiene las siguientes vistas:

Descripción general del sistema
La vista de descripción general del sistema proporciona las métricas de volumen de alto nivel de los componentes clave en el sistema existente durante un período específico. El cronograma que se evalúa depende de los registros que se analizaron en la evaluación de migración de BigQuery. Esta vista te brinda estadísticas rápidas sobre el uso del almacén de datos de origen, que puedes usar para la planificación de la migración.
Volumen de tablas
En la vista Volumen de tablas, se proporcionan estadísticas sobre las tablas y bases de datos más grandes que se encuentran en la evaluación de migración de BigQuery. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista puede ser útil en la planificación y la secuencia de la migración.
Uso de tablas
En la vista Uso de tablas, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas pueden ayudarte a comprender qué tablas pueden tener muchas dependencias y requieren una planificación adicional durante el proceso de migración.
Aplicaciones
Las vistas Uso de aplicaciones y Patrones de aplicaciones proporcionan estadísticas sobre las aplicaciones que se encontraron durante el procesamiento de los registros. Estas vistas permiten a los usuarios comprender el uso de aplicaciones específicas a lo largo del tiempo y el impacto en el uso de recursos. Durante una migración, es importante visualizar la transferencia y el consumo de datos para comprender mejor las dependencias del almacén de datos y analizar el impacto de mover varias aplicaciones dependientes juntas. La tabla Direcciones IP puede ser útil para identificar la aplicación exacta que usa el almacén de datos a través de conexiones de JDBC.
Consultas
La vista Consultas proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma de Tiempo y tipo de consulta para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos. También puedes usar esta vista para identificar las consultas que se ejecutan con frecuencia y los usuarios que invocan esas ejecuciones.
Bases de datos
La vista de bases de datos proporciona métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esta vista puede proporcionar estadísticas sobre el volumen de objetos que necesitas migrar.
Acoplamiento de bases de datos
La vista de acoplamiento de la base de datos proporciona una vista de alto nivel en las bases de datos y tablas a las que se accede en conjunto en una sola consulta. En esta vista, se puede mostrar a qué tablas y bases de datos se hace referencia con frecuencia y qué puedes usar para la planificación de la migración.

La sección Estado estable de BigQuery contiene las siguientes vistas:

Tablas sin uso
En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ningún uso durante el período de registros que se analizó. La falta de uso puede indicar que no necesitas transferir esa tabla a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores. Debes validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de los registros, como una tabla que solo se usa una vez cada tres o seis meses.
Tablas sin escritura
En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ninguna actualización durante el período de registros que se analizó. La falta de escrituras puede indicar dónde se pueden reducir los costos de almacenamiento en BigQuery.
Consultas de baja latencia
La vista Consultas de baja latencia muestra una distribución de entornos de ejecución de consultas en función de los datos de registro analizados. Si el gráfico de distribución de la duración de la consulta muestra una gran cantidad de consultas con menos de 1 segundo en el entorno de ejecución, considera habilitar BigQuery BI Engine para acelerar la IE y otras cargas de trabajo de baja latencia.
Vistas materializadas
Las vistas materializadas proporcionan sugerencias de optimización adicionales para aumentar el rendimiento en BigQuery.
Partición y agrupamiento en clústeres

En la vista Partición y agrupamiento en clústeres, se muestran las tablas que se beneficiarían de la partición, el agrupamiento en clústeres o ambos.

Las sugerencias de metadatos se logran mediante el análisis del esquema del almacén de datos de origen (como el particionamiento y la clave primaria en la tabla de origen) y la búsqueda del equivalente de BigQuery más cercano para lograr características de optimización similares.

Las sugerencias de cargas de trabajo se obtienen mediante el análisis de los registros de consulta de origen. La recomendación se determina mediante el análisis de las cargas de trabajo, en especial las cláusulas WHERE o JOIN en los registros de consulta analizados.

Recomendación de agrupamiento en clústeres

En la vista Partición, se muestran las tablas que pueden tener más de 10,000 particiones, según su definición de restricción de partición. Estas tablas suelen ser buenas candidatas para el agrupamiento en clústeres de BigQuery, lo que permite particiones de tabla detalladas.

Restricciones únicas

En la vista Restricciones únicas, se muestran las tablas SET y los índices únicos definidos dentro del almacén de datos de origen. En BigQuery, se recomienda usar tablas de etapa de pruebas y una declaración MERGE para insertar solo registros únicos en una tabla de destino. Usa el contenido de esta vista para determinar en qué tablas es posible que debas ajustar el ETL durante la migración.

Valores predeterminados/Restricciones de verificación

En esta vista, se muestran tablas que usan restricciones de verificación para establecer valores de columna predeterminados. En BigQuery, consulta Especifica los valores predeterminados de la columna.

La sección Ruta de la migración del informe contiene las siguientes vistas:

Traducción de SQL
En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos. Esta vista es interactiva y permite el análisis de consultas comunes y cómo se traducen.
Esfuerzo sin conexión
La vista Esfuerzo sin conexión captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las posibles infracciones de sintaxis y estructura léxicas para las tablas o columnas.
Palabras clave reservadas de BigQuery
La vista Palabras clave reservadas de BigQuery muestra el uso detectado de palabras clave que tienen un significado especial en el lenguaje GoogleSQL y no se pueden usar como identificadores, a menos que estén encerrados entre caracteres de acento grave (`).
Programa de actualizaciones de la tabla
En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.
Migración de datos a BigQuery
En la vista Migración de datos a BigQuery, se describe la ruta de migración con el tiempo previsto para migrar tus datos con el Servicio de transferencia de datos de BigQuery. Para obtener más información, consulta la Guía del Servicio de transferencia de datos de BigQuery para Teradata.

La sección Apéndice contiene las siguientes vistas:

Distinción de mayúsculas
En la vista Distinción entre mayúsculas y minúsculas, se muestran las tablas del almacén de datos de origen que están configuradas para realizar comparaciones que no distinguen mayúsculas de minúsculas. De forma predeterminada, las comparaciones de cadenas en BigQuery distinguen mayúsculas de minúsculas. Para obtener más información, consulta Intercalación.

Amazon Redshift

Puntos destacados de la migración
La vista Aspectos destacados de la migración proporciona un resumen ejecutivo de las tres secciones del informe:
  1. El panel Sistema existente proporciona información sobre la cantidad de bases de datos, esquemas, tablas y el tamaño total del sistema de Redshift existente. También se enumeran los esquemas por tamaño y el posible uso de recursos deficientes. Puedes usar esta información para optimizar tus datos quitando, particionando o agrupando tus tablas.
  2. En el panel Estado de Steady de BigQuery, se proporciona información sobre cómo se verán tus datos después de la migración en BigQuery, incluida la cantidad de consultas que se pueden traducir de forma automática mediante el servicio de migración de BigQuery. En esta sección, también se muestran los costos de almacenar tus datos en BigQuery según tu tasa de transferencia de datos anual, junto con sugerencias de optimización para tablas, aprovisionamiento y espacio.
  3. El panel Ruta de migración proporciona información sobre el esfuerzo de migración. Para cada tabla, se muestra el tiempo estimado para la migración, la cantidad de filas en la tabla y su tamaño.

La sección Sistema existente contiene las siguientes vistas:

Consultas por tipo y programación
La vista Consultas por tipo y programación clasifica tus consultas en ETL/escritura y generación de informes/agregación. Ver tu combinación de consultas a lo largo del tiempo te ayuda a comprender tus patrones de uso existentes y a identificar la intermitencia y el posible sobreaprovisionamiento que pueden afectar el costo y el rendimiento.
En cola de consultas
La vista de colas de consultas proporciona detalles adicionales sobre la carga del sistema, como el volumen de consultas, la combinación y cualquier impacto en el rendimiento debido a las colas, como recursos insuficientes.
Consultas y escalamiento de WLM
La vista Búsquedas y escalamiento de WLM identifica el escalamiento de simultaneidad como un costo adicional y una complejidad de configuración. Muestra cómo tu sistema Redshift enruta las consultas según las reglas que especificaste y los impactos en el rendimiento debido a las filas, el escalamiento de simultaneidad y las consultas expulsadas.
Cola y espera
La vista de colas y tiempos de espera ofrece un análisis más detallado de las colas y los tiempos de espera de las consultas a lo largo del tiempo.
Rendimiento y clases de WLM
La vista de clases y rendimiento de WLM proporciona una forma opcional de asignar las reglas a BigQuery. Sin embargo, te recomendamos que dejes que BigQuery enrute automáticamente tus consultas.
Estadísticas de volumen de consultas y tablas
En la vista de estadísticas de volumen de consultas y tablas, se enumeran las consultas por tamaño, frecuencia y usuarios principales. Esto te ayuda a categorizar las fuentes de carga en el sistema y a planificar cómo migrar tus cargas de trabajo.
Bases de datos y esquemas
La vista de bases de datos y esquemas proporciona métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esto proporciona estadísticas sobre el volumen de objetos que se deben migrar.
Volumen de tablas
En la vista Volumen de tablas, se proporcionan estadísticas sobre las tablas y bases de datos más grandes, y se muestra cómo se accede a ellas. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista te ayuda con la planificación y la secuencia de la migración.
Uso de tablas
En la vista Uso de tablas, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas se pueden aprovechar para comprender qué tablas pueden tener muchas dependencias y garantizar una planificación adicional durante el proceso de migración.
Importadores y exportadores
La vista Importadores y exportadores proporciona información sobre los datos y los usuarios involucrados en la importación de datos (con consultas COPY) y la exportación de datos (con consultas UNLOAD). Esta vista ayuda a identificar la capa de etapa y los procesos relacionados con la carga y las exportaciones.
Uso de clústeres
La vista Uso del clúster proporciona información general sobre todos los clústeres disponibles y muestra el uso de CPU de cada clúster. Esta visualización puede ayudarte a comprender la reserva de capacidad del sistema.

La sección Estado estable de BigQuery contiene las siguientes vistas:

Partición y agrupamiento en clústeres

En la vista Partición y agrupamiento en clústeres, se muestran las tablas que se beneficiarían de la partición, el agrupamiento en clústeres o ambos.

Las sugerencias de metadatos se logran mediante el análisis del esquema del almacén de datos de origen (como Sort Key y Dist Key en la tabla de origen) y la búsqueda del equivalente de BigQuery más cercano para lograr características de optimización similares.

Las sugerencias de cargas de trabajo se obtienen a través del análisis de los registros de consulta de origen. La recomendación se determina mediante el análisis de las cargas de trabajo, en especial las cláusulas WHERE o JOIN en los registros de consulta analizados.

En la parte inferior de la página, hay una sentencia de creación de tabla traducida con todas las optimizaciones proporcionadas. Todas las sentencias DDL traducidas también se pueden extraer del conjunto de datos. Las sentencias DDL traducidas se almacenan en la tabla SchemaConversion en la columna CreateTableDDL.

Las recomendaciones del informe solo se proporcionan para tablas de más de 1 GB, ya que las tablas pequeñas no se beneficiarán del agrupamiento ni de la partición. Sin embargo, el DDL para todas las tablas (incluidas las tablas de menos de 1 GB) está disponible en la tabla SchemaConversion.

Tablas sin uso

En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no identificó ningún uso durante el período de registros analizado. La falta de uso puede indicar que no necesitas transferir esa tabla a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores (facturados como almacenamiento a largo plazo). Recomendamos validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de los registros, como una tabla que solo se usa una vez cada tres o seis meses.

Tablas sin escritura

En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no identificó ninguna actualización durante el período de registros analizado. La falta de operaciones de escritura puede indicar dónde puedes reducir los costos de almacenamiento en BigQuery (facturados como Almacenamiento a largo plazo).

BI Engine y vistas materializadas

BI Engine y las vistas materializadas proporcionan sugerencias de optimización adicionales para aumentar el rendimiento en BigQuery.

La sección Ruta de la migración contiene las siguientes vistas:

Traducción de SQL
En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos.
Esfuerzo sin conexión de traducción de SQL
La vista Esfuerzo sin conexión de traducción de SQL captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las consultas con posibles ambigüedades de traducción.
Compatibilidad con la función ALTER TABLE APPEND
La vista de compatibilidad con la función Alter Table Append muestra detalles sobre las construcciones comunes de SQL de Redshift que no tienen una contraparte directa de BigQuery.
Compatibilidad con el comando de copia
La vista de compatibilidad con el comando de copia muestra detalles sobre las construcciones comunes de SQL de Redshift que no tienen una contraparte directa de BigQuery.
Advertencias de SQL
La vista Advertencias de SQL captura áreas que se traducen correctamente, pero requieren una revisión.
Incumplimientos de estructura léxica y sintaxis
La vista Estructura léxica y Violaciones de sintaxis muestra los nombres de las columnas, las tablas, las funciones y los procedimientos que incumplen la sintaxis de BigQuery.
Palabras clave reservadas de BigQuery
En la vista Palabras clave reservadas de BigQuery, se muestra el uso detectado de palabras clave que tienen un significado especial en el lenguaje GoogleSQL y no se pueden usar como identificadores, a menos que estén encerrados entre caracteres de acento grave (`).
Acoplamiento de esquemas
La vista de acoplamiento de esquemas proporciona una vista de alto nivel de las bases de datos, los esquemas y las tablas a las que se accede en conjunto en una sola consulta. En esta vista, se puede mostrar a qué tablas, esquemas y bases de datos se hace referencia con frecuencia y qué puedes usar para la planificación de la migración.
Programa de actualizaciones de la tabla
En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.
Escala de la tabla
En la vista Escala de tablas, se enumeran las tablas con la mayor cantidad de columnas.
Migración de datos a BigQuery
En la vista Migración de datos a BigQuery, se describe la ruta de migración con el tiempo esperado para migrar tus datos con el Servicio de transferencia de datos del Servicio de migración de BigQuery. Para obtener más información, consulta la Guía del Servicio de transferencia de datos de BigQuery para Redshift.
Resumen de la ejecución de la evaluación

El resumen de la ejecución de la evaluación contiene la finalización del informe, el progreso de la evaluación en curso y el estado de los archivos y errores procesados.

El nivel de finalización del informe representa el porcentaje de datos procesados correctamente que se recomienda para mostrar estadísticas significativas en el informe de evaluación. Si faltan los datos de una sección particular del informe, esta información aparecerá en la tabla Módulos de evaluación, en el indicador Completitud del informe.

La métrica progreso indica el porcentaje de los datos procesados hasta el momento, junto con la estimación del tiempo restante para procesar todos los datos. Una vez que se completa el procesamiento, no se muestra la métrica de progreso.

Resumen de la ejecución de la evaluación

Apache Hive

El informe que consta de una narrativa de tres partes está precedido por una página de puntos destacados de resumen que incluye las siguientes secciones:

  • Sistema existente: Hive. En esta sección, se incluye una instantánea del sistema y el uso de Hive existentes, incluida la cantidad de bases de datos, tablas, su tamaño total en GB y la cantidad de registros de consultas procesados. En esta sección, también se enumeran las bases de datos por tamaño y se apunta al posible uso de recursos deficientes (tablas sin escrituras o pocas lecturas) y el aprovisionamiento. Los detalles de esta sección incluyen lo siguiente:

    • Procesamiento y consultas
      • Uso de CPU:
        • Consultas por hora y día con el uso de CPU
        • Consultas por tipo (lectura/escritura)
        • Colas y aplicaciones
        • Superposición del uso de CPU por hora con el rendimiento de consultas por hora promedio y el rendimiento promedio de las aplicaciones por hora
      • Consulta histogramas por tipo y duración de las consultas
      • Página en cola y en espera
      • Vista detallada de colas (cola, usuario, consultas únicas, informes y desglose de ETL, por métricas)
    • Descripción general del almacenamiento
      • Bases de datos por volumen, vistas y tasas de acceso
      • Tablas con tasas de acceso de los usuarios, consultas, escrituras y creación de tablas temporales
    • Colas y aplicaciones: tasas de acceso y direcciones IP de cliente
  • Estado estable de BigQuery. En esta sección, se muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery (y evitar el desperdicio). Los detalles de esta sección incluyen lo siguiente:

    • Tablas identificadas como candidatas para vistas materializadas
    • Clúster y partición de candidatos según los metadatos y el uso
    • Consultas de baja latencia identificadas como candidatas para BigQuery BI Engine
    • Tablas sin uso de lectura o escritura
    • Tablas particionadas con sesgo de datos
  • Plan de migración. En esta sección, se proporciona información sobre el esfuerzo de migración. Por ejemplo, pasar del sistema existente al estado estable de BigQuery. En esta sección, se muestran los objetivos de almacenamiento identificados para cada tabla, las tablas identificadas como significativas para la migración y el recuento de consultas que se tradujeron de forma automática. Los detalles de esta sección incluyen lo siguiente:

    • Vista detallada con consultas traducidas de forma automática
      • Recuento de consultas totales con capacidad para filtrar por usuario, aplicación, tablas afectadas, tablas consultadas y tipo de consulta
      • Depósitos de consultas con patrones similares agrupados, lo que permite a los usuarios ver la filosofía de traducción por tipo de consulta
    • Consultas que requieren intervención humana
      • Consultas con incumplimientos de estructura léxica de BigQuery
      • Funciones y procedimientos definidos por el usuario
      • Palabras clave reservadas de BigQuery
    • Consulta que requiere revisión
    • Tablas programadas por escrituras y lecturas (para agruparlas a fin de moverlas)
    • Destino de almacenamiento identificado para tablas externas y administradas

La sección Sistema existente - Hive contiene las siguientes vistas:

Descripción general del sistema
Esta vista proporciona las métricas de volumen de alto nivel de los componentes clave en el sistema existente durante un período específico. El cronograma que se evalúa depende de los registros que se analizaron en la evaluación de migración de BigQuery. Esta vista te brinda estadísticas rápidas sobre el uso del almacén de datos de origen, que puedes usar para la planificación de la migración.
Volumen de tablas
En esta vista, se proporcionan estadísticas sobre las tablas y bases de datos más grandes que se encuentran en la evaluación de migración de BigQuery. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista puede ser útil en la planificación y la secuencia de la migración.
Uso de tablas
En esta vista, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas pueden ayudarte a comprender qué tablas pueden tener muchas dependencias y requieren una planificación adicional durante el proceso de migración.
Uso de colas
En esta vista, se proporcionan estadísticas sobre el uso de las colas de YARN que se encontraron durante el procesamiento de los registros. Estas vistas permiten a los usuarios comprender el uso de colas y aplicaciones específicas a lo largo del tiempo y el impacto en el uso de recursos. Estas vistas también ayudan a identificar y priorizar las cargas de trabajo para la migración. Durante una migración, es importante visualizar la transferencia y el consumo de datos para comprender mejor las dependencias del almacén de datos y analizar el impacto de mover varias aplicaciones dependientes juntas. La tabla Direcciones IP puede ser útil para identificar la aplicación exacta que usa el almacén de datos a través de conexiones de JDBC.
Métricas de colas
Esta vista proporciona un desglose de las diferentes métricas en las colas YARN que se encuentran durante el procesamiento de los registros. Esta vista permite a los usuarios comprender los patrones de uso en colas específicas y el impacto en la migración. También puedes usar esta vista para identificar conexiones entre tablas a las que se accede en consultas y colas en las que se ejecutó la consulta.
Cola y espera
En esta vista, se proporciona una estadística sobre el tiempo en cola de la consulta en el almacén de datos de origen. Los tiempos en cola indican una degradación del rendimiento debido al aprovisionamiento insuficiente, y el aprovisionamiento adicional requiere mayores costos de hardware y mantenimiento.
Consultas
En esta vista, se proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma de Tiempo y tipo de consulta para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos. También puedes usar esta vista para identificar los motores de ejecución de Hive más usados y las consultas ejecutadas con frecuencia junto con los detalles del usuario.
Bases de datos
En esta vista, se proporcionan métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esta vista puede proporcionar estadísticas sobre el volumen de objetos que necesitas migrar.
Acoplamiento de bases de datos y tablas
Esta vista proporciona una vista de alto nivel de las bases de datos y tablas a las que se accede en una sola consulta. En esta vista, se puede mostrar a qué tablas y bases de datos se hace referencia con frecuencia y qué puedes usar para la planificación de la migración.

La sección Estado estable de BigQuery contiene las siguientes vistas:

Tablas sin uso
En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ningún uso durante el período de registros que se analizó. La falta de uso puede indicar que no necesitas transferir esa tabla a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores. Debes validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de los registros, como una tabla que solo se usa una vez cada tres o seis meses.
Tablas sin escritura
En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ninguna actualización durante el período de registros que se analizó. La falta de escrituras puede indicar dónde se pueden reducir los costos de almacenamiento en BigQuery.
Recomendaciones de agrupamiento en clústeres y partición

En esta vista, se muestran las tablas que se beneficiarían de la partición, el agrupamiento en clústeres o ambos.

Las sugerencias de metadatos se logran mediante el análisis del esquema del almacén de datos de origen (como el particionamiento y la clave primaria en la tabla de origen) y la búsqueda del equivalente de BigQuery más cercano para lograr características de optimización similares.

Las sugerencias de cargas de trabajo se obtienen mediante el análisis de los registros de consulta de origen. La recomendación se determina mediante el análisis de las cargas de trabajo, en especial las cláusulas WHERE o JOIN en los registros de consulta analizados.

Particiones convertidas en clústeres

En esta vista, se muestran tablas que tienen más de 10,000 particiones, según su definición de restricción de partición. Estas tablas suelen ser buenas candidatas para el agrupamiento en clústeres de BigQuery, lo que permite particiones de tabla detalladas.

Particiones sesgadas

La vista de particiones sesgadas muestra tablas que se basan en el análisis de metadatos y tienen sesgo de datos en una o varias particiones. Estas tablas son buenas candidatas para el cambio de esquema, ya que las consultas en particiones sesgadas podrían no tener un buen rendimiento.

BI Engine y vistas materializadas

La vista Consultas de baja latencia y Vistas materializadas muestran una distribución de entornos de ejecución de consultas en función de los datos de registro analizados y más sugerencias de optimización para aumentar el rendimiento en BigQuery. Si el gráfico de distribución de la duración de la consulta muestra una gran cantidad de consultas con un tiempo de ejecución inferior a 1 segundo, considera habilitar BI Engine para acelerar la IE y otras cargas de trabajo de baja latencia.

La sección Plan de migración del informe contiene las siguientes vistas:

Traducción de SQL
En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos. Esta vista es interactiva y permite el análisis de consultas comunes y cómo se traducen.
Esfuerzo sin conexión de traducción de SQL
La vista Esfuerzo sin conexión captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las posibles infracciones de sintaxis y estructura léxicas para las tablas o columnas.
Advertencias de SQL
La vista Advertencias de SQL captura áreas que se traducen correctamente, pero requieren una revisión.
Palabras clave reservadas de BigQuery
En la vista Palabras clave reservadas de BigQuery, se muestra el uso detectado de las palabras clave que tienen un significado especial en el lenguaje GoogleSQL. Estas palabras clave no se pueden usar como identificadores, a menos que estén encerradas entre caracteres de acento grave (`).
Programa de actualizaciones de la tabla
En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.
Tablas externas de BigLake
En la vista de tablas externas de BigLake, se describen las tablas que se identifican como destinos de migración a BigLake en lugar de BigQuery.

La sección Apéndice del informe contiene las siguientes vistas:

Análisis detallado del esfuerzo sin conexión de la traducción de SQL
La vista Análisis detallado del esfuerzo sin conexión proporciona una estadística adicional de las áreas de SQL que necesitan intervención manual.
Análisis detallado de advertencias de SQL
La vista Análisis detallado de las advertencias proporciona una estadística adicional de las áreas de SQL que se traducen de forma correcta, pero requieren una revisión.

Snowflake

El informe consta de diferentes secciones que se pueden usar por separado o juntas. En el siguiente diagrama, se organizan estas secciones en tres objetivos de usuario comunes para ayudarte a evaluar tus necesidades de migración:

Diagrama de flujo del informe de evaluación de migración para Snowflake

Vistas destacadas de migración

La sección Aspectos destacados de la migración contiene las siguientes vistas:

Modelos de precios de Snowflake en comparación con BigQuery
Enumera los precios con diferentes ediciones o niveles. También se incluye una ilustración de cómo el ajuste de escala automático de BigQuery puede ayudar a ahorrar más costos en comparación con el de Snowflake.
Costo total de propiedad
Tabla interactiva, que permite al usuario definir: edición de BigQuery, compromiso, compromiso de la ranura del modelo de referencia, porcentaje de almacenamiento activo y porcentaje de datos cargados o modificados. Ayuda a estimar mejor el costo de los casos personalizados.
Aspectos destacados de la traducción automática
Proporción de traducción agregada, agrupada por usuario o base de datos, ordenada de forma ascendente o descendente. También incluye el mensaje de error más común para la traducción automática con errores.

Vistas del sistema existente

La sección Sistema existente contiene las siguientes vistas:

Descripción general del sistema
La vista de descripción general del sistema proporciona las métricas de volumen de alto nivel de los componentes clave en el sistema existente durante un período específico. El cronograma que se evalúa depende de los registros que se analizaron en la evaluación de migración de BigQuery. Esta vista te brinda estadísticas rápidas sobre el uso del almacén de datos de origen, que puedes usar para la planificación de la migración.
Descripción general de los almacenes virtuales
Muestra el costo de Snowflake por almacén, así como el reescalamiento basado en nodos durante el período.
Volumen de tablas
En la vista Volumen de tablas, se proporcionan estadísticas sobre las tablas y bases de datos más grandes que se encuentran en la evaluación de migración de BigQuery. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista puede ser útil en la planificación y la secuencia de la migración.
Uso de tablas
En la vista Uso de tablas, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas pueden ayudarte a comprender qué tablas pueden tener muchas dependencias y requieren una planificación adicional durante el proceso de migración.
Consultas
La vista Consultas proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma de Tiempo y Tipo de consulta para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos. También puedes usar esta vista para identificar las consultas que se ejecutan con frecuencia y los usuarios que invocan esas ejecuciones.
Bases de datos
La vista de bases de datos proporciona métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esta vista proporciona observaciones sobre el volumen de objetos que necesitas migrar.

Vistas de estado estable de BigQuery

La sección Estado estable de BigQuery contiene las siguientes vistas:

Tablas sin uso
En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ningún uso durante el período de registros que se analizó. Esto puede indicar qué tablas no necesitan transferirse a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores. Debes validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de registros analizado, como una tabla que solo se usa una vez por trimestre o por semestre.
Tablas sin escritura
En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ninguna actualización durante el período de registros que se analizó. Esto puede indicar que los costos de almacenamiento de datos en BigQuery podrían ser menores.

Vistas del plan de migración

La sección Plan de migración del informe contiene las siguientes vistas:

Traducción de SQL
En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos. Esta vista es interactiva y permite el análisis de consultas comunes y cómo se traducen.
Esfuerzo sin conexión de traducción de SQL
La vista Esfuerzo sin conexión captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las posibles infracciones de sintaxis y estructura léxicas para las tablas o columnas.
Advertencias de SQL: Revisión
La vista Advertencias para revisar captura las áreas que se traducen, pero requieren cierta inspección manual.
Palabras clave reservadas de BigQuery
La vista Palabras clave reservadas de BigQuery muestra el uso detectado de palabras clave que tienen un significado especial en el lenguaje GoogleSQL y no se pueden usar como identificadores, a menos que estén encerrados entre caracteres de acento grave (`).
Acoplamiento de bases de datos y tablas
La vista de acoplamiento de la base de datos proporciona una vista de alto nivel en las bases de datos y tablas a las que se accede en conjunto en una sola consulta. En esta vista, se puede ver a qué tablas y bases de datos se hace referencia a menudo y qué se puede usar para la planificación de la migración.
Programa de actualizaciones de la tabla
En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.

Vista de prueba de concepto

La sección PoC (prueba de concepto) contiene las siguientes vistas:

PoC para demostrar los ahorros de estado estable de BigQuery
Incluye las consultas más frecuentes, las consultas que leen la mayor cantidad de datos, las consultas más lentas y las tablas afectadas por estas consultas.
PoC para demostrar el plan de migración de BigQuery
Muestra cómo BigQuery traduce las consultas más complejas y las tablas a las que afectan.

Oracle

Para solicitar comentarios o asistencia para esta función, envía un correo electrónico a bq-edw-migration-support@google.com.

Puntos destacados de la migración

La sección Aspectos destacados de la migración contiene las siguientes vistas:

  • Sistema existente: Es una instantánea del sistema y el uso de Oracle existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en GB. También proporciona el resumen de la clasificación de la carga de trabajo para cada base de datos para ayudarte a decidir si BigQuery es el destino de migración correcto.
  • Compatibilidad: Proporciona información sobre el esfuerzo de migración. Para cada base de datos analizada, muestra el tiempo esperado para la migración y la cantidad de objetos de base de datos que se pueden migrar automáticamente con las herramientas que proporciona Google.
  • Estado estable de BigQuery: Contiene información sobre cómo se verán tus datos después de la migración en BigQuery, incluidos los costos de almacenar tus datos en BigQuery según tu tasa anual de transferencia de datos. Además, proporciona la estimación del costo de procesamiento de BigQuery para Oracle Exadata.

Sistema existente

La sección Sistema existente contiene las siguientes vistas:

  • Característica de cargas de trabajo: Describe el tipo de carga de trabajo de cada base de datos según las métricas de rendimiento analizadas. Cada base de datos se clasifica como OLAP, mixta o OLTP. Esta información puede ayudarte a tomar una decisión sobre qué bases de datos se pueden migrar a BigQuery.
  • Bases de datos y esquemas: Proporciona un desglose del tamaño total de almacenamiento en GB para cada base de datos, esquema o tabla. Además, puedes usar esta vista para identificar las vistas materializadas y las tablas externas.
  • Funciones y vínculos de la base de datos: Muestra la lista de funciones de Oracle que se usan en tu base de datos, junto con las funciones o los servicios equivalentes de BigQuery que se pueden usar después de la migración. Además, puedes explorar los vínculos de bases de datos para comprender mejor las conexiones entre ellas.
  • Conexiones de bases de datos: Proporciona estadísticas sobre las sesiones de la base de datos que inició el usuario o la aplicación. El análisis de estos datos puede ayudarte a identificar aplicaciones externas que podrían requerir un esfuerzo adicional durante la migración.
  • Tipos de consultas: Proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma por hora de Ejecuciones de consulta o Tiempo de CPU de consulta para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos.
  • Código fuente de PL/SQL: Proporciona estadísticas sobre los objetos PL/SQL, como las funciones o los procedimientos, y su tamaño para cada base de datos y esquema. Además, el histograma de ejecuciones por hora se puede usar para identificar las horas pico con la mayoría de las ejecuciones de PL/SQL.

Estado estable de BigQuery

La sección Sistema existente contiene las siguientes vistas:

  • Precios de Exadata en comparación con los de BigQuery: Proporciona la comparación general de los modelos de precios de Exadata y BigQuery para ayudarte a comprender los beneficios y los posibles ahorros de costos después de la migración a BigQuery.
  • Estimador de costos de BigQuery: Se puede usar para estimar el costo total de BigQuery según tu configuración de Exadata. Para obtener la estimación más precisa, debes proporcionar la cantidad de servidores de bases de datos, su tipo y su uso. Además, puedes comparar el costo de BigQuery según la edición y el compromiso seleccionados.
  • Operaciones de lectura y escritura de la base de datos: Proporciona estadísticas sobre las operaciones de disco físico de la base de datos. El análisis de estos datos puede ayudarte a encontrar el mejor momento para realizar la migración de datos de Oracle a BigQuery.

Sugerencias de migración

La sección Sugerencias de migración contiene las siguientes vistas:

  • Compatibilidad de objetos de base de datos: Proporciona una descripción general de la compatibilidad de los objetos de base de datos con BigQuery, incluida la cantidad de objetos que se pueden migrar automáticamente con las herramientas proporcionadas por Google o que requieren acciones manuales. Esta información se muestra para cada base de datos, esquema y tipo de objeto de base de datos.
  • Esfuerzo de migración de objetos de base de datos: Muestra la estimación del esfuerzo de migración en horas para cada base de datos, esquema o tipo de objeto de base de datos. Además, muestra el porcentaje de objetos pequeños, medianos y grandes según el esfuerzo de migración.
  • Esfuerzo de migración del esquema de la base de datos: Proporciona la lista de todos los tipos de objetos de la base de datos detectados, su cantidad, la compatibilidad con BigQuery y el esfuerzo de migración estimado en horas.
  • Esfuerzo detallado de migración de esquemas de bases de datos: Proporciona estadísticas más detalladas sobre el esfuerzo de migración de esquemas de bases de datos, incluida la información de cada objeto.

Vista de prueba de concepto

La sección Vistas de prueba de concepto contiene las siguientes vistas:

  • Migración de prueba de concepto: Muestra la lista sugerida de bases de datos con el esfuerzo de migración más bajo que son buenos candidatos para la migración inicial. Además, muestra las consultas principales que pueden ayudar a demostrar el ahorro de tiempo y costos, y el valor de BigQuery a través de una prueba de concepto.

Apéndice

La sección Apéndice contiene las siguientes vistas:

  • Resumen de la ejecución de la evaluación: Proporciona los detalles de la ejecución de la evaluación, incluida la lista de archivos procesados, los errores y el nivel de finalización del informe. Puedes usar esta página para investigar los datos que faltan en el informe y comprender mejor su nivel de finalización general.

Comparte el informe

El informe de Looker Studio es un panel de frontend para la evaluación de la migración. Se basa en los permisos de acceso al conjunto de datos subyacente. Para compartir el informe, el destinatario debe tener acceso al informe de Looker Studio y al conjunto de datos de BigQuery que contiene los resultados de la evaluación.

Cuando abres el informe desde la consola de Google Cloud, lo ves en el modo de vista previa. Para crear y compartir el informe con otros usuarios, realiza los siguientes pasos:

  1. Haz clic en Editar y compartir. Looker Studio te solicita que adjuntes los conectores de Looker Studio recién creados al informe nuevo.
  2. Haga clic en Agregar al informe. El informe recibe un ID de informe individual, que puedes usar para acceder al informe.
  3. Para compartir el informe de Looker Studio con otros usuarios, sigue los pasos proporcionados en Comparte informes con usuarios y editores.
  4. Otorga permiso a los usuarios para ver el conjunto de datos de BigQuery que se usó a fin de ejecutar la tarea de evaluación. Para obtener más información, consulta Otorga acceso a un conjunto de datos.

Consulta las tablas de resultados de la evaluación de migración

Aunque los informes de Looker Studio son la forma más conveniente de ver los resultados de la evaluación, también puedes consultar y ver los datos subyacentes en el conjunto de datos de BigQuery.

Consulta de ejemplo

En el ejemplo siguiente, se obtiene la cantidad total de consultas únicas, la cantidad de consultas que fallaron en la traducción y el porcentaje de consultas únicas que fallaron.

  SELECT
    QueryCount.v AS QueryCount,
    ErrorCount.v as ErrorCount,
    (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage
  FROM
  (
    SELECT
     COUNT(*) AS v
    FROM
      `your_project.your_dataset.TranslationErrors`
    WHERE Type = "ERROR"
  ) AS ErrorCount,
  (
    SELECT
      COUNT(DISTINCT(QueryHash)) AS v
    FROM
      `your_project.your_dataset.Queries`
  ) AS QueryCount;

Cómo compartir tu conjunto de datos con usuarios de otros proyectos

Después de inspeccionar el conjunto de datos, si deseas compartirlo con un usuario que no está en tu proyecto, puedes hacerlo con el flujo de trabajo del publicador de Analytics Hub.

  1. En la consola de Google Cloud, ve a la página de BigQuery.

    Ir a BigQuery

  2. Haz clic en el conjunto de datos para ver sus detalles.

  3. Haz clic en Compartir > Publicar como ficha.

  4. En el diálogo que se abre, crea una ficha según se te solicite.

    Si ya tienes un intercambio de datos, omite el paso 5.

  5. Crea un intercambio y establece permisos. Para permitir que un usuario vea tus fichas en este intercambio, agrégalo a la lista de Suscriptores.

  6. Ingresa los detalles de la ficha.

    Nombre visible es el nombre de esta ficha y es obligatorio. Los demás campos son opcionales.

  7. Haz clic en Publicar.

    Se crea una ficha privada.

  8. En tu ficha, selecciona Más acciones en Acciones.

  9. Haz clic en Copiar vínculo para compartir.

    Puedes compartir el vínculo con los usuarios que tengan acceso de suscripción a tu intercambio o ficha.

Esquemas de tablas de evaluación

Para ver las tablas y sus esquemas que la evaluación de migración de BigQuery escribe en BigQuery, selecciona tu almacén de datos:

Teradata

AllRIChildren

En esta tabla, se proporciona información de integridad referencial de los elementos secundarios de la tabla.

Columna Tipo Descripción
IndexId INTEGER Es el número de índice de referencia.
IndexName STRING Es el nombre del índice.
ChildDB STRING El nombre de la base de datos de referencia, convertido en minúsculas.
ChildDBOriginal STRING El nombre de la base de datos de referencia, con mayúsculas preservadas.
ChildTable STRING El nombre de la tabla de referencia, convertido en minúsculas.
ChildTableOriginal STRING El nombre de la tabla de referencia con el caso preservado.
ChildKeyColumn STRING El nombre de una columna en la clave de referencia, convertido en minúsculas.
ChildKeyColumnOriginal STRING El nombre de una columna en la clave de referencia con el caso preservado.
ParentDB STRING El nombre de la base de datos a la que se hace referencia, convertido en minúsculas.
ParentDBOriginal STRING El nombre de la base de datos de referencia, con mayúsculas preservadas.
ParentTable STRING El nombre de la tabla a la que se hace referencia, convertido en minúsculas.
ParentTableOriginal STRING El nombre de la tabla de referencia con el caso preservado.
ParentKeyColumn STRING El nombre de la columna en una clave a la que se hace referencia, convertido en minúsculas.
ParentKeyColumnOriginal STRING El nombre de la columna en una clave de referencia con el caso preservado.

AllRIParents

En esta tabla, se proporciona la información de integridad referencial de los elementos superiores de la tabla.

Columna Tipo Descripción
IndexId INTEGER Es el número de índice de referencia.
IndexName STRING Es el nombre del índice.
ChildDB STRING El nombre de la base de datos de referencia, convertido en minúsculas.
ChildDBOriginal STRING El nombre de la base de datos de referencia, con mayúsculas preservadas.
ChildTable STRING El nombre de la tabla de referencia, convertido en minúsculas.
ChildTableOriginal STRING El nombre de la tabla de referencia con el caso preservado.
ChildKeyColumn STRING El nombre de una columna en la clave de referencia, convertido en minúsculas.
ChildKeyColumnOriginal STRING El nombre de una columna en la clave de referencia con el caso preservado.
ParentDB STRING El nombre de la base de datos a la que se hace referencia, convertido en minúsculas.
ParentDBOriginal STRING El nombre de la base de datos de referencia, con mayúsculas preservadas.
ParentTable STRING El nombre de la tabla a la que se hace referencia, convertido en minúsculas.
ParentTableOriginal STRING El nombre de la tabla de referencia con el caso preservado.
ParentKeyColumn STRING El nombre de la columna en una clave a la que se hace referencia, convertido en minúsculas.
ParentKeyColumnOriginal STRING El nombre de la columna en una clave de referencia con el caso preservado.

Columns

En esta tabla, se proporciona información sobre las columnas.

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas.
DatabaseNameOriginal STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla, convertido en minúsculas.
TableNameOriginal STRING El nombre de la tabla con el caso preservado.
ColumnName STRING El nombre de la columna, convertido en minúsculas.
ColumnNameOriginal STRING El nombre de la columna con el caso preservado.
ColumnType STRING El tipo de BigQuery de la columna, como STRING.
OriginalColumnType STRING El tipo original de la columna, como VARCHAR.
ColumnLength INTEGER Es la cantidad máxima de bytes de la columna, como 30 para VARCHAR(30).
DefaultValue STRING Es el valor predeterminado, si existe.
Nullable BOOLEAN Indica si la columna acepta el valor NULL.

DiskSpace

En esta tabla, se proporciona información sobre el uso del espacio en disco de cada base de datos.

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas.
DatabaseNameOriginal STRING El nombre de la base de datos, con mayúsculas preservadas.
MaxPerm INTEGER Es la cantidad máxima de bytes asignados al espacio permanente.
MaxSpool INTEGER Es la cantidad máxima de bytes asignados al espacio de cola.
MaxTemp INTEGER Es la cantidad máxima de bytes asignados al espacio temporal.
CurrentPerm INTEGER Es la cantidad de bytes asignados actualmente al espacio permanente.
CurrentSpool INTEGER Es la cantidad de bytes asignados actualmente al espacio de cola.
CurrentTemp INTEGER Es la cantidad de bytes asignados actualmente al espacio temporal.
PeakPerm INTEGER La cantidad máxima de bytes usados desde el último restablecimiento del espacio permanente.
PeakSpool INTEGER La cantidad máxima de bytes usados desde el último restablecimiento del espacio de cola.
PeakPersistentSpool INTEGER La cantidad máxima de bytes usados desde el último restablecimiento del espacio persistente.
PeakTemp INTEGER La cantidad máxima de bytes usados desde el último restablecimiento del espacio temporal.
MaxProfileSpool INTEGER Es el límite de espacio de cola para el usuario.
MaxProfileTemp INTEGER Es el límite de espacio temporal para el usuario.
AllocatedPerm INTEGER La asignación actual del espacio permanente.
AllocatedSpool INTEGER La asignación actual del espacio en cola.
AllocatedTemp INTEGER La asignación actual del espacio temporal.

Functions

En esta tabla, se proporciona información sobre las funciones.

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas.
DatabaseNameOriginal STRING El nombre de la base de datos, con mayúsculas preservadas.
FunctionName STRING Es el nombre de la función.
LanguageName STRING El nombre del idioma.

Indices

En esta tabla, se proporciona información sobre los índices.

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas.
DatabaseNameOriginal STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla, convertido en minúsculas.
TableNameOriginal STRING El nombre de la tabla con el caso preservado.
IndexName STRING Es el nombre del índice.
ColumnName STRING El nombre de la columna, convertido en minúsculas.
ColumnNameOriginal STRING El nombre de la columna con el caso preservado.
OrdinalPosition INTEGER Es la posición de la columna.
UniqueFlag BOOLEAN Indica si el índice aplica la unicidad.

Queries

En esta tabla, se proporciona información sobre las consultas extraídas.

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
QueryText STRING Es el texto de la consulta.

QueryLogs

Esta tabla proporciona algunas estadísticas de ejecución sobre las consultas extraídas.

Columna Tipo Descripción
QueryText STRING Es el texto de la consulta.
QueryHash STRING El hash de la consulta.
QueryId STRING El ID de la consulta.
QueryType STRING Es el tipo de consulta, ya sea Query o DDL.
UserId BYTES El ID del usuario que ejecutó la consulta.
UserName STRING El nombre del usuario que ejecutó la consulta.
StartTime TIMESTAMP Es la marca de tiempo del momento en que se envió la consulta.
Duration STRING Es la duración de la consulta, expresada en milisegundos.
AppId STRING El ID de la aplicación que ejecutó la consulta.
ProxyUser STRING Es el usuario del proxy cuando se usa a través de un nivel intermedio.
ProxyRole STRING Es el rol del proxy cuando se usa a través de un nivel intermedio.

QueryTypeStatistics

En esta tabla, se proporcionan estadísticas sobre los tipos de consultas.

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
QueryType STRING El tipo de consulta.
UpdatedTable STRING Es la tabla que actualizó la consulta, si la hubiera.
QueriedTables ARRAY<STRING> Es una lista de las tablas que se consultaron.

ResUsageScpu

En esta tabla, se proporciona información sobre el uso de recursos de la CPU.

Columna Tipo Descripción
EventTime TIMESTAMP La hora del evento.
NodeId INTEGER ID de nodo
CabinetId INTEGER Es el número de gabinete físico del nodo.
ModuleId INTEGER Es el número de módulo físico del nodo.
NodeType STRING Es el tipo de nodo.
CpuId INTEGER Es el ID de la CPU dentro de este nodo.
MeasurementPeriod INTEGER Es el período de la medición expresado en centésimas de segundo.
SummaryFlag STRING S: fila de resumen, N: fila que no es de resumen
CpuFrequency FLOAT Es la frecuencia de la CPU en MHz.
CpuIdle FLOAT Es el tiempo que la CPU está inactiva, expresado en centésimas de segundo.
CpuIoWait FLOAT Es el tiempo que la CPU espera a la E/S, expresado en centésimas de segundo.
CpuUServ FLOAT Es el tiempo que la CPU dedica a ejecutar el código del usuario, expresado en centésimas de segundo.
CpuUExec FLOAT Es el tiempo que la CPU dedica a ejecutar el código de servicio, expresado en centésimas de segundo.

Roles

En esta tabla, se proporciona información sobre los roles.

Columna Tipo Descripción
RoleName STRING El nombre del rol.
Grantor STRING El nombre de la base de datos que otorgó el rol.
Grantee STRING El usuario al que se le otorga el rol.
WhenGranted TIMESTAMP Cuándo se otorgó el rol.
WithAdmin BOOLEAN Es la opción de administrador establecida para el rol otorgado.

Conversión de esquemas

En esta tabla, se proporciona información sobre las conversiones de esquema relacionadas con el agrupamiento en clústeres y la partición.

Nombre de la columna Tipo de columna Descripción
DatabaseName STRING El nombre de la base de datos de origen para la que se realiza la sugerencia. Una base de datos se asigna a un conjunto de datos en BigQuery.
TableName STRING El nombre de la tabla para la que se realiza la sugerencia.
PartitioningColumnName STRING El nombre de la columna de partición sugerida en BigQuery.
ClusteringColumnNames ARRAY Los nombres de las columnas de agrupamiento en clústeres sugeridas en BigQuery.
CreateTableDDL STRING El CREATE TABLE statement para crear la tabla en BigQuery.

TableInfo

En esta tabla, se proporciona información sobre las tablas.

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas.
DatabaseNameOriginal STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla, convertido en minúsculas.
TableNameOriginal STRING El nombre de la tabla con el caso preservado.
LastAccessTimestamp TIMESTAMP Es la última vez que se accedió a la tabla.
LastAlterTimestamp TIMESTAMP Es la última vez que se modificó la tabla.
TableKind STRING El tipo de tabla.

TableRelations

En esta tabla, se proporciona información sobre las tablas.

Columna Tipo Descripción
QueryHash STRING Es el hash de la consulta que estableció la relación.
DatabaseName1 STRING Es el nombre de la primera base de datos.
TableName1 STRING Es el nombre de la primera tabla.
DatabaseName2 STRING Es el nombre de la segunda base de datos.
TableName2 STRING El nombre de la segunda tabla.
Relation STRING Es el tipo de relación entre las dos tablas.

TableSizes

En esta tabla, se proporciona información sobre los tamaños de las tablas.

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas.
DatabaseNameOriginal STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla, convertido en minúsculas.
TableNameOriginal STRING El nombre de la tabla con el caso preservado.
TableSizeInBytes INTEGER Es el tamaño de la tabla en bytes.

Users

En esta tabla, se proporciona información sobre los usuarios.

Columna Tipo Descripción
UserName STRING Es el nombre del usuario.
CreatorName STRING Es el nombre de la entidad que creó este usuario.
CreateTimestamp TIMESTAMP Es la marca de tiempo de la creación de este usuario.
LastAccessTimestamp TIMESTAMP Es la marca de tiempo de la última vez que este usuario accedió a una base de datos.

Amazon Redshift

Columns

La tabla Columns proviene de una de las siguientes tablas:SVV_COLUMNS, INFORMATION_SCHEMA.COLUMNS oPG_TABLE_DEF, ordenadas por prioridad. La herramienta intenta cargar primero los datos desde la tabla de prioridad más alta. Si esto falla, intenta cargar datos de la siguiente tabla de prioridad más alta. Consulta la documentación de Amazon Redshift o PostgreSQL para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
DatabaseName STRING Es el nombre de la base de datos.
SchemaName STRING Es el nombre del esquema.
TableName STRING Es el nombre de la tabla.
ColumnName STRING Es el nombre de la columna
DefaultValue STRING Es el valor predeterminado, si está disponible.
Nullable BOOLEAN Indica si una columna puede tener un valor nulo.
ColumnType STRING El tipo de la columna, como VARCHAR.
ColumnLength INTEGER Es el tamaño de la columna, como 30 para un VARCHAR(30).

CreateAndDropStatistic

En esta tabla, se proporciona información sobre cómo crear y borrar tablas.

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
DefaultDatabase STRING La base de datos predeterminada.
EntityType STRING El tipo de entidad, por ejemplo, TABLA.
EntityName STRING Es el nombre de la entidad.
Operation STRING La operación: CREATE o DROP.

Databases

Esta tabla proviene de la tabla PG_DATABASE_INFO directamente de Amazon Redshift. Los nombres de campo originales de la tabla PG se incluyen con las descripciones. Consulta la documentación de Amazon Redshift y PostgreSQL para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
DatabaseName STRING Es el nombre de la base de datos. Nombre de la fuente: datname
Owner STRING El propietario de la base de datos. Por ejemplo, el usuario que creó la base de datos. Nombre de la fuente: datdba

ExternalColumns

Esta tabla contiene información de la tabla SVV_EXTERNAL_COLUMNS directamente desde Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
SchemaName STRING Es el nombre del esquema externo.
TableName STRING Es el nombre de la tabla externa.
ColumnName STRING Es el nombre de la columna externa.
ColumnType STRING Es el tipo de la columna.
Nullable BOOLEAN Indica si una columna puede tener un valor nulo.

ExternalDatabases

Esta tabla contiene información de la tabla SVV_EXTERNAL_DATABASES directamente desde Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
DatabaseName STRING Es el nombre de la base de datos externa.
Location STRING La ubicación de la base de datos.

ExternalPartitions

Esta tabla contiene información de la tabla SVV_EXTERNAL_PARTITIONS de Amazon Redshift directamente. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
SchemaName STRING Es el nombre del esquema externo.
TableName STRING Es el nombre de la tabla externa.
Location STRING Es la ubicación de la partición. El tamaño de la columna se limita a 128 caracteres. Los valores más largos se truncan.

ExternalSchemas

Esta tabla contiene información de la tabla SVV_EXTERNAL_SCHEMAS de Amazon Redshift directamente. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
SchemaName STRING Es el nombre del esquema externo.
DatabaseName STRING Es el nombre de la base de datos externa.

ExternalTables

Esta tabla contiene información de la tabla SVV_EXTERNAL_TABLES directamente desde Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
SchemaName STRING Es el nombre del esquema externo.
TableName STRING Es el nombre de la tabla externa.

Functions

Esta tabla contiene información de la tabla PG_PROC de Amazon Redshift directamente. Consulta la documentación de Amazon Redshift y PostgreSQL para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
SchemaName STRING Es el nombre del esquema.
FunctionName STRING Es el nombre de la función.
LanguageName STRING El lenguaje de implementación o la interfaz de llamada de esta función.

Queries

Esta tabla se genera con la información de la tabla QueryLogs. A diferencia de la tabla QueryLogs, cada fila de la tabla de consultas contiene solo una declaración de consulta almacenada en la columna QueryText. En esta tabla, se proporcionan los datos de origen para generar las tablas de estadísticas y los resultados de traducción.

Columna Tipo Descripción
QueryText STRING Es el texto de la consulta.
QueryHash STRING El hash de la consulta.

QueryLogs

En esta tabla, se proporciona información sobre la ejecución de consultas.

Columna Tipo Descripción
QueryText STRING Es el texto de la consulta.
QueryHash STRING El hash de la consulta.
QueryID STRING El ID de la consulta.
UserID STRING El ID del usuario
StartTime TIMESTAMP La hora de inicio.
Duration INTEGER Duración en milisegundos.

QueryTypeStatistics

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
DefaultDatabase STRING La base de datos predeterminada.
QueryType STRING El tipo de consulta.
UpdatedTable STRING La tabla actualizada.
QueriedTables ARRAY<STRING> Las tablas consultadas.

TableInfo

Esta tabla contiene información extraída de la tabla SVV_TABLE_INFO en Amazon Redshift.

Columna Tipo Descripción
DatabaseName STRING Es el nombre de la base de datos.
SchemaName STRING Es el nombre del esquema.
TableId INTEGER El ID de la tabla
TableName STRING Es el nombre de la tabla.
SortKey1 STRING Primera columna de la clave de orden.
SortKeyNum INTEGER Cantidad de columnas definidas como claves de ordenamiento.
MaxVarchar INTEGER Es el tamaño de la columna más grande que usa un tipo de datos VARCHAR.
Size INTEGER Tamaño de la tabla, en bloques de datos de 1 MB
TblRows INTEGER Cantidad total de filas en la tabla.

TableRelations

Columna Tipo Descripción
QueryHash STRING Es el hash de la consulta que estableció la relación (por ejemplo, una consulta JOIN).
DefaultDatabase STRING La base de datos predeterminada.
TableName1 STRING La primera tabla de la relación.
TableName2 STRING La segunda tabla de la relación.
Relation STRING El tipo de relación. Toma uno de los siguientes valores: COMMA_JOIN, CROSS_JOIN, FULL_OUTER_JOIN, INNER_JOIN, LEFT_OUTER_JOIN, RIGHT_OUTER_JOIN, CREATED_FROM o INSERT_INTO.
Count INTEGER Con qué frecuencia se observó esta relación.

TableSizes

En esta tabla, se proporciona información sobre los tamaños de las tablas.

Columna Tipo Descripción
DatabaseName STRING Es el nombre de la base de datos.
SchemaName STRING Es el nombre del esquema.
TableName STRING Es el nombre de la tabla.
TableSizeInBytes INTEGER Es el tamaño de la tabla en bytes.

Tables

Esta tabla contiene información extraída de la tabla SVV_TABLES en Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
DatabaseName STRING Es el nombre de la base de datos.
SchemaName STRING Es el nombre del esquema.
TableName STRING Es el nombre de la tabla.
TableType STRING El tipo de tabla.

TranslatedQueries

En esta tabla, se proporcionan traducciones de consultas.

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
TranslatedQueryText STRING Resultado de la traducción del dialecto de origen a GoogleSQL.

TranslationErrors

En esta tabla, se proporciona información sobre los errores de traducción de consultas.

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
Severity STRING La gravedad del error, como ERROR.
Category STRING La categoría del error, como AttributeNotFound.
Message STRING El mensaje con los detalles sobre el error.
LocationOffset INTEGER La posición del carácter de la ubicación del error.
LocationLine INTEGER El número de línea del error.
LocationColumn INTEGER El número de columna del error.
LocationLength INTEGER La longitud de caracteres de la ubicación del error.

UserTableRelations

Columna Tipo Descripción
UserID STRING El ID de usuario.
TableName STRING Es el nombre de la tabla.
Relation STRING La relación.
Count INTEGER El recuento

Users

Esta tabla contiene información extraída de la tabla PG_USER en Amazon Redshift. Consulta la documentación de PostgreSQL para obtener más detalles sobre el esquema y el uso.

Columna Tipo Descripción
UserName STRING Es el nombre del usuario.
UserId STRING El ID de usuario.

Apache Hive

Columns

En esta tabla, se proporciona información sobre las columnas:

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla con el caso preservado.
ColumnName STRING El nombre de la columna con el caso preservado.
ColumnType STRING El tipo de BigQuery de la columna, como STRING.
OriginalColumnType STRING El tipo original de la columna, como VARCHAR.

CreateAndDropStatistic

En esta tabla, se proporciona información sobre cómo crear y borrar tablas:

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
DefaultDatabase STRING La base de datos predeterminada.
EntityType STRING El tipo de entidad, por ejemplo, TABLE.
EntityName STRING Es el nombre de la entidad.
Operation STRING Es la operación realizada en la tabla (CREATE o DROP).

Databases

En esta tabla, se proporciona información sobre las columnas:

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, con mayúsculas preservadas.
Owner STRING El propietario de la base de datos. Por ejemplo, el usuario que creó la base de datos.
Location STRING Ubicación de la base de datos en el sistema de archivos.

Functions

En esta tabla, se proporciona información sobre las funciones:

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, con mayúsculas preservadas.
FunctionName STRING Es el nombre de la función.
LanguageName STRING El nombre del idioma.
ClassName STRING El nombre de clase de la función.

ObjectReferences

En esta tabla, se proporciona información sobre los objetos a los que se hace referencia en las consultas:

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
DefaultDatabase STRING La base de datos predeterminada.
Clause STRING La cláusula donde aparece el objeto. Por ejemplo, SELECT.
ObjectName STRING El nombre del objeto.
Type STRING Es el tipo de objeto.
Subtype STRING El subtipo del objeto.

ParititionKeys

En esta tabla, se proporciona información sobre las claves de partición:

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla con el caso preservado.
ColumnName STRING El nombre de la columna con el caso preservado.
ColumnType STRING El tipo de BigQuery de la columna, como STRING.

Parititions

En esta tabla, se proporciona información sobre las particiones de tablas:

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla con el caso preservado.
PartitionName STRING El nombre de la partición.
CreateTimestamp TIMESTAMP Es la marca de tiempo de la creación de este usuario.
LastAccessTimestamp TIMESTAMP La marca de tiempo de la última vez que se accedió a esta partición.
LastDdlTimestamp TIMESTAMP Es la marca de tiempo de la última modificación de esta partición.
TotalSize INTEGER El tamaño comprimido de la partición en bytes.

Queries

Esta tabla se genera con la información de la tabla QueryLogs. A diferencia de la tabla QueryLogs, cada fila de la tabla de consultas contiene solo una instrucción de consulta almacenada en la columna QueryText. En esta tabla, se proporcionan los datos de origen para generar las tablas de estadísticas y los resultados de traducción:

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
QueryText STRING Es el texto de la consulta.

QueryLogs

Esta tabla proporciona algunas estadísticas de ejecución sobre las consultas extraídas:

Columna Tipo Descripción
QueryText STRING Es el texto de la consulta.
QueryHash STRING El hash de la consulta.
QueryId STRING El ID de la consulta.
QueryType STRING Es el tipo de consulta, ya sea Query o DDL.
UserName STRING El nombre del usuario que ejecutó la consulta.
StartTime TIMESTAMP Es la marca de tiempo del momento en que se envió la consulta.
Duration STRING La duración de la consulta en milisegundos.

QueryTypeStatistics

En esta tabla, se proporcionan estadísticas sobre los tipos de consultas:

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
QueryType STRING El tipo de consulta.
UpdatedTable STRING Es la tabla que actualizó la consulta, si la hubiera.
QueriedTables ARRAY<STRING> Es una lista de las tablas que se consultaron.

QueryTypes

En esta tabla, se proporcionan estadísticas sobre los tipos de consultas:

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
Category STRING La categoría de la consulta.
Type STRING El tipo de consulta.
Subtype STRING El subtipo de la consulta.

Conversión de esquemas

En esta tabla, se proporciona información sobre las conversiones de esquema relacionadas con el agrupamiento en clústeres y la partición:

Nombre de la columna Tipo de columna Descripción
DatabaseName STRING El nombre de la base de datos de origen para la que se realiza la sugerencia. Una base de datos se asigna a un conjunto de datos en BigQuery.
TableName STRING El nombre de la tabla para la que se realiza la sugerencia.
PartitioningColumnName STRING El nombre de la columna de partición sugerida en BigQuery.
ClusteringColumnNames ARRAY Los nombres de las columnas de agrupamiento en clústeres sugeridas en BigQuery.
CreateTableDDL STRING El CREATE TABLE statement para crear la tabla en BigQuery.

TableRelations

En esta tabla, se proporciona información sobre las tablas:

Columna Tipo Descripción
QueryHash STRING Es el hash de la consulta que estableció la relación.
DatabaseName1 STRING Es el nombre de la primera base de datos.
TableName1 STRING Es el nombre de la primera tabla.
DatabaseName2 STRING Es el nombre de la segunda base de datos.
TableName2 STRING El nombre de la segunda tabla.
Relation STRING Es el tipo de relación entre las dos tablas.

TableSizes

En esta tabla, se proporciona información sobre los tamaños de las tablas:

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla con el caso preservado.
TotalSize INTEGER Es el tamaño de la tabla en bytes.

Tables

En esta tabla, se proporciona información sobre las tablas:

Columna Tipo Descripción
DatabaseName STRING El nombre de la base de datos, con mayúsculas preservadas.
TableName STRING El nombre de la tabla con el caso preservado.
Type STRING El tipo de tabla.

TranslatedQueries

En esta tabla, se proporcionan traducciones de consultas:

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
TranslatedQueryText STRING Resultado de la traducción del dialecto de origen a GoogleSQL.

TranslationErrors

En esta tabla, se proporciona información sobre los errores de traducción de consultas:

Columna Tipo Descripción
QueryHash STRING El hash de la consulta.
Severity STRING La gravedad del error, como ERROR.
Category STRING La categoría del error, como AttributeNotFound.
Message STRING El mensaje con los detalles sobre el error.
LocationOffset INTEGER La posición del carácter de la ubicación del error.
LocationLine INTEGER El número de línea del error.
LocationColumn INTEGER El número de columna del error.
LocationLength INTEGER La longitud de caracteres de la ubicación del error.

UserTableRelations

Columna Tipo Descripción
UserID STRING El ID de usuario.
TableName STRING Es el nombre de la tabla.
Relation STRING La relación.
Count INTEGER El recuento

Snowflake

Warehouses

Columna Tipo Descripción Presencia
WarehouseName STRING El nombre del almacén Siempre
State STRING El estado del almacén. Valores posibles: STARTED, SUSPENDED, RESIZING. Siempre
Type STRING Tipo de almacén. Valores posibles: STANDARD, SNOWPARK-OPTIMIZED. Siempre
Size STRING Tamaño del almacén. Valores posibles: X-Small, Small, Medium, Large, X-Large, 2X-Large6X-Large. Siempre

Databases

Columna Tipo Descripción Presencia
DatabaseNameOriginal STRING El nombre de la base de datos, con el caso de mayúsculas preservado. Siempre
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas. Siempre

Schemata

Columna Tipo Descripción Presencia
DatabaseNameOriginal STRING El nombre de la base de datos a la que pertenece el esquema, con el caso de mayúsculas preservado. Siempre
DatabaseName STRING El nombre de la base de datos a la que pertenece el esquema, convertido en minúsculas. Siempre
SchemaNameOriginal STRING El nombre del esquema, con el caso de mayúsculas preservado. Siempre
SchemaName STRING El nombre del esquema, convertido en minúsculas. Siempre

Tables

Columna Tipo Descripción Presencia
DatabaseNameOriginal STRING El nombre de la base de datos a la que pertenece la tabla, con el caso de mayúsculas preservado. Siempre
DatabaseName STRING El nombre de la base de datos a la que pertenece la tabla, convertida en minúsculas. Siempre
SchemaNameOriginal STRING El nombre del esquema al que pertenece la tabla, con el caso de mayúsculas preservado. Siempre
SchemaName STRING El nombre del esquema al que pertenece la tabla, convertido en minúsculas. Siempre
TableNameOriginal STRING El nombre de la tabla, con mayúsculas y minúsculas conservadas. Siempre
TableName STRING El nombre de la tabla, convertido en minúsculas. Siempre
TableType STRING Tipo de tabla (vista / vista materializada / tabla base). Siempre
RowCount BIGNUMERIC Cantidad de filas en la tabla. Siempre

Columns

Columna Tipo Descripción Presencia
DatabaseName STRING El nombre de la base de datos, convertido en minúsculas. Siempre
DatabaseNameOriginal STRING El nombre de la base de datos, con el caso de mayúsculas preservado. Siempre
SchemaName STRING El nombre del esquema, convertido en minúsculas. Siempre
SchemaNameOriginal STRING El nombre del esquema, con el caso de mayúsculas preservado. Siempre
TableName STRING El nombre de la tabla, convertido en minúsculas. Siempre
TableNameOriginal STRING El nombre de la tabla con el caso preservado. Siempre
ColumnName STRING El nombre de la columna, convertido en minúsculas. Siempre
ColumnNameOriginal STRING El nombre de la columna con el caso preservado. Siempre
ColumnType STRING Es el tipo de la columna. Siempre

CreateAndDropStatistics

Columna Tipo Descripción Presencia
QueryHash STRING El hash de la consulta. Siempre
DefaultDatabase STRING La base de datos predeterminada. Siempre
EntityType STRING El tipo de entidad, por ejemplo, TABLE. Siempre
EntityName STRING Es el nombre de la entidad. Siempre
Operation STRING La operación: CREATE o DROP. Siempre

Queries

Columna Tipo Descripción Presencia
QueryText STRING Es el texto de la consulta. Siempre
QueryHash STRING El hash de la consulta. Siempre

QueryLogs

Columna Tipo Descripción Presencia
QueryText STRING Es el texto de la consulta. Siempre
QueryHash STRING El hash de la consulta. Siempre
QueryID STRING El ID de la consulta. Siempre
UserID STRING El ID del usuario Siempre
StartTime TIMESTAMP La hora de inicio. Siempre
Duration INTEGER Duración en milisegundos. Siempre

QueryTypeStatistics

Columna Tipo Descripción Presencia
QueryHash STRING El hash de la consulta. Siempre
DefaultDatabase STRING La base de datos predeterminada. Siempre
QueryType STRING El tipo de consulta. Siempre
UpdatedTable STRING La tabla actualizada. Siempre
QueriedTables REPEATED STRING Las tablas consultadas. Siempre

TableRelations

Columna Tipo Descripción Presencia
QueryHash STRING El hash de la consulta que estableció la relación (por ejemplo, una consulta de JOIN). Siempre
DefaultDatabase STRING La base de datos predeterminada. Siempre
TableName1 STRING La primera tabla de la relación. Siempre
TableName2 STRING La segunda tabla de la relación. Siempre
Relation STRING El tipo de relación. Siempre
Count INTEGER Con qué frecuencia se observó esta relación. Siempre

TranslatedQueries

Columna Tipo Descripción Presencia
QueryHash STRING El hash de la consulta. Siempre
TranslatedQueryText STRING Resultado de la traducción del dialecto de origen a BigQuery SQL. Siempre

TranslationErrors

Columna Tipo Descripción Presencia
QueryHash STRING El hash de la consulta. Siempre
Severity STRING La gravedad del error, por ejemplo, ERROR. Siempre
Category STRING La categoría del error, por ejemplo, AttributeNotFound. Siempre
Message STRING El mensaje con los detalles sobre el error. Siempre
LocationOffset INTEGER La posición del carácter de la ubicación del error. Siempre
LocationLine INTEGER El número de línea del error. Siempre
LocationColumn INTEGER El número de columna del error. Siempre
LocationLength INTEGER La longitud de caracteres de la ubicación del error. Siempre

UserTableRelations

Columna Tipo Descripción Presencia
UserID STRING ID de usuario Siempre
TableName STRING Es el nombre de la tabla. Siempre
Relation STRING La relación. Siempre
Count INTEGER El recuento Siempre

Soluciona problemas

En esta sección, se explican algunos problemas habituales y técnicas de solución de problemas para migrar tu almacén de datos a BigQuery.

Errores de la herramienta dwh-migration-dumper

Para solucionar problemas de errores y advertencias en el resultado de la terminal de la herramienta dwh-migration-dumper que se produjeron durante la extracción de metadatos o registros de consultas, consulta Cómo solucionar problemas de generación de metadatos.

Errores de migración de Hive

En esta sección, se describen problemas comunes con los que puedes encontrarte cuando planeas migrar tu almacén de datos de Hive a BigQuery.

El hook de registro escribe mensajes de registro de depuración en tus registros hive-server2. Si tienes algún problema, revisa los registros de depuración del hook de registro, que contiene la string MigrationAssessmentLoggingHook.

Soluciona el error ClassNotFoundException

El error puede deberse a la pérdida incorrecta del archivo hook de registro. Asegúrate de haber agregado el archivo JAR a la carpeta uxlib en el clúster de Hive. Como alternativa, puedes especificar la ruta de acceso completa al archivo JAR en la propiedad hive.aux.jars.path, por ejemplo, file:///HiveMigrationAssessmentQueryLogsHooks_deploy.jar.

Las subcarpetas no aparecen en la carpeta configurada

Este problema puede deberse a problemas de configuración o durante la inicialización del hook de registro.

Busca tus registros de depuración hive-server2 para los siguientes mensajes de hook de registro:

Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set,
logging disabled.
Error while trying to set permission

Revisa los detalles del problema y verifica si hay algo que necesites corregir para solucionarlo.

Los archivos no aparecen en la carpeta

Este problema puede deberse a los problemas que se encontraron durante el procesamiento de un evento o mientras se escribió en un archivo.

Busca en tus registros de depuración hive-server2 los siguientes mensajes de hook de registro:

Failed to close writer for file
Got exception while processing event
Error writing record for query

Revisa los detalles del problema y verifica si hay algo que necesites corregir para solucionarlo.

Faltan algunos eventos de consulta

Este problema puede deberse a la desbordamiento de la cola de subprocesos de hook de registro.

Busca en tus registros de depuración hive-server2 el siguiente mensaje de hook de registro:

Writer queue is full. Ignoring event

Si hay esos mensajes, considera aumentar el parámetro dwhassessment.hook.queue.capacity.

¿Qué sigue?

Para obtener más información sobre la herramienta de dwh-migration-dumper, consulta dwh-migration-tools.

También puedes obtener más información sobre los siguientes pasos en la migración de almacenes de datos: