Descripción general de la migración de datos desde Teradata

Introducción

La combinación del Servicio de transferencia de datos de BigQuery y un agente de migración especial te permite copiar datos de un sistema de depósito de datos local, como Teradata, a BigQuery. Este documento proporciona una descripción general del proceso de transferencia de datos mediante el Servicio de transferencia de datos de BigQuery.

La transferencia de datos es gratuita. Consulta la sección de precios para obtener más detalles.

Si quieres usar el Servicio de transferencia de datos de BigQuery para las migraciones del almacén de datos, primero debes descargar un agente de migración local que se conecte a tu almacén de datos local. Luego, configura una transferencia en el Servicio de transferencia de datos de BigQuery.

El agente de migración local se comunica con el Servicio de transferencia de datos de BigQuery para copiar tablas de su almacén de datos a BigQuery. Puedes supervisar las cargas de datos recurrentes desde el almacén de datos a BigQuery mediante Cloud Console.

En el siguiente diagrama, se muestra el flujo general simplificado de datos entre un almacén de datos local, como Teradata y BigQuery.

Extracción de datos en BigQuery

Opciones y modos de transferencia

Debido a que cada migración tiene requisitos únicos, el agente de migración se puede personalizar de las siguientes maneras. Cuando configuras una transferencia de datos de Teradata a BigQuery, existen tres opciones principales:

Método de extracción

El Servicio de transferencia de datos de BigQuery admite dos métodos de extracción diferentes para transferir datos de Teradata a BigQuery:

  1. Extracción mediante un controlador JDBC con conexión FastExport: En este modo, se extrae una tabla de una colección de archivos AVRO a una ubicación especificada en un sistema de archivos local. Los archivos extraídos luego se suben a un depósito de Cloud Storage especificado y, después de una transferencia correcta, se borran del sistema de archivos local.
    • Las limitaciones de la cantidad de espacio en un sistema de archivos local se aplican con rigor y la extracción se detiene hasta que los archivos extraídos se cargan y se borran del sistema de archivos local.
    • Si hay restricciones estrictas en el espacio de almacenamiento local o si el TPT no está disponible, usa este método de extracción.
    • El controlador JDBC con FastExport es el método de extracción predeterminado.
  2. Extracción mediante el servicio tbuild del Transportador paralelo de Teradata (TPT): En este modo, un agente intenta calcular lotes de extracción mediante filas distribuidas por particiones. Para cada lote, se emite y ejecuta una secuencia de datos de extracción TPT, y se produce un conjunto de archivos delimitados por canalizaciones. Después de extraer cada lote, los archivos se suben a un depósito de Cloud Storage especificado y se eliminan del sistema de archivos local. No se aplican las limitaciones en la cantidad de espacio del sistema de archivos de forma forzosa, así que asegúrate de que el sistema de archivos local tenga suficiente espacio para extraer la partición más grande en una tabla de Teradata.
    • Recomendamos extraer con TPT y personalizar tu esquema para indicar columnas de partición. Esto da como resultado la extracción de datos más rápida.

Obtén más información sobre cómo especificar el método de extracción en la sección de configuración del agente de migración de las instrucciones de configuración de transferencia paso a paso.

Archivo de esquema personalizado

Un archivo de esquema es un archivo JSON que describe objetos de base de datos. El esquema incluye un conjunto de bases de datos, cada una de las cuales tiene un conjunto de tablas, y cada una de las tablas contiene un conjunto de columnas. Cada columna tiene un campo type: un tipo que se asigna a una columna en BigQuery.

En un archivo de esquema, cada objeto tiene un campo name: el nombre que se le asignará en BigQuery. Cada objeto también tiene un campo originalName: el nombre del objeto que coincide en la base de datos de Teradata.

El Servicio de transferencia de datos de BigQuery proporciona detección automática de esquemas y conversión de datos durante una transferencia de datos de Teradata a BigQuery. De manera opcional, también puedes especificar un archivo de esquema personalizado. En algunas situaciones, se recomienda la personalización del esquema. Ejemplos:

  • Un archivo de esquema personalizado es especialmente útil para incluir información adicional sobre una tabla (como las particiones) que, si no se especificara ningún archivo de esquema, se perdería en la migración.
  • Puedes proporcionar un archivo de esquema personalizado para transformar los campos, como el campo name de cualquier objeto o el arreglo usageType de cualquier columna, durante la transferencia de datos.
  • Consulta la sección sobre el archivo de esquema personalizado para obtener más detalles.

Transferencias a pedido o incrementales

Cuando se migran datos de una instancia de base de datos de Teradata a BigQuery, el Servicio de transferencia de datos de BigQuery admite una sola transferencia de datos instantánea (transferencia “a pedido”) y, también, transferencias periódicas recurrentes de filas nuevas y actualizadas (“transferencias incrementales”) (Beta). Cuando configures una transferencia, puedes designarla como a pedido o de forma incremental en las opciones de programación.

  • Transferencia de datos a pedido
    • Si tu tabla es muy grande y puedes extraer el contenido con TPT para un rendimiento más alto, te recomendamos que particiones tu tabla de Teradata para permitir la extracción partición por partición. Para obtener más detalles, consulta la sección sobre el archivo de esquema personalizado.
    • Si tus tablas son pequeñas o no puedes usar TPT, sigue las instrucciones básicas. No se requiere la personalización del esquema.
  • Transferencia de datos incremental
    • Si deseas migrar cambios de Teradata a BigQuery de forma periódica, puedes usar el modo incremental. De forma recurrente, se agregan los registros nuevos y las modificados de Teradata a las tablas de BigQuery.
    • Este método requiere que personalices tu esquema para anotar las columnas de COMMIT_TIMESTAMP.
    • Se aplican ciertas condiciones cuando se configuran las transferencias incrementales. Para obtener más información, consulta las transferencias incrementales.

Consideraciones de ubicación

Tu depósito de Cloud Storage debe estar en una región o multirregión compatible con la región o multirregión del conjunto de datos de destino en BigQuery.

Coloca los depósitos de Cloud Storage para exportar datos.
  • Si tu conjunto de datos de BigQuery está en una ubicación multirregional, el depósito de Cloud Storage que contiene los datos que transfieres debe estar en un depósito regional o multirregional en la misma ubicación. Por ejemplo, si tu conjunto de datos de BigQuery está en la UE, el depósito de Cloud Storage debe estar en un depósito regional o multirregional en la UE.
  • Si el conjunto de datos está en una ubicación regional, el depósito de Cloud Storage debe ser un depósito regional en la misma ubicación. Por ejemplo, si tu conjunto de datos está en la región de Tokio, tu depósito de Cloud Storage debe estar un depósito regional en Tokio.
  • Excepción: Si tu conjunto de datos se encuentra en la ubicación multirregional de los EE.UU., puedes transferir datos desde un depósito de Cloud Storage en cualquier ubicación regional o multirregional.

Para obtener información detallada sobre transferencias y regiones, consulta Ubicaciones y transferencias de conjuntos de datos.

Precios

Migrar una instancia de almacén de datos con el Servicio de transferencia de datos de BigQuery es gratis.

  • La extracción, la carga en un depósito de Cloud Storage y la carga de datos a BigQuery son gratis.
  • Los datos no se borran de forma automática de tu depósito de Cloud Storage después de que se suben a BigQuery. Considera borrar los datos del depósito de Cloud Storage para evitar costos de almacenamiento adicionales. Consulta Precios de Cloud Storage.

Limitaciones

  • Las transferencias a pedido únicas son totalmente compatibles. Las transferencias incrementales se encuentran en versiónBeta. Las operaciones DDL/DML en transferencias incrementales son parcialmente compatibles.
  • Los datos se extraen en una carpeta del sistema de archivos local. Asegúrate de que haya suficiente espacio libre.
    • Cuando usas el modo de extracción FastExport, puedes establecer el espacio de almacenamiento máximo que se usará y el límite impuesto por el agente de migración. Establece la configuración max-local-storage en el archivo de configuración del agente de migración cuando configures una transferencia de Teradata a BigQuery.
    • Cuando uses el método de extracción TPT, asegúrate de que el sistema de archivos tenga suficiente espacio libre (al menos igual a la partición de tabla más grande en la instancia de Teradata).
  • El Servicio de transferencia de datos de BigQuery convierte el esquema de forma automática (si no proporcionas un archivo de esquema personalizado) y transfiere los datos de Teradata a BigQuery. Los datos se asignan de Teradata a los tipos BigQuery.
  • Los archivos no se eliminan de forma automática de tu depósito de Cloud Storage después de descargarse desde el sistema de archivos local y cargarse en BigQuery. Considera eliminar los datos de tu depósito de Cloud Storage después de cargarlos en BigQuery, para evitar costos de almacenamiento adicionales. Consulta la sección de precios.
  • La velocidad de la extracción dependerá de tu conexión JDBC.
  • Los datos extraídos de Teradata no están encriptados. Sigue los pasos correspondientes para restringir el acceso a los archivos extraídos en el sistema de archivos local y asegúrate de que el depósito de Cloud Storage esté asegurado de forma adecuada.

  • No se transfieren otros recursos de la base de datos, como procedimientos almacenados, consultas guardadas, vistas y funciones definidas por el usuario, y no están dentro del alcance de este servicio.

Próximos pasos