Migración de Teradata a BigQuery: introducción
En este documento se describen los motivos por los que puede migrar de Teradata a BigQuery, se comparan las funciones de Teradata y BigQuery, y se ofrece un resumen de los pasos que debe seguir para empezar la migración a BigQuery.
¿Por qué migrar de Teradata a BigQuery?
Teradata fue una de las primeras empresas en innovar en la gestión y el análisis de grandes volúmenes de datos. Sin embargo, a medida que evolucionen tus necesidades de cloud computing, es posible que necesites una solución más moderna para tus analíticas de datos.
Si ya has usado Teradata, te recomendamos que migres a BigQuery por los siguientes motivos:
- Superar las limitaciones de las plataformas antiguas
- La arquitectura convencional de Teradata a menudo tiene dificultades para satisfacer las demandas de las analíticas modernas, en particular la necesidad de una simultaneidad ilimitada y un rendimiento alto y constante para diversas cargas de trabajo. La arquitectura sin servidor de BigQuery se ha diseñado para gestionar estas demandas con el mínimo esfuerzo.
- Adopta una estrategia nativa de la nube
- Muchas organizaciones están migrando estratégicamente de la infraestructura local a la nube. Este cambio requiere que se abandonen las soluciones convencionales vinculadas al hardware, como Teradata, y se adopte un servicio totalmente gestionado, escalable y bajo demanda como BigQuery para reducir los costes operativos.
- Integración con fuentes de datos y analíticas modernas
- Los datos empresariales clave se encuentran cada vez más en fuentes basadas en la nube. BigQuery se integra de forma nativa con el Google Cloud ecosistema, lo que proporciona un acceso fluido a estas fuentes y permite realizar analíticas avanzadas, aprendizaje automático y procesamiento de datos en tiempo real sin las limitaciones de infraestructura de Teradata.
- Optimizar los costes y la escalabilidad
- Teradata suele implicar procesos de escalado complejos y costosos. BigQuery ofrece un escalado transparente y automático tanto del almacenamiento como de los recursos de computación de forma independiente, lo que elimina la necesidad de realizar reconfiguraciones manuales y proporciona un coste total de propiedad más predecible y, a menudo, más bajo.
Comparación de funciones
En la siguiente tabla se comparan las funciones y los conceptos de Teradata con las funciones equivalentes de BigQuery:
Concepto de Teradata | Equivalente de BigQuery | Descripción |
---|---|---|
Teradata (local, en la nube o híbrido) | BigQuery (plataforma de datos unificada con IA). BigQuery ofrece un gran conjunto de funciones adicionales en comparación con un almacén de datos convencional. | BigQuery es un almacén de datos nativo de la nube y totalmente gestionado en Google Cloud. Teradata ofrece opciones on-premise, en la nube e híbridas. BigQuery no tiene servidor y está disponible en todas las nubes como BQ Omni. |
Herramientas de Teradata (Teradata Studio, BTEQ) | Google Cloud consola, BigQuery Studio y la herramienta de línea de comandos bq | Ambas ofrecen interfaces para gestionar el almacén de datos e interactuar con él. BigQuery Studio es una herramienta basada en la Web e integrada con Google Cloud , que permite escribir código en SQL, Python y Apache Spark. |
Bases de datos o esquemas | Conjuntos de datos | En Teradata, las bases de datos y los esquemas se usan para organizar tablas y vistas, de forma similar a los conjuntos de datos de BigQuery. Sin embargo, la forma en que se gestionan y se usan puede variar. |
Tabla | Tabla | Ambas plataformas usan tablas para almacenar datos en filas y columnas. |
Ver | Ver | Las vistas funcionan de forma similar en ambas plataformas, ya que permiten crear tablas virtuales basadas en consultas. |
Clave principal | Clave principal (no obligatoria en GoogleSQL) | BigQuery admite claves principales no obligatorias en GoogleSQL. Se usan principalmente para ayudar con la optimización de consultas. |
Clave externa | Clave externa (no obligatoria en GoogleSQL) | BigQuery admite claves externas no obligatorias en GoogleSQL. Se usan principalmente para ayudar con la optimización de consultas. |
Índice | Agrupación en clústeres, índices de búsqueda e índices vectoriales (automáticos o gestionados) | Teradata permite crear índices explícitos. Te recomendamos que uses el clustering en BigQuery. Aunque no es lo mismo que los índices de bases de datos, la creación de clústeres ayuda a almacenar los datos ordenados en el disco, lo que optimiza la recuperación de datos cuando las columnas de clústeres se usan como predicados. BigQuery admite índices de búsqueda e índices de vectores. |
Particiones | Particiones | Ambas plataformas admiten la creación de particiones en tablas para mejorar el rendimiento de las consultas en tablas grandes. BigQuery solo admite la creación de particiones por fechas y números enteros. En el caso de las cadenas, usa la agrupación en clústeres. |
Asignación de recursos (en función del hardware y las licencias) | Reservas (basadas en la capacidad) y precios bajo demanda (precios de análisis) | BigQuery ofrece modelos de precios flexibles. Las reservas ofrecen costes predecibles para cargas de trabajo coherentes y ad hoc que usan el escalado automático, mientras que los precios bajo demanda se centran en los cargos por bytes analizados por consulta. |
BTEQ, SQL Assistant y otras herramientas de cliente | BigQuery Studio, la herramienta de línea de comandos bq y las APIs | BigQuery ofrece varias interfaces para ejecutar consultas, como un editor basado en la Web, una herramienta de línea de comandos y APIs para el acceso mediante programación. |
Registro o historial de consultas | Historial de consultas, INFORMATION_SCHEMA.JOBS |
BigQuery mantiene un historial de las consultas ejecutadas, lo que te permite revisar consultas anteriores, analizar el rendimiento y solucionar problemas. INFORMATION_SCHEMA.JOBS mantiene el historial de todos los trabajos enviados en los últimos seis meses. |
Funciones de seguridad (control de acceso, cifrado) | Funciones de seguridad (gestión de identidades y accesos, listas de control de acceso y cifrado) | Ambos ofrecen una seguridad sólida. BigQuery usa la Google Cloud gestión de identidades y accesos para controlar el acceso de forma granular. |
Controles de red (cortafuegos, VPNs) | Controles de Servicio de VPC y Acceso privado de Google | BigQuery se integra con Controles de Servicio de VPC para restringir el acceso a tus recursos de BigQuery desde redes específicas. El acceso privado de Google te permite acceder a BigQuery sin usar IPs públicas. |
Gestión de usuarios y roles | Gestión de identidades y accesos (IAM) | BigQuery usa Gestión de Identidades y Accesos para el control de acceso pormenorizado. Puede conceder permisos específicos a usuarios y cuentas de servicio a nivel de proyecto, conjunto de datos y tabla. |
Concesiones y roles en objetos | Listas de control de acceso (LCA) en conjuntos de datos y tablas | BigQuery te permite definir listas de control de acceso en conjuntos de datos y tablas para controlar el acceso de forma granular. |
Cifrado en reposo y en tránsito | Encriptado en reposo y en tránsito, claves de encriptado gestionadas por el cliente (CMEK) y claves que se pueden alojar en sistemas EKM externos. | BigQuery cifra los datos de forma predeterminada. También puedes gestionar tus propias claves de cifrado para tener más control. |
Funciones de cumplimiento y gobierno de datos | Políticas de gobierno de datos y prevención de la pérdida de datos (DLP) | BigQuery admite políticas de gobierno de datos y DLP para ayudarte a cumplir los requisitos de seguridad y cumplimiento de los datos. |
Utilidades de carga de Teradata (por ejemplo, FastLoad, MultiLoad), bteq | BigQuery Data Transfer Service, la herramienta de línea de comandos bq y las APIs | BigQuery ofrece varios métodos de carga de datos. Teradata tiene utilidades de carga especializadas. BigQuery hace hincapié en la escalabilidad y la velocidad de la ingestión de datos. |
Utilidades de exportación de Teradata, bteq | Herramienta de línea de comandos bq, APIs y Exportar a Cloud Storage | BigQuery ofrece la exportación de datos a varios destinos. Teradata tiene sus propias herramientas de exportación. La integración de BigQuery con Cloud Storage es una ventaja clave. La API Storage Read de BigQuery permite que cualquier recurso de computación externo lea datos en bloque. |
Tablas externas | Tablas externas | Ambos permiten consultar datos de almacenamiento externo. BigQuery se integra bien con Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage y Google Drive. |
Vistas materializadas | Vistas materializadas | Ambos ofrecen vistas materializadas para mejorar el rendimiento de las consultas. BigQuery ofrece vistas materializadas de ajuste inteligente que siempre devuelven datos actuales y también proporcionan una reescritura automática de las consultas a las vistas materializadas, incluso cuando la consulta hace referencia a la tabla base. |
Funciones definidas por el usuario (UDF) | Funciones definidas por el usuario (UDF) (SQL, JavaScript) | BigQuery admite funciones definidas por el usuario en SQL y JavaScript. |
Teradata Scheduler y otras herramientas de programación | Consultas programadas, Cloud Composer, Cloud Functions y las canalizaciones de BigQuery | BigQuery se integra con Google Cloud servicios de programación y otras herramientas de programación externas. |
Punto de vista | Administración de BigQuery para monitorizar, comprobar el estado, explorar tareas y gestionar la capacidad. | BigQuery ofrece un conjunto de herramientas de administración completo basado en una interfaz de usuario que contiene varios paneles para monitorizar el estado operativo y el uso de los recursos. |
Copia de seguridad y recuperación | Clonación de conjuntos de datos, viajes en el tiempo y protección contra fallos, creación de copias y clonación de tablas, almacenamiento regional y multirregional, y copia de seguridad y recuperación entre regiones. | BigQuery ofrece las funciones de instantáneas y de viaje en el tiempo para recuperar datos. Viaje en el tiempo es una función que le permite acceder al historial de datos en un periodo determinado. BigQuery también ofrece clonación de conjuntos de datos, almacenamiento regional y multirregional, y opciones de copia de seguridad y recuperación entre regiones. |
Funciones geoespaciales | Funciones geoespaciales | Ambas plataformas admiten datos y funciones geoespaciales. |
Empezar
En las siguientes secciones se resume el proceso de migración de Teradata a BigQuery:
Realizar una evaluación de la migración
En la migración de Teradata a BigQuery, te recomendamos que empieces ejecutando la herramienta de evaluación de la migración a BigQuery para evaluar la viabilidad y las ventajas potenciales de migrar tu almacén de datos de Teradata a BigQuery. Esta herramienta ofrece un enfoque estructurado para comprender tu entorno de Teradata actual y estimar el esfuerzo necesario para completar la migración correctamente.
Al ejecutar la herramienta de evaluación de la migración de BigQuery, se genera un informe de evaluación que contiene las siguientes secciones:
- Informe del sistema actual: una captura del sistema Teradata y del uso actuales, incluido el número de bases de datos, esquemas y tablas, así como el tamaño total en TB. También enumera los esquemas por tamaño y señala el uso de recursos potencialmente no óptimo, como las tablas sin escrituras o con pocas lecturas.
- Sugerencias de transformación de estado estable de BigQuery: muestra cómo será el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery y evitar el desperdicio.
- Plan de migración: proporciona información sobre la propia migración. Por ejemplo, pasar del sistema actual al estado estable de BigQuery. En esta sección se incluye el número de consultas que se han traducido automáticamente y el tiempo estimado para mover cada tabla a BigQuery.
Para obtener más información sobre los resultados de una evaluación de la migración, consulta el artículo Revisar el informe de Looker Studio.
Migrar esquemas y datos desde Teradata
Una vez que hayas revisado los resultados de la evaluación de la migración, puedes empezar la migración de Teradata preparando BigQuery para la migración y, a continuación, configurando un trabajo de transferencia de datos.
Para obtener más información sobre el proceso de migración de Teradata, consulta el artículo Migrar esquemas y datos desde Teradata.
Validar la migración
Una vez que hayas migrado tus datos de Teradata a BigQuery, ejecuta la herramienta de validación de datos (DVT) para validar los datos de BigQuery que acabas de migrar. La DVT valida varias funciones, desde el nivel de tabla hasta el de fila, para verificar que los datos migrados funcionan correctamente. Para obtener más información sobre la herramienta de validación de datos, consulta el artículo Presentamos la herramienta de validación de datos para migraciones de EDW.
Puedes acceder a la DVT en el repositorio público de GitHub de la DVT.
Siguientes pasos
- Prueba a hacer una migración de prueba de Teradata a BigQuery.