Replicación

La replicación de Cloud Data Fusion te permite replicar tus datos de forma continua y en tiempo real desde almacenes de datos operativos, como SQL Server y MySQL, en BigQuery.

Para usar la replicación, elige uno de los siguientes métodos:

  • Crear una instancia nueva de Cloud Data Fusion y agregar la app de Replication
  • Agregar la app de Replicación a una instancia existente

Estos son algunos de los beneficios:

  • Identificar las incompatibilidades de esquema, los problemas de conectividad y las características faltantes antes de iniciar la replicación y, luego, tomar medidas correctivas.

  • Usar los datos operativos más recientes en tiempo real para el análisis dentro de BigQuery Usas la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (con las CDC de SQL Server) y MySQL (con el registro binario de MySQL).

  • La captura de datos modificados (CDC) proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los cálculos y el procesamiento se enfoquen de manera específica en los registros modificados más recientemente. Esto minimiza los cargos por datos salientes en sistemas de producción sensibles.

  • Escalabilidad empresarial que admite bases de datos transaccionales de gran volumen. Las cargas iniciales de datos a BigQuery se admiten con la replicación de instantáneas sin tiempo de inactividad para que el almacén de datos esté listo para consumir cambios de forma continua. Una vez que se completa la instantánea inicial, la replicación continua de los cambios y la alta capacidad de procesamiento comienza en tiempo real.

  • Los paneles te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación. Es útil para identificar cuellos de botella y supervisar los ANS de entrega de datos.

  • Se incluye la compatibilidad con la residencia de datos, las claves de encriptación administradas por el cliente (CMEK) y los Controles del servicio de VPC. La integración de Cloud Data Fusion en Google Cloud garantiza que se observen los niveles más altos de seguridad y privacidad empresarial, a la vez que pone los datos más recientes a disposición en tu almacén de datos para estadísticas.

Cuando se ejecuta la replicación, se te cobra por el clúster de Dataproc y se generan costos de procesamiento para BigQuery. Para optimizar estos costos, te recomendamos que uses los precios de tarifa plana de BigQuery.

Para obtener más información, consulta la página de precios de Cloud Data Fusion.

Entidades de replicación

Entity Descripción
Replicación La replicación es una función de Cloud Data Fusion que permite replicar datos de forma continua con una latencia baja desde almacenes de datos operativos hasta almacenes de datos analíticos. Para crear un trabajo de replicación, configura una fuente y un destino con transformaciones opcionales.
Origen Lee eventos de cambio de base de datos, tabla o columna y los pone a disposición para su posterior procesamiento en un trabajo de replicación. Un trabajo de replicación contiene una fuente que se basa en una solución de captura de cambios para proporcionar los cambios. Puede haber varias fuentes para una base de datos, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable compilado a través de la arquitectura de complemento de CDAP. Si una fuente no está disponible para satisfacer tus necesidades, puedes crear la tuya implementando la interfaz de fuente y, luego, subirla a CDAP o a Cloud Data Fusion.
Target Escribe los cambios recibidos de una fuente en una base de datos de destino. Un trabajo de replicación contiene un destino. Un destino es un módulo conectable compilado con la arquitectura de complemento de CDAP. Si un destino no está disponible para satisfacer tus necesidades, puedes crear uno propio mediante la implementación de la interfaz de destino y, luego, subirla a CDAP o a Cloud Data Fusion.
Propiedades fuente Configura la fuente, incluidos los detalles de conexión, los nombres de la tabla y la base de datos de origen, las credenciales y otras propiedades.
Propiedades de destino Configura el destino, incluidos los detalles de conexión, los nombres de las tablas y la base de datos de destino, las credenciales y otras propiedades.
Propiedades del trabajo de replicación Configura el trabajo de replicación, incluidos los umbrales de fallas, las áreas de etapa de pruebas, las notificaciones y la configuración de validación.
Borrador Un trabajo de replicación guardado y parcialmente completado. Una vez que se completa la definición del trabajo de replicación, se puede iniciar.
Eventos Cambia los eventos de la fuente para que se repliquen en el destino. Los eventos incluyen inserciones, actualizaciones, eliminaciones y cambios de DDL (lenguaje de definición de datos).
Insert Adición de registros nuevos en la fuente.
Actualizar Actualiza a los registros existentes en la fuente.
Borrar Eliminación de registros existentes en la fuente
Cambio de DDL Un evento que contiene un cambio de esquema, como un cambio en el nombre o tipo de datos.
Registros Los registros operativos de un trabajo de replicación.
Detalles del trabajo de replicación Una página de detalles con información del trabajo de replicación, como su estado actual, las métricas operativas, la vista histórica a lo largo del tiempo, los resultados de validación y su configuración.
Panel Una página que enumera el estado de todas las actividades de captura de datos modificados, lo que incluye la capacidad de procesamiento, la latencia, las tasas de fallas y los resultados de validación.

Acciones

Acciones Descripción
Implementar Crear un nuevo trabajo de replicación mediante el seguimiento de un flujo de interfaz web para especificar un origen, un destino y su configuración
Guardar Se guarda un trabajo de replicación parcialmente creado para reanudar la creación más tarde.
Borrar Borrar un trabajo de replicación existente Solo se pueden borrar las canalizaciones detenidas.
Inicio Comenzar un trabajo de replicación. Si hay que procesar cambios, el trabajo de replicación entra al estado “activo”; de lo contrario, entra al estado “esperando”.
Detener Detener un trabajo de replicación. El trabajo de replicación deja de procesar cambios desde la fuente.
Ver registros Visualizar registros de un trabajo de replicación para depuración o análisis
Búsqueda Busca un trabajo de replicación por su nombre, descripción o algún otro metadato del trabajo de replicación.
Evalúa Evaluar el impacto de la replicación antes de iniciarla La evaluación de un trabajo de replicación genera un informe de evaluación que marca las incompatibilidades de esquema y los atributos faltantes.

Supervisión

Estados del replicador Descripción
Se implementó Se implementó el trabajo de replicación, pero no se inició. En este estado, un trabajo de replicación no replica eventos.
Iniciándose Se está inicializando el trabajo de replicación y no está listo para replicar los cambios.
En ejecución Se inició el trabajo de replicación y se replican los cambios.
Deteniéndose Se detendrá el trabajo de replicación.
Detenida Se detuvo el trabajo de replicación.
Con errores El trabajo de replicación falló debido a errores fatales.

Estados de la tabla

Concepto Descripción
Captura de instantáneas El trabajo de replicación toma una instantánea del estado actual de la tabla antes de replicar los cambios.
Replicación en curso El trabajo de replicación replica los cambios de la tabla de origen en la de destino.
Con errores El trabajo de replicación no puede replicar los cambios de la tabla de origen debido a un error.

Métricas

Concepto Descripción
Inserciones La cantidad de inserciones aplicadas al objetivo en el período seleccionado.
Actualizaciones La cantidad de actualizaciones aplicadas al objetivo en el período seleccionado.
Eliminaciones La cantidad de eliminaciones aplicadas al objetivo en el período seleccionado.
DDL La cantidad de cambios de DDL aplicados al objetivo en el período seleccionado.
Capacidad de procesamiento La cantidad de eventos y la cantidad de bytes replicados en el destino durante el período seleccionado.
Latencia La latencia con la que los datos se replican en el destino durante el período seleccionado.

Componentes

Componente Descripción
Servicio Supervisa la organización de extremo a extremo de los trabajos de replicación y proporciona capacidades para diseñar, implementar, administrar y supervisar trabajos de replicación. Se ejecuta dentro del proyecto de usuario de Cloud Data Fusion (este proyecto está oculto para el usuario). Su estado se muestra en la página **System Admin** de la interfaz web de Cloud Data Fusion.
Administración de estado El servicio administra el estado de cada trabajo de replicación en un bucket de Cloud Storage en el proyecto del cliente. El bucket se puede configurar cuando se crea el trabajo de replicación. Almacena las compensaciones actuales y el estado de replicación de cada trabajo de replicación.
Ejecución Los clústeres de Dataproc proporcionan el entorno de ejecución de los trabajos de replicación, que se ejecutan en tu proyecto. Los trabajos de replicación se ejecutan con trabajadores de CDAP. El tamaño y las características del entorno de ejecución se configuran con perfiles de Compute Engine.
Base de datos de origen La base de datos operativa de producción que se replica en la base de datos de destino. Esta base de datos se puede ubicar de manera local o en Google Cloud. Cloud Data Fusion Replication admite bases de datos de origen MySQL, Microsoft SQL Server y Oracle.
Solución de seguimiento de cambios En lugar de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion se basa en una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente de la base de datos de origen o una solución de terceros con licencia independiente. En este último caso, la solución de seguimiento de cambios se ejecuta de forma local, junto con la base de datos de origen, o en Google Cloud. Cada fuente debe estar asociada con una solución de seguimiento de cambios.
  1. SQL Server
    • Solución admitida: CDC de SQL Server (tablas de seguimiento de cambios)
    • Software adicional: No
    • Licencia o costo: N/A
    • Comentarios: Disponible para SQL Server 2016 y versiones posteriores
  2. MySQL
  3. Oracle
Base de datos objetivo La ubicación de destino para la replicación y el análisis. Cloud Data Fusion es compatible con la base de datos de destino de BigQuery.
Autenticación Los mecanismos de autenticación varían según la base de datos de origen o el software de seguimiento de cambios. Cuando se usan las funciones integradas de las bases de datos de origen, como SQL Server y MySQL, se usan los accesos a las bases de datos para la autenticación. Cuando se usa el software de seguimiento de cambios, se emplea el mecanismo de autenticación del software.

Conectividad

En la siguiente tabla, se describen las conexiones de red necesarias para la replicación y los mecanismos de seguridad que usan.

Desde Hasta Opcional Protocolo Red Seguridad de autenticación Objetivo
Servicio (proyecto de usuario) BD de origen Depende de la fuente de replicación. JDBC para la conexión directa a bases de datos Intercambio de tráfico + reglas de firewall + VPN/interconexión + router Acceso a bases de datos Necesarias para el diseño, no la ejecución y el tiempo Funciones: Lista de tablas, Evaluación (pasos opcionales; la replicación puede continuar sin ellas)
Servicio (proyecto de usuario) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: Desplazamientos, estados de replicación
Dataproc (tu proyecto) BD de origen No Depende de la fuente. JDBC para la conexión directa a BD. Intercambio de tráfico + reglas de firewall + VPN/interconexión + router Acceso a bases de datos Necesarias en el momento de la ejecución para leer los cambios de la base de datos de origen que se replicarán en el destino
Dataproc (tu proyecto) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: Desplazamientos, estados de replicación
Dataproc (tu proyecto) BigQuery No API de Cloud VPC‑SC IAM Es necesario en el momento de la ejecución para aplicar cambios de la base de datos de origen al destino.

¿Qué sigue?