Replicación

La replicación de Cloud Data Fusion te permite replicar tus datos de manera continua y en tiempo real desde almacenes de datos operativos, como SQL Server y MySQL, hasta BigQuery.

Para usar la replicación, puedes crear una instancia nueva de Cloud Data Fusion y agregar la app de replicación o, de manera alternativa, agregar la app de replicación a una instancia existente. Consulta los instructivos para MySQL, SQL Server y Oracle.

Estos son algunos de los beneficios:

  • Una interfaz sencilla para que los desarrolladores de ETL y los analistas de datos configuren los trabajos de replicación.

  • Te ayuda a identificar incompatibilidades de esquema, problemas de conectividad y funciones faltantes antes de iniciar la replicación y, luego, proporciona acciones correctivas.

  • Puedes usar los datos operativos más recientes en tiempo real para el análisis en BigQuery. La replicación basada en registros se usa directamente en BigQuery desde Microsoft SQL Server (mediante CDC de SQL Server) y MySQL (con el registro binario de MySQL).

  • La captura de datos modificados (CDC) proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los cálculos y el procesamiento se enfoquen solo en los registros modificados más recientemente, lo que minimiza el costo de salida en la producción sensible. .

  • Escalabilidad empresarial para admitir bases de datos transaccionales de gran volumen. Las cargas iniciales de datos a BigQuery son compatibles con la replicación de instantáneas sin tiempo de inactividad, a fin de que el almacén de datos esté listo para consumir cambios de manera continua. Una vez que finaliza la instantánea inicial, la capacidad de procesamiento alto y la replicación continua de los cambios se inician en tiempo real.

  • Los paneles te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación. Esto es útil para identificar cuellos de botella y supervisar los ANS de entrega de datos.

  • Incluye compatibilidad con la residencia de datos, las claves de encriptación administradas por el cliente (CMEK) y los controles del servicio de VPC. La integración de Cloud Data Fusion en Google Cloud garantiza que se observen los niveles más altos de seguridad y privacidad empresarial, a la vez que se ponen a disposición los datos más recientes en tu almacén de datos para estadísticas.

Cuando se ejecuta la replicación, se te cobra por el clúster de Dataproc y generas costos de procesamiento para BigQuery. Para optimizar estos costos, te recomendamos que uses los precios de tasa fija de BigQuery.

Para obtener más información, consulta la página de precios de Cloud Data Fusion.

Entidades de replicación

Entity Descripción
Replicación La replicación es una función de Cloud Data Fusion que permite replicar datos de forma continua con baja latencia desde almacenes de datos operativos hasta almacenes de datos estadísticos. Configura una fuente y un destino con transformaciones opcionales para crear un trabajo de replicación.
Origen Lee eventos de cambio de base de datos, tabla o columna, y los pone a disposición para su procesamiento posterior en un trabajo de replicación. Un trabajo de replicación contiene una fuente, que depende de una solución de captura de cambios para proporcionar los cambios. Puede haber varias fuentes para una base de datos, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable compilado con la arquitectura de complementos de CDAP. Si una fuente no está disponible para satisfacer tus necesidades, puedes crear la tuya implementando la interfaz de origen y, luego, subirla a CDAP o Cloud Data Fusion.
Target Escribe los cambios recibidos de una fuente en una base de datos de destino. Un trabajo de replicación contiene un destino. Un destino es un módulo conectable compilado con la arquitectura de complemento de CDAP. Si un destino no está disponible para satisfacer tus necesidades, puedes crear uno propio implementando la interfaz de destino y, luego, subirlo a CDAP o Cloud Data Fusion.
Propiedades fuente Configura la fuente, incluidos los detalles de la conexión, la base de datos de origen y los nombres de tablas, credenciales y otras propiedades.
Propiedades de destino Configura el destino, incluidos los detalles de la conexión, los nombres de las bases de datos y de la tabla de destino, las credenciales y otras propiedades.
Propiedades del trabajo de replicación Configura el trabajo de replicación, incluidos los umbrales de fallas, las áreas de etapa de pruebas, las notificaciones y la configuración de validación.
Borrador Un trabajo de replicación guardado parcialmente completado Cuando se completa la definición del trabajo de replicación, se puede iniciar.
Eventos Cambia los eventos de la fuente para que se repliquen en el destino. Los eventos incluyen cambios en las inserciones, actualizaciones, eliminaciones y DDL ( lenguaje de definición de datos).
Insertar Adición de registros nuevos en la fuente.
Actualizar Actualiza los registros existentes en la fuente.
Borrar Eliminación de registros existentes en la fuente
Cambio de DDL Un evento que contiene un cambio de esquema, como un cambio en el nombre o tipo de datos.
Logs Los registros operativos de un trabajo de replicación.
Detalles del trabajo de replicación Una página de detalles con información sobre el trabajo de replicación, como su estado actual, las métricas operativas, la vista histórica a lo largo del tiempo, los resultados de validación y la configuración
Panel Una página que enumera el estado de todas las actividades de captura de datos de cambios, incluidos la capacidad de procesamiento, la latencia, los porcentajes de fallas y los resultados de validación.

Acciones

Acciones Descripción
Implementar Crear un trabajo de replicación nuevo si sigues un flujo de IU para especificar un origen, un destino y su configuración
Guardar Guardar un trabajo de replicación parcialmente creado para reanudar la creación más adelante
Borrar Borrar un trabajo de replicación existente. Solo se pueden borrar las canalizaciones detenidas.
Inicio Iniciar un trabajo de replicación El trabajo de replicación ingresa al estado activo si hay cambios que se deben procesar. De lo contrario, ingresa al estado de espera.
Detener Detener un trabajo de replicación. El trabajo de replicación deja de procesar los cambios desde la fuente.
View logs Ver registros de un trabajo de replicación para depurar o realizar otro análisis.
Búsqueda Buscar un trabajo de replicación por su nombre, descripción o algún otro metadato del trabajo de replicación.
Evaluación Evalúa el impacto de la replicación antes de iniciar la replicación. Cuando se evalúa el trabajo de replicación, se genera un informe de evaluación que marca las incompatibilidades de esquema y las funciones faltantes.

Supervisión

Estados de replicación Descripción
Implementada Se implementó el trabajo de replicación, pero no se inició. En este estado, un trabajo de replicación no replica eventos.
Iniciando El trabajo de replicación se está inicializando y no está listo para replicar los cambios.
Activo Se inicia el trabajo de replicación y se replican los cambios.
Deteniendo El trabajo de replicación se está deteniendo.
Detenido El trabajo de replicación se detuvo.
Error El trabajo de replicación falló debido a errores fatales.

Estados de la tabla

Concepto Descripción
Captura de instantáneas El trabajo de replicación toma una instantánea del estado actual de la tabla antes de replicar los cambios.
Con replicación El trabajo de replicación replica los cambios de la tabla de origen en la tabla de destino.
Falló El trabajo de replicación no puede replicar los cambios de la tabla de origen debido a un error.

Métricas

Concepto Descripción
Inserciones La cantidad de inserciones aplicadas al objetivo en el período seleccionado.
Actualizaciones La cantidad de actualizaciones aplicadas al objetivo en el período seleccionado.
Eliminaciones La cantidad de eliminaciones aplicadas al objetivo en el período seleccionado.
DDL La cantidad de cambios de DDL aplicados al objetivo en el período seleccionado
Capacidad de procesamiento La cantidad de eventos y de bytes replicados en el destino en el período seleccionado.
Latencia La latencia en la que se replican los datos en el objetivo durante el período seleccionado.

Componentes

Componente Descripción
Servicio Supervisa la organización de extremo a extremo de los trabajos de replicación y proporciona capacidades para diseñar, implementar, administrar y supervisar trabajos de replicación. Se ejecuta dentro del proyecto de usuario de Cloud Data Fusion (el proyecto de usuario está oculto para el usuario). Su estado se muestra en la página ADMIN del SISTEMA de la IU de Cloud Data Fusion.
Administración de estado El servicio administra el estado de cada trabajo de replicación en un bucket de Cloud Storage del proyecto del cliente. El bucket se puede configurar cuando se crea el trabajo de replicación. Almacena las compensaciones actuales y el estado de replicación de cada trabajo de replicación.
Ejecución Los clústeres de Dataproc proporcionan el entorno de ejecución de los trabajos de replicación, que se ejecutan en tu proyecto. Los trabajos de replicación se ejecutan mediante los trabajadores de CDAP. El tamaño y las características del entorno de ejecución se configuran con perfiles de Compute Engine.
Base de datos de origen Tu base de datos operativa de producción que se replica en la base de datos de destino Esta base de datos se puede ubicar de forma local o en Google Cloud. La replicación de Cloud Data Fusion admite bases de datos de origen de MySQL, Microsoft SQL Server y Oracle.
Cambiar la solución de seguimiento En vez de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion se basa en una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente de la base de datos de origen o una solución de terceros independiente con licencia. En el último caso, la solución de seguimiento de cambios se ejecuta de forma local, se coloca en la base de datos de origen o en Google Cloud. Cada fuente debe estar asociada con una solución de seguimiento de cambios.
  1. SQL Server
    • Solución compatible: CDC de SQL Server (cambiar las tablas de seguimiento)
    • Software adicional: No
    • Licencia/costo: N/A
    • Comentarios: Disponible en SQL Server 2016 y versiones posteriores.
  2. MySQL
  3. Oracle
Base de datos de destino La ubicación de destino para la replicación y el análisis. Cloud Data Fusion admite la base de datos de destino de BigQuery.
Autenticación Los mecanismos de autenticación varían según la base de datos de origen o el software de seguimiento de cambios. Cuando se usan las capacidades integradas de las bases de datos de origen, como SQL Server y MySQL, se usan los accesos a la base de datos para la autenticación. Cuando se usa software de seguimiento de cambios, se usa el mecanismo de autenticación de ese software.

Conectividad

En la siguiente tabla, se describen las conexiones de red necesarias para la replicación y los mecanismos de seguridad que usan.

Desde Hasta Optional Protocolo Red Seguridad de autenticación Objetivo
Servicio (proyecto de inquilino) Base de datos de origen Depende de la fuente de replicación. JDBC para la conexión directa a la base de datos. Intercambio de tráfico + reglas de firewall + VPN/interconexión + router Acceso a la base de datos Necesidades de diseño, no de ejecución, tiempo Funciones: Ficha de la tabla, Evaluación (pasos opcionales; la replicación puede continuar sin ellas)
Servicio (proyecto de inquilino) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: compensaciones, estados de replicación
Dataproc (tu proyecto) Base de datos de origen No Depende del origen. JDBC para una conexión de base de datos directa Intercambio de tráfico + reglas de firewall + VPN/interconexión + router Acceso a la base de datos Se necesitan en el momento de la ejecución, para leer los cambios de la base de datos de origen a la replicación y al destino
Dataproc (tu proyecto) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: compensaciones, estados de replicación
Dataproc (tu proyecto) BigQuery No API de Cloud VPC‑SC IAM Se necesitan en el momento de la ejecución para aplicar cambios de la base de datos de origen al destino

¿Qué sigue?