Replicación

Cloud Data Fusion Replication te permite replicar tus datos de forma continua y en tiempo real desde almacenes de datos operativos, como SQL Server y MySQL, a BigQuery.

Para usar la replicación, puedes crear una instancia nueva de Cloud Data Fusion y agregar la app de replicación o agregar la app de replicación a una instancia existente. Consulta los instructivos sobre MySQL, SQL Server y Oracle.

Estos son algunos de los beneficios:

  • Una interfaz simple para que los desarrolladores de ETL y los analistas de datos configuren trabajos de replicación.

  • Te ayuda a identificar incompatibilidades de esquemas, problemas de conectividad y funciones faltantes antes de comenzar la replicación y, luego, proporciona medidas correctivas.

  • Puedes usar los datos operativos más recientes en tiempo real para su análisis en BigQuery. Usas la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (mediante la CDC de SQL Server) y MySQL (mediante el registro binario de MySQL). ,

  • La captura de datos modificados (CDC) proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los procesamientos y el procesamiento se enfoquen solo en los registros modificados más recientemente, lo que minimiza el efecto de la salida en la producción sensible. sistemas.

  • La escalabilidad empresarial para admitir bases de datos transaccionales de gran volumen. Las cargas iniciales de datos a BigQuery son compatibles con la replicación de instantáneas sin tiempo de inactividad, a fin de preparar el almacén de datos para consumir cambios de manera continua. Una vez que se completa la instantánea inicial, la replicación continua de los cambios comienza en tiempo real. En la vista previa pública, la función puede admitir hasta 50 GB de transacciones por hora.

  • Los paneles te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación. Esto es útil para identificar cuellos de botella y supervisar los ANS de entrega de datos.

  • Incluye compatibilidad con la residencia de datos, las claves de encriptación administradas por el cliente (CMEK) y los Controles del servicio de VPC. La integración de Cloud Data Fusion en Google Cloud garantiza que se cumplan los niveles más altos de privacidad y seguridad empresarial, a la vez que permite que los datos más recientes estén disponibles en tu almacén de datos para elaborar estadísticas.

Cuando se ejecuta la replicación, se te cobra por el clúster de Dataproc y se generan costos de procesamiento para BigQuery. Para optimizar estos costos, te recomendamos que uses los precios de tasa fija de BigQuery.

Para obtener más información, consulta la página Precios de Cloud Data Fusion.

Entidades de replicación

Entity Descripción
Replicación La replicación es una función de Cloud Data Fusion que permite replicar datos de baja latencia de forma continua desde almacenes de datos operativos hacia almacenes de datos estadísticos. Crea un trabajo de replicación mediante la configuración de un origen y un destino con transformaciones opcionales.
Origen Lee eventos de cambio de base de datos, tabla o columna, y los pone a disposición para procesar aún más un trabajo de replicación. Un trabajo de replicación contiene una fuente, que depende de una solución de captura de cambios para proporcionar los cambios. Puede haber varias fuentes para una base de datos, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable compilado con la arquitectura de complementos de CDAP. Si una fuente no está disponible para satisfacer tus necesidades, puedes implementar la interfaz de origen y, luego, subirla a CDAP o Cloud Data Fusion.
Target Escribe los cambios recibidos de una fuente en una base de datos de destino. Un trabajo de replicación contiene un destino. Un objetivo es un módulo conectable compilado con la arquitectura de complementos de CDAP. Si un objetivo no está disponible para satisfacer tus necesidades, puedes crear el tuyo si implementas la interfaz de destino y, luego, lo subes a CDAP o a Cloud Data Fusion.
Propiedades de origen Configura la fuente, incluidos los detalles de la conexión, la base de datos de origen y los nombres de tabla, las credenciales y otras propiedades.
Propiedades de destino Configura el destino, incluidos los detalles de la conexión, la base de datos de destino y los nombres de las tablas, credenciales y otras propiedades.
Propiedades del trabajo de replicación Configura el trabajo de replicación, incluidos los umbrales de fallas, las áreas de etapa de pruebas, las notificaciones y la configuración de la validación.
Borrador Un trabajo de replicación guardado de forma parcial Cuando se completa la definición del trabajo de replicación, se puede iniciar.
Eventos Cambia los eventos de la fuente para que se repliquen en el destino. Los eventos incluyen inserciones, actualizaciones, eliminaciones y cambios de DDL ( lenguaje de definición de datos).
Insertar Se agregaron registros nuevos a la fuente.
Actualizar Actualiza los registros existentes en la fuente.
Borrar Eliminación de registros existentes en la fuente.
Cambio de DDL Un evento que contiene un cambio de esquema, como un cambio en el tipo de datos o el nombre.
Registros Los registros operativos de un trabajo de replicación
Detalle del trabajo de replicación Una página de detalles con información del trabajo de replicación, como el estado actual, las métricas operativas, la vista histórica en el tiempo, los resultados de la validación y su configuración.
Panel Una página que muestra el estado de todas las actividades de captura de datos de cambios, incluida la capacidad de procesamiento, la latencia, las tasas de fallas y los resultados de la validación.

Acciones

Acciones Descripción
Implementa Creación de un trabajo de replicación nuevo mediante el seguimiento de un flujo de IU para especificar un origen, un destino y su configuración.
Guardar Guardar un trabajo de replicación creado de forma parcial para reanudar su creación más tarde
Borrar Borra un trabajo de replicación existente. Solo se pueden borrar las canalizaciones detenidas.
Inicio Inicia un trabajo de replicación. El trabajo de replicación ingresa al estado activo si hay cambios que deben procesarse. de lo contrario, entra en el estado de espera.
Detener Detén un trabajo de replicación. El trabajo de replicación deja de procesar cambios de la fuente.
Ver registros Visualiza registros de un trabajo de replicación para depurarlos o realizar algún otro análisis.
Buscar Busca un trabajo de replicación por su nombre, descripción o, también, otros metadatos del trabajo de replicación.
Evaluación Evaluación del impacto de la replicación antes de comenzar la replicación. La evaluación de un trabajo de replicación genera un informe de evaluación que marca las incompatibilidades del esquema y las características faltantes.

Monitoring

Estados de los replicadores Descripción
Implementada El trabajo de replicación se implementa, pero no se inicia. En este estado, un trabajo de replicación no replica eventos.
Iniciando El trabajo de replicación se está inicializando y no está listo para replicar cambios.
Activo El trabajo de replicación se inicia y replica los cambios.
Detenida Se detuvo el trabajo de replicación.
Error El trabajo de replicación falló debido a errores irrecuperables.

Estados de la tabla

Concepto Descripción
Captura de instantáneas El trabajo de replicación toma una instantánea del estado actual de la tabla antes de replicar los cambios.
Con replicación El trabajo de replicación replica los cambios de la tabla de origen en la tabla de destino.
Falló El trabajo de replicación no puede replicar los cambios de la tabla de origen debido a un error.

Métricas

Concepto Descripción
Inserciones La cantidad de inserciones aplicadas al objetivo en el período seleccionado.
Actualizaciones Es la cantidad de actualizaciones aplicadas al destino en el período seleccionado.
Eliminaciones La cantidad de eliminaciones aplicadas al objetivo en el período seleccionado.
DDL Es la cantidad de cambios de DDL aplicados al objetivo en el período seleccionado.
Capacidad de procesamiento La cantidad de eventos y de bytes replicados en el objetivo durante el período seleccionado.
Latencia La latencia a la que se replican los datos en el objetivo en el período seleccionado

Componentes

Componente Descripción
Servicio Supervisa la organización de extremo a extremo de los trabajos de replicación y proporciona capacidades para diseñar, implementar, administrar y supervisar los trabajos de replicación. Se ejecuta dentro del proyecto de usuario de Cloud Data Fusion (el proyecto de usuario está oculto para el usuario). Su estado se muestra en la página ADMINISTRACISYSTEMN DEL SISTEMA de la IU de Cloud Data Fusion.
Administración de estado El servicio administra el estado de cada trabajo de replicación en un bucket de Cloud Storage en el proyecto del cliente. El bucket se puede configurar cuando se crea el trabajo de replicación. Almacena las compensaciones actuales y el estado de replicación de cada trabajo de replicación.
Ejecución Los clústeres de Dataproc proporcionan el entorno de ejecución de los trabajos de replicación, que se ejecutan en tu proyecto. Los trabajos de replicación se ejecutan con trabajadores de CDAP. El tamaño y las características del entorno de ejecución se configuran con los perfiles de Compute Engine.
Base de datos de origen Tu base de datos operativa de producción que se replica en la base de datos de destino Esta base de datos se puede ubicar de forma local o en Google Cloud. Cloud Data Fusion Replication es compatible con MySQL, Microsoft SQL Server y bases de datos de origen de Oracle.
Cambiar solución de seguimiento En lugar de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion depende de una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente de la base de datos de origen o una solución de terceros con licencia independiente. En el último caso, la solución de seguimiento de cambios se ejecuta de forma local, en la base de datos de origen o en Google Cloud. Cada fuente debe estar asociada con una solución de seguimiento de cambios.
  1. SQL Server
    • Solución compatible: SQL Server CDC (cambiar tablas de seguimiento)
    • Software adicional: No
    • Licencia/costo: N/A
    • Comentarios: SQL Server disponible 2016 y posteriores
  2. MySQL
  3. Oracle
Base de datos de destino La ubicación de destino para la replicación y el análisis. Cloud Data Fusion es compatible con la base de datos de destino de BigQuery.
Authentication Los mecanismos de autenticación varían según la base de datos de origen o el software de seguimiento de cambios. Cuando se usan las capacidades integradas de las bases de datos de origen, como SQL Server y MySQL, los accesos de la base de datos se usan para la autenticación. Cuando se usa un software de seguimiento de cambios, se usa el mecanismo de autenticación del software.

Conectividad

En la siguiente tabla, se describen las conexiones de red requeridas para la replicación y los mecanismos de seguridad que usan.

Desde Hasta Opcional Protocolo Red Seguridad de autenticación Objetivo
Servicio (proyecto de usuario) Base de datos de origen Depende de la fuente de replicación. JDBC para la conexión directa con la base de datos. Intercambio de tráfico + Reglas de firewall + VPN, interconexión o router Acceso a la base de datos Se necesita en el diseño, no en la ejecución. Funciones de tiempo: enumeración de tablas y evaluación (pasos opcionales; la replicación puede continuar sin ellos).
Servicio (proyecto de usuario) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: compensaciones, estados de replicación
Dataproc (tu proyecto) Base de datos de origen No Depende de la fuente. JDBC para la conexión directa de bases de datos. Intercambio de tráfico + Reglas de firewall + VPN, interconexión o router Acceso a la base de datos Se necesita en el momento de la ejecución para leer los cambios de la base de datos de origen a la replicación a los destinos
Dataproc (tu proyecto) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: compensaciones, estados de replicación
Dataproc (tu proyecto) BigQuery No API de Cloud VPC‑SC IAM Se necesita en el momento de la ejecución para aplicar cambios de la base de datos de origen al destino

¿Qué sigue?