Esta página se ha traducido con Cloud Translation API.

Descripción general de la replicación

La replicación de Cloud Data Fusion te permite crear copias de tus datos de forma continua y en tiempo real desde almacenes de datos operativos, como SQL Server y MySQL, a BigQuery.

Para usar la replicación, elija una de las siguientes opciones:

Crea una instancia de Cloud Data Fusion y añade la aplicación Replication.
Añade la aplicación Replication a una instancia.

Entre sus ventajas se incluyen:

Identifica las incompatibilidades de esquemas, los problemas de conectividad y las funciones que faltan antes de iniciar la replicación y, a continuación, proporciona las acciones correctivas.
Usar los datos operativos más recientes en tiempo real para realizar análisis en BigQuery. Puedes usar la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (con CDC de SQL Server) y MySQL (con registro binario de MySQL).
Captura de datos de cambios (CDC) que proporciona una representación de los datos que han cambiado en un flujo, lo que permite que los cálculos y el procesamiento se centren específicamente en los registros que han cambiado más recientemente. De esta forma, se minimizan los cargos por datos salientes en sistemas de producción sensibles.
Escalabilidad empresarial para admitir bases de datos transaccionales de gran volumen. Se admiten cargas iniciales de datos en BigQuery con replicación de instantáneas sin tiempo de inactividad para que el almacén de datos esté listo para consumir cambios de forma continua. Una vez que se haya completado la primera copia, se iniciará la replicación continua de alto rendimiento de los cambios en tiempo real.
Los paneles de control te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación. Es útil para identificar cuellos de botella y monitorizar los acuerdos de nivel de servicio de entrega de datos.
Incluye la residencia de datos, las claves de cifrado gestionadas por el cliente (CMEK) y los controles de servicio de VPC. La integración de Cloud Data Fusion enGoogle Cloud garantiza que se cumplan los niveles más altos de seguridad y privacidad empresariales, al tiempo que se ponen a disposición los datos más recientes en tu almacén de datos para las analíticas.

Precios recomendados

Cuando se ejecuta la replicación, se te cobra por el clúster de Dataproc y se te aplican costes de procesamiento de BigQuery. Para optimizar estos costes, te recomendamos que uses los precios de tarifa plana de BigQuery.

Para obtener más información, consulta la página Precios de Cloud Data Fusion.

Entidades de replicación

Entidad	Descripción
Replicación	La replicación es una función de Cloud Data Fusion que permite replicar datos de forma continua con baja latencia desde almacenes de datos operativos en almacenes de datos analíticos. Crea un trabajo de replicación configurando un origen y un destino con transformaciones opcionales.
Fuente	Lee los eventos de cambio de bases de datos, tablas o columnas y los pone a disposición para que se procesen en un trabajo de replicación. Un trabajo de replicación contiene un origen, que se basa en una solución de captura de cambios para proporcionar los cambios. Una base de datos puede tener varias fuentes, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable creado con la arquitectura de complementos de CDAP. Si no hay ninguna fuente disponible que se ajuste a tus necesidades, puedes crear la tuya propia implementando la interfaz de la fuente y, a continuación, subirla a CDAP o Cloud Data Fusion.
Objetivo	Escribe los cambios recibidos de un origen en una base de datos de destino. Un trabajo de replicación contiene un destino. Un destino es un módulo conectable creado con la arquitectura de complementos de CDAP. Si no hay ningún destino disponible que se ajuste a tus necesidades, puedes crear el tuyo propio implementando la interfaz de destino y, a continuación, subirlo a CDAP o Cloud Data Fusion.
Propiedades fuente	Configura el origen, incluidos los detalles de la conexión, los nombres de la base de datos y de la tabla de origen, las credenciales y otras propiedades.
Propiedades de destino	Configura el destino, incluidos los detalles de conexión, los nombres de la base de datos y de la tabla de destino, las credenciales y otras propiedades.
Propiedades de la tarea de replicación	Configura la tarea de replicación, incluidos los umbrales de errores, las áreas de almacenamiento provisional, las notificaciones y los ajustes de validación.
Borrador	Una tarea de replicación guardada y completada parcialmente. Cuando se haya completado la definición de la tarea de replicación, se podrá iniciar.
Eventos	Cambiar los eventos de la fuente para que se repliquen en el destino. Entre los eventos, se incluyen las inserciones, las actualizaciones, las eliminaciones y los cambios de DDL (lenguaje de definición de datos).
Insertar	Se añaden nuevos registros en la fuente.
Actualizar	Actualizar los registros de la fuente.
Eliminar	Eliminación de los registros de la fuente.
Cambio de DDL	Evento que contiene un cambio de esquema, como un cambio en el tipo de datos o en el nombre.
Registros	Registros operativos de una tarea de replicación.
Detalles de la tarea de replicación	Una página de detalles con información sobre el trabajo de replicación, como su estado actual, sus métricas operativas, su historial, los resultados de la validación y su configuración.
Panel de control	Una página que muestra el estado de todas las actividades de captura de datos de cambios, incluidos el rendimiento, la latencia, las tasas de errores y los resultados de la validación.

Acciones

Acciones	Descripción
Desplegar	Crear una tarea de replicación siguiendo un flujo de interfaz web para especificar un origen, un destino y su configuración.
Guardar	Guardar un trabajo de replicación creado parcialmente para reanudar la creación más adelante.
Eliminar	Eliminar una tarea de replicación. Solo se pueden eliminar las pipelines detenidas.
Iniciar	Se inicia una tarea de replicación. Si hay cambios que procesar, el trabajo de replicación pasa al estado `active`. De lo contrario, pasa al estado `waiting`.
Detener	Deteniendo una tarea de replicación. La tarea de replicación deja de procesar los cambios del origen.
Ver registros	Ver los registros de un trabajo de replicación para depurar u otro análisis.
Buscar	Buscar una tarea de replicación por su nombre, descripción u otros metadatos.
Evaluar	Evaluar el impacto de la replicación antes de iniciarla. Al evaluar una tarea de replicación, se genera un informe de evaluación que marca las incompatibilidades de esquema y las funciones que faltan.

Supervisión

Estados del replicador	Descripción
Implementado	La tarea de replicación se ha implementado, pero no se ha iniciado. En este estado, un trabajo de replicación no replica eventos.
Iniciando	La tarea de replicación se está inicializando y no está lista para replicar los cambios.
En ejecución	Se inicia la tarea de replicación y se replican los cambios.
Deteniendo	La tarea de replicación se está deteniendo.
Detenida	Se ha detenido la tarea de replicación.
Error	El trabajo de replicación ha fallado debido a errores graves.

Estados de la tabla

Concepto	Descripción
Vista general	La tarea de replicación está creando una captura del estado actual de la tabla antes de replicar los cambios.
Con réplicas	La tarea de replicación está replicando los cambios de la tabla de origen en la tabla de destino.
Posible fallo	El trabajo de replicación no puede replicar los cambios de la tabla de origen debido a un error.

Métricas

Concepto	Descripción
Inserts	Número de inserciones aplicadas al objetivo en el periodo seleccionado.
Actualizaciones	Número de actualizaciones aplicadas al destino en el periodo seleccionado.
Eliminaciones	Número de eliminaciones aplicadas al destino en el periodo seleccionado.
DDLs	Número de cambios de DDL aplicados al destino en el periodo seleccionado.
Rendimiento	Número de eventos y número de bytes replicados en el destino en el periodo seleccionado.
Latencia	La latencia con la que se replican los datos en el destino durante el periodo seleccionado.

Componentes

Componente	Descripción
Servicio	Supervisa la orquestación integral de las tareas de replicación y ofrece funciones para diseñar, implementar, gestionar y monitorizar tareas de replicación. Se ejecuta en el proyecto de inquilino de Cloud Data Fusion (el proyecto de inquilino está oculto para el usuario). Su estado se muestra en la página Administrador del sistema de la interfaz web de Cloud Data Fusion.
Gestión de estados	El servicio gestiona el estado de cada trabajo de replicación en un segmento de Cloud Storage del proyecto del cliente. El segmento se puede configurar cuando se crea el trabajo de replicación. Almacena los desplazamientos actuales y el estado de replicación de cada tarea de replicación.
Ejecución	Los clústeres de Dataproc proporcionan el entorno de ejecución de las tareas de replicación, que se ejecutan en tu proyecto. Las tareas de replicación se ejecutan con trabajadores de CDAP. El tamaño y las características del entorno de ejecución se configuran con perfiles de Compute Engine.
Base de datos de origen	Tu base de datos operativa de producción que se replica en la base de datos de destino. Esta base de datos puede estar ubicada en las instalaciones o en Google Cloud. La replicación de Cloud Data Fusion admite bases de datos de origen MySQL, Microsoft SQL Server y Oracle.
Cambiar la solución de seguimiento	En lugar de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion utiliza una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente de la base de datos de origen o una solución de terceros con licencia independiente. En este último caso, la solución de seguimiento de cambios se ejecuta on‐premise, en la misma ubicación que la base de datos de origen o en Google Cloud. Cada fuente debe estar asociada a una solución de seguimiento de cambios. SQL Server Solución admitida: CDC de SQL Server (tablas de seguimiento de cambios) Software adicional: no Licencia o coste: N/A Comentarios: disponible en SQL Server 2016 y versiones posteriores MySQL Solución admitida: Registro binario de MySQL Software adicional: no Licencia o coste: N/A Comentarios: N/A Oracle Solución admitida: Oracle LogMiner Software adicional: no Licencia o coste: N/A Comentarios: consulta las versiones compatibles con Datastream.
Base de datos de destino	Ubicación de destino para la réplica y el análisis. Cloud Data Fusion admite la base de datos de destino BigQuery.
Autenticación	Los mecanismos de autenticación varían en función de la base de datos de origen o del software de seguimiento de cambios. Cuando se usan las funciones integradas de las bases de datos de origen, como SQL Server y MySQL, los inicios de sesión de la base de datos se utilizan para la autenticación. Cuando se usa un software de seguimiento de cambios, se utiliza el mecanismo de autenticación del software.

Conectividad

En la siguiente tabla se describen las conexiones de red necesarias para la replicación y los mecanismos de seguridad que utilizan.

De	Para	Opcional	Protocolo	Red	Seguridad de autenticación	Finalidad
Servicio (proyecto de cliente)	Base de datos de origen	Sí	Depende del origen de la replicación. JDBC para la conexión directa a la base de datos.	Emparejamiento + reglas de cortafuegos + VPN/Interconnect + router	Inicio de sesión en la base de datos	Necesarias en el momento del diseño, no en el de la ejecución Funciones: lista de tablas, evaluación (pasos opcionales; la replicación puede continuar sin ellos)
Servicio (proyecto de cliente)	Cloud Storage	No	APIs de la nube	Controles de Servicio de VPC	Gestión de identidades y accesos	Gestión del estado: desplazamientos y estados de replicación
Dataproc (tu proyecto)	Base de datos de origen	No	Depende de la fuente. JDBC para la conexión directa a la base de datos.	Emparejamiento + reglas de cortafuegos + VPN/Interconnect + router	Inicio de sesión en la base de datos	Necesario en el tiempo de ejecución para leer los cambios de la base de datos de origen y replicarlos en el destino.
Dataproc (tu proyecto)	Cloud Storage	No	APIs de la nube	Controles de Servicio de VPC	Gestión de identidades y accesos	Gestión del estado: desplazamientos y estados de replicación
Dataproc (tu proyecto)	BigQuery	No	APIs de la nube	Controles de Servicio de VPC	Gestión de identidades y accesos	Necesario en el tiempo de ejecución para aplicar los cambios de la base de datos de origen a la de destino.

Siguientes pasos

Consulta la referencia de la API Replication.
Consulta las asignaciones de tipos de datos para la replicación.