La replicación de Cloud Data Fusion te permite crear copias de tus datos de forma continua y en tiempo real desde almacenes de datos operativos, como SQL Server y MySQL, a BigQuery.
Para usar la replicación, elija una de las siguientes opciones:
- Crea una instancia de Cloud Data Fusion y añade la aplicación Replication.
- Añade la aplicación Replication a una instancia.
Entre sus ventajas se incluyen:
Identifica las incompatibilidades de esquemas, los problemas de conectividad y las funciones que faltan antes de iniciar la replicación y, a continuación, proporciona las acciones correctivas.
Usar los datos operativos más recientes en tiempo real para realizar análisis en BigQuery. Puedes usar la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (con CDC de SQL Server) y MySQL (con registro binario de MySQL).
Captura de datos de cambios (CDC) que proporciona una representación de los datos que han cambiado en un flujo, lo que permite que los cálculos y el procesamiento se centren específicamente en los registros que han cambiado más recientemente. De esta forma, se minimizan los cargos por datos salientes en sistemas de producción sensibles.
Escalabilidad empresarial para admitir bases de datos transaccionales de gran volumen. Se admiten cargas iniciales de datos en BigQuery con replicación de instantáneas sin tiempo de inactividad para que el almacén de datos esté listo para consumir cambios de forma continua. Una vez que se haya completado la primera copia, se iniciará la replicación continua de alto rendimiento de los cambios en tiempo real.
Los paneles de control te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación. Es útil para identificar cuellos de botella y monitorizar los acuerdos de nivel de servicio de entrega de datos.
Incluye la residencia de datos, las claves de cifrado gestionadas por el cliente (CMEK) y los controles de servicio de VPC. La integración de Cloud Data Fusion enGoogle Cloud garantiza que se cumplan los niveles más altos de seguridad y privacidad empresariales, al tiempo que se ponen a disposición los datos más recientes en tu almacén de datos para las analíticas.
Precios recomendados
Cuando se ejecuta la replicación, se te cobra por el clúster de Dataproc y se te aplican costes de procesamiento de BigQuery. Para optimizar estos costes, te recomendamos que uses los precios de tarifa plana de BigQuery.
Para obtener más información, consulta la página Precios de Cloud Data Fusion.
Entidades de replicación
Entidad | Descripción |
---|---|
Replicación | La replicación es una función de Cloud Data Fusion que permite replicar datos de forma continua con baja latencia desde almacenes de datos operativos en almacenes de datos analíticos. Crea un trabajo de replicación configurando un origen y un destino con transformaciones opcionales. |
Fuente | Lee los eventos de cambio de bases de datos, tablas o columnas y los pone a disposición para que se procesen en un trabajo de replicación. Un trabajo de replicación contiene un origen, que se basa en una solución de captura de cambios para proporcionar los cambios. Una base de datos puede tener varias fuentes, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable creado con la arquitectura de complementos de CDAP. Si no hay ninguna fuente disponible que se ajuste a tus necesidades, puedes crear la tuya propia implementando la interfaz de la fuente y, a continuación, subirla a CDAP o Cloud Data Fusion. |
Objetivo | Escribe los cambios recibidos de un origen en una base de datos de destino. Un trabajo de replicación contiene un destino. Un destino es un módulo conectable creado con la arquitectura de complementos de CDAP. Si no hay ningún destino disponible que se ajuste a tus necesidades, puedes crear el tuyo propio implementando la interfaz de destino y, a continuación, subirlo a CDAP o Cloud Data Fusion. |
Propiedades fuente | Configura el origen, incluidos los detalles de la conexión, los nombres de la base de datos y de la tabla de origen, las credenciales y otras propiedades. |
Propiedades de destino | Configura el destino, incluidos los detalles de conexión, los nombres de la base de datos y de la tabla de destino, las credenciales y otras propiedades. |
Propiedades de la tarea de replicación | Configura la tarea de replicación, incluidos los umbrales de errores, las áreas de almacenamiento provisional, las notificaciones y los ajustes de validación. |
Borrador | Una tarea de replicación guardada y completada parcialmente. Cuando se haya completado la definición de la tarea de replicación, se podrá iniciar. |
Eventos | Cambiar los eventos de la fuente para que se repliquen en el destino. Entre los eventos, se incluyen las inserciones, las actualizaciones, las eliminaciones y los cambios de DDL (lenguaje de definición de datos). |
Insertar | Se añaden nuevos registros en la fuente. |
Actualizar | Actualizar los registros de la fuente. |
Eliminar | Eliminación de los registros de la fuente. |
Cambio de DDL | Evento que contiene un cambio de esquema, como un cambio en el tipo de datos o en el nombre. |
Registros | Registros operativos de una tarea de replicación. |
Detalles de la tarea de replicación | Una página de detalles con información sobre el trabajo de replicación, como su estado actual, sus métricas operativas, su historial, los resultados de la validación y su configuración. |
Panel de control | Una página que muestra el estado de todas las actividades de captura de datos de cambios, incluidos el rendimiento, la latencia, las tasas de errores y los resultados de la validación. |
Acciones
Acciones | Descripción |
---|---|
Desplegar | Crear una tarea de replicación siguiendo un flujo de interfaz web para especificar un origen, un destino y su configuración. |
Guardar | Guardar un trabajo de replicación creado parcialmente para reanudar la creación más adelante. |
Eliminar | Eliminar una tarea de replicación. Solo se pueden eliminar las pipelines detenidas. |
Iniciar | Se inicia una tarea de replicación. Si hay cambios que procesar, el trabajo de replicación pasa al estado `active`. De lo contrario, pasa al estado `waiting`. |
Detener | Deteniendo una tarea de replicación. La tarea de replicación deja de procesar los cambios del origen. |
Ver registros | Ver los registros de un trabajo de replicación para depurar u otro análisis. |
Buscar | Buscar una tarea de replicación por su nombre, descripción u otros metadatos. |
Evaluar | Evaluar el impacto de la replicación antes de iniciarla. Al evaluar una tarea de replicación, se genera un informe de evaluación que marca las incompatibilidades de esquema y las funciones que faltan. |
Supervisión
Estados del replicador | Descripción |
---|---|
Implementado | La tarea de replicación se ha implementado, pero no se ha iniciado. En este estado, un trabajo de replicación no replica eventos. |
Iniciando | La tarea de replicación se está inicializando y no está lista para replicar los cambios. |
En ejecución | Se inicia la tarea de replicación y se replican los cambios. |
Deteniendo | La tarea de replicación se está deteniendo. |
Detenida | Se ha detenido la tarea de replicación. |
Error | El trabajo de replicación ha fallado debido a errores graves. |
Estados de la tabla
Concepto | Descripción |
---|---|
Vista general | La tarea de replicación está creando una captura del estado actual de la tabla antes de replicar los cambios. |
Con réplicas | La tarea de replicación está replicando los cambios de la tabla de origen en la tabla de destino. |
Posible fallo | El trabajo de replicación no puede replicar los cambios de la tabla de origen debido a un error. |
Métricas
Concepto | Descripción |
---|---|
Inserts | Número de inserciones aplicadas al objetivo en el periodo seleccionado. |
Actualizaciones | Número de actualizaciones aplicadas al destino en el periodo seleccionado. |
Eliminaciones | Número de eliminaciones aplicadas al destino en el periodo seleccionado. |
DDLs | Número de cambios de DDL aplicados al destino en el periodo seleccionado. |
Rendimiento | Número de eventos y número de bytes replicados en el destino en el periodo seleccionado. |
Latencia | La latencia con la que se replican los datos en el destino durante el periodo seleccionado. |
Componentes
Componente | Descripción |
---|---|
Servicio | Supervisa la orquestación integral de las tareas de replicación y ofrece funciones para diseñar, implementar, gestionar y monitorizar tareas de replicación. Se ejecuta en el proyecto de inquilino de Cloud Data Fusion (el proyecto de inquilino está oculto para el usuario). Su estado se muestra en la página **Administrador del sistema** de la interfaz web de Cloud Data Fusion. |
Gestión de estados | El servicio gestiona el estado de cada trabajo de replicación en un segmento de Cloud Storage del proyecto del cliente. El segmento se puede configurar cuando se crea el trabajo de replicación. Almacena los desplazamientos actuales y el estado de replicación de cada tarea de replicación. |
Ejecución | Los clústeres de Dataproc proporcionan el entorno de ejecución de las tareas de replicación, que se ejecutan en tu proyecto. Las tareas de replicación se ejecutan con trabajadores de CDAP. El tamaño y las características del entorno de ejecución se configuran con perfiles de Compute Engine. |
Base de datos de origen | Tu base de datos operativa de producción que se replica en la base de datos de destino. Esta base de datos puede estar ubicada en las instalaciones o en Google Cloud. La replicación de Cloud Data Fusion admite bases de datos de origen MySQL, Microsoft SQL Server y Oracle. |
Cambiar la solución de seguimiento | En lugar de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion utiliza una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente de la base de datos de origen o una solución de terceros con licencia independiente. En este último caso, la solución de seguimiento de cambios se ejecuta on‐premise, en la misma ubicación que la base de datos de origen o en Google Cloud. Cada fuente debe estar asociada a una solución de seguimiento de cambios.
|
Base de datos de destino | Ubicación de destino para la réplica y el análisis. Cloud Data Fusion admite la base de datos de destino BigQuery. |
Autenticación | Los mecanismos de autenticación varían en función de la base de datos de origen o del software de seguimiento de cambios. Cuando se usan las funciones integradas de las bases de datos de origen, como SQL Server y MySQL, los inicios de sesión de la base de datos se utilizan para la autenticación. Cuando se usa un software de seguimiento de cambios, se utiliza el mecanismo de autenticación del software. |
Conectividad
En la siguiente tabla se describen las conexiones de red necesarias para la replicación y los mecanismos de seguridad que utilizan.
De | Para | Opcional | Protocolo | Red | Seguridad de autenticación | Finalidad |
---|---|---|---|---|---|---|
Servicio (proyecto de cliente) | Base de datos de origen | Sí | Depende del origen de la replicación. JDBC para la conexión directa a la base de datos. | Emparejamiento + reglas de cortafuegos + VPN/Interconnect + router | Inicio de sesión en la base de datos | Necesarias en el momento del diseño, no en el de la ejecución Funciones: lista de tablas, evaluación (pasos opcionales; la replicación puede continuar sin ellos) |
Servicio (proyecto de cliente) | Cloud Storage | No | APIs de la nube | Controles de Servicio de VPC | Gestión de identidades y accesos | Gestión del estado: desplazamientos y estados de replicación |
Dataproc (tu proyecto) | Base de datos de origen | No | Depende de la fuente. JDBC para la conexión directa a la base de datos. | Emparejamiento + reglas de cortafuegos + VPN/Interconnect + router | Inicio de sesión en la base de datos | Necesario en el tiempo de ejecución para leer los cambios de la base de datos de origen y replicarlos en el destino. |
Dataproc (tu proyecto) | Cloud Storage | No | APIs de la nube | Controles de Servicio de VPC | Gestión de identidades y accesos | Gestión del estado: desplazamientos y estados de replicación |
Dataproc (tu proyecto) | BigQuery | No | APIs de la nube | Controles de Servicio de VPC | Gestión de identidades y accesos | Necesario en el tiempo de ejecución para aplicar los cambios de la base de datos de origen a la de destino. |
Siguientes pasos
- Consulta la referencia de la API Replication.
- Consulta las asignaciones de tipos de datos para la replicación.