La replicación de Cloud Data Fusion te permite replicar tus datos de forma continua y en tiempo real desde los almacenes de datos operativos, como SQL Server y MySQL, en BigQuery.
Para usar la replicación, elige una de las siguientes maneras:
- Crea una instancia nueva de Cloud Data Fusion y agrega la app de replicación.
- Agrega la app de replicación a una instancia existente.
Consulta los instructivos para MySQL, SQL Server y Oracle.
Estos son algunos de los beneficios:
Una interfaz simple para que los desarrolladores de ETL y analistas de datos configuren trabajos de replicación
Te ayuda a identificar las incompatibilidades del esquema, los problemas de conectividad y las características faltantes antes de iniciar la replicación y, luego, proporciona acciones correctivas.
Puedes usar los datos operativos más recientes en tiempo real para el análisis en BigQuery. Debes usar la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (mediante las CDC de SQL Server) y MySQL (con el registro binario de MySQL).
La captura de datos modificados (CDC) proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los cálculos y el procesamiento se enfoquen de forma específica en los registros modificados más recientemente. Esto minimiza los cargos de datos salientes en sistemas de producción sensibles.
Escalabilidad empresarial para admitir bases de datos transaccionales de gran volumen. Las cargas iniciales de datos en BigQuery son compatibles con la replicación de instantáneas sin tiempo de inactividad, de modo que el almacén de datos esté listo para consumir cambios de forma continua. Una vez que se completa la instantánea inicial, se inicia la replicación continua y de alta capacidad de procesamiento de los cambios en tiempo real.
Los paneles te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación. Es útil para identificar cuellos de botella y supervisar los ANS de entrega de datos.
Incluye asistencia para la residencia de datos, las claves de encriptación administradas por el cliente (CMEK) y los Controles del servicio de VPC. La integración de Cloud Data Fusion en Google Cloud garantiza que se observen los niveles más altos de seguridad y privacidad empresariales, a la vez que pone a disposición los datos más recientes en tu almacén de datos para estadísticas.
Precios recomendados
Cuando se ejecuta la replicación, se te cobra por el clúster de Dataproc y, además, se generan costos de procesamiento por BigQuery. Para optimizar estos costos, te recomendamos que uses los precios de tarifa plana de BigQuery.
Para obtener más información, consulta la página de precios de Cloud Data Fusion.
Entidades de replicación
Entity | Descripción |
---|---|
Replicación | La replicación es una capacidad de Cloud Data Fusion que permite replicar datos de forma continua con una latencia baja desde almacenes de datos operativos hasta almacenes de datos analíticos. Crea un trabajo de replicación mediante la configuración de un origen y un destino con transformaciones opcionales. |
Fuente | Lee eventos de cambio de base de datos, tablas o columnas y los pone a disposición para su procesamiento posterior en un trabajo de replicación. Un trabajo de replicación contiene una fuente que se basa en una solución de captura de cambios para proporcionar los cambios. Puede haber varias fuentes para una base de datos, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable compilado con la arquitectura de complementos de CDAP. Si una fuente no está disponible para satisfacer tus necesidades, puedes crear la tuya implementando la interfaz de origen y luego súbela a CDAP o Cloud Data Fusion. |
Target | Escribe los cambios recibidos de una fuente en una base de datos de destino. Un trabajo de replicación contiene un destino. Un objetivo es un módulo conectable creado con la arquitectura de complementos de CDAP. Si un destino no está disponible para satisfacer tus necesidades, puedes crear el tuyo propio mediante la implementación de la interfaz de destino y, luego, subirlo a CDAP o Cloud Data Fusion. |
Propiedades fuente | Configura la fuente, incluidos los detalles de la conexión, los nombres de la base de datos y las tablas de origen, las credenciales y otras propiedades. |
Propiedades de destino | Configura el destino, incluidos los detalles de la conexión, los nombres de la base de datos y de la tabla de destino, las credenciales y otras propiedades. |
Propiedades del trabajo de replicación | Configura el trabajo de replicación, incluidos los umbrales de fallas, las áreas de etapa de pruebas, las notificaciones y la configuración de validación. |
Borrador | Un trabajo de replicación guardado y parcialmente completado. Cuando se completa la definición del trabajo de replicación, se puede iniciar. |
Eventos | Eventos de cambio en la fuente que se replicarán en el destino. Los eventos incluyen inserciones, actualizaciones, eliminaciones y cambios en el DDL (lenguaje de definición de datos). |
Insertar | Adición de registros nuevos en la fuente. |
Actualizar | Actualiza los registros existentes en la fuente. |
Borrar | La eliminación de registros existentes en la fuente. |
Cambio de DDL | Un evento que contiene un cambio de esquema, como un cambio en el tipo de datos o el nombre. |
Registros | Los registros operativos de un trabajo de replicación. |
Detalles del trabajo de replicación | Una página de detalles con información del trabajo de replicación, como su estado actual, métricas operativas, vista histórica en el tiempo, resultados de validación y configuración. |
Panel | Es una página que enumera el estado de todas las actividades de captura de datos modificados, incluida la capacidad de procesamiento, la latencia, las tasas de errores y los resultados de validación. |
Acciones
Acciones | Descripción |
---|---|
Implementar | Crear un trabajo de replicación nuevo mediante el seguimiento de un flujo de interfaz web para especificar un origen, un destino y su configuración |
Guardar | Guardar un trabajo de replicación creado de forma parcial para reanudar la creación más tarde |
Borrar | Borra un trabajo de replicación existente. Solo se pueden borrar las canalizaciones detenidas. |
Inicio | Inicia un trabajo de replicación. Si hay cambios que se deben procesar, el trabajo de replicación entra en el estado “activo”; de lo contrario, entra en estado “esperado”. |
Detener | Detén un trabajo de replicación. El trabajo de replicación deja de procesar los cambios de la fuente. |
Visualiza los registros | Visualizar registros de un trabajo de replicación para depuración o análisis de otro tipo |
Search | Busca un trabajo de replicación por su nombre, descripción o algún otro metadato del trabajo de replicación. |
Evalúa | Evalúa el impacto de la replicación antes de iniciarla. Cuando evalúas un trabajo de replicación, se genera un informe de evaluación que marca las incompatibilidades del esquema y las funciones faltantes. |
Supervisión
Estados del replicador | Descripción |
---|---|
Implementado | Se implementó el trabajo de replicación, pero no se inició. En este estado, un trabajo de replicación no replica eventos. |
Iniciando | El trabajo de replicación se está inicializando y no está listo para replicar cambios. |
Ejecución en curso | Se inicia el trabajo de replicación y replica los cambios. |
Deteniéndose | Se detendrá el trabajo de replicación. |
Detenido | Se detuvo el trabajo de replicación. |
Con errores | El trabajo de replicación falló debido a errores graves. |
Estados de la tabla
Concepto | Descripción |
---|---|
Captura de instantáneas | El trabajo de replicación toma una instantánea del estado actual de la tabla antes de replicar los cambios. |
Replicación en curso | El trabajo de replicación replica los cambios de la tabla de origen en la tabla de destino. |
Con errores | El trabajo de replicación no puede replicar los cambios de la tabla de origen debido a un error. |
Métricas
Concepto | Descripción |
---|---|
Inserciones | La cantidad de inserciones que se aplicaron al destino en el período seleccionado. |
Actualizaciones | La cantidad de actualizaciones aplicadas al objetivo en el período seleccionado. |
Eliminaciones | La cantidad de eliminaciones aplicadas al destino en el período seleccionado. |
DDL | La cantidad de cambios de DDL aplicados al objetivo en el período seleccionado. |
Capacidad de procesamiento | La cantidad de eventos y de bytes replicados en el objetivo en el período seleccionado. |
Latencia | La latencia en la que los datos se replican en el destino durante el período seleccionado. |
Componentes
Componente | Descripción |
---|---|
Servicio | Supervisa la organización de extremo a extremo de los trabajos de replicación y proporciona capacidades para diseñar, implementar, administrar y supervisar trabajos de replicación. Se ejecuta dentro del proyecto de usuario de Cloud Data Fusion (el proyecto de usuario está oculto para el usuario). Su estado se muestra en la página **Administrador del sistema** de la interfaz web de Cloud Data Fusion. |
Administración de estado | El servicio administra el estado de cada trabajo de replicación en un bucket de Cloud Storage en el proyecto del cliente. El bucket se puede configurar cuando se crea el trabajo de replicación. Almacena los desplazamientos actuales y el estado de replicación de cada trabajo de replicación. |
Ejecución | Los clústeres de Dataproc proporcionan el entorno de ejecución de los trabajos de replicación, que se ejecutan en tu proyecto. Los trabajos de replicación se ejecutan con trabajadores de CDAP. El tamaño y las características del entorno de ejecución se configuran con perfiles de Compute Engine. |
Base de datos de origen | La base de datos operativa de producción que se replica en la base de datos de destino. Esta base de datos puede ubicarse de forma local o en Google Cloud. La replicación de Cloud Data Fusion es compatible con las bases de datos de origen MySQL, Microsoft SQL Server y Oracle. |
Solución de seguimiento de cambios | En lugar de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion se basa en una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente de la base de datos de origen o una solución de terceros con licencia por separado. En este último caso, la solución de seguimiento de cambios se ejecuta de forma local, ubicada con la base de datos de origen o en Google Cloud. Cada fuente debe estar asociada con una solución de seguimiento de cambios.
|
Base de datos de destino | Es la ubicación de destino para la replicación y el análisis. Cloud Data Fusion es compatible con la base de datos de destino de BigQuery. |
Authentication | Los mecanismos de autenticación varían según la base de datos de origen o el software de seguimiento de cambios. Cuando se usan las funciones integradas de las bases de datos de origen, como SQL Server y MySQL, los accesos a la base de datos se usan para la autenticación. Cuando se usa un software de seguimiento de cambios, se usa el mecanismo de autenticación del software. |
Conectividad
En la siguiente tabla, se describen las conexiones de red necesarias para la replicación y los mecanismos de seguridad que usan.
Desde | Hasta | Opcional | Protocolo | Red | Seguridad de autenticación | Objetivo |
---|---|---|---|---|---|---|
Servicio (proyecto de usuario) | BD de origen | Sí | Depende de la fuente de replicación. JDBC para la conexión directa de bases de datos. | Intercambio de tráfico + reglas de firewall + VPN/interconexión + router | Acceso a la base de datos | Se requieren en el diseño, no en la ejecución, tiempo Funciones: lista de tablas y evaluación (pasos opcionales; la replicación puede continuar sin ellos) |
Servicio (proyecto de usuario) | Cloud Storage | No. | API de Cloud | VPC‑SC | IAM | Administración de estado: Compensaciones, estados de replicación |
Dataproc (tu proyecto) | BD de origen | No. | Depende de la fuente JDBC para conexión directa a bases de datos. | Intercambio de tráfico + reglas de firewall + VPN/interconexión + router | Acceso a la base de datos | Es necesario en el momento de la ejecución para leer los cambios de la base de datos de origen a fin de replicarlos en el destino. |
Dataproc (tu proyecto) | Cloud Storage | No. | API de Cloud | VPC‑SC | IAM | Administración de estado: Compensaciones, estados de replicación |
Dataproc (tu proyecto) | BigQuery | No. | API de Cloud | VPC‑SC | IAM | Necesaria en el momento de la ejecución para aplicar cambios de la base de datos de origen al destino |
¿Qué sigue?
- Trabaja con el instructivo para replicar datos de SQL Server a BigQuery.
- Trabaja con el instructivo para replicar datos de Oracle a BigQuery.
- Trabaja con el instructivo para replicar datos de Oracle a BigQuery.
- Consulta la referencia de la API de replicación.
- Consulta las asignaciones de tipos de datos para replicación.