Réplication

La réplication de données Cloud Data Fusion vous permet de répliquer vos données en continu et en temps réel depuis des datastores opérationnels, tels que SQL Server et MySQL, dans BigQuery.

Pour utiliser la réplication, vous pouvez créer une nouvelle instance de Cloud Data Fusion et ajouter l'application de réplication ou ajouter l'application de réplication à une instance existante. Consultez les tutoriels pour MySQL, SQL Server et Oracle.

Les avantages comprennent :

  • Une interface simple permettant aux développeurs ETL et aux analystes de données de configurer des tâches de réplication

  • Permet d'identifier les incompatibilités de schéma, les problèmes de connectivité et les fonctionnalités manquantes avant de démarrer la réplication, puis propose des actions correctives.

  • Vous pouvez utiliser les dernières données opérationnelles en temps réel pour les analyser dans BigQuery. Vous utilisez la réplication basée sur les journaux directement dans BigQuery à partir de Microsoft SQL Server (à l'aide de SQL Server CDC) et de MySQL (à l'aide du journal binaire MySQL). ...

  • La capture de données modifiées (CDC, Change Data Capture) fournit une représentation des données qui ont changé dans un flux, permettant aux calculs et au traitement de se concentrer spécifiquement sur les enregistrements les plus récemment modifiés, réduisant ainsi l'impact de sortie sur les données sensibles et de production. .

  • L'évolutivité de l'entreprise pour une compatibilité avec les bases de données transactionnelles à volume élevé. Les charges de données initiales vers BigQuery sont compatibles avec la réplication d'instantané sans aucun temps d'arrêt, pour que l'entrepôt de données soit prêt à consommer des modifications en continu. Une fois l'instantané initial terminé, la réplication continue des modifications à haut débit et en temps réel démarre en temps réel. Dans la version publique, la fonctionnalité peut accepter jusqu'à 50 Go de transactions par heure.

  • Les tableaux de bord vous aident à obtenir des insights en temps réel sur les performances de la réplication. Cela permet d'identifier les goulots d'étranglement et de surveiller les contrats de niveau de service de diffusion des données.

  • Ce service est compatible avec la résidence des données, les clés de chiffrement gérées par le client (CMEK) et VPC Service Controls. L'intégration de Cloud Data Fusion dans Google Cloud garantit le plus haut niveau de sécurité et de confidentialité pour les entreprises, tout en rendant les données les plus récentes disponibles dans votre entrepôt de données à des fins d'analyse.

Lors de l'exécution de la réplication, le cluster Dataproc vous est facturé et des coûts de traitement vous sont facturés pour BigQuery. Pour optimiser ces coûts, nous vous recommandons vivement d'utiliser les tarifs forfaitaires de BigQuery.

Pour en savoir plus, consultez la page Tarifs de Cloud Data Fusion.

Entités de réplication

Entité Description
Réplication La réplication est une fonctionnalité de Cloud Data Fusion qui permet de répliquer des données en continu, à faible latence, depuis des datastores opérationnels vers des entrepôts de données analytiques. Créez une tâche de réplication en configurant une source et une cible avec des transformations facultatives.
Source Lit les événements de modification de base de données, de table ou de colonne et les rend disponibles pour un traitement ultérieur dans une tâche de réplication. Une tâche de réplication contient une source qui repose sur une solution de capture de modifications pour fournir les modifications. Il peut s'agir de plusieurs sources pour une base de données, chacune avec une solution de capture de modifications différente. Une source est un module connectable créé à l'aide de l'architecture de plug-ins de CDAP. Si aucune source n'est disponible pour répondre à vos besoins, vous pouvez la créer en mettant en œuvre l'interface source, puis l'importer dans CDAP ou Cloud Data Fusion.
Target Écrit les modifications reçues d'une source à partir d'une base de données cible. Une tâche de réplication contient une cible. Une cible est un module connectable créé à l'aide de l'architecture des plug-ins de CDAP. Si aucune cible ne répond à vos besoins, vous pouvez la créer en mettant en œuvre l'interface cible, puis l'importer sur CDAP ou Cloud Data Fusion.
Propriétés sources Configure la source, y compris les détails de connexion, les noms de la base de données source et de la table, les identifiants et d'autres propriétés.
Propriétés cibles Configure la cible, y compris les détails de connexion, les noms de base de données et de table cibles, les identifiants et d'autres propriétés.
Propriétés des tâches de réplication Configure la tâche de réplication, y compris les seuils de défaillance, les zones de préproduction, les notifications et les paramètres de validation.
Brouillon Tâche de réplication enregistrée et partiellement terminée. Lorsque la définition de la tâche de réplication est terminée, elle peut être démarrée.
Events Modifiez les événements de la source à répliquer sur la cible. Les événements incluent les insertions, les mises à jour, les suppressions et les modifications LDD ( langage de définition de données).
Insérer Ajout de nouveaux enregistrements dans la source
Mettre à jour Effectuez la mise à jour des enregistrements existants dans la source.
Supprimer Suppression des enregistrements existants dans la source.
Modification LDD Un événement contenant une modification de schéma, comme une modification du type de données ou du nom.
Journaux Journaux opérationnels d'une tâche de réplication.
Détails de la tâche de réplication Une page d'informations sur les tâches de réplication, telles que leur état actuel, leurs métriques opérationnelles, leur vue historique dans le temps, les résultats de la validation et leur configuration.
Tableau de bord Page répertoriant l'état de toutes les activités de capture de données modifiées, y compris le débit, la latence, les taux d'échec et les résultats de validation.

Actions

Actions Description
Déployer Créer une tâche de réplication en suivant un flux d'interface utilisateur pour spécifier une source, une cible et leur configuration.
Enregistrer L'enregistrement d'une tâche de réplication partiellement créée va reprendre la création ultérieurement.
Supprimer Supprimer une tâche de réplication existante Seuls les pipelines arrêtés peuvent être supprimés.
Démarrer Démarrage d'une tâche de réplication La tâche de réplication passe à l'état actif si des modifications doivent être traitées. Sinon, l'appareil passe à l'état d'attente.
Arrêter Arrêter une tâche de réplication La tâche de réplication arrête de traiter les modifications de la source.
Voir les journaux Affichage des journaux d'une tâche de réplication pour le débogage ou d'autres analyses.
Recherche Recherchez une tâche de réplication par son nom, sa description ou d'autres métadonnées de tâche de réplication.
Évaluation Évaluer l'impact de la réplication avant de la démarrer. L'évaluation d'une tâche de réplication génère un rapport d'évaluation qui signale les incompatibilités de schémas et les fonctionnalités manquantes.

Surveillance

États des instances dupliquées Description
Déployé La tâche de réplication est déployée, mais n'a pas démarré. Dans cet état, une tâche de réplication ne réplique pas d'événements.
Démarrage… La tâche de réplication est en cours d'initialisation et n'est pas prête à répliquer les modifications.
En cours d'exécution La tâche de réplication a démarré et réplique les modifications.
Arrêté La tâche de réplication est arrêtée.
Échec La tâche de réplication a échoué en raison d'erreurs fatales.

États des tables

Concept Description
Création d'instantanés La tâche de réplication prend un instantané de l'état actuel de la table avant la réplication des modifications.
En cours de réplication La tâche de réplication réplique les modifications de la table source vers la table de destination.
En échec La tâche de réplication ne parvient pas à répliquer les modifications de la table source en raison d'une erreur.

Métriques

Concept Description
Insertions Nombre d'insertions appliquées à la cible au cours de la période sélectionnée.
Mises à jour Nombre de mises à jour appliquées à la cible au cours de la période sélectionnée.
Suppressions Nombre de suppressions appliquées à la cible au cours de la période sélectionnée.
LDD Nombre de modifications LDD appliquées à la cible au cours de la période sélectionnée.
Débit Nombre d'événements et nombre d'octets répliqués sur la cible pour la période sélectionnée.
Latence Latence à laquelle les données sont répliquées sur la cible au cours de la période sélectionnée.

Composants

Composant Description
Service Supervise l'orchestration de bout en bout des tâches de réplication, et propose des fonctionnalités de conception, de déploiement, de gestion et de surveillance des tâches de réplication. Il s'exécute dans le projet locataire Cloud Data Fusion (le projet locataire est masqué pour l'utilisateur). Son état est affiché sur la page ADMINISTRATEUR SYST theME de l'UI Cloud Data Fusion.
Gestion de l'état Le service gère l'état de chaque tâche de réplication dans un bucket Cloud Storage du projet du client. Le bucket peut être configuré lors de la création de la tâche de réplication. Il stocke les décalages actuels et l'état de réplication de chaque tâche de réplication.
Exécution Les clusters Dataproc fournissent l'environnement d'exécution de tâches de réplication exécutées dans votre projet. Les tâches de réplication s'exécutent à l'aide de nœuds de calcul CDAP. La taille et les caractéristiques de l'environnement d'exécution sont configurées avec des profils Compute Engine.
Base de données source Base de données opérationnelle en production répliquée dans votre base de données cible Cette base de données peut être située sur site ou sur Google Cloud. Cloud Data Fusion Replication est compatible avec les bases de données sources MySQL, Microsoft SQL Server et Oracle.
Solution de suivi des changements Au lieu d'être exécuté sur un agent s'exécutant sur la base de données source, Cloud Data Fusion s'appuie sur une solution de suivi des modifications pour lire les modifications dans la base de données source. La solution peut être un composant de la base de données source ou une solution tierce sous licence distincte. Dans ce dernier cas, la solution de suivi des modifications s'exécute sur site, avec la base de données source ou sur Google Cloud. Chaque source doit être associée à une solution de suivi des modifications.
  1. SQL Server
    • Solution compatible:SQL Server CDC (tables de suivi des modifications)
    • Autres logiciels:non
    • Licence/Coût:N/A
    • Commentaires:SQL Server 2016 et versions ultérieures
  2. MySQL
  3. Oracle
Base de données cible Emplacement de destination pour la réplication et l'analyse. Cloud Data Fusion est compatible avec la base de données cible BigQuery.
Authentification Les mécanismes d'authentification varient en fonction de la base de données source ou du logiciel de suivi des modifications. Lorsque vous utilisez les fonctionnalités intégrées de bases de données sources, telles que SQL Server et MySQL, les connexions à la base de données sont utilisées pour l'authentification. Le logiciel d'authentification est utilisé avec le mécanisme d'authentification du logiciel.

Connectivité

Le tableau suivant décrit les connexions réseau requises pour la réplication et les mécanismes de sécurité qu'elles utilisent.

De To Facultatif Protocole Réseau Sécurité de l'authentification Usage
Service (projet locataire) Base de données source Oui Dépend de la source de réplication. JDBC pour une connexion directe à la base de données. Appairage + Règles de pare-feu + VPN/Interconnexion + Routeur Connexion à la base de données Nécessaire au moment de la conception, non de l'exécution, de la durée. Fonctions: liste des tables, évaluation (étapes facultatives ; la réplication peut se poursuivre sans elles).
Service (projet locataire) Cloud Storage Non API Cloud VPC SC IAM Gestion des états: décalages, états de réplication
Dataproc (votre projet) Base de données source Non Dépend de la source. JDBC pour une connexion directe à la base de données. Appairage + Règles de pare-feu + VPN/Interconnexion + Routeur Connexion à la base de données Nécessaire au moment de l'exécution, pour lire les modifications de la base de données source vers la réplication vers la cible
Dataproc (votre projet) Cloud Storage Non API Cloud VPC SC IAM Gestion des états: décalages, états de réplication
Dataproc (votre projet) BigQuery Non API Cloud VPC SC IAM Nécessaire au moment de l'exécution pour appliquer les modifications de la base de données source à la cible

Étape suivante