La réplication Cloud Data Fusion vous permet de répliquer vos données en continu et en temps réel à partir de datastores opérationnels, tels que SQL Server et MySQL, vers BigQuery.
Pour utiliser la réplication, choisissez l'une des méthodes suivantes:
- Créer une instance Cloud Data Fusion et ajouter l'application de réplication
- Ajoutez l'application de réplication à une instance existante.
Consultez les tutoriels pour MySQL, SQL Server et Oracle.
Les avantages comprennent :
Interface simple permettant aux développeurs ETL et aux analystes de données de configurer des tâches de réplication.
Permet d'identifier les incompatibilités de schéma, les problèmes de connectivité et les fonctionnalités manquantes avant de démarrer la réplication, puis fournit des actions correctives.
Vous pouvez utiliser les dernières données opérationnelles en temps réel pour les analyser dans BigQuery. Vous utilisez la réplication basée sur les journaux directement dans BigQuery à partir de Microsoft SQL Server (à l'aide de SQL Server CDC) et de MySQL (en utilisant le journal binaire MySQL).
La capture de données modifiées (CDC, Change Data Capture) fournit une représentation des données qui ont été modifiées dans un flux, ce qui permet aux calculs et au traitement de se concentrer spécifiquement sur les enregistrements les plus récemment modifiés. Cela permet de réduire les frais liés aux données sortantes sur les systèmes de production sensibles.
L'évolutivité d'entreprise pour prendre en charge des bases de données transactionnelles à volume élevé et les chargements de données initiaux vers BigQuery sont compatibles avec la réplication des instantanés sans interruption, afin que l'entrepôt de données soit prêt à consommer des modifications en continu. Une fois l'instantané initial terminé, la réplication continue et à haut débit des modifications démarre en temps réel.
Les tableaux de bord vous aident à obtenir des insights en temps réel sur les performances de réplication. Elle est utile pour identifier les goulots d'étranglement et surveiller les contrats de niveau de service concernant la diffusion des données.
Inclut la prise en charge des résidences de données, des clés de chiffrement gérées par le client (CMEK) et de VPC Service Controls. L'intégration de Cloud Data Fusion dans Google Cloud garantit le respect des plus hauts niveaux de sécurité et de confidentialité des entreprises, tout en rendant les données les plus récentes disponibles dans votre entrepôt de données à des fins d'analyse.
Tarifs recommandés
Lorsque la réplication est exécutée, le cluster Dataproc vous est facturé, ainsi que des coûts de traitement pour BigQuery. Pour optimiser ces coûts, nous vous recommandons vivement d'utiliser les tarifs forfaitaires de BigQuery.
Pour en savoir plus, consultez la page Tarifs de Cloud Data Fusion.
Entités de réplication
Entité | Description |
---|---|
Réplication | La réplication est une fonctionnalité de Cloud Data Fusion qui permet de répliquer des données en continu et à faible latence depuis des datastores opérationnels vers des entrepôts de données analytiques. Créez un job de réplication en configurant une source et une cible avec des transformations facultatives. |
Source | Lit les événements de modification de base de données, de table ou de colonne et les rend disponibles pour un traitement ultérieur dans une tâche de réplication. Un job de réplication contient une source, qui repose sur une solution de capture des modifications pour fournir les modifications. Il peut y avoir plusieurs sources pour une base de données, chacune avec une solution de capture de changement différente. Une source est un module connectable créé à l'aide de l'architecture de plug-in de CDAP. Si aucune source n'est disponible pour répondre à vos besoins, vous pouvez créer la vôtre en mettant en œuvre l'interface source, puis l'importer dans CDAP ou Cloud Data Fusion. |
Cible | Écriture des modifications reçues d'une source dans une base de données cible. Un job de réplication contient une cible. Une cible est un module connectable créé à l'aide de l'architecture de plug-in de CDAP. Si aucune cible n'est disponible pour répondre à vos besoins, vous pouvez créer la vôtre en mettant en œuvre l'interface cible, puis l'importer dans CDAP ou Cloud Data Fusion. |
Propriétés de la source | Configure la source, y compris les détails de connexion, les noms de base de données et de table sources, les identifiants et d'autres propriétés. |
Propriétés de la cible | Configure la cible, y compris les détails de connexion, les noms de base de données et de table cibles, les identifiants et d'autres propriétés. |
Propriétés de la tâche de réplication | Configure le job de réplication, y compris les seuils d'échec, les zones intermédiaire, les notifications et les paramètres de validation. |
Brouillon | Un job de réplication enregistré partiellement terminé. Une fois la définition de la tâche de réplication terminée, vous pouvez la démarrer. |
Événements | Événements de modification de la source à répliquer sur la cible. Ces événements incluent les insertions, les mises à jour, les suppressions et les modifications LDD (langage de définition de données). |
Insertion | Ajout de nouveaux enregistrements dans la source. |
Mettre à jour | Mise à jour vers les enregistrements existants dans la source. |
Supprimer | Suppression des enregistrements existants dans la source. |
Modification LDD | Un événement contenant une modification de schéma, telle qu'une modification du type de données ou du nom. |
Journaux | Journaux opérationnels d'une tâche de réplication. |
Détails de la tâche de réplication | Une page d'informations contenant des informations sur la tâche de réplication, telles que son état actuel, ses métriques opérationnelles, sa vue historique au fil du temps, les résultats de validation et sa configuration. |
Tableau de bord | Page répertoriant l'état de toutes les activités de capture de données modifiées, y compris le débit, la latence, les taux d'échec et les résultats de validation. |
Actions
Actions | Description |
---|---|
Déployer | Créez une tâche de réplication en suivant un flux d'interface Web pour spécifier une source, une cible et sa configuration. |
Enregistrer | Enregistrement d'une tâche de réplication partiellement créée pour reprendre la création ultérieurement. |
Supprimer | Supprimer un job de réplication existant Seuls les pipelines arrêtés peuvent être supprimés. |
Démarrer | Démarrage d'un job de réplication... Si des modifications doivent être traitées, le job de réplication passe à l'état "actif". Sinon, il passe à l'état "en attente". |
Arrêter | Arrêter un job de réplication Le job de réplication arrête le traitement des modifications à partir de la source. |
Afficher les journaux | Afficher les journaux d'une tâche de réplication à des fins de débogage ou d'analyse |
Search | Rechercher une tâche de réplication à partir de son nom, de sa description ou d'autres métadonnées de tâche de réplication |
Évaluation | Évaluation de l'impact de la réplication avant de la démarrer. L'évaluation d'une tâche de réplication génère un rapport d'évaluation qui signale les incompatibilités de schéma et les fonctionnalités manquantes. |
Surveillance
États des instances dupliquées | Description |
---|---|
Déployé | Le job de réplication est déployé, mais pas démarré. Dans cet état, un job de réplication ne réplique pas les événements. |
Démarrage… | Le job de réplication est en cours d'initialisation et n'est pas prêt à répliquer les modifications. |
Exécution... | Le job de réplication est démarré et réplique les modifications. |
Arrêt… | Le job de réplication s'arrête. |
Arrêté | Le job de réplication est arrêté. |
Échec | Le job de réplication a échoué en raison d'erreurs fatales. |
États des tables
Concept | Description |
---|---|
Création d'instantanés | Le job de réplication prend un instantané de l'état actuel de la table avant de répliquer les modifications. |
En cours de réplication | Le job de réplication réplique les modifications de la table source dans la table de destination. |
Échec | Le job de réplication ne parvient pas à répliquer les modifications de la table source en raison d'une erreur. |
Métriques
Concept | Description |
---|---|
Code inséré | Nombre d'insertions appliquées à la cible au cours de la période sélectionnée. |
Mises à jour | Nombre de mises à jour appliquées à la cible au cours de la période sélectionnée. |
Suppressions | Nombre de suppressions appliquées à la cible au cours de la période sélectionnée. |
LDD | Nombre de modifications LDD appliquées à la cible au cours de la période sélectionnée. |
Débit | Nombre d'événements et nombre d'octets répliqués sur la cible au cours de la période sélectionnée. |
Latence | Latence à laquelle les données sont répliquées sur la cible dans la période sélectionnée. |
Composants
Composant | Description |
---|---|
Service | Supervise l'orchestration de bout en bout des tâches de réplication et fournit des fonctionnalités de conception, de déploiement, de gestion et de surveillance des tâches de réplication. Il s'exécute dans le projet locataire Cloud Data Fusion (le projet locataire est masqué pour l'utilisateur). Son état est affiché sur la page **Administrateur système** de l'interface Web Cloud Data Fusion. |
Gestion de l'état | Le service gère l'état de chaque tâche de réplication dans un bucket Cloud Storage du projet client. Le bucket peut être configuré lors de la création du job de réplication. Il stocke les décalages actuels et l'état de réplication de chaque tâche de réplication. |
Exécution | Les clusters Dataproc fournissent l'environnement d'exécution des tâches de réplication qui s'exécutent dans votre projet. les tâches de réplication s'exécutent à l'aide de nœuds de calcul CDAP. La taille et les caractéristiques de l'environnement d'exécution sont configurées avec des profils Compute Engine. |
Base de données source | Base de données opérationnelle de production qui est répliquée dans votre base de données cible. Cette base de données peut être située sur site ou sur Google Cloud. La réplication Cloud Data Fusion est compatible avec les bases de données source MySQL, Microsoft SQL Server et Oracle. |
Solution de suivi des modifications | Au lieu d'exécuter un agent sur la base de données source, Cloud Data Fusion s'appuie sur une solution de suivi des modifications pour lire les modifications dans la base de données source. La solution peut être un composant de la base de données source ou une solution tierce sous licence distincte. Dans ce dernier cas, la solution de suivi des modifications s'exécute sur site, avec la base de données source ou sur Google Cloud. Chaque source doit être associée à une solution de suivi des modifications.
|
Base de données cible | Emplacement de destination pour la réplication et l'analyse. Cloud Data Fusion est compatible avec la base de données cible BigQuery. |
Authentification | Les mécanismes d'authentification varient en fonction de la base de données source ou du logiciel de suivi des modifications. Lorsque vous utilisez les fonctionnalités intégrées des bases de données sources, telles que SQL Server et MySQL, les connexions à la base de données sont utilisées pour l'authentification. Lorsque vous utilisez un logiciel de suivi des modifications, le mécanisme d'authentification du logiciel est utilisé. |
Connectivité
Le tableau suivant décrit les connexions réseau requises pour la réplication et les mécanismes de sécurité qu'elles utilisent.
De | To | Facultatif | Protocole | Réseau | Sécurité de l'authentification | Objectif |
---|---|---|---|---|---|---|
Service (projet locataire) | Base de données source | Oui | Dépend de la source de réplication. JDBC pour la connexion directe à la base de données. | Appairage + règles de pare-feu + VPN/Interconnexion + Routeur | Connexion à la base de données | Requis à la conception, mais pas à l'exécution. Fonctions : Liste des tables, évaluation (étapes facultatives ; la réplication peut se poursuivre sans elles) |
Service (projet locataire) | Cloud Storage | Non | API Cloud | VPC SC | IAM | Gestion des états : décalages, états de réplication |
Dataproc (votre projet) | Base de données source | Non | Dépend de la source. JDBC pour la connexion directe à la base de données. | Appairage + règles de pare-feu + VPN/Interconnexion + Routeur | Connexion à la base de données | Requis au moment de l'exécution, pour lire les modifications apportées par la base de données source afin de les répliquer sur la cible |
Dataproc (votre projet) | Cloud Storage | Non | API Cloud | VPC SC | IAM | Gestion des états : décalages, états de réplication |
Dataproc (votre projet) | BigQuery | Non | API Cloud | VPC SC | IAM | Requis au moment de l'exécution pour appliquer les modifications de la base de données source à la cible |
Étapes suivantes
- Suivez le tutoriel Répliquer les données de SQL Server vers BigQuery.
- Suivez le tutoriel Répliquer les données de MySQL vers BigQuery.
- Suivez le tutoriel Répliquer les données d'Oracle vers BigQuery.
- Consultez la documentation de référence de l'API Replication.
- Consultez la section Mappages des types de données pour la réplication.