Ajouter des tables à un job de réplication

Une fois que vous avez déployé une tâche de réplication, vous ne pouvez plus la modifier ni y ajouter de tables. Ajoutez plutôt les tables à un job de réplication nouveau ou en double.

Option 1: Créer un job de réplication

L'ajout de tables à une nouvelle tâche est l'approche la plus simple. Cela empêche le rechargement de l'historique de toutes les tables et les problèmes d'incohérence des données.

Les inconvénients sont les coûts supplémentaires liés à la gestion de plusieurs tâches de réplication et la consommation de ressources de calcul supplémentaires, car chaque tâche s'exécute par défaut sur un cluster Dataproc éphémère distinct. Cette dernière peut être atténuée dans une certaine mesure en utilisant un cluster Dataproc statique partagé pour les deux tâches.

Pour en savoir plus sur la création de tâches, consultez les tutoriels sur la réplication.

Pour en savoir plus sur l'utilisation d'un cluster Dataproc statique dans Cloud Data Fusion, consultez la page Exécuter un pipeline sur un cluster Dataproc existant.

Option 2: Arrêter le job de réplication en cours et créer un doublon

Si vous dupliquez la tâche de réplication pour ajouter les tables, tenez compte des points suivants:

  • L'activation de l'instantané pour la tâche en double entraîne le chargement historique de toutes les tables à partir de zéro. Cette opération est recommandée si vous ne pouvez pas utiliser l'option précédente, qui consistait à exécuter des tâches distinctes.

  • La désactivation de l'instantané pour éviter le chargement historique peut entraîner une perte de données, car des événements peuvent manquer entre l'arrêt de l'ancien pipeline et le démarrage du nouveau. La création d'un chevauchement pour atténuer ce problème n'est pas recommandée, car elle peut également entraîner une perte de données : les données historiques des nouvelles tables ne sont pas répliquées.

Pour créer un job de réplication en double, procédez comme suit:

  1. Arrêtez le pipeline existant.

  2. Sur la page "Tâches de réplication", localisez la tâche que vous souhaitez dupliquer, cliquez sur , puis sur Dupliquer.

  3. Activez l'instantané:

    1. Accédez à Configurer la source.
    2. Dans le champ Répliquer les données existantes, sélectionnez Oui.
  4. Ajoutez des tables dans la fenêtre Sélectionner des tables et des transformations et suivez l'assistant pour déployer le pipeline de réplication.

Étapes suivantes