Ajouter des tables à une tâche de réplication

Après avoir déployé un job de réplication, vous ne pouvez plus modifier ni ajouter de tables pour l'activer. Ajoutez plutôt les tables à une tâche de réplication nouvelle ou en double.

Option 1: Créer un job de réplication

L'ajout de tables à une nouvelle tâche est l'approche la plus simple. Elle empêche l'historique le rechargement de toutes les tables et empêche les problèmes d'incohérence des données.

Les inconvénients sont les frais généraux accrus liés à la gestion de plusieurs tâches de réplication et la consommation de plus de ressources de calcul, car chaque tâche s'exécute par défaut sur un cluster Dataproc éphémère distinct. Ce dernier peut être atténué dans une certaine mesure en utilisant un cluster Dataproc statique partagé pour les deux tâches.

Pour en savoir plus sur la création de tâches, consultez la Tutoriels sur la réplication.

Pour en savoir plus sur l'utilisation d'un cluster Dataproc statique dans Cloud Data Fusion, consultez la page Exécuter un pipeline sur un cluster Dataproc existant.

Option 2 : Arrêter la tâche de réplication en cours et créer un double

Si vous dupliquez la tâche de réplication pour ajouter les tables, tenez compte des points suivants :

  • L'activation de l'instantané pour la tâche en double entraîne le chargement de l'historique de toutes les tables à partir de zéro. Cette option est recommandée si vous ne pouvez pas utiliser l'option précédente, qui consiste à exécuter des tâches distinctes.

  • Désactiver l'instantané pour empêcher le chargement de l'historique peut entraîner une perte de données, car des événements peuvent être manqués entre l'arrêt de l'ancien pipeline et le démarrage du nouveau. Créer un chevauchement pour atténuer ce problème n'est pas recommandé, car cela peut également entraîner une perte de données, c'est-à-dire des données historiques pour les nouvelles ne sont pas répliquées.

Pour créer une tâche de réplication en double, procédez comme suit :

  1. Arrêtez le pipeline existant.

  2. Sur la page "Tâches de réplication", localisez le job que vous souhaitez dupliquer. cliquez sur , puis Dupliquer.

  3. Activez l'instantané:

    1. Accédez à Configurer la source.
    2. Dans le champ Répliquer les données existantes, sélectionnez Oui.
  4. Ajoutez des tables dans la fenêtre Sélectionner des tables et des transformations et suivez les instructions pour déployer le pipeline de réplication.

Étape suivante