Migrer une table CDC vers une autre région

Cette page décrit les bonnes pratiques à suivre dans le cas où vous avez configuré la réplication Datastream vers BigQuery, mais que vous avez configuré l'ensemble de données de destination dans une région incorrecte. Vous souhaitez ensuite déplacer l'ensemble de données vers une autre région (ou multirégion) sans avoir à resynchroniser toutes les données de la base de données source vers BigQuery.

Avant de commencer

Avant de commencer à migrer vos données vers une autre région, tenez compte des points suivants:

  • La migration prend du temps, et vous devez suspendre temporairement le flux pendant l'opération. Pour préserver l'intégrité des données, la base de données source doit conserver les journaux de modifications lorsque le flux est mis en pause. Pour estimer la durée de la mise en pause du flux, combinez la valeur de max_staleness dans l'ensemble de données et l'opération de fusion la plus longue :
    • Pour en savoir plus sur la durée des opérations de fusion, consultez la section Valeur max_staleness recommandée pour une table.
    • Pour trouver la valeur max_staleness maximale dans l'ensemble de données, consultez la section Déterminer la valeur max_staleness actuelle d'une table et ajustez la requête en fonction de vos besoins spécifiques.
    • Si la pause estimée est trop longue pour votre base de données source, vous pouvez envisager de réduire temporairement la valeur de max_staleness pour les tables de l'ensemble de données.
  • Vérifiez que l'utilisateur effectuant la migration dispose de suffisamment de ressources BigQuery dans la région de destination (réservation de requêtes et réservation en arrière-plan). Pour en savoir plus sur les réservations, consultez la section Attributions de réservation.
  • Vérifiez que l'utilisateur effectuant la migration dispose d'autorisations suffisantes pour effectuer cette opération, telles que les contrôles Identity and Access Management (IAM) ou VPC Service Controls.

Procédure de migration

Pour lancer la migration d'un ensemble de données, utilisez la réplication de données BigQuery:

  1. Dans la console Google Cloud, accédez à la page BigQuery Studio.

    Accéder à BigQuery Studio

  2. Créez un réplica d'un ensemble de données BigQuery dans la nouvelle région:

    ALTER SCHEMA DATASET_NAME
    ADD REPLICA 'NEW_REGION'
    OPTIONS(location='NEW_REGION');
    

    Remplacez les éléments suivants :

    • DATASET_NAME: nom de l'ensemble de données que vous souhaitez créer.
    • NEW_REGION: nom de la région dans laquelle vous souhaitez créer votre ensemble de données. Exemple :region-us
  3. Suivez la progression de la migration, puis attendez que le filigrane de copie du réplica se rapproche de celui du principal en quelques minutes. Vous pouvez exécuter cette requête sur INFORMATION_SCHEMA de BigQuery pour vérifier la progression de la migration:

    SELECT
    catalog_name as project_id,
    schema_name as dataset_name,
    replication_time as dataset_replica_staleness
    FROM
    'NEW_REGION'.INFORMATION_SCHEMA.SCHEMATA_REPLICAS
    WHERE
    catalog_name = PROJECT_ID
    AND schema_name = DATASET_NAME
    AND location = NEW_REGION;
    

    Remplacez les éléments suivants :

    • PROJECT_ID: ID de votre Google Cloud projet.
    • DATASET_NAME : nom de votre ensemble de données.
    • DATASET_REPLICA_STALENESS: configuration de l'obsolescence des tables dans le réplica de l'ensemble de données que vous avez créé.
    • NEW_REGION: région dans laquelle vous avez créé votre ensemble de données.
  4. Mettez le flux Datastream existant en pause. Pour en savoir plus, consultez la section Mettre en pause le flux.

  5. Attendez que le flux soit vidé et notez l'heure à laquelle il est passé à l'état PAUSED.

  6. Vérifiez que les dernières modifications CDC ont été appliquées à la table BigQuery en vérifiant l'état upsert_stream_apply_watermark de la table. Exécutez la requête suivante et assurez-vous que le code temporel du filigrane est 10 minutes plus tard que lorsque la diffusion a été mise en pause:

    SELECT table_name, upsert_stream_apply_watermark
    FROM DATASET_NAME.INFORMATION_SCHEMA.TABLES
    

    Pour exécuter la requête uniquement pour une table spécifique, ajoutez la clause WHERE suivante:

    WHERE table_name = 'TABLE_NAME'
    

    Remplacez les éléments suivants :

    • DATASET_NAME : nom de votre ensemble de données.
    • TABLE_NAME : Facultatif. Table pour laquelle vous souhaitez vérifier l'upsert_stream_apply_watermark.
  7. Utilisez la requête de l'étape 3 pour vérifier que le filigrane de la nouvelle copie de région est plus récent que le upsert_stream_apply_watermark capturé à l'étape 6.

  8. Vous pouvez éventuellement comparer manuellement plusieurs tables de l'ensemble de données principal dans la région d'origine avec le réplica dans la nouvelle région pour vérifier que toutes les données sont correctement copiées.

  9. Promouvoir le réplica de l'ensemble de données BigQuery en exécutant la commande suivante dans BigQuery Studio:

    ALTER SCHEMA DATASET_NAME
    SET OPTIONS(primary_replica = 'NEW_REGION');
    

    Remplacez les éléments suivants :

    • DATASET_NAME : nom de votre ensemble de données.
    • NEW_REGION: région dans laquelle vous avez créé votre ensemble de données.
  10. Si vous n'avez plus besoin de l'ensemble de données d'origine (maintenant le réplica) et que vous ne souhaitez pas que des frais supplémentaires vous soient facturés, accédez à BigQuery Studio et supprimez l'ensemble de données BigQuery d'origine:

    ALTER SCHEMA DATASET_NAME DROP REPLICA IF EXISTS ORIGINAL_REGION;
    

    Remplacez les éléments suivants :

    • DATASET_NAME: nom de l'ensemble de données d'origine.
    • ORIGINAL_REGION: région de l'ensemble de données d'origine.
  11. Créez un flux avec exactement la même configuration, mais avec un nouvel emplacement de destination BigQuery.

  12. Lancez la nouvelle diffusion.

    Pour éviter de dupliquer des événements, démarrez le flux à partir d'une position spécifique:

    • Pour les sources MySQL et Oracle: vous pouvez identifier la position du journal en examinant les journaux du flux d'origine et en recherchant la dernière position à partir de laquelle le flux a été lu avec succès. Pour savoir comment démarrer le flux à partir d'une position spécifique, consultez Gérer les flux.
    • Pour les sources PostgreSQL: le nouveau flux commence à lire les modifications à partir du premier numéro de séquence de journal (LSN) de l'emplacement de réplication. Étant donné que le flux d'origine a peut-être déjà traité certaines de ces modifications, définissez manuellement le pointeur de l'emplacement de réplication sur le dernier LSN à partir duquel Datastream a lu. Vous trouverez ce LSN dans les journaux des consommateurs Datastream.
  13. Vous pouvez également supprimer le flux d'origine.