Migrer des données Amazon Redshift avec un réseau VPC

Aperçu

Ce document explique comment migrer des données d'Amazon Redshift vers BigQuery à l'aide d'un réseau de cloud privé virtuel (VPC, Virtual Private Cloud).

Si vous souhaitez transférer des données de votre instance Redshift via des adresses IP publiques, vous pouvez migrer vos données Redshift vers BigQuery en suivant ces instructions.

Si vous disposez d'une instance Amazon Redshift privée dans AWS, vous pouvez migrer ces données vers BigQuery en utilisant l'appairage de VPC. Pour activer cette fonctionnalité, vous allez spécifier le réseau VPC et la plage d'adresses IP réservées lors de la configuration de la migration.

  • Vous devrez configurer un réseau privé virtuel (VPN) entre le réseau VPC Amazon Redshift et le réseau VPC Google Cloud.
  • Via le VPN, l'agent de migration exécuté dans le réseau VPC Google Cloud déclenche une opération de déchargement depuis Amazon Redshift vers une zone de préproduction d'un bucket Amazon S3.
  • Ensuite, le service de transfert de données BigQuery transférera vos données du compartiment Amazon S3 vers BigQuery.

Le schéma suivant illustre les communications entre les réseaux VPC et le flux global de données entre une instance Amazon Redshift privée et BigQuery lors d'une migration.

Avant de commencer

Cette section décrit la procédure détaillée de configuration d'une migration de données d'une instance Amazon Redshift privée vers BigQuery. Voici la procédure à suivre :

  • Exigences de Google Cloud : remplissez les conditions préalables et définissez les autorisations sur Google Cloud.
  • Configurez un VPN entre Google Cloud et Amazon Redshift.
  • Accordez l'accès à votre cluster Amazon Redshift.
  • Accordez l'accès au bucket Amazon S3 que vous utiliserez pour héberger temporairement les données. Prenez note de la paire de clés d'accès, car vous en aurez besoin ultérieurement.
  • Configurez la migration avec le service de transfert de données BigQuery. Vous avez alors besoin de :
    • Le réseau VPC et la plage d'adresses IP réservée dans Amazon Redshift.
    • L'URL JDBC Amazon Redshift. Suivez ces instructions pour obtenir l'URL JDBC.
    • Le nom d'utilisateur et le mot de passe de votre base de données Amazon Redshift.
    • La paire de clés d'accès AWS obtenue à l'étape Accorder l'accès à votre bucket S3.
    • L'URI du bucket Amazon S3. Nous vous recommandons de définir une règle de cycle de vie pour ce bucket afin d'éviter des frais inutiles. La durée d'expiration recommandée est 24 heures pour laisser suffisamment de temps à toutes les données pour être transférées vers BigQuery.

Autorisations requises

Avant de créer un transfert Amazon Redshift :

  1. Assurez-vous que la personne qui crée le transfert dispose des autorisations requises suivantes dans BigQuery :

    • Autorisations bigquery.transfers.update pour créer le transfert
    • Autorisations bigquery.datasets.update sur l'ensemble de données cible

    Le rôle Cloud IAM prédéfini bigquery.admin inclut les autorisations bigquery.transfers.update et bigquery.datasets.update. Pour en savoir plus sur les rôles Cloud IAM dans le cadre du service de transfert de données BigQuery, consultez la documentation de référence sur le Contrôle des accès.

  2. Consultez la documentation d'Amazon S3 pour vous assurer que vous avez configuré toutes les autorisations nécessaires pour activer le transfert. Au minimum, la stratégie AWS gérée AmazonS3ReadOnlyAccess doit être appliquée aux données sources Amazon S3.

  3. Pour créer l'appairage de VPC, le service utilisera les identifiants utilisateur Google Cloud de la personne qui configure le transfert. Assurez-vous que la personne qui crée le transfert dispose des autorisations nécessaires pour créer la connexion d'appairage de VPC en accordant les autorisations IAM appropriées pour créer et supprimer l'appairage de réseaux VPC.

  • Autorisations permettant de créer un appairage de VPC : compute.networks.addPeering

    • Autorisations permettant de supprimer un appairage de VPC : compute.networks.removePeering

    Les rôles Cloud IAM prédéfinis project.owner, project.editor et network.admin incluent les autorisations compute.networks.addPeering et compute.networks.removePeering par défaut.

Exigences de Google Cloud

Suivez les instructions de migration d'Amazon Redshift standards pour répondre aux exigences de Google Cloud.

Configurer le VPN

  1. Configurez un réseau VPC Google Cloud dans votre projet Google Cloud.

  2. Configurez le VPN. Suivez les instructions de ce guide pour configurer un VPN entre le réseau VPC de votre projet Google Cloud et le VPC Amazon Redshift. Attention : Le service utilise le nom de votre réseau VPC comme nom de connexion d'appairage VPC. Assurez-vous donc qu'aucune connexion d'appairage VPC existante n'utilise déjà ce nom.

  3. Accordez des autorisations pour effectuer l'appairage VPC sur Google Cloud. Assurez-vous que vous disposez des autorisations nécessaires pour créer la connexion d'appairage VPC. Voir Autorisations requises.

  4. Avant de continuer, assurez-vous que votre réseau VPC Google Cloud existe dans votre projet Google Cloud et qu'il est déjà connecté à Redshift via un VPN.

Accorder l'accès à votre cluster Amazon Redshift

Suivez les instructions d'Amazon pour ajouter les plages d'adresses IP de votre cluster Amazon Redshift privé à la liste d'autorisation. Lors d'une étape ultérieure, vous définirez la plage d'adresses IP privées de ce réseau VPC, lors de la configuration du transfert.

Accorder l'accès à votre bucket Amazon S3

Suivez les instructions de migration d'Amazon Redshift standards pour accorder l'accès à votre bucket Amazon S3.

Facultatif : contrôler la charge de travail avec une file d'attente de migration distincte

Vous pouvez définir une file d'attente Amazon Redshift à des fins de migration pour limiter et séparer les ressources utilisées pour la migration. Cette file d'attente de migration peut être configurée avec un nombre maximum de requêtes simultanées. Vous pouvez ensuite associer un groupe d'utilisateurs de migration donné à la file d'attente, et utiliser ces identifiants lorsque vous configurez la migration pour transférer des données vers BigQuery. Le service de transfert aura uniquement accès à la file d'attente de migration.

Configurer un transfert Amazon Redshift

Suivez les instructions de migration d'Amazon Redshift standards pour configurer un transfert Amazon Redshift, avec la différence suivante pour les instances Amazon Redshift privées :

  • Dans le champ de la configuration de transfert pour l'URL de connexion JDBC, vous devez renseigner le champ de réseau VPC et de plage d'adresses IP réservée de l'instance Amazon Redshift privée.
  • Si vous ne fournissez pas ces informations, la configuration de transfert reviendra à une migration Amazon Redshift standard.

Pour indiquer le réseau VPC et la plage d'adresses IP réservée :

  1. Dans le champ de réseau VPC et de plage d'adresses IP réservée, spécifiez le nom du réseau VPC et la plage d'adresses IP privées attendue en tant que bloc CIDR pour le provisionnement de l'infrastructure de migration.

    Champ CIDR de migration Amazon Redshift

    • Le format est VPC_network_name:CIDR, par exemple : my_vpc:10.251.1.0/24.
    • Utilisez des plages d'adresses réseau VPC privées standards au format CIDR, en commençant par 10.x.x.x.
    • La plage d'adresses IP privées est destinée au provisionnement de l'infrastructure de migration. Assurez-vous que la plage d'adresses IP :
      • est suffisamment large (qu'elle compte plus de 10 adresses IP) ;
      • ne chevauche aucun sous-réseau de votre réseau VPC Google Cloud ou du réseau VPC Amazon Redshift.
    • Si plusieurs transferts sont configurés pour la même instance Amazon Redshift, veillez à utiliser la même valeur VPC_network_name:CIDR dans chaque instance, de sorte que plusieurs transferts puissent réutiliser la même infrastructure de migration.

Quotas et limites

La migration d'instances Amazon Redshift privées avec un réseau VPC exécute des agents de migration sur une infrastructure à locataire unique. En raison de limites de ressources de calcul, cinq exécutions de transfert simultanées sont autorisées au maximum.

Les mêmes quotas et limites que pour les migrations standards depuis Amazon Redshift s'appliquent.

Étape suivante