Répliquer des données dans BigQuery en temps quasi réel avec Datastream

Découvrez comment répliquer les données d'une base de données source vers des ensembles de données BigQuery à l'aide de Datastream.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  5. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  6. Activez Datastream API.

    Activer l'API

  7. Assurez-vous que le rôle "Administrateur Datastream" est attribué à votre compte utilisateur.

    Accéder à la page IAM

Si vous souhaitez créer une configuration de connectivité privée pour un réseau VPC standard ou partagé, vous devez remplir des conditions préalables supplémentaires. Pour en savoir plus, consultez la section Créer une configuration de connectivité privée.

Conditions requises

Datastream propose diverses options de source, des options de destination et des méthodes de connectivité réseau.

Dans ce guide de démarrage rapide, nous partons du principe que vous répliquez les données d'une base de données Cloud SQL pour PostgreSQL vers BigQuery. Pour la base de données source, vous devez pouvoir configurer votre instance de base de données pour qu'elle accepte les connexions provenant d'adresses IP publiques Datastream.

Ne connaissant pas les spécificités de votre environnement, nous ne pouvons pas fournir de procédure détaillée pour la configuration de votre réseau.

Pour ce guide de démarrage rapide, vous allez sélectionner la méthode de connectivité réseau Liste d'autorisation d'adresses IP. La liste d'autorisation d'adresses IP est une fonctionnalité de sécurité souvent utilisée pour limiter et contrôler l'accès des utilisateurs de confiance aux données de votre base de données source. Les listes d'autorisation d'adresses IP vous permettent de créer des listes d'adresses IP ou de plages d'adresses IP approuvées à partir desquelles vos utilisateurs et d'autres services Cloud tels que Datastream peuvent accéder à ces données. Pour utiliser les listes d'autorisation d'adresses IP, vous devez ouvrir la base de données Cloud SQL source aux connexions entrantes de Datastream.

Créer des profils de connexion

En créant des profils de connexion, vous stockez des informations de base sur la source et la destination dans Datastream. Vous pouvez ensuite réutiliser ces informations dans plusieurs flux.

Dans ce guide de démarrage rapide, vous allez sélectionner PostgreSQL comme type de profil pour votre profil de connexion source et BigQuery comme type de profil pour votre profil de connexion de destination. Datastream utilise les informations des profils de connexion pour se connecter à la base de données source et à BigQuery.

Créer un profil de connexion source pour la base de données PostgreSQL

  1. Accédez à la page Profils de connexion pour Datastream dans la Google Cloud Console.

    Accéder à la page Profils de connexion

  2. Cliquez sur CRÉER UN PROFIL.

  3. Sur la page Créer un profil de connexion, cliquez sur le type de profil PostgreSQL, car vous souhaitez créer un profil de connexion source pour la base de données PostgreSQL.

  4. Fournissez les informations suivantes dans la section Définir les paramètres de connexion de la page Créer un profil PostgreSQL:

    • Saisissez My Source Connection Profile comme Nom du profil de connexion pour votre base de données source.
    • Conservez l'ID du profil de connexion généré automatiquement.
    • Sélectionnez la région dans laquelle le profil de connexion sera stocké.

    • Saisissez les informations sur la connexion :

      • Dans le champ Nom d'hôte ou adresse IP, saisissez un nom d'hôte ou une adresse IP publique que Datastream peut utiliser pour se connecter à la base de données PostgreSQL source. Vous fournissez une adresse IP publique, car la liste d'autorisation d'adresses IP sera utilisée comme méthode de connectivité réseau pour ce guide de démarrage rapide.
      • Dans le champ Port, saisissez le numéro de port réservé à la base de données source. Pour une base de données PostgreSQL, le port par défaut est généralement 5432.
      • Saisissez un nom d'utilisateur et un mot de passe pour vous authentifier auprès de votre base de données source.
      • Dans le champ Base de données, saisissez le nom qui identifie l'instance de base de données. Pour les bases de données PostgreSQL, il s'agit généralement de postgres.
  5. Dans la section Définir les paramètres de connexion, cliquez sur CONTINUER. La section Définir une méthode de connectivité de la page Créer un profil PostgreSQL est active.

  6. Choisissez la méthode de mise en réseau que vous souhaitez utiliser pour établir la connectivité entre la base de données source et Datastream. Pour ce guide de démarrage rapide, sélectionnez la méthode de mise en réseau Liste d'autorisation d'adresses IP dans le menu déroulant Méthode de connectivité.

  7. Configurez votre base de données source pour autoriser les connexions entrantes en provenance des adresses IP publiques Datastream qui s'affichent.

  8. Dans la section Définir la méthode de connectivité, cliquez sur CONTINUER. La section Tester le profil de connexion de la page Créer un profil PostgreSQL est active.

  9. Cliquez sur EXÉCUTER LE TEST pour vérifier que la base de données PostgreSQL source et Datastream peuvent communiquer entre eux.

  10. Vérifiez que l'état "Test réussi" s'affiche.

  11. Si le test échoue, vous pouvez résoudre le problème dans la partie appropriée du flux, puis effectuer un nouveau test. Consultez la page Diagnostiquer les problèmes pour connaître la procédure de dépannage.

  12. Cliquez sur CRÉER.

Créer un profil de connexion de destination pour BigQuery

  1. Accédez à la page Profils de connexion pour Datastream dans la Google Cloud Console.

    Accéder à la page Profils de connexion

  2. Cliquez sur CRÉER UN PROFIL.

  3. Sur la page Créer un profil de connexion, cliquez sur le type de profil BigQuery, car vous souhaitez créer un profil de connexion de destination pour BigQuery.

  4. Fournissez les informations suivantes sur la page Créer un profil BigQuery:

    • Saisissez My Destination Connection Profile comme Nom du profil de connexion pour votre service BigQuery de destination.
    • Conservez l'ID du profil de connexion généré automatiquement.
    • Sélectionnez la région dans laquelle le profil de connexion sera stocké.
  5. Cliquez sur CRÉER.

Après avoir créé un profil de connexion source pour la base de données PostgreSQL et un profil de connexion de destination pour BigQuery, vous pouvez les utiliser pour créer un flux.

Créer un flux

Dans cette section, vous allez créer un flux pour répliquer les données d'une base de données PostgreSQL source vers BigQuery.

La création d'un flux comprend les éléments suivants :

  • Définir les paramètres du flux.
  • Sélectionnez le profil de connexion que vous avez créé pour votre base de données source (profil de connexion source). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion source.
  • Configuration des informations sur la base de données source du flux en spécifiant les propriétés de réplication, ainsi que les tables et les schémas de la base de données source que Datastream :
    • Transfert possible vers la destination.
    • Transfert restreint vers la destination.
  • Déterminez si Datastream remplira les données de l'historique, diffusera les modifications en cours vers la destination ou ne diffusera que les modifications apportées aux données.
  • Sélectionnez le profil de connexion que vous avez créé pour BigQuery (le profil de connexion de destination). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion de destination.
  • Configuration des informations sur la destination du flux, telles que la configuration des ensembles de données BigQuery.
  • Validation du flux...

Définir les paramètres du flux

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cliquez sur CRÉER UN FLUX.

  3. Indiquez les informations suivantes dans le panneau Définir les détails du flux de la page Créer un flux :

    • Saisissez My Stream comme nom de flux.
    • Conservez l'ID de flux généré automatiquement.
    • Dans le menu Région, sélectionnez la région dans laquelle vous avez créé votre profil de connexion source.
    • Dans le menu Type de source, sélectionnez le type de profil PostgreSQL.
    • Dans le menu Type de destination, sélectionnez le type de profil BigQuery.
  4. Passez en revue les conditions préalables requises qui sont générées automatiquement afin de refléter la façon dont votre environnement doit être préparé pour un flux. Ces prérequis incluent comment configurer la base de données source et BigQuery.

  5. Cliquez sur CONTINUER. Le panneau Définir un profil de connexion PostgreSQL de la page Créer un flux s'affiche.

Spécifier des informations sur le profil de connexion source

  1. Dans le menu Profil de connexion source, sélectionnez votre profil de connexion source pour la base de données PostgreSQL.

  2. Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données source et Datastream peuvent communiquer entre eux.

    Si le test échoue, le problème associé au profil de connexion s'affiche. Consultez la page Diagnostiquer les problèmes pour connaître la procédure de dépannage. Apportez les modifications nécessaires pour corriger le problème, puis recommencez le test.

  3. Cliquez sur CONTINUE (Continuer). Le panneau Configurer la source du flux de la page Créer un flux s'affiche.

Configurer les informations sur la base de données source du flux

  1. Indiquez les noms d'emplacement de réplication et de publication pour votre base de données source. L'emplacement de réplication et la publication ont été créés lors de la configuration de votre base de données PostgreSQL.

  2. Utilisez le menu Objets à inclure pour spécifier les tables et les schémas de votre base de données source que Datastream répliquera dans BigQuery. Le menu ne se charge que si votre base de données contient au maximum 5 000 objets.

    Pour ce guide de démarrage rapide, vous souhaitez que Datastream transfère toutes les tables et tous les schémas. Par conséquent, sélectionnez Toutes les tables de tous les schémas dans le menu.

  3. Cliquez sur CONTINUER. Le panneau Définir le profil de connexion BigQuery de la page Créer un flux s'affiche.

Sélectionner un profil de connexion de destination

  1. Dans le menu Profil de connexion de destination, sélectionnez votre profil de connexion de destination pour BigQuery.

  2. Cliquez sur CONTINUER. Le panneau Configurer la destination du flux de la page Créer un flux s'affiche.

Configurer les informations sur la destination du flux

  1. Sélectionnez l'option Ensemble de données pour chaque schéma afin que Datastream crée automatiquement un ensemble de données dans BigQuery pour chaque schéma de la base de données source.

  2. Sélectionnez l'emplacement dans lequel les ensembles de données seront créés dans BigQuery. Cet emplacement ne doit pas nécessairement être identique à la région dans laquelle le flux Datastream est créé.

  3. Définissez le Préfixe sur quickstart-. Datastream ajoute cette chaîne au début de chaque ensemble de données créé dans BigQuery.

  4. Dans la liste déroulante Spécifier la limite d'obsolescence des données, laissez la valeur définie sur 15 minutes. BigQuery utilise cette valeur pour déterminer le niveau d'obsolescence de vos données lorsqu'elles sont interrogées.

  5. Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Créer le flux

  1. Vérifiez les détails du flux, ainsi que les profils de connexion source et de destination qu'il utilisera pour transférer les données d'une base de données PostgreSQL source vers BigQuery.

  2. Cliquez sur RUN VALIDATION (LANCER LA VALIDATION) pour valider le flux. En validant un flux, Datastream vérifie que la source est correctement configurée, vérifie que le flux peut se connecter à la source et à la destination, et vérifie la configuration de bout en bout du flux.

  3. Une fois tous les tests de validation effectués, cliquez sur CRÉER.

  4. Dans la boîte de dialogue Créer un flux ?, cliquez sur CRÉER.

Démarrer le flux

Dans la section précédente du guide de démarrage rapide, vous avez créé un flux sans l'avoir démarré. Vous pouvez le faire maintenant.

Dans ce guide de démarrage rapide, vous allez créer et démarrer un flux séparément, au cas où le processus de création de flux augmenterait la charge sur votre base de données source. Pour éliminer cette charge, créez le flux sans le démarrer, puis démarrez-le lorsque la charge peut être engagée.

En démarrant le flux, Datastream peut transférer des données, des schémas et des tables de la base de données source vers la destination.

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cochez la case située à gauche du flux que vous souhaitez démarrer. Pour ce guide de démarrage rapide, il s'agit de Mon flux.

  3. Cliquez sur DÉMARRER.

  4. Dans la boîte de dialogue, cliquez sur DÉMARRER. L'état du flux passe de Not started à Starting, puis à Running.

    Après avoir démarré un flux, vous pouvez vérifier que Datastream a transféré les données de la base de données source vers la destination.

Vérifier le flux

Dans cette section, vous confirmez que Datastream transfère les données de toutes les tables de votre base de données PostgreSQL source vers BigQuery.

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cliquez sur le flux que vous avez créé. Pour ce guide de démarrage rapide, il s'agit de Mon flux.

  3. Sur la page Détails du flux, cliquez sur le lien qui s'affiche sous le champ Chemin d'écriture de la destination. BigQuery Studio s'ouvre dans un onglet distinct.

  4. Vérifiez que vous voyez des ensembles de données et des tables représentant des schémas et des tables de votre base de données PostgreSQL source.

  5. Cliquez sur l'une des tables pour afficher un aperçu de vos données.

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :

  1. Utilisez la console Google Cloud pour supprimer votre projet, vos profils de connexion et de flux Datastream, ainsi que vos ensembles de données BigQuery.

Si vous nettoyez les ressources que vous avez créées dans Datastream, elles ne seront plus comptabilisées dans votre quota et ne vous seront plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.

Supprimer votre projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce guide de démarrage rapide.

  1. Dans Cloud Console, accédez à la page Gérer les ressources :

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.

  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer le flux

  1. Accédez à la page Flux de Datastream dans Google Cloud Console.

    Accéder à la page "Flux"

  2. Cliquez sur le flux que vous souhaitez supprimer. Pour ce guide de démarrage rapide, il s'agit de Mon flux.

  3. Cliquez sur METTRE EN VEILLE.

  4. Dans la boîte de dialogue, cliquez sur METTRE EN VEILLE.

  5. Dans le volet État du flux de la page Détails du flux, vérifiez que l'état du flux est Paused.

  6. Cliquez sur SUPPRIMER.

  7. Dans la boîte de dialogue, saisissez Delete dans le champ de texte, puis cliquez sur SUPPRIMER.

Supprimer les profils de connexion

  1. Accédez à la page Profils de connexion pour Datastream dans la Google Cloud Console.

    Accéder à la page Profils de connexion

  2. Cochez la case correspondant à chaque profil de connexion que vous souhaitez supprimer. Pour ce guide de démarrage rapide, cochez les cases My Source Connection Profile (Mon profil de connexion source) et My Destination Connection Profile (Mon profil de connexion de destination).

  3. Cliquez sur SUPPRIMER.

  4. Dans la boîte de dialogue, cliquez sur SUPPRIMER.

Supprimer vos ensembles de données BigQuery

  1. Accédez à la page BigQuery Studio dans la Google Cloud Console.

    Accéder à BigQuery Studio

  2. Développez le nœud de projet dans lequel vous avez créé ce guide de démarrage rapide.

  3. Pour chaque ensemble de données que vous souhaitez supprimer, cliquez sur le menu Afficher les actions, puis sur Supprimer.

  4. Dans la boîte de dialogue, saisissez delete dans le champ de texte, puis cliquez sur SUPPRIMER.

Étapes suivantes