Découvrez comment répliquer les données d'une base de données source vers BigQuery d'ensembles de données à l'aide de Datastream.
Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Datastream API.
- Assurez-vous que le rôle "Administrateur Datastream" est attribué à votre compte utilisateur.
Si vous souhaitez créer une configuration de connectivité privée pour un réseau VPC standard ou partagé, vous devez remplir des conditions préalables supplémentaires. Pour plus d'informations, consultez la section Créer une configuration de connectivité privée.
Conditions requises
Datastream propose différentes options de source, de destination et de connectivité réseau.
Dans ce guide de démarrage rapide, nous partons du principe que vous répliquez des données d'une base de données Cloud SQL pour PostgreSQL vers BigQuery. Pour la base de données source, vous devriez pouvoir configurer votre instance de base de données pour qu'elle accepte les connexions provenant des adresses IP publiques de Datastream.
Ne connaissant pas les spécificités de votre environnement, nous ne pouvons pas fournir de procédure détaillée pour la configuration de votre réseau.
Pour ce guide de démarrage rapide, vous allez sélectionner la liste d'autorisation d'adresses IP comme méthode de connectivité réseau. La liste d'autorisation d'adresses IP est une fonctionnalité de sécurité souvent utilisée pour limiter et contrôler l'accès aux données de votre base de données source aux utilisateurs de confiance. Vous pouvez utiliser les listes d'autorisation d'adresses IP pour créer des listes d'adresses IP ou de plages d'adresses IP de confiance à partir desquelles vos utilisateurs et d'autres services cloud tels que Datastream peuvent accéder à ces données. Pour utiliser les listes d'autorisation d'adresses IP, vous devez ouvrir la base de données Cloud SQL source aux connexions entrantes provenant de Datastream.
Créer des profils de connexion
En créant des profils de connexion, vous stockez des informations de base sur la source et la destination dans Datastream. Vous pouvez ensuite réutiliser ces informations dans plusieurs flux.
Dans ce guide de démarrage rapide, vous allez sélectionner PostgreSQL comme type de profil pour votre profil de connexion source, et BigQuery comme type de profil pour votre profil de connexion de destination. Datastream utilise les informations des profils de connexion pour se connecter à la base de données source et à BigQuery.
Créer un profil de connexion source pour une base de données PostgreSQL
Accédez à la page Profils de connexion de Datastream dans la console Google Cloud.
Cliquez sur CRÉER UN PROFIL.
Sur la page Create a connection profile (Créer un profil de connexion), cliquez sur le type de profil PostgreSQL (car vous souhaitez créer un profil de connexion source pour la base de données PostgreSQL).
Indiquez les informations suivantes dans la section Définir les paramètres de connexion de la page Créer un profil PostgreSQL :
- Saisissez
My Source Connection Profile
comme nom du profil de connexion pour votre base de données source. - Conservez l'ID du profil de connexion généré automatiquement.
Sélectionnez la région dans laquelle le profil de connexion sera stocké.
Saisissez les informations sur la connexion :
- Dans le champ Hostname or IP (Nom d'hôte ou IP), saisissez un nom d'hôte ou une adresse IP publique que Datastream peut utiliser pour se connecter à la base de données PostgreSQL source. Vous fournissez une adresse IP publique, car la liste d'autorisation d'adresses IP sera utilisée comme méthode de connectivité réseau dans ce guide de démarrage rapide.
- Dans le champ Port, saisissez le numéro de port réservé à la base de données source. Pour une base de données PostgreSQL, le port par défaut est généralement
5432
. - Saisissez un nom d'utilisateur et un mot de passe pour vous authentifier auprès de votre base de données source.
- Dans le champ Base de données, saisissez le nom qui identifie l'instance de base de données. Pour les bases de données PostgreSQL, il s'agit généralement de
postgres
.
- Saisissez
Dans la section Définir les paramètres de connexion, cliquez sur CONTINUER. La section Définir une méthode de connectivité de la page Créer un profil PostgreSQL est active.
Choisissez la méthode de mise en réseau que vous souhaitez utiliser pour établir la connectivité entre la base de données source et Datastream. Pour ce guide de démarrage rapide, utilisez le menu déroulant Méthode de connectivité pour sélectionner Liste d'autorisation d'adresses IP comme méthode de mise en réseau.
Configurez votre base de données source pour autoriser les connexions entrantes provenant des adresses IP publiques Datastream qui s'affichent.
Dans la section Définir la méthode de connectivité, cliquez sur CONTINUER. La section Tester le profil de connexion de la page Créer un profil PostgreSQL est active.
Cliquez sur Lancer le test pour vérifier que la base de données PostgreSQL source et Datastream peuvent communiquer entre eux.
Vérifiez que l'état "Test réussi" s'affiche.
Si le test échoue, vous pouvez résoudre le problème dans la partie appropriée du flux, puis revenir au test. Consultez la page Diagnostiquer les problèmes pour connaître les étapes de dépannage.
Cliquez sur CRÉER.
Créer un profil de connexion de destination pour BigQuery
Accédez à la page Profils de connexion pour Datastream dans la Google Cloud Console.
Cliquez sur CRÉER UN PROFIL.
Sur la page Créer un profil de connexion, cliquez sur le type de profil BigQuery (car vous souhaitez créer un profil de connexion de destination pour BigQuery).
Indiquez les informations suivantes sur la page Créer un profil BigQuery :
- Saisissez
My Destination Connection Profile
dans le champ Nom du profil de connexion pour votre service BigQuery de destination. - Conservez l'ID du profil de connexion généré automatiquement.
- Sélectionnez la région dans laquelle le profil de connexion sera stocké.
- Saisissez
Cliquez sur CRÉER.
Après avoir créé un profil de connexion source pour la base de données PostgreSQL et un profil de connexion de destination pour BigQuery, vous pouvez les utiliser pour créer un flux.
Créer un flux
Dans cette section, vous allez créer un flux pour répliquer les données d'une base de données PostgreSQL source vers BigQuery.
La création d'un flux comprend les éléments suivants :
- Définir les paramètres du flux.
- Sélectionnez le profil de connexion que vous avez créé pour votre base de données source (profil de connexion source). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion source.
- Configurer des informations sur la base de données source du flux en spécifiant les propriétés de réplication, ainsi que les tables et les schémas de la base de données source dans Datastream :
- Transfert possible vers la destination.
- Transfert restreint vers la destination.
- Déterminez si Datastream remplira les données de l'historique, diffusera les modifications en cours vers la destination ou ne diffusera que les modifications apportées aux données.
- Sélectionnez le profil de connexion que vous avez créé pour BigQuery (profil de connexion de destination). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion de destination.
- Configuration des informations sur la destination du flux, telles que la configuration des ensembles de données BigQuery.
- Validation du flux...
Définir les paramètres du flux
Accédez à la page Flux de Datastream dans Google Cloud Console.
Cliquez sur CRÉER UN FLUX.
Indiquez les informations suivantes dans le panneau Définir les détails du flux de la page Créer un flux :
- Saisissez
My Stream
dans le champ Nom du flux. - Conservez l'ID de flux généré automatiquement.
- Dans le menu Région, sélectionnez la région dans laquelle vous avez créé votre profil de connexion source.
- Dans le menu Type de source, sélectionnez le type de profil PostgreSQL.
- Dans le menu Type de destination, sélectionnez le type de profil BigQuery.
- Saisissez
Passez en revue les conditions préalables requises qui sont générées automatiquement pour indiquer comment votre environnement doit être préparé pour un flux. Ces prérequis incluent la configuration de la base de données source et de BigQuery.
Cliquez sur CONTINUER. Le panneau Définir un profil de connexion PostgreSQL de la page Créer un flux s'affiche.
Spécifier des informations sur le profil de connexion source
Dans le menu Profil de connexion source, sélectionnez votre profil de connexion source pour la base de données PostgreSQL.
Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données source et Datastream peuvent communiquer entre eux.
Si le test échoue, le problème associé au profil de connexion s'affiche. Pour savoir comment résoudre le problème, consultez la page Diagnostiquer les problèmes. Apportez les modifications nécessaires pour corriger le problème, puis recommencez le test.
Cliquez sur CONTINUE (Continuer). Le panneau Configurer la source du flux de la page Créer un flux s'affiche.
Configurer les informations sur la base de données source du flux
Indiquez le nom de l'emplacement de réplication et de la publication dans votre base de données source. L'emplacement de réplication et la publication ont été créés lors de la configuration de votre base de données PostgreSQL.
Utilisez le menu Objets à inclure pour spécifier les tables et les schémas de votre base de données source que Datastream répliquera dans BigQuery. Le menu ne se charge que si votre base de données comporte jusqu'à 5 000 objets.
Dans le cadre de ce guide de démarrage rapide, vous souhaitez que Datastream transfère toutes les tables et tous les schémas. Sélectionnez donc Toutes les tables de tous les schémas dans le menu.
Cliquez sur CONTINUER. Le panneau Définir un profil de connexion BigQuery de la page Créer un flux s'affiche.
Sélectionner un profil de connexion de destination
Dans le menu Profil de connexion de destination, sélectionnez votre profil de connexion de destination pour BigQuery.
Cliquez sur CONTINUER. Le panneau Configurer la destination du flux de la page Créer un flux s'affiche.
Configurer les informations sur la destination du flux
Choisissez l'option Ensemble de données pour chaque schéma afin que Datastream crée automatiquement un ensemble de données dans BigQuery pour chaque schéma de la base de données source.
Sélectionnez l'emplacement dans lequel les ensembles de données seront créés dans BigQuery. Cet emplacement ne doit pas nécessairement être identique à la région dans laquelle le flux Datastream est créé.
Définissez Prefix (Préfixe) sur
quickstart-
. Datastream ajoute cette chaîne au début de chaque ensemble de données qu'il crée dans BigQuery.Dans le champ Stream write mode (Mode d'écriture de flux), laissez la valeur définie sur Merge (Fusionner). De cette façon, les tables dans BigQuery restent synchronisées avec la source.
Dans la liste déroulante Spécifier la limite d'obsolescence des données, laissez la valeur définie sur 15 minutes. BigQuery utilise cette valeur pour déterminer le niveau d'obsolescence de vos données lorsqu'elles sont interrogées.
Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.
Créer le flux
Vérifiez les détails du flux, ainsi que les profils de connexion source et de destination que le flux utilisera pour transférer des données d'une base de données PostgreSQL source vers BigQuery.
Cliquez sur RUN VALIDATION (LANCER LA VALIDATION) pour valider le flux. En validant un flux, Datastream vérifie que la source est correctement configurée, vérifie que le flux peut se connecter à la source et à la destination, et vérifie la configuration de bout en bout du flux.
Une fois tous les tests de validation effectués, cliquez sur CRÉER.
Dans la boîte de dialogue Créer un flux ?, cliquez sur CRÉER.
Démarrer le flux
Dans la section précédente du guide de démarrage rapide, vous avez créé un flux, mais vous ne l'avez pas démarré. Vous pouvez le faire maintenant.
Dans ce guide de démarrage rapide, vous allez créer et démarrer un flux séparément au cas où le processus de création de flux entraînerait une charge accrue sur votre base de données source. Pour décaler cette charge, vous devez créer le flux sans le démarrer, puis le lancer lorsque la charge peut être engagée.
En démarrant le flux, Datastream peut transférer des données, des schémas et des tables de la base de données source vers la destination.
Accédez à la page Flux de Datastream dans Google Cloud Console.
Cochez la case située à gauche du flux que vous souhaitez commencer. Dans le cadre de ce guide de démarrage rapide, il s'agit de Mon flux.
Cliquez sur DÉMARRER.
Dans la boîte de dialogue, cliquez sur DÉMARRER. L'état du flux passe de
Not started
àStarting
àRunning
.Après avoir démarré un flux, vous pouvez vérifier que Datastream a transféré les données de la base de données source vers la destination.
Vérifier le flux
Dans cette section, vous allez confirmer que Datastream transfère les données de toutes les tables de votre base de données PostgreSQL source vers BigQuery.
Accédez à la page Flux de Datastream dans Google Cloud Console.
Cliquez sur le flux que vous avez créé. Pour ce guide de démarrage rapide, il s'agit de Mon flux.
Sur la page Détails du flux, cliquez sur le lien qui s'affiche sous le champ Chemin d'écriture de la destination. BigQuery Studio s'ouvre dans un onglet distinct.
Vérifiez que les ensembles de données et les tables représentant les schémas et les tables de votre base de données PostgreSQL source apparaissent bien.
Cliquez sur l'une des tables pour afficher un aperçu de vos données.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, procédez comme suit :
- Utiliser la console Google Cloud pour supprimer votre projet, vos profils de connexion et flux Datastream, ainsi que vos ensembles de données BigQuery.
Si vous nettoyez les ressources que vous avez créées dans Datastream, elles ne seront plus comptabilisées dans votre quota et ne vous seront plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.
Supprimer votre projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce guide de démarrage rapide.
Dans Cloud Console, accédez à la page Gérer les ressources :
Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Supprimer le flux
Accédez à la page Flux de Datastream dans Google Cloud Console.
Cliquez sur le flux que vous souhaitez supprimer. Dans le cadre de ce guide de démarrage rapide, il s'agit de Mon flux.
Cliquez sur METTRE EN VEILLE.
Dans la boîte de dialogue, cliquez sur METTRE EN VEILLE.
Dans le volet État du flux de la page Détails du flux, vérifiez que l'état du flux est
Paused
.Cliquez sur SUPPRIMER.
Dans la boîte de dialogue, saisissez
Delete
dans le champ de texte, puis cliquez sur SUPPRIMER.
Supprimer les profils de connexion
Accédez à la page Profils de connexion de Datastream dans la console Google Cloud.
Cochez la case à côté de chaque profil de connexion que vous souhaitez supprimer. Pour ce guide de démarrage rapide, cochez les cases Mon profil de connexion source et Mon profil de connexion de destination.
Cliquez sur SUPPRIMER.
Dans la boîte de dialogue, cliquez sur SUPPRIMER.
Supprimer vos ensembles de données BigQuery
Accédez à la page BigQuery Studio de la console Google Cloud.
Développez le nœud du projet dans lequel vous avez créé ce guide de démarrage rapide.
Pour chaque ensemble de données à supprimer, cliquez sur le menu Afficher les actions, puis sur Supprimer.
Dans la boîte de dialogue, saisissez
delete
dans la zone de texte, puis cliquez sur SUPPRIMER.
Étape suivante
- En savoir plus sur Datastream.
- Testez d'autres fonctionnalités de Google Cloud. Consultez nos guides de démarrage rapide.
- Découvrez comment utiliser des tables de capture des données modifiées dans BigQuery.