Découvrez comment répliquer les données d'une base de données source vers des ensembles de données BigQuery à l'aide de Datastream.
Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud, cliquez sur Visite guidée :
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Datastream API.
- Assurez-vous que le rôle "Administrateur Datastream" est attribué à votre compte utilisateur.
Si vous souhaitez créer une configuration de connectivité privée pour un réseau VPC standard ou partagé, vous devez remplir des conditions préalables supplémentaires. Pour en savoir plus, consultez la section Créer une configuration de connectivité privée.
Conditions requises
Datastream propose diverses options de source, de destination et de connectivité réseau.
Dans ce guide de démarrage rapide, nous supposons que vous répliquez des données d'une base de données Cloud SQL pour PostgreSQL vers BigQuery. Pour la base de données source, vous devriez pouvoir configurer votre instance de base de données pour qu'elle accepte les connexions provenant des adresses IP publiques de Datastream.
Ne connaissant pas les spécificités de votre environnement, nous ne pouvons pas fournir de procédure détaillée pour la configuration de votre réseau.
Pour ce guide de démarrage rapide, vous allez sélectionner la liste d'autorisation d'adresses IP comme méthode de connectivité réseau. La liste d'autorisation d'adresses IP est une fonctionnalité de sécurité souvent utilisée pour limiter et contrôler l'accès aux données de votre base de données source aux utilisateurs de confiance uniquement. Vous pouvez utiliser des listes d'autorisation d'adresses IP pour créer des listes d'adresses ou de plages d'adresses IP de confiance à partir desquelles vos utilisateurs et d'autres services Cloud tels que Datastream peuvent accéder à ces données. Pour utiliser des listes d'autorisation d'adresses IP, vous devez ouvrir la base de données Cloud SQL source aux connexions entrantes de Datastream.
Créer des profils de connexion
En créant des profils de connexion, vous stockez des informations de base sur la source et la destination dans Datastream. Vous pourrez ensuite réutiliser ces informations dans plusieurs flux.
Dans ce guide de démarrage rapide, vous allez sélectionner PostgreSQL comme type de profil pour votre profil de connexion source et BigQuery comme type de profil pour votre profil de connexion de destination. Datastream utilise les informations des profils de connexion pour se connecter à la base de données source et à BigQuery.
Créer un profil de connexion source pour la base de données PostgreSQL
Accédez à la page Profils de connexion de Datastream dans la Google Cloud console.
Cliquez sur CRÉER UN PROFIL.
Sur la page Créer un profil de connexion, cliquez sur le type de profil PostgreSQL (car vous souhaitez créer un profil de connexion source pour la base de données PostgreSQL).
Indiquez les informations suivantes dans la section Définir les paramètres de connexion de la page Créer un profil PostgreSQL:
- Saisissez
My Source Connection Profile
comme nom du profil de connexion pour votre base de données source. - Conservez l'ID du profil de connexion généré automatiquement.
Sélectionnez la région dans laquelle le profil de connexion sera stocké.
Saisissez les informations sur la connexion :
- Dans le champ Nom d'hôte ou adresse IP, saisissez un nom d'hôte ou une adresse IP publique que Datastream peut utiliser pour se connecter à la base de données PostgreSQL source. Vous fournissez une adresse IP publique, car la liste d'autorisation d'adresses IP sera utilisée comme méthode de connectivité réseau pour ce guide de démarrage rapide.
- Dans le champ Port, saisissez le numéro de port réservé à la base de données source. Pour une base de données PostgreSQL, le port par défaut est généralement
5432
. - Saisissez un nom d'utilisateur et un mot de passe pour vous authentifier auprès de votre base de données source.
- Dans le champ Base de données, saisissez le nom qui identifie l'instance de base de données. Pour les bases de données PostgreSQL, il s'agit généralement de
postgres
.
- Saisissez
Dans la section Définir les paramètres de connexion, cliquez sur CONTINUER. La section Définir la méthode de connectivité de la page Créer un profil PostgreSQL est active.
Choisissez la méthode de mise en réseau que vous souhaitez utiliser pour établir la connectivité entre la base de données source et Datastream. Pour ce guide de démarrage rapide, utilisez le menu déroulant Méthode de connectivité pour sélectionner Liste d'autorisation d'adresses IP comme méthode de mise en réseau.
Configurez votre base de données source pour autoriser les connexions entrantes provenant des adresses IP publiques Datastream qui s'affichent.
Dans la section Définir la méthode de connectivité, cliquez sur CONTINUER. La section Tester le profil de connexion de la page Créer un profil PostgreSQL est active.
Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données PostgreSQL source et Datastream peuvent communiquer entre eux.
Vérifiez que l'état "Test réussi" s'affiche.
Si le test échoue, vous pouvez résoudre le problème dans la partie appropriée du flux, puis revenir au test. Pour savoir comment résoudre le problème, consultez la page Diagnostiquer les problèmes.
Cliquez sur CRÉER.
Créer un profil de connexion de destination pour BigQuery
Accédez à la page Profils de connexion de Datastream dans la Google Cloud console.
Cliquez sur CRÉER UN PROFIL.
Sur la page Créer un profil de connexion, cliquez sur le type de profil BigQuery (car vous souhaitez créer un profil de connexion de destination pour BigQuery).
Indiquez les informations suivantes sur la page Créer un profil BigQuery:
- Saisissez
My Destination Connection Profile
comme nom du profil de connexion pour votre service BigQuery de destination. - Conservez l'ID du profil de connexion généré automatiquement.
- Sélectionnez la région dans laquelle le profil de connexion sera stocké.
- Saisissez
Cliquez sur CRÉER.
Après avoir créé un profil de connexion source pour la base de données PostgreSQL et un profil de connexion de destination pour BigQuery, vous pouvez les utiliser pour créer un flux.
Créer un flux
Dans cette section, vous allez créer un flux pour répliquer les données d'une base de données PostgreSQL source vers BigQuery.
La création d'un flux comprend les éléments suivants :
- Définir les paramètres du flux.
- Sélectionner le profil de connexion que vous avez créé pour votre base de données source (profil de connexion source). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion source.
- Configurer des informations sur la base de données source du flux en spécifiant les propriétés de réplication, ainsi que les tables et les schémas de la base de données source dans Datastream :
- Transfert possible vers la destination.
- Transfert restreint vers la destination.
- Déterminez si Datastream remplira les données de l'historique, diffusera les modifications en cours vers la destination ou ne diffusera que les modifications apportées aux données.
- Sélectionnez le profil de connexion que vous avez créé pour BigQuery (profil de connexion de destination). Pour ce guide de démarrage rapide, il s'agit de Mon profil de connexion de destination.
- Configurer des informations sur la destination du flux, comme les ensembles de données BigQuery.
- Validation du flux.
Définir les paramètres du flux
Accédez à la page Flux de Datastream dans la Google Cloud console.
Cliquez sur CRÉER UN FLUX.
Indiquez les informations suivantes dans le panneau Définir les détails du flux de la page Créer un flux :
- Saisissez
My Stream
comme nom du flux. - Conservez l'ID de flux généré automatiquement.
- Dans le menu Région, sélectionnez la région dans laquelle vous avez créé votre profil de connexion source.
- Dans le menu Type de source, sélectionnez le type de profil PostgreSQL.
- Dans le menu Type de destination, sélectionnez le type de profil BigQuery.
- Saisissez
Passez en revue les conditions préalables générées automatiquement qui reflètent la façon dont votre environnement doit être préparé pour un flux. Ces prérequis incluent la configuration de la base de données source et de BigQuery.
Cliquez sur CONTINUER. Le panneau Définir un profil de connexion PostgreSQL de la page Créer un flux s'affiche.
Spécifier des informations sur le profil de connexion source
Dans le menu Profil de connexion source, sélectionnez votre profil de connexion source pour la base de données PostgreSQL.
Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données source et Datastream peuvent communiquer entre eux.
Si le test échoue, le problème associé au profil de connexion s'affiche. Pour savoir comment résoudre le problème, consultez la page Diagnostiquer les problèmes. Apportez les modifications nécessaires pour corriger le problème, puis recommencez le test.
Cliquez sur CONTINUE (Continuer). Le panneau Configurer la source du flux de la page Créer un flux s'affiche.
Configurer les informations sur la base de données source du flux
Indiquez le nom de l'emplacement de réplication et de la publication dans votre base de données source. L'emplacement de réplication et la publication ont été créés lors de la configuration de votre base de données PostgreSQL.
Utilisez le menu Objets à inclure pour spécifier les tables et les schémas de votre base de données source que Datastream répliquera dans BigQuery. Le menu ne se charge que si votre base de données contient au maximum 5 000 objets.
Pour ce guide de démarrage rapide, vous souhaitez que Datastream transfère toutes les tables et tous les schémas. Sélectionnez donc Toutes les tables de tous les schémas dans le menu.
Cliquez sur CONTINUER. Le panneau Définir un profil de connexion BigQuery de la page Créer un flux s'affiche.
Sélectionner un profil de connexion de destination
Dans le menu Profil de connexion de destination, sélectionnez votre profil de connexion de destination pour BigQuery.
Cliquez sur CONTINUER. Le panneau Configurer la destination du flux de la page Créer un flux s'affiche.
Configurer les informations sur la destination du flux
Sélectionnez l'option Ensemble de données pour chaque schéma afin que Datastream crée automatiquement un ensemble de données dans BigQuery pour chaque schéma de la base de données source.
Sélectionnez le type d'emplacement dans lequel les ensembles de données seront créés dans BigQuery. Bien que cet emplacement ne doive pas nécessairement être identique à la région dans laquelle le flux Datastream est créé, nous vous recommandons de conserver toutes les ressources, ainsi que les ensembles de données, dans la même région pour optimiser les coûts et les performances.
Définissez Prefix (Préfixe) sur
quickstart-
. Datastream ajoute cette chaîne au début de chaque ensemble de données créé dans BigQuery.Laissez la valeur du champ Mode d'écriture du flux définie sur Merge (Fusionner). Les tables de BigQuery restent ainsi synchronisées avec la source.
Laissez la valeur de la liste déroulante Spécifier la limite d'obsolescence des données définie sur 15 minutes. BigQuery utilise cette valeur pour déterminer le degré d'obsolescence de vos données lors de leur interrogation.
Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.
Créer le flux
Vérifiez les détails du flux, ainsi que les profils de connexion source et de destination que le flux utilisera pour transférer des données d'une base de données PostgreSQL source vers BigQuery.
Cliquez sur RUN VALIDATION (LANCER LA VALIDATION) pour valider le flux. En validant un flux, Datastream vérifie que la source est correctement configurée, vérifie que le flux peut se connecter à la source et à la destination, et vérifie la configuration de bout en bout du flux.
Une fois tous les tests de validation effectués, cliquez sur CRÉER.
Dans la boîte de dialogue Créer un flux ?, cliquez sur CRÉER.
Démarrer le flux
Dans la section précédente de ce guide de démarrage rapide, vous avez créé un flux, mais vous ne l'avez pas démarré. Vous pouvez le faire maintenant.
Pour ce tutoriel, vous allez créer et démarrer un flux séparément au cas où le processus de création de flux entraînerait une augmentation de la charge sur votre base de données source. Pour libérer cette charge, créez le flux sans le démarrer, puis démarrez-le lorsque la charge supplémentaire est tolérable.
En démarrant le flux, Datastream peut transférer des données, des schémas et des tables de la base de données source vers la destination.
Accédez à la page Flux de Datastream dans la Google Cloud console.
Cochez la case située à gauche du flux que vous souhaitez démarrer. Pour ce guide de démarrage rapide, il s'agit de Mon flux.
Cliquez sur DÉMARRER.
Dans la boîte de dialogue, cliquez sur DÉMARRER. L'état du flux passe de
Not started
àStarting
, puis àRunning
.Après avoir démarré un flux, vous pouvez vérifier que Datastream a transféré des données de la base de données source vers la destination.
Vérifier le flux
Dans cette section, vous vérifiez que Datastream transfère les données de toutes les tables de votre base de données PostgreSQL source vers BigQuery.
Accédez à la page Flux de Datastream dans la Google Cloud console.
Cliquez sur le flux que vous avez créé. Pour ce guide de démarrage rapide, il s'agit de Mon flux.
Sur la page Détails du flux, cliquez sur le lien qui s'affiche sous le champ Chemin d'écriture de la destination. BigQuery Studio s'ouvre dans un onglet distinct.
Vérifiez que les ensembles de données et les tables représentant les schémas et les tables de votre base de données PostgreSQL source apparaissent bien.
Cliquez sur l'une des tables pour afficher un aperçu de vos données.
Effectuer un nettoyage
Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud , procédez comme suit :
- Utilisez la console Google Cloud pour supprimer votre projet, votre flux Datastream et vos profils de connexion, ainsi que les ensembles de données BigQuery.
Si vous nettoyez les ressources que vous avez créées dans Datastream, elles ne seront plus comptabilisées dans votre quota et ne vous seront plus facturées. Dans les sections suivantes, nous allons voir comment supprimer ou désactiver ces ressources.
Supprimer votre projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce guide de démarrage rapide.
Dans Cloud Console, accédez à la page Gérer les ressources :
Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Supprimer le flux
Accédez à la page Flux de Datastream dans la Google Cloud console.
Cliquez sur le flux que vous souhaitez supprimer. Pour ce guide de démarrage rapide, il s'agit de Mon flux.
Cliquez sur METTRE EN VEILLE.
Dans la boîte de dialogue, cliquez sur METTRE EN VEILLE.
Dans le volet État du flux de la page Détails du flux, vérifiez que l'état du flux est
Paused
.Cliquez sur SUPPRIMER.
Dans la boîte de dialogue, saisissez
Delete
dans le champ de texte, puis cliquez sur SUPPRIMER.
Supprimer les profils de connexion
Accédez à la page Profils de connexion de Datastream dans la Google Cloud console.
Cochez la case à côté de chaque profil de connexion que vous souhaitez supprimer. Pour ce guide de démarrage rapide, cochez les cases Mon profil de connexion source et Mon profil de connexion de destination.
Cliquez sur SUPPRIMER.
Dans la boîte de dialogue, cliquez sur SUPPRIMER.
Supprimer vos ensembles de données BigQuery
Accédez à la page BigQuery Studio de la Google Cloud console.
Développez le nœud du projet dans lequel vous avez créé ce guide de démarrage rapide.
Pour chaque ensemble de données que vous souhaitez supprimer, cliquez sur le menu Afficher les actions, puis sur Supprimer.
Dans la boîte de dialogue, saisissez
delete
dans le champ de texte, puis cliquez sur SUPPRIMER.
Étape suivante
- En savoir plus sur Datastream.
- Testez d'autres fonctionnalités Google Cloud . Consultez nos guides de démarrage rapide.
- Découvrez comment utiliser les tables de capture de données modifiées dans BigQuery.