Créer un flux

Dans cette section, vous allez apprendre à créer un flux. Datastream utilise ce flux pour transférer des données d'une base de données Oracle, MySQL, SQL Server ou PostgreSQL source vers BigQuery ou Cloud Storage.

La création d'un flux comprend les éléments suivants :

  • Définir les paramètres du flux.
  • Sélectionner le profil de connexion que vous avez créé pour votre base de données Oracle, MySQL, SQL Server ou PostgreSQL source (profil de connexion source) ou créer un profil de connexion source si vous n'en avez pas créé.
  • Configurez des informations sur la base de données source du flux en spécifiant les tables et les schémas de la base de données source dans Datastream :
    • Transfert possible vers la destination.
    • Transfert restreint vers la destination.
  • Déterminez si Datastream remplira les données de l'historique, diffusera les modifications en cours vers la destination ou ne diffusera que les modifications apportées aux données. Lorsque vous activez le remplissage des données de l'historique, vous pouvez éventuellement spécifier des schémas et des tables de base de données source que Datastream ne doit pas remplir dans la destination.

  • Sélectionner le profil de connexion que vous avez créé pour BigQuery ou Cloud Storage (profil de connexion de destination) ou créer un profil de connexion de destination si vous n'en avez pas créé.

  • Configurer des informations sur la destination du flux. Parmi ces informations, on peut citer :

    • Pour BigQuery :
      • Ensembles de données dans lesquels Datastream répliquera les schémas, les tables et les données d'une base de données source.
    • Pour Cloud Storage :
      • Dossier du bucket de destination dans lequel Datastream transférera les schémas, les tables et les données d'une base de données source.
  • Validez le flux pour vous assurer qu'il fonctionne correctement. Valider un flux consiste à vérifier :

    • Si la source est correctement configurée pour autoriser Datastream à diffuser des données à partir de celle-ci.
    • Si le flux peut se connecter à la source et à la destination.
    • La configuration de bout en bout du flux.

Définir les paramètres du flux

  1. Accédez à la page Flux dans la Google Cloud console.

    Accéder à la page "Flux"

  2. Cliquez sur CRÉER UN FLUX.

  3. Utilisez le tableau suivant pour renseigner les champs de la section Définir les détails du flux de la page Créer un flux :

    ChampDescription
    Nom du fluxSaisissez le nom à afficher du flux.
    ID du fluxDatastream renseigne automatiquement ce champ en fonction du nom de flux saisi. Vous pouvez conserver l'ID généré automatiquement ou le modifier.
    RégionSélectionnez la région dans laquelle le flux est stocké. Comme toutes les ressources, les flux sont enregistrés dans une région. Le choix de région n'affecte pas si votre flux peut se connecter à la base de données source ou à la destination, mais peut affecter la disponibilité si la région subit un temps d'arrêt. Nous vous recommandons de conserver toutes les ressources du flux dans la même région que vos données sources afin d'optimiser les coûts et les performances.
    Type de source

    Sélectionnez le type de profil que vous avez spécifié lorsque vous avez créé un profil de connexion pour une base de données source Oracle, MySQL, SQL Server ou PostgreSQL. Si vous n'avez pas créé de profil de connexion pour la base de données source, vous pouvez le créer maintenant.

    Type de destinationSélectionnez le type de profil que vous avez spécifié lors de la création d'un profil de connexion pour une destination BigQuery ou Cloud Storage. Si vous n'avez pas créé de profil de connexion pour la destination, vous pouvez le faire maintenant.
    Chiffrement

    Par défaut, vos données sont chiffrées à l'aide d'une clé gérée par Google Cloud. Si vous souhaitez gérer votre chiffrement, vous pouvez utiliser une clé de chiffrement gérée par le client (CMEK):

    1. Cochez la case Clé Cloud KMS.
    2. Dans le menu déroulant Type de clé, sélectionnez Cloud KMS, puis votre clé CMEK.

    Si vous ne voyez pas votre clé, cliquez sur SAISIR LE NOM DE LA RESSOURCE DE CLÉ pour indiquer le nom de la ressource de la clé que vous souhaitez utiliser. Par exemple, vous pouvez saisir projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key dans le champ Nom de la ressource de clé, puis cliquer sur ENREGISTRER.

  4. Vous pouvez également utiliser des libellés pour organiser vos ressources DataStream.

    1. Pour créer un libellé, cliquez sur AJOUTER UN LIBELLÉ, puis saisissez la paire clé-valeur du libellé.
    2. Pour supprimer le libellé, cliquez sur l'icône de corbeille à droite de la ligne correspondant au libellé.
  5. Vous pouvez également ajouter des règles d'alerte pour votre flux. Les règles d'alerte définissent quand et comment vous souhaitez être averti des échecs de flux.

    1. Pour créer une règle d'alerte, cliquez sur Ajouter une règle d'alerte.
    2. La page Créer une règle d'alerte s'affiche dans Cloud Monitoring. Sur cette page, vous définissez la règle d'alerte en cas d'échec de votre flux.

    Pour en savoir plus sur les règles d'alerte, consultez Gérer les règles d'alerte basées sur les métriques.

  6. Passez en revue les conditions préalables générées automatiquement qui reflètent la façon dont l'environnement doit être préparé pour un flux. Ces prérequis peuvent inclure la configuration de la base de données source et la connexion à la destination. Il est préférable d'appliquer ces prérequis dès la présente étape, mais vous pouvez le faire à tout moment avant de tester le flux ou de le démarrer. Pour en savoir plus sur ces conditions préalables, consultez la section Sources.

  7. Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de base de données source.

Spécifier des informations sur le profil de connexion source

  1. Si vous avez créé un profil de connexion source pour Oracle, MySQL, SQL Server ou PostgreSQL, sélectionnez-le dans la liste des profils de connexion.

    Si vous n'avez pas créé de profil de connexion source, créez-en un en cliquant sur CRÉER UN PROFIL DE CONNEXION en bas de la liste déroulante, puis suivez la même procédure que dans la section Créer des profils de connexion.

  2. Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données source et Datastream peuvent communiquer entre eux.

    Si le test échoue, le problème associé au profil de connexion s'affiche. Pour savoir comment résoudre le problème, consultez la page Diagnostiquer les problèmes. Apportez les modifications nécessaires pour corriger le problème, puis recommencez le test.

  3. Cliquez sur CONTINUE (Continuer). Le panneau Configurer la source du flux de la page Créer un flux s'affiche.

Configurer les informations sur la base de données source du flux

Configurer la base de données source PostgreSQL

Si vous avez sélectionné PostgreSQL comme base de données source, vous devez définir ses propriétés de réplication.

  1. Dans la section Propriétés de réplication, spécifiez les propriétés suivantes :
    1. Dans le champ Nom de l'emplacement de réplication, saisissez le nom de l'emplacement que vous avez créé spécifiquement pour ce flux. Le serveur de base de données utilise cet emplacement pour envoyer des événements à Datastream.
    2. Dans le champ Nom de la publication, saisissez le nom de la publication que vous avez créée dans la base de données. Une publication est un groupe de toutes les tables dont vous souhaitez répliquer les modifications à l'aide de ce flux.
  2. Suivez la procédure décrite dans la section Configurer les bases de données sources.

Configurer les bases de données sources

  1. Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les tables et les schémas de la base de données source que Datastream peut transférer vers la destination.

    1. Si vous souhaitez que Datastream transfère tous les schémas et toutes les tables, sélectionnez Toutes les tables de tous les schémas.
    2. Si vous souhaitez que Datastream ne transfère que des tables et schémas spécifiques, sélectionnez Schémas et tables spécifiques, puis cochez les cases correspondant aux schémas et aux tables que Datastream doit extraire.

    3. Si vous souhaitez fournir une définition textuelle des tables et des schémas que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les schémas et les tables que vous souhaitez extraire avec Datastream.

      Si votre base de données contient un grand nombre de tables et de schémas, nous vous recommandons d'utiliser l'option Personnalisé, car certaines tables et schémas peuvent ne pas être inclus dans la liste des objets à extraire.

  2. Si vous le souhaitez, développez le nœud Sélectionner des objets à exclure. Dans le champ Objets à exclure, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher Datastream d'effectuer une extraction. La liste Objets à exclure prévaut sur la liste Objets à inclure. Si un objet répond aux critères des listes d'inclusion et d'exclusion, il est exclu du flux.

  3. Selon la source que vous avez sélectionnée, spécifiez la méthode CDC pour votre flux:

    • Pour les sources SQL Server :
      • Journaux de transaction: sélectionnez cette méthode pour traiter les modifications directement à partir des journaux de la base de données. Cette méthode est plus efficace et offre les meilleures performances, mais elle nécessite des étapes de configuration supplémentaires.
      • Tables de modifications: sélectionnez cette méthode pour traiter les modifications à partir de tables de modifications dédiées. Cette méthode est plus facile à configurer et présente moins de limites, mais elle accepte un débit inférieur et génère une charge plus importante sur votre base de données que la méthode des journaux de transactions. Pour en savoir plus sur la configuration de votre base de données SQL Server source, consultez Configurer une base de données SQL Server source.
    • Pour les sources MySQL :
      • Réplication basée sur les GTID (Global Transaction IDs) (preview): sélectionnez cette méthode si vous souhaitez que Datastream prenne en charge les basculements et fournisse une réplication fluide, quelles que soient les modifications apportées à votre cluster de bases de données.
      • Réplication basée sur les journaux binaires: sélectionnez cette méthode pour lire et répliquer les modifications directement à partir des fichiers journaux binaires d'une instance de base de données sélectionnée. Vous ne pouvez pas passer d'un flux en cours d'exécution à une autre instance source ou à un réplicat à l'aide de cette méthode CDC.
    • Pour les sources Oracle :
      • LogMiner: sélectionnez cette méthode pour interroger les journaux de rétablissement archivés à l'aide de l'API LogMiner. LogMiner est compatible avec la plupart des options disponibles pour Oracle, telles que les options de chiffrement et de compression.
      • Lecteur binaire (Preview): sélectionnez cette méthode pour extraire les modifications directement à partir des journaux Oracle. Cela permet de répliquer plus rapidement de grandes bases de données Oracle, et de réduire la latence et les frais généraux. Lorsque vous sélectionnez cette option, un menu déroulant supplémentaire s'affiche. Sélectionnez la méthode d'accès à vos fichiers journaux Oracle:
      • Gestion automatique de l'espace de stockage (ASM): sélectionnez cette option si votre base de données utilise ASM. Assurez-vous d'avoir coché la case Activer l'accès à ASM pour le lecteur binaire et d'avoir renseigné les détails de votre instance ASM dans votre profil de connexion source.
      • Répertoires de base de données: sélectionnez cette option si vous n'utilisez pas ASM pour stocker vos fichiers journaux. Si vous sélectionnez des répertoires de base de données, vous devez indiquer le nom du répertoire de journaux de rétablissement et du répertoire de journaux archivés.
  4. Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données d'historique, puis effectuez l'une des opérations suivantes:

    • Sélectionnez l'option Automatique pour diffuser toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination. Dans le champ Objets exclus du remplissage automatique, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher le remplissage de Datastream dans la destination.

    • Sélectionnez l'option Manuel pour diffuser uniquement les modifications apportées aux données de destination.

  5. Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Sélectionner un profil de connexion de destination

  1. Si vous avez créé un profil de connexion de destination, sélectionnez-le dans la liste des profils de connexion.

    Si vous n'avez pas créé de profil de connexion de destination, créez-en un en cliquant sur CRÉER UN PROFIL DE CONNEXION en bas de la liste déroulante, puis suivez la même procédure que dans la section Créer des profils de connexion.

  2. Cliquez sur CONTINUE (Continuer). Le panneau Configurer la destination du flux de la page Créer un flux s'affiche.

Configurer les informations sur la destination du flux

Cette section décrit les informations que vous devez fournir pour configurer votre destination BigQuery ou Cloud Storage.

Destination BigQuery

  1. Dans la section Spécifier comment Datastream doit diffuser des données dans un ensemble de données BigQuery, sélectionnez l'une des options suivantes dans le menu déroulant Groupement de schémas:

    • Ensemble de données pour chaque schéma: Datastream crée un ensemble de données BigQuery pour chaque schéma source, en fonction du nom du schéma.

      Si vous sélectionnez cette option, Datastream crée un ensemble de données dans le projet contenant le flux pour chaque schéma de la base de données source.

      De plus, si vous sélectionnez l'option Ensemble de données pour chaque schéma, vous devez fournir les éléments suivants:

      1. Dans la section Type d'emplacement, indiquez où vous souhaitez stocker vos données dans BigQuery. Sélectionnez Région pour spécifier un seul emplacement géographique ou Multirégional pour spécifier une zone plus étendue contenant au moins deux régions. Si votre priorité est d'optimiser les coûts et les performances, sélectionnez Région et conservez vos ensembles de données avec les autres Google Cloud ressources que vous gérez. Si vous souhaitez augmenter les limites de quota, sélectionnez Multirégional pour autoriser BigQuery à utiliser plusieurs régions au sein d'un groupe. Lorsque vous sélectionnez Région, la région que vous avez sélectionnée pour le flux s'affiche par défaut.
      2. (Facultatif) Dans le champ Préfixe de l'ensemble de données, définissez un préfixe pour l'ensemble de données créé par le flux. La chaîne que vous spécifiez est ajoutée au nom du schéma source. Par exemple, si le schéma est appelé <mySchema> et que vous définissez le préfixe de l'ensemble de données sur <myPrefix>, Datastream crée un ensemble de données appelé <myPrefix><mySchema>.
      3. Développez la section Afficher les options de chiffrement avancées.
      4. Spécifiez comment vous souhaitez que vos données soient chiffrées dans BigQuery en sélectionnant une clé de chiffrement gérée par Google ou gérée par le client.
    • Ensemble de données unique pour tous les schémas: Datastream crée toutes les tables dans l'ensemble de données BigQuery existant que vous spécifiez. Chaque table créée par Datastream est nommée à l'aide d'une combinaison du nom du schéma source et du nom de la table, séparés par un trait de soulignement (par exemple, <mySchemaName>_<myTableName>). Les ensembles de données disponibles sont regroupés par région. Vous pouvez également créer un ensemble de données.

  2. Spécifiez le mode d'écriture de flux. Sélectionnez votre mode d'écriture pour définir la façon dont les données sont écrites et traitées dans BigQuery:

    • Fusionner: sélectionnez cette option si vous souhaitez que vos données soient synchronisées avec la source.
    • Ajouter uniquement: sélectionnez cette option si vous souhaitez conserver toutes les données historiques de vos événements de modification.
  3. Spécifiez la limite d'obsolescence des données. Disponible uniquement lorsque le mode Fusionner est sélectionné à l'étape précédente. Sélectionnez une limite pour équilibrer les performances et le coût des requêtes BigQuery vis-à-vis de la fraîcheur des données. BigQuery applique les modifications en arrière-plan de manière continue ou au moment de l'exécution de la requête, en fonction de la limite d'obsolescence. Une obsolescence plus faible (des données plus récentes) peut augmenter les coûts de traitement de BigQuery.

  4. Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Destination dans Cloud Storage

  1. Dans le champ Préfixe du chemin de flux, vous pouvez également saisir le dossier du bucket de destination dans lequel Datastream transférera des schémas, des tables et des données à partir d'une base de données source.

    Par exemple, si vous souhaitez que Datastream transfère les données de la base de données source vers le dossier /root/example du bucket de destination, saisissez /root/example dans le champ Préfixe du chemin de flux.

  2. Dans le champ Format de sortie, choisissez le format des fichiers écrits dans Cloud Storage.

  3. Facultatif. Si vous sélectionnez le format JSON, deux cases à cocher s'affichent:

    1. Inclure un fichier de schéma de types unifiés dans le chemin d'accès au fichier: si vous cochez cette case, Datastream écrit deux fichiers dans Cloud Storage: un fichier de données JSON et un fichier de schéma Avro. Le fichier de schéma porte le même nom que le fichier de données, avec une extension .schema. Si vous ne cochez pas cette case, Datastream n'écrit que le fichier de données JSON dans Cloud Storage. Par défaut, cette case n'est pas cochée.
    2. Activer la compression gzip: si vous cochez cette case, Datastream utilise l'utilitaire gzip pour compresser les fichiers que Datastream écrit dans Cloud Storage. Si vous ne cochez pas cette case, Datastream écrit les fichiers dans Cloud Storage sans les compresser. Par défaut, cette case est cochée.
  4. Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Créer le flux

  1. Vérifiez les détails du flux, ainsi que les profils de connexion source et de destination que le flux utilisera pour transférer des données d'une base de données source vers une destination.
  2. Cliquez sur RUN VALIDATION (LANCER LA VALIDATION) pour valider le flux. En validant un flux, Datastream vérifie que la source est correctement configurée, vérifie que le flux peut se connecter à la source et à la destination, et vérifie la configuration de bout en bout du flux.

    1. Si la base de données source est Oracle, Datastream effectue les vérifications suivantes :

      VérificationDescription
      Validité de la liste d'objetsDatastream vérifie que la liste d'exclusion n'est pas basée sur la liste d'inclusion.
      Connectivité du tunnel SSH de transfertDatastream vérifie qu'il peut se connecter à un hôte bastion via un tunnel SSH de transfert.
      Connectivité à la base de données OracleDatastream vérifie qu'il peut se connecter à la base de données Oracle source.
      Autorisations d'utilisateur OracleDatastream vérifie que l'utilisateur qu'il utilise pour se connecter à la base de données source dispose de toutes les autorisations nécessaires pour récupérer les schémas, les tables et les données de la base de données afin que Datastream puisse diffuser ces informations dans la destination.
      Configuration du mode de journalisationDatastream vérifie que le mode de journalisation pour la base de données Oracle est défini sur ARCHIVELOG.
      Configuration de la journalisation supplémentaireDatastream vérifie que la journalisation supplémentaire est activée pour les tables de base de données qui sont insérées par flux depuis la source vers la destination.
      Configuration du CDC OracleDatastream vérifie que la méthode CDC que vous avez sélectionnée est conforme à la configuration de votre base de données.
      Configuration des fichiers journaux d'archiveDatastream vérifie que la journalisation des archives est configurée dans la source et que les fichiers journaux des archives sont bien présents.
      Autorisations Cloud Storage (pour les destinations Cloud Storage) Datastream vérifie qu'il dispose des autorisations nécessaires pour écrire dans le bucket Cloud Storage de destination.
    2. Si votre base de données source est MySQL, Datastream effectue les vérifications suivantes :

      VérificationDescription
      Autorisations de réplicationDatastream vérifie qu'il est autorisé à répliquer une base de données MySQL.
      Version de la base de donnéesDatastream vérifie que la version de la base de données MySQL est compatible. Pour en savoir plus sur les éditions compatibles, consultez la section Versions.
      Configuration du format des journaux binairesDatastream vérifie que le format du journal binaire de la base de données MySQL est défini sur ROW.
      La journalisation binaire est activéeDatastream vérifie que les fichiers journaux binaires sont correctement configurés et que des fichiers journaux sont bien présents.
      Configuration de l'image des lignes du journal binaireDatastream vérifie que l'image de la ligne du journal binaire est définie sur FULL.
      Compression des binlogs désactivéeDatastream vérifie que la compression des binlogs est désactivée.
      Mises à jour de réplication ou d'esclaves des journaux activéesDatastream vérifie que les mises à jour du réplicat de journal ou des esclaves sont activées.
      Configuration du mode GTID (applies only to GTID-based CDC)Datastream vérifie que le mode GTID est défini sur ON si la réplication basée sur GTID est utilisée.
      GtidSet ne contient pas de GTID tagués (applies only to GTID-based CDC)Datastream vérifie que l'ensemble GTID ne contient aucun GTID tagué.
      Autorisations Cloud Storage (pour les destinations Cloud Storage)Datastream vérifie qu'il dispose des autorisations nécessaires pour écrire dans le bucket Cloud Storage de destination.
      Vérification des avertissementsDescription
      Configuration des paramètres "Expire logs days" (Expirer les journaux par jour), "Expire logs seconds" (Expirer les journaux par seconde) ou "Binlog retention hours" (Durée de conservation des journaux binaires)Datastream vérifie que les valeurs expire_logs_days, binlog_expire_logs_seconds et binlog retention hours sont configurées sur des valeurs supérieures à 7, 604800 et 168, respectivement.
      Configuration du nombre maximal de paquets autorisésDatastream vérifie que max_allowed_packet est défini sur 1 Go.
      Appliquer la cohérence GTID ou le mode strict GTID (applies only to GTID-based CDC)Datastream vérifie que la cohérence GTID ou le mode strict GTID est activé.
    3. Si votre base de données source est PostgreSQL, Datastream effectue les vérifications suivantes:

      VérifierDescription
      Connectivité à la base de données PostgreSQLDatastream vérifie qu'il peut se connecter à la base de données PostgreSQL source.
      Le décodage logique est activéDatastream vérifie que le paramètre wal_level de la base de données PostgreSQL est défini sur logical.
      Configuration des emplacements de réplicationDatastream vérifie si l'emplacement de réplication PostgreSQL existe et est actif, si Datastream dispose des autorisations requises pour y accéder et s'il est configuré correctement.
      Configuration de la publicationDatastream vérifie que la publication existe et que les tables à répliquer pour le flux sont incluses dans la publication.
      Autorisations de remplissageDatastream vérifie que les tables requises pour le remplissage des données historiques existent et qu'il dispose des autorisations nécessaires pour les lire.
    4. Si votre base de données source est SQL Server, Datastream effectue les vérifications suivantes:

      VérifierDescription
      Édition SQL ServerDatastream vérifie que l'édition de la base de données SQL Server source est compatible. Pour en savoir plus sur les éditions compatibles, consultez la section Versions.
      Autorisations utilisateur SQL ServerDatastream vérifie que l'utilisateur dispose des autorisations requises pour accéder à la base de données SQL Server source.
      La CDC SQL Server est activéeDatastream vérifie si la CDC est activée pour la base de données et toutes les tables incluses dans le flux.
      Validations de bases de données SQL ServerDatastream vérifie que la base de données source est correctement configurée, que toutes les exigences de réplication sont respectées et qu'aucun type de données non compatible ne figure dans les colonnes.
      Autorisations Cloud Storage ou BigQueryDatastream vérifie que l'utilisateur dispose des autorisations nécessaires pour écrire dans la destination.
  3. Une fois tous les tests de validation réussis, cliquez sur CRÉER ET DÉMARRER pour créer le flux et le démarrer immédiatement, ou sur CRÉER pour créer le flux sans le démarrer immédiatement.

    Si vous ne démarrez pas le flux immédiatement, vous pouvez le démarrer sur la page Flux en cliquant sur DÉMARRER.

Une fois le flux créé, vous pouvez en afficher des informations générales et détaillées.

Étape suivante