Créer un flux

Présentation

Dans cette section, vous allez apprendre à créer un flux. Datastream utilise ce flux pour transférer les données d'une base de données source Oracle, MySQL, SQL Server ou PostgreSQL vers BigQuery ou Cloud Storage.

La création d'un flux comprend les éléments suivants :

  • Définir les paramètres du flux.
  • Sélectionnez le profil de connexion que vous avez créé pour votre base de données Oracle, MySQL, SQL Server ou PostgreSQL (le profil de connexion source), ou créez un profil de connexion source si vous n'en avez pas créé.
  • Configurez des informations sur la base de données source du flux en spécifiant les tables et les schémas de la base de données source dans Datastream :
    • Transfert possible vers la destination.
    • Transfert restreint vers la destination.
  • Déterminez si Datastream remplira les données de l'historique, diffusera les modifications en cours vers la destination ou ne diffusera que les modifications apportées aux données. Lorsque vous activez le remplissage des données de l'historique, vous pouvez éventuellement spécifier des schémas et des tables de base de données source que Datastream ne doit pas remplir dans la destination.

  • Sélectionnez le profil de connexion que vous avez créé pour BigQuery ou Cloud Storage (profil de connexion de destination), ou créez-en un si vous n'en avez pas créé.

  • Configurer des informations sur la destination du flux. Parmi ces informations, on peut citer :

    • Pour BigQuery:
      • Ensembles de données dans lesquels Datastream réplique les schémas, les tables et les données d'une base de données source.
    • Pour Cloud Storage:
      • Dossier du bucket de destination dans lequel Datastream transférera les schémas, les tables et les données d'une base de données source.
  • Validez le flux pour vous assurer qu'il fonctionne correctement. Valider un flux consiste à vérifier :

    • Si la source est correctement configurée pour autoriser Datastream à diffuser des données à partir de celle-ci.
    • Si le flux peut se connecter à la source et à la destination.

    • La configuration de bout en bout du flux.

Définir les paramètres du flux

  1. Accédez à la page Flux de Google Cloud Console.

    Accéder à la page "Flux"

  2. Cliquez sur CRÉER UN FLUX.

  3. Utilisez le tableau suivant pour renseigner les champs de la section Définir les détails du flux de la page Créer un flux :

    ChampDescription
    Nom du fluxSaisissez le nom à afficher du flux.
    ID du fluxDatastream renseigne automatiquement ce champ en fonction du nom de flux saisi. Vous pouvez conserver l'ID généré automatiquement ou le modifier.
    RégionSélectionnez la région dans laquelle le flux est stocké. Comme toutes les ressources, les flux sont enregistrés dans une région. La sélection de la région n'a pas d'incidence sur la capacité de votre flux à se connecter à la base de données source ou à la destination, mais elle peut avoir un impact sur la disponibilité en cas de temps d'arrêt dans la région.
    Type de source

    Sélectionnez le type de profil que vous avez spécifié lorsque vous avez créé un profil de connexion pour une base de données source Oracle, MySQL, SQL Server ou PostgreSQL. Si vous n'avez pas créé de profil de connexion pour la base de données source, vous pouvez le créer maintenant.

    Type de destinationSélectionnez le type de profil que vous avez spécifié lors de la création d'un profil de connexion pour une destination BigQuery ou Cloud Storage. Si vous n'avez pas créé de profil de connexion pour la destination, vous pouvez le faire maintenant.
    Chiffrement

    Par défaut, vos données sont chiffrées à l'aide d'une clé gérée par Google Cloud. Si vous souhaitez gérer votre chiffrement, vous pouvez utiliser une clé de chiffrement gérée par le client (CMEK):

    1. Cochez la case Clé Cloud KMS.
    2. Dans le menu déroulant Type de clé, sélectionnez Cloud KMS, puis votre clé CMEK.

    Si vous ne voyez pas votre clé, cliquez sur SAISIR LE NOM DE LA RESSOURCE DE CLÉ pour indiquer le nom de la ressource de la clé que vous souhaitez utiliser. Par exemple, vous pouvez saisir projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key dans le champ Nom de la ressource de clé, puis cliquer sur ENREGISTRER.

  4. Vous pouvez également utiliser des libellés pour organiser vos ressources DataStream.

    1. Pour créer un libellé, cliquez sur AJOUTER UN LIBELLÉ, puis saisissez la paire clé-valeur du libellé.
    2. Pour supprimer le libellé, cliquez sur l'icône de corbeille à droite de la ligne correspondant au libellé.
  5. Si vous le souhaitez, ajoutez des règles d'alerte à votre flux. Les règles d'alerte définissent quand et comment vous souhaitez être averti des échecs de flux.

    1. Pour créer une règle d'alerte, cliquez sur Ajouter une règle d'alerte.
    2. La page Créer une règle d'alerte s'affiche dans Cloud Monitoring. Sur cette page, vous allez définir la règle d'alerte en cas d'échec de votre flux.

    Pour en savoir plus sur les règles d'alerte, consultez Gérer les règles d'alerte basées sur les métriques.

  6. Passez en revue les conditions préalables générées automatiquement qui reflètent la façon dont l'environnement doit être préparé pour un flux. Ces conditions préalables peuvent inclure la configuration de la base de données source et la procédure de connexion à la destination. Il est préférable d'appliquer ces prérequis dès la présente étape, mais vous pouvez le faire à tout moment avant de tester le flux ou de le démarrer. Pour en savoir plus sur ces conditions préalables, consultez Sources.

  7. Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de base de données source.

Spécifier des informations sur le profil de connexion source

  1. Si vous avez créé un profil de connexion source pour Oracle, MySQL, SQL Server ou PostgreSQL, sélectionnez-le dans la liste des profils de connexion.

    Si vous n'avez pas créé de profil de connexion source, créez-en un en cliquant sur CRÉER UN PROFIL DE CONNEXION en bas de la liste déroulante, puis suivez la même procédure que dans la section Créer des profils de connexion.

  2. Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données source et Datastream peuvent communiquer entre eux.

    Si le test échoue, le problème associé au profil de connexion s'affiche. Consultez la page Diagnostiquer les problèmes pour connaître les étapes de dépannage. Apportez les modifications nécessaires pour corriger le problème, puis recommencez le test.

  3. Cliquez sur CONTINUE (Continuer). Le panneau Configurer la source du flux de la page Créer un flux s'affiche.

Configurer les informations sur la base de données source du flux

Configurer la base de données source PostgreSQL

Si vous avez sélectionné PostgreSQL comme base de données source, vous devez définir ses propriétés de réplication.

  1. Dans la section Propriétés de la réplication, spécifiez les propriétés suivantes:
    1. Dans le champ Nom de l'emplacement de réplication, saisissez le nom de l'emplacement que vous avez créé spécifiquement pour ce flux. Le serveur de base de données utilise cet emplacement pour envoyer des événements à Datastream.
    2. Dans le champ Nom de la publication, saisissez le nom de la publication que vous avez créée dans la base de données. Une publication est un groupe de toutes les tables pour lesquelles vous souhaitez répliquer les modifications effectuées à l'aide de ce flux.
  2. Suivez la procédure décrite dans la section Configurer les bases de données sources.

Configurer la base de données source SQL Server

Si vous avez sélectionné SQL Server comme base de données source, vous devez définir la méthode CDC.

  1. Dans le menu déroulant Méthode CDC, sélectionnez la méthode CDC qui correspond à la configuration de votre base de données source :

    • Transaction logs (Journaux des transactions) : sélectionnez cette méthode pour traiter les modifications directement à partir des journaux de la base de données. Cette méthode est plus efficace et offre les meilleures performances, mais elle nécessite des étapes de configuration supplémentaires.
    • Tableaux des modifications: sélectionnez cette méthode pour traiter les modifications provenant de tableaux de modifications dédiés. Cette méthode est plus facile à configurer et présente moins de limites, mais elle accepte un débit inférieur et génère une charge plus importante sur votre base de données que la méthode des journaux de transactions.

    Pour en savoir plus sur la configuration de votre base de données SQL Server source, consultez Configurer une base de données SQL Server source.

  2. Suivez la procédure décrite dans la section Configurer les bases de données sources.

Configurer les bases de données sources

  1. Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les tables et les schémas de la base de données source que Datastream peut transférer vers la destination.

    1. Si vous souhaitez que Datastream transfère tous les schémas et toutes les tables, sélectionnez Toutes les tables de tous les schémas.
    2. Si vous souhaitez que Datastream ne transfère que des tables et des schémas spécifiques, sélectionnez Specific schemas and tables (Schémas et tables spécifiques), puis cochez les cases correspondant aux schémas et aux tables que Datastream doit extraire.

    3. Si vous souhaitez fournir une définition textuelle des tables et des schémas que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les schémas et les tables que vous souhaitez extraire avec Datastream.

      Si votre base de données contient un grand nombre de tables et de schémas, nous vous recommandons d'utiliser l'option Personnalisé, car il est possible que certains tableaux et schémas ne soient pas inclus dans la liste des objets à extraire.

  2. Si vous le souhaitez, développez le nœud Sélectionner des objets à exclure. Dans le champ Objets à exclure, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher Datastream d'extraire des données. La liste Objets à exclure prévaut sur la liste Objets à inclure. Si un objet répond aux critères des listes d'inclusion et d'exclusion, il est exclu du flux.

  3. Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données d'historique, puis effectuez l'une des opérations suivantes :
    1. Sélectionnez l'option Automatique pour diffuser toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination.

      Dans le champ Objets exclus du remplissage automatique, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher le remplissage des données dans la destination.

    2. Sélectionnez l'option Manuel pour diffuser uniquement les modifications apportées aux données de destination.
  4. Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Sélectionner un profil de connexion de destination

  1. Si vous avez créé un profil de connexion de destination, sélectionnez-le dans la liste des profils de connexion.

    Si vous n'avez pas créé de profil de connexion de destination, créez-en un en cliquant sur CRÉER UN PROFIL DE CONNEXION en bas de la liste déroulante, puis suivez la même procédure que dans la section Créer des profils de connexion.

  2. Cliquez sur CONTINUE (Continuer). Le panneau Configurer la destination du flux de la page Créer un flux s'affiche.

Configurer les informations sur la destination du flux

Destination BigQuery

  1. Sous Configurer la connexion de Datastream à BigQuery, spécifiez la manière dont Datastream doit diffuser des données vers un ensemble de données BigQuery. Sélectionnez l'une des options suivantes :

    • Ensemble de données pour chaque schéma: Datastream crée un ensemble de données BigQuery pour chaque schéma source, en fonction du nom du schéma.

      Si vous sélectionnez cette option, Datastream crée un ensemble de données dans le projet contenant le flux pour chaque schéma de la base de données source.

      En outre, lorsque vous sélectionnez l'option Ensemble de données pour chaque schéma :

      1. Dans le champ Emplacement, saisissez la région dans laquelle vous souhaitez créer l'ensemble de données.
      2. (Facultatif) Dans le champ Préfixe, définissez un préfixe pour l'ensemble de données créé par le flux. La chaîne que vous spécifiez est ajoutée au nom du schéma source. Par exemple, si le schéma s'appelle <mySchema> et que vous définissez le préfixe de l'ensemble de données sur <myPrefix>, Datastream crée un ensemble de données appelé <myPrefix><mySchema>.
      3. Spécifiez le mode de chiffrement de vos données dans BigQuery en sélectionnant une clé de chiffrement gérée par Google ou par le client.
    • Un seul ensemble de données pour tous les schémas: Datastream crée toutes les tables dans l'ensemble de données BigQuery existant que vous spécifiez. Chaque table créée par Datastream est nommée à l'aide d'une combinaison du nom du schéma source et du nom de la table, séparés par un trait de soulignement (par exemple, <mySchemaName>_<myTableName>).

  2. Spécifiez le mode d'écriture de flux. Sélectionnez votre mode d'écriture pour définir la manière dont les données sont écrites et traitées dans BigQuery:

    • Fusionner : sélectionnez cette option si vous souhaitez que vos données soient synchronisées avec la source.
    • Ajouter uniquement: sélectionnez cette option si vous souhaitez conserver toutes les données historiques pour vos événements de modification.
  3. Spécifiez la limite d'obsolescence des données. Disponible uniquement lorsque le mode Fusionner est sélectionné à l'étape précédente. Sélectionnez une limite pour équilibrer les performances et le coût des requêtes BigQuery vis-à-vis de la fraîcheur des données. BigQuery applique les modifications en arrière-plan de manière continue ou au moment de l'exécution de la requête, en fonction de la limite d'obsolescence. Une obsolescence plus faible (des données plus récentes) peut augmenter les coûts de traitement de BigQuery.

  4. Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Destination dans Cloud Storage

  1. Dans le champ Préfixe du chemin de flux, vous pouvez également saisir le dossier du bucket de destination dans lequel Datastream transférera des schémas, des tables et des données à partir d'une base de données source.

    Par exemple, si vous souhaitez que Datastream transfère les données de la base de données source vers le dossier /root/example du bucket de destination, saisissez /root/example dans le champ Préfixe du chemin de flux.

  2. Dans le champ Format de sortie, choisissez le format des fichiers écrits dans Cloud Storage.

  3. Facultatif. Si vous sélectionnez le format JSON, deux cases à cocher s'affichent:

    1. Inclure un fichier de schéma de types unifiés dans le chemin d'accès au fichier: si vous cochez cette case, Datastream écrit deux fichiers dans Cloud Storage: un fichier de données JSON et un fichier de schéma Avro. Le fichier de schéma porte le même nom que le fichier de données, avec une extension .schema. Si vous ne cochez pas cette case, Datastream n'écrit que le fichier de données JSON dans Cloud Storage. Par défaut, cette case n'est pas cochée.
    2. Activer la compression gzip: si vous cochez cette case, Datastream utilise l'utilitaire gzip pour compresser les fichiers écrits par Datastream dans Cloud Storage. Si vous ne cochez pas cette case, Datastream écrit les fichiers dans Cloud Storage sans les compresser. Par défaut, cette case est cochée.
  4. Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Créer le flux

  1. Vérifiez les détails du flux ainsi que les profils de connexion source et de destination que le flux utilisera pour transférer des données d'une base de données source vers une destination.
  2. Cliquez sur RUN VALIDATION (LANCER LA VALIDATION) pour valider le flux. En validant un flux, Datastream vérifie que la source est correctement configurée, vérifie que le flux peut se connecter à la source et à la destination, et vérifie la configuration de bout en bout du flux.

    1. Si la base de données source est Oracle, Datastream effectue les vérifications suivantes :

      VérificationDescription
      Validité de la liste d'objetsDatastream vérifie que la liste d'exclusion n'est pas basée sur la liste d'inclusion.
      Connectivité du tunnel SSH de transfertDatastream vérifie qu'il peut se connecter à un hôte bastion via un tunnel SSH de transfert.
      Connectivité à la base de données OracleDatastream vérifie qu'il peut se connecter à la base de données Oracle source.
      Autorisations d'utilisateur OracleDatastream vérifie que l'utilisateur qu'il utilise pour se connecter à la base de données source dispose de toutes les autorisations nécessaires pour récupérer les schémas, les tables et les données de la base de données afin que Datastream puisse diffuser ces informations dans la destination.
      Configuration du mode de journalisationDatastream vérifie que le mode de journalisation pour la base de données Oracle est défini sur ARCHIVELOG.
      Configuration de la journalisation supplémentaireDatastream vérifie que la journalisation supplémentaire est activée pour les tables de base de données qui sont insérées par flux depuis la source vers la destination.
      Configuration des fichiers journaux d'archiveDatastream vérifie que la journalisation des archives est configurée dans la source et que les fichiers journaux des archives sont bien présents.
      Autorisations Cloud Storage (pour les destinations Cloud Storage) Datastream vérifie qu'il dispose des autorisations nécessaires pour écrire dans le bucket Cloud Storage de destination.
    2. Si votre base de données source est MySQL, Datastream effectue les vérifications suivantes :

      VérificationDescription
      Validité de la liste d'objetsDatastream vérifie que la liste d'exclusion n'est pas basée sur la liste d'inclusion.
      Connectivité du tunnel SSH de transfertDatastream vérifie qu'il peut se connecter à un hôte bastion via un tunnel SSH de transfert.
      Connectivité à la base de données MySQLDatastream vérifie qu'il peut se connecter à la base de données MySQL source.
      La journalisation binaire est activéeDatastream vérifie que les fichiers journaux binaires sont correctement configurés et que des fichiers journaux sont bien présents.
      Configuration du format des journaux binairesDatastream vérifie que le format du journal binaire de la base de données MySQL est défini sur ROW.
      Autorisations de réplicationDatastream vérifie qu'il est autorisé à répliquer une base de données MySQL.
      Autorisations Cloud Storage (pour les destinations Cloud Storage)Datastream vérifie qu'il dispose des autorisations nécessaires pour écrire dans le bucket Cloud Storage de destination.
    3. Si votre base de données source est PostgreSQL, Datastream effectue les vérifications suivantes :

      VérifierDescription
      Connectivité à la base de données PostgreSQLDatastream vérifie qu'il peut se connecter à la base de données PostgreSQL source.
      Le décodage logique est activéDatastream vérifie que le paramètre wal_level de la base de données PostgreSQL est défini sur logical.
      Configuration des emplacements de réplicationDatastream vérifie si l'emplacement de réplication PostgreSQL existe et est actif, si Datastream dispose des autorisations requises pour y accéder et s'il est correctement configuré.
      Configuration de la publicationDatastream vérifie que la publication existe et que les tables à répliquer pour le flux sont incluses dans la publication.
      Autorisations de remplissageDatastream vérifie que les tables requises pour le remplissage des données historiques existent et qu'il dispose des autorisations nécessaires pour les lire.
    4. Si votre base de données source est SQL Server, Datastream effectue les vérifications suivantes:

      VérifierDescription
      Édition SQL ServerDatastream vérifie que l'édition de la base de données SQL Server source est compatible. Pour en savoir plus sur les éditions compatibles, consultez la section Versions.
      Autorisations utilisateur SQL ServerDatastream vérifie que l'utilisateur dispose des autorisations requises pour accéder à la base de données SQL Server source.
      La CDC SQL Server est activéeDatastream vérifie si la CDC est activée pour la base de données et toutes les tables incluses dans le flux.
      Validations de bases de données SQL ServerDatastream vérifie si la base de données source est configurée correctement, si toutes les exigences de réplication sont remplies et si les colonnes ne contiennent aucun type de données non compatible.
      Autorisations Cloud Storage ou BigQueryDatastream vérifie que l'utilisateur dispose des autorisations nécessaires pour écrire dans la destination.
  3. Une fois tous les tests de validation réussis, cliquez sur CRÉER ET DÉMARRER pour créer le flux et le démarrer immédiatement, ou sur CRÉER pour créer le flux sans le démarrer immédiatement.

    Si vous ne démarrez pas le flux immédiatement, vous pouvez le démarrer sur la page Flux en cliquant sur DÉMARRER.

Une fois le flux créé, vous pouvez en afficher des informations générales et détaillées.

Étape suivante