Cette page a été traduite par l'API Cloud Translation.

Créer un flux

Dans cette section, vous allez apprendre à créer un flux. Datastream utilise ce flux pour transférer des données d'une base de données Oracle, MySQL, SQL Server ou PostgreSQL source vers BigQuery ou Cloud Storage.

La création d'un flux comprend les éléments suivants :

Définir les paramètres du flux.
Sélectionner le profil de connexion que vous avez créé pour votre source Oracle, MySQL, SQL Server, PostgreSQL, Salesforce ou MongoDB (profil de connexion source) ou créer un profil de connexion source si vous n'en avez pas créé.
Configurez des informations sur la base de données source du flux en spécifiant les tables et les schémas de la base de données source dans Datastream :
- Transfert possible vers la destination.
- Transfert restreint vers la destination.
Déterminez si Datastream remplira les données de l'historique, diffusera les modifications en cours vers la destination ou ne diffusera que les modifications apportées aux données. Lorsque vous activez le remplissage des données de l'historique, vous pouvez éventuellement spécifier des schémas et des tables de base de données source que Datastream ne doit pas remplir dans la destination.
Sélectionner le profil de connexion que vous avez créé pour BigQuery ou Cloud Storage (profil de connexion de destination) ou créer un profil de connexion de destination si vous n'en avez pas créé.
Configurer des informations sur la destination du flux. Voici quelques exemples :
- Pour BigQuery :
  - Ensembles de données dans lesquels Datastream répliquera les schémas, les tables et les données d'une base de données source.
- Pour Cloud Storage :
  - Dossier du bucket de destination dans lequel Datastream transférera les schémas, les tables et les données d'une base de données source.
Validez le flux pour vous assurer qu'il fonctionne correctement. Valider un flux consiste à vérifier :
- Si la source est correctement configurée pour autoriser Datastream à diffuser des données à partir de celle-ci.
- Si le flux peut se connecter à la source et à la destination.
- La configuration de bout en bout du flux.

Avant de commencer

Assurez-vous d'avoir configuré votre base de données source pour la réplication. Pour en savoir plus sur les étapes requises pour chaque type de source compatible, consultez Configurer des sources.
Découvrez les étapes à suivre pour configurer la destination sélectionnée. Pour en savoir plus, consultez Configurer des destinations.

Définir les paramètres du flux

Accédez à la page Flux de la console Google Cloud .

Accéder à la page "Flux"
Cliquez sur CRÉER UN FLUX.

Utilisez le tableau suivant pour renseigner les champs de la section Définir les détails du flux de la page Créer un flux :

Champ	Description
Nom du flux	Saisissez le nom à afficher du flux.
ID du flux	Datastream renseigne automatiquement ce champ en fonction du nom de flux saisi. Vous pouvez conserver l'ID généré automatiquement ou le modifier.
Région	Sélectionnez la région dans laquelle le flux est stocké. Comme toutes les ressources, les flux sont enregistrés dans une région. Le choix de région n'affecte pas si votre flux peut se connecter à la base de données source ou à la destination, mais peut affecter la disponibilité si la région subit un temps d'arrêt. Pour optimiser les coûts et les performances, nous vous recommandons de conserver toutes les ressources du flux dans la même région que vos données sources.
Type de source	Sélectionnez le type de profil que vous avez spécifié lorsque vous avez créé un profil de connexion pour votre source Oracle, MySQL, SQL Server, PostgreSQL, Salesforce ou MongoDB. Si vous n'avez pas créé de profil de connexion pour la base de données source, vous pouvez le créer maintenant.
Type de destination	Sélectionnez le type de profil que vous avez spécifié lors de la création d'un profil de connexion pour une destination BigQuery ou Cloud Storage. Si vous n'avez pas créé de profil de connexion pour la destination, vous pouvez le faire maintenant.
Chiffrement	Par défaut, vos données sont chiffrées à l'aide d'une clé gérée par Google Cloud. Si vous souhaitez gérer votre chiffrement, vous pouvez utiliser une clé de chiffrement gérée par le client (CMEK) : Cochez la case Clé Cloud KMS. Dans le menu déroulant Type de clé, sélectionnez Cloud KMS, puis votre CMEK. Si vous ne voyez pas votre clé, cliquez sur SAISIR LE NOM DE RESSOURCE DE LA CLÉ pour fournir le nom de ressource de la clé que vous souhaitez utiliser. Par exemple, vous pouvez saisir `projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key` dans le champ Nom de ressource de la clé, puis cliquer sur ENREGISTRER. Lors de la création du flux, Datastream vérifie que la clé CMEK existe et que Datastream est autorisé à l'utiliser. Pour savoir comment créer une CMEK ou accorder des autorisations à Datastream pour la clé, consultez Utiliser des clés de chiffrement gérées par le client (CMEK).

Vous pouvez également utiliser des libellés pour organiser vos ressources DataStream.
1. Pour créer un libellé, cliquez sur AJOUTER UN LIBELLÉ, puis saisissez la paire clé-valeur du libellé.
2. Pour supprimer le libellé, cliquez sur l'icône de corbeille à droite de la ligne correspondant au libellé.
Remarque : Si votre source est SQL Server, vous pouvez configurer votre flux pour répliquer les colonnes ajoutées au schéma source après la création du flux en ajoutant le libellé enable_ddl_support_for_ct. Pour en savoir plus, consultez Comment Datastream gère les modifications LDD apportées au schéma source.
Vous pouvez également ajouter des règles d'alerte pour votre flux. Les règles d'alerte définissent quand et comment vous souhaitez être averti des échecs de flux.
1. Pour créer une règle d'alerte, cliquez sur Ajouter une règle d'alerte.
2. La page Créer une règle d'alerte s'affiche dans Cloud Monitoring. Sur cette page, vous définissez la règle d'alerte en cas d'échec de votre flux.
Pour en savoir plus sur les règles d'alerte, consultez Gérer les règles d'alerte basées sur des métriques.
Passez en revue les conditions préalables générées automatiquement qui reflètent la façon dont l'environnement doit être préparé pour un flux. Ces prérequis peuvent inclure la configuration de la base de données source et la connexion à la destination. Il est préférable d'appliquer ces prérequis dès la présente étape, mais vous pouvez le faire à tout moment avant de tester le flux ou de le démarrer. Pour en savoir plus sur ces conditions préalables, consultez Sources.
Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de base de données source.

Remarque : Si le type de votre base de données source est Oracle, le nom du panneau est Définir le profil de connexion Oracle. Si vous sélectionnez une autre base de données source, son nom s'affiche dans le nom du panneau.

Spécifier des informations sur le profil de connexion source

Si vous avez créé un profil de connexion source pour Oracle, MySQL, SQL Server, PostgreSQL, Salesforce ou MongoDB, sélectionnez-le dans la liste des profils de connexion.

Si vous n'avez pas créé de profil de connexion source, créez-en un en cliquant sur CRÉER UN PROFIL DE CONNEXION en bas de la liste déroulante, puis suivez la même procédure que dans la section Créer des profils de connexion.
Cliquez sur RUN TEST (EXÉCUTER LE TEST) pour vérifier que la base de données source et Datastream peuvent communiquer entre eux.

Si le test échoue, le problème associé au profil de connexion s'affiche. Pour connaître les étapes de dépannage, consultez la page Diagnostiquer les problèmes. Apportez les modifications nécessaires pour corriger le problème, puis recommencez le test.
Cliquez sur CONTINUE (Continuer). Le panneau Configurer la source du flux de la page Créer un flux s'affiche.

Configurer les informations sur la base de données source du flux

Configurer une base de données source PostgreSQL

Définissez les propriétés de réplication pour votre base de données source PostgreSQL. Dans la section Propriétés de réplication, spécifiez les propriétés suivantes :

Dans le champ Nom de l'emplacement de réplication, saisissez le nom de l'emplacement que vous avez créé spécifiquement pour ce flux. Le serveur de base de données utilise cet emplacement pour envoyer des événements à Datastream.
Dans le champ Nom de la publication, saisissez le nom de la publication que vous avez créée dans la base de données. Une publication est un groupe de toutes les tables dont vous souhaitez répliquer les modifications à l'aide de ce flux.

Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les tables et les schémas de la base de données source que Datastream peut transférer vers la destination.

Si vous souhaitez que Datastream transfère tous les schémas et toutes les tables, sélectionnez Toutes les tables de tous les schémas.
Si vous souhaitez que Datastream ne transfère que des tables et schémas spécifiques, sélectionnez Schémas et tables spécifiques, puis cochez les cases correspondant aux schémas et aux tables que Datastream doit extraire.

Si vous souhaitez fournir une définition textuelle des tables et des schémas que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les schémas et les tables que vous souhaitez extraire avec Datastream. Si votre base de données comporte un grand nombre de tables et de schémas, nous vous recommandons d'utiliser l'option Personnalisé, car certaines tables et certains schémas peuvent ne pas être inclus dans la liste des objets à extraire.
Saisissez les schémas et les tables sous forme de liste d'éléments séparés par une virgule, en utilisant le format [schema].[table]. Le schéma et la table peuvent être des caractères génériques (astérisque). Vous ne pouvez pas utiliser de caractères génériques partiels.

Si vous le souhaitez, développez le nœud Sélectionner des objets à exclure. Dans le champ Objets à exclure, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher Datastream d'extraire des données. La liste Objets à exclure prévaut sur la liste Objets à inclure. Si un objet répond aux critères des listes d'inclusion et d'exclusion, il est exclu du flux.
Vous définissez ces schémas et ces tables avec la même logique de séparation par une virgule que celle à utiliser pour spécifier des schémas et des tables que Datastream doit extraire.
Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données historiques, puis effectuez l'une des opérations suivantes :

Sélectionnez l'option Automatique pour diffuser toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination. Dans le champ Objets exclus du remplissage automatique, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher le remplissage de Datastream dans la destination.
Sélectionnez l'option Manuel pour diffuser uniquement les modifications apportées aux données de destination.

Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Configurer une base de données MySQL source

Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les tables et les schémas de la base de données source que Datastream peut transférer vers la destination.

Si vous souhaitez que Datastream transfère tous les schémas et toutes les tables, sélectionnez Toutes les tables de tous les schémas.
Si vous souhaitez que Datastream ne transfère que des tables et schémas spécifiques, sélectionnez Schémas et tables spécifiques, puis cochez les cases correspondant aux schémas et aux tables que Datastream doit extraire.

Si vous souhaitez fournir une définition textuelle des tables et des schémas que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les schémas et les tables que vous souhaitez extraire avec Datastream. Si votre base de données comporte un grand nombre de tables et de schémas, nous vous recommandons d'utiliser l'option Personnalisé, car certaines tables et certains schémas peuvent ne pas être inclus dans la liste des objets à extraire.
Saisissez les schémas et les tables sous forme de liste d'éléments séparés par une virgule, en utilisant le format [schema].[table]. Le schéma et la table peuvent être des caractères génériques (astérisque). Vous ne pouvez pas utiliser de caractères génériques partiels.

Si vous le souhaitez, développez le nœud Sélectionner des objets à exclure. Dans le champ Objets à exclure, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher Datastream d'extraire des données. La liste Objets à exclure prévaut sur la liste Objets à inclure. Si un objet répond aux critères des listes d'inclusion et d'exclusion, il est exclu du flux.
Vous définissez ces schémas et ces tables avec la même logique de séparation par une virgule que celle à utiliser pour spécifier des schémas et des tables que Datastream doit extraire.
Spécifiez la méthode CDC pour votre flux :

Réplication basée sur les GTID (identifiants de transaction globaux) : sélectionnez cette méthode si vous souhaitez que Datastream prenne en charge les basculements et fournisse une réplication fluide, quelles que soient les modifications apportées à votre cluster de bases de données.
Réplication basée sur le journal binaire : sélectionnez cette méthode pour lire et répliquer les modifications directement à partir des fichiers journaux binaires d'une instance de base de données sélectionnée. Vous ne pouvez pas basculer un flux en cours d'exécution vers une autre instance source ou un réplica à l'aide de cette méthode CDC.

Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données historiques, puis effectuez l'une des opérations suivantes :

Sélectionnez l'option Automatique pour diffuser toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination. Dans le champ Objets exclus du remplissage automatique, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher le remplissage de Datastream dans la destination.
Sélectionnez l'option Manuel pour diffuser uniquement les modifications apportées aux données de destination.

Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Configurer une base de données Oracle source

Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les tables et les schémas de la base de données source que Datastream peut transférer vers la destination.

Si vous souhaitez que Datastream transfère tous les schémas et toutes les tables, sélectionnez Toutes les tables de tous les schémas.
Si vous souhaitez que Datastream ne transfère que des tables et schémas spécifiques, sélectionnez Schémas et tables spécifiques, puis cochez les cases correspondant aux schémas et aux tables que Datastream doit extraire.

Si vous souhaitez fournir une définition textuelle des tables et des schémas que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les schémas et les tables que vous souhaitez extraire avec Datastream. Si votre base de données comporte un grand nombre de tables et de schémas, nous vous recommandons d'utiliser l'option Personnalisé, car certaines tables et certains schémas peuvent ne pas être inclus dans la liste des objets à extraire.
Saisissez les schémas et les tables sous forme de liste d'éléments séparés par une virgule, en utilisant le format [schema].[table]. Le schéma et la table peuvent être des caractères génériques (astérisque). Vous ne pouvez pas utiliser de caractères génériques partiels. Sauf indication contraire, les schémas et tables prédéfinis d'Oracle ne sont pas extraits dans la destination.

Si vous le souhaitez, développez le nœud Sélectionner des objets à exclure. Dans le champ Objets à exclure, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher Datastream d'extraire des données. La liste Objets à exclure prévaut sur la liste Objets à inclure. Si un objet répond aux critères des listes d'inclusion et d'exclusion, il est exclu du flux.
Vous définissez ces schémas et ces tables avec la même logique de séparation par une virgule que celle à utiliser pour spécifier des schémas et des tables que Datastream doit extraire.
Spécifiez la méthode CDC pour votre flux :

LogMiner : sélectionnez cette méthode pour interroger les journaux de rétablissement archivés à l'aide de l'API LogMiner. LogMiner est compatible avec la plupart des options disponibles pour Oracle, telles que les options de chiffrement et de compression.
Lecteur binaire (aperçu) : sélectionnez cette méthode pour extraire les modifications directement des journaux Oracle. Cela permet une réplication plus rapide des grandes bases de données Oracle, ainsi qu'une latence et une surcharge réduites. Lorsque vous sélectionnez cette option, un menu déroulant supplémentaire s'affiche. Sélectionnez la façon dont vous souhaitez accéder à vos fichiers journaux Oracle :

Gestion automatique de l'espace de stockage (ASM) : sélectionnez cette option si votre base de données utilise ASM. Assurez-vous d'avoir coché la case Activer l'accès ASM pour le lecteur binaire et d'avoir renseigné les détails de votre instance ASM dans votre profil de connexion à la source.
Répertoires de base de données : sélectionnez cette option si vous n'utilisez pas ASM pour stocker vos fichiers journaux. Si vous sélectionnez des répertoires de base de données, vous devez fournir les noms des répertoires des journaux de rétablissement et des journaux archivés.

Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données historiques, puis effectuez l'une des opérations suivantes :

Sélectionnez l'option Automatique pour diffuser toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination. Dans le champ Objets exclus du remplissage automatique, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher le remplissage de Datastream dans la destination.
Sélectionnez l'option Manuel pour diffuser uniquement les modifications apportées aux données de destination.

Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Configurer une base de données source SQL Server

Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les tables et les schémas de la base de données source que Datastream peut transférer vers la destination.

Si vous souhaitez que Datastream transfère tous les schémas et toutes les tables, sélectionnez Toutes les tables de tous les schémas.
Si vous souhaitez que Datastream ne transfère que des tables et schémas spécifiques, sélectionnez Schémas et tables spécifiques, puis cochez les cases correspondant aux schémas et aux tables que Datastream doit extraire.

Si vous souhaitez fournir une définition textuelle des tables et des schémas que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les schémas et les tables que vous souhaitez extraire avec Datastream. Si votre base de données comporte un grand nombre de tables et de schémas, nous vous recommandons d'utiliser l'option Personnalisé, car certaines tables et certains schémas peuvent ne pas être inclus dans la liste des objets à extraire.
Saisissez les schémas et les tables sous forme de liste d'éléments séparés par une virgule, en utilisant le format [schema].[table]. Le schéma et la table peuvent être des caractères génériques (astérisque). Vous ne pouvez pas utiliser de caractères génériques partiels.

Si vous le souhaitez, développez le nœud Sélectionner des objets à exclure. Dans le champ Objets à exclure, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher Datastream d'extraire des données. La liste Objets à exclure prévaut sur la liste Objets à inclure. Si un objet répond aux critères des listes d'inclusion et d'exclusion, il est exclu du flux.
Vous définissez ces schémas et ces tables avec la même logique de séparation par une virgule que celle à utiliser pour spécifier des schémas et des tables que Datastream doit extraire.
Spécifiez la méthode CDC pour votre flux :

Journaux de transactions : sélectionnez cette méthode pour traiter les modifications directement à partir des journaux de base de données. Cette méthode est plus efficace et offre les meilleures performances, mais elle nécessite des étapes de configuration supplémentaires.
Tables de modifications : sélectionnez cette méthode pour traiter les modifications à partir de tables de modifications dédiées. Cette méthode est plus facile à configurer et présente moins de limites, mais elle prend en charge un débit plus faible et génère une charge plus importante sur votre base de données que la méthode des journaux de transactions.

Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données historiques, puis effectuez l'une des opérations suivantes :

Sélectionnez l'option Automatique pour diffuser toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination. Dans le champ Objets exclus du remplissage automatique, saisissez les tables et les schémas de la base de données source pour lesquels vous souhaitez empêcher le remplissage de Datastream dans la destination.
Sélectionnez l'option Manuel pour diffuser uniquement les modifications apportées aux données de destination.

Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Configurer une organisation Salesforce source

Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les objets et les champs de votre organisation que vous souhaitez que Datastream transfère vers la destination.

Si vous souhaitez que Datastream transfère tous les objets, sélectionnez Tous les objets.
Si vous souhaitez que Datastream ne transfère que des objets spécifiques, sélectionnez Objets spécifiques, puis cochez les cases correspondant aux objets que Datastream doit extraire.

Si vous souhaitez fournir une définition textuelle des objets que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les objets que vous souhaitez extraire avec Datastream. Saisissez les objets sous forme de liste d'éléments séparés par une virgule, en utilisant le format [object].[field]. Si votre base de données contient un grand nombre d'objets, nous vous recommandons d'utiliser l'option Personnalisé, car il est possible que certaines tables et certains schémas ne soient pas inclus dans la liste des objets à extraire.

Définissez la valeur de l'intervalle d'interrogation en minutes. Datastream utilise cette valeur pour vérifier si des données ont été modifiées dans votre organisation Salesforce. Plus la valeur est élevée, plus le coût et la charge pour votre organisation sont faibles. Plus la valeur est faible, plus les données de la destination sont à jour.
Si vous le souhaitez, développez le nœud Sélectionner des objets à exclure. Dans le champ Objets à exclure, saisissez les objets et les champs de l'organisation source pour lesquels vous souhaitez empêcher Datastream d'extraire des données. La liste Objets à exclure prévaut sur la liste Objets à inclure. Si un objet répond aux critères des listes d'inclusion et d'exclusion, il est exclu du flux.
Vous définissez ces objets et ces champs avec la même logique de séparation par une virgule que celle à utiliser pour inclure des objets.
Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données historiques, puis effectuez l'une des opérations suivantes :

Sélectionnez l'option Automatique pour répliquer toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination. Dans le champ Objets exclus du remplissage automatique, saisissez les objets de l'organisation source pour lesquels vous souhaitez empêcher le remplissage de Datastream dans la destination.
Sélectionnez l'option Manuel pour répliquer uniquement les modifications apportées aux données de destination.

Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Configurer une base de données MongoDB source

Dans la section Sélectionner les objets à inclure, utilisez le menu déroulant Objets à inclure pour spécifier les bases de données et les collections que vous souhaitez que Datastream transfère vers la destination.

Si vous souhaitez que Datastream transfère toutes les collections, sélectionnez Toutes les bases de données et collections.
Si vous souhaitez que Datastream ne transfère que des collections spécifiques, sélectionnez Bases de données et collections spécifiques, puis cochez les cases correspondant aux collections que Datastream doit extraire.

Si vous souhaitez fournir une définition textuelle des collections que vous souhaitez que Datastream transfère, sélectionnez Personnalisé, puis, dans le champ Critères de correspondance des objets, saisissez les collections que vous souhaitez extraire avec Datastream. Saisissez les objets sous forme de liste d'éléments séparés par une virgule, en utilisant le format [collection].[field]. Si votre base de données contient un grand nombre d'objets, nous vous recommandons d'utiliser l'option Personnalisé, car il est possible que certaines tables et certains schémas ne soient pas inclus dans la liste des objets à extraire.

Si vous le souhaitez, développez le nœud Choisir un mode de remplissage pour les données historiques, puis effectuez l'une des opérations suivantes :

Sélectionnez l'option Automatique pour répliquer toutes les données existantes, en plus des modifications apportées aux données, de la source vers la destination. Dans le champ Objets exclus du remplissage automatique, saisissez les objets de l'organisation source pour lesquels vous souhaitez empêcher le remplissage de Datastream dans la destination.
Sélectionnez l'option Manuel pour répliquer uniquement les modifications apportées aux données de destination.

Cliquez sur CONTINUER. Le panneau Définir le profil de connexion de la page Créer un flux s'affiche pour votre type de destination.

Sélectionner un profil de connexion de destination

Si vous avez créé un profil de connexion de destination, sélectionnez-le dans la liste des profils de connexion.

Si vous n'avez pas créé de profil de connexion de destination, créez-en un en cliquant sur CRÉER UN PROFIL DE CONNEXION en bas de la liste déroulante, puis suivez la même procédure que dans la section Créer des profils de connexion.

Remarque : Pour la destination des tables BigLake Iceberg, utilisez ou créez un profil de connexion BigQuery.
Cliquez sur CONTINUER. Le panneau Configurer la destination du flux de la page Créer un flux s'affiche.

Configurer les informations sur la destination du flux

Cette section décrit les informations que vous devez fournir pour configurer votre destination BigQuery ou Cloud Storage.

Destination BigQuery

Dans la section Spécifier comment Datastream doit diffuser des données dans un ensemble de données BigQuery, sélectionnez l'une des options suivantes dans le menu déroulant Regroupement de schémas :
- Ensemble de données pour chaque schéma : Datastream crée un ensemble de données BigQuery pour chaque schéma source, en fonction du nom du schéma.
  
  Si vous sélectionnez cette option, Datastream crée un ensemble de données pour chaque schéma de la base de données source dans le projet contenant le flux.
  
  De plus, si vous sélectionnez l'option Ensemble de données pour chaque schéma, vous devez fournir les informations suivantes :
  1. Dans la section Type d'emplacement, indiquez où vous souhaitez stocker vos données dans BigQuery. Sélectionnez Région pour spécifier un seul emplacement géographique ou Multirégion pour spécifier une zone plus vaste contenant au moins deux régions. Si votre priorité est d'optimiser les coûts et les performances, sélectionnez Région et conservez vos ensembles de données à côté des autres ressources Google Cloud que vous gérez. Si vous souhaitez bénéficier de limites de quota plus élevées, sélectionnez Multirégion pour autoriser BigQuery à utiliser plusieurs régions au sein d'un groupe. Lorsque vous sélectionnez Région, le champ est défini par défaut sur la région que vous avez sélectionnée pour le flux.
  2. (Facultatif) Dans le champ Préfixe de l'ensemble de données, définissez un préfixe pour l'ensemble de données créé par le flux. La chaîne que vous spécifiez est ajoutée au nom du schéma source. Par exemple, si le schéma est appelé <mySchema> et que vous définissez le préfixe de l'ensemble de données sur <myPrefix>, Datastream crée un ensemble de données appelé <myPrefix><mySchema>.
  3. Développez la section Afficher les options de chiffrement avancées.
  4. Spécifiez la façon dont vous souhaitez que vos données soient chiffrées dans BigQuery en sélectionnant une clé de chiffrement gérée par Google ou par le client.
    
    Remarque : L'option Ensemble de données pour chaque schéma n'est pas compatible avec les sources Salesforce.
- Ensemble de données unique pour tous les schémas : Datastream crée toutes les tables dans l'ensemble de données BigQuery existant que vous spécifiez. Chaque table créée par Datastream est nommée en combinant le nom du schéma source et le nom de la table, séparés par un trait de soulignement (par exemple, <mySchemaName>_<myTableName>). Les ensembles de données disponibles sont regroupés par région. Vous pouvez également créer un ensemble de données.
Spécifiez le mode d'écriture du flux. Sélectionnez votre mode d'écriture pour définir la façon dont les données sont écrites et traitées dans BigQuery :
- Fusionner : sélectionnez cette option si vous souhaitez que vos données soient synchronisées avec la source.
- Ajout uniquement : sélectionnez cette option si vous souhaitez conserver toutes les données historiques de vos événements de modification.
Spécifiez la limite d'obsolescence des données. Disponible uniquement lorsque le mode Fusionner est sélectionné à l'étape précédente. Sélectionnez une limite pour équilibrer les performances et le coût des requêtes BigQuery vis-à-vis de la fraîcheur des données. BigQuery applique les modifications en arrière-plan de manière continue ou au moment de l'exécution de la requête, en fonction de la limite d'obsolescence. Une obsolescence plus faible (des données plus récentes) peut augmenter les coûts de traitement de BigQuery.
Si vous sélectionnez 0 minute, BigQuery renvoie toujours les résultats de la requête en fonction des données les plus récentes. Cela entraîne le coût le plus élevé pour la requête.
Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Destination : tables BigLake Iceberg

Dans la section Spécifier comment Datastream doit diffuser des données dans un ensemble de données BigQuery, sélectionnez la manière dont Datastream doit créer des schémas et des tables à partir du menu déroulant Regroupement de schémas :
- Ensemble de données pour chaque schéma : Datastream crée un ensemble de données BigQuery pour chaque schéma source, en fonction du nom du schéma.
  
  Si vous sélectionnez cette option, Datastream crée un ensemble de données pour chaque schéma de la base de données source dans le projet contenant le flux.
  
  De plus, si vous sélectionnez l'option Ensemble de données pour chaque schéma, vous devez fournir les informations suivantes :
  1. Dans la section Type d'emplacement, indiquez où vous souhaitez stocker vos données dans BigQuery. Sélectionnez Région pour spécifier un seul emplacement géographique ou Multirégion pour spécifier une zone plus vaste contenant au moins deux régions. Si votre priorité est d'optimiser les coûts et les performances, sélectionnez Région et conservez vos ensembles de données à côté des autres ressources Google Cloud que vous gérez. Si vous souhaitez bénéficier de limites de quota plus élevées, sélectionnez Multirégion pour autoriser BigQuery à utiliser plusieurs régions au sein d'un groupe. Lorsque vous sélectionnez Région, le champ est défini par défaut sur la région que vous avez sélectionnée pour le flux.
  2. (Facultatif) Dans le champ Préfixe de l'ensemble de données, définissez un préfixe pour l'ensemble de données créé par le flux. La chaîne que vous spécifiez est ajoutée au nom du schéma source. Par exemple, si le schéma est appelé <mySchema> et que vous définissez le préfixe de l'ensemble de données sur <myPrefix>, Datastream crée un ensemble de données appelé <myPrefix><mySchema>.
  3. Développez la section Afficher les options de chiffrement avancées.
  4. Spécifiez la façon dont vous souhaitez que vos données soient chiffrées dans BigQuery en sélectionnant une clé de chiffrement gérée par Google ou par le client.
    
    Remarque : L'option Ensemble de données pour chaque schéma n'est pas compatible avec les sources Salesforce.
- Ensemble de données unique pour tous les schémas : Datastream crée toutes les tables dans l'ensemble de données BigQuery existant que vous spécifiez. Chaque table créée par Datastream est nommée en combinant le nom du schéma source et le nom de la table, séparés par un trait de soulignement (par exemple, <mySchemaName>_<myTableName>). Les ensembles de données disponibles sont regroupés par région. Vous pouvez également créer un ensemble de données.
Dans la section Définir la connexion Datastream aux tables BigLake Iceberg, fournissez les informations suivantes :
- Dans le menu déroulant ID de connexion, sélectionnez l'identifiant de la connexion BigQuery que vous avez créée et que vous souhaitez utiliser pour votre flux. Pour savoir comment créer une connexion à une ressource cloud dans BigQuery, consultez Configurer des tables BigLake Iceberg dans BigQuery.
  
  Remarque : Pour éviter l'échec de votre flux, assurez-vous que l'ID de connexion dispose des autorisations d'écriture sur le bucket Cloud Storage sous-jacent.
- Saisissez ou sélectionnez l'adresse URI du bucket que vous avez créé dans Cloud Storage. Pour savoir comment créer un bucket Cloud Storage, consultez Créer un bucket.
Vérifiez le format de fichier et le format de tableau. Datastream est compatible avec le format de fichier Parquet et le format de table Iceberg.
Consultez la section Mode d'écriture de flux. Datastream n'est compatible qu'avec le mode d'écriture Ajout uniquement lors du transfert par flux vers les tables BigLake Iceberg.
Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Destination dans Cloud Storage

Dans le champ Préfixe du chemin de flux, vous pouvez également saisir le dossier du bucket de destination dans lequel Datastream transférera des schémas, des tables et des données à partir d'une base de données source.

Par exemple, si vous souhaitez que Datastream transfère les données de la base de données source vers le dossier /root/example du bucket de destination, saisissez /root/example dans le champ Préfixe du chemin de flux.
Dans le champ Format de sortie, choisissez le format des fichiers écrits dans Cloud Storage.
Datastream est compatible avec deux formats de sortie : Avro et JSON.
Facultatif. Si vous sélectionnez le format JSON, deux cases à cocher s'affichent :
1. Inclure un fichier de schéma de types unifiés dans le chemin d'accès au fichier : si vous cochez cette case, Datastream écrit deux fichiers dans Cloud Storage : un fichier de données JSON et un fichier de schéma Avro. Le fichier de schéma porte le même nom que le fichier de données, avec une extension .schema. Si vous ne cochez pas cette case, Datastream n'écrit que le fichier de données JSON dans Cloud Storage. Par défaut, cette case n'est pas cochée.
2. Activer la compression gzip : si vous cochez cette case, Datastream utilise l'utilitaire gzip pour compresser les fichiers qu'il écrit dans Cloud Storage. Si vous ne cochez pas cette case, Datastream écrit les fichiers dans Cloud Storage sans les compresser. Par défaut, cette case est cochée.
Cliquez sur CONTINUER. Le panneau Vérifier les détails et créer le flux de la page Créer un flux s'affiche.

Créer le flux

Vérifiez les détails du flux, ainsi que les profils de connexion source et de destination que le flux utilisera pour transférer des données d'une base de données source vers une destination.

Cliquez sur RUN VALIDATION (LANCER LA VALIDATION) pour valider le flux. En validant un flux, Datastream vérifie que la source est correctement configurée, vérifie que le flux peut se connecter à la source et à la destination, et vérifie la configuration de bout en bout du flux.

Si la base de données source est Oracle, Datastream effectue les vérifications suivantes :

Vérification	Description
Validité de la liste d'objets	Datastream vérifie que la liste d'exclusion n'est pas basée sur la liste d'inclusion.
Connectivité du tunnel SSH de transfert	Datastream vérifie qu'il peut se connecter à un hôte bastion via un tunnel SSH de transfert.
Connectivité à la base de données Oracle	Datastream vérifie qu'il peut se connecter à la base de données Oracle source.
Autorisations d'utilisateur Oracle	Datastream vérifie que l'utilisateur qu'il utilise pour se connecter à la base de données source dispose de toutes les autorisations nécessaires pour récupérer les schémas, les tables et les données de la base de données afin que Datastream puisse diffuser ces informations dans la destination.
Configuration du mode de journalisation	Datastream vérifie que le mode de journalisation pour la base de données Oracle est défini sur ARCHIVELOG.
Configuration de la journalisation supplémentaire	Datastream vérifie que la journalisation supplémentaire est activée pour les tables de base de données qui sont insérées par flux depuis la source vers la destination.
Configuration Oracle CDC	Datastream vérifie que la méthode CDC que vous avez sélectionnée est conforme à la configuration de votre base de données.
Configuration des fichiers journaux d'archive	Datastream vérifie que la journalisation des archives est configurée dans la source et que les fichiers journaux des archives sont bien présents.
Autorisations Cloud Storage (pour les destinations Cloud Storage)	Datastream vérifie qu'il dispose des autorisations nécessaires pour écrire dans le bucket Cloud Storage de destination.

Si votre base de données source est MySQL, Datastream effectue les vérifications suivantes :

Vérification	Description
Autorisations de réplication	Datastream vérifie qu'il est autorisé à répliquer une base de données MySQL.
Version de la base de données	Datastream vérifie que la version de la base de données MySQL est compatible. Pour en savoir plus sur les éditions compatibles, consultez Versions.
Configuration du format des journaux binaires	Datastream vérifie que le format du journal binaire de la base de données MySQL est défini sur `ROW`.
La journalisation binaire est activée	Datastream vérifie que les fichiers journaux binaires sont correctement configurés et que des fichiers journaux sont bien présents.
Configuration de l'image des lignes du journal binaire	Datastream vérifie que l'image de ligne binlog est définie sur `FULL`.
Compression des binlogs désactivée	Datastream vérifie que la compression des journaux binaires est désactivée.
Mises à jour des journaux des répliques ou des esclaves activées	Datastream vérifie que les mises à jour des journaux de réplication ou esclaves sont activées.
Configuration du mode GTID (`applies only to GTID-based CDC`)	Datastream vérifie que le mode GTID est défini sur `ON` si la réplication basée sur GTID est utilisée.
GtidSet ne contient pas de GTID tagués (`applies only to GTID-based CDC`)	Datastream vérifie que l'ensemble GTID ne contient aucun GTID tagué.
Autorisations Cloud Storage (pour les destinations Cloud Storage)	Datastream vérifie qu'il dispose des autorisations nécessaires pour écrire dans le bucket Cloud Storage de destination.

Vérification des avertissements	Description
Configuration de la durée d'expiration des journaux (en jours ou en secondes) ou de la durée de conservation des journaux binaires	Datastream vérifie que `expire_logs_days`, `binlog_expire_logs_seconds` et `binlog retention hours` sont configurés sur des valeurs supérieures à `7`, `604800` et `168`, respectivement.
Configuration du nombre maximal de paquets autorisés	Datastream vérifie que `max_allowed_packet` est défini sur 1 Go.
Appliquer la cohérence GTID ou le mode strict GTID (`applies only to GTID-based CDC`)	Datastream vérifie que la cohérence GTID ou le mode strict GTID est activé.

Si votre base de données source est PostgreSQL, Datastream effectue les vérifications suivantes :

Vérifier	Description
Connectivité à la base de données PostgreSQL	Datastream vérifie qu'il peut se connecter à la base de données PostgreSQL source.
Le décodage logique est activé	Datastream vérifie que le paramètre `wal_level` de la base de données PostgreSQL est défini sur `logical`.
Configuration des emplacements de réplication	Datastream vérifie si l'emplacement de réplication PostgreSQL existe et est actif, si Datastream dispose des autorisations requises pour y accéder et s'il est correctement configuré.
Configuration de la publication	Datastream vérifie que la publication existe et que les tables à répliquer pour le flux sont incluses dans la publication.
Autorisations de remplissage	Datastream vérifie que les tables requises pour le remplissage des données historiques existent et qu'il dispose des autorisations nécessaires pour les lire.

Si votre base de données source est SQL Server, Datastream effectue les vérifications suivantes :

Vérifier	Description
Édition SQL Server	Datastream vérifie que l'édition de la base de données SQL Server source est compatible. Pour en savoir plus sur les éditions compatibles, consultez Versions.
Autorisations utilisateur SQL Server	Datastream vérifie que l'utilisateur dispose des autorisations requises pour accéder à la base de données SQL Server source.
La CDC SQL Server est activée	Datastream vérifie si la CDC est activée pour la base de données et toutes les tables incluses dans le flux.
Validations de bases de données SQL Server	Datastream vérifie si la base de données source est correctement configurée, si toutes les exigences de réplication sont respectées et si les colonnes ne contiennent pas de types de données non compatibles.
Autorisations Cloud Storage ou BigQuery	Datastream vérifie que l'utilisateur dispose des autorisations nécessaires pour écrire dans la destination.

Si votre base de données source est Salesforce, Datastream effectue les vérifications suivantes :

Vérifier	Description
Connexion avec des identifiants	Datastream vérifie qu'il peut s'authentifier auprès de l'organisation Salesforce du client à l'aide des identifiants fournis.
API Bulk	Datastream vérifie qu'il dispose des autorisations nécessaires pour accéder à l'API Salesforce Bulk 2.0. L'API Bulk 2.0 est requise pour lire de grandes quantités de données.

Vérification des avertissements	Description
Limites d'API	Datastream calcule une estimation de l'utilisation attendue de l'API en fonction du nombre d'objets et de l'intervalle d'interrogation sélectionnés. Si le nombre de requêtes quotidiennes attendu est supérieur à la limite imposée par Salesforce, Datastream émet un avertissement. Vous pouvez toujours créer et exécuter le flux, même si la vérification de la validation échoue.

Si la base de données source est MongoDB, Datastream effectue les vérifications suivantes :

Vérifier	Description
Autorisations des utilisateurs	Datastream vérifie que le rôle `readAnyDatabase` est attribué à l'utilisateur.
Configurations de connexion	Datastream utilise la commande `hello` pour vérifier que les configurations de connexion sont valides.
Version de MongoDB	Datastream vérifie que la version de MongoDB est 5.0 ou ultérieure.
Autorisations Cloud Storage ou BigQuery	Datastream vérifie que l'utilisateur dispose des autorisations nécessaires pour écrire dans la destination.

Une fois tous les tests de validation réussis, cliquez sur CRÉER ET DÉMARRER pour créer le flux et le démarrer immédiatement, ou sur CRÉER pour créer le flux sans le démarrer immédiatement.

Si vous ne démarrez pas le flux immédiatement, vous pouvez le démarrer sur la page Flux en cliquant sur DÉMARRER.

Remarque : Le processus de création de flux peut entraîner une charge accrue sur la base de données source. Pour libérer cette charge, créez le flux sans le démarrer. Revenez ensuite à l'étape de démarrage lorsque la charge supplémentaire est tolérable.

Une fois le flux créé, vous pouvez en afficher des informations générales et détaillées.

Étapes suivantes

Pour en savoir plus sur les flux, consultez Cycle de vie des flux.
Pour savoir comment exécuter un flux, consultez Exécuter un flux.
Pour savoir comment modifier vos flux, consultez Modifier un flux.
Pour savoir comment récupérer un flux, consultez Récupérer un flux.