Configurer une destination Cloud Storage

Activer l'API

Activer l'API Datastream suffit lorsque le bucket Cloud Storage de destination se trouve dans le même projet que Datastream.

Si vous écrivez dans un bucket situé dans un autre projet, vous devez autoriser le compte de service associé à Datastream à accéder au bucket.

  1. Obtenez l'adresse e-mail utilisée pour le compte de service. Pour ce faire, recherchez le numéro du projet sur la page d'accueil de la console Google Cloud. L'adresse e-mail du compte de service sera service-[project_number]@gcp-sa-datastream.iam.gserviceaccount.com.
  2. Accordez à cette adresse e-mail les autorisations nécessaires pour écrire dans le bucket de destination (généralement roles/storage.objectViewer, roles/storage.objectCreator et roles/storage.legacyBucketReader).

Spécifier le bucket et le préfixe de destination

Indiquez le nom du projet, le nom du bucket et, éventuellement, le préfixe du fichier dans la configuration du flux afin de déterminer l'emplacement dans lequel les données sont écrites.

Comportement en écriture

  • Les données d'un flux donné sont écrites dans le bucket ou le préfixe de fichier fourni: [bucket]/[prefix]/[object name]/yyyy/mm/dd/hh/mm/[filename(idempotent)]
  • Le nom de l'objet dans le chemin d'accès des sources de base de données correspond au nom du schéma, suivi du nom de la table (séparés par un trait de soulignement "_").
  • Le code temporel dans le chemin (hh/mm) est le code temporel source des métadonnées de l'événement.
    • Pour les événements de remplissage, l'horodatage représente l'heure à laquelle la tâche de remplissage a démarré (généralement, l'heure à laquelle le flux a démarré ou le remplissage a été manuellement déclenché).
    • Pour les événements CDC, l'horodatage représente le moment où l'enregistrement a été modifié dans la source.
  • Les fichiers sont alternés dès que la taille de fichier maximale ou le délai d'expiration maximal est atteint, selon la première échéance atteinte. Vous pouvez ajuster la taille maximale du fichier et les valeurs du délai maximal avant expiration à l'aide de l'API Datastream.
  • En outre, les fichiers font l'objet d'une rotation chaque fois qu'une modification du schéma source est détectée (par exemple, l'ajout d'une colonne).
  • Plusieurs fichiers peuvent se trouver dans le même chemin d'accès pendant une même minute.
  • L'utilisation des données peut être effectuée à l'aide de l'API Cloud Storage.
  • La taille maximale des événements lorsque vous insérez des données en flux continu dans Cloud Storage est de 100 Mo.

Dans certains cas, le plus souvent, lorsqu'un flux commence à être diffusé, il y a un chevauchement entre le remplissage et la CDC, ce qui entraîne des événements en double. Cela se produit lorsque Datastream commence à lire à partir du fichier journal de la base de données actuelle (créé avant le démarrage du flux) et que ce fichier journal inclut des événements également capturés par le remplissage. Il s'agit d'un comportement attendu. Si nécessaire, vous pouvez supprimer les événements en double à l'aide des métadonnées d'événement.

Étape suivante