Activer l'API
Activer l'API Datastream suffit lorsque le bucket Cloud Storage de destination se trouve dans le même projet que Datastream.
Si vous écrivez dans un bucket situé dans un autre projet, vous devez autoriser le compte de service associé à Datastream à accéder au bucket.
- Obtenez l'adresse e-mail utilisée pour le compte de service. Pour ce faire, recherchez le numéro du projet sur la page d'accueil de la console Google Cloud. L'adresse e-mail du compte de service sera
service-[project_number]@gcp-sa-datastream.iam.gserviceaccount.com
. - Accordez à cette adresse e-mail les autorisations requises pour écrire dans le bucket de destination (en général, il s'agit des autorisations
roles/storage.objectViewer
,roles/storage.objectCreator
etroles/storage.legacyBucketReader
).
Spécifier le bucket et le préfixe de destination
Indiquez le nom du projet, le nom du bucket et, éventuellement, le préfixe du fichier dans la configuration du flux afin de déterminer l'emplacement dans lequel les données sont écrites.
Comportement d'écriture
- Les données d'un flux donné sont écrites dans le bucket ou le préfixe de fichier fourni à l'emplacement suivant :
[bucket]/[prefix]/[object name]/yyyy/mm/dd/hh/mm/[filename(idempotent)]
. - Le nom de l'objet dans le chemin d'accès des sources de base de données correspond au nom du schéma, suivi du nom de la table (séparés par un trait de soulignement "_").
- L'horodatage du chemin d'accès (hh/mm) correspond à l'horodatage source des métadonnées de l'événement.
- Pour les événements de remplissage, l'horodatage représente l'heure à laquelle la tâche de remplissage a démarré (généralement, l'heure à laquelle le flux a démarré ou le remplissage a été manuellement déclenché).
- Pour les événements CDC, l'horodatage représente le moment où l'enregistrement a été modifié dans la source.
- Les fichiers sont alternés chaque fois que la taille maximale ou le délai maximal est atteint, selon ce qui se produit en premier. Vous pouvez ajuster la taille maximale des fichiers et la valeur maximale du délai avant expiration à l'aide de l'API Datastream.
- De plus, les fichiers sont mis en rotation chaque fois qu'une modification de schéma source est détectée (par exemple, une nouvelle colonne est ajoutée).
- Il peut y avoir plusieurs fichiers dans le même chemin d'accès pour la même minute.
- Vous pouvez utiliser les données conformément à l'API Cloud Storage.
- La taille maximale d'un événement lorsque vous diffusez des données dans Cloud Storage est de 100 Mo.
Dans certains cas, généralement lorsqu'un flux commence à s'exécuter, il existe un chevauchement entre le remplissage en arrière-plan et le CDC, ce qui entraîne la création d'événements en double. Cela se produit lorsque Datastream commence à lire à partir du fichier journal de la base de données actuelle (créé avant le démarrage du flux) et que ce fichier journal inclut des événements également capturés par le remplissage. Il s'agit d'un comportement attendu. Si nécessaire, vous pouvez supprimer les événements en double à l'aide des métadonnées d'événement.
Étape suivante
- Découvrez comment diffuser les modifications apportées aux données en temps quasi réel avec Datastream.