Questions fréquentes

Présentation

Vous trouverez dans cette rubrique les réponses aux questions fréquentes concernant l'utilisation de Datastream. Cette FAQ est associée aux éléments suivants :

  • Questions générales sur Datastream et la capture des données modifiées (CDC, Change Data Capture)
  • Capture des données modifiées (CDC) MySQL
  • Capture des données modifiées (CDC) Oracle
  • Cas d'utilisation courants de Datastream
  • Intégration de Datastream aux services de données Google Cloud
  • Sources et destinations compatibles avec Datastream
  • Comportement et limites de Datastream
  • Sécurité et connectivité
  • Traiter des fichiers Datastream
  • Surveiller Datastream
  • Tarifs
  • Informations supplémentaires sur Datastream

Questions générales sur Datastream et la capture des données modifiées (CDC, Change Data Capture)

Question Répondre
Qu'est-ce que DataStream ?

Datastream est un service de réplication de données et de capture des données modifiées (CDC, Change Data Capture) sans serveur et simple à utiliser. Il vous permet de synchroniser les flux de données sur des bases de données et des applications hétérogènes de manière fiable et avec une latence minimale. Datastream est compatible avec la diffusion en continu des modifications apportées aux données des bases de données Oracle et MySQL dans Cloud Storage.

Ce service offre une intégration simplifiée des modèles Dataflow. Vous bénéficiez ainsi des possibilités suivantes : vues matérialisées à jour dans BigQuery pour l'analyse, réplication des bases de données dans Cloud SQL ou Cloud Spanner pour la synchronisation des bases de données et exploitation des flux directement depuis Cloud Storage pour créer des architectures basées sur les événements. Datastream s'intègre également à Cloud Data Fusion si vous souhaitez créer des pipelines de données avec des transformations vers BigQuery.

Qu'est-ce que la CDC ?

La CDC est une approche de l'intégration des données qui vous permet d'intégrer et d'analyser des données plus rapidement en utilisant moins de ressources système. Il s'agit d'une méthode permettant de récupérer uniquement les dernières modifications (mises à jour, insertions ou suppressions) d'une source de données, souvent en lisant le journal des modifications que la source conserve pour sa propre intégrité transactionnelle interne.

La CDC est un mécanisme très efficace pour limiter l'impact sur la source lors du chargement de nouvelles données dans les datastores et les entrepôts de données opérationnels. Elle élimine le besoin de mises à jour groupées et les fenêtres par lots inadaptées en permettant le chargement incrémentiel ou le streaming en temps réel des modifications de données dans une destination de données.

La CDC peut être utilisée dans de nombreux cas d'utilisation qui dérivent une valeur de l'accès constant aux modifications de données au fur et à mesure qu'elles se produisent, telles que l'analyse, la synchronisation des données sur des systèmes distribués géographiquement et les architectures basées sur les événements.

Qu'est-ce que le remplissage ? En plus des modifications en cours, Datastream utilise également le remplissage pour extraire toutes les données existantes d'une source, puis les diffuser dans une destination. Par conséquent, la destination est "remplie" avec toutes les données historiques de la source.
Quelles sont les méthodes de diffusion des données par DataStream ? Datastream diffuse les données en streaming d'une source vers une destination à l'aide de l'une des deux méthodes suivantes :
  • CDC : capturer les modifications en cours depuis la source en temps réel.
  • Remplissage : fournir un instantané historique des données existant dans une table.
Qu'est-ce qu'un flux de modifications ? Un flux de modifications est une séquence d'événements que Datastream émet vers une destination, telle que Cloud Storage, pour la consommation en aval. Le résultat de l'écriture d'un flux de modifications dans une destination est un ensemble de fichiers contenant les événements des journaux de modifications d'une table de base de données spécifique sur une période donnée. Ces événements représentent des insertions, des mises à jour et des suppressions dans cette table de la source et peuvent être utilisés et traités en aval de la destination par des services tels que Dataflow pour les architectures basées sur les événements.
Qu'est-ce qu'une vue matérialisée ?

Une vue matérialisée est une représentation 1 à 1 à jour d'une table source dans une destination. Un exemple de ce type de vue est une table de base de données Oracle dans laquelle les modifications de cette table sont répliquées en continu vers une table BigQuery. Par conséquent, la table BigQuery est maintenue à jour à l'aide des modifications diffusées depuis la table Oracle.

Les vues matérialisées exploitent les flux de modifications en consommant chaque événement de modification et en l'utilisant pour mettre à jour la vue matérialisée. Datastream fournit des vues matérialisées dans des destinations telles que BigQuery, Cloud SQL et Cloud Spanner via une intégration avec Dataflow en exploitant des modèles qui extraient les événements du flux de modifications de la destination et en mettant à jour les tables de destination en conséquence.

Datastream nécessite-t-il un agent sur la source ? Vous n'avez pas besoin d'installer un agent sur la source. Datastream utilise les interfaces existantes (telles qu'Oracle LogMiner) pour extraire les données de la source.
Quel est l'impact sur les performances de l'utilisation de Datastream sur une base de données de production ?

La CDC est un mécanisme hautement efficace pour limiter l'impact sur la source lorsque de nouvelles données sont chargées dans des datastores et des entrepôts de données de destination. La CDC élimine également le besoin de mises à jour groupées et les fenêtres par lots inadaptées en permettant le chargement incrémentiel ou le streaming en temps réel des modifications de données dans une destination.

De plus, DataStream minimise l'impact d'un remplissage initial en limitant le nombre de tâches de remplissage simultanées, et vous permet de décider des objets à remplir et quand les remplir.

Pouvez-vous copier les fichiers journaux de la source vers Google Cloud ? Non. Datastream interroge directement les journaux sur le serveur de base de données, et seules les modifications apportées aux tables spécifiées sont écrites dans la destination.
Datastream peut-il également transférer des données de l'historique ? Oui. Par défaut, Datastream récupère toutes les données d'historique des tables de base de données de votre source que vous spécifiez, en parallèle avec le flux CDC. Datastream vous permet d'obtenir des données d'historique d'une partie ou de l'ensemble des tables de base de données de votre source. En outre, lorsque vous configurez votre flux, vous pouvez choisir de désactiver le remplissage d'historique.
Quelle est la taille maximale de ligne compatible avec Datastream ? Datastream est actuellement limité aux lignes qui ne dépassent pas 3 Mo.
Datastream garantit-il la mise en ordre ? Datastream ne garantit pas la mise en ordre. Il fournit des métadonnées supplémentaires pour chaque événement, qui peuvent être utilisées pour garantir la cohérence à terme dans le bucket de destination. En fonction de la source, du taux et de la fréquence des modifications, ainsi que d'autres paramètres, une cohérence à terme peut être généralement obtenue dans un intervalle d'une heure.
Datastream garantit-il une diffusion de type "exactement une fois" ? Non. Datastream offre une diffusion de type "au moins une fois". Les métadonnées supplémentaires que Datastream écrit dans chaque événement peuvent être utilisées pour supprimer les données en double.
Comment Datastream gère-t-il les modifications de schéma d'une source ? Datastream récupère régulièrement le schéma de la source. Toutefois, entre les récupérations de schéma, certaines modifications de schéma peuvent ne pas être détectées, ce qui peut entraîner des écarts de données. Nous prévoyons de capturer les événements de langage de définition de données en temps réel, ce qui résoudra cette limitation actuelle.
Gérez-vous des bases de données chiffrées ? Oui.
Datastream peut-il diffuser des tables et des colonnes spécifiques d'une source ? Oui. Avec DataStream, vous pouvez spécifier des listes d'inclusion et d'exclusion pour les tables et les schémas, afin de ne diffuser que les données de votre source vers une destination. Pour les tables incluses, vous pouvez exclure des colonnes spécifiques des tables afin d'affiner davantage les données que vous souhaitez insérer dans la destination. Toutefois, les vues matérialisées ne peuvent pas être répliquées.
Comment déplacez-vous un flux vers un autre projet ou une autre région ?
  1. Créez un flux dans une nouvelle région ou un nouveau projet avec la même configuration que le flux existant, mais ne cochez pas la case Remplir les données de l'historique.
  2. Démarrez le flux que vous avez créé.
  3. Une fois que le flux que vous avez créé présente l'état RUNNING, suspendez le flux existant.
  4. Vous pouvez également modifier le nouveau flux en cochant la case Remplir les données de l'historique. Les données existantes dans les tables ajoutées au flux ultérieurement seront transférées de la source vers la destination.
Comment Datastream gère-t-il les transactions non validées dans les fichiers journaux de la base de données ? Lorsque des fichiers journaux de base de données contiennent des transactions non validées, si des transactions sont annulées, la base de données reflète cette opération dans les fichiers journaux en tant qu'opérations de langage de manipulation de données (LMD) "inversées". Par exemple, une opération INSERT annulée aura une opération DELETE correspondante. Datastream lit ces opérations à partir des fichiers journaux.
Quelle est la disponibilité régionale de DataStream ?

Pour afficher la liste des régions dans lesquelles Datastream est disponible, consultez la section Listes d'autorisation d'adresses IP et régions.

Capture des données modifiées (CDC) MySQL

Question Répondre
Comment Datastream extrait-il les données de MySQL ? Datastream utilise le journal binaire de MySQL pour extraire les événements de modification de MySQL.
Datastream est-il compatible avec les instances dupliquées avec accès en lecture Cloud SQL pour MySQL ?

Oui, Datastream est compatible avec les instances dupliquées avec accès en lecture pour Cloud SQL pour MySQL versions 5.7 et 8.0.

Vous pouvez activer la journalisation binaire sur ces instances. Pour cela, exécutez la commande gcloud suivante :


gcloud sql instances patch INSTANCE_NAME -- enable-bin-log

Pour en savoir plus, consultez la section Journalisation binaire sur les instances dupliquées avec accès en lecture.

Datastream verrouille-t-il les tables de base de données MySQL ? Pourquoi DataStream nécessite-t-il des autorisations LOCK TABLE ?

Dans la plupart des cas, Datastream n'a pas besoin de verrouiller les tables. Cependant, dans certaines conditions (par exemple, MySQL 8 avec un moteur de stockage InnoDB et le niveau d'isolation défini sur REPEATABLE READ), Datastream acquiert des verrous sur les tables pendant le remplissage.

Capture des données modifiées (CDC) Oracle

Question Répondre
Comment Datastream extrait-il les données d'Oracle ? Datastream utilise Oracle LogMiner pour extraire les données des journaux de rétablissement d'Oracle.
DataStream nécessite-t-il une licence GoldGate d'Oracle ? Non. Datastream utilise Oracle LogMiner pour lire les données des journaux de rétablissement de la base de données.
Que se passe-t-il lorsque Oracle LogMiner n'est plus accepté ? Oracle sera compatible avec les prochaines versions. Pour l'instant, Oracle LogMiner est toujours disponible dans toutes les versions Oracle généralement disponibles.
Datastream est-il compatible avec le chiffrement des données en transit à partir des bases de données Oracle ?

Datastream est compatible avec le chiffrement des données en transit basé sur Oracle Net Services. Datastream s'exécute en mode REQUESTED.

Datastream est-il compatible avec l'architecture mutualisée Oracle, en particulier avec les bases de données de conteneurs (CDB) et les bases de données connectables (PDB) ? Datastream n'est actuellement pas compatible avec les CDB et les PDB, mais cela figure dans notre feuille de route.

Cas d'utilisation

Question Répondre
Quels sont les cas d'utilisation courants de Datastream ?

Datastream est un service de capture des données modifiées (CDC) et de réplication, ce qui signifie qu'il est flexible dans divers cas d'utilisation qui peuvent bénéficier d'un accès aux données de modification en continu. Les cas d'utilisation les plus courants de Datastream, par ordre de fréquence, sont les suivants :

  1. Analyse : en intégrant Datastream aux modèles Dataflow pour charger des données dans BigQuery, vous pouvez obtenir des vues matérialisées à jour des données sources dans BigQuery. Vous pouvez utiliser ces données constamment mises à jour pour créer des tableaux de bord à jour pour les données. Cela vous permet, par exemple, de surveiller vos systèmes et d'obtenir des insights à jour sur l'état de votre activité.
  2. Scénarios de réplication et de synchronisation de bases de données : en intégrant Datastream à des modèles Dataflow afin de charger des données dans Cloud SQL ou Cloud Spanner, vous pouvez obtenir des vues matérialisées à jour de vos données sources dans ces bases de données. Vous pouvez utiliser ces données mises à jour en continu dans les bases de données de destination pour une migration de base de données à faible temps d'arrêt de la source vers la destination, ou pour les configurations cloud hybrides, où la source et la destination résident dans des environnements d'hébergement différents.
  3. Architectures basées sur les événements : les architectures modernes basées sur des microservices reposent sur des hubs centraux de données qui sont mises à jour en continu avec les événements de votre organisation pour être basées sur les événements. En écrivant en continu les données d'événement dans des destinations telles que Cloud Storage, vous pouvez créer des architectures basées sur les événements et reposant sur la consommation des données d'événement à partir de ces destinations.

Intégrations

Question Répondre
Comment Datastream s'intègre-t-il aux services de données Google Cloud ?

Datastream complète et améliore la suite de données Google Cloud en fournissant une réplication des données CDC à partir de sources vers divers services Google Cloud. En s'intégrant de manière transparente à ces services, Datastream s'intègre à l'écosystème Google Cloud dans son ensemble.

Datastream s'intègre aux services de données suivants :

  • Dataflow : Datastream s'intègre à Dataflow via des modèles Dataflow. Ces modèles lisent des données depuis Cloud Storage et les chargent dans BigQuery, Cloud SQL pour PostgreSQL ou Cloud Spanner. Le but de ces modèles est de maintenir des vues matérialisées à jour des tables sources répliquées dans les destinations. Les modèles sont disponibles dans l'interface utilisateur de Dataflow et sont conçus pour les fichiers générés par Datastream en vue d'un traitement simple et immédiat.
  • Cloud Data Fusion : Datastream s'intègre à Cloud Data Fusion en activant un connecteur Oracle via la fonctionnalité de réplication de Cloud Data Fusion. Vous pouvez créer une source Oracle de réplication que Datastream "alimente" de manière transparente pour construire facilement un pipeline de données. Ce pipeline inclut des transformations enrichies pour les données Oracle que Datastream diffuse dans Cloud Data Fusion.
  • Cloud Storage : Datastream s'intègre à Cloud Storage en y écrivant en tant que destination de streaming en modification.
  • Cloud SQL, Cloud Spanner et BigQuery : Datastream s'intègre à ces bases de données de destination. En utilisant des modèles Dataflow, vous pouvez maintenir des vues matérialisées à jour dans les bases de données.

Sources et destinations

Question Répondre
Quelles sources et destinations sont compatibles avec DataStream ?
  • Sources : DataStream est compatible avec les flux de données provenant de sources Oracle et MySQL, hébergées dans le cloud et autogérées. Pour en savoir plus sur la compatibilité des sources, consultez la section Comportement et limites.
  • Destinations : Datastream permet de modifier les données des fichiers transférés vers Cloud Storage. Vous pouvez ensuite transférer ces données de Cloud Storage vers BigQuery, Cloud Spanner et Cloud SQL pour PostgreSQL à l'aide de modèles Dataflow.
Datastream peut-il gérer des bases de données chiffrées ? Oui.

Comportement et limites

Question Répondre
Quelles sont les versions sources compatibles avec Datastream ?

Pour MySQL, Datastream est compatible avec les versions 5.6, 5.7 et 8.0. Toutes les bases de données compatibles avec MySQL sont compatibles, y compris, mais sans s'y limiter :

  • Base de données auto-hébergée sur site ou sur n'importe quel fournisseur de cloud
  • Cloud SQL pour MySQL
  • AWS RDS MySQL et Aurora MySQL
  • MariaDB
  • Alibaba Cloud PolarDB
  • Percona Server for MySQL

Pour Oracle, Datastream est compatible avec la version 11g 2 et versions ultérieures (pas RAC dans la configuration SCAN, CDB/PDB ou base de données autonome). Toutes les bases de données compatibles avec Oracle sont compatibles, y compris, mais sans s'y limiter :

  • Base de données auto-hébergée sur site ou sur n'importe quel fournisseur de cloud
  • AWS RDS
  • Oracle Cloud
Comment Datastream extrait-il les données des sources ?

Pour MySQL, Datastream traite le journal binaire MySQL pour extraire les événements de modification.

Pour Oracle, Datastream utilise LogMiner et des paramètres de journalisation supplémentaires pour extraire les données des journaux de rétablissement d'Oracle.

Est-il possible de copier des fichiers journaux directement depuis une source vers Google Cloud ? Datastream ne copie pas l'intégralité des fichiers journaux, mais interroge les fichiers journaux directement depuis le serveur de base de données et ne réplique que les modifications des tables spécifiées vers la destination.
Pour les sources Oracle, DataStream nécessite-t-il une licence GoldGate ? Datastream ne nécessite pas de licence GoldGate, car il utilise Oracle LogMiner pour lire les données des journaux de rétablissement de la base de données.
Que se passe-t-il lorsque Oracle LogMiner n'est pas compatible avec les versions plus récentes ? Oracle n'est plus compatible avec l'option CONTINUOUS_MINE de LogMiner. Cette option n'étant toutefois pas utilisée par Datastream, cet abandon n'a aucun impact sur Datastream.
Quelles sont les limites des données que Datastream peut traiter ?

Il existe des limitations générales, des limites pour les sources MySQL et des limites pour les sources Oracle.

Les limites générales sont les suivantes :

  • Débit : ~5 Mbit/s avec une taille de ligne maximale de 3 Mo.
  • Certaines opérations langage de définition de données (LDD) ne sont pas compatibles avec la réplication, y compris les opérations suivantes :
    • Supprimer une colonne au milieu d'une table. Cela peut entraîner un écart dans les données, car les valeurs sont associées à une colonne incorrecte.
    • Modifier le type de données d'une colonne. Cela peut entraîner un écart dans les données, car les données ne sont pas correctement mappées avec le type unifié Datastream correct et les données peuvent être corrompues.
    • Les suppressions en cascade sont ignorées.
    • La troncature de table est ignorée.

Les limites MySQL incluent le remplissage non compatible avec les tables qui n'ont pas de clé primaire et dont la taille dépasse 100 millions de lignes.

Les limites Oracle incluent :

  • Colonnes compatibles :
    • Certains types de données ne sont pas compatibles et sont répliqués avec des valeurs NULL. Ces types de données incluent les types de données abstraits (ADT), ANYDATA, les collections (VARRAY), BLOB/CLOB/LOB/NCLOB, LONG, UDT, UROWID et XMLType.
  • Fonctionnalités Oracle non compatibles :
    • Tables externes
    • Liens de base de données (dblinks)
    • Tables d'index uniquement (IOT)
    • Oracle Label Security (OLS) n'est pas répliqué.
  • Le remplissage n'est pas accepté pour les tables de plus de 100 millions de lignes.

Quelles données sont incluses dans chaque événement généré par Datastream ? Chaque événement généré (pour les insertions, les mises à jour et les suppressions) inclut toute la ligne de données de la source, ainsi que le type de données et la valeur de chaque colonne. Chaque événement inclut également des métadonnées d'événement permettant d'établir la mise en ordre et d'assurer la diffusion de type "exactement une fois".
Datastream garantit-il la mise en ordre ? Bien que Datastream ne garantisse pas la mise en ordre, il fournit des métadonnées supplémentaires pour chaque événement. Ces métadonnées peuvent être utilisées pour garantir la cohérence à terme dans la destination. En fonction de la source, du taux et de la fréquence des modifications, ainsi que d'autres paramètres, la cohérence à terme peut généralement être atteinte en une heure.
Datastream garantit-il une diffusion de type "exactement une fois" ? Datastream offre une diffusion de type "au moins une fois". Vous pouvez éliminer les données en double en utilisant des métadonnées supplémentaires que Datastream écrit dans chaque événement.
Comment DataStream représente-t-il les types de données de la source à utiliser dans le traitement en aval ?

Datastream facilite le traitement en aval des données dans les sources de données en normalisant les types de données de toutes les sources. Datastream utilise le type de données de la source d'origine (par exemple, un type MySQL NUMERIC ou NUMBER Oracle) et le normalise en un type unifié Datastream.

Les types unifiés représentent un sur-ensemble sans perte de tous les types de sources possibles. La normalisation signifie que les données de différentes sources peuvent être traitées facilement et interrogées en aval de manière indépendante de la source.

Si un système en aval doit connaître le type de données source, il peut le faire via un appel d'API au registre de schéma Datastream. Ce registre stocke des schémas à jour et versionnés pour chaque source de données. L'API Schema Registry permet également une résolution rapide de la dérive du schéma en aval, car les schémas de base de données sources changent.

Comment Datastream gère-t-il les modifications de structure (schéma) dans la source ? Datastream suit en permanence les modifications apportées à la structure de données source. Les schémas sont stockés dans le registre de schéma de Datastream, et chaque événement référence le schéma au moment de sa génération. Cela permet à Datastream ou à d'autres processus en aval de suivre les modifications de schéma en temps réel et de s'ajuster en fonction de ces modifications, pour garantir que toutes les données sont diffusées et chargées correctement dans la destination.

Sécurité et connectivité

Question Répondre
Datastream est-il un service sécurisé pour les données sensibles ? Datastream est compatible avec plusieurs configurations de connectivité privée et sécurisée pour protéger les données en transit lorsqu'elles sont diffusées d'une source à une destination. Une fois les données répliquées, elles sont ensuite chiffrées par défaut et exploitent les contrôles de sécurité de Cloud Storage. Toutes les données mises en mémoire tampon par Datastream sont chiffrées au repos.
Quelles sont les options de connectivité disponibles pour connecter vos sources à Datastream ?

Vous pouvez configurer trois types de méthodes de connectivité :

  • Liste d'autorisation d'adresses IP : cette méthode fournit une connectivité publique en ajoutant les adresses IP régionales de Datastream à la liste d'autorisation sur la source. Lorsque vous créez votre flux, Datastream affiche ces adresses IP dans l'interface utilisateur.
  • Tunnel SSH de transfert : cette méthode fournit une connectivité sécurisée sur les réseaux publics en utilisant un bastion SSH configuré par le client en plus d'ajouter des adresses IP régionales à la liste d'autorisation.
  • Connectivité privée via appairage VPC : utilisez cette méthode pour vous connecter à vos bases de données hébergées par Google Cloud via le réseau interne de Google Cloud, ou pour exploiter un VPN ou une interconnexion existant en établissant un appairage VPC entre le réseau privé de DataStream et le VPC Google Cloud de votre organisation.
Comment puis-je limiter le traitement des données sensibles de Datastream ?

Datastream vous permet de spécifier les éléments de données spécifiques (schémas, tables et colonnes) de votre source que vous souhaitez insérer dans une destination, et les éléments que vous souhaitez exclure de la diffusion.

Les journaux de base de données peuvent contenir des données de modification provenant d'éléments exclus de votre définition de flux. Étant donné que vous ne pouvez pas filtrer ces éléments à la source, Datastream lit, mais ignore toutes les données associées aux éléments.

Comment Datastream protège-t-il les identifiants de la base de données ? Toutes les métadonnées utilisateur (y compris le nom d'utilisateur et le mot de passe utilisés pour accéder aux sources de données) sont chiffrées en transit et au repos. L'accès à ces métadonnées est suivi et vérifié.

Traiter des fichiers DataStream

Question Répondre
Comment les fichiers sont-ils créés dans Cloud Storage ? Datastream crée un dossier pour chaque table. Dans chaque dossier, Datastream alterne le fichier (ou crée un fichier) chaque fois qu'il atteint le seuil de taille ou de temps défini par l'utilisateur. Datastream alterne également le fichier chaque fois qu'une modification de schéma est détectée. Le nom du fichier sera composé d'une clé de schéma unique (basée sur un hachage du schéma), suivie de l'horodatage du premier événement du fichier. Pour des raisons de sécurité, ces noms de fichiers ne sont pas conçus pour être lus ou compris par les utilisateurs.
Si les données de Cloud Storage ne sont pas ordonnées, comment les événements peuvent-ils être réordonnés avant d'être chargés dans la destination ? Chaque événement contient plusieurs champs de métadonnées qui identifient de manière unique la ligne dans le journal de rétablissement Oracle. Notamment :
  • rs_id, qui est en fait composé de trois valeurs (par exemple, 0x0073c9.000a4e4c.01d0). La valeur rs_id identifie de manière unique l'enregistrement dans le journal de rétablissement.
  • ssn, qui est utilisé lorsque l'enregistrement dans le journal de rétablissement est trop long. Pour cette raison, Oracle LogMiner divise l'enregistrement en plusieurs lignes.
Pour trier les événements, vous devez les trier par partie du rs_id, puis par ssn.
Si plusieurs fichiers sont créés pour le même horodatage, dans quel ordre doivent-ils être traités ? Étant donné que la mise en ordre dans et entre les fichiers n'est pas garantie, le meilleur moyen de déterminer l'ordre de traitement des fichiers consiste à obtenir tous les événements de tous les fichiers pour l'horodatage spécifique, puis à appliquer la mise en ordre à l'aide de la méthode mentionnée ci-dessus.
Comment les mises à jour de clés primaires sont-elles traitées ? Existe-t-il des informations avant et après l'événement ? Le champ de métadonnées row_id identifie de manière unique la ligne qui change. Pour garantir l'intégrité des données, consolidez les données en fonction de la valeur associée au champ row_id au lieu d'utiliser la clé primaire.

Surveiller Datastream

Question Répondre
Comment savoir quand toutes mes données d'historique ont été copiées dans le bucket Cloud Storage de destination ? Datastream fournit des informations sur son état actuel dans les fichiers journaux. Une entrée de journal est créée pour indiquer qu'une table a été remplie.

Tarifs

Question Répondre
Comment sont calculés les tarifs de DataStream ?

Le tarif de Datastream est basé sur le volume (Go) de données transmises de votre source vers une destination.

Pour en savoir plus sur les tarifs de DataStream, consultez la section Tarifs.

Comment calculer la taille des données ? La facturation est calculée en fonction de la taille brute (non compressée) des données diffusées en streaming de la source vers la destination. Datastream ne facture que les données qui sont insérées en streaming dans la destination.
Si vous utilisez Datastream avec Dataflow ou Cloud Data Fusion, que payez-vous ? Chaque service fait l'objet d'une tarification distincte et est facturé séparément.

Informations supplémentaires

Question Répondre
Que dois-je faire si j'ai d'autres questions ou problèmes concernant l'utilisation de Datastream ? L'équipe d'assistance de Google peut vous aider en cas de problème avec Datastream. En outre, le guide de dépannage traite les problèmes courants que vous pouvez rencontrer lors de l'utilisation de Datastream.