Présentation de Cloud Dataflow SQL

Cloud Dataflow SQL vous permet d'utiliser des requêtes SQL pour développer et exécuter des tâches Cloud Dataflow à partir de l'UI Web de BigQuery. Cloud Dataflow SQL s'intègre à Apache Beam SQL et est compatible avec une variante de la syntaxe de requête ZetaSQL. Vous pouvez utiliser les extensions de traitement par flux de ZetaSQL pour définir vos pipelines de traitement parallèle des flux de données.

  • Utilisez vos compétences SQL existantes pour développer et exécuter des pipelines de traitement par flux à partir de l'interface utilisateur Web de BigQuery. Vous n'avez pas besoin de configurer un environnement de développement SDK ni de savoir programmer en langage Java ou Python.
  • Associez des flux (tels que Cloud Pub/Sub) aux ensembles de données sur lesquels des instantanés peuvent être créés (tels que des tables BigQuery).
  • Interrogez vos flux ou vos ensembles de données statiques avec SQL en associant des schémas à des objets, tels que des tables, des fichiers et des sujets Cloud Pub/Sub.
  • Écrivez vos résultats dans une table BigQuery à des fins d'analyse et de création de tableaux de bord.

Régions où le service est disponible

Cloud Dataflow SQL peut exécuter des tâches dans les régions disposant d'un point de terminaison régional Cloud Dataflow.

Limites

La version actuelle de Cloud Dataflow SQL est soumise aux limites suivantes :

  • Cloud Dataflow SQL n'est compatible qu'avec un sous-ensemble en langage SQL standard de BigQuery. Consultez la documentation de référence sur Cloud Dataflow SQL pour plus d'informations.
  • Avec Cloud Dataflow SQL, il existe une seule sortie agrégée par groupe de fenêtres lorsque le filigrane indique que la fenêtre est complète. Les données qui arrivent plus tard sont supprimées.
  • L'horodatage de Cloud Dataflow SQL est précis à la milliseconde près :
    • L'horodatage des champs BigQuery TIMESTAMP doit être précis à la milliseconde près au maximum. Si la précision d'un champ TIMESTAMP est inférieure à la milliseconde, Cloud Dataflow SQL génère une exception IllegalArgumentException.
    • Les données d'horodatage de l'éditeur Cloud Pub/Sub sont tronquées aux millisecondes.
  • Sources : la lecture est limitée aux sujets Cloud Pub/Sub et aux tables BigQuery.
  • Cloud Dataflow SQL attend des messages sérialisés au format JSON dans les sujets Cloud Pub/Sub. D'autres formats, comme Avro, seront acceptés à l'avenir.
  • Destinations : l'écriture est limitée aux tables BigQuery.
  • Vous ne pouvez exécuter des tâches que dans des régions disposant d'un point de terminaison régional Cloud Dataflow.
  • Cloud Dataflow utilise l'autoscaling des ressources et choisit le mode d'exécution de la tâche (traitement par lot ou par flux). Il n'existe aucun paramètre pour contrôler ce comportement.
  • La création d'une tâche Cloud Dataflow peut prendre plusieurs minutes. La tâche échoue s'il y a des erreurs pendant l'exécution du pipeline.
  • BigQuery met en mémoire tampon les données que vous diffusez dans vos tables BigQuery. Par conséquent, l'affichage de vos données dans le volet d'aperçu présente un délai. Cependant, vous pouvez interroger la table à l'aide de commandes SQL classiques.
  • L'arrêt d'un pipeline à l'aide de la commande "Drain" (Drainer) n'est pas possible. Utilisez plutôt la commande Cancel (Annuler) pour arrêter votre pipeline.
  • La mise à jour d'un pipeline en cours d'exécution n'est pas possible.
  • Vous ne pouvez modifier des requêtes SQL précédentes qu'à partir de tâches en cours d'exécution (par flux ou par lot) et de tâches par lot terminées.

Quotas

Pour plus d'informations sur les quotas et les limites de Cloud Dataflow, consultez la page Quotas et limites.

Prix

Cloud Dataflow SQL suit la tarification standard de Cloud Dataflow : il n'y a pas de grille tarifaire spécifique. Vous êtes facturé pour les ressources consommées par les tâches Cloud Dataflow que vous créez en fonction de vos instructions SQL. Les frais pour ces ressources sont les frais standards de Cloud Dataflow pour le processeur virtuel, la mémoire et le disque persistant. En outre, une tâche peut consommer des ressources supplémentaires telles que Cloud Pub/Sub et BigQuery, chacune étant facturée selon sa propre tarification.

Pour plus d'informations sur la tarification Cloud Dataflow, consultez la page Tarifs de Cloud Dataflow.

Étapes suivantes

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Besoin d'aide ? Consultez notre page d'assistance.