Solution d'analyse de flux

Ingérez, traitez et analysez des flux d'événements en temps réel sur une infrastructure entièrement gérée

Profiter d'un essai gratuit Contacter le service commercial

Analyse des flux ouverte et intégrée

L'analyse des flux s'est imposée en tant qu'alternative plus simple et plus rapide que les opérations ETL (Extract, Transform, Load), car elle permet de tirer pleinement parti des événements associés aux interactions des utilisateurs, ainsi que des applications et des journaux d'exploitation. La rapidité et l'efficacité de l'ingestion, du traitement et de l'analyse des flux de données sont essentielles en matière de détection de fraudes, d'analyse des flux de clics et de recommandations en ligne, entre autres exemples. Pour de tels cas d'utilisation, Google Cloud offre une solution d'analyse des flux ouverte et intégrée, qui est facile à adopter, à faire évoluer et à gérer.

Réponse instantanée aux événements

Ingérez à chaque seconde des millions d'événements de flux provenant du monde entier avec Cloud Pub/Sub, une solution reposant sur le réseau privé ultrarapide et unique en son genre de Google. Traitez les flux avec Cloud Dataflow pour garantir une transformation de données fiable, "exactement une fois" et à faible latence. Envoyez les flux de données transformées vers BigQuery, notre service d'entreposage de données cloud natif, pour une analyse immédiate via SQL ou d'autres outils de visualisation populaires. Enfin, mettez en œuvre l'analyse prédictive pour la détection de fraudes, la personnalisation en temps réel ou d'autres cas d'utilisation similaires en incorporant les modèles et les API de Cloud Machine Learning basés sur TensorFlow à vos pipelines de flux de données.

Développement accéléré, sans compromis

L'analyse des flux dans GCP simplifie les pipelines ETL sans pour autant compromettre leur robustesse, leur précision ou leur fonctionnalité. Cloud Dataflow permet de développer rapidement des pipelines dans le SDK Apache Beam par le biais d'API Java et Python expressives. Ce SDK offre un large éventail de primitives de fenêtrage et d'analyse de sessions, ainsi qu'un écosystème de connecteurs sources et de récepteurs. De plus, le modèle de développement unique et unifié de Beam vous permet de réutiliser davantage de code dans tous vos pipelines de traitement par flux et par lot.

Simplification des opérations et de la gestion

Une fois que vous avez déployé vos pipelines de traitement de flux de données, l'approche sans serveur de GCP vous permet d'éliminer certains coûts opérationnels en raison de la gestion automatisée des performances, du scaling, de la disponibilité, de la sécurité et de la conformité. Grâce à l'intégration à Stackdriver, la solution de surveillance et de journalisation unifiée de GCP, vous pouvez surveiller et dépanner les pipelines en cours d'exécution. La visualisation complète, la journalisation et les alertes avancées vous aident à identifier et résoudre les éventuels problèmes.

Gardez vos outils et systèmes favoris

L'analyse des flux dans GCP est conçue pour être ouverte et interopérable. Avec son API ouverte et sa compatibilité avec de nombreux clients, Cloud Pub/Sub facilite les déploiements multi-cloud et hybrides. Pour les utilisateurs d'Apache Kafka, Google recommande l'utilisation de Confluent pour exécuter la plate-forme Kafka gérée, tandis qu'un connecteur Cloud Dataflow facilite l'intégration à GCP. En outre, BigQuery fonctionne parfaitement avec les outils ETL et de veille stratégique que vous utilisez et appréciez grâce au langage SQL standard. Les pipelines de traitement de données conçus avec le SDK Cloud Dataflow 2.x basé sur Beam sont portables dans Cloud Dataflow, Apache Spark et Apache Flink. Enfin, Spark est compatible avec Cloud Dataproc pour les charges de travail par flux et par lot.

COMPOSANTS DE LA SOLUTION

Service Cas d'utilisation de l'analyse des flux
Cloud Pub/Sub Conçu pour ingérer à grande échelle des flux de données provenant du monde entier. (Alternative Open Source pour cette solution : Apache Kafka)
Cloud Dataflow Conçu pour transformer et enrichir des données ingérées en mode flux ou par lots avec une fiabilité et une expressivité équivalentes. (Alternative Open Source pour cette solution : Spark sur Cloud Dataproc)
BigQuery Service d'entreposage de données entièrement géré, offrant une capacité de 100 000 insertions de flux de lignes par seconde et permettant l'analyse ponctuelle des données en temps réel à l'aide du langage SQL standard.
Apache Beam Framework de développement unifié pour programmer les pipelines de traitement par flux et par lot. Proposé par Google sous la forme du SDK Cloud Dataflow 2.x.
Cloud Machine Learning Ajoutez un niveau supplémentaire d'intelligence au pipeline en exécutant les flux d'événements à l'aide de modèles de machine learning basés sur TensorFlow. Ces modèles peuvent être personnalisés (Cloud Machine Learning Engine) ou prédéfinis (API Cloud).
Cloud Bigtable Stockage de paires valeur/clé (orienté colonnes) à faible latence, idéal pour les séries temporelles à hauts volumes et les applications sensibles à la latence.

Autres ressources

Traitement "exactement une fois"

Découvrez ce que signifie le traitement "exactement une fois" dans Cloud Dataflow.

Lire l'article du blog

Cloud Dataflow : exemples de pipelines

Découvrez le fonctionnement des pipelines à l'aide d'exemples de jeux mobiles.

Consulter la documentation

Atelier de programmation : NYC Taxi Tycoon

Découvrez un exercice de codage pratique guidé vous expliquant comment traiter les flux de données avec Dataflow et Pub/Sub.

Explorer un exemple d'application

Solution pour les services financiers

Développez un système d'analyse quasiment en temps réel qui peut évoluer et s'adapter à des milliers de flux de données simultanés.

Lire l'article concernant cette solution

Schéma de l'architecture

Examinez l'architecture en vue d'optimiser l'ingestion de données d'analyse à grande échelle sur Google Cloud Platform.

Lire l'article

Les bases des flux

Lisez l'article majeur de Tyler Akidau (en anglais) sur le monde au-delà du regroupement de données par lot.

Lire l'article