Cloud Dataproc

Un service Spark et Hadoop géré, rapide, facile à utiliser et économique

Essai gratuit

Un service Hadoop et Spark géré

Utilisez Google Cloud Dataproc, un service Apache Hadoop, Apache Spark, Apache Pig et Apache Hive, pour traiter facilement de grands ensembles de données à bas prix. Pour maîtriser vos coûts, créez rapidement des clusters gérés de n'importe quelle taille et désactivez-les lorsque vous n'en avez plus besoin. Cloud Dataproc s'intègre à tous les produits Google Cloud Platform. Vous bénéficiez ainsi d'une plate-forme de traitement de données performante et complète.

Managed Hadoop and Spark

Un traitement des données rapide et évolutif

Créez rapidement des clusters Cloud Dataproc, puis redimensionnez-les à tout moment (de trois nœuds à plusieurs centaines) afin que vos pipelines de données ne saturent pas vos clusters. Comme chaque opération de cluster prend en moyenne moins de 90 secondes, vous pouvez consacrer plus de temps à l'analyse de vos données et moins à l'infrastructure.

Fast and Scalable Data Processing

Des tarifs abordables

À l'image de Google Cloud Platform, Cloud Dataproc est économique et fait l'objet d'une tarification simple basée sur l'utilisation réelle mesurée à la minute. Les clusters Cloud Dataproc peuvent également inclure des instances préemptives moins chères, ce qui vous permet de bénéficier de clusters performants à un coût total encore plus faible.

Affordable Pricing

Un écosystème Open Source

L'écosystème Spark et Hadoop fournit des outils, des bibliothèques et des documents que vous pouvez utiliser avec Cloud Dataproc. Grâce aux versions natives et régulièrement mises à jour de Spark, Hadoop, Pig et Hive, lancez-vous sans avoir à vous familiariser avec de nouveaux outils ou API, et déplacez des projets existants ou des pipelines ETL sans avoir à les redévelopper.

Open Source Ecosystem

Des outils complémentaires

Combiné à d'autres outils, Cloud Platform offre encore plus d'évolutivité, d'efficacité et de simplicité dans le traitement et l'analyse de données clés. Par exemple, utilisez Hive sur Hadoop (ou Spark SQL) en association avec Google BigQuery, un service ultra-performant d'analyse SQL à la demande. Si vous programmez des pipelines de transformation des données avec Spark ou MapReduce, utilisez Google Cloud Dataflow. Il s'agit d'un service entièrement géré qui élimine les tâches annexes imposées par d'autres outils et qui exécute une large gamme de modèles de traitement des données comme le modèle ETL, le calcul par lots et le calcul par flux.

Google Cloud Dataflow

Fonctionnalités de Cloud Dataproc

Google Cloud Dataproc est un service Spark et Hadoop géré qui est rapide, facile à utiliser et économique.

Gestion automatisée des clusters
Le déploiement géré, la journalisation et la surveillance vous permettent de vous concentrer sur vos données, et non pas sur vos clusters. Ces derniers sont stables, évolutifs et rapides.
Clusters redimensionnables
Les clusters peuvent être créés et adaptés rapidement avec différents types de machines virtuelles, tailles de disque, nombres de nœuds et options de réseau.
Solution intégrée
Grâce à l'intégration avec Cloud Storage, BigQuery, BigTable, Stackdriver Logging et Stackdriver Monitoring, bénéficiez d'une plate-forme de données robuste et complète.
Gestion des versions
La gestion des versions d'images vous permet de basculer entre différentes versions d'Apache Spark, d'Apache Hadoop et d'autres outils.
Outils de développement
Gérez vos clusters via une interface Web facile à utiliser, le SDK Google Cloud, les API RESTful, l'accès SSH et d'autres méthodes.
Actions d'initialisation
Exécutez des actions d'initialisation pour installer ou personnaliser les paramètres et les bibliothèques dont vous avez besoin une fois votre cluster créé.
Configuration automatique ou manuelle
Cloud Dataproc configure automatiquement le matériel et les logiciels sur les clusters tout en permettant un contrôle manuel.
Machines virtuelles flexibles
Les clusters peuvent utiliser des types de machines personnalisés et des machines virtuelles préemptives afin que leur taille soit adaptée à vos besoins.

Tarifs de Cloud Dataproc

Avec Cloud Dataproc, la facturation se fait par petits incréments en fonction du nombre de processeurs virtuels dans les instances Compute Engine de votre cluster1.

Iowa Oregon Virginie du Nord Caroline du Sud Belgique Londres Sydney Taïwan Tokyo
Type de machine Prix
Machines standards
1 à 64 processeurs virtuels
Machines à haute capacité de mémoire
2 à 64 processeurs virtuels
Machines à haute capacité de calcul
2 à 64 processeurs virtuels
Machines personnalisées
Selon l'utilisation du processeur virtuel et de la mémoire

1 Avec Cloud Dataproc, la facturation se fait par petits incréments, en fonction du nombre de processeurs virtuels dans les instances Compute Engine de votre cluster lorsque ce dernier est actif. Les ressources supplémentaires utilisées par Cloud Dataproc, comme un réseau Compute Engine, BigQuery, Cloud BigTable ou autres, sont facturées selon leur utilisation. Pour en savoir plus sur les tarifs appliqués, consultez la grille tarifaire.

Contrôlez vos ressources où que vous soyez

Pour gérer vos projets, téléchargez l'application Google Cloud Console.