Cloud Dataproc

Un moyen plus rapide, plus facile et plus économique d'exécuter Apache Spark et Apache Hadoop

Essai gratuit

Apache Hadoop et Apache Spark en mode cloud natif

Cloud Dataproc est un service cloud rapide, facile à utiliser et entièrement géré pour une exécution plus simple et plus rentable des clusters Apache Spark et Apache Hadoop. Les opérations qui prenaient auparavant des heures ou des jours prennent désormais quelques secondes ou quelques minutes, et vous ne payez que les ressources que vous utilisez (grâce à la facturation à la seconde). De plus, Cloud Dataproc s'intègre facilement à d'autres services Google Cloud Platform (GCP). Vous bénéficiez ainsi d'une plate-forme puissante et complète de traitement des données, d'analyse et de machine learning.

Services gérés Hadoop et Spark

Traitement des données rapide et évolutif

Créez rapidement des clusters Cloud Dataproc, puis redimensionnez-les à tout moment (de trois nœuds à plusieurs centaines) afin que vos pipelines de données ne saturent pas vos clusters. Comme chaque opération de cluster prend en moyenne moins de 90 secondes, vous pouvez consacrer plus de temps à l'analyse de vos données et moins à l'infrastructure.

Traitement de données rapide et évolutif

Des tarifs abordables

À l'image de Google Cloud Platform, Cloud Dataproc est économique et fait l'objet d'une tarification simple basée sur l'utilisation réelle mesurée à la seconde. Les clusters Cloud Dataproc peuvent également inclure des instances préemptives moins chères, ce qui vous permet de bénéficier de clusters performants à un coût total encore plus faible.

Des tarifs abordables

Un écosystème Open Source

L'écosystème Spark et Hadoop fournit des outils, des bibliothèques et des documents que vous pouvez utiliser avec Cloud Dataproc. Grâce aux versions natives et régulièrement mises à jour de Spark, Hadoop, Pig et Hive, lancez-vous sans avoir à vous familiariser avec de nouveaux outils ou API, et déplacez des projets existants ou des pipelines ETL sans avoir à les redévelopper.

Un écosystème Open Source

Fonctionnalités de Cloud Dataproc

Google Cloud Dataproc est un service Apache Spark et Apache Hadoop géré qui est rapide, facile à utiliser et économique.

Gestion automatisée des clusters
Le déploiement géré, la journalisation et la surveillance vous permettent de vous concentrer sur vos données, et non pas sur vos clusters. Ces derniers sont stables, évolutifs et rapides.
Clusters redimensionnables
Les clusters peuvent être créés et adaptés rapidement avec différents types de machines virtuelles, tailles de disque, nombres de nœuds et options de réseau.
Solution intégrée
Grâce à l'intégration avec Cloud Storage, BigQuery, BigTable, Stackdriver Logging et Stackdriver Monitoring, bénéficiez d'une plate-forme de données robuste et complète.
Gestion des versions
La gestion des versions d'images vous permet de basculer entre différentes versions d'Apache Spark, d'Apache Hadoop et d'autres outils.
Disponibilité élevée
Pour garantir la disponibilité élevée de vos clusters et de vos tâches, exécutez vos clusters avec plusieurs nœuds maîtres et paramétrez vos tâches de façon à redémarrer en cas d'échec.
Outils de développement
Gérez vos clusters via une interface Web facile à utiliser, le SDK Google Cloud, les API RESTful, l'accès SSH et d'autres méthodes.
Actions d'initialisation
Exécutez des actions d'initialisation pour installer ou personnaliser les paramètres et les bibliothèques dont vous avez besoin une fois votre cluster créé.
Configuration automatique ou manuelle
Cloud Dataproc configure automatiquement le matériel et les logiciels sur les clusters tout en permettant un contrôle manuel.
Machines virtuelles flexibles
Les clusters peuvent utiliser des types de machines personnalisés et des machines virtuelles préemptives afin que leur taille soit parfaitement adaptée à vos besoins.

Cloud Dataflow ou Cloud Dataproc : quelle solution choisir ?

Les deux solutions Cloud Dataproc et Cloud Dataflow peuvent être utilisées pour le traitement des données, et possèdent des capacités communes de traitement par flux et par lots. Comment déterminer quelle est la solution la mieux adaptée à votre environnement ?
Dataproc ou Dataflow

Cloud Dataproc

Cloud Dataproc est une bonne solution pour les environnements qui dépendent de composants spécifiques de l'écosystème big data Apache :

  • check Outils/Packages
  • check Pipelines
  • check Compétences des ressources existantes

Cloud Dataflow

Cloud Dataflow est généralement la solution de choix pour les environnements complètement nouveaux :

  • check Réduction des surcharges de travail
  • check Approche unifiée du développement de pipelines par flux ou par lots
  • check Utilisation d'Apache Beam
  • check Portabilité des pipelines entre Cloud Dataflow, Apache Spark et Apache Flink en tant qu'environnements d'exécution

Charges de travail recommandées

CHARGES DE TRAVAIL CLOUD DATAPROC CLOUD DATAFLOW
Traitement par flux (ETL) check
Traitement par lot (ETL) check check
Traitement itératif et blocs-notes check
Machine learning avec Spark ML check
Prétraitement pour le machine learning check (avec Cloud ML Engine)

Tarifs de Cloud Dataproc

Avec Cloud Dataproc, la facturation se fait par petits incréments en fonction du nombre de processeurs virtuels dans les instances Compute Engine de votre cluster1.

Iowa Oregon Virginie du Nord Caroline du Sud Montréal São Paulo Belgique Londres Pays-Bas Francfort Sydney Mumbai Taïwan Tokyo
Type de machine Prix
Machines standards
1 à 64 processeurs virtuels
Machines à haute capacité de mémoire
2 à 64 processeurs virtuels
Machines à haute capacité de calcul
2 à 64 processeurs virtuels
Machines personnalisées
Selon l'utilisation du processeur virtuel et de la mémoire
Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page relative aux SKU de Cloud Platform s'appliquent.

1 Avec Cloud Dataproc, la facturation se fait par petits incréments en fonction du nombre de processeurs virtuels dans les instances Compute Engine de votre cluster lorsque ce dernier est actif. Les ressources supplémentaires utilisées par Cloud Dataproc, comme un réseau Compute Engine, BigQuery, Cloud BigTable ou autres, sont facturées selon leur utilisation. Pour en savoir plus sur les tarifs appliqués, consultez la grille tarifaire.