Dataproc

Un moyen plus rapide, plus facile et plus économique d'exécuter Apache Spark et Apache Hadoop

Profiter d'un essai gratuit

Apache Hadoop et Apache Spark en mode cloud natif

Dataproc est un service cloud rapide, facile à utiliser et entièrement géré qui permet une exécution plus simple et plus rentable des clusters Apache Spark et Apache Hadoop. Les opérations qui prenaient auparavant des heures ou des jours prennent désormais quelques secondes ou quelques minutes, et vous ne payez que les ressources que vous utilisez (grâce à la facturation à la seconde). De plus, Dataproc s'intègre facilement à d'autres services Google Cloud Platform (GCP). Vous bénéficiez ainsi d'une plate-forme puissante et complète de traitement des données, d'analyse et de machine learning.

Services Hadoop et Spark gérés

Traitement des données rapide et évolutif

Créez rapidement des clusters Dataproc, puis redimensionnez-les à tout moment (de trois nœuds à plusieurs centaines de nœuds) afin que vos pipelines de données ne saturent pas vos clusters. Vous pouvez consacrer plus de temps à l'analyse des insights et moins à l'infrastructure, chaque opération de cluster prenant en moyenne moins de 90 secondes.

Traitement de données rapide et évolutif

Des tarifs abordables

À l'image de Google Cloud Platform, Dataproc est économique et fait l'objet d'une tarification simple basée sur l'utilisation réelle mesurée à la seconde. Les clusters Dataproc peuvent également inclure des instances préemptives moins chères, des remises sur engagement d'utilisation et des remises automatiques proportionnelles à une utilisation soutenue, ce qui vous permet de bénéficier de clusters performants à un coût total encore plus faible.

Des tarifs abordables

Un écosystème Open Source

Vous pouvez utiliser les outils, les bibliothèques et la documentation Spark et Hadoop avec Dataproc, lequel fournit des mises à jour fréquentes des versions natives de Spark, Hadoop, Pig et Hive. Vous pouvez ainsi vous lancer sans avoir à vous familiariser avec de nouveaux outils ou de nouvelles API, et migrer des pipelines ETL ou des projets existants sans avoir à les redévelopper.

Un écosystème Open Source

Fonctionnalités de Dataproc

Dataproc est un service Apache Spark et Apache Hadoop géré qui est rapide, facile à utiliser et économique.

Gestion automatisée des clusters
Le déploiement, la journalisation et la surveillance gérés vous permettent de vous concentrer sur vos données, et non pas sur vos clusters. Les clusters Dataproc sont stables, évolutifs et rapides.
Clusters redimensionnables
Créez des clusters et adaptez-les rapidement avec différents types de machines virtuelles, tailles de disque, nombres de nœuds et options de mise en réseau.
Autoscaling des clusters
L'autoscaling Dataproc fournit un mécanisme assurant l'automatisation de la gestion des ressources de cluster, et permet l'ajout et le retrait automatiques de nœuds de calcul de cluster.
Intégration au cloud
Grâce à l'intégration à Cloud Storage, BigQuery, Bigtable, Stackdriver Logging, Stackdriver Monitoring et AI Hub, vous bénéficiez d'une plate-forme de données robuste et complète.
Gestion des versions
La gestion des versions d'images vous permet de basculer entre différentes versions d'Apache Spark, d'Apache Hadoop et d'autres outils.
Haute disponibilité
Pour garantir la disponibilité élevée de vos clusters et de vos tâches, exécutez vos clusters en mode haute disponibilité avec plusieurs nœuds maîtres et paramétrez vos tâches de façon qu'elles redémarrent en cas d'échec.
Sécurité d'entreprise
Lorsque vous créez un cluster Dataproc, vous pouvez activer le mode sécurisé Hadoop via Kerberos en ajoutant une configuration de sécurité. De plus, GCP et Dataproc offrent des fonctionnalités de sécurité supplémentaires permettant de protéger vos données. Le chiffrement au repos par défaut, la connexion au système d'exploitation, VPC Service Controls et les clés de chiffrement gérées par le client (CMEK) font partie des fonctionnalités de sécurité propres à GCP les plus fréquemment utilisées avec Dataproc.
Suppression programmée du cluster
Pour éviter d'avoir à payer des frais pour un cluster inactif, vous pouvez utiliser la suppression programmée de Cloud Dataproc qui offre des options pour supprimer un cluster après une période d'inactivité spécifiée du cluster, à une date/heure définie, ou après une période déterminée.
Configuration automatique ou manuelle
Dataproc configure automatiquement le matériel et les logiciels tout en permettant un contrôle manuel.
Outils pour les développeurs
Gérez vos clusters via une interface utilisateur Web conviviale, le SDK Cloud, des API RESTful, l'accès SSH et d'autres méthodes.
Actions d'initialisation
Exécutez des actions d'initialisation pour installer ou personnaliser les paramètres et les bibliothèques dont vous avez besoin une fois votre cluster créé.
Composants facultatifs
Utilisez des composants facultatifs pour installer et configurer des composants supplémentaires sur le cluster. Intégrés aux composants Dataproc, les composants facultatifs offrent des environnements entièrement configurés pour Zeppelin, Druid, Presto et d'autres composants logiciels Open Source liés à l'écosystème Apache Hadoop/Apache Spark.
Images personnalisées
Les clusters Dataproc peuvent être provisionnés avec une image personnalisée incluant vos packages de système d'exploitation Linux préinstallés.
Machines virtuelles flexibles
Les clusters peuvent utiliser des types de machines personnalisés et des machines virtuelles préemptives afin que leur taille soit parfaitement adaptée à vos besoins.
Passerelle des composants et accès à des notebooks
La passerelle des composants Dataproc permet un accès sécurisé, en un seul clic, aux interfaces Web des composants par défaut et facultatifs de Dataproc en cours d'exécution sur le cluster.
Modèles de workflow
Les modèles de workflow Dataproc offrent un procédé souple et convivial pour gérer et exécuter des workflows. Un modèle de workflow est une configuration de workflow réutilisable qui définit un graphe des tâches avec des informations sur leur emplacement d'exécution.

Tarifs de Dataproc

Avec  Dataproc, la facturation se fait par petits incréments en fonction du nombre de processeurs virtuels dans les instances Compute Engine de votre cluster1.

Sélection de blogs

Consultez les derniers blogs pour mieux comprendre le traitement de données Open Source dans le cloud.

Temps forts de la conférence Next 2019

Découvrez comment nos clients utilisent Dataproc pour réduire leurs coûts et prendre des décisions basées sur les données dans leur organisation.

Dernières fonctionnalités de Cloud Dataproc
video_youtube
Migrer Hadoop vers Google Cloud Platform : les méthodes utilisées par nos clients
video_youtube
Démocratiser Dataproc
video_youtube
Google Cloud

Premiers pas

Développez vos connaissances et créez des applications

Vous débutez sur GCP ? Bénéficiez d'un avoir de 300 $ pour essayer les produits GCP gratuitement.

Encore besoin d'aide ?

Nos experts peuvent vous aider à concevoir la solution adaptée à vos besoins ou à trouver le bon partenaire.

Les produits figurant sur cette page sont proposés en version alpha ou bêta, ou en accès anticipé. Pour en savoir plus sur les étapes de lancement de nos produits, consultez cette page.

Les produits Cloud AI sont conformes aux règles du Contrat de niveau de service répertoriées sur cette page. Ils peuvent présenter des latences ou des garanties de disponibilité différentes de celles d'autres services Google Cloud.

Envoyer des commentaires concernant…