Dataproc
Un moyen plus rapide, plus facile et plus économique d'exécuter Apache Spark et Apache Hadoop
Profiter d'un essai gratuitApache Hadoop et Apache Spark en mode cloud natif
Dataproc est un service cloud rapide, facile à utiliser et entièrement géré qui permet une exécution plus simple et plus rentable des clusters Apache Spark et Apache Hadoop. Les opérations qui prenaient auparavant des heures ou des jours prennent désormais quelques secondes ou quelques minutes, et vous ne payez que les ressources que vous utilisez (grâce à la facturation à la seconde). De plus, Dataproc s'intègre facilement à d'autres services Google Cloud Platform (GCP). Vous bénéficiez ainsi d'une plate-forme puissante et complète de traitement des données, d'analyse et de machine learning.

Traitement des données rapide et évolutif
Créez rapidement des clusters Dataproc, puis redimensionnez-les à tout moment (de trois nœuds à plusieurs centaines de nœuds) afin que vos pipelines de données ne saturent pas vos clusters. Vous pouvez consacrer plus de temps à l'analyse des insights et moins à l'infrastructure, chaque opération de cluster prenant en moyenne moins de 90 secondes.

Des tarifs abordables
À l'image de Google Cloud Platform, Dataproc est économique et fait l'objet d'une tarification simple basée sur l'utilisation réelle mesurée à la seconde. Les clusters Dataproc peuvent également inclure des instances préemptives moins chères, des remises sur engagement d'utilisation et des remises automatiques proportionnelles à une utilisation soutenue, ce qui vous permet de bénéficier de clusters performants à un coût total encore plus faible.

Un écosystème Open Source
Vous pouvez utiliser les outils, les bibliothèques et la documentation Spark et Hadoop avec Dataproc, lequel fournit des mises à jour fréquentes des versions natives de Spark, Hadoop, Pig et Hive. Vous pouvez ainsi vous lancer sans avoir à vous familiariser avec de nouveaux outils ou de nouvelles API, et migrer des pipelines ETL ou des projets existants sans avoir à les redévelopper.


Fonctionnalités de Dataproc
Dataproc est un service Apache Spark et Apache Hadoop géré qui est rapide, facile à utiliser et économique.
- Gestion automatisée des clusters
- Le déploiement, la journalisation et la surveillance gérés vous permettent de vous concentrer sur vos données, et non pas sur vos clusters. Les clusters Dataproc sont stables, évolutifs et rapides.
- Clusters redimensionnables
- Créez des clusters et adaptez-les rapidement avec différents types de machines virtuelles, tailles de disque, nombres de nœuds et options de mise en réseau.
- Autoscaling des clusters
- L'autoscaling Dataproc fournit un mécanisme assurant l'automatisation de la gestion des ressources de cluster, et permet l'ajout et le retrait automatiques de nœuds de calcul de cluster.
- Intégration au cloud
- Grâce à l'intégration à Cloud Storage, BigQuery, Bigtable, Stackdriver Logging, Stackdriver Monitoring et AI Hub, vous bénéficiez d'une plate-forme de données robuste et complète.
- Gestion des versions
- La gestion des versions d'images vous permet de basculer entre différentes versions d'Apache Spark, d'Apache Hadoop et d'autres outils.
- Haute disponibilité
- Pour garantir la disponibilité élevée de vos clusters et de vos tâches, exécutez vos clusters en mode haute disponibilité avec plusieurs nœuds maîtres et paramétrez vos tâches de façon qu'elles redémarrent en cas d'échec.
- Sécurité d'entreprise
- Lorsque vous créez un cluster Dataproc, vous pouvez activer le mode sécurisé Hadoop via Kerberos en ajoutant une configuration de sécurité. De plus, GCP et Dataproc offrent des fonctionnalités de sécurité supplémentaires permettant de protéger vos données. Le chiffrement au repos par défaut, la connexion au système d'exploitation, VPC Service Controls et les clés de chiffrement gérées par le client (CMEK) font partie des fonctionnalités de sécurité propres à GCP les plus fréquemment utilisées avec Dataproc.
- Suppression programmée du cluster
- Pour éviter d'avoir à payer des frais pour un cluster inactif, vous pouvez utiliser la suppression programmée de Cloud Dataproc qui offre des options pour supprimer un cluster après une période d'inactivité spécifiée du cluster, à une date/heure définie, ou après une période déterminée.
- Configuration automatique ou manuelle
- Dataproc configure automatiquement le matériel et les logiciels tout en permettant un contrôle manuel.
- Outils pour les développeurs
- Gérez vos clusters via une interface utilisateur Web conviviale, le SDK Cloud, des API RESTful, l'accès SSH et d'autres méthodes.
- Actions d'initialisation
- Exécutez des actions d'initialisation pour installer ou personnaliser les paramètres et les bibliothèques dont vous avez besoin une fois votre cluster créé.
- Composants facultatifs
- Utilisez des composants facultatifs pour installer et configurer des composants supplémentaires sur le cluster. Intégrés aux composants Dataproc, les composants facultatifs offrent des environnements entièrement configurés pour Zeppelin, Druid, Presto et d'autres composants logiciels Open Source liés à l'écosystème Apache Hadoop/Apache Spark.
- Images personnalisées
- Les clusters Dataproc peuvent être provisionnés avec une image personnalisée incluant vos packages de système d'exploitation Linux préinstallés.
- Machines virtuelles flexibles
- Les clusters peuvent utiliser des types de machines personnalisés et des machines virtuelles préemptives afin que leur taille soit parfaitement adaptée à vos besoins.
- Passerelle des composants et accès à des notebooks
- La passerelle des composants Dataproc permet un accès sécurisé, en un seul clic, aux interfaces Web des composants par défaut et facultatifs de Dataproc en cours d'exécution sur le cluster.
- Modèles de workflow
- Les modèles de workflow Dataproc offrent un procédé souple et convivial pour gérer et exécuter des workflows. Un modèle de workflow est une configuration de workflow réutilisable qui définit un graphe des tâches avec des informations sur leur emplacement d'exécution.
Tarifs de Dataproc
Avec Dataproc, la facturation se fait par petits incréments en fonction du nombre de processeurs virtuels dans les instances Compute Engine de votre cluster1.

Sélection de blogs
Consultez les derniers blogs pour mieux comprendre le traitement de données Open Source dans le cloud.
Temps forts de la conférence Next 2019
Découvrez comment nos clients utilisent Dataproc pour réduire leurs coûts et prendre des décisions basées sur les données dans leur organisation.

Premiers pas
Développez vos connaissances et créez des applications
Vous débutez sur GCP ? Bénéficiez d'un avoir de 300 $ pour essayer les produits GCP gratuitement.
Encore besoin d'aide ?
Nos experts peuvent vous aider à concevoir la solution adaptée à vos besoins ou à trouver le bon partenaire.
Les produits figurant sur cette page sont proposés en version alpha ou bêta, ou en accès anticipé. Pour en savoir plus sur les étapes de lancement de nos produits, consultez cette page.
Les produits Cloud AI sont conformes aux règles du Contrat de niveau de service répertoriées sur cette page. Ils peuvent présenter des latences ou des garanties de disponibilité différentes de celles d'autres services Google Cloud.