Dataproc est un service Spark et Hadoop géré qui vous permet d'utiliser les outils de données Open Source pour le traitement par lots, l'interrogation, le streaming et le machine learning. L'automatisation Dataproc vous permet de créer des clusters rapidement, de les gérer facilement et de faire des économies en désactivant ceux que vous n'utilisez plus. Vous consacrez moins de temps et d'argent aux fonctions d'administration, ce qui vous permet de vous concentrer sur les tâches et les données.
Pourquoi utiliser Dataproc ?
Par rapport aux produits sur site traditionnels et aux services cloud concurrents, Dataproc présente un certain nombre d'avantages uniques pour les clusters de trois à plus de cent nœuds :
- Faible coût : Dataproc est facturé à seulement 1 centime par processeur virtuel dans votre cluster et par heure, en plus des autres ressources Cloud Platform que vous utilisez. En plus de ce faible coût, les clusters Dataproc peuvent inclure des instances préemptives dont les prix de calcul sont inférieurs, ce qui réduit encore davantage vos coûts. Au lieu d'arrondir votre consommation à l'heure la plus proche, Dataproc ne vous facture que ce que vous utilisez réellement avec la facturation à la seconde et une période de facturation minimale d'une minute.
- Très rapide : sans Dataproc, la création de clusters Spark et Hadoop sur site ou via des fournisseurs IaaS peut prendre entre cinq et 30 minutes. À titre de comparaison, les clusters Dataproc démarrent, évoluent et s'arrêtent rapidement, chacune de ces opérations ne prenant en moyenne que 90 secondes. Cela vous permet de passer moins de temps à attendre les clusters et plus de temps à travailler sur vos données.
- Intégré : Dataproc est intégré à d'autres services Google Cloud Platform, tels que BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging et Cloud Monitoring. Ainsi, en plus d'un cluster Spark ou Hadoop, vous disposez d'une plate-forme de données complète. Par exemple, vous pouvez utiliser Dataproc pour extraire, convertir et charger facilement plusieurs téraoctets de données de journaux brutes directement dans BigQuery pour la création de rapports commerciaux.
- Géré — Utilisez les clusters Spark et Hadoop sans l'assistance d'un administrateur, ni d'un logiciel spécifique. Vous pouvez facilement interagir avec les clusters et les tâches Spark ou Hadoop via Google Cloud Console, Cloud SDK ou l'API REST Dataproc. Lorsque vous avez terminé avec un cluster, vous pouvez simplement le désactiver afin de ne pas générer de frais sur un cluster inactif. Vous ne risquez aucune perte de données, car Dataproc est intégré à Cloud Storage, BigQuery et Cloud Bigtable.
- Simple et familier : vous n'avez pas besoin d'apprendre de nouveaux outils ou API pour utiliser Dataproc, ce qui facilite le transfert de projets existants vers Dataproc sans redéploiement. Spark, Hadoop, Pig et Hive sont mis à jour régulièrement pour vous aider à optimiser votre productivité.
Que contient Dataproc ?
Pour obtenir la liste des versions de connecteur Open Source (Hadoop, Spark, Hive et Pig) et Google Cloud Platform compatibles avec Dataproc, consultez la liste des versions de Dataproc.
Premiers pas avec Dataproc
Pour commencer à utiliser Dataproc rapidement, consultez les guides de démarrage rapide de Dataproc. Vous pouvez accéder à Dataproc comme suit :
- via l'API REST ;
- via le SDK Cloud ;
- en utilisant l'interface utilisateur de Dataproc
- via les bibliothèques clientes Cloud