Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Dataproc est un service Spark et Hadoop géré qui vous permet d'utiliser les outils de données Open Source pour le traitement par lots, l'interrogation, le streaming et le machine learning.
L'automatisation Dataproc vous permet de créer des clusters rapidement, de les gérer facilement et de faire des économies en désactivant ceux que vous n'utilisez plus. Vous consacrez moins de temps et d'argent aux fonctions d'administration, ce qui vous permet de vous concentrer sur les tâches et les données.
Avantages de Dataproc
Par rapport aux produits sur site traditionnels et aux services cloud concurrents, Dataproc présente un certain nombre d'avantages uniques pour les clusters de trois à plus de cent nœuds :
Faible coût : Dataproc est facturé à seulement 1 centime par processeur virtuel dans votre cluster et par heure, en plus des autres ressources Cloud Platform que vous utilisez. En plus de ce faible coût, les clusters Dataproc peuvent inclure des instances préemptives dont les prix de calcul sont inférieurs, ce qui réduit encore davantage vos coûts. Au lieu d'arrondir votre consommation à l'heure la plus proche, Dataproc ne vous facture que ce que vous utilisez réellement avec la facturation à la seconde et une période de facturation minimale d'une minute.
Très rapide : sans Dataproc, la création de clusters Spark et Hadoop sur site ou via des fournisseurs IaaS peut prendre entre cinq et 30 minutes. À titre de comparaison, les clusters Dataproc démarrent, évoluent et s'arrêtent rapidement, chacune de ces opérations ne prenant en moyenne que 90 secondes. Cela vous permet de passer moins de temps à attendre les clusters et plus de temps à travailler sur vos données.
Intégré : Dataproc est intégré à d'autres services Google Cloud Platform, tels que BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging et Cloud Monitoring. Ainsi, en plus d'un cluster Spark ou Hadoop, vous disposez d'une plate-forme de données complète. Par exemple, vous pouvez utiliser Dataproc pour extraire, convertir et charger facilement plusieurs téraoctets de données de journaux brutes directement dans BigQuery pour la création de rapports commerciaux.
Géré — Utilisez les clusters Spark et Hadoop sans l'assistance d'un administrateur, ni d'un logiciel spécifique. Vous pouvez facilement interagir avec les clusters et les tâches Spark ou Hadoop via la console Google Cloud , le SDK Cloud ou l'API REST Dataproc. Lorsque vous avez terminé avec un cluster, vous pouvez simplement le désactiver afin de ne pas générer de frais sur un cluster inactif. Vous ne risquez aucune perte de données, car Dataproc est intégré à Cloud Storage, BigQuery et Cloud Bigtable.
Simple et familier : vous n'avez pas besoin d'apprendre de nouveaux outils ou API pour utiliser Dataproc, ce qui facilite le transfert de projets existants vers Dataproc sans redéploiement. Spark, Hadoop, Pig et Hive sont mis à jour régulièrement pour vous aider à optimiser votre productivité.
Que contient Dataproc ?
Pour obtenir la liste des versions de connecteur Open Source (Hadoop, Spark, Hive et Pig) et Google Cloud
compatibles avec Dataproc, consultez la liste des versions de Dataproc.
Premiers pas avec Dataproc
Pour commencer à utiliser Dataproc rapidement, consultez les guides de démarrage rapide de Dataproc. Vous pouvez accéder à Dataproc comme suit :
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[[["\u003cp\u003eDataproc is a managed service for Spark and Hadoop that simplifies batch processing, querying, streaming, and machine learning with open-source tools.\u003c/p\u003e\n"],["\u003cp\u003eDataproc offers cost savings through low per-vCPU pricing, preemptible instances, and second-by-second billing, only charging for actual usage.\u003c/p\u003e\n"],["\u003cp\u003eClusters in Dataproc are created, scaled, and shut down quickly, often in 90 seconds or less, minimizing wait times and increasing efficiency.\u003c/p\u003e\n"],["\u003cp\u003eDataproc seamlessly integrates with other Google Cloud Platform services, forming a complete data platform that enables functionalities like ETL directly into BigQuery.\u003c/p\u003e\n"],["\u003cp\u003eDataproc provides a managed environment, eliminating the need for administrators or special software while offering easy interaction with clusters and jobs through the Google Cloud console, Cloud SDK, or REST API.\u003c/p\u003e\n"]]],[],null,["Dataproc is a managed Spark and Hadoop service that lets you take advantage of open\nsource data tools for batch processing, querying, streaming, and machine learning.\nDataproc automation helps you create clusters quickly, manage them easily, and save\nmoney by turning clusters off when you don't need them. With less time and money spent on\nadministration, you can focus on your jobs and your data. \n\nAdvantages of Dataproc\n\nWhen compared to traditional, on-premises products and competing cloud\nservices, Dataproc has a number of unique advantages for clusters of\nthree to hundreds of nodes:\n\n- **Low cost** --- Dataproc is [priced](/dataproc/docs/resources/pricing) at only 1 cent per virtual CPU in your cluster per hour, on top of the other Cloud Platform resources you use. In addition to this low price, Dataproc clusters can include [preemptible instances](/preemptible-vms) that have lower compute prices, reducing your costs even further. Instead of rounding your usage up to the nearest hour, Dataproc charges you only for what you really use with second-by-second billing and a low, one-minute-minimum billing period.\n- **Super fast** --- Without using Dataproc, it can take from five to 30 minutes to create Spark and Hadoop clusters on-premises or through IaaS providers. By comparison, Dataproc clusters are quick to start, scale, and shutdown, with each of these operations taking 90 seconds or less, on average. This means you can spend less time waiting for clusters and more hands-on time working with your data.\n- **Integrated** --- Dataproc has built-in integration with other Google Cloud Platform services, such as [BigQuery](/bigquery), [Cloud Storage](/storage), [Cloud Bigtable](/bigtable), [Cloud Logging](/logging), and [Cloud Monitoring](/monitoring), so you have more than just a Spark or Hadoop cluster---you have a complete data platform. For example, you can use Dataproc to effortlessly ETL terabytes of raw log data directly into BigQuery for business reporting.\n- **Managed** --- Use Spark and Hadoop clusters without the assistance of an administrator or special software. You can easily interact with clusters and Spark or Hadoop jobs through the Google Cloud console, the Cloud SDK, or the Dataproc REST API. When you're done with a cluster, you can simply turn it off, so you don't spend money on an idle cluster. You won't need to worry about losing data, because Dataproc is integrated with [Cloud Storage](/storage), [BigQuery](/bigquery), and [Cloud Bigtable](/bigtable).\n- **Simple and familiar** --- You don't need to learn new tools or APIs to use Dataproc, making it easy to move existing projects into Dataproc without redevelopment. Spark, Hadoop, Pig, and Hive are frequently updated, so you can be productive faster.\n\nWhat is included in Dataproc\n\nFor a list of the open source (Hadoop, Spark, Hive, and Pig) and Google Cloud\nconnector versions supported by\nDataproc, see the\n[Dataproc version list](/dataproc/docs/concepts/dataproc-versions).\n\nGetting Started with Dataproc\n\nTo quickly get started with Dataproc, see the Dataproc\nquickstarts. You can access Dataproc in the following ways:\n\n- Through the [REST API](/dataproc/docs/quickstarts/create-cluster-template)\n- Using the [Cloud SDK](/dataproc/docs/quickstarts/create-cluster-gcloud)\n- Using the [Dataproc UI](/dataproc/docs/quickstarts/create-cluster-console)\n- Through the [Cloud Client Libraries](/dataproc/docs/quickstarts/create-cluster-client-libraries)"]]