Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Dataproc es un servicio administrado de Spark y Hadoop con el que puedes aprovechar las herramientas de código abierto para procesar, consultar y transmitir datos por lote, además de herramientas de aprendizaje automático.
Con la automatización de Dataproc, podrá crear clústeres rápidamente, administrarlos con facilidad y ahorrar dinero desactivándolos cuando no los necesite. Con un gasto menor de tiempo y dinero en administración, puedes enfocarte en tus trabajos y datos.
Ventajas de Dataproc
Cuando se lo compara con productos tradicionales, locales y servicios en la nube de la competencia, Dataproc tiene varias ventajas únicas para clústeres de tres a cientos de nodos:
Costo bajo: Dataproc tiene un precio de solo 1 centavo por CPU virtual en tu clúster por hora, además de los otros recursos de Cloud Platform que uses. Además de este costo bajo, los clústeres de Dataproc pueden incluir instancias interrumpibles que tienen costos de procesamiento más bajos, lo que reduce aún más tus costos. En vez de redondear tu uso hacia arriba a la hora más cercana, Dataproc te cobra solo por lo que en realidad usas con la facturación segundo a segundo y un período de facturación bajo, de un mínimo de un minuto.
Muy rápido: si no se usa Dataproc, puede tardar de cinco a 30 minutos crear clústeres locales de Spark y Hadoop o a través de los proveedores de IaaS. En comparación, los clústeres de Dataproc se inician, escalan y cierran rápido; cada una de estas operaciones tarda 90 segundos o menos en promedio. Esto significa que deberás esperar menos tiempo a los clústeres y podrás dedicar más tiempo práctico a trabajar con tus datos.
Integrado: Dataproc tiene integración incorporada con otros servicios de Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging y Cloud Monitoring, por lo que tienes más que un clúster de Spark o Hadoop: tienes una plataforma de datos completa. Por ejemplo, puedes usar Dataproc para ETL terabytes de datos de registro sin procesar de manera directa y sin esfuerzo en BigQuery para informes de negocios.
Administrado: usa los clústeres de Spark y Hadoop sin la asistencia de un administrador o un software especial. Puedes interactuar con facilidad entre clústeres y trabajos de Spark o Hadoop a través de la consola de Google Cloud , el SDK de Cloud o la API de REST de Dataproc. Cuando terminas de usar un clúster, puedes apagarlo para que no gastes dinero en un clúster inactivo. No tendrás que preocuparte por perder datos, ya que Dataproc está integrado a Cloud Storage, BigQuery y Cloud Bigtable.
Simple y conocido: no necesitas aprender a usar herramientas o APIs nuevas para usar Dataproc, lo que facilita el traslado de proyectos existentes a Dataproc sin volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes ejecutar tus tareas con rapidez.
Qué incluye Dataproc
Para obtener una lista de las versiones de conectores de código abierto (Hadoop, Spark, Hive y Pig) y Google Cloud
compatibles con
Dataproc, consulta la
lista de versiones de Dataproc.
Comienza a usar Dataproc
Para comenzar a usar Dataproc rápidamente, consulta las guías de inicio rápido de Dataproc. Puedes acceder a Dataproc de las siguientes maneras:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eDataproc is a managed service for Spark and Hadoop that simplifies batch processing, querying, streaming, and machine learning with open-source tools.\u003c/p\u003e\n"],["\u003cp\u003eDataproc offers cost savings through low per-vCPU pricing, preemptible instances, and second-by-second billing, only charging for actual usage.\u003c/p\u003e\n"],["\u003cp\u003eClusters in Dataproc are created, scaled, and shut down quickly, often in 90 seconds or less, minimizing wait times and increasing efficiency.\u003c/p\u003e\n"],["\u003cp\u003eDataproc seamlessly integrates with other Google Cloud Platform services, forming a complete data platform that enables functionalities like ETL directly into BigQuery.\u003c/p\u003e\n"],["\u003cp\u003eDataproc provides a managed environment, eliminating the need for administrators or special software while offering easy interaction with clusters and jobs through the Google Cloud console, Cloud SDK, or REST API.\u003c/p\u003e\n"]]],[],null,["Dataproc is a managed Spark and Hadoop service that lets you take advantage of open\nsource data tools for batch processing, querying, streaming, and machine learning.\nDataproc automation helps you create clusters quickly, manage them easily, and save\nmoney by turning clusters off when you don't need them. With less time and money spent on\nadministration, you can focus on your jobs and your data. \n\nAdvantages of Dataproc\n\nWhen compared to traditional, on-premises products and competing cloud\nservices, Dataproc has a number of unique advantages for clusters of\nthree to hundreds of nodes:\n\n- **Low cost** --- Dataproc is [priced](/dataproc/docs/resources/pricing) at only 1 cent per virtual CPU in your cluster per hour, on top of the other Cloud Platform resources you use. In addition to this low price, Dataproc clusters can include [preemptible instances](/preemptible-vms) that have lower compute prices, reducing your costs even further. Instead of rounding your usage up to the nearest hour, Dataproc charges you only for what you really use with second-by-second billing and a low, one-minute-minimum billing period.\n- **Super fast** --- Without using Dataproc, it can take from five to 30 minutes to create Spark and Hadoop clusters on-premises or through IaaS providers. By comparison, Dataproc clusters are quick to start, scale, and shutdown, with each of these operations taking 90 seconds or less, on average. This means you can spend less time waiting for clusters and more hands-on time working with your data.\n- **Integrated** --- Dataproc has built-in integration with other Google Cloud Platform services, such as [BigQuery](/bigquery), [Cloud Storage](/storage), [Cloud Bigtable](/bigtable), [Cloud Logging](/logging), and [Cloud Monitoring](/monitoring), so you have more than just a Spark or Hadoop cluster---you have a complete data platform. For example, you can use Dataproc to effortlessly ETL terabytes of raw log data directly into BigQuery for business reporting.\n- **Managed** --- Use Spark and Hadoop clusters without the assistance of an administrator or special software. You can easily interact with clusters and Spark or Hadoop jobs through the Google Cloud console, the Cloud SDK, or the Dataproc REST API. When you're done with a cluster, you can simply turn it off, so you don't spend money on an idle cluster. You won't need to worry about losing data, because Dataproc is integrated with [Cloud Storage](/storage), [BigQuery](/bigquery), and [Cloud Bigtable](/bigtable).\n- **Simple and familiar** --- You don't need to learn new tools or APIs to use Dataproc, making it easy to move existing projects into Dataproc without redevelopment. Spark, Hadoop, Pig, and Hive are frequently updated, so you can be productive faster.\n\nWhat is included in Dataproc\n\nFor a list of the open source (Hadoop, Spark, Hive, and Pig) and Google Cloud\nconnector versions supported by\nDataproc, see the\n[Dataproc version list](/dataproc/docs/concepts/dataproc-versions).\n\nGetting Started with Dataproc\n\nTo quickly get started with Dataproc, see the Dataproc\nquickstarts. You can access Dataproc in the following ways:\n\n- Through the [REST API](/dataproc/docs/quickstarts/create-cluster-template)\n- Using the [Cloud SDK](/dataproc/docs/quickstarts/create-cluster-gcloud)\n- Using the [Dataproc UI](/dataproc/docs/quickstarts/create-cluster-console)\n- Through the [Cloud Client Libraries](/dataproc/docs/quickstarts/create-cluster-client-libraries)"]]