Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Crea un clúster de Dataproc con la consola de Google Cloud
En esta página, se muestra cómo usar la consola de Google Cloud para crear un clúster de Dataproc, ejecutar un trabajo básico de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en él.
Para seguir la guía paso a paso sobre esta tarea directamente en la consola Google Cloud , haz clic en Guiarme:
Sign in to your Google Cloud account. If you're new to
Google Cloud,
create an account to evaluate how our products perform in
real-world scenarios. New customers also get $300 in free credits to
run, test, and deploy workloads.
In the Google Cloud console, on the project selector page,
select or create a Google Cloud project.
En el cuadro de diálogo Crear clúster de Dataproc, haz clic en Crear en la fila Clúster en Compute Engine.
En el campo Nombre del clúster, ingresa example-cluster.
En las listas Región y Zona, selecciona una región y una zona.
Selecciona una región (por ejemplo, us-east1 o europe-west1) para aislar los recursos, como las instancias de máquina virtual (VM) y las ubicaciones de almacenamiento de Cloud Storage y metadatos que Dataproc usa en la región. Para obtener más información, consulta Regiones y zonas disponibles y Extremos regionales.
Para todas las demás opciones, usa la configuración predeterminada.
Para crear el clúster, haz clic en Crear.
Tu clúster nuevo aparecerá en una lista en la página Clústeres. El estado es Aprovisionando hasta que el clúster esté listo para usarse y, luego, cambia a En ejecución. El aprovisionamiento del clúster puede tardar unos minutos.
Enviar un trabajo de Spark
Envía un trabajo de Spark que calcule un valor de Pi:
En el menú de navegación de Dataproc, haz clic en Trabajos.
En la página Trabajos, haz clic en add_boxEnviar trabajo y, luego, haz lo siguiente:
En el campo ID de trabajo, usa el parámetro de configuración predeterminado o proporciona un ID que sea único para tu proyecto Google Cloud .
En el menú desplegable Clúster, selecciona example-cluster.
En Tipo de trabajo, selecciona Spark.
En el campo Clase principal o jar, ingresa org.apache.spark.examples.SparkPi.
En el campo Archivos JAR, ingresa file:///usr/lib/spark/examples/jars/spark-examples.jar.
En el campo Arguments, ingresa 1000 para configurar la cantidad de tareas.
Haz clic en Enviar.
Tu trabajo se mostrará en la página Detalles del trabajo. El estado del trabajo es En ejecución o Iniciando y, luego, cambia a Completado después de que se envía.
Para evitar el desplazamiento en el resultado, haz clic en Ajuste de línea: desactivado. El resultado es similar al siguiente:
Pi is roughly 3.1416759514167594
Para ver los detalles del trabajo, haz clic en la pestaña Configuración.
Actualiza un clúster
Actualiza tu clúster cambiando la cantidad de instancias de trabajadores:
En el menú de navegación de Dataproc, haz clic en Clústeres.
En la lista de clústeres, haz clic en example-cluster.
En la página Detalles del clúster, haz clic en la pestaña Configuración.
Se mostrará la configuración del clúster.
Haz clic en mode_editEditar.
En el campo Nodos trabajadores, ingresa 5.
Haz clic en Guardar.
El clúster ya se actualizó. Para disminuir la cantidad de nodos trabajadores al valor original, sigue el mismo procedimiento.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Para borrar el clúster, en la página Detalles del clúster de example-cluster, haz clic en deleteBorrar.
Para confirmar que deseas borrar el clúster, haz clic en Borrar.
¿Qué sigue?
Prueba esta guía de inicio rápido con otras herramientas:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eThis guide demonstrates how to create a Dataproc cluster using the Google Cloud console, with steps provided in a guided format.\u003c/p\u003e\n"],["\u003cp\u003eYou can submit an Apache Spark job to the cluster, specifically one that estimates Pi using the Monte Carlo method, by following the provided steps.\u003c/p\u003e\n"],["\u003cp\u003eThe guide shows how to modify the worker nodes of an existing cluster, allowing you to increase or decrease the resources allocated to your cluster.\u003c/p\u003e\n"],["\u003cp\u003eInstructions are included for cleaning up the cluster to avoid incurring unwanted charges.\u003c/p\u003e\n"],["\u003cp\u003eThe content also provides additional resources, links to quickstart guides for using other tools, and additional guidance on creating firewall rules and writing Spark Scala jobs.\u003c/p\u003e\n"]]],[],null,["Create a Dataproc cluster by using the Google Cloud console This page shows you how to use the Google Cloud console to create a\nDataproc cluster, run a basic\n[Apache Spark](http://spark.apache.org/)\njob in the cluster, and then modify the number of workers in the cluster.\n\n*** ** * ** ***\n\nTo follow step-by-step guidance for this task directly in the\nGoogle Cloud console, click **Guide me**:\n\n[Guide me](https://console.cloud.google.com/freetrial?redirectPath=/?walkthrough_id=dataproc--quickstart-dataproc-console)\n\n*** ** * ** ***\n\nBefore you begin\n\n- Sign in to your Google Cloud account. If you're new to Google Cloud, [create an account](https://console.cloud.google.com/freetrial) to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.\n- In the Google Cloud console, on the project selector page,\n select or create a Google Cloud project.\n\n | **Note**: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.\n\n [Go to project selector](https://console.cloud.google.com/projectselector2/home/dashboard)\n-\n [Verify that billing is enabled for your Google Cloud project](/billing/docs/how-to/verify-billing-enabled#confirm_billing_is_enabled_on_a_project).\n\n-\n\n\n Enable the Dataproc API.\n\n\n [Enable the API](https://console.cloud.google.com/flows/enableapi?apiid=dataproc)\n\n- In the Google Cloud console, on the project selector page,\n select or create a Google Cloud project.\n\n | **Note**: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.\n\n [Go to project selector](https://console.cloud.google.com/projectselector2/home/dashboard)\n-\n [Verify that billing is enabled for your Google Cloud project](/billing/docs/how-to/verify-billing-enabled#confirm_billing_is_enabled_on_a_project).\n\n-\n\n\n Enable the Dataproc API.\n\n\n [Enable the API](https://console.cloud.google.com/flows/enableapi?apiid=dataproc)\n\n\u003cbr /\u003e\n\nCreate a cluster\n\n1. In the Google Cloud console, go to the Dataproc\n **Clusters** page.\n\n [Go to Clusters](https://console.cloud.google.com/dataproc/clusters)\n2. Click **Create cluster**.\n\n3. In the **Create Dataproc cluster** dialog, click **Create** in\n the **Cluster on Compute Engine** row.\n\n4. In the **Cluster name** field, enter `example-cluster`.\n\n5. In the **Region** and **Zone** lists, select a region and zone.\n\n Select a region (for example, `us-east1` or `europe-west1`)\n to isolate resources, such as virtual machine (VM) instances and\n Cloud Storage and metadata storage locations that are utilized by\n Dataproc, in the region. For more\n information, see\n [Available regions and zones](/compute/docs/regions-zones/regions-zones#available)\n and\n [Regional endpoints](/dataproc/docs/concepts/regional-endpoints).\n6. For all the other options, use the default settings.\n\n7. To create the cluster, click **Create**.\n\n Your new cluster appears in a list on the **Clusters** page. The status is\n **Provisioning** until the cluster is ready to use, and then the status\n changes to **Running**. Provisioning the cluster might take a couple of\n minutes.\n\nSubmit a Spark job\n\nSubmit a Spark job that estimates a value of Pi:\n\n1. In the Dataproc navigation menu, click **Jobs**.\n2. On the **Jobs** page, click\n add_box **Submit job**, and then do\n the following:\n\n 1. In the **Job ID** field, use the default setting, or provide an ID that is unique to your Google Cloud project.\n 2. In the **Cluster** drop-down, select **`example-cluster`**.\n 3. For **Job type** , select **Spark**.\n 4. In the **Main class or jar** field, enter `org.apache.spark.examples.SparkPi`.\n 5. In the **Jar files** field, enter `file:///usr/lib/spark/examples/jars/spark-examples.jar`.\n 6. In the **Arguments** field, enter `1000` to set the number of tasks.\n\n | **Note:** The Spark job estimates Pi by using the [Monte Carlo method](https://wikipedia.org/wiki/Monte_Carlo_method). It generates *x* and *y* points on a coordinate plane that models a circle enclosed by a unit square. The input argument (`1000`) determines the number of x-y pairs to generate; the more pairs generated, the greater the accuracy of the estimation. This estimation uses Dataproc worker nodes to parallelize the computation. For more information, see [Estimating Pi using the Monte Carlo Method](https://academo.org/demos/estimating-pi-monte-carlo/) and [JavaSparkPi.java on GitHub](https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/JavaSparkPi.java).\n 7. Click **Submit**.\n\n Your job is displayed on the **Job details** page. The job status is\n **Running** or **Starting** , and then it changes to **Succeeded** after\n it's submitted.\n\n To avoid scrolling in the output, click **Line wrap: off**. The output\n is similar to the following: \n\n ```\n Pi is roughly 3.1416759514167594\n ```\n\n To view job details, click the **Configuration** tab.\n\nUpdate a cluster\n\nUpdate your cluster by changing the number of worker instances:\n\n1. In the Dataproc navigation menu, click **Clusters**.\n2. In the list of clusters, click **`example-cluster`**.\n3. On the **Cluster details** page, click the **Configuration** tab.\n\n Your cluster settings are displayed.\n4. Click mode_edit **Edit**.\n\n5. In the **Worker nodes** field, enter `5`.\n\n6. Click **Save**.\n\nYour cluster is now updated. To decrease the number of worker nodes to the\noriginal value, follow the same procedure.\n\nClean up\n\n\nTo avoid incurring charges to your Google Cloud account for\nthe resources used on this page, follow these steps.\n\n1. To delete the cluster, on the **Cluster details** page for **`example-cluster`** , click delete **Delete**.\n2. To confirm that you want to delete the cluster, click **Delete**.\n\nWhat's next\n\n- Try this quickstart by using other tools:\n - [Use the API Explorer](/dataproc/docs/quickstarts/create-cluster-template).\n - [Use the Google Cloud CLI](/dataproc/docs/quickstarts/create-cluster-gcloud).\n- Learn how to [create robust firewall rules when you create a project](/dataproc/docs/concepts/configuring-clusters/network).\n- Learn how to [write and run a Spark Scala job](/dataproc/docs/tutorials/spark-scala)."]]