Crea un clúster de Dataproc con la consola de Google Cloud

En esta página, se muestra cómo usar la consola de Google Cloud para crear un clúster de Dataproc, ejecutar un trabajo básico de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en él.

Para seguir la guía paso a paso sobre esta tarea de forma directa en la consola de Google Cloud, haz clic en Guiarme:

Guiarme

Antes de comenzar

Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

Ir al selector de proyectos

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita la API de Dataproc.

Habilita la API

En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

Ir al selector de proyectos

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita la API de Dataproc.

Habilita la API

Crea un clúster

En la consola de Google Cloud, ve a la página Clústeres de Dataproc.

Ir a los clústeres
Haga clic en Crear clúster.
En el diálogo Crear clúster de Dataproc, haz clic en Crear en la fila Clúster en Compute Engine.
En el campo Nombre del clúster, ingresa example-cluster.
En las listas Región y Zona, selecciona una región y una zona.

Selecciona una región (por ejemplo, us-east1 o europe-west1) para aislar recursos en la región, como instancias demáquina virtuals (VM), Cloud Storage y ubicaciones de almacenamiento de metadatos que usa Dataproc. Para obtener más información, consulta Regiones y zonas disponibles y Extremos regionales.
En todas las demás opciones, usa la configuración predeterminada.
Para crear el clúster, haz clic en Crear.

Tu clúster nuevo aparecerá en una lista en la página Clústeres. El estado es Provisioning hasta que el clúster esté listo para usarse y, luego, cambia a Running. El aprovisionamiento del clúster puede tardar unos minutos.

Envía un trabajo de Spark

Envía un trabajo de Spark que estime un valor de pi:

En el menú de navegación de Dataproc, haz clic en Trabajos.
En la página Trabajos, haz clic en Enviar trabajo y, luego, haz lo siguiente:
1. En el campo Clúster, haz clic en Explorar.
2. En la fila example-cluster, haz clic en Seleccionar.
3. En el campo ID de trabajo, usa la configuración predeterminada o proporciona un ID que sea único para tu proyecto de Google Cloud.
4. En Tipo de trabajo, selecciona Spark.
5. En el campo Clase principal o jar, ingresa org.apache.spark.examples.SparkPi.
6. En el campo Archivos jar, ingresa file:///usr/lib/spark/examples/jars/spark-examples.jar.
7. En el campo Arguments, ingresa 1000 para configurar la cantidad de tareas.
  
  Nota: El trabajo de Spark estima el número pi mediante el método Monte Carlo. Genera puntos y y x en un plano cartesiano que da forma a un cuadrado unitario que encierra un círculo. El argumento de entrada (1000) determina la cantidad de pares x-y que se generarán; cuantos más pares se generen, mayor será la precisión de la estimación. En esta estimación, se usan nodos trabajadores de Dataproc para paralelizar el procesamiento. Para obtener más información, consulta Estimating Pi using the Monte Carlo Method y JavaSparkPi.java en GitHub.
8. Haz clic en Enviar.
  
  Tu trabajo se muestra en la página Detalles del trabajo. El estado del trabajo es En ejecución o Iniciado y cambia a Completado después de que se envía.
  
  Para evitar el desplazamiento en el resultado, haz clic en Line wrap: off, que es similar al siguiente:
```
Pi is roughly 3.1416759514167594
```
  Para ver los detalles del trabajo, haz clic en la pestaña Configuración.

Actualiza un clúster

Cambia la cantidad de instancias de trabajadores para actualizar tu clúster:

En el menú de navegación, haz clic en Clústeres.
En la lista de clústeres, haz clic en example-cluster.
En la página Detalles del clúster, haz clic en la pestaña Configuración.

Se mostrará la configuración del clúster.
Haz clic en Cambiar.
En el campo Nodos trabajadores, ingresa 5.
Haz clic en Guardar.

El clúster ya se actualizó. Para disminuir la cantidad de nodos trabajadores al valor original, sigue el mismo procedimiento.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página.

En la página Detalles del clúster de example-cluster, haz clic en Borrar para borrar el clúster.
Para confirmar que deseas borrar el clúster, haz clic en Borrar.

¿Qué sigue?

Prueba esta guía de inicio rápido con otras herramientas:
- Usa el Explorador de API.
- Usa Google Cloud CLI.
Aprende a diseñar reglas de firewall sólidas cuando creas un proyecto.
Aprende a escribir y ejecutar un trabajo de Spark Scala.