Crea un clúster de Dataproc con la consola de Google Cloud

En esta página, se muestra cómo usar la consola de Google Cloud para crear un clúster de Dataproc, ejecutar un trabajo básico de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en el clúster.


Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guiarme:

GUIARME


Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

Crea un clúster

  1. En la consola de Google Cloud, dirígete a Dataproc página Clústeres.

    Ir a los clústeres

  2. Haga clic en Crear clúster.

  3. En el diálogo Crear clúster de Dataproc, haz clic en Crear en la fila Clúster en Compute Engine.

  4. En el campo Nombre del clúster, ingresa example-cluster.

  5. En las listas Región y Zona, selecciona una región y una zona.

    Selecciona una región (por ejemplo, us-east1 o europe-west1) para aislar los recursos, como las instancias de máquina virtual (VM), Cloud Storage y las ubicaciones de almacenamiento de metadatos que usa Dataproc, en la región. Para ver más información, consulta Regiones y zonas disponibles y Extremos regionales.

  6. Para todas las demás opciones, usa la configuración predeterminada.

  7. Para crear el clúster, haz clic en Crear.

    Tu clúster nuevo aparecerá en una lista de la página Clústeres. El estado es Aprovisionando hasta que el clúster esté listo para usarse y, luego, cambia a En ejecución. El aprovisionamiento del clúster puede tardar minutos.

Enviar un trabajo de Spark

Envía un trabajo de Spark que estime un valor de pi:

  1. En el menú de navegación de Dataproc, haz clic en Trabajos.
  2. En la página Trabajos, haz clic en Enviar trabajo y, luego, haz lo siguiente:

    1. En el campo Clúster, haz clic en Explorar.
    2. En la fila example-cluster, haz clic en Seleccionar.
    3. En el campo ID de trabajo, usa el parámetro de configuración predeterminado o proporciona un ID que sea único para tu proyecto de Google Cloud.
    4. En Tipo de trabajo, selecciona Spark.
    5. En el campo Main class or jar, ingresa org.apache.spark.examples.SparkPi
    6. En el campo Archivos JAR, ingresa file:///usr/lib/spark/examples/jars/spark-examples.jar.
    7. En el campo Arguments, ingresa 1000 para configurar la cantidad de tareas.

    8. Haz clic en Enviar.

      Tu trabajo se mostrará en la página Detalles del trabajo. El estado del trabajo es Running o Starting, y luego cambia a Succeeded se envía.

      Para evitar el desplazamiento en el resultado, haz clic en Ajuste de línea: desactivado. El resultado es similar a lo siguiente:

      Pi is roughly 3.1416759514167594
      

      Para ver los detalles del trabajo, haz clic en la pestaña Configuración.

Actualiza un clúster

Para actualizar tu clúster, cambia la cantidad de instancias de trabajadores:

  1. En el menú de navegación, haz clic en Clústeres.
  2. En la lista de clústeres, haz clic en example-cluster.
  3. En la página Detalles del clúster, haz clic en la pestaña Configuración.

    Se mostrará la configuración de tu clúster.

  4. Haz clic en  Editar.

  5. En el campo Nodos trabajadores, ingresa 5.

  6. Haz clic en Guardar.

El clúster ya se actualizó. Para disminuir la cantidad de nodos trabajadores al valor original, sigue el mismo procedimiento.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

  1. En la página Detalles del clúster de example-cluster, haz clic en Borrar para borrar el clúster.
  2. Para confirmar que deseas borrar el clúster, haz clic en Borrar.

¿Qué sigue?