Guía de inicio rápido

En esta página, se muestra cómo usar Google Cloud Console para crear un clúster de Dataproc, ejecutar un trabajo simple de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en el clúster.

Puedes descubrir cómo realizar las mismas tareas con Guías de inicio rápido sobre cómo usar el Explorador de API y Guías de inicio rápido sobre cómo usar la herramienta de línea de comandos de gcloud.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página de selección de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  4. Habilita la API Dataproc.

    Habilita la API

Cree un clúster

  1. Ve a la página de Cloud Console Clústeres de Cloud Dataproc.
  2. Haz clic en Crear clúster.
  3. Ingrese example-cluster en el campo de Nombre
  4. Selecciona una región y zona para el clúster en los menús desplegables Region (Región) y Zone (Zona). Puedes seleccionar una región distinta, como us-east1 o europe-west1, para aislar los recursos (incluidas las instancias de VM y Cloud Storage) y las ubicaciones de almacenamiento de metadatos que usa Dataproc dentro de la región especificada. Si seleccionas una región distinta, puedes seleccionar "Sin preferencia" para que Dataproc elija una zona dentro de la región seleccionada para tu clúster (consulta Posición de zona automática de Dataproc). También puedes seleccionar una región global, que es un extremo multirregión especial que puede implementar instancias en cualquier zona de Compute Engine especificada por el usuario (cuando seleccionas una región global, debes seleccionar una zona). Consulta Extremos regionales para obtener más información sobre la diferencia entre los extremos globales y regionales. Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región y zona. También puedes ejecutar el comando gcloud compute regions list para ver una lista de las regiones disponibles.
  5. Usa los valores predeterminados para todas las demás opciones.

  6. Haz clic en Create (Crear) para generar el clúster.

El clúster nuevo debe aparecer en la lista de clústeres. El estado del clúster aparece como "Provisioning" (Aprovisionándose) hasta que esté listo para usarse y después cambia a "Running" (En ejecución).

Envía un trabajo

Haz lo siguiente para ejecutar un trabajo de Spark de muestra:

  1. Selecciona Jobs (Trabajos) en el menú de navegación izquierdo para cambiar a la vista de trabajos de Dataproc.
  2. Haz clic en Submit job (Enviar trabajo).
  3. Selecciona tu clúster nuevo example-cluster del menú desplegable Cluster (Clúster).
  4. Selecciona Spark del menú desplegable Job type (Tipo de trabajo).
  5. Ingresa file:///usr/lib/spark/examples/jars/spark-examples.jar en el campo del archivo JAR.
  6. Ingresa org.apache.spark.examples.SparkPi en el campo Clase principal o jar.
  7. Ingresa 1000 en el campo Arguments (Argumentos) para configurar el número de tareas.
  1. Haz clic en Submit (Enviar).

Tu trabajo debería aparecer en la lista de Jobs (Trabajos), que muestra los trabajos de su proyecto con el clúster, el tipo y el estado actual. El estado del trabajo aparece como "Running" (En ejecución) y cambia a "Succeeded" (Finalizado con éxito) cuando se completa. Realiza lo siguiente para ver el resultado del trabajo finalizado:

  1. Haz clic en el ID de trabajo, en la lista de Jobs (Trabajos).
  2. Selecciona Line Wrapping (Ajuste de línea) para evitar el desplazamiento.

Debes ver que tu trabajo calculó un valor aproximado de pi correctamente.

Actualiza un clúster

Haz lo siguiente para cambiar la cantidad de instancias de nodos trabajadores de su clúster:

  1. En el panel de navegación izquierdo, seleccione Clusters (Clústeres) para regresar a la vista de clústeres de Cloud Dataproc.
  2. Haz clic en example-cluster en la lista de Clusters (Clústeres). De forma predeterminada, la página muestra una descripción general del uso de CPU del clúster.
  3. Haz clic en Configuration (Configuración) para mostrar la configuración actual de tu clúster.
  4. Haga clic en Editar. Ahora, puedes editar la cantidad de nodos trabajadores.
  5. Ingrese 5 en el campo Nodos trabajadores.
  6. Haga clic en Save.

Tu clúster ya se actualizó. Sigue el mismo procedimiento para disminuir la cantidad de nodos trabajadores al valor original.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. En la página Clúster de example-cluster, haz clic en Borrar para borrar el clúster. Se te solicitará que confirmes si deseas borrar el clúster. Haz clic en Aceptar.
  2. También debes quitar cualquier depósito de Cloud Storage que creó el clúster mediante la ejecución del siguiente comando:
    gsutil rm gs://bucket/subdir/**
    

Qué sigue